Warum Apache Kafka?

Jedes Unternehmen, das unzählige Datenströme verarbeitet, kann diese mithilfe von Apache Kafka optimieren. Die erste Lektion dieser vierteiligen Blog-Reihe zeigt dir, warum sich größere Organisationen dieser Software zuwenden sollten.

10.05.2023
  • Warum Apache Kafka?

    Anatoly Zelenin

    IT-Trainer und Apache Kafka Experte

Mehr Artikel aus dieser Reihe

Lass uns über ein Problem reden, das dich mit großer Sicherheit betrifft.

Die Batch-Verarbeitung ist noch immer Standard in zu vielen Unternehmen. Und das, obwohl sie den Wunsch nach sofortigem Zugang zu Informationen nicht erfüllen kann.

Im Jahr 2023 ist Folgendes noch immer Normalzustand in vielen Unternehmen: Pünktlich in der Nacht beginnen Batch-Systeme ihre Arbeit. Was sie machen?

Sie synchronisieren Daten. Fertigen Reports zum Vortag an. Befüllen das organisationsinterne Data Warehouse. Wohlgemerkt: mit Daten von gestern. Das ist so, als würde der Bäcker das alte Brot noch mal neu aufbacken.

Einige Beispiele für Batch-Jobs: Synchronisation zwischen Systemen, Generierung von Reports, oder das Befüllen von Data-Warehouses

Nicht falsch verstehen: Ich verteufle dieses Vorgehen nicht grundsätzlich. Batch-Systeme haben ihre Vorteile.

  • • Sie nutzen günstige Rechenkapazitäten in der Nacht. Das reduziert die Serverlast, wenn Kundinnen und Kunden auf Systeme zugreifen.
  • • Sie können große Datenmengen effizient verarbeiten, wenn diese vorher bekannt sind.
  • • Sie sind perfekt in zyklischen Verarbeitungsprozessen. Vor allem, wenn es um Lohnabrechnungen, Steuern und Ähnliches geht.

Es gibt aber ein Aber. Kleiner Tipp: Es hat mit einem Song von Queen zu tun.

»I want it all. I want it now.«

Ein großer Teil der Kundschaft will alles – und alles möglichst JETZT sofort. Wenn du nicht komplett aus der Reihe scherst, solltest du dieses Gefühl kennen. Menschen ticken nun mal so.

Batch-Systeme sind jedoch immer mit einer Verzögerung verbunden. Das Jetzt gibt es mit ihnen nicht. Das ist ungünstig in einer dynamischen Welt, die sich, kein Spaß, im Jahr 2022 sogar physikalisch schneller drehte.

Die Daten von gestern sind am nächsten Morgen meist verstaubt. Ich frage mich:

Warum ahnen Marktleitende nicht mal, wie viel Shampoo eigentlich JETZT im Regal steht?

Warum wissen die Verantwortlichen im Paketverteilzentrum nicht, wie viele Pakete in der nächsten Stunde ankommen?

Und warum gibt es noch immer Banken, die uns Wochen warten lassen, bevor sie uns mitteilen, wie viel Geld der Kauf via Kreditkarte im Ausland gekostet hat?

Veraltete Daten führen oft zu bösen Überraschungen

Batch-Systeme sind verlässlich, aber zugleich in vielen Bereichen genauso ein verlässlicher Bremsklotz.

Wie es besser geht?

Mit Apache Kafka.

Mit dieser Software können Unternehmen im 21. Jahrhundert ankommen und »live« auf die wichtigsten Daten zugreifen.

Willkommen in der Welt der Echtzeit-Datenverarbeitung!

Anstatt dass IT-Systeme Daten für sich behalten und sie nur ausspucken, wenn sie danach gefragt werden (zum Beispiel um 4 Uhr nachts, wenn der Batch-Job losgeht), sollten IT-Systeme Ereignisse – also Daten – sofort veröffentlichen. Bestenfalls maschinell sortiert und kuratiert.

Ein Ereignis (etwa eine Kundenregistrierung) löst zahlreiche Aktivitäten in unterschiedlichsten Systemen aus.

Was das bringt? Zunächst Kostenersparnisse und Wettbewerbsvorteile. Mehr noch:

  • • Verschiedene Systeme sind sofort miteinander vernetzt. Das CRM (Customer Relationship Management-Programm) kann den neuen Kontakt automatisch an die Software weiterleiten, die die Begrüßungsmail versendet. Nicht nur Menschen teilen schneller ihr Wissen, sondern vor allem Programme.
  • • Das Management bekommt einen Echtzeit-Überblick über das, was momentan im Unternehmen passiert.
  • • Du kannst Entscheidungen treffen, sobald es notwendig ist. Und nicht erst morgen.

All das macht Apache Kafka möglich – wenn du dieses komplexe System steuern kannst. Wie das bei Microservice-Architekturen funktioniert, liest du bald in meinem Blog.