Ausblick auf das Data Mesh: 4 Schritte für den Paradigmenwechsel

Das „Data Mesh“ ist in der IT-Szene ein echter Hype. Warum Unternehmen von einer dezentralisierten Datenarchitektur profitieren und wie Apache Kafka beim Etablieren dieser neuen Struktur hilft, erörtert dieser Artikel.

15.06.2023
  • Ausblick auf das Data Mesh: 4 Schritte für den Paradigmenwechsel

    Anatoly Zelenin

    IT-Trainer und Apache Kafka Experte

Mehr Artikel aus dieser Reihe

Wie wir IT-Landschaften designen, hat sich durch Microservices massiv verändert. Die Vorteile habe ich im vorherigen Beitrag erläutert, hier deshalb gerafft: Microservices machen Unternehmen handlungsfähiger, weil kleinere Teams meist effizienter und vor allem unabhängiger voneinander arbeiten können. Es gibt – wenn das Set-up richtig aufgesetzt wurde – weniger Wartezeiten und mehr Flow.

Entscheidend dafür ist, dass Daten in Echtzeit verfügbar sind. Wenn du Blog 1 und Blog 2 der Serie gelesen hast, wirst du die Vorteile der Echtzeitdatenverarbeitung und von Microservice-Architekturen verstehen. Data Mesh ist das nächste Level.

Das Data Mesh ist ein Game-Changer

Doch warum ist das Data Mesh ein Game-Changer? Zunächst die Definition:

Ein Data Mesh (auf Deutsch etwa: Datennetz) ist ein Konzept für die Organisation von Datenarchitekturen. Dieses basiert auf der Idee, dass die Verantwortung für Daten auf einzelne Teams oder Domänen verteilt wird. Was das konkreter heißt?

  1. Das Zeitalter der zentralisierten Datenverarbeitung ist beendet.
  2. Jedes Team ist für die Verwaltung seiner eigenen Datenprodukte und -dienste verantwortlich.
  3. Die Fachbereiche stellen den anderen Teams die aufbereiteten Informationen zur Verfügung.

Richtig aufgesetzt, wird sich die Skalierbarkeit und Flexibilität von Datenarchitekturen verbessern.

Beim Verständnis hilft ein plastisches Beispiel.

Stell dir vor, du postest bei LinkedIn. Du würdest die Likes und Kommentare, die dein Netzwerk hinterlassen, aber nicht live, sondern im mehrstündigen Versatz bekommen. Unvorstellbar und lästig, oder?

Wir sind es mittlerweile gewohnt, dass wir sofort eine Antwort erhalten. Das ist aber beileibe nicht selbstverständlich. Die IT-Infrastruktur muss das erst mal leisten können. Wir bleiben beim Beispiel LinkedIn-Post. Denn es kommt noch schlimmer.

Stell dir vor, du hast einen Post abgesetzt und erhältst unzählige Kommentare und Nachrichten. Bisher ist es in Unternehmen so geregelt, dass jemand anderes für dich diese Daten sammelt und clustert. Das Problem: Anders als du, weiß die Person nicht, welche Nachrichten für dich wichtig sind und welche nicht. Unter Umständen werden die für dich essenziellen Daten heraus gesiebt – oder in falsche Zusammenhänge gestellt. Du bekommst die Daten nicht nur spät – sondern auch verfälscht.

Viel besser: Alle Fachbereiche dürfen die für sich wichtigsten Informationen in Echtzeit aus dem Datenpool schöpfen. Und, das ist NEU: selbstbestimmt.

Ein Team von Data Engineers kümmert sich darum, dass alle Daten von allen Services zentral in einem Data Lake gesammelt werden. Da diese Teams die Qualität der Daten nicht präzise bewerten können, wird aus dem Data Lake oft ein Data Swamp – ein Datensumpf.

Doch noch sind wir weit von diesem Angebot entfernt. In den allermeisten Organisationen läuft es stattdessen so: Ein Team widmet sich der Datenaufbereitung. Diese werden nach dem besten Gewissen gesammelt und kuratiert. Das Problem: Diese Daten-Teams können oft die Qualität der Informationen nicht ansatzweise so präzise bewerten wie die Fachbereiche.

Durch zentrale Datenteams sind alle anderen Abteilungen abhängig von der Arbeit eines Fachbereichs. Das ist nicht nur ein Flaschenhals, sondern ein wirtschaftliches Risiko. Denn was soll passieren, wenn Menschen ohne Fachexpertise für die entsprechenden Fachbereiche eine Vorauswahl der Informationen treffen? Richtig: Chaos.

Wie geht es besser?

Mit Aufbruch. Wir müssen das Datenmanagement neu ordnen. Und zwar so, dass Fachteams sich selbst um ihre Datenprodukte kümmern dürfen. Und sie diese geprüften und sortierten Daten später allen anderen – veredelt – zur Verfügung stellen.

Wie geht es anders: ein zentrales Data Platform Team stellt eine Datenaustausch-Plattform zur Verfügung und die Fachbereiche sind dafür zuständig hochwertige und zuverlässige Daten zu liefern – und diese dann auch zu nutzen.

Das heißt nicht, dass die zentralen Daten-Teams bald keinen Job mehr haben. Im Gegenteil: Sie stellen über Apache Kafka die Infrastruktur bereit und schaffen eine Umgebung, in der Fachbereiche effizient mit ihren relevanten Daten jonglieren können. Das ist und bleibt ein komplexer wie wichtiger Job, auf den sich die Betroffenen noch stärker fokussieren können. Denn: Nur wenn die Daten-Plattform leicht bedient werden kann, werden die Fachbereiche sie auch bilateral nutzen. Also nicht nur Daten ziehen, sondern die geclusterten Informationen auch zurückgeben.

Denn künftig sollten die Fachbereiche die Informationen analysieren, die Qualität prüfen und die extrahierten Daten in einer neuen Wertigkeit publizieren. Diese wiederum werden im Data Mesh für alle Beteiligten in Echtzeit einsehbar.

Der Paradigmenwechsel

Dieser Aufbruch wäre mit einem Paradigmenwechsel verbunden.

Wir müssen weg von einem zentralen Team, das Daten auswertet. Es braucht ein Self-Service-Portal, in dem Fachbereiche für die Aufbereitung der relevanten Informationen zuständig sind.

  • Wir dürfen Datenexport nicht mehr als Belastung sehen, sondern als ein wertvolles Produkt.
  • Wir brauchen kein monolithisches Schema von oben nach unten, sondern ein Domain Driven System.
  • Das alles funktioniert nur, wenn wir Daten nicht in verzögerten Batches übertragen, sondern in Echtzeit.

Mit einem Data Mesh schaffen wir genau diese Dateninfrastruktur. Wir beschaffen Daten ohne Tausende Verarbeitungsprogramme und ohne Datensumpf. Stattdessen können unterschiedliche Teams mit wenig Aufwand diese Systeme bedienen und die entsprechenden Daten für sich und alle anderen aufbereiten. Das ist die Idee hinter dem Data Mesh – und damit die Basis dafür, dass wir Daten als interne Produkte begreifen können.