Ausblick auf das Data Mesh: 4 Schritte für den Paradigmenwechsel
15.06.2023Anatoly Zelenin
IT-Trainer und Apache Kafka Experte
Mehr Artikel aus dieser Reihe
- Warum Apache Kafka?
- Daten in einer Microservice-Welt
- Ausblick auf Data Mesh (Dieser Artikel)
- Daten als Produkt
Wie wir IT-Landschaften designen, hat sich durch Microservices massiv verändert. Die Vorteile habe ich im vorherigen Beitrag erläutert, hier deshalb gerafft: Microservices machen Unternehmen handlungsfähiger, weil kleinere Teams meist effizienter und vor allem unabhängiger voneinander arbeiten können. Es gibt – wenn das Set-up richtig aufgesetzt wurde – weniger Wartezeiten und mehr Flow.
Entscheidend dafür ist, dass Daten in Echtzeit verfügbar sind. Wenn du Blog 1 und Blog 2 der Serie gelesen hast, wirst du die Vorteile der Echtzeitdatenverarbeitung und von Microservice-Architekturen verstehen. Data Mesh ist das nächste Level.
Das Data Mesh ist ein Game-Changer
Doch warum ist das Data Mesh ein Game-Changer? Zunächst die Definition:
Ein Data Mesh (auf Deutsch etwa: Datennetz) ist ein Konzept für die Organisation von Datenarchitekturen. Dieses basiert auf der Idee, dass die Verantwortung für Daten auf einzelne Teams oder Domänen verteilt wird. Was das konkreter heißt?
- Das Zeitalter der zentralisierten Datenverarbeitung ist beendet.
- Jedes Team ist für die Verwaltung seiner eigenen Datenprodukte und -dienste verantwortlich.
- Die Fachbereiche stellen den anderen Teams die aufbereiteten Informationen zur Verfügung.
Richtig aufgesetzt, wird sich die Skalierbarkeit und Flexibilität von Datenarchitekturen verbessern.
Beim Verständnis hilft ein plastisches Beispiel.
Stell dir vor, du postest bei LinkedIn. Du würdest die Likes und Kommentare, die dein Netzwerk hinterlassen, aber nicht live, sondern im mehrstündigen Versatz bekommen. Unvorstellbar und lästig, oder?
Wir sind es mittlerweile gewohnt, dass wir sofort eine Antwort erhalten. Das ist aber beileibe nicht selbstverständlich. Die IT-Infrastruktur muss das erst mal leisten können. Wir bleiben beim Beispiel LinkedIn-Post. Denn es kommt noch schlimmer.
Stell dir vor, du hast einen Post abgesetzt und erhältst unzählige Kommentare und Nachrichten. Bisher ist es in Unternehmen so geregelt, dass jemand anderes für dich diese Daten sammelt und clustert. Das Problem: Anders als du, weiß die Person nicht, welche Nachrichten für dich wichtig sind und welche nicht. Unter Umständen werden die für dich essenziellen Daten heraus gesiebt – oder in falsche Zusammenhänge gestellt. Du bekommst die Daten nicht nur spät – sondern auch verfälscht.
Viel besser: Alle Fachbereiche dürfen die für sich wichtigsten Informationen in Echtzeit aus dem Datenpool schöpfen. Und, das ist NEU: selbstbestimmt.
Doch noch sind wir weit von diesem Angebot entfernt. In den allermeisten Organisationen läuft es stattdessen so: Ein Team widmet sich der Datenaufbereitung. Diese werden nach dem besten Gewissen gesammelt und kuratiert. Das Problem: Diese Daten-Teams können oft die Qualität der Informationen nicht ansatzweise so präzise bewerten wie die Fachbereiche.
Durch zentrale Datenteams sind alle anderen Abteilungen abhängig von der Arbeit eines Fachbereichs. Das ist nicht nur ein Flaschenhals, sondern ein wirtschaftliches Risiko. Denn was soll passieren, wenn Menschen ohne Fachexpertise für die entsprechenden Fachbereiche eine Vorauswahl der Informationen treffen? Richtig: Chaos.
Wie geht es besser?
Mit Aufbruch. Wir müssen das Datenmanagement neu ordnen. Und zwar so, dass Fachteams sich selbst um ihre Datenprodukte kümmern dürfen. Und sie diese geprüften und sortierten Daten später allen anderen – veredelt – zur Verfügung stellen.
Das heißt nicht, dass die zentralen Daten-Teams bald keinen Job mehr haben. Im Gegenteil: Sie stellen über Apache Kafka die Infrastruktur bereit und schaffen eine Umgebung, in der Fachbereiche effizient mit ihren relevanten Daten jonglieren können. Das ist und bleibt ein komplexer wie wichtiger Job, auf den sich die Betroffenen noch stärker fokussieren können. Denn: Nur wenn die Daten-Plattform leicht bedient werden kann, werden die Fachbereiche sie auch bilateral nutzen. Also nicht nur Daten ziehen, sondern die geclusterten Informationen auch zurückgeben.
Denn künftig sollten die Fachbereiche die Informationen analysieren, die Qualität prüfen und die extrahierten Daten in einer neuen Wertigkeit publizieren. Diese wiederum werden im Data Mesh für alle Beteiligten in Echtzeit einsehbar.
Der Paradigmenwechsel
Dieser Aufbruch wäre mit einem Paradigmenwechsel verbunden.
Wir müssen weg von einem zentralen Team, das Daten auswertet. Es braucht ein Self-Service-Portal, in dem Fachbereiche für die Aufbereitung der relevanten Informationen zuständig sind.
- Wir dürfen Datenexport nicht mehr als Belastung sehen, sondern als ein wertvolles Produkt.
- Wir brauchen kein monolithisches Schema von oben nach unten, sondern ein Domain Driven System.
- Das alles funktioniert nur, wenn wir Daten nicht in verzögerten Batches übertragen, sondern in Echtzeit.
Mit einem Data Mesh schaffen wir genau diese Dateninfrastruktur. Wir beschaffen Daten ohne Tausende Verarbeitungsprogramme und ohne Datensumpf. Stattdessen können unterschiedliche Teams mit wenig Aufwand diese Systeme bedienen und die entsprechenden Daten für sich und alle anderen aufbereiten. Das ist die Idee hinter dem Data Mesh – und damit die Basis dafür, dass wir Daten als interne Produkte begreifen können.
Anatoly Zelenin vermittelt als IT-Trainer hunderten Teilnehmern Apache Kafka in interaktiven Schulungen. Seine Kunden aus dem DAX-Umfeld und dem deutschen Mittelstand schätzen seit über einem Jahrzehnt seine Expertise und seine begeisternde Art. Darüber hinaus ist er nicht nur IT-Berater und -Trainer, sondern erkundet auch als Abenteurer unseren Planeten.