DiDaMe - Towards a Distributed Data Mesh Platform: Federating Data Management, Governance and Access

Neuartige Datenverwaltungsarchitekturen, um die Nachteile herkömmlicher, monolithischer Datenplattformen zu überwinden.

Hintergrund

Föderierte Informationssysteme verbinden mehrere Informationsquellen miteinander und erlauben es auf Daten zuzugreifen, ohne dass diese in einem zentralen System abgelegt werden. Anders gesagt, föderierte Systeme führen Daten aus verschiedenen Datenquellen in einem gemeinsamen Modell zusammen, ohne dabei den autonomen Status der Datenquellen einzuschränken. In der Praxis handelt es sich bei den meisten Systemen jedoch entweder um Data-Warehouse-Technologien, die für die Abfrage großer Mengen "historischer" Daten verwendet werden, oder um Data-Lake-Technologien, die Daten in ihrer Rohform (z. B. Dateien) speichern. Diese Ansätze haben jedoch schwerwiegende Nachteile, da sie zu „zentralisierten, monolithischen“ Datenverwaltungsplattformen führen, bei denen es keine klaren Bereichsgrenzen gibt und die Zugehörigkeit von Daten zu bestimmten Domänen kaum nachvollziehbar ist. Solche Systeme sind vor allem für große Unternehmen mit mannigfaltigen Datenquellen und verschiedenen Anwender*innen schwer zu verwalten.

Projektinhalt

Die Dezentralisierung monolithischer Datenplattformen wie Data Lakes oder Data Warehouses erfordert ein Umdenken im Datenmanagement und wie die Zugehörigkeit von Daten verwaltet wird. Als vielversprechendes Konzept in diesem Zusammenhang gelten Data Meshes, in denen Dateninfrastrukturen als ein „Geflecht“ von verteilten "Datenprodukten" organsiert sind. Anders als bei einer zentralen Data-Lake-Infrastruktur sind bei Data Meshes die Eigentumsrechte an den Daten klar definiert. Es gibt kein zentrales Team, das für die Daten verantwortlich ist. Die Kontrolle über sie ist auf die verschiedenen Standorte und die Geschäftsbereiche verteilt, aus denen die Daten stammen.

Die Herausforderung, der sich dieses Projekt stellt, besteht darin, eine bestehende Data-Mesh-Plattform über mehrere Standorte zu verteilen. Wir haben vor, eine neuartige Lösung für die Verteilung von Datensätzen (mit Metadaten, Zugriffsrichtlinien und Governance-Funktionen) über mehrere Standorte und Organisationen zu erarbeiten.

Ziele und Methoden

Die Hauptidee hinter dem Konzept der Data Meshes ist ein „Produktdenken“ auf eine Datenmanagement-Architektur anzuwenden, um die Probleme, die herkömmliche, monolithischer Datenplattform haben, zu beheben. Gemeinsame mit dem Projektpartner Nexyo bauen wir auf dieses Konzept auf und entwickeln eine neuartige Lösung für eine vollständig verteilte Data Mesh-Plattform. Eine solche Plattform soll eine föderierte Verwaltung von Daten ermöglichen und Richtlinien (z. B. die Zugriffskontrolle) über die Zuordnung und Zugehörigkeit einzelner Datenprodukte definieren. Die Ziele unseres Projekts sind,

  • zu eruieren, welche Anforderungen verschiedene Interessensgruppen und Anwender*innen an verteilte Datenplattformen stellen. Wie die Datendomänen organisiert werden müssen und wie die Datenverwaltung den einzelnen Dateneigentümern zugewiesen wird, sind Fragen, die hierbei geklärt werden.
  • ein Modell einer System-Architektur zu entwickeln, das detailliert beschreibt, wie die Domänen und die entsprechenden Datenprodukte über verschiedene Infrastrukturen und Organisationen verteilt sind.
  • den Aufbau einer geeigneten System-Architektur zu erforschen, um Antworten auf Fragen wie ein Konsens über die verteilte Plattform hinweg (z. B. über den Zustand der Daten und Aktualisierungen der Metadaten) und eine Einigung über Governance-Entscheidungen (z. B. Zugriffskontrollrichtlinien) erreicht werden können, zu liefern.
  • die Entwicklung eines Prototyps, der in die bestehende Data Hub-Lösung von Nexyo integriert werden kann.

Ergebnisse

Die aus dem Projekt resultierenden Publikationen stellen die Forschung zur Konzeption und Implementierung von Data-Mesh-Plattformen ins Schaufenster und unterstreichen deren Wichtigkeit für Fachleute, die sich mit Datenmanagement, Informationssystemen und Data Science beschäftigen. Der Unternehmenspartner Nexyo wird die Projektergebnisse zudem in ein marktfähiges Produkt umsetzen. Dieser Prozess wird vom gesamten Projektteam begleitet, ebenso wie die notwendigen Schritte zur Umsetzung der Projektergebnisse und die Verfeinerung und Weiterentwicklung des Produktes. Da der Partner Nexyo über ein weites Netzwerk von Unternehmen verfügt, die mit Daten arbeiten, können die Ergebnisse aus dem Projekt überdies über die Landesgrenzen hinaus bekannt gemacht werden und dazu beitragen, Data Mesh-Architekturen als neuen Standard auf europäischer Ebene zu etablieren.

Sie wollen mehr wissen? Fragen Sie nach!

Senior Researcher Institut für IT Sicherheitsforschung
Department Informatik und Security
Arbeitsplatz: B - Campus-Platz 1
Externe Projektleitung
Andreas Krimbacher
Externe MitarbeiterInnen
Natascha Totzler
PartnerInnen
  • nexyo GmbH
Finanzierung
FFG (Bridge)
Laufzeit
01.03.2022 – 31.08.2024
Projektstatus
laufend
Beteiligte Institute, Gruppen und Zentren
Forschungsgruppe Data Intelligence
Institut für IT Sicherheitsforschung