Inside Data Lake (Teil 4)

Daten allein sind nicht genug

Im dargestellten See sorgt eine große Vielfalt an Fischen sowie die Transparenz bezüglich ihrer Herkunft und Eigenschaften für eine große Nachfrage bei den Anglern. Auch im Data Lake steht einer ausgiebigen Verwendung der Daten nichts im Wege, solange deren Herkunft und Eigenschaften bekannt sind und die Datenqualität den vorab definierten Anforderungen genügt. Aber wie können diese Voraussetzungen sichergestellt werden?

So viele Daten – und wer ist dafür zuständig?

Im Data Lake schaffen die Instrumente „Business Glossar“, „Data Lineage“ und „DQ-Kontrollen“ Transparenz und Ordnung. Werden die Informationsobjekte eines Glossars aber nicht von kompetenter Seite mit Informationen gefüllt oder die Metadaten für die Data Lineage-Erzeugung ohne entsprechendes Know-how bereitgestellt, so besteht die Gefahr einer fachlich unsachgemäßen Dokumentation und in der Folge einer fehlerhaften Auswahl bzw. Verwendung der Daten durch die Abnehmer.

Und wenn einmal etwas mit der Datenqualität nicht stimmt? Wird das nicht frühzeitig erkannt oder werden identifizierte DQ-Auffälligkeiten nicht rechtzeitig analysiert und im Fehlerfall behoben, so besteht das Risiko fehlerhafter Methodenverarbeitungen oder Reports, die diese Daten enthalten. In der Folge sind betroffene Berichte bzw. Methodenergebnisse nur eingeschränkt bis gar nicht nutzbar. Die Daten müssen kurzfristig “repariert” und die entsprechenden Verarbeitungsschritte wiederholt werden. Zeitverzug in der Berichterstattung und ein Akzeptanzverlust bezüglich der damit verbundenen Steuerungsmechanismen können die Folge sein.

Doch wer liefert, aktualisiert und verantwortet die Informationen in den oben genannten Instrumenten bzw. kümmert sich um die Datenqualität? Einem freiwilligen und kurzfristigen Handeln fehlt erfahrungsgemäß aus Budget- und Zeitgründen die Verbindlichkeit. Ist die Verantwortungszuordnung für Daten nicht erfolgt und transparent hinterlegt, so führt dies in jeder Einzelsituation - sei es bei der Frage nach fachlichen Informationen zu bestimmten Daten oder der Vorbeugung bzw. Bearbeitung von qualitativen Datenmängeln - zunächst zu Abstimmaufwänden, zeitlichem Verzug, sowie Schleifen und ggfs. Deadlocks bei der Suche nach einem kompetenten und autorisierten Data Owner.

Data Ownership – Verantwortung im Data Lake

So wie im Anglerparadies Verantwortung für alle Fischarten übernommen werden sollte, ist also auch in einem Data Lake für alle Datenbereiche eine eindeutige Verantwortungszuordnung erforderlich. Dabei muss es möglich sein, die Data Ownership bis auf die Datenfeldebene herunterzubrechen. Die Zuordnung der Datenverantwortung kann im Wesentlichen zwei unterschiedlichen Prinzipien folgen:

  • Gemäß der Linienverantwortung am Ort der Datenhaltung
  • Dem Verursachungsprinzip entsprechend entlang des Datenflusses

Im ersten Fall orientiert sich die Data Ownership primär an den Systemgrenzen, d. h. die im „Hoheitsgebiet“ einer Anwendung oder Verarbeitungsschicht vorgehaltenen Daten werden - unabhängig von ihrer Herkunft und Entstehung - vom fachlichen System-Owner gemäß der Linienorganisation verantwortet. Im Data Lake können dies auch mehrere große Datenbereiche und entsprechende Datenbereichsverantwortliche sein. Diesem Ansatz widerspricht aber häufig das fehlende fachliche Know-how über die Daten, wenn diese nicht in der eigenen Anwendung erzeugt werden, sondern bereits prozessual vorgelagerten Anwendungssystemen und Methodiken entstammen.

Im zweiten Fall wird daher in einer Verarbeitungskette - dem Verursachungsprinzip folgend - die Data Ownership für ein Attribut entsprechend der Erfassung bzw. Erzeugung vergeben und solange beibehalten, bis dieses verändert wird (z. B. durch Transformation, bedingtes Mapping etc.). Dann wechselt die Datenverantwortung gemäß der Verantwortung für die Veränderungslogik. Dies führt in der Praxis dazu, dass die Datenverantwortung für sinnvolle fachliche Datendomänen (homogene Datendomänen) in verschiedenen organisatorischen Bereichen liegen kann.

Die gewählten Prinzipien können auch in Mischformen zusammengeführt werden. Zentrale Erfolgsfaktoren der für das Unternehmen passenden organisatorischen Festlegung sind einerseits ein optimaler Fit mit der Firmenkultur und andererseits eine Verankerung der Bedeutung von Daten und Data Ownership im Gedankengut der Organisation. Wie in unserem Bild dargestellt, wird der Erfolg des Data Lake davon getragen, dass die Daten als strategischer Wert des Unternehmens betrachtet und von einem engagierten und befähigten Betreuerteam „trainiert“ werden.

Unabhängig davon sind die Informationen über die Data Ownership für die Daten innerhalb des Data Lake möglichst an zentraler Stelle (z. B. im Rahmen der Data Lineage-Dokumentation) und für alle Nutzer sichtbar vorzuhalten. Auch im Rahmen des DQ-Issue-Managements sind diese Zuständigkeiten dann Grundlage für die Umsetzung von DQ-Kontrollen und die Adressierung von DQ-Befunden.

09.09.2021