Inside Data Lake (Teil 1)

Überraschungen im Data Lake

Wie der Angler im Bild sind auch die Daten-Verwender eines Data Lake vor Überraschungen nicht immer gefeit. Alle Aktivitäten eines Daten-Lieferanten bezüglich neuer Daten, Änderungen von Daten (Inhalte/Strukturen), deren Wegfall oder zeitliche Anpassungen von Lieferungen haben potenziell direkte Auswirkungen auf alle relevanten Daten-Verwender.

Gefahr für den Nutzen des Data Lake

Die Nachvollziehbarkeit von Datenströmen und die vollständige Ermittlung von Daten-Lieferanten, Daten-Verwendern und deren Abhängigkeiten ist für eine dauerhaft effektive Nutzung in einem sich weiterentwickelnden Data Lake von elementarer Bedeutung. Gleichzeitig ist dies bei der dynamischen Nutzung und der Vielzahl der beteiligten Parteien in einem Data Lake sehr komplex und aufwändig sicherzustellen.

Findet keine durchgängige Auswirkungsanalyse von Änderungen und Erweiterungen im Data Lake und somit keine vollständige Abstimmung/Kommunikation bezüglich der Änderungen von Datenlieferungen statt, bestehen erhebliche Risiken auf Seiten der Daten-Verwender. Werden relevante Daten-Verwender im Rahmen von Konzeption und Test nicht berücksichtigt, so sind entsprechende negative Effekte bei der Produktivnahme von Anpassungen oder Erweiterungen der Lieferketten nicht auszuschließen. Die Folgen für die Nutzung des Data Lake und der entstandene interne und externe Vertrauensschaden sind immens:

  • Strukturelle oder technische Änderungen führen zu Abbrüchen der Verarbeitungsprozeduren.
  • Inhaltliche Änderungen führen zu Fehlinterpretationen von Reports und Auswertungsergebnissen und somit zu falschen Entscheidungen, die auf dieser Basis getroffen werden.
  • Insbesondere in der Kundenkommunikation bestehen erhebliche Reputationsrisiken, wenn diese auf Basis intransparenter oder falscher Informationen erfolgt.

Data Lineage zur Risiko-Mitigation

Bei der angestrebten breiten Fächerung der Quellen, Nutzer und Daten von Data Lakes ist die Durchführung einer Auswirkungsanalyse in der Regel mit Bord-Mitteln nicht mehr leistbar. In diesem Kontext ist eine eindeutige Tool-unterstützte Kenntnis/Dokumentation über die Herkunft und Verwendung von Daten (Data Lineage) im Data Lake erforderlich. Dies ermöglicht eine Analyse der potenziellen Auswirkungen jeder Änderung/Anpassung von Datenlieferungen zuverlässig und automatisiert. Dadurch wird die Identifikation aller tangierten Organisationseinheiten und ihre Einbeziehung in Konzeptions- und Testprozesse sichergestellt.

Eine konsequente und durchgängige Abstimmung in Kombination mit vollständigen Test- und Freigabeprozessen dient der Absicherung des Betriebs des Data Lake bei Anpassungen von Daten und Datenstrukturen. (Teil-) Automatisierte Lösungen stellen die benötigten Informationen bedarfsgerecht und aufwandsschonend zur Verfügung.

Der Aufbau der Data Lineage sollte parallel zu den entsprechenden Umsetzungsprojekten erfolgen, um die Synergien zu den Dokumentationsaktivitäten und die Verfügbarkeit des Know-hows zu nutzen. Somit wird das Risiko kritischer Überraschungen im Data Lake signifikant und effizient gesenkt und die Investition in den Data Lake abgesichert.

10.06.2021