Data Lakes und Data Warehouses sind Schlagwörter, die man hört, wenn es um die Datenaufbewahrung im Kontext mit Big Data geht. Tatsächlich bezeichnen sie auch zwei unterschiedliche Ansätze. Der „See“ ist beim Data Lake tatsächlich ein stimmiger Begriff: Ein großes Becken gefüllt mit Rohdaten die unstrukturiert und noch ohne bestimmte Verwendung dort aufbewahrt werden. Ein Data Warehouse dagegen hält geordnet strukturierte, gefilterte Daten auf Vorrat. Zu welchem Zweck sollt man welchen Ansatz verwenden?
Ein Ort sie alle zu finden
Unternehmen erhalten riesige Datenmengen, auf unterschiedlichsten Wegen und verschiedenen Quellen. Sie gehen oft über das hinaus, was herkömmliche relationale Datenbanken bewältigen können. Man benötigt dazu zusätzliche Systeme und Tools zur Verwaltung.
Alle diese Daten-Speicher haben eine Aufgabe: Sie beherbergen Daten für Geschäftsberichte und Analysen. Aber sie unterscheiden sich in ihrem Zweck, ihrer Struktur, den Datentypen, Herkunft und wer Zugriff auf sie hat.
Oft kommen die Daten in diese Speicher zunächst aus Systemen, die Daten generieren – CRM, ERP, HR, Finanzanwendungen und andere ähnliche Anwendungen. Die aus diesen Systemen erstellten Datensätze werden gemäß der dort hinterlegten Regeln teils angewendet oder/und erzeugt. Danach landen sie in einem zentralen Speicher. Dort können sie dann mit Analysewerkzeugen ausgewertet und in verschiedenen Kontexten interpretiert werden. So entstehen neue Erkenntnisse, werden Trends sichtbar um Entscheidungen ab vom Bauchgefühl leichter zu machen. Viele Unternehmen nutzen sowohl einen Data Lake als auch ein Data Warehouse, um das Spektrum ihrer Datenspeicheranforderungen abzudecken.
Was ist ein Data Lake?
Ein Data Lake ist ein riesiges Repository, das Rohdaten in ihrem ursprünglichen Format speichert. Dass ein Data Lake dabei ganz unterschiedlichen Strukturen speichern kann, ist ein wesentliches Merkmal und Vorteil. Dabei wird jedes gespeicherte Datenelement mit einem eindeutigen Bezeichner und Metadaten versehen. So kann es bei Bedarf wiedergefunden und zugeordnet werden. Einen vordefinierten Zweck haben dabei die einzelnen Datensätze meistens nicht. Es sammelt man Daten mehr nach einem Vorratsprinzip: Was man hat, hat man.
Dabei kommt einiges zusammen, was viele Anwender in Cloud zu den großen Datenspeichern auswandern lässt.
Data Lakes werden typischerweise von Data Scientists und Ingenieuren genutzt, die es vorziehen, Daten in ihrer Rohform zu untersuchen, um neue, einzigartige Geschäftseinblicke zu gewinnen.
Sie bedienen dabei Disziplinen wie Predictive Analytics, Machine Learning, Data Visualisierung, BI, Big Data Analytics.
Die Speicherkosten sind in einem Data Lake im Vergleich zu einem Data Warehouse relativ günstig. Data Lakes sind auch weniger zeitaufwendig zu verwalten, was die Betriebskosten reduziert.
Was ist ein Data Warehouse?
Ein Data Warehouse ist ein Speicher für Daten, die Geschäftsanwendungen für einen vorgegebenen Zweck gesammelt oder/und generieren. Solche Anwendungen wenden ein vordefiniertes Schema zur Ablage der Daten an. Die Daten muss man dabei bereinigen und organisieren, bevor sie im Data Warehouse eingelagert werden.
Da die in einem Data Warehouse gespeicherten Daten bereits strukturiert sind, eignen sich diese besser für High-Level-Analysen. BI-Tools können leicht mit den verarbeiteten Daten aus einem Data Warehouse umgehen. Das macht es Nicht-Datenexperten leichter diese Daten sinnvoll zu nutzen.
Die Daten aus einem Data Warehouse können zur Unterstützung historischer Analysen und Berichte verwendet werden, um die Entscheidungsfindung in allen Geschäftsbereichen eines Unternehmens zu unterstützen.
Auf Daten aus einem Data Warehouse greifen in der Regel Manager und Fachanwender zu, die Einblicke in geschäftliche KPIs gewinnen wollen. Die Daten sind bereits so strukturiert, dass sie Antworten auf vorher festgelegte Fragen für die Analyse liefern. Sie erzeugen dabei in der Regel Datenvisualisierung, BI-Analysen, Datenanalytiken.
Data Warehouses kosten mehr als Data Lakes und erfordern auch mehr Zeit für die Verwaltung, was zu zusätzlichen Betriebskosten führt.