Wie Sie Data Warehouses sinnvoll für Ihr Unternehmen einsetzen können

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein zentrales System, in dem die Daten eines Unternehmens effektiv gespeichert und verwaltet werden können. Sowohl aktuelle als auch historische Daten aus einer beliebigen Anzahl von Quellen können so an einer einzigen Stelle gesammelt, miteinander verknüpft und ausgewertet werden. Dies hilft Unternehmen dabei, bessere oder neue Einblicke in Geschäftsaktivitäten zu erhalten und fundierte Entscheidungen zu treffen.

Verglichen mit einem Data Lake, der in erster Linie zum Ansammeln von Rohdaten dient, die dann von Data Scientists beliebig verknüpft und ausgewertet können, werden die Daten in einem Data Warehouse dabei gleich gefiltert, aufbereitet und strukturiert, so dass sie direkt für Reportings und Analysen zur Verfügung stehen.

 

Wie funktioniert ein Data Warehouse?

Die Daten, welche in einem Data Warehouse vorliegen, werden zunächst anhand ihrer Strukturierung bewertet, verarbeitet, organisiert und zur weiteren Analyse umgewandelt. Danach stehen sie den Benutzern im Data Warehouse zur Verfügung.

Die Architektur eines Data Warehouse besteht dabei aus drei Ebenen:

  1. Der unteren Ebene mit dem eigentlichen Datenbank-Server, auf der die unterschiedlichen Daten gespeichert und geladen werden.
  2. Der mittleren Ebene, auf der Datenzugriffe und Analysen erfolgen.
  3. Der oberen Ebene mit Tools zum Reporting und Data Mining, auf der die Ergebnisse dargestellt werden.

Ein typisches Data Warehouse hat zudem die folgenden Schlüsselkomponenten:

  • Eine zentrale Datenbank – Hier wird ein normales relationales Database Management System (DBMS) wie beispielsweise MySQL oder MariaDB eingesetzt, um die Daten, die als Grundlage für das Data Warehouse verwendet werden, zu speichern und zu verwalten.
  • ETL-Tools – “ETL” steht für “Extraction, Loading & Transformation”. Diese Tools beziehen Daten aus der zentralen Datenbank, wandeln sie so um, dass sie mit anderen Datensätzen verknüpft werden können und bereiten sie zur weiteren Analyse vor.
  • Access-Tools – Diese Tools stellen die Funktionen zum eigentlichen Zugriff des End-Users auf die Daten zur Verfügung. Mit ihnen können Analysen durchgeführt, Queries abgesetzt, Berichte erstellt und Data Mining durchgeführt werden. Zusätzlich dazu dienen die Access-Tools auch zum Visualisieren und Präsentieren der Daten. Selbstverständlich ist es auch möglich, hier ausgeklügelte KI-basierte Tools einzusetzen.
  • Metadaten – Hierbei handelt es sich um Daten, die andere Daten beschreiben - beispielsweise um ihre Herkunft festzuhalten oder ihre Struktur zu definieren.

All diese Elemente fügen sich zu einem einzigen System zusammen, das auf den schnellen Datenzugriff und ebenso effiziente wie tiefgreifende Analysen ausgelegt ist.

Welche Daten fließen in ein Data Warehouse mit ein?

In einem Data Warehouse können prinzipiell Daten aus nahezu beliebigen Quellen gespeichert, verarbeitet und abgerufen werden - genau auf diese Aufgabe ist es ausgelegt. Aus Kostengründen ist es dennoch empfehlenswert, im Vorfeld zu planen, welche Daten Sie wie lange in Ihrem Data Warehouse vorrätig halten möchten, anstatt den oftmals ebenso verlockenden wie unnötigen “Viel hilft viel”-Ansatz zu fahren.

Die Daten, die in ein Data Warehouse einfließen, können strukturiert, halbstrukturiert oder unstrukturiert sein und aus Quellen wie internen Anwendungen, Drittanbieter-Systemen wie etwa ERP-, CRM-, Logistik-Systemen oder der E-Commerce-Plattform selbst kommen. Hier sind nur einige Beispiele für Datenquellen, deren Datensätze in einem Data Warehouse zusammengeführt werden können:

  • Rohdaten aus Analytics-Plattformen wie Google Analytics Kampagnendaten aus Werbenetzwerken wie Google Ads oder Facebook Ads
  • Marketingdaten aus Tools wie Mailchimp oder Hubspot Bestelldaten aus E-Commerce-Systemen wie Adobe Commerce powered by Magento und Shopware
  • Kundendaten aus CRM-Systemen wie SalesForce oder MS Dynamics CE
  • Lagerbestandsinformationen aus ERP-Systemen wie SAP Hana oder Microsoft Dynamics 365 F&O

 

Anbieter von Data Warehouses

In der Vergangenheit mussten sich Unternehmen selbst komplexe Infrastrukturen aufbauen, um ein Data Warehouse zu errichten. Mit der zunehmenden Verbreitung von Cloud-Technologien und automatisierten Tools haben sich glücklicherweise einige Anbieter auf dem Markt etabliert, die sowohl den Aufwand als auch die Kosten für ein Data Warehouse maßgeblich reduzieren.

Diese Cloud-basierten Plattformen wie Snowflake, Google BigQuery, Microsoft Azure Synapse oder Amazon Redshift sind allesamt flexibel, schnell, kosteneffizient und hochgradig skalierbar. Insbesondere Unternehmen, die bereits eine Reihe von Google-Diensten wie Analytics, Ads oder Data Studio nutzen, sollten BigQuery unbedingt in die engere Auswahl mit einbeziehen, da die Integration dieser Dienste hierbei schneller und nahtloser erfolgen kann, als bei den meisten anderen Anbietern.

 

Wie können Sie ein Data Warehouse verwenden?

Unternehmen, die ein Data Warehouse für sich nutzen haben dadurch einen Vorteil, dass sie die richtigen Informationen für alle kritischen Entscheidungen erhalten und so zutreffendere Prognosen in den Bereichen der Produktentwicklung und Preisfindung, des Marketings und der Kundenzufriedenheit erstellen können, um ein fortwährendes und stabiles Unternehmenswachstum zu garantieren.

Frequenz der Datenaktualisierung

Abhängig von der gewünschten Aktualität der Daten gibt es zwei verschiedene Ansätze für deren Aktualisierung: Batchverarbeitung und Streams. Bei der Batchverarbeitung werden die Daten in festgelegten Abständen – beispielsweise stündlich oder täglich – in das Warehouse hochgeladen und dort aufbereitet. Beim Streaming hingegen senden die angebundenen Quellen ihre Updates in Echtzeit an das Data Warehouse und ermöglichen so den sofortigen Zugriff darauf.

Data Pipelines

Je nachdem, wie viele Ressourcen Sie in die Entwicklung der Pipelines, welche die Daten aus den Quellsystemen an das Data Warehouse spielen, aufwenden möchten, können Sie die Daten entweder direkt an das Warehouse senden oder Middlewares von Drittanbietern dazu einsetzen.

Wenn Sie die Daten direkt einspielen, dann können Sie dies sogar über manuelle oder automatisierte Uploads tun, sofern Sie eine Batchaktualisierung verwenden. Sollen Ihre Daten hingegen über Streams stets auf dem neuesten Stand gehalten werden, dann müssen die Quellsysteme per API an das Data Warehouse angebunden werden.

Alternativ hierzu gibt es auch Drittanbieter wie Zapier oder Hevo, die Middlewares zur Verfügung stellen, mit denen derartige Pipelines automatisiert werden können und die so gegebenenfalls den Entwicklungsaufwand verringern.

Laufenden Kosten

Die laufenden Kosten für ein Data Warehouse variieren von Anbieter zu Anbieter. Den meisten hiervon ist allerdings gemein, dass sich die laufenden Kosten anhand der folgenden Schlüsselfaktoren zusammensetzen:

  • Data Streaming – Anders als Batchverarbeitung wird die Aktualisierung über Datenstreams für gewöhnlich als ein getrennter Service behandelt, für den Zusatzkosten in Rechnung gestellt werden.
  • Speichervolumen – Je mehr Daten vorrätig gehalten werden, desto höher sind die monatlichen Kosten. Einige Anbieter unterscheiden hier jedoch noch zwischen aktivem Speicher, der für aktuelle Auswertungen dient, und dem günstigeren Langzeitspeicher, in dem historische Daten archiviert werden.
  • Queryvolumen – Dies wird anhand der Datenmenge berechnet, die als Ergebnis von SQL-Befehlen verarbeitet wird. Abfragen, bei der die Inhalte vieler verschiedener Tabellen miteinander verknüpft werden sind also teurer als Abfragen, bei denen nur wenige Tabellen nötig sind, um das gewünschte Ergebnis zu erhalten.

Das verbreitetste Abrechnungsmodell ist die On-Demand-Variante, bei der die Kosten in jedem Abrechnungszeitraum anhand der in Anspruch genommenen Ressourcen berechnet werden. Einige Anbieter von Data Warehouses haben allerdings auch Flatrate-Tarife im Programm, die zwar weniger Flexibilität, dafür jedoch besser planbarere laufende Kosten bieten. Hierbei ist es auch wichtig zu wissen, dass es meistens kostenfreie Angebote gibt, bei denen ein geringes Grundvolumen an Ressourcen für gratis zur Verfügung gestellt wird und die sich daher hervorragend für die ersten Gehversuche eignen.

Ein praktisches Beispiel

Nachdem Sie Ihre Pipelines erfolgreich eingerichtet und alle relevanten Systeme darüber an Ihr Data Warehouse angebunden haben ist es nun an der Zeit, Ihre Daten auch zu nutzen.

Trotz der höheren Kosten haben Sie sich für eine Übertragung mittels Streams entschieden, da diese aufgrund ihrer Aktualität in Verbindung mit einem Business Intelligence-Tool wertvolle Erkenntnisse liefern können. Da die Verknüpfung von Google Analytics und Google BigQuery für jeden Google Analytcs 4-User kostenfrei ist, haben Sie diese auch durchgeführt und machen sich nun daran, Ihre Daten im Google Data Studio auszuwerten.

Mit einem korrekt formulierten Query erhalten Sie innerhalb von Sekunden aktuelle Informationen zu Ihren KPIs aus der hierfür relevanten Intraday-Tabelle. Diese KPIs können sowohl Traffic- als auch E-Commerce-bezogene Messwerte wie Sitzungen, Transaktionen, Umsatz oder gekaufte Produkte enthalten. Zusätzlich dazu können Sie benutzerdefinierte Events konfigurieren, die alle Nutzerinteraktionen, die für Ihr Unternehmen wichtig sind, erfassen. Bei Online-Shops könnten das beispielsweise Prüfungen zur Verfügbarkeit von Artikeln in den örtlichen Filialen sein.

Diese Erkenntnisse erlauben es Ihnen, sofort auf die Informationen in Ihren Dashboard zu reagieren, beispielsweise, wenn sich ein bestimmtes Produkt einer größeren Beliebtheit erfreut als erwartet. Insbesondere während besonderen Verkaufsaktionen wie dem Weihnachtsgeschäft oder der Black Week ist dies von immenser Bedeutung.

Sie können dabei sogar noch einen Schritt weiter gehen und eigene Alerts für Datenanomalien oder plötzliche Abfälle Ihrer KPIs einrichten, die Sie sofort dann benachrichtigen, wenn Sie auch tatsächlich schnell reagieren müssen. Denn manchmal sind derartige Phänomene auf technische Schwierigkeiten oder Aussetzer zurückzuführen, die Sie teuer zu stehen kommen können, wenn sie nicht sofort behoben werden.

 

Fazit

Der Hauptvorteil eines Data Warehouse liegt in der subjektorientierten, nicht flüchtigen und zeitvarianten Integration von Datentypen aus den unterschiedlichsten Quellen. Hierdurch können Datensätze aus einem unglaublich großen Gesamtvorrat extrahiert und analysiert werden, während zeitgleich der Zugriff auf die Historie erhalten bleibt, so dass jederzeit vergangene Trends und Entscheidungen in die Überprüfungen mit einbezogen werden können. Dadurch, dass die Daten in einem einheitlichen Format vorliegen, können neue Auswertungen mit maximaler Geschwindigkeit und Genauigkeit erstellt werden – ganz ohne das Eingreifen von spezialisierten Entwicklern. Dank des Cloud-Hostings sind die Systeme zudem flexibel skalierbar und erlauben die schnelle Integration von neuen Datenquellen sowie die Implementierung neuer Technologien, wie beispielsweise KI-gestützten Auswertungsalgorithmen. Wenn Sie Unterstützung bei der Planung und dem Aufbau eines Data Warehouses benötigen, dann kontaktieren Sie uns einfach!