Was eine Enterprise Data Fabric leisten muss
Ein moderner Ansatz, um Daten in verteilten Umgebungen zuverlässig managen und analysieren zu können ist eine Logical Data Fabric. Hierbei handelt es sich nicht um eine singuläre Out-of-the-box Lösung sondern vielmehr um ein Konzept, welches auf die virtuelle Integration, Management und Governance von Unternehmensdaten über alle Datenquellen von on-premises bis Multi-Cloud setzt
1. Multi-Cloud-Umgebungen meistern
In Unternehmen wachsen derzeit hybride Landschaften heran, die nicht nur Skalierbarkeit und Performance versprechen, sondern auch die Freiheit vom klassischen Vendor Lock-in. Allerdings bringt die Verteilung der Unternehmensdaten auf mehrere Cloud-Domains und Anbieter auch eine steigende Komplexität mit sich, die von herkömmlichen BI-Systemen nicht umfänglich abgedeckt wird. Eine logische Data Fabric bietet die Möglichkeit, unterschiedliche Cloud-Quellen zu integrieren, damit am Ende alle Daten einer logischen Schicht aggregiert werden.
Eine Data Fabric für den Enterprise-Einsatz platziert separate Instanzen in jeder Cloud-Domain (z. B. AWS, Azure, GCP). Alle Virtualisierungsinstanzen verbinden sich wiederum mit einer übergeordneten Instanz, die den Zugriff koordiniert und einheitliche Analysen in Echtzeit ermöglicht.
2. Aufgaben automatisieren
Data Lakes erstrecken sich in Multi-Cloud-Umgebungen über mehrere Plattformen. Business-Nutzer wie Data Scientists können dabei schnell den Überblick verlieren. Die steigende Zahl externer Quellen sorgt zudem für ein wachsendes Risiko: Datenobjektmodelle und Layouts können ungeplant und unangekündigt geändert werden. Und die Datenabfrage von verschiedenen Plattformen mit unterschiedlichen Performance-Charakteristiken und Latenzen kann schnell Bottlenecks schaffen. All diese Herausforderungen wurden bisher „von Hand“ angegangen. Eine Enterprise Data Fabric kann aber in der Lage sein, automatisierte Lösungen anzubieten, um zukünftig steigenden Anforderungen gerecht zu werden.
Logical Data Fabrics setzen Machine Learning oder andere moderne Technologien ein, um manuelle Aufgaben zu automatisieren. Vorteile sind etwa automatische Vorschläge von Datensätzen, die sich zur Analyse eignen (basierend auf den Mustern der Nutzer) oder intelligentes Caching, das die Performance in der gesamten Datenarchitektur verbessert.
3. Rapid Data Delivery ermöglichen
80 Prozent der befragten Unternehmen im TDWI-Report 2020 wünschen sich schnellere Analysen. 77 Prozent sagen „Echtzeit oder Nahe-Echtzeit“ sei wichtig für ihren Unternehmenserfolg. Die Datenlatenz muss gesenkt werden – mit Rapid Data Delivery. Drei Beispiele für den Einsatz dieser Technik sind Pushdown Optimization, Caching und Data Shipping.
Pushdown Optimization nutzt untergeordnete Systeme wie Datenbanksysteme des Cloud-Hosters, um Teile der Query auszuführen. Caching sorgt dafür, dass die meistgenutzten Datensätze und Ergebnisse lokal auf der rechenstärksten Plattform gespeichert werden. Data Shipping bedeutet, dass Datenquellen nicht immer gleich, sondern je nach Größe und Bedeutung behandelt und somit schneller verarbeitet werden. Eine Data Fabric mit diesen drei Funktionen bietet dynamische Query-Optimierung und unterstützt massive Parallel Processing Engines – und steigert so die Performance des gesamten Data Managements.
4. Data Discovery und Data Science unterstützen
Unternehmen setzen verstärkt auf Data Science und benötigen Technologien, die moderne Analytics-Ansätze unterstützen. Die iterative Natur von Analysemodellen verlangt danach, dass zu jeder Zeit klar ist, welche Daten wo im Unternehmen verfügbar sind. Eine Übersicht reicht jedoch nicht aus. Nutzer müssen auch die passende Autorisierung haben, um die Daten via Self-Service nutzen zu können. Zudem sollten die Quelldaten einfach in flexible Datenmodelle überführt werden können. So lassen sich verschiedene Auswertungen einfacher durchführen.
Eine Enterprise Data Fabric sollte Zugang zur gesamten Datenlandschaft bieten und alle Datensätze an das jeweilige Data-Science-Projekt ausliefern, sei es via BI-Frontend, APIs oder Notebooks.
Der Vorteil der Data Fabric liegt darin, dass sie es erlaubt, logische Modelle über die Quelldaten zu legen. So können Data Scientists dieselben Quelldaten in verschiedenen Anwendungskontexten nutzen und ihre Analysemodelle iterativ verbessern und untereinander teilen.
5. Historische Daten und Datenströme analysieren
Bisher war der Großteil der zu analysierenden Daten „Data-at-Rest“. Doch heute kommen zunehmend dynamische und Streaming-Quellen hinzu. Daten wie Sensorinformationen, News oder Wetterdaten werden nach und nach im Data Management und in der Analyse von Unternehmen auftauchen. Dabei werden sie mit den vorhandenen gespeicherten Daten kombiniert. Ein Anwendungsbeispiel sind IoT-Applikationen, die historische Daten mit Datenströmen kombinieren, um Analysemodelle zu schaffen. Wenn diese Modelle im Unternehmen zum Einsatz kommen, lassen sich manuelle Eingriffe reduzieren und maschinelle Entscheidungen zuverlässiger gestalten.
Berücksichtigen Sie bei der Konzeption der Data Fabric, dass Data-in-Motion mit Data-at-Rest kombiniert werden kann. Merkmale sind etwa die vereinfachte Nutzung von Data-Streaming-Tools wie Apache Kafka mit strukturierten Daten in einem Data Warehouse.
6. Daten katalogisieren
Wer Daten aus vielen unterschiedlichen Quellen nutzt, sollte sich um eine unternehmensweit einheitliche Definition (semantisches Modell) kümmern. Wenn ein Data Scientist etwa wissen will, welche Produkte ein Kunde erworben hat, in welchem Channel, und welche Auswirkung dabei die Garantie-Laufzeit hatte – dann zählt es, wie „ein Kunde“ definiert wird. Ohne dokumentierte Definitionen von Begriffen und einer Auflistung der logischen Abhängigkeiten der Begriffe wird es schnell zu unbrauchbaren Ergebnissen kommen.
Eine Data Fabric sammelt Daten aus dem gesamten Unternehmen und ist das beste Tool, um das vorhandene Wissen im Unternehmen in einem semantischen Modell abzubilden. Dabei kann die Data Fabric auch als Katalog dienen, um Ort, Typ und Format der Daten ebenso aufzulisten wie die Beziehung der Datensätze zueinander.
So lassen sich Daten, Datensätze und Beziehungen einfach und zentral erkunden. Eine intelligente Suche ist daher ein wichtiges Feature einer guten Data Fabric – die Suche erleichtert das Verständnis der Daten und lässt Business User leichter und zuverlässiger mit den Daten arbeiten und Wert aus ihnen schöpfen.
Denodo ist das führende Unternehmen im Bereich der Datenvirtualisierung und bietet Unternehmen agile und hochleistungsfähige Datenintegration, Datenabstraktion und Datendienste in Echtzeit an. Mit der Denodo Plattform können Daten aus einer Vielzahl verschiedener Quellen integriert werden, unabhängig davon, ob es sich dabei um strukturierte oder unstrukturierte Daten, Unternehmensdaten, Cloud-Daten oder Big Data handelt, und das zur Hälfte der Kosten herkömmlicher Datenintegrationsansätze. Denodo hilft so seinen Kunden in sämtlichen Industrien durch eine virtuelle Datenschicht ihre Flexibilität und ihren ROI erheblich zu steigern. Denodo wurde 1999 gegründet und befindet sich in Privatbesitz. Für weitere Informationen besuchen Sie https://www.denodo.com/de oder kontaktieren Sie uns unter info@denodo.com.
Denodo Technologies GmbH
Oberanger 28
80331 München
Telefon: +49 (89) 59990450
Telefax: +34 (91) 27758-60
http://www.denodo.com
Hotwire
Telefon: +49 (89) 26208-189
E-Mail: julia.bastos@hotwireglobal.com