Data lake & streamlining der Datenextraktion

Zusammenfassung

Bei einem Hersteller von Energielösungen wurde eine umfassende Lösung zur Datenextraktion und -umwandlung implementiert, um die Abläufe zu rationalisieren, die Kosten zu senken und die Zuverlässigkeit der Daten zu verbessern. Durch den Einsatz von Fivetran, Snowflake, DBT und Power BI hat das integrierte System Prozesse automatisiert, die Skalierbarkeit verbessert und nicht-technische Benutzer in die Lage versetzt, fundierte Entscheidungen zu treffen, um das Unternehmen für strategisches Wachstum zu positionieren.

Kennzahlen

Kunde: Weltweit tätiger Hersteller von Energielösungen

Projektvolumen: 40.000 USD, 3 Monate

Projektumfang

Ein Hersteller und Konstrukteur von Energielösungen erkannte den Bedarf an einer umfassenden Lösung zur Rationalisierung seines Datenextraktionsprozesses aus verschiedenen Quellen und zur nahtlosen Übernahme der Daten in ein Data Warehouse.

Diese Umwandlung war unerlässlich, um wesentliche Vorgänge wie Normalisierungen und Berechnungen zu erleichtern und letztendlich die Nutzung von sauberen Daten in einem Datenvisualisierungstool zu ermöglichen. Die Entscheidung, diese Lösung zu implementieren, wurde durch mehrere kritische Faktoren vorangetrieben:1 Vielfältige Datenquellen: Das Vorhandensein mehrerer Datenquellen, darunter ERP, Analyse-API, API von externen Partnern und Datenbanken, erforderte spezielle Entwicklerfähigkeiten für die Datenextraktion.

Darüber hinaus verursachte dieser Ansatz zusätzliche Extraktionskosten, insbesondere bei der Arbeit mit verschiedenen APIs und Datenbanken.2 Datenunterschiede: Die verschiedenen Datentypen in unterschiedlichen Formaten in Verbindung mit unterschiedlichen Identifikatoren und Entitätsnamen erforderten eine Transformation und Normalisierung, um die Konsistenz und Kohärenz des gesamten Datensatzes sicherzustellen.3 Manuelle Prozesse: Der bestehende Arbeitsablauf beinhaltete manuelle Eingriffe, um saubere Daten in das Datenvisualisierungstool zu importieren, was nicht nur Zeit kostete, sondern auch die Möglichkeit von Fehlern mit sich brachte.

The overarching goal was to achieve the following improvements:
  • Cost and Effort Optimization: By introducing a more streamlined process, the aim was to reduce both human and machine costs associated with data extraction and manipulation.
  • Automation of Data Processes: The implementation sought to automate the transfer and transformation of data, eliminating the need for manual interventions and enhancing overall efficiency.
  • Accessibility for Non-Technical Users: The objective was to establish a sustainable system that could be effectively managed by non-technical personnel, ensuring long-term viability and ease of operation

Das übergeordnete Ziel war es, die folgenden Verbesserungen zu erreichen:

  • Optimierung von Kosten und Aufwand: Durch die Einführung eines schlankeren Prozesses sollten die mit der Datenextraktion und -manipulation verbundenen Kosten für Mensch und Maschine gesenkt werden.
  • Automatisierung von Datenprozessen: Die Implementierung zielte darauf ab, die Übertragung und Umwandlung von Daten zu automatisieren, wodurch manuelle Eingriffe überflüssig wurden und die Gesamteffizienz gesteigert werden konnte.
  • Zugänglichkeit für nichttechnische Benutzer: Ziel war es, ein nachhaltiges System zu schaffen, das auch von nicht-technischem Personal effektiv verwaltet werden kann, um die langfristige Lebensfähigkeit und den einfachen Betrieb zu gewährleisten.

Implementation

Die implementierte Lösung beinhaltete die Einführung eines Extract, Load, Transform (ELT)-Ansatzes, bei dem Fivetran als Datenintegrationstool, Snowflake als Data Warehouse und DBT (Data Build Tool) für die erweiterte Datentransformation eingesetzt wurden. Fivetran spielte eine entscheidende Rolle bei der Automatisierung der Datenextraktion aus verschiedenen Quellen, darunter ERP, Analyse-API, API externer Partner und Datenbanken, wodurch der Prozess vereinfacht und der manuelle Aufwand minimiert wurde.

Die Skalierbarkeit und die Leistungsmerkmale von Snowflake trugen entscheidend dazu bei, die verschiedenen Datensätze effizient zu verarbeiten. Darüber hinaus erleichterte die Integration von DBT die notwendigen Transformationen, Normalisierungen und Berechnungen der Rohdaten, wodurch die Konsistenz und Kohärenz des gesamten Datensatzes sichergestellt wurde. Für die Datenvisualisierung wurde Power BI eingesetzt, das eine benutzerfreundliche Oberfläche für technisch nicht versierte Benutzer bietet, um die aus den transformierten und bereinigten Daten gewonnenen Erkenntnisse zu untersuchen und zu verstehen.

Durch die Kombination von Fivetran, Snowflake, DBT und Power BI wurde eine nahtlose End-to-End-Lösung geschaffen, die den ELT-Prozess optimiert, die Automatisierung verbessert und nicht-technische Stakeholder in die Lage versetzt, aussagekräftige Erkenntnisse aus den Daten abzuleiten.Die Implementierung dieser integrierten Lösung führte zu beträchtlichen Gewinnen in verschiedenen Dimensionen der Datenmanagement- und Analyseprozesse des Unternehmens.

Anwendungsfall: Wechselrichterverfügbarkeit und Identifizierung von Datenlücken

Ein wichtiger Anwendungsfall innerhalb der implementierten Lösung dreht sich um die Überwachung der Wechselrichterverfügbarkeit, ein kritischer Aspekt im Bereich der Energielösungen. Gelegentlich kommt es bei der Datenabfrage aufgrund von Kommunikationsproblemen zu Verzögerungen, was zu Lücken in den Datenreihen führt. Um dieser Herausforderung zu begegnen, wurde eine Lösung entwickelt, um diese Datenlücken zu identifizieren: Das System ist darauf ausgelegt, Fälle zu erkennen, in denen Wechselrichterdaten während des geplanten Abrufs nicht verfügbar sind.

Die Lösung nutzt die fortschrittlichen Funktionen des DBT (Data Build Tool), um diese Lücken intelligent zu erkennen und einen automatischen Prozess zum Abrufen der fehlenden Daten aus der Quelle auszulösen. Der Backfilling-Mechanismus sorgt für eine nahtlose Kontinuität in den Datenreihen, mildert die Auswirkungen einer vorübergehenden Nichtverfügbarkeit und erhält die Integrität des gesamten Datensatzes.

Vorteile durch die integrierte Datenlösung

Erstens führte die Einführung eines ELT-Ansatzes, der durch Fivetran, Snowflake und DBT unterstützt wurde, zu erheblichen Zeit- und Kosteneinsparungen. Die automatisierten Prozesse zur Datenextraktion und -transformation reduzierten die Abhängigkeit von manuellen Eingriffen und optimierten so den Aufwand für Mensch und Maschine.

Die Verwendung von Snowflake als Data Warehouse sorgte für Skalierbarkeit und Leistungsverbesserungen, da die verschiedenen Datensätze nahtlos verarbeitet werden konnten. Diese Skalierbarkeit führte zu einer verbesserten Verarbeitungsgeschwindigkeit und -effizienz, was wiederum zu einer verbesserten Gesamtsystemleistung beitrug.DBT trug entscheidend dazu bei, die Konsistenz und Zuverlässigkeit der Daten zu gewährleisten. Die Fähigkeit, Daten zu transformieren und zu normalisieren, rationalisierte die Abläufe und ermöglichte genauere und zuverlässigere Einblicke.

Mit Power BI als dem gewählten Datenvisualisierungstool erhielten auch technisch nicht versierte Benutzer Zugang zu einer benutzerfreundlichen Oberfläche, die sie in die Lage versetzte, Dateneinblicke selbstständig zu erkunden und zu interpretieren. Dies verbesserte nicht nur die Entscheidungsfindung, sondern förderte auch eine Kultur der datengesteuerten Entscheidungsunterstützung in der gesamten Organisation.

Im Wesentlichen umfassten die Gewinne die betriebliche Effizienz, die Kostensenkung, die verbesserte Datenzuverlässigkeit und die verbesserte Zugänglichkeit für nicht-technische Benutzer, was die Organisation insgesamt in die Lage versetzte, fundiertere und strategische Entscheidungen zu treffen.