Datenanalyse „auf Knopfdruck“

Ausgangssituation

Die EDI GmbH entwickelt menschenzentrierte KI-Systeme für innovative digitale Geschäftsmodelle, indem sie die Prozesse und die vorhandene Datenlage mit den zuständigen Expert*innen gemeinsam analysiert. Um einen schnellen ROI zu erzielen, fokussiert sich EDI auf die Entwicklung von Applikationen, die zur Lösung eines Teilproblems des Kunden beiträgt. Durch den EDI Scrum 2.0 Prozess mit Applikation Lifecycle Management (ALM) kann der Funktionsumfang der Applikation dann Schritt für Schritt erweitert werden. Bei der Entwicklung von KI-Lösungen im Produktionsbereich für neue digitale Geschäftsmodelle stehen Data Scientists zu Beginn eines Projektes vor der Herausforderung bzgl. der vorhandenen Daten die richtigen Algorithmen zu wählen und schnell eine erste Datenanalyse durchzuführen, um das angedachte datengetriebene Geschäftsmodell validieren zu können. Hierzu muss  gleichzeitig ein detailliertes Verständnis des zugrundeliegenden Prozesses aufgebaut werden. Denn relevante Zusammenhänge sowie Einfluss- und Zielgrößen in Daten lassen sich nur effizient über das Zusammenspiel von Domänen-spezifischen Prozessexperten und Data Scientists erklären und für eine KI nutzbar machen. Diese Vorgehensweise ist allerdings zeit- und ressourcenaufwendig und gerade mit Blick auf eine KI besteht zudem immer das Risiko, dass nach einer ersten Datenanalyse keine KI-Lösung für das  digitale Geschäftsmodell entwickelt werden kann.

Problemstellung

Um die eingesetzten Ressourcen zu Beginn eines KI-Projekte zu reduzieren, wäre es ideal „auf Knopfdruck“ nicht nur eine erste Datenanalyse des Produktionsdatensatzes zu erhalten, sondern eine direkte Evaluierung des angedachten digitalen Geschäftsmodells. Diese Datenanalyse sollte dann Informationen über relevante Zusammenhänge der Prozessgrößen untereinander sowie die vorhanden Einfluss- und Zielgrößen enthalten und für die domänen-spezifischen Experten und für das Geschäftsmodell ein Mehrwert darstellen. Diese Punkte wurden im QuickCheck konkret anhand der zwei folgenden Fragestellungen analysiert:

1.         Inwiefern sind Ansätze aus dem Bereich des Maschinellen Lernens (ML) geeignet, um Wirkzusammenhänge in Zeitreihen der Produktionsdaten ohne Prozesswissen zu finden?

2.         Was sind mögliche Fallstricke bei der statistischen Identifikation von Wirkzusammenhängen in Produktionsdaten?

Lösungsansatz

Zur Untersuchung der Fragestellung wurde von der Firma EDI GmbH ein Datensatz zur Verfügung gestellt, über den vor der Analyse so gut wie nichts bekannt war. Vor allem war nicht klar, welches die Einflussgrößen (z. B. Aktoren) und welches die Wirkgrößen (z. B. Sensoren) sind. Der Datensatz wurde folgendermaßen untersucht:

1.         Datenvorverarbeitung: Daten wurden in ein Dataframe überführt und auf verschiedene Arten visualisiert (z. B. Zeitreihenplot, Scatter-Plots, Histogramme).

2.         Dimensionsreduktion und Clustering: Durchführung einer Varianzanalyse und Entfernen redundanter Größen. Erstellen von Prozesskarten.

3.         Detektion zeitverschobener Ursache-Wirkzusammenhänge: Nutzung von Methoden aus der Ergonomie zu Detektion von Wirkzusammenhängen im Datensatz zwischen den einzelnen Variablen.

Quick-Check-Ergebnisse

Die Ergebnisse haben die Ansätze des KI-basierten Hybridmodells der EDI GmbH bestätigt und gezeigt, dass diese Vorgehensweise ein erster Ansatz zur Analyse von Datensätzen für einen Data Scientist sein kann. Vor allem kann diese Datenanalyse im nächsten Schritt als Diskussionsgrundlage zwischen Prozessexpert*innen und Data Scientists dienen. Die Phase zum Aufbau eines rudimentären Prozessverständnisses für den Data Scientist sowie eines rudimentären statistischen Wissens für Prozessexpert*innen kann abgekürzt  und das angestrebte datengetriebene Geschäftsmodell kann schneller evaluiert werden.