Die Gruppe von Jens Ziehn hat den TransferCheck mit NovelSense durchgeführt.
Herr Ziehn, wie kam es zum TransferCheck mit NovelSense?
NovelSense kooperiert bereits mit der Forschungsgruppe Technology for Pervasive Computing (TECO) des KIT im Bereich maschineller Lernverfahren, um Verkehrszählungen datenschutzsicher zu automatisieren. Um den Bedarf an Trainings- und Testdatensätzen zu decken, ohne reale Kameradaten erheben, speichern und annotieren zu müssen, ist dabei die Frage aufgekommen, inwieweit simulierte Daten hier die Lücke füllen können. Solche simulierten Daten müssen sowohl wirklichkeitsnahe Kamerabilder enthalten als auch die zugehörigen Annotationen – also zum Beispiel, wo im Kamerabild Autos, Fahrradfahrer oder LKWs zu sehen sind, und wie sie sich bewegen. Wenn reale Sensordaten für praktische Zwecke durch synthetische Daten ersetzt werden sollen, muss immer eine Balance zwischen dem Grad an Realismus und Effizienz gefunden werden, denn maschinelles Lernen beruht sowohl auf Qualität als auch auf Umfang und Diversität der Daten.
Welche Mittel haben Sie eingesetzt?
Gemeinsam mit NovelSense und den Kollegen von TECO haben wir zunächst gemäß dem in CC-KING entwickelten Vorgehensmodell PAISE® evaluiert, welche Ziele und Anforderungen sich im Anwendungsfall ergeben, und welche funktionale Dekomposition der Anwendung zugrunde gelegt werden sollte. Die von NovelSense umgesetzt Verkehrszählung setzt voraus, dass Verkehrsteilnehmer einerseits erkannt werden können, andererseits aber auch ihre Bewegung durch das Bild (Tracking) wahrgenommen wird. Es wurde identifiziert, dass zunächst insbesondere der ML-basierte Erkennungsschritt optimiert werden soll – die Verbesserung des Trackings ist ein aufbauender nächster Schritt. Daraus lassen sich Anforderungen an die Simulation ableiten.
In der Software OCTANE, die im Rahmen von CC-KING als Werkzeug genutzt und weiterentwickelt wurde, haben wir daraufhin gemeinsam mit NovelSense und TECO prototypische Methoden umgesetzt, um Bilddaten und Annotationen zu erzeugen, die in ihrer Verteilung den Anwendungsfällen von NovelSense zur Objekterkennung ähneln. Dazu wurden stochastische Methoden zur Erzeugung von Verkehrsszenen in OCTANE umgesetzt, und basierend darauf mit Modulen für Shading sowie für Raytracing Kamerabilddaten mit unterschiedlichen Szenarien sowie Licht- und Wettersituationen erzeugt. In mehreren Entwicklungszyklen wurde die Datenerzeugung verfeinert, das Annotationsformat an die Bedarfe angeglichen, und die prototypische Gesamtkette im Rahmen einer Machbarkeitsanalyse anhand der Verfahren von NovelSense evaluiert.
Was bringt der TransferCheck dem Unternehmen?
Die Firma NovelSense erhält über die Machbarkeitsanalyse eine fundierte Perspektive, um abzuschätzen, inwieweit Trainings- und Testdaten für ihre KI-Systeme synthetisch erzeugt werden können, ohne dabei Datenschutzrisiken und Annotationsaufwände mit Realdaten im öffentlichen Raum in Kauf nehmen zu müssen. Diese Ergebnisse können nun genutzt werden, um die Pipeline von Datengewinnung und -nutzung für die Einbeziehung synthetischer Datenquellen auszulegen. Die ersten Erfahrungen mit der OCTANE-Simulation sind dabei eine Grundlage für NovelSense, den Methodenbaukasten zur Synthetisierung systematisch zu erweitern.