Ausgangssituation
NEXT. robotics ist ein forschungsnahes Vertriebs- und Entwicklungsbüro mit dem zentralen Schwerpunktthemen Leichtbaurobotik, Advanced Robotics und Cobotics. Die vertrieblichen Dienstleistungen umfassen dabei auch den Software-Bereich inklusive Programmierung beziehungsweise einer kundenspezifischen Anpassung vorhandener Lösungen.
Ein übergeordnetes Ziel ist es die Kooperation des Menschen mit dem Roboter zu intensivieren. Im Bereich der mobilen Robotik gibt es diesbezüglich größeren Aufholbedarf insbesondere bei den neuesten Modellen der Laufroboter, wie z. B. Spot von BostonDynamics oder ANYmal von ANYbotics. Aktuell werden Laufroboter auf Grund der komplexen Steuerung eher in Forschungsprojekten eingesetzt, besitzen jedoch sehr geeignete und robuste Eigenschaften für einen Einsatz im näheren Umfeld des Menschen. Eine neuartige Sprachsteuerung könnte hier bezüglich der Sicherheit und Akzeptanz mobiler Roboter bei der Interaktion mit dem Menschen die Einsatzmöglichkeiten deutlich erweitern.
Problemstellung
Die Interaktion mit teilweise autonomen, mobilen Robotern ist mit gewissen Hürden und Risiken für den Menschen verbunden. Eine Sprachsteuerung kann einfach und intuitiv die Bedienbarkeit erleichtern und die Akzeptanz, Sicherheit und Einsatzmöglichkeiten erweitern. Ein Konzept zur Umsetzung einer robusten, effizienten und sicheren Sprachsteuerung mobiler Roboter ist erforderlich.
Lösungsansatz
Mobile Roboter erfordern angepasste Lösungen beim Thema Sprachsteuerung. Als Sprachinterface für den menschlichen Operator empfiehlt sich eine mobile Fernbedienung, um die Problematik der Störgeräusche zu minimieren. Die Verarbeitung der akustischen Eingangsignale durch leistungsfähige KI-Modelle zur Spracherkennung kann entweder in der Cloud oder sogar direkt auf dem mobilen Roboter durchgeführt werden. Für eine lokale Verarbeitung bietet eine GPU signifikante Geschwindigkeitsvorteile. Doch mobile Laufroboter sind meist nicht mit solcher Hardware ausgestattet, welche den Einsatz von KI-Modellen unterstützt. Unter anderem für solche Herausforderungen ist daher die am FZI entwickelte „KI-Box“ konzipiert. Sie ist mobil, flexibel integrierbar und energieeffizient. Sie stellt über einfache Interfaces eine embedded GPU bereit, welche nicht nur für Spracherkennungs- sondern auch für visuelle Perzeptionsaufgaben eingesetzt werden könnte.
Quick-Check-Ergebnisse
Im Rahmen des QuickChecks wurden aktuelle Spracherkennungsmodule vorgestellt und ein Konzept zur sicheren Sprachsteuerung teilweise autonomer mobiler Roboter skizziert. Durch den Einsatz einer modularen KI-Box wird die Verwendung von KI-Modellen lokal auf dem Laufroboter ermöglicht. Das Konzept bietet eine Sprachsteuerung, die die Roboterfunktionalitäten so kapselt, dass der funktionale Umfang größtmöglich ist, die Komplexitätsanforderung für die Systemkomponenten jedoch gering sind. Gleichzeitig wird potentiellen Ursachen für Missverständnisse durch limitierte und kontrollierte Befehlsoptionen vorgebeugt, um eine möglichst reaktive und beim Anwender akzeptierte Sprachsteuerung zu gewährleisten.