Ihre Vision ist eine flexible Produktion, in der Menschen Robotern ansagen oder anzeigen, was diese tun sollen. Eine intuitive Kommunikation zwischen Mensch und Maschine soll Produktionen flexibel und dynamisch machen. Beides ist für heimische Betriebe enorm wichtig, um am globalen Markt bestehen zu können. Wie kann das funktionieren?
Gallien: Die jüngsten Entwicklungen im Bereich der sprachbasierten generativen KI sind die Gamechanger in der Zusammenarbeit mit Robotern. Textbasierte Bildgeneratoren wie DALL-E2, Midjourney oder Stable Diffusion interpretieren Texteingaben und erzeugen das dazu am wahrscheinlichsten passende Bild. Möglich machen das sogenannte Visual Language Foundation Models (VLFMs), die Bildern eine Bedeutung geben und diese Information verarbeiten können. Die Besonderheit dabei ist der unfassbar große Umfang an Daten, mit denen diese Modelle trainiert werden. Der Datensatz für das von OpenAI veröffentlichte Modell CLIP (Contrastive Language Image Pretraining) umfasste zum Beispiel mehr als 400 Millionen Text-Bild-Paare. Einige dieser VLFMs stehen der Allgemeinheit zur Verfügung und finden vermehrt Anwendung in Algorithmen des maschinellen Sehens. Das bedeutet folgendes: Füttert man einen Roboter mit diesen unfassbar vielen Bild-Text-Paaren, ist dieser zum Beispiel in der Lage mittels Kamera eine Situation zu erfassen und in Echtzeit zu interpretieren. Kurz gesagt, der Roboter versteht sofort die Szene im Raum. Er weiß, was ein Glas, ein Tisch oder ein Mensch ist und reagiert mithilfe der Kamera auf visuelle Befehle. Damit wird für einfache Arbeitsschritte die Programmierung übersprungen. Das ist kollaborative kognitive Robotik auf dem nächsten Level.
Was braucht es, um moderne Robotersysteme in dynamische Produktionsprozesse zu integrieren?
Gallien: Die Herausforderung ist groß, da dynamische Produktionsprozesse ein großes Maß an Flexibilität und Anpassungsfähigkeit erfordern. Ein zentraler Aspekt ist dabei die Wahrnehmung, Interpretation sowie die Entscheidungsfindung in Echtzeit. Zu diesem Zwecke verarbeiten autonome Robotersysteme eine Vielzahl an Sensordaten von z. B. Kameras, 3D-Scannern oder auch Radar-Sensoren. Unter Cognitive Robotics werden Robotersysteme verstanden, die sich vorwiegend Methoden des maschinellen Sehens zu Nutze machen, um diese Daten zu verarbeiten und zu einer entsprechenden Interpretation der Szene zu gelangen. Der semantische Bezug entsteht durch die Visual Language Foundation Models, mit denen Industrieroboter ausgestattet werden können. Das ist eine Revolution!
Welche Rolle würde dieses synergetische Zusammenarbeiten zwischen Mensch und Maschine in modernen Produktionsprozessen spielen?
Gallien: Die Vorteile liegen dabei auf der Hand: Durch das große semantische Grundwissen, das den Robotern in die Wiege gelegt werden könnte, lassen sich sogenannte Zero-Shot-Modelle entwerfen. Diese sind in der Lage, Aufgaben zu bewältigen, für die sie nicht explizit trainiert wurden. Das ist für eine moderne Produktion extrem wichtig, denn für lange Programmierarbeiten bleibt keine Zeit mehr. Roboter können sich zukünftig in dynamischen Umgebungen gut zurechtfinden, weil sie in Echtzeit ihre Umgebung wahrnehmen und interpretieren können. Anweisungen können sprachlich oder per Handzeichen erfolgen, was eine besonders intuitive und natürliche Steuerung von Robotern in komplexen Produktionsumgebungen ermöglicht. Diese Features erweitern die Anwendbarkeit assistierender Produktionsrobotik signifikant.
Können Sie uns ein Beispiel nennen?
Gallien: Mit dem KI-Turbo kann man mit einem Roboter sprechen und ihm zum Beispiel sagen, er solle ein Objekt anheben. Das ist alles. Der Roboter wird es so ausführen, wie man es ihm ansagt. Auf herkömmliche Art und Weise müssen Modelle zur Objektdetektion aufwändig vortrainiert werden. Der große Nachteil dabei ist, dass alle Objektklassen im Trainingsdatensatz statistisch relevant repräsentiert sein müssen. Folglich scheitern diese Methoden daran, sich an neue vorab unbekannte Umgebungen anzupassen. Außerdem ist die Annotierung der Datensätze mühsam und zeitaufwändig. Der Unterschied in der zeitlichen Komponente liegt dabei klar auf der Hand.
Wie ist der Stand in Europa, wie in Österreich?
Gallien: Die Digitalisierung und im Speziellen die rasanten Entwicklungen im Bereich der künstlichen Intelligenz erfassen alle Lebensbereiche und führen zu einem tiefgreifenden Wandel in der Fertigungslandschaft. Natürlich auch in Europa. Aber Europa muss sich anstrengen, mit den USA und China Schritt zu halten. Da werden enorme Summen in das Thema KI investiert. Wir sehen, dass sich zum Beispiel in Österreich ansässige Industriebetriebe Know-how aus den USA holen. Das ist schade, bestärkt uns aber auch in unserem Vorhaben, kollaborative kognitive Robotik in Österreich zu etablieren. Bei JOANNEUM RESEARCH ROBOTICS sind wir spezialisiert auf Methoden der kollaborativen Robotik und der flexiblen Produktion. Die logische Konsequenz ist nun, die vorhandene Expertise in die nächste Ebene zu bringen und mittels künstlicher Intelligenz zu erweitern. In Zusammenarbeit mit den Instituten DIGITAL (Institut für Digitale Technologien) und MATERIALS (Institut für Sensorik, Photonik und Fertigungstechnologien) sowie der vorhandenen Infrastruktur sind wir bestens aufgestellt für das nächste Robotik-Level.
Interview: Elke Zenz