Die jahrzehntelange Herausforderung der Robotik besteht darin, Maschinen nicht nur mechanisch geschickt zu machen, sondern ihnen auch ein Verständnis für ihre Umgebung und die ihnen übertragenen Aufgaben zu vermitteln. Boston Dynamics und Google DeepMind haben nun einen bedeutenden Schritt in diese Richtung unternommen: Die Integration des Gemini Robotics-ER 1.6 Modells in den vierbeinigen Roboter Spot markiert einen Wendepunkt in der praktischen Anwendung von künstlicher Intelligenz in der kommerziellen Robotik.

Von der Programmierung zur natürlichen Interaktion

Die Evolution der Mensch-Roboter-Schnittstelle hat in den vergangenen Jahrzehnten einen weiten Weg zurückgelegt. Während Roboter früher durch komplexe Programmiersprachen gesteuert werden mussten, haben moderne Systeme zunehmend intuitivere Interaktionsmöglichkeiten entwickelt. Dennoch bestand bisher eine frustrierende Korrelation: Je einfacher die Bedienung eines Roboters, desto eingeschränkter waren in der Regel die Aufgaben, die er bewältigen konnte.

Boston Dynamics bricht mit der neuen Integration dieser Einschränkung ein entscheidendes Stück weit auf. Das Unternehmen, das als eines der wenigen kommerziell erfolgreiche Laufroboter in nennenswertem Umfang einsetzt – mittlerweile sind mehrere Tausend Spot-Einheiten im Einsatz –, erweitert seine AIVI-Learning-Plattform um Googles hochentwickeltes Gemini Robotics-ER 1.6 Modell. Diese Kombination verspricht, komplexe Aufgaben mit deutlich gesteigerter Autonomie und Intelligenz zu bewältigen.

Technische Grundlagen: Was macht Gemini Robotics-ER 1.6 besonders?

Das von Google DeepMind entwickelte Gemini Robotics-ER 1.6 ist ein sogenanntes “Embodied Reasoning Model” – ein Modell für verkörpertes Denken. Im Unterschied zu reinen Sprachmodellen ist es speziell darauf ausgelegt, physische Zusammenhänge zu verstehen und Aktionen in der realen Welt auszuführen.

Die Kernfähigkeiten des Systems umfassen mehrere fortgeschrittene Funktionen: Spot kann nun autonom nach gefährlichen Gegenständen oder Verschüttungen suchen, komplexe Messgeräte und Schaugläser ablesen und bei Bedarf auf Vision-Language-Action-Modelle zurückgreifen, um seine Umgebung besser zu verstehen. Diese Fähigkeiten sind besonders für den industriellen Inspektionsbereich relevant, in dem sich Laufroboter bereits als kommerziell tragfähig erwiesen haben.

Eine der bedeutendsten Neuerungen in Version 1.6 ist die sogenannte “Success Detection” – die Erfolgserkennung. Das System kombiniert mehrere Kamerawinkel, um zuverlässig festzustellen, ob Spot ein Objekt erfolgreich gegriffen hat. Diese rein visuelle Herangehensweise ist sowohl eine Stärke als auch eine Limitation des aktuellen Ansatzes.

Die Herausforderung des maschinellen Verstehens

Carolina Parada, Leiterin der Robotik-Abteilung bei Google DeepMind, betont einen entscheidenden Punkt: Der Maßstab für das Verständnis eines Systems sollte sein, dass es Aufgaben so ausführt, wie ein Mensch sie ausführen würde. Diese Übereinstimmung zwischen menschlichem und maschinellem Verständnis ist kritisch für die Sicherheit und Zuverlässigkeit robotischer Systeme.

Ein anschauliches Beispiel verdeutlicht die Komplexität dieser Anforderung: Erhält Spot die Anweisung, “alle Dosen im Wohnzimmer zu recyceln”, erfüllt der Roboter diese Aufgabe zwar erfolgreich, greift die Dosen dabei aber seitlich. Für volle oder halbvolle Dosen wäre dies problematisch. Menschen wissen intuitiv, wie man Getränkedosen handhaben sollte, weil sie auf eine lebenslange Erfahrung zurückgreifen können. Diese Art von Weltwissen fehlt Robotern bisher weitgehend.

Google DeepMind adressiert solche Sicherheitsfragen durch die Integration semantischer Sicherheitsmodelle. Das ASIMOV-Benchmark-System enthält zahlreiche Beispiele in natürlicher Sprache, die definieren, was ein Roboter nicht tun sollte. Wird Spot beispielsweise gebeten, ein Glas Wasser zu bringen, sollte das System logisch schlussfolgern, es nicht am Tischrand abzustellen, wo es herunterfallen könnte.

Das Datenproblem der physischen Welt

Eine interessante technische Limitation offenbart sich bei genauerer Betrachtung: Gemini Robotics-ER 1.6 arbeitet derzeit ausschließlich mit visuellen Daten. Während Roboter grundsätzlich über verschiedene etablierte Methoden zur Greiferkennung verfügen – darunter Tast- und Kraftsensoren – nutzt das Modell diese nicht.

Der Grund dafür ist fundamental und betrifft ein zentrales Problem der Robotikforschung: die Verfügbarkeit von Trainingsdaten. Im Internet existieren große Mengen an visuellen Informationen darüber, wie man beispielsweise einen Stift aufhebt. Daten mit Tastinformationen sind jedoch äußerst rar. Google DeepMind könnte solche multimodalen Daten durchaus verarbeiten, sobald sie in ausreichender Menge vorliegen.

Boston Dynamics begegnet diesem Problem durch eine interessante Strategie: Kunden, die die neuen KI-Fähigkeiten von Spot nutzen, müssen ihre Daten mit dem Unternehmen teilen. Diese Datensammlung aus realen Einsätzen wird zu einer wertvollen Quelle für zukünftige Modellverbesserungen.

Kommerzielle Realität und Vertrauenswürdigkeit

Boston Dynamics’ Position als eines der wenigen Unternehmen mit kommerziell eingesetzten, KI-gestützten Laufrobotern ist bemerkenswert. Diese Vorreiterrolle bringt jedoch auch besondere Verantwortung mit sich, insbesondere in Bezug auf die Vertrauenswürdigkeit der Systeme – eine bekannte Herausforderung bei KI-Anwendungen.

Marco da Silva, Vice President und General Manager für Spot bei Boston Dynamics, beschreibt den vorsichtigen Rollout-Prozess: Neue DeepMind-Funktionen werden zunächst in Beta-Programmen mit ausgewählten Kunden getestet, um zu verstehen, was zu erwarten ist. Nur Features, bei denen das Unternehmen von der Funktionalität überzeugt ist, werden aktiv beworben.

Interessanterweise verlangt die reale Welt keine Perfektion von diesen Systemen. In industriellen Anlagen sind kritische Infrastrukturen in der Regel bereits mit Sensoren ausgestattet, die Probleme melden. Die Stärke von Spot liegt darin, auch nicht-instrumentierte Bereiche zu überwachen, die dennoch Probleme verursachen können, wenn sie unbeachtet bleiben. Die Erfahrung zeigt: Eine Zuverlässigkeit von über 80 Prozent ist die Schwelle, ab der das System nützlich wird. Darunter beginnen Mitarbeiter, die Warnungen des Roboters zu ignorieren – der klassische “Wolf-Wolf”-Effekt.

Ausblick: Von der Inspektion zur universellen Assistenz

Die Partnerschaft zwischen Boston Dynamics und Google DeepMind bietet wertvolle Erkenntnisse, die über die industrielle Inspektion hinausgehen. Die Erfahrungen mit Spot als skalierbare kommerzielle Plattform liefern Daten und Lessons Learned, die auf andere verkörperte KI-Plattformen übertragen werden können – einschließlich des humanoiden Roboters Atlas von Boston Dynamics.

Wird Atlas damit zum nächsten Inspektionsroboter? Eher nicht. Die Erkenntnisse aus dem Spot-Programm zielen auf anspruchsvollere Ziele: Roboter, die sicher und zuverlässig alltägliche Aufgaben übernehmen können. Das Aufheben von Wäsche, das Gassigehen mit dem Hund oder das Wegräumen von Getränkedosen, ohne dabei Chaos anzurichten – diese scheinbar einfachen Aufgaben erfordern ein tiefes Verständnis der physischen Welt und menschlicher Erwartungen.

Die Integration von Gemini Robotics-ER 1.6 in Spot repräsentiert mehr als nur ein Software-Update. Sie markiert einen Paradigmenwechsel in der Art und Weise, wie Roboter mit ihrer Umgebung interagieren und Aufgaben verstehen. Während frühere Systeme starr programmiert waren und auf vorhersehbare Szenarien beschränkt blieben, ermöglicht die neue Generation des maschinellen Denkens eine flexible Anpassung an unvorhergesehene Situationen.

Die Herausforderungen bleiben erheblich: Das Fehlen umfassender multimodaler Trainingsdaten, die Lücke zwischen visuellem Verstehen und taktiler Rückmeldung, und die Notwendigkeit, menschenähnliches Weltwissen zu erwerben. Doch mit jedem Einsatz, jeder Datensammlung und jeder Iteration nähert sich die Vision von wirklich intelligenten, autonomen Robotern der Realität. Die Kombination aus Boston Dynamics’ mechanischer Exzellenz und Google DeepMinds KI-Expertise könnte der Katalysator sein, der diese Vision in greifbare Nähe rückt.