Ein Suchroboter denkt mit

Ob Wohnungsschlüssel, Lesebrille oder das Portemonnaie: Im Alltag kommt es häufig vor, dass wir Gegenstände verlegen und sie dann suchen müssen. In Zukunft könnte dies auch ein Roboter übernehmen. Denn Forschende haben ihm mithilfe von zwei verschiedenen KI-Systemen die Fähigkeit verliehen, Objekte zu erkennen und sie in sich verändernden Umwelten zu finden. Der Suchroboter kann auf Zuruf bestimmte Gegenstände suchen, fragt ihr Aussehen bei einem Großen Sprachmodell ab und versteht, wo diese Objekte am wahrscheinlichsten zu finden sind. Dadurch spürt das System verlorene Objekte deutlich effizienter und schneller auf als ein Roboter, der seine Umgebung eher wahllos absucht.

Wenn Roboter sich durch eine Fabrik, eine Wohnung oder ein Gelände bewegen, müssen sie zunächst eine mentale Karte ihrer Umgebung anlegen. Diese hilft ihnen dann, sich zurechtzufinden und effizient durch diese Umgebungen zu navigieren. Allerdings bleiben die meisten Räume nicht immer gleich: Stühle werden verschoben, Geschirr steht mal auf dem Tisch, mal in der Küche und auch im Freien können Objekte ihre Position verändern. Roboter müssen daher ihre mentale Karte der Umgebung immer wieder aktualisieren. Bisher passierte dies relativ wahllos, indem die Systeme einfach die gesamte Umgebung in Abständen scannen und Vorher-Nachher-Vergleiche ziehen. Doch wenn Roboter nach Gegenständen in dieser sich verändernden Umgebung suchen sollen, sind weitere Fähigkeiten nötig: Sie müssen den geforderten Gegenstand erkennen können und eine Suchstrategie entwickeln, die möglichst schnell zum Ziel führt.

Mentale Karte und semantische Objekterkennung

Einen solchen Roboter haben nun Benjamin Bogenberger und seine Kollegen von der Technischen Universität München entwickelt. Ihr Roboter sieht aus wie ein Besenstiel auf Rädern, an dessen oberem Ende eine Kamera montiert ist. Doch hinter diesem reduzierten Äußeren steckt geballte Technik in Form künstlicher Intelligenz. Sie ermöglicht es dem Roboter, auf Zuruf bestimmte Objekte zu aufzuspüren und dabei gezielt an den wahrscheinlichsten Orten zu suchen. „Unser Ansatz umfasst zwei Operationsmodi, die dies ermöglichen: Der erste ist eine aktive Karten-Aktualisierung“, berichtet das Team. Dafür scannt das Roboter aktiv die Bereiche seiner Umgebung ab, die sich am wahrscheinlichsten ändern, beispielsweise die Oberflächen von Tischen oder Arbeitsplatten. Bereiche, die eher statisch sind, überprüft er hingegen weniger häufig. Die Roboterkamera liefert dafür zweidimensionale Bilder, deren Bildpunkte jedoch zusätzlich Tiefeninformationen enthalten. So entsteht ein zentimetergenaues räumliches Bild der Umgebung, das ständig aktualisiert wird.

Die zweite Komponente ist auf einen Laptop ausgelagert und umfasst die Verbindung mit einem KI-System auf Basis eines Großen Sprachmodells. Durch dieses versteht der Roboter Spracheingaben und kann die gesuchten Objekte mit konkreten Bildern verknüpfen. Zusätzlich liefert ihm dieses KI-System Informationen darüber, wie und in welchem Kontext diese Objekte genutzt werden und wo sie daher am wahrscheinlichsten zu finden sind. So lernt das System, dass eine Brille wahrscheinlicher auf dem Tisch oder der Fensterbank zu finden ist als auf der Herdplatte oder im Spülbecken. „Das Sprachmodell spielt die Beziehungen zwischen den Objekten ein und wir wandeln diese Informationen in die Sprache des Roboters um“, erläutert Seniorautorin Angela Schoellig von der TU München.

(Video: TU München)

Wo könnte die Brille am ehesten liegen?

Wenn der Roboter damit beginnt, beispielsweise nach der Brille zu suchen, zeigt ihm seine mentale Karte direkt an, wo die Chancen für einen Fund am größten sind. In der Karte erscheinen dafür überall zweistellige Zahlen, die die jeweilige Wahrscheinlichkeit für diese Stelle beziffern. „Wir haben dem Roboter beigebracht, die Umgebung zu verstehen“, sagt Schoellig. In einem Praxistest erhielt der Roboter beispielsweise die Aufgabe, nach einem Teller zu suchen. Seine Umgebung war ein Raum mit Stühlen, einem Kaffeetisch mit Tasse darauf und einem Schreibtisch. „Die Karte der Erkundungsprioritäten identifizierte den Bereich in der Nähe der Tasse auf dem Tisch korrekt als wahrscheinlichen Ort des Tellers“, berichten die Forschenden. In weiteren Tests sollte der Roboter nach einer ersten Erkundung des Raums ein neu auf einem Stuhl oder in einem Regal platziertes Buch, eine Tastatur auf dem Schreibtisch oder eine Schale auf dem Tisch finden. Dabei zeigte sich: Im Vergleich zu herkömmlichen Suchstrategien fand der Roboter die Objekte 14 Prozent schneller und suchte fast 30 Prozent effizienter.

Nach Ansicht von Bogenberger und seinen Kollegen eröffnet ihr Ansatz damit die Möglichkeit, Roboter in Fabriken, im Haushalt oder in anderen Umgebungen effizienter und intelligenter zu machen. Das neu entwickelte Grundverständnis von Räumen und Objekten sei „für alle Roboter wichtig, die sich in Räumen bewegen, die sich ständig verändern“, so Schoellig. Im nächsten Schritt wollen die Forschenden ihren Suchroboter so weiter entwickeln, dass er auch versteckte Gegenstände finden kann – beispielsweise in einer Schublade oder hinter einer Tür. Dafür müssen sie ihm allerdings erst noch Arme und Hände verleihen, damit er dann auch Türen oder Schubladen öffnen kann.

Quelle: Benjamin Bogenberger (Technische Universität München) et al., IEEE Robotics and Automation Letters, doi: 10.1109/LRA.2026.3656790

Quelle:

www.wissenschaft.de