Ingenieure der Northwestern University haben einen neuen Algorithmus für künstliche Intelligenz (KI) für intelligente Robotik entwickelt. Indem die neue Methode Roboter dabei unterstützt, schnell und zuverlässig komplexe Fähigkeiten zu erlernen, könnte sie die Praktikabilität – und Sicherheit – von Robotern für verschiedene Anwendungen, darunter selbstfahrende Autos, Lieferdrohnen, Haushaltsassistenten und Automatisierung, erheblich verbessern.
Der Erfolg des Algorithmus namens Maximum Diffusion Reinforcement Learning (MaxDiff RL) liegt in seiner Fähigkeit, Roboter dazu zu ermutigen, ihre Umgebung so zufällig wie möglich zu erkunden, um vielfältige Erfahrungen zu sammeln. Diese „gestaltete Zufälligkeit“ verbessert die Qualität der Daten, die Roboter über ihre eigene Umgebung sammeln. Und durch die Verwendung qualitativ hochwertigerer Daten zeigten simulierte Roboter ein schnelleres und effizienteres Lernen und verbesserten so ihre Gesamtzuverlässigkeit und Leistung.
Beim Test mit anderen KI-Plattformen übertrafen simulierte Roboter, die den neuen Algorithmus von Northwestern nutzten, durchweg bessere Modelle als moderne Modelle. Der neue Algorithmus funktioniert tatsächlich so gut, dass Roboter neue Aufgaben lernten und diese dann in einem einzigen Versuch erfolgreich ausführten – und zwar gleich beim ersten Mal. Dies steht in krassem Gegensatz zu aktuellen KI-Modellen, die ein langsameres Lernen durch Versuch und Irrtum ermöglichen.
Die Forschung wurde heute in der Fachzeitschrift Nature Machine Intelligence veröffentlicht.
„Andere KI-Frameworks können etwas unzuverlässig sein“, sagte Thomas Berrueta von Northwestern, der die Studie leitete. „Manchmal gelingt ihnen eine Aufgabe völlig, ein anderes Mal scheitern sie jedoch völlig. Mit unserem Framework können Sie, solange der Roboter überhaupt in der Lage ist, die Aufgabe zu lösen, jedes Mal, wenn Sie Ihren Roboter einschalten, erwarten, dass er genau das tut, was von ihm verlangt wird. Dies erleichtert die Interpretation von Erfolgen und Misserfolgen von Robotern, was in einer zunehmend von KI abhängigen Welt von entscheidender Bedeutung ist.“
Berrueta ist Presidential Fellow am Northwestern und Ph.D. Kandidat für Maschinenbau an der McCormick School of Engineering. Der Robotikexperte Todd Murphey, Professor für Maschinenbau bei McCormick und Berruetas Berater, ist der leitende Autor des Papiers. Berrueta und Murphey haben das Papier gemeinsam mit Allison Pinosky, ebenfalls Doktorandin, verfasst. Kandidat in Murphys Labor.
Die körperlose Trennung
Um Algorithmen für maschinelles Lernen zu trainieren, nutzen Forscher und Entwickler große Mengen an Big Data, die Menschen sorgfältig filtern und kuratieren. Die KI lernt aus diesen Trainingsdaten und nutzt dabei Versuch und Irrtum, bis optimale Ergebnisse erzielt werden. Während dieser Prozess für körperlose Systeme wie ChatGPT und Google Gemini (ehemals Bard) gut funktioniert, funktioniert er nicht für körperlose KI-Systeme wie Roboter. Stattdessen sammeln Roboter selbst Daten – ohne den Luxus menschlicher Kuratoren.
„Herkömmliche Algorithmen sind in zweierlei Hinsicht nicht mit der Robotik kompatibel“, sagte Murphey. „Erstens können körperlose Systeme von einer Welt profitieren, in der physikalische Gesetze nicht gelten. Zweitens haben individuelle Fehler keine Konsequenzen. Für Informatikanwendungen kommt es nur darauf an, dass sie in den meisten Fällen erfolgreich sind. In der Robotik könnte ein einziger Fehler katastrophale Folgen haben.“
Um diese Diskrepanz zu lösen, wollten Berrueta, Murphey und Pinosky einen neuartigen Algorithmus entwickeln, der sicherstellt, dass Roboter unterwegs qualitativ hochwertige Daten sammeln. Im Kern befiehlt MaxDiff RL Robotern, sich zufälliger zu bewegen, um umfassende, vielfältige Daten über ihre Umgebung zu sammeln. Durch das Lernen durch selbst kuratierte Zufallserfahrungen erwerben Roboter die notwendigen Fähigkeiten, um nützliche Aufgaben zu erfüllen.
Beim ersten Mal alles richtig machen
Um den neuen Algorithmus zu testen, verglichen die Forscher ihn mit aktuellen, hochmodernen Modellen. Mithilfe von Computersimulationen forderten die Forscher simulierte Roboter auf, eine Reihe von Standardaufgaben auszuführen. Insgesamt lernten Roboter, die MaxDiff RL nutzten, schneller als die anderen Modelle. Sie führten Aufgaben auch viel konsequenter und zuverlässiger korrekt aus als andere.
Vielleicht noch beeindruckender: Robotern, die die MaxDiff RL-Methode nutzen, gelang es oft, eine Aufgabe in einem einzigen Versuch korrekt auszuführen. Und das sogar, als sie ohne Wissen begannen.
„Unsere Roboter waren schneller und agiler – sie waren in der Lage, das Gelernte effektiv zu verallgemeinern und auf neue Situationen anzuwenden“, sagte Berrueta. „Für reale Anwendungen, bei denen Roboter sich nicht endlose Zeit für Versuch und Irrtum leisten können, ist dies ein großer Vorteil.“
Da MaxDiff RL ein allgemeiner Algorithmus ist, kann er für eine Vielzahl von Anwendungen verwendet werden. Die Forscher hoffen, dass damit grundlegende Probleme gelöst werden, die das Feld behindern, und letztendlich den Weg für eine zuverlässige Entscheidungsfindung in der intelligenten Robotik ebnen.
„Dies muss nicht nur für Roboterfahrzeuge verwendet werden, die sich bewegen“, sagte Pinosky. „Es könnte auch für stationäre Roboter verwendet werden – etwa für einen Roboterarm in einer Küche, der lernt, die Spülmaschine zu beladen. Da Aufgaben und physische Umgebungen immer komplizierter werden, wird die Rolle der Verkörperung im Lernprozess immer wichtiger. Dies ist ein wichtiger Schritt hin zu echten Systemen, die kompliziertere und interessantere Aufgaben erledigen.“
Quelle: NNordwestliche Universität
source link eu news