Gecombineerde LLM's voor complexe taken

Simulatie is voor robots een goede methode voor het leren van taken, vooral omdat het lang duurt om trainingsdata uit de echte wereld te verzamelen.

Het simuleren van digitale acties om robots nieuwe taken te leren, kost ook mensen veel tijd. Door die minuten te halveren, gebruikt het nieuwe GenSim2 framework multimodale en redenerende grote taalmodellen om trainingsdata voor robots te vergroten. Onderzoekers van MIT CSAIL (MIT Computer Science and Artificial Intelligence Laboratory) in Cambridge bij Boston combineerden de krachten van multimodale LLM GPT-4V en redenerende LLM OpenAI o1om tien video's van taken uit de echte wereld te maken en honderd nieuwe, gesimuleerde actievideo's te genereren.

LLM's (large language models) maken het mogelijk tekst, afbeeldingen en andere media te verwerken en produceren). LLM GPT-4V kan betere conclusies trekken over tekst en afbeeldingen, LLM OpenAI o1 kan 'denken' voordat het antwoordt.

Gensim 2

GenSim2 kan vervolgens taaknamen van de actievideo's omzetten in taakbeschrijvingen en vervolgens in taakcode. Deze kan worden gesimuleerd in een reeks acties die een robot kan uitvoeren. De aanpak zou uiteindelijk thuisrobots kunnen helpen met taken zoals het uitzoeken van elke stap die nodig is om uw ontbijt op te warmen. Daaronder valt ook het openen van de magnetron en het plaatsen van brood in het broodrooster. Het zou ook kunnen helpen in productie- en logistieke omgevingen op een dag, waar een machine nieuwe materialen in meerdere stappen moet transporteren.

Het framework is een vervolg op eerder onderzoek, GenSim, dat LLM's gebruikte om nieuwe pick-and-place-taken voor robots te coderen. De ontwikkelaars wilden hun aanpak uitbreiden naar behendigere activiteiten met complexere objectcategorieën, zoals het openen van een doos of het sluiten van een kluis. Om deze ingewikkeldere taken in robotica te plannen, moesten ze er achter komen hoe ze die kunnen oplossen.

Dit planningsprobleem was er niet in GenSim, omdat de taken veel eenvoudiger waren, dus ze hadden alleen 'blinde' LLM's nodig. Met GenSim2 hebben ze het logische model GPT-4V geïntegreerd, dat multimodale modellen leert om te 'zien' door beeldinvoer te analyseren met betere redeneervaardigheden. Nu kunnen de onderzoekers de simulatietaak coderen en vervolgens binnen enkele seconden plannen genereren.

Basis

De gebruiker vraagt een LLM zoals GPT-eerst 4 om een nieuw taakplan te genereren, zoals 'plaats een bal in een doos', inclusief afbeeldingen, activa en sleutelpunten (of specifieke punten in een afbeelding). Van daaruit beoordeelt GPT-4V deze details en codeert beknopt welke poses en acties nodig zijn om de taak uit te voeren. De gebruiker kan GPT-4V feedback geven over dit plan en vervolgens zal het de contouren ervan verfijnen. Tot slot simuleert een bewegingsplanner die acties in video's, waarmee nieuwe trainingsgegevens voor de robot worden gegenereerd.

Om deze plannen om te zetten in acties, ontwierpen de onderzoekers ook een nieuwe architectuur genaamd de 'proprioceptieve puntwolktransformator' (PPT). Deze zet taal, puntenwolk (datapunten binnen een 3D-ruimte) en proprioceptie-input om in een uiteindelijke actiesequentie. Hierdoor kan een robot leren om videosimulaties te imiteren en te generaliseren naar objecten die hij nog niet eerder heeft gezien.

Experimenten

De aanpak van GenSim2 genereerde data voor honderd gearticuleerde taken met tweehonderd objecten. Hiervan simuleerde het systeem vijftig taken met een lange horizon, zoals het veiligstellen van goud in een kluis en het bereiden van ontbijt. Vergeleken met de generatieve robotagent en de basislijn RoboGen had GenSim2 een 20% beter slagingspercentage bij het genereren en plannen van primitieve taken. Ook was het framework betrouwbaarder bij taken met een lange horizon. De onderzoekers merken op dat ze een voorsprong hadden doordat ze multimodale modellen hadden die konden redeneren over visuele input.

Ook interessant is, dat het mensen gemiddeld slechts vier minuten kostte om robotplannen te verifiëren. Dat is de helft van hoe lang het duurde om een taak handmatig te ontwerpen. Tot de menselijke inspanningen behoren het labelen van belangrijke punten in de bewegingsplanner en het geven van feedback om het multimodale taalmodel te helpen zijn plannen te verbeteren.

In experimenten in de echte wereld hielp GenSim2 bij het plannen van taken voor een robot, zoals het openen van een laptop en het sluiten van een lade. Toen het werd getraind op zowel simulatie als echte data om zijn robotbeleid te ontwikkelen, had het framework een beter succespercentage dan elk afzonderlijk. Dit vermindert de vereiste inspanning om grote hoeveelheden data in de echte wereld te verzamelen.

Vervolg

Hoewel GenSim2 een ingewikkelder, geavanceerder vervolg is op zijn voorganger, merken de onderzoekers op dat ze willen dat het robottaken plant en simuleert met nog minder menselijke tussenkomst. Momenteel worstelt het framework er mee op betrouwbare wijze zinvolle taken op zichzelf te creëren en te coderen. Het framework is een stap voorwaarts in het bereiken van geautomatiseerde taakgeneratie, maar de onderzoekers willen het systeem geavanceerder maken. Om dit te doen, willen ze de complexiteit en diversiteit van taken vergroten door geavanceerde multimodale agenten en 3D-assets te genereren.

Aan het onderzoek werd meegewerkt door onderzoekers aan de Tsinghua University in Beijing, de Shanghai Jiao Tong University en de University of California in San Diego. De wetenschappelijke publicatie vindt u hier.

Foto: MIT CSAIL