ProC3S leert robots veiliger te werken

Een nieuwe methode helpt een groot taalmodel om een haalbaar actieplan te maken door elke stap in een simulatie te testen.

Als iemand u adviseert om 'uw grenzen te kennen', bedoelen ze waarschijnlijk dingen zoals sporten met mate te doen. Voor een robot staat het motto echter voor het leren van beperkingen. Concreter gezegd: beperkingen van een specifieke taak binnen de omgeving van de machine, om taken veilig en correct uit te voeren. Stel u vraagt een robot vraagt om uw keuken schoon te maken (in mijn geval zou hij waarschijnlijk weigeren). Maar hij kent de omgeving niet. Hoe kan de machine dan een praktisch meerstappenplan genereren om ervoor te zorgen dat de kamer vlekkeloos is?

Grote taalmodellen (LLM's) kunnen ze dichtbij krijgen. Maar als het model alleen is getraind op tekst, dan mist het waarschijnlijk belangrijke details over de fysieke beperkingen van de robot. Het model weet niet hoe ver de robot kan reiken of dat er obstakels in de buurt zijn die hij moet vermijden. Als de robot alleen LLM's volgt, zult u waarschijnlijk pastavlekken van het plafond moeten verwijderen.

Trial and error

Om robots te begeleiden bij het uitvoeren van deze open taken, gebruikten onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van Massachusetts Institue of Technology (MIT) in Cambridge visuele modellen. Ze wilden zien wat zich in de buurt van de machine bevindt en de beperkingen ervan te modelleren. De strategie van het team omvat een LLM die een plan schetst dat in een simulator wordt gecontroleerd om te garanderen dat het veilig en realistisch is. Als die reeks acties niet haalbaar is, genereert het taalmodel een nieuw plan, totdat het er een vindt die de robot kan uitvoeren.

Deze trial-and-error-methode, die de onderzoekers 'Planning for Robots via Code for Continuous Constraint Satisfaction' (PRoC3S) noemen, test plannen met een lange horizon. De methode moet garanderen dat de uitvoering aan alle beperkingen voldoen. Met deze methode kan een robot uiteenlopende taken uitvoeren, zoals het schrijven van afzonderlijke letters, het tekenen van een ster en het sorteren en plaatsen van blokken in verschillende posities.

In de toekomst zou PRoC3S robots kunnen helpen om ingewikkeldere taken uit te voeren in dynamische omgevingen zoals huizen, waar ze mogelijk worden aangezet om een algemene taak uit te voeren die uit meerdere stappen bestaat (zoals "maak me ontbijt").

Trainen met tekst

LLM's en klassieke roboticasystemen zoals taak- en bewegingsplanners kunnen dit soort taken niet zelfstandig uitvoeren. Maar samen maakt hun synergie open-ended probleemoplossing mogelijk. De onderzoekers maken een on-the-fly simulatie van wat er om de robot heen gebeurt en proberen veel mogelijke actieplannen uit. Vision-modellen helpen hen om een realistische digitale wereld te creëren. Hiermee kan de robot redeneren over haalbare acties voor elke stap van een plan, met een lange horizon.

De methode van de onderzoekers maakt gebruik van een groot taalmodel dat vooraf is getraind met tekst van internet. Voordat PRoC3S werd gevraagd om een taak uit te voeren, gaf het team het taalmodel een voorbeeldtaak (zoals het tekenen van een vierkant) die gerelateerd is aan de doeltaak (het tekenen van een ster). De voorbeeldtaak bevat een beschrijving van de activiteit, een plan voor de lange termijn en relevante details over de omgeving van de robot.

In simulaties tekende PRoC3S acht van de tien keer succesvol sterren en letters. Het kon ook digitale blokken in piramides en lijnen stapelen en items nauwkeurig plaatsen, zoals fruit op een bord. In elk van deze digitale demo's voltooide de CSAIL-methode de gevraagde taak consistenter dan vergelijkbare benaderingen zoals LLM3 en 'Code as Policies'.

De praktijk

De ontwikkelaars aan MIT CSAIL brachten hun aanpak vervolgens naar de echte wereld. Hun methode ontwikkelde plannen en voerde die uit op een robotarm, waarbij ze leerden om blokken in rechte lijnen te plaatsen. Met PRoC3S kon de robot ook blauwe en rode blokken in bijpassende kommen plaatsen en alle objecten naar het midden van een tafel te.

Volgens de onderzoekers kunnen hun bevindingen aangeven hoe een groot taalmodel veiligere plannen kan ontwikkelen die mensen in de praktijk kunnen vertrouwen. De onderzoekers stellen zich een thuisrobot voor die een algemener verzoek kan krijgen (zoals 'breng me wat chips') en betrouwbaar de specifieke stappen kan achterhalen die nodig zijn om het uit te voeren. PRoC3S zou een robot kunnen helpen plannen te testen in een identieke digitale omgeving om een werkende handelwijze te vinden - en belangrijker nog, om je een lekkere snack te brengen.

De toekomst

Voor toekomstig werk streven de onderzoekers er naar om de resultaten te verbeteren met behulp van een geavanceerdere fysicasimulator. Ook willen ze uitbreiden naar complexere taken met een langere horizon via schaalbare datazoektechnieken. Bovendien zijn ze van plan om PRoC3S toe te passen op mobiele robots zoals een vierbenige robot voor taken die lopen en de omgeving scannen omvatten.

Het gebruik van basismodellen zoals ChatGPT om robotacties te controleren kan leiden tot onveilig of incorrect gedrag als gevolg van hallucinaties. PRoC3S pakt dit probleem aan door basismodellen te gebruiken voor hoogwaardige taakbegeleiding, terwijl AI-technieken worden gebruikt die expliciet redeneren over de wereld om verifieerbaar veilige en correcte acties te garanderen. Deze combinatie van op planning gebaseerde en door data gestuurde benaderingen kan de sleutel zijn tot de ontwikkeling van robots die een breder scala aan taken kunnen begrijpen en betrouwbaar uitvoeren dan momenteel mogelijk is.

Foto: Mike Grimmett, MIT CSAIL