Taalmodellen helpen robots navigeren

De methode maakt gebruik van op taal gebaseerde invoer in plaats van visuele gegevens om een robot door een uit navigatietaak te leiden.

Op een dag wil je misschien dat je huisrobot een lading vuile kleren naar beneden draagt en deze in de wasmachine in de kelder stopt. De robot zal uw instructies moeten combineren met zijn visuele observaties om te bepalen welke stappen hij moet nemen om deze taak te voltooien.

Voor een AI-agent is dit gemakkelijker gezegd dan gedaan. De huidige benaderingen maken vaak gebruik van meerdere met de hand opgestelde machine learning modellen om verschillende delen van de taak aan te pakken. Er is veel menselijke inspanning en expertise nodig om zo'n model bouwen. Deze methoden vereisten visuele representaties om direct navigatiebeslissingen te nemen. Dat vergt grote hoeveelheden visuele data voor training, die vaak moeilijk te verkrijgen zijn.

Om deze uitdagingen het hoofd te bieden, hebben onderzoekers van het Massachusetts Institute of Massachusetts (MIT) en het MIT-IBM Watson AI Lab (beide in Cambridge, Mass.) een nieuwe navigatiemethode bedacht. Deze zet visuele representaties om in stukjes taal, die vervolgens worden ingevoerd in één groot taalmodel dat alle delen van de uit meerdere stappen bestaande navigatietaak vervult.

Bijschriften

Visuele kenmerken uit afbeeldingen van de omgeving van een robot coderen als visuele representaties is rekenintensief. In plaats daarvan creëert de nieuwe methode bijschriften die het gezichtspunt van de robot beschrijven.

Een groot taalmodel gebruikt de bijschriften om te voorspellen welke acties een robot moet ondernemen om aan de op taal gebaseerde instructies van een gebruiker te voldoen. Omdat de methode puur op taal gebaseerde representaties gebruikt, kunnen ze een groot taalmodel gebruiken om efficiënt een enorme hoeveelheid synthetische trainingsgegevens te genereren.

Deze aanpak presteert niet beter dan technieken die visuele kenmerken gebruiken, maar presteert wel goed in situaties waarin voldoende visuele gegevens voor training ontbreken. De onderzoekers ontdekten dat het combineren van hun op taal gebaseerde input met visuele signalen tot betere navigatieprestaties leidt.

Door puur taal als perceptuele representatie te gebruiken, hebben de onderzoekers een eenvoudigere benadering. Omdat alle input als taal kan worden gecodeerd, kunnen ze een voor mensen begrijpelijk traject genereren.

Vision-probleem oplossen met taal

Grote taalmodellen zijn de krachtigste modellen voor machine learning die beschikbaar zijn. Daarom probeerden de onderzoekers deze te integreren in de complexe taak die bekend staat als vision-en-taalnavigatie. Maar dergelijke modellen gebruiken op tekst gebaseerde invoer en kunnen geen visuele gegevens van de camera van een robot verwerken. Het team moest dus een manier vinden om in plaats daarvan taal te gebruiken.

De nieuwe techniek maakt gebruik van een eenvoudig ondertitelingsmodel om tekstbeschrijvingen van de visuele observaties van een robot te verkrijgen. Deze ondertitels worden gecombineerd met op taal gebaseerde instructies en ingevoerd in een groot taalmodel, dat beslist welke navigatiestap de robot vervolgens moet nemen.

Het grote taalmodel geeft een bijschrift weer van de scène die de robot zou moeten zien na het voltooien van die stap. Dit wordt gebruikt om de trajectgeschiedenis bij te werken, zodat de robot kan bijhouden waar hij is geweest. Het model herhaalt deze processen om een traject te genereren dat de robot stap voor stap naar zijn doel leidt.

Sjablonen

Om het proces te stroomlijnen, hebben de onderzoekers sjablonen ontworpen, zodat observatie-informatie in een standaardvorm aan het model wordt gepresenteerd. Dit gebeurt als een reeks keuzes die de robot kan maken op basis van zijn omgeving. Een onderschrift zou bijvoorbeeld kunnen luiden: "30° links van je is een deur met een potplant ernaast. Aan je rug is een klein kantoor met een bureau en een computer", enzovoorts. Het model kiest of de robot naar de ruimte moet bewegen. de deur of het kantoor.

Een van de grootste uitdagingen was het uitzoeken hoe programmeurs dit soort informatie op de juiste manier in taal kunnen coderen, zodat de agent begrijpt wat de taak is en hoe hij of zij moet reageren.

Voordelen van taal

Hoewel het nieuwe model niet beter presteerde dan op vision gebaseerde technieken, ontdekten de onderzoekers bij testen dat deze toch verschillende voordelen bood. Omdat tekst minder computerbronnen vereist om te synthetiseren dan complexe beeldgegevens, kan de methode worden gebruikt om snel synthetische trainingsgegevens te genereren. In één test genereerden ze 10.000 synthetische trajecten op basis van tien real-world, visuele trajecten.

De techniek kan ook de kloof overbruggen die kan voorkomen dat een agent die is getraind in een gesimuleerde omgeving, goed presteert in de echte wereld. Deze kloof ontstaat vaak omdat door de computer gegenereerde afbeeldingen er heel anders uit kunnen zien dan scènes uit de echte wereld door elementen als belichting of kleur. Maar taal die een synthetisch beeld beschrijft van een echt beeld zou veel moeilijker van elkaar te onderscheiden zijn. Bovendien zijn de representaties die hun model gebruikt gemakkelijker te begrijpen voor een mens, omdat ze in natuurlijke taal zijn geschreven.

Als de agent er niet in slaagt zijn doel te bereiken, kunnen onderzoekers gemakkelijker bepalen waar hij faalde en waarom hij faalde. Misschien is de historische informatie niet duidelijk genoeg of negeert de observatie enkele belangrijke details.

Bovendien zou de nieuwe methode gemakkelijker kunnen worden toegepast op uiteenlopende taken en omgevingen, omdat er slechts één type invoer wordt gebruikt. Zolang gegevens als taal kunnen worden gecodeerd, kunnen ze hetzelfde model gebruiken zonder enige wijziging aan te brengen. Een nadeel is wel dat deze methode op natuurlijke wijze informatie verliest die zou worden vastgelegd door op visie gebaseerde modellen, zoals diepte-informatie.

Vervolg

De onderzoekers waren echter verrast toen ze zagen dat het combineren van op taal gebaseerde representaties met op vision gebaseerde methoden het navigatievermogen van een agent verbetert. Dit kan betekenen dat taal informatie op een hoger niveau kan vastleggen die niet kan worden vastgelegd met pure visuele kenmerken.

Dit is een gebied dat de onderzoekers willen blijven verkennen. Ze willen ook een op navigatie georiënteerd ondertitelprogramma ontwikkelen dat de prestaties van de methode zou kunnen verbeteren. Daarnaast willen ze het vermogen van grote taalmodellen onderzoeken om ruimtelijk inzicht te tonen en zien hoe dit op taal gebaseerde navigatie kan helpen.

De wetenschappelijke publicatie vindt u hier.

Foto: PxHere