Woorden leermiddel voor robots

Onderzoekers aan Princeton University gebruiken taal om een robot te leren hoe hij een gereedschap moet manipuleren.

Bij het onderzoeken van een nieuwe manier om robots te leren, hebben onderzoekers aan Princeton ontdekt dat beschrijvingen van hulpmiddelen in menselijke taal het leren van een gesimuleerde robotarmopheffing en het gebruik van een verscheidenheid aan hulpmiddelen kunnen versnellen. De resultaten bouwen voort op bewijs dat het verstrekken van rijkere informatie tijdens trainingen op het gebied van kunstmatige intelligentie (AI). Dit kan er voor zorgen dat autonome robots zich beter kunnen aanpassen aan nieuwe situaties, waardoor hun veiligheid en effectiviteit worden verbeterd.

Door beschrijvingen van de vorm en functie van een gereedschap toe te voegen aan het trainingsproces voor de robot, verbeterde het vermogen van de robot om nieuwe gereedschappen te manipuleren die niet in de oorspronkelijke trainingsset zaten. Het team van werktuigbouwkundigen en computerwetenschappers noemt de nieuwe methode Accelerated Learning of Tool Manipulation with LAnguage, of ATLA.

Taalmodel

Robotarmen hebben een groot potentieel om te helpen bij repetitieve of uitdagende taken, maar het trainen van robots om gereedschap effectief te manipuleren is moeilijk. Gereedschap heeft een grote verscheidenheid aan vormen en de behendigheid en visie van een robot zijn niet opgewassen tegen die van een mens.

Extra informatie in de vorm van taal kan een robot helpen de tools sneller te leren gebruiken. Het team verkreeg toolbeschrijvingen door GPT-3 te doorzoeken, een groot taalmodel dat in 2020 door OpenAI is uitgebracht en dat een vorm van AI gebruikt die deep learning wordt genoemd om tekst te genereren als reactie op een prompt. Na met verschillende prompts te hebben geëxperimenteerd, besloten ze om "Beschrijf de [functie] van [tool] in een gedetailleerd en wetenschappelijk antwoord" te gebruiken, waarbij de functie de vorm of het doel van de tool was.

Omdat deze taalmodellen op internet zijn getraind, zijn ze in zekere zin te zien als een andere manier om die informatie op te halen. Dit is efficiënter en uitgebreider dan het gebruik van crowdsourcing of het zoeken naar specifieke websites voor toolbeschrijvingen.

Leerexperimenten

Voor hun gesimuleerde robotleerexperimenten selecteerde het team een trainingsset van 27 gereedschappen, variërend van een bijl tot een rakel. Ze gaven de robotarm vier verschillende taken:

het gereedschap duwen,
het gereedschap optillen,
het gereedschap gebruiken om een cilinder langs een tafel te vegen, of
een pen in een gat slaan.

De onderzoekers ontwikkelden een reeks methodieken met behulp van machine learning trainingsbenaderingen met en zonder taalinformatie. Vervolgens vergeleken ze de prestaties van het beleid op een afzonderlijke testset van negen tools met gepaarde beschrijvingen.

Deze benadering staat bekend als meta learning, omdat de robot zijn vermogen om te leren bij elke volgende taak verbetert. Het is niet alleen leren om elke tool te gebruiken, maar ook proberen de beschrijvingen van elk van deze honderd verschillende tools te leren begrijpen. Als de robot dus de 101e tool ziet, kan hij de nieuwe tool sneller leren gebruiken. De onderzoekers we leren de robot hoe hij de tools moet gebruiken, maar ze leren hem ook Engels.

Koevoet

De onderzoekers maten het succes van de robot bij het duwen, tillen, vegen en timmeren met de negen testtools. Ze vergeleken de behaalde resultaten met de methode die taal gebruikte in het machine learning proces met die geen taalinformatie gebruikten. In de meeste gevallen bood de taalinformatie aanzienlijke voordelen voor het vermogen van de robot om nieuwe tools te gebruiken.

Een taak die opmerkelijke verschillen tussen de methoden liet zien, was het gebruik van een koevoet om een cilinder of fles langs een tafel te vegen. Met de taaltraining leert de robot om het lange uiteinde van de koevoet vast te pakken en het gebogen oppervlak te gebruiken om de beweging van de cilinder of fles beter te beheersen. Zonder de taal greep het de koevoet dicht bij het gebogen oppervlak en was het moeilijker te controleren.

Het algemene doel is om robotsystemen – met name systemen die zijn getraind met behulp van machine learning – te generaliseren naar nieuwe omgevingen. De onderzoekers werken ook aan het voorspellen van mislukkingen voor op vision gebaseerde robotbesturing. Ze gebruiken een benadering van het genereren van vijandige omgevingen om de robot beter te laten functioneren in omstandigheden buiten hun initiële training.

Foto: screendump video Allen Z. Ren et al./Aaron Nathans