Een snellere manier voor algemene robottraining

In de klassieke tekenfilmserie The Jetsons schakelt robothuishoudster Rosie naadloos over van stofzuigen naar koken naar het buitenzetten van de vuilnis. In het hedendaagse echte leven blijft het trainen van een robot voor algemeen gebruik een grote uitdaging.

Meestal verzamelen ingenieurs gegevens die specifiek zijn voor een bepaalde robot en taak, die ze gebruiken om de robot te trainen in een gecontroleerde omgeving. Het verzamelen van deze gegevens is kostbaar en tijdrovend en de robot zal waarschijnlijk moeite hebben om zich aan te passen aan omgevingen of taken die hij nog niet eerder heeft gezien.

Om betere robots voor algemeen gebruik te trainen, ontwikkelden onderzoekers van het Massachusetts Institute of Technology (MIT) in Cambridge (bij Boston, MA) een veelzijdige techniek. Deze combineert een grote hoeveelheid heterogene data uit veel bronnen in één systeem dat elke robot een breed scala aan taken kan leren.

Hoeveelheid data

Hun methode omvat het 'uitlijnen' van data uit verschillende domeinen (zoals simulaties en echte robots) en meerdere modaliteiten (waaronder vision-sensoren en encoders op een robotarm) in een gedeelde 'taal' die een generatief AI-model kan verwerken. Door een grote hoeveelheid data te combineren, kan deze aanpak worden gebruikt om een robot te trainen. Hij kan dan verschillende taken uitvoeren zonder dat het nodig is, hem elke keer opnieuw te trainen.

Deze methode zou sneller en goedkoper kunnen zijn dan traditionele technieken, omdat veel minder taakspecifieke data nodig zijn. Bovendien presteerde de methode meer dan 20% beter dan training vanaf nul in simulaties en experimenten in de echte wereld. In de robotica beweren mensen vaak dat ze niet genoeg trainingsgegevens hebben. Maar volgens de onderzoekers is een ander groot probleem dat de data afkomstig zijn uit verschillende domeinen, modaliteiten en robothardware. Het onderzoek laat zien hoe een robot is te trainen met al deze data bij elkaar.

Een robotisch 'beleid' neemt sensorobservaties op, zoals camerabeelden of proprioceptieve metingen die de snelheid en positie van een robotarm bijhouden. Vervolgens vertelt het beleid een robot vervolgens hoe en waar hij moet bewegen. Beleid wordt doorgaans getraind met behulp van imitation learning. Omdat deze methode een kleine hoeveelheid taakspecifieke data gebruikt, falen robots vaak wanneer hun omgeving of taak verandert.

Taalmodellen

Om een betere aanpak te ontwikkelen, haalden de onderzoekers inspiratie uit grote taalmodellen zoals GPT-4. Deze modellen worden vooraf getraind met behulp van een grote hoeveelheid diverse taalgegevens en vervolgens verfijnd door ze een kleine hoeveelheid taakspecifieke gegevens te geven. Voortraining op zoveel data helpt de modellen zich aan te passen om goed te presteren op verschillende taken.

Robotdata nemen vele vormen aan, van camerabeelden tot taalinstructies tot dieptekaarten. Tegelijkertijd is elke robot mechanisch uniek, met een ander aantal en een andere oriëntatie van armen, grijpers en sensoren. Bovendien variëren de omgevingen waarin gegevens worden verzameld enorm. Zo filmden de onderzoekers meerdere keren dat een robotarm de hond Momo van een van de auteurs voedde (foto). De video's werden opgenomen in datasets om de robot te trainen.

Nieuwe architectuur

De MIT-onderzoekers ontwikkelden een nieuwe architectuur genaamd Heterogeneous Pretrained Transformers (HPT) die data uit verschillende modaliteiten en domeinen verenigt. Ze plaatsten een machine learning model, bekend als een transformer, in het midden van hun architectuur, dat visuele en proprioceptieve inputs verwerkt. Een transformer is hetzelfde type model dat de ruggengraat vormt van grote taalmodellen.

De onderzoekers stemmen gegevens uit visuele en proprioceptieve inputs af op hetzelfde type input, een token genaamd, dat de transformer kan verwerken. Elke input wordt weergegeven met hetzelfde vaste aantal tokens. Vervolgens brengt de transformer alle inputs in kaart in één gedeelde ruimte, die uitgroeit tot een groot voorgeprogrammeerd model naarmate het meer data verwerkt en ervan leert. Hoe groter de transformer wordt, des te beter hij zal presteren.

Een gebruiker hoeft HPT slechts een kleine hoeveelheid data te geven over het ontwerp, de opstelling en de taak die hij wil dat de robot uitvoert. Vervolgens draagt HPT de kennis over die de transformer heeft verzameld tijdens de voortraining om de nieuwe taak te leren.

Bewegingen

Een van de grootste uitdagingen bij het ontwikkelen van HPT was het bouwen van de dataset om de transformator voor te trainen. De set bevatte 52 datasets met meer dan 200.000 robottrajecten in vier categorieën, waaronder menselijke demovideo's en simulatie.

De onderzoekers moesten ook een efficiënte manier ontwikkelen om ruwe proprioceptiesignalen van een reeks sensoren om te zetten in gegevens die de transformator kon verwerken. Proprioceptie is essentieel om veel behendige bewegingen mogelijk te maken. Omdat het aantal tokens in hun architectuur altijd hetzelfde is, hechten de onderzoekers evenveel belang aan proprioceptie en zicht.

Het onderzoekt biedt een nieuwe benadering voor het trainen van één beleid over meerdere robotuitvoeringen. Dit maakt training over diverse datasets mogelijk, waardoor robotleermethoden de omvang van de datasets waarop ze kunnen trainen aanzienlijk kunnen opschalen. Het stelt het model ook in staat om zich snel aan te passen aan nieuwe robotbelichamingen, wat belangrijk is omdat er voortdurend nieuwe robotontwerpen worden geproduceerd.

Vervolg

In de toekomst willen de onderzoekers bestuderen hoe datadiversiteit de prestaties van HPT kan verbeteren. Ze willen HPT ook verbeteren, zodat het ongelabelde data zoals GPT-4 en andere grote taalmodellen kan verwerken. Hun doel is, een universeel robotbrein te hebben dat is te downloaden en gebruiken voor een robot zonder enige training. Hoewel ze nog maar in de beginfase zitten, blijven ze doorgaan en hopen ze dat opschaling leidt tot een doorbraak in robotbeleid, zoals het deed met grote taalmodellen.

De wetenschappelijke publicatie vindt u hier.

Foto: MIT