Zichzelf verbeterende robotagent

Een nieuwe basisagent leert verschillende robotarmen te bedienen, lost taken op uit slechts honderd demonstraties en verbetert zich op basis van zelf gegenereerde gegevens.

Veel robots zijn geprogrammeerd om specifieke taken goed uit te voeren. Recente vorderingen op het gebied van kunstmatige intelligentie (AI) zouden kunnen leiden tot robots die op veel meer manieren zouden kunnen helpen. Maar de voortgang bij het bouwen van robots voor algemene doeleinden verloopt langzamer, deels vanwege de tijd die nodig is om echte trainingsdata te verzamelen. RoboCat, leert verschillende taken uit te voeren met verschillende armen en vervolgens zelf nieuwe trainingsgegevens genereert om zijn techniek te verbeteren. Het is een ontwikkeling van Google Deepmind, dat zijn hoofdvestiging heeft in Londen.

Meerdere taken

Eerder onderzoek heeft aangetoond hoe robots kunnen worden ontwikkeld die op grote schaal kunnen leren multitasken. Ook is veel begrip opgebouwd om taalmodellen te kunnen combineren met real-world mogelijkheden van een assistentierobot. RoboCat is volgens de ontwikkelaars de eerste agent die meerdere taken oplost en aanpast aan verschillende, echte robots.

RoboCat leert sneller dan andere geavanceerde modellen. Het kan een nieuwe taak oppakken met slechts honderd demonstraties, omdat het put uit een grote en diverse dataset. Deze mogelijkheid zal het onderzoek naar robotica helpen versnellen, omdat het de behoefte aan training onder toezicht van mensen vermindert Volgens Google Deepmind is het een belangrijke stap in de richting van het creëren van een robot voor algemeen gebruik.

Training

RoboCat is gebaseerd op het multimodale model Gato (Spaans voor 'kat'), dat taal, afbeeldingen en acties kan verwerken in zowel gesimuleerde als fysieke omgevingen. De ontwikkelaars hebben de architectuur van Gato gecombineerd met een grote trainingsdataset van reeksen afbeeldingen en acties van verschillende robotarmen die honderden verschillende taken oplossen. Na deze eerste trainingsronde lanceerden ze RoboCat in een trainingscyclus voor 'zelfverbetering' met een reeks voorheen ongeziene taken.

Het leren van elke nieuwe taak volgde vijf stappen:

Verzamel honderd tot duizend demonstraties van een nieuwe taak of robot, met behulp van een robotarm die wordt bestuurd door een mens
Stel RoboCat nauwkeurig af op deze nieuwe taak/arm en creëer een gespecialiseerde spin-off-agent.
De spin-off agent oefent gemiddeld 10.000 keer op deze nieuwe taak/arm, waardoor meer trainingsdata worden gegenereerd.
Neem de demonstratiegegevens en zelf gegenereerde gegevens op in de bestaande trainingsdataset van RoboCat.
Train een nieuwe versie van RoboCat op de nieuwe trainingsdataset.

Nieuwe taken en robots

Door de combinatie van al deze trainingen is de nieuwste RoboCat gebaseerd op een dataset van miljoenen trajecten, van zowel echte als gesimuleerde robotarmen, inclusief zelf gegenereerde data. De ontwikkelaars gebruikten vier verschillende soorten robots en veel robotarmen om op vision gebaseerde data te verzamelen die de taken vertegenwoordigen waarvoor RoboCat zou worden opgeleid.

Met de diverse trainingen van RoboCat leerde het binnen een paar uur verschillende robotarmen te bedienen. Hoewel het was getraind op armen met tweeledige grijpers, kon het zich aanpassen aan een complexere arm met een drievingerige grijper en twee keer zoveel bestuurbare inputs. Na het observeren van duizend door mensen bestuurde demonstraties, verzameld in slechts enkele uren, kon RoboCat deze nieuwe arm behendig genoeg sturen om 86% van de tijd met succes versnellingen op te pakken.

Met hetzelfde niveau van demonstraties zou het zich kunnen aanpassen om taken op te lossen die precisie en begrip combineren, zoals het juiste fruit uit een kom halen en een qua vorm passende puzzel oplossen, die nodig is voor complexere besturingen.

Generalist

RoboCat kent een continue trainingscyclus: hoe meer nieuwe taken het leert, hoe beter het wordt in het leren van extra nieuwe taken. De eerste versie van RoboCat was slechts 36% van de tijd succesvol bij voorheen ongeziene taken, na te hebben geleerd van vijfhonderd demonstraties per taak. De nieuwste RoboCat heeft getraind op een grotere diversiteit aan taken en meer dan verdubbelde dit slagingspercentage voor dezelfde taken.

De verbeteringen waren te danken aan de groeiende ervaring van RoboCat,. Dit is vergelijkbaar met de manier waarop mensen een diverser scala aan vaardigheden ontwikkelen naarmate ze hun leerproces in een bepaald domein verdiepen. Het vermogen van de AI om zelfstandig vaardigheden te leren en zichzelf snel te verbeteren, vooral wanneer het wordt toegepast op verschillende robotapparaten, zal volgens de ontwikkelaars de weg vrijmaken voor een nieuwe generatie meer behulpzame, algemene robotagenten.

Foto: Google DeepMind