Robots leren steeds meer van video's

Robots van Carnegie Mellon University kunnen taken uitvoeren die ze mensen in elke omgeving hebben zien doen.

Door nieuwe ontwikkelingen kunnen robots huishoudelijke taken leren door video's te bekijken van mensen die alledaagse taken in hun huis uitvoeren. Het onderzoek zou kunnen helpen het nut van robots in huis te verbeteren, waardoor ze mensen kunnen helpen met taken als koken en schoonmaken. Twee robots leerden met succes twaalf taken, waaronder

het openen van een lade, ovendeur en deksel
een pan van het fornuis halen
een telefoon, groente of blik soep pakken.

De robot kan leren waar en hoe mensen omgaan met verschillende objecten door video's te bekijken. Vanuit deze kennis kunnen de onderzoekers een model trainen waarmee twee robots vergelijkbare taken in verschillende omgevingen kunnen uitvoeren.

WHIRL en VRB

De huidige methoden voor het trainen van robots vereisen handmatige demonstratie van taken door mensen of uitgebreide training in een gesimuleerde omgeving. Beide zijn tijdrovend en vatbaar voor mislukkingen. Eerder onderzoek aan Carnegie Mellon in Pittsburgh leverde een nieuwe methode op waarbij robots leren van het observeren van mensen die taken uitvoeren. WHIRL (In-the-Wild Human Imitating Robot Learning) vereist echter dat de mens de taak voltooit in dezelfde omgeving als de robot.

Het nieuwste onderzoek, Vision-Robotics Bridge (VRB), bouwt voort op en verbetert WHIRL. Het nieuwe model elimineert de noodzaak van menselijke demonstraties en de noodzaak voor de robot om in een identieke omgeving te werken. Net als WHIRL vereist de robot nog wel steeds oefening om een taak onder de knie te krijgen. Uit het onderzoek van het team bleek dat het een nieuwe taak in slechts 25 minuten kan aanleren.

De onderzoekers konden robots rond de campus nemen en allerlei soorten taken laten voeren. Robots kunnen dit model gebruiken om nieuwsgierig de wereld om hen heen te verkennen. In plaats van alleen met zijn armen te zwaaien, kan een robot directer zijn met hoe hij interageert.

Techniek

Om de robot te leren omgaan met een object, paste het team het concept van 'affordances' toe. Affordances hebben hun wortels in de psychologie en verwijzen naar wat een omgeving een individu te bieden heeft. Het concept is uitgebreid naar ontwerp en interactie tussen mens en computer om te verwijzen naar mogelijke acties die door een individu worden waargenomen.

Voor VRB bepalen affordances waar en hoe een robot kan interageren met een object op basis van menselijk gedrag. Als een robot bijvoorbeeld kijkt naar een mens die een la opent, identificeert hij de contactpunten (het handvat) en de richting van de beweging van de lade, rechtstreeks vanaf de startlocatie. Na het bekijken van verschillende video's van mensen die lades openen, kan de robot bepalen hoe een lade moet worden geopend.

Het team gebruikte video's uit grote datasets zoals Ego4D en Epic Kitchens. Ego4D heeft bijna 4.000 uur aan egocentrische video's van dagelijkse activiteiten van over de hele wereld. Onderzoekers van Carnegie Mellon University hielpen bij het verzamelen van enkele van deze video's. Epic Kitchens bevat vergelijkbare video's waarin koken, schoonmaken en andere keukentaken worden vastgelegd. Beide datasets zijn bedoeld om computervisiemodellen te helpen trainen. De onderzoekers gebruiken deze datasets op een nieuwe en andere manier. Door hun onderzoek zouden robots kunnen leren van de enorme hoeveelheid beschikbare internet- en YouTube-video's.

Foto: screenshot video Carnegie Mellon University