Algoritme helpt robots zelfstandig te leren

'Oefening baart kunst' geldt voor mensen, maar in de toekomst ook voor robots die net zijn ingezet in onbekende omgevingen.

Stelt u zich een robot voor die in een magazijn arriveert. Hij wordt geleverd met de vaardigheden zoals het plaatsen van een object, maar nu moet hij items van een plank pakken. In het begin heeft de machine hier moeite mee, omdat hij moet wennen aan zijn nieuwe omgeving. Om te verbeteren, moet de robot begrijpen welke vaardigheden binnen een algemene taak hij moet verbeteren.

Een mens ter plaatse zou de robot kunnen programmeren om zijn prestaties te optimaliseren. Onderzoekers van het MIT CSAIL in Cambridge (Massachusetts) hebben een effectiever alternatief ontwikkeld. Met hun algoritme 'Estimate, Extrapolate, and Situate' (EES) kunnen robots zelfstandig oefenen, wat hen kan helpen taken in fabrieken, huishoudens en ziekenhuizen te verbeteren.

Situatie inschatten

EES werkt met een vision-systeem dat de omgeving van de machine lokaliseert en volgt. Vervolgens schat het algoritme in hoe betrouwbaar de robot een actie uitvoert en of het de moeite waard zou zijn om meer te oefenen. EES voorspelt hoe goed de robot de algehele taak zou kunnen uitvoeren als hij die specifieke vaardigheid verfijnt en oefent. Het vision-systeem controleert of die vaardigheid na elke poging correct is uitgevoerd.

EES kan handig zijn op plekken als een ziekenhuis, fabriek, huis of horeca. Als u bijvoorbeeld wilt dat een robot uw woonkamer schoonmaakt, heeft hij hulp nodig bij het oefenen van vaardigheden zoals vegen. Volgens de onderzoekers zou EES die robot kunnen helpen verbeteren zonder menselijke tussenkomst, met slechts een paar oefenproeven.

Sneller leren

Toen ze aan dit project begonnen, vroegen ze zich af of deze specialisatie mogelijk zou zijn in een redelijk aantal samples op een echte robot. Het resultaat is een algoritme waarmee robots in een redelijke hoeveelheid tijd beter kunnen worden in specifieke vaardigheden. Dit kunnen ze met tientallen of honderden datapunten, in plaats van de duizenden of miljoenen samples die een standaard reinforcement learning-algoritme vereist.

Het algoritme werd voor proeven geïmplementeerd op een Boston Dynamics Spot vierbenige robot. De betreffende robot, die een arm aan zijn rug heeft, voltooide manipulatietaken na een paar uur oefenen. In een demonstratie leerde de robot hoe hij een bal en ring veilig op een schuine tafel kon plaatsen in ongeveer drie uur.

In een ander voorbeeld leidde het algoritme de machine om speelgoed binnen ongeveer twee uur beter in een prullenbak te vegen. Beide resultaten lijken een verbetering ten opzichte van eerdere frameworks, die waarschijnlijk meer dan tien uur per taak zouden hebben gekost.

Zelf kiezen

De onderzoekers wilden dat de robot zijn eigen ervaring zou verzamelen, zodat hij beter kon kiezen welke strategieën goed zouden werken bij zijn inzet. Door zich te richten op wat de robot weet, probeerden ze achterhalen welke van de vaardigheden die de robot heeft, het meest nuttig zou zijn om te oefenen.

EES zou uiteindelijk kunnen helpen om de autonome praktijk voor robots in nieuwe inzetomgevingen te stroomlijnen. Maar momenteel heeft het algoritme nog een paar beperkingen. Om te beginnen gebruikten de onderzoekers tafels die laag bij de grond waren, waardoor het voor de robot gemakkelijker was om zijn objecten te zien. Ze hebben een handgreep in 3D geprint, waardoor Spot de borstel gemakkelijker kon pakken. De robot detecteerde sommige items niet en identificeerde objecten op de verkeerde plaatsen. In de ogen van de onderzoekers zijn dat mislukkingen.

De oefensnelheden van de fysieke experimenten kunnen verder worden versneld met behulp van een simulator. In plaats van fysiek autonoom aan elke vaardigheid te werken, zou de robot uiteindelijk echte en virtuele oefening kunnen combineren. Ze hopen hun systeem sneller te maken door EES te ontwerpen om beeldvertragingen te overwinnen. In de toekomst kunnen de onderzoekers een algoritme bestuderen dat redeneert over reeksen oefenpogingen, in plaats van te plannen welke vaardigheden moeten worden verfijnd.

Ill.: Alex Shipps, MIT CSAIL