AI traint robotteam om samen te werken

Onderzoekers aan de University of Illinois ontwikkelden een methode om apparaten te trainen om samen te werken.

Wanneer communicatielijnen open zijn, kunnen individuele apparaten zoals robots of drones samenwerken om een taak te voltooien. Maar wat als ze niet zijn uitgerust met de juiste hardware of de signalen worden geblokkeerd, waardoor communicatie onmogelijk wordt? Onderzoekers van de University of Illinois Urbana-Champaign (200 km ten zuiden van Chicago) begonnen met deze uitdaging. Ze ontwikkelden een methode om meerdere apparaten te trainen om samen te werken met behulp van multi-agent reinforment learning, een vorm van kunstmatige intelligentie.

Machine learning

Het is gemakkelijk als apparaten met elkaar kunnen praten. Maar de onderzoekers wilden dit decentraal doen, wat betekent dat ze niet met elkaar praten. Ze hebben zich ook gericht op situaties waarin het niet duidelijk is wat de verschillende rollen of banen voor de apparaten zouden moeten zijn. Dit scenario is veel complexer en moeilijker omdat het niet duidelijk is wat het ene apparaat moet doen ten opzichte van de andere. De interessante vraag is hoe ze leren om in de loop van de tijd samen een taak te volbrengen.

De onderzoekers gebruikten machine learning om dit probleem op te lossen. Ze creëerden een hulpprogramma-functie die het apparaat vertelt wanneer het iets nuttigs of goeds voor het team doet. De onderzoekers ontwikkelden een machine learning techniek waarmee ze kunnen identificeren wanneer een individueel apparaat bijdraagt aan de teamdoelstelling. Eén voetballer kan scoren, maar coaches en onderzoekers willen ook weten over acties van andere teamgenoten die tot het doelpunt hebben geleid, zoals assists. Het is moeilijk om deze vertraagde effecten te begrijpen.

Algoritmen

De algoritmen die de onderzoekers ontwikkelden, kunnen ook identificeren wanneer een apparaat of robot iets doet dat niet bijdraagt aan het doel. Dat betekent niet dat de robot ervoor heeft gekozen om iets verkeerd te doen, maar zijn keuze is niet nuttig voor het einddoel.

Ze testten hun algoritmen met behulp van gesimuleerde spellen zoals Capture the Flag en StarCraft, een populair computerspel. StarCraft kan een beetje onvoorspelbaarder zijn en de onderzoekers waren blij dat hun methode ook in die omgeving goed werkte.

Dit type algoritme kan van toepassing zijn op veel echte situaties zoals militaire bewaking, robots die samenwerken in een magazijn, verkeerslichtcontrole, autonome voertuigen die leveringen coördineren of een elektriciteitsnet besturen.

Foto: The Grainger College of Engineering, University of Illinois Urbana-Champaign