Beweging verraadt objecten in video's

Een Amerikaans onderzoeksproject moet computer vision systemen helpen om bewegende objecten beter te detecteren dan stilstaande.

Voor mensen is het vrij eenvoudig om bewegende objecten te ontdekken. Ook bewegingssensoren (bijvoorbeeld Doppler-radar) hebben weinig moeite met objecten die van plaats veranderen. Voor vision- en computersystemen is dat een stuk lastiger. Maar vanuit de automobielwereld neemt de druk om betrouwbare systemen voor zelfrijdende voertuigen te ontwikkelen toe.

Onderzoekers van het Robotics Institute van de Carnegie Mellon University in Pittsburgh hebben aangetoond dat computer vision systemen gemakkelijker bewegende objecten kunnen detecteren - zoals een auto die over straat rijdt of een persoon die op een zebrapad loopt - dan stilstaande objecten. Ze werkten in een onderzoeksproject samen met het Toyota Research Institute, dat het werk sponsorde. Het onderzoek kan computers en robots helpen om automatisch objecten in video's beter te detecteren.

Objectherkenning

Objectherkenning is van fundamenteel belang voor het begrijpen van scènes in de echte wereld. Het ontwikkelen van door beweging aangestuurde methoden voor het ontdekken van objecten zou autonoom rijden kunnen verbeteren. Maar ze kunnen ook nuttig zijn voor robotica in de retail, robotmanipulatie en robots in huis.

In samenwerking met onderzoekers van Toyota, de University of California Berkeley en de University of Illinois Urbana-Champaign ontwikkelden de CMU-onderzoekers een raamwerk, MoTok. Hiermee kan een computer kenmerken identificeren van dingen die hij ziet bewegen op zijn computer. MoTok gebruikt deze functies vervolgens om het object te reconstrueren, waardoor de computer het object kan ontdekken op een manier waarmee hij hetzelfde object opnieuw kan vinden.

De onderzoekers hebben het werk sindsdien uitgebreid, zodat een computer deze functies op een vereenvoudigde, gevirtualiseerde manier kan weergeven. Door deze ontwikkeling kan een computer functies op hoog niveau beter identificeren, waardoor het rekentuig objecten kan categoriseren in plaats van alleen een bepaald object te identificeren.

Machine learning

De vooruitgang op het gebied van machine learning heeft ertoe bijgedragen dat computers objecten beter kunnen herkennen, zij het op een heel andere manier dan mensen. Die methoden vereisen echter tienduizenden uren video met gelabelde objecten. Het is arbeidsintensief, duur en storingsgevoelig buiten het laboratorium. Dat gaat duidelijk niet werken.

Wat nodig is, is een algemene methode waarmee computerprogramma's zelfstandig objecten in video's kunnen ontdekken, zonder dat er labels of toezicht nodig zijn. Zoals MoTok laat zien, is het gebruik van beweging om objectontdekking te begeleiden een manier om dit doel te bereiken. Objecten die bewegen zijn gemakkelijk te onderscheiden van statische achtergronden.

Beweging kan ook helpen bij het definiëren van een object dat meerdere bewegende delen heeft. Een autodeur kan open en dicht gaan en wielen kunnen draaien, maar alle delen die samen bewegen terwijl de auto door een straat rijdt, kunnen computerprogramma's helpen het concept van een auto beter te begrijpen.

De wetenschappelijke publicatie vindt u hier (PDF).

Foto: Robotics Institute, Carnegie Mellon University