Beeldherkenning en -generatie in één

MAGE voegt de twee belangrijkste taken van het genereren en herkennen van afbeeldingen, die doorgaans afzonderlijk worden getraind, samen in één enkel systeem.

Computers kunnen afbeeldingen zowel identificeren als opnieuw genereren. Historisch gezien zijn deze functies gescheiden. Wat zou er nodig zijn om een harmonieuze unie tussen deze twee onderscheidende capaciteiten te orkestreren?

Onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van het Massachusetts Institute of Technology (MIT) in Cambridge hebben een systeem getraind om de ontbrekende delen van een afbeelding af te leiden. Deze taak vereist een diepgaand begrip van de inhoud van de afbeelding. Door de lege plekken met succes in te vullen, bereikt het systeem (Masked Generative Encoder ofwel MAGE) tegelijkertijd twee doelen. Het kan afbeeldingen nauwkeurig identificeren en het kan nieuwe afbeeldingen creëren die opvallend veel op de werkelijkheid lijken.

Het systeem met twee doelen maakt talloze potentiële toepassingen mogelijk zoals objectidentificatie en -classificatie binnen afbeeldingen. Andere mogelijkheden zijn het snel leren van minimale voorbeelden, het maken van afbeeldingen onder specifieke omstandigheden zoals tekst of klasse, en het verbeteren van bestaande afbeeldingen.

Techniek

In tegenstelling tot andere technieken werkt MAGE niet met onbewerkte pixels. In plaats daarvan converteert het afbeeldingen naar zogenaamde 'semantische tokens'. Dit zijn compacte geabstraheerde versies van een afbeeldingssectie. Deze tokens zijn te beschouwen als mini-puzzelstukjes, die elk een 16x16 patch van de originele afbeelding vertegenwoordigen. Net zoals woorden zinnen vormen, creëren deze tokens een geabstraheerde versie van een afbeelding.

Deze geabstraheerde versie kan worden gebruikt voor complexe verwerkingstaken, terwijl de informatie in de originele afbeelding behouden blijft. Een dergelijke stap met tokens kan worden getraind binnen een raamwerk met zelfbeheer, waardoor het vooraf kan trainen op grote afbeeldingsdatasets zonder labels.

Tokenmodellering

De magie begint wanneer MAGE 'gemaskerde tokenmodellering' gebruikt. Het verbergt willekeurig enkele van deze tokens, waardoor een onvolledige puzzel ontstaat. Vervolgens traint het een neuraal netwerk om de gaten op te vullen. Op deze manier leert MAGE zowel de patronen in een afbeelding te begrijpen (beeldherkenning) als nieuwe patronen te genereren (beeldgeneratie).

Een opmerkelijk onderdeel van MAGE is de variabele maskeringsstrategie tijdens de pre-training. Hierdoor kan het trainen voor elke taak, beeldgeneratie of herkenning, binnen hetzelfde systeem. MAGE's vermogen om te werken in de 'token space' in plaats van 'pixel space' resulteert in duidelijke, gedetailleerde en hoogwaardige beeldgeneratie en semantisch rijke beeldrepresentaties. Dit kan hopelijk de weg vrijmaken voor geavanceerde en geïntegreerde computer vision-modellen.

Andere mogelijkheden

Afgezien van de mogelijkheid om vanuit het niets realistische afbeeldingen te genereren, maakt MAGE ook het genereren van voorwaardelijke afbeeldingen mogelijk. Gebruikers kunnen bepaalde criteria specificeren voor de afbeeldingen die MAGE wil genereren, en de tool zal de juiste afbeelding maken. Het systeem is ook geschikt voor beeldbewerkingstaken, zoals het verwijderen van elementen uit een afbeelding met behoud van een realistisch uiterlijk.

Herkenningstaken zijn een ander sterk punt voor MAGE. Met zijn vermogen om vooraf te trainen op grote niet-gelabelde datasets, kan het afbeeldingen classificeren met alleen de aangeleerde representaties. Bovendien kan het leren van kleine hoeveelheden en bereikt het goede resultaten op grote beelddatasets met slechts een handvol gelabelde voorbeelden.

De validatie van de prestaties van MAGE was indrukwekkend. Aan de ene kant vestigde het nieuwe records in het genereren van nieuwe afbeeldingen, waarbij het eerdere modellen overtrof met een aanzienlijke verbetering. Aan de andere kant was het systeem de beste in herkenningstaken, met een nauwkeurigheid van 80,9% bij lineair sonderen en een nauwkeurigheid van 71,9% bij tien schoten op ImageNet. Dit laatste betekent dat het afbeeldingen correct identificeerde in 71,9% van de gevallen waarin het slechts tien gelabelde voorbeelden van elk had).

Voortgang

Ondanks zijn prestaties is MAGE 'work in progress '. Het proces van het omzetten van afbeeldingen in tokens leidt onvermijdelijk tot enig verlies van informatie. De onderzoekers willen manieren onderzoeken om afbeeldingen te comprimeren zonder belangrijke details te verliezen in toekomstig werk. Het team wil MAGE ook testen op grotere datasets. Toekomstige verkenning kan bestaan uit het trainen van MAGE op grotere niet-gelabelde datasets, wat mogelijk kan leiden tot nog betere prestaties.

Onderzoekers willen al langer beeldgeneratie en beeldherkenning in één systeem realiseren. MAGE is een baanbrekend onderzoek dat met succes de synergie van deze twee taken benut en de state-of-the-art ervan in één enkel systeem realiseert. Dit innovatieve systeem heeft brede toepassingsmogelijkheden en heeft het potentieel om veel toekomstig onderzoek op het gebied van computervisie te inspireren.

De wetenschappelijke publicatie vindt u hier.

Foto: Alex Shipps/MIT CSAIL via Midjourney