Om het systeem te trainen, gebruikten de onderzoekers generatieve adversarial networks (GAN’s) waarbij een co-attention-discriminator de natuurlijkheid van nieuwe zinnen scoorde via een model dat scènes combineerde met gegenereerde woorden, waardoor de captioners woorden konden maken door de beeld- en zinsparen te beoordelen. Het team heeft een diagnosetool gebouwd om vertekening in de trainingsgegevensset te voorkomen (een veel voorkomend probleem bij captioning-systemen). Volgens onderzoekers bereikten de captioners in het algemeen “goede” prestaties. Het model wordt beschreven in een paper van IBM “Tegenstrijdige semantische uitlijning voor verbeterde beeldonderschriften”, die werd gepresenteerd tijdens de conferentie ‘Computer Vision and Pattern Recognition’ afgelopen week in Long Beach , Californië