Microsoft’s image-captioning AI kan foto’s beter beschrijven dan mensen

About

De nieuwste AI oplossing van Microsoft voor het image-captioning kan afbeeldingen beter beschrijven dan mensen. Microsoft zei dat het het algoritme heeft gebruikt om zijn Seeing AI-assistent-app voor blinden en slechtzienden bij te werken en deze later in Word, PowerPoint en Outlook zal opnemen om alt-tekst en andere taken te maken.

De AI heeft automatisch bijschriften aan afbeeldingen toegevoegd, nauwkeuriger dan mensen in bepaalde beperkte tests. Het behaalde de hoogste scores op de benchmark voor het onderschrijven van afbeeldingen die bekend staat als “nocaps”, een toonaangevend scorebord.
De prestatie van de benchmark zou kunnen leiden tot verbeteringen in “alt-tekst” voor online afbeeldingen, die schermlezers gebruiken om afbeeldingen te beschrijven aan blinden en slechtzienden. Dit kan hen helpen om beter door software en internet te navigeren.

Microsoft zei dat de AI 2x beter is dan het ondertitelingsmodel voor afbeeldingen dat het sinds 2015 had. Het vorige systeem voor het onderschrijven van afbeeldingen beschreef een afbeelding van een kat bijvoorbeeld als ‘een close-up van een kat’, terwijl de nieuwe versie het bestempelde als ‘een grijze kat’. met zijn ogen dicht. ”
Microsoft noemde het een “mijlpaal” in zijn inspanningen om zijn diensten en producten “inclusief en toegankelijk voor alle gebruikers” te maken. Het biedt nu het bijgewerkte ondertitelingsmodel aan ontwikkelaars via Azure’s Cognitive Services.

Eric Boyd, CVP van Azure AI, noemde ondertiteling van afbeeldingen “een van de moeilijkste problemen in AI”, en merkte op dat de AI objecten in een scène moet begrijpen, evenals hoe ze met elkaar omgaan en hoe ze moeten worden beschreven.
Vier jaar geleden zei Google dat zijn AI afbeeldingen met een nauwkeurigheid van 94% kon onderschrijven, bijna net zo goed als mensen.