Een gecombineerd team van het MIT-IBM Watson AI Lab en MIT Geometric Data Processing Group hebben een techniek bedacht die een aantal AI-tools combineert. Dit met het doel om snellere en betere prestaties te leveren bij het analyseren en doorwerken van documenten.

De onderzoekers zeggen dat hun aanpak miljoenen documenten kan scannen met alleen de historische voorkeuren van een persoon, of de voorkeuren van een groep mensen, als voorkennis.

“Er is een ongelooflijke hoeveelheid tekst op het internet,” zegt Justin Solomon, hoofdauteur van het onderzoek en MIT assistent-professor, over de resultaten. “Alles wat helpt bij het doorploegen van al dat materiaal is erg nuttig.”

Het algoritme van Solomon en zijn collega’s vat verzamelingen van teksten samen in thema’s, op basis van veelgebruikte woorden in de tekstverzameling. Vervolgens verdeelt het algoritme elke tekst in de vijf tot vijftien belangrijkste onderwerpen, met een ranking die het belang van elk onderwerp voor de tekst in het geheel aangeeft. Embeddings, numerieke weergaven van data (in dit geval zijn die data woorden) helpen om de overeenkomsten tussen woorden duidelijk te maken. Ook wordt er optimal transport ingezet, wat helpt om de meest efficiënte manier van verplaatsen van objecten (of in dit geval dus data points) tussen meerdere bestemmingen te berekenen.

Lees voor meer informatie het volledige artikel op techzine.nl.