Rant – Draag je stem bij – TEQnation

About

Rant – Draag je stem bij

We leven in de tijd van artificial intelligence (AI) en daar bestaat ook veel opensourcesoftware voor. Helaas is de meeste AI niets waard zonder grote datasets. En die worden vaak goed afgeschermd…

Koen Vervloesem

Voor wie in AI actief wil zijn, bestaan er talloze opensourceprojecten. Denk maar aan TensorFlow, Keras, PyTorch en Scikit-learn. Helaas geldt voor veel van deze software, zeker als het gaat om machinaal leren, dat je massa’s data nodig hebt om de AI te trainen.

Bedrijven zoals Google, Facebook en Baidu hebben door hun activiteiten toegang tot enorm veel data, maar ze schermen die angstvallig af, hoewel die data vaak van gebruikers komt. Zo slagen deze grote bedrijven erin om neurale netwerken te ontwikkelen die heel goed presteren.

Opensourceprojecten die geen groot bedrijf achter zich hebben, zijn zo al van meet af aan gehandicapt: ze hangen voor hun datasets af van publieke bronnen, bijvoorbeeld van universiteiten of van vrijwilligers uit de community. En die datasets zijn heel zelden van dezelfde omvang als waar Google en co over beschikken, terwijl het in AI wel degelijk “Size matters” is.

Specifiek in het domein van spraaktechnologie is dat een groot probleem. Er bestaan talloze opensourceprojecten die een ‘slimme assistent’ zoals Google Assistant willen creëren, maar in de praktijk werken deze niet zo goed door een gebrek aan open datasets. Dat begint al bij het wakeword (zoals “Hey Google”). Als dat niet goed werkt, zit je je suf te roepen op je ‘slimme assistent’, en dat wordt al gauw een frustrerende ervaring. En dan ben je nog niet eens aan het geven van een opdracht toegekomen, zoals “Zet de woonkamerlamp aan.” Als je assistent in de plaats iets heel anders als “Hoe laat is het?” verstaat, is dat de eerste keer grappig, maar na vijf keer kun je er niet meer om lachen.

Deze en nog veel andere componenten van slimme assistenten zijn vooral gebaseerd op neurale netwerken. Die presteren pas goed als je ze op een grote en diverse dataset traint, bijvoorbeeld van mensen met allerlei stemtimbres, toonhoogtes en accenten die “Hey Google” uitspreken. Een opensourceproject heeft die capaciteit niet zomaar, en dan mag de software nog zo goed geprogrammeerd zijn, zonder uitgebreide datasets zal ze niet tot een bevredigende ervaring leiden.

Daarom kunnen projecten die wel zulke open datasets willen uitbouwen alle hulp gebruiken. Zo is Mozilla enkele jaren geleden met Common Voice gestart. Het project bouwt een opensource, meertalige spraakgegevens-set die iedereen kan gebruiken om spraaktoepassingen te trainen.

Ook jij kunt daaraan bijdragen. Spreek korte woorden in, of luister naar anderen die hun spraak hebben bijgedragen en beoordeel of de woorden correct en duidelijk uitgesproken zijn. Momenteel hebben zevenhonderd mensen in totaal zo’n 24 gevalideerde uren bijgedragen aan de Nederlandse dataset. Dat is nog niet erg bruikbaar: er zijn duizenden uren nodig om goede modellen op te bouwen. Academisch onderzoek in spraaktechnologie gebeurt vaak met datasets van enkele honderden tot tweeduizend uren. Een commerciële partij zoals Baidu traint zijn spraakherkenningssysteem met 40.000 uren spraak. Van 24 uren naar 40.000 uren is nog een lange weg, maar we zullen het nodig hebben als we niet willen afhangen van een handvol grote partijen voor de interface van de toekomst: spraak.