Onderzoekers van IBM hebben een modulaire methode ontworpen die razendsnel spraak kan genereren. Het is nu mogelijk om spraak van hoge kwaliteit in real-time te genereren, wanneer de software de verschillende aspecten en nuances van de stem heeft aangeleerd.

Met deze methode wordt het mogelijk om modellen aan te passen op nieuwe spraakstijlen, stemmen en andere nuance aan de hand van een relatief kleine hoeveelheid data.

Dit wordt gezien als een grote doorbraak, omdat de meeste Tekst-to-Speech (TTS) systemen veel meer data nodig hebben. Deze hebben over het algemeen grote en complexe neural network-modellen nodig om tot dezelfde spraak-kwaliteit te komen.

Deze modellen zijn ook moeilijk te trainen en maken het niet mogelijk om in real-time de spraak te genereren. Zelfs niet als er GPU’s worden ingezet. IBM heeft verschillende systemen gecombineerd om tot deze software te komen.

“Om die uitdagingen aan te pakken heeft ons team een nieuwe methode ontwikkeld voor neural speech synthesis, op basis van een modulaire architectuur”, aldus onderzoekers Zvi kons, Slava Shechtman en Alex Sorkin.

Maar 5 minuten spraak nodig

Het team van IBM heeft een systeem ontworpen dat gebruik maakt van drie delen, die onderling samenwerken om spraak te genereren. Deze bestaan uit een prosody feature predictor, een acoustic feature predictor en een neural vocoder.

De prosody feature predictor interpreteert de duur, hoogte en energie van de spraak via opnames. Zo wordt de stijl van een spreker wordt nagebootst. De akoestische functie maakt representaties van de stem in de training of adaption data. Tot slot genereert de neural vocoder spraakmonsters van de akoestische functies.

Deze drie componenten werken samen om een stem te genereren en aan te passen. Dit wordt gedaan via retraining, op basis van een kleine hoeveelheid data van de spreker.

Volgens IBM houdt het model een hoge mate van kwaliteit en vergelijkbaarheid bij stemmen die getraind zijn op vijf minuten spraak. IBM hoopt de functie te kunnen gebruiken in de nieuwe Watson TTS-dienst.