Cumula - Innoveer uw klantcontact en communicatie-infrastructuur

Eind jaren negentig van de vorige eeuw waren de verwachtingen van spraakherkenning al hoog. Intussen zijn we een decennium verder. De technologie heeft nu vaste voet aan de grond gekregen in allerlei toepassingen.

Eind jaren negentig van de vorige eeuw waren de verwachtingen van spraakherkenning al hoog. De techniek werd steeds beter en er kwam langzamerhand een kritische massa van gebruikers. Helaas ging één van de belangrijkste spelers op dit gebied, het roemruchte Lernout & Hauspie, in 2001 ten onder aan gesjoemel met aandelen door de oprichters. Daarmee werd direct de relevantie van de technologie zelf ter discussie gesteld. Deze gebeurtenissen deden de ontwikkeling van de technologie geen goed. Intussen zijn we een decennium verder. De technologie heeft nu vaste voet aan de grond gekregen in allerlei toepassingen.

Spraakherkenning is een complex proces waarbij enerzijds de binnenkomende spraak moet worden vergeleken met bestaande voorbeelden in de database (de zogeheten akoestische vergelijking) en anderzijds de rij opeenvolgende klanken moet worden omgezet in de meest waarschijnlijke rij opeenvolgende woorden. Voor de akoestische vergelijking wordt eerst een database gemaakt met daarin de gemiddelde waarde van alle in een taal voorkomende klankcombinaties. Het gaat daarbij om de overgang van de ene klank naar de andere klank. Het woord ‘rood’ heeft daarom vier klankcombinaties: stilte->r, r->o, o->t, t->stilte. De meeste talen hebben zo’n 50 fonemen, klanken met een betekenis-onderscheidende functie. Met 50 fonemen zijn theoretisch 50x50=2500 klankcombinaties te vormen. Het maken van zo’n database gebeurt met behulp van het nauwkeurig uitschrijven van spraakopnamen van grote groepen sprekers van die taal.

Mannen en vrouwen

Omdat mannen een andere vorm van de mond en hals hebben klinken ze anders dan vrouwen. Het is daarom nodig om een database voor mannen en een voor vrouwen te maken. Daarboven kun je ook nog een persoonlijk model maken door de klanken van een persoon toe te voegen. Kom je bijvoorbeeld uit Twente, dan heb je vaak een net iets andere uitspraak van de /o/. Het programma kan dan leren dat jouw /o/ net iets anders klinkt, waardoor de herkenning verbeterd wordt. Dit zogeheten tunen wordt bijvoorbeeld ook gedaan door Dragon Dictate, een bekend pakket voor het omzetten van spraak naar geschreven tekst. Echter, hoe meer je de spraakherkenning op de stem van een bepaalde persoon afstemt, hoe slechter de herkenning van een andere stem.

Taalmodel

Het Nederlands bestaat ongeveer uit 1,3 miljoen woorden, waarvan we meestal niet meer dan 120.000 gebruiken. Als de rij opeenvolgende klanken eenmaal berekend is, moet de computer gokken welke woorden erbij horen aan de hand van het taalmodel. In de woordendatabase staan de woorden waarvoor de computer voor ieder woord de kans gaat uitrekenen dat deze is opgebouwd uit de rij opeenvolgende klanken. Als bijvoorbeeld in het akoestische model het woord ‘Zwolle’ is herkend als ‘Zwelle’ met een kans van 50% en als ‘Zwolle’ met een kans van 40%, dan zal het taalmodel de juiste herkenning opleveren als alleen het woord ‘Zwolle’ in de database voorkomt. Bij een database van 2500 woorden is dit sneller berekend dan bij een database van 25.000 woorden. De database kun je zelf vullen met relevante woorden. Wil je een verslag van een hockeywedstrijd dicteren dan zijn woorden als stick, goal, buitenspel en strafbal zeer relevant. Het taalmodel moet dus een hoge kans geven aan deze woorden.

Kansen

Heb je dat gedaan dan ben je er nog niet, want verschillende opeenvolgende woorden leveren dezelfde rij klanken op. Neem bijvoorbeeld de volgende twee zinnen:

  1. Gisteren is de koning ingevallen
  2. Gisteren is de koningin gevallen

Als je deze twee zinnen op een normale manier uitspreekt, dan klinken ze hetzelfde. Hoe bereken je nu welke zin gesproken werd? Dat doe je met een taalmodel waarin van elk woord en elke rij van 2, 3, 4 en zelfs 5 opeenvolgende woorden onderzocht is hoe vaak ze voorkomen in de context. Het trigram ‘de koning ingevallen’ komt op het internet vier keer voor terwijl het trigram ‘de koningin gevallen’ 45 keer voorkomt. Moeten we dus tussen deze twee mogelijkheden kiezen, dan liever de tweede. Weten we echter dat de context een lezing is over een koning, dan zal de eerste zin de voorkeur krijgen.

Context

Kortom: de kans op een woord is sterk afhankelijk van het onderwerp waarover gesproken gaat worden. Deze kansen op woorden en woordcombinaties is een taalmodel en kan gezien worden als het belangrijkste onderdeel van de spraakherkenning. Des te groter het taalmodel, des te duurder de licenties. Het taalmodel moet je zelf aanvullen met context gerelateerde begrippen.
Ook dit kun je bij alle moderne spraakherkenners tunen door bijvoorbeeld een groot aantal voorbeeldteksten aan de computer aan te bieden. Die berekent hiermee de kans op de woorden en woordcombinaties. Heb je dikwijls te maken met teksten over hockeywedstrijden en over het koningshuis, dan is het raadzaam om twee taalmodellen te maken.

Toepassingen in klantenservice

De toepassingsmogelijkheden van spraakherkenning lijken onbegrensd. Op heel veel plekken waar mensen praten kan een spraakherkenner een nuttige rol vervullen. Zo ook in de klantenservice. Selfservice via de telefoon is in veel opzichten aantrekkelijk: geen wachttijd voor de klant en geen personeelskosten voor het bedrijf. Postcode, kentekens, data en namen zijn echter lastig in te voeren met de toetsen van je telefoon. Spraakherkenning op basis van een ‘gesloten grammatica’ is hiervoor de meest gebruikte oplossing. Bij een gesloten grammatica wordt precies aangegeven wat men op welke manier kan zeggen. Mits mensen precies binnen dit format blijven, is de herkenning uitstekend. In de grammatica leg je vast dat ‘geen probleem’ ook als ‘ja’ moet worden geïnterpreteerd en dat Anton uit het spellingsalfabet als de letter A moet worden geïnterpreteerd. Een postcode kan op verschillende manier worden uitgesproken, maar die kunnen allemaal goed worden geïnterpreteerd door de spraakherkenner.

Keuzemenu’s

Het keuzemenu is bij de telefonische klantenservice vaak een factor van ergernis. Vooral bij ingewikkelde keuzemenu’s raken mensen de weg kwijt en komen ze nogal eens bij de verkeerde medewerker uit. Een aantal organisaties heeft het menu succesvol vervangen door een spraakcomputer. Aan klanten wordt dan gevraagd hun onderwerp of vraag in te spreken. Als klant is dat prettiger, want je hoeft niet allerlei menu’s door totdat jouw onderwerp langskomt. Op basis van je vraag wordt je dan doorverbonden met de juiste afdeling. Hierbij wordt ‘open grammatica’ gebruikt. Het  taalmodel wordt getuned voor de applicatie. Ga je iets vragen over verzekeringsproducten, dan moet je het taalmodel maken met teksten over verzekeringsproducten. Bovendien is het verstandig om ook een groot aantal gesprekken op te nemen, uit te schrijven en de uitgeschreven tekst toe te voegen aan de teksten waarmee je het taalmodel maakt. Denk daarbij aan zo’n 10.000 gesprekken voor een ingewikkelde dialoog waarin je 100 verschillende eindpunten onderscheidt. Als je het goed doet, kun je 90% van de binnenkomende gesprekken aan de medewerker met de juiste kennis en vaardigheden afleveren. Hierdoor neemt het doorverbindverkeer af, neemt de klanttevredenheid toe en wordt de investering in spraakherkenning terugverdiend.

Andere toepassingen

Er zijn inmiddels veel andere toepassingen van spraakherkenning in gebruik, bijvoorbeeld voor interactie met een ‘machine’, zogeheten command-and-control, om te zoeken in audiovisuele opnamen, oftewel Spoken Document Retrieval of om geschreven teksten te genereren, zogenaamde Dictation toepassingen.

Een voorbeeld van command-and-control zijn bijvoorbeeld de functies die autofabrikanten via spraakherkenning toegankelijk maken. Daardoor kun je je handen aan het stuur houden en je ogen op de weg. Ook browsers en spelcomputers worden steeds meer met spraakherkenning uitgerust. Met de komst van de smartphones met een behoorlijke rekenkracht zie je een interessante splitsing. Om dataverkeer te besparen wordt het omzetten van spraak in fonemen op het apparaat gedaan en wordt alleen de reeks fonemen doorgestuurd naar de servers van Google of Apple. Daar wordt met behulp van het taalmodel de eigenlijke herkenning gedaan.  De nieuwste telefoons van Google en Google Glass luisteren zelfs continu naar spraakcommando’s. Van touchscreen naar touchless screen!

Spoken Document Retrieval is het zoeken van informatie in audiovisuele bestanden. Er zijn heel veel (historische) geluidsopnames die nog niet doorzoekbaar zijn. Met behulp van spraakherkenning kunnen opnames omgezet worden in doorzoekbare tekst.

Dictation toepassingen zijn ook in opmars. Met software pakketten als Dragon NaturallySpeaking kun je documenten schrijven zonder je toetsenbord te gebruiken.  Het voordeel is dat je het akoestische model kunt afstemmen op je eigen stem, waardoor de herkenning veel beter wordt. Dit is ook ideaal in situaties dat de letterlijke tekst moet worden genotuleerd bij bijvoorbeeld rechtszittingen of gemeenteraadsvergaderingen.

“Zoekmachine Google begrijpt je ook als je ‘ik will een huiz koopen’ invoert. Diezelfde stap gaat spraakherkenning nemen en daarmee zullen steeds meer misverstanden tussen mens en machine verdwijnen.”

Misverstanden

Spraakherkenning werkt steeds beter, maar is nog niet zo betrouwbaar dat het zonder problemen in elke situatie bruikbaar is. Spraakherkenning werkt slechter bij achtergrondlawaai en bij spraak via de telefoon. Via de telefoon wordt maar een beperkt deel van de frequenties van een stem doorgegeven en daardoor wordt het slechter herkend dan direct tegen een computer of smartphone praten. Daarnaast zijn de resultaten beter als mensen een compacte en duidelijke vraag stellen. Iets als ‘ik bel, ja ik bel over….eh… over, eh, hoe heet dat ook alweer, o ja de aankomst, o nee, de vertrektijden’ zal bij een computer natuurlijk leiden tot misverstanden.

Ook bij menselijke conversaties gaat het niet om het herkennen, maar om het begrijpen. Het is niet belangrijk om 100% van de gesproken taal correct te herkennen, als je het maar goed begrijpt. Dat geldt ook voor een spraakapplicatie.  Arjan van Hessen, Onderzoeker Taal en Spraaktechnologie van de Universiteit Twente, geeft aan dat naast taalmodellen steeds meer taaltechnologische, semantische en machine-learning technologieën worden ingezet. Daarmee ontwikkelt spraakherkenning zich van het imperfecte herkennen naar het perfecte begrijpen. Zoekmachine Google begrijpt je ook als je ‘ik will een huiz koopen’ invoert. Diezelfde stap gaat spraakherkenning nemen en daarmee zullen steeds meer misverstanden tussen mens en machine verdwijnen.