Med tanke på hur tidskrävande det är att transkribera inspelat material har program utvecklats som försöker göra detta automatiskt. Det finns flera program på marknaden som är mer eller mindre bra. Förhoppningarna man har för dessa program är att man stoppar in sin ljudfil och ut kommer en färdig, perfekt text redo att använda.
Men hur kommer det sig att de aldrig klarar att skriva ner tal-till-text så bra som vi vill?
Det verkar helt enkelt som att det inte finns tillräckligt bra program för det. Det är mycket som ska bli rätt när tal skrivs ner till text. Vi har olika dialekter, olika röster, och olika talhastighet. Som om inte det räckte, finns det över 100 000 ord i det svenska språket som programmet måste kunna känna igen på alla de olika sätt som de går att uttala. De flesta sådana här program klarar dessutom inte av mer än en talare.
Förutom att känna igen ord skulle programmet behöva “förstå” vad de pratar om i intervjun. Många ord uttalas på samma sätt, men stavas olika beroende på vad man vill förmedla. Två enkla exempel är “men” och “män”, och “ända” och “enda”. För att göra en korrekt transkribering behöver man förstå vad talaren säger i sammanhanget. Programmen gör ofta så mycket fel att det tar lika lång tid att korrigera felen som att transkribera hela intervjun själv.
En av våra administratörer använder sig av ett röststyrningsprogram på datorn, och trots att man spenderar åtskilliga timmar till att lära programmet just ens egna röst, funkar det ändå långt ifrån felfritt. Det verkar helt enkelt som att det för tillfället inte finns några tal-till-text-program som kan skriva ner tal till text bättre än vad människan kan.