KTK-forskaren Jens Edlund och kollegor har ett omfattande arbete framför sig med att omvandla text till tal, och tvärtom Foto: Susanne Kronholm.
Att omvandla text till tal, och tvärtom. Det är vad KTH-forskaren Jens Edlund med kollegor fått drygt 20 miljoner kronor i anslag för att jobba med.
Det handlar bland annat om att ta fram teknik som klarar av att lyssna igenom Kungliga bibliotekets mediearkiv och göra det sökbart. Ett arbete som skulle ta 120 människor hela deras arbetsliv att genomföra, och då skulle de hårt arbetande anställda inte få någon semester eller ledighet alls.
För ett och ett halvt år sedan det stod klart att pionjärerna inom talteknologi på KTH får 45 miljoner kronor fördelat över sju år för forskningsinfrastrukturen ”Språkbanken Tal”. Nu har ytterligare tre anslag på drygt 20 miljoner kronor anlänt, för ett flertal nya forsknings- utvecklings- och infrastrukturprojekt.
Ett av dem handlar om att förbättra tillgången till Kungliga bibliotekets (KB) stora samlingar av ljud och rörlig bild, att markant förbättra sökbarheten i deras stora mediearkiv.
– Att lyssna igenom materialet räknat i heltidsarbetsveckor utan semester motsvarar runt 120 arbetsliv. Tekniska lösningar för taligenkänning innebär att användare kommer att kunna söka direkt i informationsinnehållet snarare än att som idag behöva förlita sig på hur materialet är katalogiserat och beskrivet. Genom pliktlagstiftningen har KB i uppdrag att samla in allt material som publiceras och sänds i Sverige, till stora kostnader. Nu kan materialet användas bättre och enklare. Projektet skapar också förutsättningar för helt nya typer av forskning på innehållet i samlingarna, något som inte görs idag, berättar Jens Edlund.
Dagens talsyntes inte tillräckligt bra
Ett av de andra nyligen finansierade projekten där Post- och telestyrelsen är anslagsgivare går också ut på att omvandla tal till text. Här är dock ansatsen något annorlunda. Tekniken som ska utvecklades ska i realtid hjälpa texttolkar att göra om exempelvis seminarier och föreläsningar till text. Det vill säga en smidigare form av transkriberingsteknik.
– Kortfattat kan man beskriva det som om man byter ut tangentbordet mot taligenkänning, men på grund av tidspressen så det är ganska komplicerat i verkligheten. Skrivtolkning används främst av personer som inte kan tillgodogöra sig talade föreläsningar, huvudsakligen på grund av hörselnedsättning. Tillgången till fungerande undervisning är direkt kopplat till ett av huvudmålen i Agenda 2030.
Stort utrymme för förbättringar
Det sista forskningsprojektet får sitt anslag av Vinnova. Här handlar det om att göra tvärtom; att omvandla text till tal. Att skapa en talsyntes som klarar av att läsa upp avancerade, svenska texter med mycket fackspråk.
– Talböcker, som endast är till för personer som inte kan tillgodogöra sig skriven text exempelvis på grund av synnedsättning eller dyslexi, produceras redan till stor del med talsyntes. Denna målgrupp är ofta van vid talsyntes, men det finns ett stort utrymme för förbättring. När det gäller ljudböcker, som människor tar del av för att de föredrar att lyssna, är dagens talsyntes inte tillräckligt bra. Och här har förlagen helt enkelt inte råd att producera allt som ljudböcker.
Demokrati i fokus
Jens Edlund säger att teknikens framtida existens har flera perspektiv. De är till exempel en potentiell demokratifråga.
– I Sverige finns det mängder av människor som inte kan tillgodogöra sig skriven text. Med teknikens hjälp skulle de ändå få tillgång till exempelvis Wikipedia.
Han tillägger sedan att de nya projekten är kopplade till ett arbete där han jobbar tillsammans med just Wikimedia Sverige (som stödjer svenska Wikipedia) för att ta fram talteknologiska resurser.
Helt avsiktlig sidoeffekt
Bland de samarbetspartner som ingår i de tre forskningsprojekten återfinns förutom de som nämns även Myndigheten för tillgängliga medier, Bonnierförlagen, Stockholms universitet och Södermalms Talteknologiservice. Dessa forskningsprojekt skapar alla resurser som gör Språkbanken Tal till en bättre forskningsinfrastruktur, som en slags helt avsiktlig sidoeffekt.
Peter Ardell