Framtidens robotar ska prata svenska

Om man listar världens största språk efter antal talare kommer Sverige först på 96:e plats.

Jens Edlund. Han är universitetslektor på avdelningen Tal, musik och hörsel vid KTH, ska bidra till att robotarna snacka svenska i framtiden. Foto: Peter Ardell.

Därmed hamnar vi i bakvattnet när det gäller utvecklingen av framtidens talteknologi då bland andra spansk- och engelsktalande länder prioriteras av storföretag som Amazon, Apple och Google. Det är dock inte bara avsaknad av stor kundbas som bidrar till att Vetenskapsrådet nu ger ett forskningsanslag till pionjärerna inom talteknologi på KTH.

45 miljoner kronor fördelat över sju år, så ser finanseringen ut för arbetet med Nationella Språkbanken som KTH-forskarna ska utföra. Pengarna går till så kallad forskningsinfrastruktur och forskningsnoden ”Språkbanken Tal”.

Språkbanken skapades redan på 1970-stalet och är en rejält framgångsrik språkteknologisk forskningsresurs, enligt Jens Edlund. Han är universitetslektor på avdelningen Tal, musik och hörsel vid KTH, men också föreståndare för den forskningsnod som finns på KTH och som nu får anslag.

Fram till idag har fokus för Språkbanken legat på text och skrivet språk, och den verksamheten återfinns nu i Språkbanken Text. Men skrivet språk har förvånansvärt lite att med tal att göra. Framtiden ska därför bjuda på forskning om framtidens talförståelse och talsyntes.

– KTH-forskare har varit mycket verksamma i olika satsningar att skapa infrastruktur för talforskning ända sedan 90-talet. Vi har även arbetat med att sätta forskningsagendor för tillämpningar där Vinnovas innovationsagenda för social robotik är ett exempel, säger Jens Edlund.

Anledningen till att man nu satsar ännu mer på forskning om tal inom ramen för den nationella språkbanken är att tal inte är samma sak som text.

– Det är lätt att tänka att om man bara transkriberar talet så kan man sedan använda samma metoder som för text. Men det mesta som är viktigt i talad kommunikation fångas inte i text. Tal är dessutom det språk som först uppstod. Text är ett sätt att fånga en delmängd av tal på ett oförgängligt vis. Talet försvinner ju så fort det sagts, utom i våra medvetanden, säger Jens Edlund.

Som exempel nämner han talets och kommunikationens roll i samarbeten. ”Ååå – hej!” när en människa lyfter något är inte nödvändigtvis en hälsningsfras.

En annan anledning till att forska om framtidens talteknologi är att få till framtidssäkrade taltekniker. Idag har taligenkänning (tal-till-text) och talsyntes (text-till-tal) gjort intåg i vardagen på allvar. Amazons smarta högtalare Echo uppskattas finnas i cirka elva procent av de amerikanerna hemmen. Många nya bilar erbjuder möjlighet till talinteraktion med ljud- och navigationsfunktioner och Siri har funnits i Iphone i många år.

– Idag finns i princip inga fritt tillgängliga resurser att bygga vidare på. Man får förlita sig på teknik från multinationella jättar som Apple, IBM, Microsoft, Google, Nuance och Amazon. Idag är dessa billiga, men hur länge är de det och hur ser eventuella risker för inlåsningseffekter? Teknikerna behövs för massor av saker, men bygger man in sig i lösningar man inte äger kan det bli dyrt om prislappen går upp, säger Jens Edlund.

Det mesta inom talteknologi är mer eller mindre bundet till språk, och det är skillnad mellan ryska, mandarin och svenska. De stora aktörerna utvecklar för profit, så de största språken får företräde. Mindre språk följer med i mån av tid. Det går inte alls att lita på att svenska ska kunna användas i framtidens tekniska applikationer.

– Användardata är en värdefull resurs. Idag levereras många lösningar nära nog gratis. Som Amazons Echo. Orsaken är att användardata som genereras är värdefullt vid utveckling. Och detta data går till de stora aktörerna, inte till användarna eller Sverige. Gapet ökar, vi blir mer eftersatta och kan än mindre hävda oss, säger Jens Edlund.

Han tillägger att nästan all talforskning kräver mycket data.

– Vårt område är ett av de områden där maskininlärning och datadrivna metoder verkligen firat triumfer på sistone. Men datainsamling och uppmärkning är galet dyrt, och man vill ha återanvändning och effektiva metoder. Det finns stora outnyttjade resurser som tal och video överallt, till exempel på svenska myndigheter och i svenska arkiv. Men vi vet inte hur man ska utnyttja det. Det saknas allt ifrån juridiska genomlysningar till kompetens hur man hanterar material som inte spelades in för talteknologiska syften. Mycket jobb, men samtidigt potentiellt enorma vinster, säger Jens Edlund.

I och med att Vetenskapsrådet nu finansierar Nationella Språkbanken som en nationell forskningsinfrastruktur kommer två ytterligare satsningar att göras. En som heter Språkbanken Text (f.d Språkbanken) som hanteras av Göteborgs universitet, och en som går under namnet Språkbanken Sam och rattas av Institutet för språk och folklivsforskning.

Avdelningen Tal, musik och hörsel vid KTH är enligt Jens Edlund världens äldsta fungerande enhet för talteknologisk forskning. Den grundades i början av 1950-talet av den världsberömde fonetikern Gunnar Fant, som arbetade kvar till sin död 2006. Gunnar Fant skapade bland annat en av världens första talsynteser, OVE, även det på 50-talet.