Talteknologiska metoder för tillgängligörande av Kungliga bibliotekets audiovisuella samlingar
De audiovisuella samlingarna på Kungliga biblioteket (KB) innehåller för närvarande över 10 miljoner timmar (eller över 1000 år) ljud och video. De är tillgängliga för forskare, författare och journalister, men på grund av strikta lagkrav endast inom KB:s lokaler.
Samlingarna är en närmast ofattbar resurs. De kan ge en ovärderlig och ojämförlig insyn i svensk kultur, historia, litteratur, konst, samhälle och politik, för att nämna några områden. De kan vara lika värdefulla för metastudier av de områden inom vilka materialen producerades, från breda kanaler som radio och tv till specifika genrer. Och de är återigen lika intressanta för forskningsområden som inriktar sig på (semi-)automatiserad analys av multimodala material. Det är en nästan obegripligt stor datamängd som utgör primär- såväl som sekundärdata inom dussintals områden.
I praktiken används nästan inget av samlingarna. Orsaken är ironiskt nog just materialets storlek - det tar för lång tid att undersöka. Detta utgör ett dubbelt slöseri: en stor resurspotential lämnas vilande samtidigt som KB ägnar stora resurser åt att underhålla och utöka samlingarna.
Talteknik är en nyckel till samlingarna, då den ger en möjlighet till att göra samlingarna sökbara. Projektet utvecklar talteknologiska metoder som kan tillämpas på KB:s audiovisuella samlingar, men även på andra liknande material. Metoderna och deras referensinplementeringar görs fritt tillgängliga på den nationella forskningsinfrastrukturen Språkbanken Tal.