Rickard Domeij

TillTal -- Tillgängligt kulturarv för forskning i tal

Inspelningar av tal är ett underutnyttjat material i minnesinstitutionernas arkiv. Här döljer sig mängder av information av stort intresse för humanistisk och samhällsvetenskaplig forskning (HS-forskning). Datamängden är enorm. Paradoxalt nog bidrar detta till att de ljudande materialen inte används: tal är oerhört krävande att arbeta med och blir ohanterligt utan hjälpmedel.

Det övergripande syftet för projektet TillTal är att göra Sveriges arkivskatt av inspelat tal tillgänglig för HS-forskning. TillTal genomförs av Institutet för språk och folkminnen (ISOF), Kungliga Tekniska högskolan och Digisam.

Inom talteknologin finns metoder för att analysera stora mängder tal automatiskt. Metoderna har tidigare tillämpats inom HS-forskning med goda resultat. Där användes tal som spelats in i syfte att analyseras med teknologiska metoder, medan arkivmaterialen är inspelade med helt andra förutsättningar och mål. I projektet TillTal anpassas och utvecklas de talteknologiska metoderna för att kunna analysera arkivmaterial. Genom nära samarbete mellan HS-forskare och språkteknologer försäkrar vi oss om att metoderna blir praktiskt användbara för forskning i talmaterial vid minnesinstitutioner.

TillTal förväntas bidra med nya metoder att hantera och bearbeta stora mängder inspelat tal. På så sätt öppnas nya ingångar till ISOFs samlingar, för forskare och andra brukare. Även andra dataförvaltare, inte minst andra minnesinstitutioner med ljudande samlingar, kan dra nytta av resultaten.
Slutredovisning
Projektet syfte och utveckling

Projektet Tillgängligt kulturarv för forskning i tal (Tilltal) har under åren 2017–2021 undersökt hur talteknologiska metoder kan bidra till att göra historiska talinspelningar mer tillgängliga för forskare inom många olika discipliner.

I arkiven på svenska minnesinstitutioner finns väldiga mängder inspelat tal som innehåller information av stort värde för humanistisk och samhällsvetenskaplig forskning. Det kan vara intervjuer, dialektinspelningar eller folkminnesberättelser. Dessa rika arkiv är dock gravt underutnyttjade eftersom det är svårt och tidskrävande att orientera i källorna.

I Tilltal har vi utgått från talinspelningar i Isofs arkiv och undersökt hur redan befintliga talteknologiska metoder och verktyg kan anpassas och utvecklas för att bearbeta den här typen av material. Isof har omfattande ljudsamlingar i en mängd olika format. Det totala omfånget kan uppskattas till omkring 25 000 inspelningstimmar.

Genomförande och samverkan

Projektet har haft fyra komponenter, tre delstudier och en tvärgående användarstudie. Delstudierna har undersökt hur talteknologi kan användas för att söka svar på specifika frågeställningar inom olika ämnesområden: etnologi, dialekter och sociolingvistik respektive samtalsforskning.

I användarstudien anlades ett mer verksamhetsteoretiskt perspektiv för att undersöka hur forskare i praktiken använder – eller vill använda – tillgängliga arkivmaterial. Med utgångspunkt i forskarnas faktiska behov har vi sedan i nära samverkan mellan forskare, teknologer och dataförvaltare diskuterat språkteknologiska lösningar och prövat deras användbarhet i praktiken utifrån specifika fall. Detta har vi gjort genom kontinuerliga träffar och workshoppar.

Fallgropar

Äldre inspelningar kan vara utmanande som källmaterial då de ofta har dålig ljudkvalitet. Inspelningar är ofta gjorda på dialekt med gammal utrustning och störande bakgrundsljud. Det innebär bland annat att maskintranskribering ger undermåliga resultat, även om man använder marknadens allra bästa verktyg för taligenkänning. Det har vi tacklat på olika sätt, bl.a. genom återläsning av tal för automatisk transkription, genom akustiska analyser av ljudfilerna och genom att hitta textmaterial i arkiven som refererar till ljudinspelningarna och kan fungera som ingångar till dem.

Vi har stött på en del oförutsedda svårigheter i arkiven, och Tilltal kan därmed sägas ha blottlagt tidigare dolda problem. Ett var att originalinspelningar av folkminnesmaterial ibland inte kunde återfinnas, då de kasserats efter transkribering och excerpering. Det gjorde att vi fick söka andra vägar vilket framgår nedan.

Hur projektet bidragit till och integrerats i Isofs verksamhet

Tilltal var inte planerat som ett renodlat forskningsprojekt, utan har även innefattat metodutveckling och validering av befintliga verktyg och arbetssätt. Delstudierna har givit minnesinstitutionen fördjupad förståelse för hur det äldre talmaterialet kan göras på nytt relevant för forskning inom olika forskningsfält.

Projektet har frilagt de komplexa sambanden mellan talinspelningar och andra typer av dokumentation inom Isof. Begreppet knippen är ett försök att konceptuellt fånga in de kopplingar som finns mellan olika instanser i arkivet. Det kan låta enkelt, men vi uppfattar begreppet som ett centralt tankeverktyg, som varit oss till stor hjälp i arbetsprocessen. Det handlar inte bara om att man kommer fortare framåt om allt är smidigare organiserat, utan rör på ett djupare plan själva förståelsen för arkivets logik.

Vi har utforskat vilka textkällor som hör samman med befintliga inspelningar och har samlat dessa olika resurser i knippen av konceptuellt relaterade informationskällor. Med primär utgångspunkt i ett specifikt material (inspelningarna) finns sekundärt kopplade källor i form av inspelningsjournaler, fältdagböcker, transkriberingar etc. De kan innehållsligt kopplas samman genom till exempel tidpunkt, geografisk plats, person (insamlare, uppgiftslämnare) eller tematik.

Sådana referenser kan presenteras som länkade data (LOD), och semi-manuellt hyperlänkas så att det blir lättare att följa till exempel en insamlingsresa eller ett annat forskningsprojekt. Till det kan förstås läggas också en rad andra sammanhang och kopplingar, t.ex. omnämnda platser, personer och företeelser. Arbetet har resulterat i en rad förslag till metoder och verktyg vars användbarhet prövats i samverkan med forskare. Flera av dessa förslag håller på att utvecklas vidare och integreras i användargränssnitt för utforskning av Isofs arkivmaterial.

Viktiga resultat i form av konkreta verktyg och prototyper

Projektet har tagit fram flera tentativa verktyg för att underlätta bland annat annotering och sammankoppling av Isofs ljudfiler som exempel på hur olika material kan länkas, presenteras och komma till nytta för forskaren. Arbetet har ibland byggt vidare på redan befintliga tjänster som ELAN, ibland handlat om att bygga egna lösningar för att till exempel orientera mellan olika materialkategorier i samma knippe. Det kan vara rena transkriberingar av innehållet, men också översättningar, referenser och andra kommentarer. Ett exempel på ett sekundärmaterial som kan länkas till en ljudinspelning är vad som kallas Realkatalogen, fonogram. Det består av (nu transkriberade och digitalt tillgängliga) kartotekkort med tidssatta beskrivningar av ljudinspelningarnas innehåll. Korten refererar till sekvenser i respektive inspelning, och kan till exempel peka på att informanten i minut 3–9 pratar om sin skoltid, eller minut 17–22 om livet i skogsarbetarkojan.

Projektet har arbetat fram Edyson, en fungerande applikation för ljudbrowsning. Edyson har utvecklats inom KTH/TMH och är ett webbaserat verktyg som gör det möjligt för användaren att på ett effektivt sätt utforska sina ljuddata. Tekniken bakom verktyget kopplar loss en ljudfil från dess kronologiska flöde genom att segmentera filen till en mängd väldigt korta ljud. Därefter presenteras innehållet som regioner av mycket korta ljudsegment, utplacerade på en tvådimensionell yta utifrån hur de låter. Detta möjliggör skapandet av kluster, som användaren sedan kan lyssna på för att få reda på vad den ursprungliga filen innehåller. Edyson förhåller sig till ljuden som sådana, och är därmed helt oberoende av språk och semantiskt innehåll. Verktyget behöver inte heller någon träningsdata utan är helt baserat på så kallad oövervakad inlärning. Det betyder att datamodellen ”på egen hand”, utifrån en stor mängd parametrar, sorterar upp ljudsegmenten efter de mönster den hittar. Ljudbrowsning kan inte bara ge överblick, utan även användas för att märka upp material. Det kan till exempel handla om att skilja ut tal från musik, applåder och skratt, hitta pauser och högfrekventa ljud (pip) eller separera ut olika talare (män/kvinnor). Metoden har visat sig ha stor potential för analys av väldigt stora datamängder, vilket sparar enormt mycket tid, och kan öppna äldre material för helt ny forskning.

Vidare har vi inom ramen för Tilltal prövat semi-automatiska metoder för arbete med äldre tiders dialektdokumentation, som skrevs på det fonetiska svenska landsmålsalfabetet. Det är alltså vad forskare använde innan det fanns möjlighet att spela in tal. I verktyget Transkribus har vi tränat en modell för hand written text recognition (HTR) specifikt på landsmålstext. Modellen förfinas stegvis genom träning på tidigare obearbetade källmaterial, och metoden möjliggör analys av källor som tidigare varit alltför tidskrävande att ens närma sig med traditionella, manuella arbetssätt.

Under projektets gång har även mindre verktyg, prototyper och hjälpmedel implementerats. De kan ha kommit till som stöd i pågående experiment för datainsamling och analys, men senare visat potential för andra användningsområden. På KTH pågår arbete med en familj prototypverktyg som syftar till att underlätta snabb och enkel uppmärkning och kurering av specifika egenskaper hos ljud. Med traditionella verktyg kan det vara oerhört tidsödande att till exempel avgöra om en automatisk analys är korrekt eller inte. Den informationen behövs för att utvärdera verktyg som Edyson, och för att skapa träningsmaterial som kan förbättra datadrivna metoder. KTH har tagit fram en serie verktyg som effektiviserar flera aspekter av uppmärkning, bland annat att verifiera eller korrigera start och sluttid för korta ljud (som pauser) i en längre ljudfil.

Spridning av resultat och framåtblick

Sammantaget har projektet prövat och utvecklat nya metoder för att hantera, orientera i, och bearbeta större mängder inspelat tal och vissa relaterade källor. På det viset öppnas nya dörrar för forskare och allmänhet till Isofs samlingar. Sekundärt kan de nya metoderna också vara till glädje för många andra minnesinstitutioner som förvaltar ljudande samlingar, både i Sverige och utomlands.

Projektet och dess resultat har presenterats i många vetenskapliga artiklar, på konferenser, workshoppar och i en slutrapport som riktar sig till minnesinstitutioner och forskare: Att tillgängliggöra kulturarvsmaterial för forskning i tal – upptäckter och lärdomar från ett tvärvetenskapligt samarbetsprojekt. Resultatet förvaltas, vidareutvecklas och sprids av forskningsinfrastrukturen Nationella språkbanken på Isof, KTH och Göteborgs universitet.

Inom projektet har vi huvudsakligen fokuserat på metod, och det finns mycket kvar att utveckla. Det skulle till exempel vara spännande att gå vidare med mer målmedvetet arbete med verktyg och modeller, kanske träna taligenkänning på Isofs material, och se hur de kan användas åtminstone för korrigering och upprättning. Att vi över huvud taget kunnat närma oss äldre talinspelningar som större datamängder är dock ett viktigt första steg. Genom den metodutveckling Tilltal kunnat bidra med blir det nu lättare också för andra forskare att slå in på samma väg.
Bidragsförvaltare
Institutet för språk och folkminnen
Diarienummer
SAF16-0917:1
Summa
SEK 9 771 000,000
Stödform
Samlingarna och forskningen
Ämne
Språkteknologi (språkvetenskaplig databehandling)
År
2016