Digitalt multimediaarkiv för austroasiatiskt immateriellt kulturarv Fas II: Spirande multidisciplinära arbetsytor
Projektet har som mål att lyfta infrastrukturen inom språkdokumentation och -arkivering till en ny nivå genom att öppna upp tvärvetenskapliga samarbetsmöjligheter kring vidareutveckling och återanvändning av språkkorpusar. Med utgångspunkt i den digitala resursen Repository and Workspace for Austroasiatic Intangible Heritage (RWAAI) kommer projektet att bryta ny mark för att anpassa sådana språkresurser till en tvärvetenskaplig publik. För detta ändamål kommer projektet att (1) bredda användbarheten genom att utveckla nya redskap och principer med multidisciplinär potential, (2) fortsätta förvärvet av austroasiatiska samlingar för att maximera representationen av språk, samt discipliner utanför språkvetenskaperna och (3) lansera ett program för kunskapsspridning genom samarbete med forskare i andra discipliner och regioner. Infrastrukturen sträcker sig utöver de traditionella språkvetenskapliga intresseområdena och erbjuder en arbetsyta för forskning inom en rad discipliner, såsom historia, religion, musikvetenskap, biologi och geografi. Projektet består av ett unikt och mycket kvalificerat lag av språkspecialister och experter på modern språkdokumentation. De hotade och föga kända austroasiatiska kulturerna i Sydöstasien och Indien bär på värdefull information om regionens historia och kulturella mångfald. Projektet är världsledande inom dokumentation av det immateriella kulturarvet hos dessa marginaliserade samhällen.
Slutredovisning
INFRASTRUKTURENS SYFTE SAMT UTVECKLING
Projektet utvecklar norra Europas ledande digitala resurs för språkdokumentation, Repository and Workspace for Austroasiatic Intangible Heritage (RWAAI). På ett unikt sätt integreras äldre och moderna forskningssamlingar som dokumenterar det immateriella språk- och kulturarvet hos samhällen i den austroasiatiska språkfamiljen i Syd- och Sydöstasien. Projektet är särskilt inriktat på att göra samlingarna mer tillgängliga och återanvändbara som en dynamisk resurs, utöka samlingarna samt främja återanvändningen genom utåtriktad verksamhet. I detta syfte tar projektet arkivering och språkdokumentation i stort till en ny nivå genom att fokusera på att anpassa den dokumentära resursen till tvärvetenskapliga målgrupper, genom uppsökande verksamhet samt utveckling av nya metoder för att främja innovativ interaktion med resursen.
PROJEKTETS RESULTAT HITTILLS, OCH ETT RESONEMANG OM DESSA
Vi rapporterar här om resultaten för våra 3 huvudsakliga mål.
1. FRÄMJANDE AV ÅTERANVÄNDBARHETEN. Vi har utvecklat en modell för att förbättra och utforska samlingarna med hjälp av automatisk taligenkänning (ASR). ASR konverterar ljudinspelningar som saknar transkriptioner till digital text. Detta har stor potential att bli en integrerad del av språkdokumentationsprocessen. Jämfört med text är möjligheterna att söka och identifiera i talat språk begränsade. Taligenkänningssystem tränas vanligtvis på många olika talare, hundratals timmar av inspelningar och en stor mängd text för att kunna generaliseras till nya talare. För mindre språk är dock tillgången vanligtvis begränsad till endast ett fåtal talare och små textmängder. För denna typ av material utvecklade vi en metod för ASR som fokuserar på textinnehållet och inte exakt tidsmässig anpassning av tal och text, och skapade därför en ASR som bygger mer på enskilda talare. Modellen användes framgångsrikt för att berika flera befintliga samlingar genom generering av transkriptioner för tidigare otranskriberade inspelningar. Ett annat program för att främja återanvändbarheten av samlingarna fokuserade på integrering av spatial information i form av geografiska koordinater i såväl moderna som äldre samlingar. I ett innovativt delprojekt involverade vi en GIS-specialist och en av våra depositörer för att skapa en spatial rekonstruktion och representation av fältarbete i Sydöstasien på 1960-talet med hjälp av geografiska data från en arkiverad samling. Modellen har potential att göra äldre samlingar mer integrerbara och funktionella som betydande resurser i modern och framtida forskning.
2. UTÖKA OCH BERIKA SAMLINGARNA. Projektets andra mål var att utöka resursen med nya tvärvetenskapliga samlingar och berika befintliga samlingar. Vårt team slutförde digitaliseringen av analogt material, förberedde metadata och tog in nya samlingar, vilket avsevärt har utökat RWAAI:s täckning, bl.a. med den etnografiska/lingvistiska samlingen Temiar, den botaniska samlingen Kammu, den humanekologiska samlingen Nicobarese och språksamlingarna Pnar, Kachok, Jedek, Kensiw och Mlabri. Personalen hjälpte också depositörer från projektets första fas att uppdatera sina samlingar med nytt material från pågående forskning. Ett internationellt samarbete för att digitalisera och arkivera analoga inspelningar från Orang Asli Archive (Keene State College, USA) tillförde ytterligare etnografiska samlingar till RWAAI. Fokus låg på att öka återanvändbarheten av befintliga samlingar genom att för det första integrera tidsjusterade transkriptioner med inspelningar av ordlistor, texter och sånger från flera samlingar, vissa från 1960-talet, och för det andra länka inspelningar med lexikon för att förfina transkriptionerna med automatiserad interlinjär glossning. ASR användes för att producera transkriptioner. Mlabri-samlingen översattes från danska till engelska för att öka tillgängligheten. Ytterligare berikning åstadkoms av två internationella forskningsprojekt som återanvände material från våra samlingar. Dessa externt upparbetade data är arkiverade hos RWAAI.
3. ÖKAD ÅTERANVÄNDNING. Projektets tredje mål var att öka uppmärksamheten för vår resurs genom uppsökande verksamhet. Vi fokuserade på riktade PR-initiativ, presentation av RWAAI och dess data vid internationella konferenser i USA (3) och Singapore (1), samt presentation av våra principer och tekniker i workshops. Vi fortsatte också vårt engagemang i arkiveringsmetodik på internationell nivå som fullvärdig medlem i The Digital Endangered Languages and Music Archive Network (www.delaman.org), en internationell arkivorganisation som arbetar för att bevara immateriellt kulturarv och främja arkivering. Våra initiativ resulterade i internationella samarbetsprojekt.
KORT OM HUR INFRASTRUKTUREN ANVÄNTS SAMT VILKEN FORSKNING SOM PÅBÖRJATS MED HJÄLP AV INFRASTRUKTUREN
Projektet bevarar forskningsmaterial från starkt hotade språk och kulturer till gagn för dagens forskare liksom kommande generationer. Projektmedarbetarna samarbetade med austroasiatiska forskare från olika ämnesområden kring bruket av RWAAI som en arkivresurs för deras forskningssamlingar. Resursen har för närvarande 48 registrerade användare inom lingvistik, botanik, musikvetenskap, humanekologi, antropologi och kulturarv. Att våra digitala samlingar kan återanvändas som en utbildnings- och forskningsresurs har visats genom att material har använts av studenter, forskare och forskargrupper inom lingvistik, fonetik och språkdokumentation. Två stora externa internationella forskningsprojekt, varav ett specifikt inriktat på återanvändning av korpusar av "små språk", har också gjort bruk av resursen. Lokalt fungerar RWAAI som ett arkiv och en resurs för studenter och personal vid Lunds universitet.
OFÖRUTSEDDA TEKNISKA OCH METODOLOGISKA PROBLEM, SAMT AVVIKELSER FRÅN DEN URSPRUNGLIGA PLANEN
Verksamheten påverkades kraftigt under två år till följd av covid-19-pandemin. För det första kunde internationella kontakter och besök av depositörer inte genomföras. För det andra inskränktes möjligheterna till databehandling av restriktioner i form av arbete hemifrån. Praxis för datahantering och datasäkerhet gjorde att vissa datauppsättningar inte kunde bearbetas hemifrån, till exempel skanning av originalmaterial, och vi nödgades därför hitta alternativa uppgifter som uppfyllde kraven. Detta bromsade arbetet och inskränkte våra möjligheter att bygga ut resursen. Den av RJ beviljade förlängningsperioden gjorde det möjligt att behålla nyckelpersonal och resulterade i att pausade verksamheter kunde återupptas och slutföras. Under perioden med arbete hemifrån låg fokus på att förbättra återanvändbarheten och betydande framsteg gjordes.
ARBETETS INTEGRERING I MYNDIGHETEN/ORGANISATIONEN, SAMT HUR INFRASTRUKTUREN SKA UNDERHÅLLAS LÅNGSIKTIGT
RWAAI har sedan starten legat på Humanistlaboratoriets Arkivserver, Lunds universitet. År 2022 migrerades RWAAI till arkivets nya servrar och med en ny lösning för arkivering i form av programvarupaketet FLAT, utvecklat vid MPI i Nijmegen. FLAT är en CLARIN-kompatibel arkivlösning baserad på ramverket Islandora/Fedora med öppen källkod. Metadata uppdaterades också till den CLARIN-initierade standarden CMDI. Metadata integreras med CLARIN och samlas in av CLARIN:s Virtual Language Observatory (VLO; https://vlo.clarin.eu). VLO utvecklades som en del av CLARIN som ett verktyg för att upptäcka data, verktyg och tjänster som finns tillgängliga i CLARIN och liknande nätverk. Dessutom är varje enskild datapost länkad till handle.net, som tillhandahåller beständiga identifierare till informationsresurser. Även detta har uppdaterats så att länkarna pekar på den nya servern. Uppgraderingar som dessa är en avgörande förutsättning för att samlingarna ska vara fortsatt tillgängliga och hållbara. Migreringarna var problemfria, vilket visar hur motståndskraftig vår infrastruktur är och ger stöd åt våra ursprungliga val av designprinciper. De långsiktiga utsikterna för RWAAI stärks ytterligare av Humanistlaboratoriets deltagande i det nationella HUMINFRA-initiativet.
INFRASTRUKTURENS TILLGÄNGLIGHET OCH FÖRHÅLLANDE TILL KRAV PÅ ÖPPEN TILLGÄNGLIGHET OCH OPEN SCIENCE
RWAAI har varit tillgängligt online sedan lanseringen 2012 (www.lu.se/rwaai). Det drivs i enlighet med FAIR-principerna. Alla metadata kan sökas fritt. Metadata skördas av Virtual Language Observatory (https://vlo.clarin.eu) för att maximera möjligheten att hitta resurserna. Flera enskilda samlingar är öppet tillgängliga efter registrering hos RWAAI, medan andra kräver tillstånd från depositören. Denna policy har visat sig fungera väl, och våra depositörer har godkänt alla seriösa förfrågningar om tillgång till deras samlingar.
INTERNATIONELLA SAMARBETEN
Projektet är internationellt till sin natur. Våra senaste tillskott i arkivet kommer från forskare i Asien, Europa och Nordamerika. Utöver de ovannämnda internationella projekten (i Schweiz och Tyskland) kommer arkivanvändare, forskare och studenter som fått tillgång till resursen från Europa, Nordamerika, Asien och Australien. Vi har ett samarbete med Orang Asli Archive (USA). Vi fortsatte vårt internationella engagemang för arkivering som medlem i The Digital Endangered Languages and Music Archive Network (www.delaman.org), en internationell organisation som arbetar för att främja arkivering och bevarande av hotade immateriella kulturarv.
Projektet utvecklar norra Europas ledande digitala resurs för språkdokumentation, Repository and Workspace for Austroasiatic Intangible Heritage (RWAAI). På ett unikt sätt integreras äldre och moderna forskningssamlingar som dokumenterar det immateriella språk- och kulturarvet hos samhällen i den austroasiatiska språkfamiljen i Syd- och Sydöstasien. Projektet är särskilt inriktat på att göra samlingarna mer tillgängliga och återanvändbara som en dynamisk resurs, utöka samlingarna samt främja återanvändningen genom utåtriktad verksamhet. I detta syfte tar projektet arkivering och språkdokumentation i stort till en ny nivå genom att fokusera på att anpassa den dokumentära resursen till tvärvetenskapliga målgrupper, genom uppsökande verksamhet samt utveckling av nya metoder för att främja innovativ interaktion med resursen.
PROJEKTETS RESULTAT HITTILLS, OCH ETT RESONEMANG OM DESSA
Vi rapporterar här om resultaten för våra 3 huvudsakliga mål.
1. FRÄMJANDE AV ÅTERANVÄNDBARHETEN. Vi har utvecklat en modell för att förbättra och utforska samlingarna med hjälp av automatisk taligenkänning (ASR). ASR konverterar ljudinspelningar som saknar transkriptioner till digital text. Detta har stor potential att bli en integrerad del av språkdokumentationsprocessen. Jämfört med text är möjligheterna att söka och identifiera i talat språk begränsade. Taligenkänningssystem tränas vanligtvis på många olika talare, hundratals timmar av inspelningar och en stor mängd text för att kunna generaliseras till nya talare. För mindre språk är dock tillgången vanligtvis begränsad till endast ett fåtal talare och små textmängder. För denna typ av material utvecklade vi en metod för ASR som fokuserar på textinnehållet och inte exakt tidsmässig anpassning av tal och text, och skapade därför en ASR som bygger mer på enskilda talare. Modellen användes framgångsrikt för att berika flera befintliga samlingar genom generering av transkriptioner för tidigare otranskriberade inspelningar. Ett annat program för att främja återanvändbarheten av samlingarna fokuserade på integrering av spatial information i form av geografiska koordinater i såväl moderna som äldre samlingar. I ett innovativt delprojekt involverade vi en GIS-specialist och en av våra depositörer för att skapa en spatial rekonstruktion och representation av fältarbete i Sydöstasien på 1960-talet med hjälp av geografiska data från en arkiverad samling. Modellen har potential att göra äldre samlingar mer integrerbara och funktionella som betydande resurser i modern och framtida forskning.
2. UTÖKA OCH BERIKA SAMLINGARNA. Projektets andra mål var att utöka resursen med nya tvärvetenskapliga samlingar och berika befintliga samlingar. Vårt team slutförde digitaliseringen av analogt material, förberedde metadata och tog in nya samlingar, vilket avsevärt har utökat RWAAI:s täckning, bl.a. med den etnografiska/lingvistiska samlingen Temiar, den botaniska samlingen Kammu, den humanekologiska samlingen Nicobarese och språksamlingarna Pnar, Kachok, Jedek, Kensiw och Mlabri. Personalen hjälpte också depositörer från projektets första fas att uppdatera sina samlingar med nytt material från pågående forskning. Ett internationellt samarbete för att digitalisera och arkivera analoga inspelningar från Orang Asli Archive (Keene State College, USA) tillförde ytterligare etnografiska samlingar till RWAAI. Fokus låg på att öka återanvändbarheten av befintliga samlingar genom att för det första integrera tidsjusterade transkriptioner med inspelningar av ordlistor, texter och sånger från flera samlingar, vissa från 1960-talet, och för det andra länka inspelningar med lexikon för att förfina transkriptionerna med automatiserad interlinjär glossning. ASR användes för att producera transkriptioner. Mlabri-samlingen översattes från danska till engelska för att öka tillgängligheten. Ytterligare berikning åstadkoms av två internationella forskningsprojekt som återanvände material från våra samlingar. Dessa externt upparbetade data är arkiverade hos RWAAI.
3. ÖKAD ÅTERANVÄNDNING. Projektets tredje mål var att öka uppmärksamheten för vår resurs genom uppsökande verksamhet. Vi fokuserade på riktade PR-initiativ, presentation av RWAAI och dess data vid internationella konferenser i USA (3) och Singapore (1), samt presentation av våra principer och tekniker i workshops. Vi fortsatte också vårt engagemang i arkiveringsmetodik på internationell nivå som fullvärdig medlem i The Digital Endangered Languages and Music Archive Network (www.delaman.org), en internationell arkivorganisation som arbetar för att bevara immateriellt kulturarv och främja arkivering. Våra initiativ resulterade i internationella samarbetsprojekt.
KORT OM HUR INFRASTRUKTUREN ANVÄNTS SAMT VILKEN FORSKNING SOM PÅBÖRJATS MED HJÄLP AV INFRASTRUKTUREN
Projektet bevarar forskningsmaterial från starkt hotade språk och kulturer till gagn för dagens forskare liksom kommande generationer. Projektmedarbetarna samarbetade med austroasiatiska forskare från olika ämnesområden kring bruket av RWAAI som en arkivresurs för deras forskningssamlingar. Resursen har för närvarande 48 registrerade användare inom lingvistik, botanik, musikvetenskap, humanekologi, antropologi och kulturarv. Att våra digitala samlingar kan återanvändas som en utbildnings- och forskningsresurs har visats genom att material har använts av studenter, forskare och forskargrupper inom lingvistik, fonetik och språkdokumentation. Två stora externa internationella forskningsprojekt, varav ett specifikt inriktat på återanvändning av korpusar av "små språk", har också gjort bruk av resursen. Lokalt fungerar RWAAI som ett arkiv och en resurs för studenter och personal vid Lunds universitet.
OFÖRUTSEDDA TEKNISKA OCH METODOLOGISKA PROBLEM, SAMT AVVIKELSER FRÅN DEN URSPRUNGLIGA PLANEN
Verksamheten påverkades kraftigt under två år till följd av covid-19-pandemin. För det första kunde internationella kontakter och besök av depositörer inte genomföras. För det andra inskränktes möjligheterna till databehandling av restriktioner i form av arbete hemifrån. Praxis för datahantering och datasäkerhet gjorde att vissa datauppsättningar inte kunde bearbetas hemifrån, till exempel skanning av originalmaterial, och vi nödgades därför hitta alternativa uppgifter som uppfyllde kraven. Detta bromsade arbetet och inskränkte våra möjligheter att bygga ut resursen. Den av RJ beviljade förlängningsperioden gjorde det möjligt att behålla nyckelpersonal och resulterade i att pausade verksamheter kunde återupptas och slutföras. Under perioden med arbete hemifrån låg fokus på att förbättra återanvändbarheten och betydande framsteg gjordes.
ARBETETS INTEGRERING I MYNDIGHETEN/ORGANISATIONEN, SAMT HUR INFRASTRUKTUREN SKA UNDERHÅLLAS LÅNGSIKTIGT
RWAAI har sedan starten legat på Humanistlaboratoriets Arkivserver, Lunds universitet. År 2022 migrerades RWAAI till arkivets nya servrar och med en ny lösning för arkivering i form av programvarupaketet FLAT, utvecklat vid MPI i Nijmegen. FLAT är en CLARIN-kompatibel arkivlösning baserad på ramverket Islandora/Fedora med öppen källkod. Metadata uppdaterades också till den CLARIN-initierade standarden CMDI. Metadata integreras med CLARIN och samlas in av CLARIN:s Virtual Language Observatory (VLO; https://vlo.clarin.eu). VLO utvecklades som en del av CLARIN som ett verktyg för att upptäcka data, verktyg och tjänster som finns tillgängliga i CLARIN och liknande nätverk. Dessutom är varje enskild datapost länkad till handle.net, som tillhandahåller beständiga identifierare till informationsresurser. Även detta har uppdaterats så att länkarna pekar på den nya servern. Uppgraderingar som dessa är en avgörande förutsättning för att samlingarna ska vara fortsatt tillgängliga och hållbara. Migreringarna var problemfria, vilket visar hur motståndskraftig vår infrastruktur är och ger stöd åt våra ursprungliga val av designprinciper. De långsiktiga utsikterna för RWAAI stärks ytterligare av Humanistlaboratoriets deltagande i det nationella HUMINFRA-initiativet.
INFRASTRUKTURENS TILLGÄNGLIGHET OCH FÖRHÅLLANDE TILL KRAV PÅ ÖPPEN TILLGÄNGLIGHET OCH OPEN SCIENCE
RWAAI har varit tillgängligt online sedan lanseringen 2012 (www.lu.se/rwaai). Det drivs i enlighet med FAIR-principerna. Alla metadata kan sökas fritt. Metadata skördas av Virtual Language Observatory (https://vlo.clarin.eu) för att maximera möjligheten att hitta resurserna. Flera enskilda samlingar är öppet tillgängliga efter registrering hos RWAAI, medan andra kräver tillstånd från depositören. Denna policy har visat sig fungera väl, och våra depositörer har godkänt alla seriösa förfrågningar om tillgång till deras samlingar.
INTERNATIONELLA SAMARBETEN
Projektet är internationellt till sin natur. Våra senaste tillskott i arkivet kommer från forskare i Asien, Europa och Nordamerika. Utöver de ovannämnda internationella projekten (i Schweiz och Tyskland) kommer arkivanvändare, forskare och studenter som fått tillgång till resursen från Europa, Nordamerika, Asien och Australien. Vi har ett samarbete med Orang Asli Archive (USA). Vi fortsatte vårt internationella engagemang för arkivering som medlem i The Digital Endangered Languages and Music Archive Network (www.delaman.org), en internationell organisation som arbetar för att främja arkivering och bevarande av hotade immateriella kulturarv.