Korpus för det svenska teckenspråket
Ett brett upplagt korpusarbete behövs för såväl lexikonarbetet inom svenskt teckenspråk, som för fördjupad forskning om teckenspråkets struktur och dess användning.
Projektets syfte är att påbörja och skapa förutsättningar för ett långsiktigt arbete med en svensk teckenspråkskorpus för att på sikt kunna utföra korpusbaserade studier av teckenförrådet och av teckenspråkets grammatiska struktur.
Korpusprojektet omfattar inspelning och dokumentation av olika typer av teckenspråkstexter producerade av teckenspråkiga döva. Det inspelade materialet annoteras med hjälp av programmet ELAN som gör det möjligt att länka text till videosekvenser.
Hela korpusen kommer att vara tillgänglig för forskare och undervisande personal på Avdelningen för teckenspråk, Institutionen för lingvistik, medan delar av den kommer att vara fritt tillgängliga för användning inom t.ex. teckenspråks- och tolkutbildningar.
Johanna Mesch, Institutionen för lingvistik, Stockholms universitet
2009-2011
Projektet Korpus för det svenska teckenspråket syftade till att bygga upp en korpusdatabas för det svenska teckenspråket. Projektet omfattade inspelning och dokumentation av teckenspråkstexter, producerade av teckenspråkiga. Det inspelade materialet annoterades och transkriberades med hjälp av annotationsverktyget ELAN (EUDICO Linguistic Annotator) som kan laddas ner kostnadsfritt från Max Planck Institute for Psycholinguistics, Nijmegen, http://www-lat-mpi.eu/tools/elan/. Detta verktyg används numera många teckenspråksforskare över hela världen. Verktyget används för annotering av inspelat material och för länkning av transkriptioner till digitaliserat video- (och audio)material. Databaser för korpora på många olika teckenspråk kommer att bli mer tillgängliga via MPI Language Archive (http://corpus1.mpi.nl/ds/imdi_browser/) eller universitetens egna webbportaler. Korpusmaterialet av det svenska teckenspråket kommer att vara fritt tillgängligt på en webbportal för användning inom teckenspråksforskning och -undervisning samt teckenspråkslexikografi.
Under projekttiden skedde inga större förändringar av syftet. Projektet följde planen i alla väsentliga delar utom för metadatabeskrivning och publicering av korpusmaterialet. Annoteringsarbetet tog dessutom mer tid än beräknat då det även innefattade en del utvecklingsarbete för transkriptionskonventioner, lösning av lemmabaserade problem för glosor, tidskrävande annoteringsarbete, dvs. manuell transkription av varje uttryck eller fras. I enlighet med projektplanen gjordes bara grova annoteringar med glosor och svensk översättning. Att annotera är tidskrävande, det tar ca 1 ½ timme att annotera en videosekvens på 1 minut med glosor. Det tar ytterligare ca 1 timme att annotera en svensk översättning av samma videosekvens. Endast 15 procent av det inspelade materialet har annoterats med glosor och med svensk översättning som är kontrollerat och godkänt av projektledaren.
Projektet löpte utan större problem enligt följande planering:
- tekniska lösningar gällande annoteringar,
- inspelningar,
- redigering av inspelat material,
- manual för transkriptionskonventioner,
- transkribering av teckenspråkstexter
- kategorisering av materialet
Det inspelade materialet bestod av 42 teckenspråkiga (40 döva och 2 hörande) kvinnor och män i åldrarna 20 till 82 år från tre regioner: Norrland, Svealand och Götaland.
Teckenspråksmaterialet i korpusdatabasen består av mediafiler med en del annoteringar (glosor och svensk översättning som är synkroniserade med rörliga bilder). För att kunna använda korpusen behövs annotationsverktyget ELAN (aktuell version 4.3.3, juni 2012), som är konstruerat speciellt för analys av talat språk, gester och teckenspråk. Verktyget stödjer bl.a. video med annoteringar, synkroniserad tidkod av annotationer till video, länkar från annotering till andra annoteringar, obegränsat antal av annoteringsrader, export/import av annoteringar som textfiler.
När det gäller transkriptionskonventioner för teckenspråkstexter är det främst glosor och rader som diskuterats och utvecklats. Under annoteringsarbetet tillkommer nya insikter, som t.ex. rör lexikal och stilistisk variation. Filmerna inspelade från kamerorna i taket hjälper oss att se hur händerna rörs i utrymmet framför de tecknande. Syftet är att kunna använda konventionerna i fortsatta annoteringsarbeten, söka något tecken, få fram frekvensuppgifter för olika tecken och teckenkombinationer så det är nödvändigt att ha stora mängder teckenspråksmaterial. Vi får ny kunskap om teckenspråkets uppbyggnad, teckenförråd och användning i olika sammanhang, t.ex. dialoger och eliciterade berättelser.
Intresset för teckenspråkskorpusarbetet är stort från hela världen, vilket visade sig vid de senaste konferenserna och workshop under 2009-2010. Värdefulla kontakter har knutits med Radboud University Nijmegen, DCAL Research Centre University of London, Macquairie University och Hamburg University. Forskare i Norge och Finland har hört av sig för kontakt och stöd till projektansökningar. Nya forskningsidéer för teckenspråksforskning har uppkommit tack vare annoteringsarbetet och sökmöjligheterna i annotationsprogrammet ELAN. Under projektet var Johanna Mesch med i styrgruppen i det europeiska nätverket Sign Linguistics Corpora Network, SLCN, (2008-2010), finansierat av the Netherlands Organisation for Scientific Research, NWO. Hon var också medlem i organisations- och programkommittén för the 5th Workshop on the Representation and Processing of Sign Languages as a satellite to the Language Resources and Evaluation Conference, LREC i Istanbul i maj 2012.
Nya forskningsfrågor
Nya forskningsfrågor som har genererats genom projektet ska implementeras i teckenspråksforskningen. Det finns potentiella strategier för att använda korpusen som språkresurs i språkutbildning och i utvecklingen av teckenspråkslexikonet Svenskt teckenspråkslexikon. (2008 ---online. Tillgängligt: http://www.ling.su.se/teckensprakslexikon)
En liten del av korpusmaterialet användes av Carl Börstell i hans masteruppsats "Revisiting reduplication. Toward a description of reduplication in predicative signs in Swedish Sign Language" (2011) och även av Unn Thofelt i hennes c-uppsats "Något om den konstruerade dialogen i svenskt teckenspråk" (2011). Johanna Mesch, Anna-Lena Nilsson och Lars Wallin förbereder en artikel om manuella uppbackningar i åtta teckenspråkiga samtal efter föredraget vid Workshop i Göttingen den 24 februari 2011 (submitted). Flera korpusbaserade studier är på gång, till exempel Lars Wallins plenumföreläsning om mun och hand i samverkan för TILSR-konferensen i London i juli 2013.
Resultaten av projektet i form av videofiler och annoterade filer kommer successivt att finnas tillgängliga för andra forskare och lärare. Målsättningen är också att publicera teckenspråkskorpusen via en webbportal med användarvänligt gränssnitt.
Projektet har även presenterats vid flera ställen:
- hemsidan för Institutionen för lingvistik, Stockholms universitet, http://www.ling.su.se/forskning/forskningsprojekt/teckensprak/teckensprakskorpus/korpus-for-det-svenska-teckenspraket-1.6785
- studiebesöksdagen vid Stockholms universitet den 26 mars 2009
- Sveriges Dövas Riksförbunds kongress i Leksand den 12-14 juni 2009
- Dövas Dag i Örebro den 18-19 september 2009, i Jönköping september 2010 och i Malmö den 17 september 2011
- temadag om svensk teckenspråksforskning 40 år, den 31 mars 2012, Stockholms universitet, http://www.ling.su.se/om-oss/evenemang/webbfilmer/teckenspraksforskning-40-ar/svensk-teckenspraksforskning-40-ar-1.83493
- kurser i teckenspråk, korpuslingvistik, allmän lingvistik vid Institutionen för lingvistik
- internationella seminarier och konferenser, se publikationer och konferensbidrag