Elena Volodina

SweLL - forskningsinfrastruktur för svenska som andraspråk

Forskning inom svenska som andraspråk (L2) har under de senaste åren fått allt större betydelse, bl.a. i samband med den aktuella flyktingsituationen i Sverige och hela Europa. Detta avspeglas i regeringens beslut att genom Skolverket satsa på Nyanländas lärande med ett mål att ta fram bedömningsmaterial för svenska.
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del.
Behovet av en sådan infrastruktur är uttalat inom flera områden inom andraspråksforskning: lexikonstudier behöver L2 material för att kunna besvara frågor om hur ordförrådet utvecklas, studier om syntax behöver material för att verifiera hypoteser från experimentella studier, osv.
För att tillgodose bl.a. dessa behov syftar SweLL till att skapa en infrastruktur som består av:
*en portal för datainsamling, både för import från filer och via online övningar
*verktyg för analys av inlärarspråk
*en L2-korpus på ca 600 texter annoterade med bl.a. fel
*sökmöjligheter för L2-material, såsom sökningar på behärskningsnivåer och grammatiska strukturer
Materialet och verktyg kommer att tillgängliggöras genom Språkbanken.
Slutredovisning
Infrastrukturprojektet SweLL - Swedish Learner Language - hade som mål att lägga en grund för digitalisering av andraspråksforskning genom att
(1) samla in och manuellt annotera uppsatser skrivna av elever som lär sig svenska på olika nivåer från nybörjare till avancerade;
(2) grundligt beskriva annoteringsprinciperna, tagguppsättningen och processen;
(3) utveckla och dokumentera verktyg för bearbetning och lagring av elevers uppsatser;
(4) göra datan och verktygen tillgängliga via en portal avsedd för digitala resurser och verktyg för andraspråksforskning av svenska.

Vi släpper infrastrukturen enligt följande:

* I SweLL-portalen finns mer än 680 uppsatser som har digitaliserats och transkriberats manuellt från handskrivna kopior samt pseudonymiserats för att dölja varje elevs identitet. En större del av uppsatserna (för närvarande 500 texter) har normaliserats och skrivits om till standardsvenska genom att korrigera felaktigt språk. Varje korrigering har tilldelats en etikett som beskriver skillnaden mellan elevens version och den korrigerade versionen.

* Manualer och riktlinjer finns tillgängliga för varje steg i arbetsflödet:
- Riktlinjer för transkription
- Riktlinjer för pseudonymisering
- Riktlinjer för normalisering
- Riktlinjer för korrigering
- Manual för SVALA-användare
- Manual för användare av SweLL Portal
- Anpassade sökningar i korpussökningsverktyget Korp

* Flera verktyg har utvecklats inom projektet och tillgängliggjorts för framtida användare av infrastrukturen (länkar tillgängliga via projektets sida, se nedan):
- SweLL portalen för insamling och lagring av uppsatser, administration av annoteringen, statistisk översikt, import och export av data;
- SVALA-annoteringsverktyg för att utföra manuell annotering från pseudonymisering till normalisering och annotering av korrigeringar;
- Automatisk pseudonymiseringstjänst som också ingår som en del av SVALA-verktyget och är tillgänglig via github för vidareutveckling eller återanvändning i andra projekt

* Omfattande arbete har utförts för att säkerställa att GDPRs riktlinjer och etiska principer följs. Materialets tillgänglighet har setts över i samråd med universitetets jurister. Tillgång till resursen beviljas efter ansökan. P.g.a. GDPR kan användare utanför Europa inte få omedelbar tillgång till resursen utan deras ansökningar måste behandlas av universitetets jurister från fall till fall. Sökande inom EU kan få tillgång till hela resursen förutsatt att deras avsedda användning rör L2-orienterad forskning och utveckling eller pedagogiska tillämpningar.

* Materialet kan sökas i Korp (https://spraakbanken.gu.se/korp/) med specifika sökfrågor för att underlätta filtrering, för att söka i texter skrivna av t.ex. män, skribenter av ett visst modersmål eller med en viss kunskapsnivå, med möjlighet till visning av hela uppsatser.

Mer information och länkar finns på projektsidan: https://spraakbanken.gu.se/projekt/swell
Publikationslista
Elena Volodina, Yousuf Ali Mohammed, Sandra Derbring, Arild Matsson and Beata Megyesi. 2020. Towards Privacy by Design in Learner Corpora Research: A Case of On-the-fly Pseudonymization of Swedish Learner Essays. COLING-2020. Proceedings.

Elena Volodina, Lena Granstedt, Arild Matsson, Beáta Megyesi, Ildikó Pilán, Julia Prentice, Dan Rosén, Lisa Rudebeck, Carl-Johan Schenström, Gunlög Sundberg and Mats Wirén. 2019. The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, Special Issue.

Elena Volodina, Arild Matsson, Dan Rosén and Mats Wirén. 2019. SVALA: an Annotation Tool for Learner Corpora generating parallel texts. Learner Corpus Research conference (LCR-2019). Proceedings.

Wirén Mats, Arild Matsson, Dan Rosén, Elena Volodina. 2019. SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora. CLARIN-2018 post-conference volume. LiUP Press.

Egon W. Stemle, Adriane Boyd, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelic Preradovic, Alexandr Rosen, Dan Rosén, Elena Volodina. 2019. Working together towards an ideal infrastructure for language learner corpora. Learner Corpus Research 2017. In Andrea Abel, Aivars Glaznieks, Verena Lyding & Lionel Nicolas (eds.) Widening the Scope of Learner Corpus Research. Selected papers from the fourth Learner Corpus Research Conference. Corpora and Language in Use – Proceedings 5, Louvain-la-Neuve: Presses universitaires de Louvain, 427-468.

Beáta Megyesi, Sofia Johansson, Dan Rosén,Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén & Elena Volodina. 2018. Learner Corpus Anonymization in the Age of GDPR: Insights from the Creation of a Learner Corpus of Swedish. Proceedings of the 7th NLP4CALL workshop.

Elena Volodina, Lena Granstedt, Beáta Megyesi, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg & Mats Wirén. 2018. Annotation of learner corpora: first SweLL insights. Proceedings of SLTC-2018, Stockholm, Sweden.

Dan Rosén, Mats Wirén and Elena Volodina. 2018. Error Coding of Second-Language Learner Texts Based on Mostly Automatic Alignment of Parallel Corpora. Clarin-2018.

Elena Volodina, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelic Preradovic, Silje Karin Ragnhildstveit, Kari Tenfjord and Koenraad de Smedt. 2018. Interoperability of Second Language Resources and Tools. Clarin-2018.

Pilán, Ildikó, & Volodina, Elena. 2018. Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors. In Proceedings of the Second Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 119-128) at COLING-2018.


BLOGS

Pseudonymization of learner essays as a way to meet GDPR requirements: https://spraakbanken.gu.se/blogg/index.php/2020/10/27/pseudonymization-of-learner-essays-as-a-way-to-meet-gdpr-requirements/ (October 2020)

Korp searches in Second Language data: https://spraakbanken.gu.se/blogg/index.php/2020/06/17/korp-searches-in-second-language-data/ (June 2020)

Interoperability of second language resources and tools: https://www.clarin.eu/news/blog-post-elena-volodina-clarin-workshop-interoperability-second-language-resources-and-tools (2018-01-24)


INTERVIEWS

SweLL data (Elena Volodina, April 2018, English): https://gubox.box.com/s/r5btxbu4tyhl3urz0sn0k1wgkopvwlss

Interoperability of L2 resources and tools (Elena Volodina, October 2018, English): https://youtu.be/XAFeC7tQBwo
Anslagsförvaltare
Göteborgs universitet
Diarienummer
IN16-0464:1
Summa
SEK 7 150 000,00
Stödform
Infrastruktur för forskning
Ämne
Jämförande språkvetenskap och lingvistik
År
2016