Kristine Eck

Automatisering av Uppsala konfliktdataprogram (UCDP)

Uppsala Conflict Data Program (UCDP) är den världsledande producenten av data rörande organiserat våld. Idag används en arbetsintensiv datainsamlingsmetod som blir allt svårare att bibehålla givet ett ökande informationsflöde; redan idag läser UCDPs kodare mer än 50 000 nyhetsartiklar per år. För att adressera detta avser UCDP att samarbeta med RISE SICS, ett världsledande forskningsinstitut med fokus på tillämpad informations- och kommunikationsteknik. Syftet är en ambitiös, men fullt realistisk, användning av ”Natural Language Processing” och maskininlärning för att uppnå en partiellt automatiserad kodning, vilket skulle göra arbetet mindre resursintensivt. Målet är inte total automatisering, utan en effektivisering som skulle frigöra arbetskraft för annan konfliktrelaterad informationsinhämtning. Dessutom skapar det möjligheter att samla in data rörande våldsoffrens demografi. Automatiserad datainhämtning skulle också tillåta mer frekventa datapubliceringar; målet är att gå från årlig till veckolig publicering. Detta projekt skulle således nyttja existerande teknologi för att uppnå tre saker. Ett, det säkerställer förmågan att tillhandahålla global, systematisk data rörande väpnad konflikt trots ett ökande informationsflöde. Två, det möjliggör ny forskning genom att tillhandahålla efterfrågad demografisk data. Tre, det tillåter mer frekventa datapubliceringar, vilket underlättar forskares och organisationers ansträngningar att förutspå utbrott av nya väpnade konflikter.
Slutredovisning
--Projektets syfte och utveckling--

Datainsamlingsprojektet vid namn the Uppsala Conflict Data Program (UCDP) är världens mest använda källa för data om organiserat våld. Denna data kodas manuellt med hjälp av ett team kodare som läser nyhetsartiklar och skapar en datapunkt per fall av våld. Kodarna för UCDP läser årligen mer än 50 000 nyhetsrapporter över våldshändelser för detta ändamål. Denna arbetsintensiva metodologi blir allt svårare att vidhålla i takt med att informationsmängden tilltar. I syfte att lösa detta problem har UCDP i samarbete med RICE SICS, ett ledande forskningsinstitut för tillämpad informations- och kommunikationsteknologi, utvecklat en ambitiös men samtidigt realistisk plan för tillämpning av språkteknologi samt maskininlärning.

Projektet hade två åsyftade ändamål. Det första var att utveckla automatiserade dataextraheringsprotokoll för de fall som kodas inom UCDP som innehåller förklaringar på dokument-nivå. Fullständig automatisering var aldrig målet, utan snarare att skapa ett verktyg för att kunna förbättra den befintliga kodningsprocessen genom att göra den både mer effektiv och mindre resurskrävande. Det andra målet var att tillämpa automatiseringsverktyg för insamling av nya typer av information gällande fall av väpnat våld som UCDP hittills inte har inkluderat men som efterfrågas av forskarsamfundet. Framförallt ämnade projektet utforska möjligheter för informationsinsamling gällande egenskaper hos offren för våldet (såsom ålder, kön samt yrke), samt typen av vapen som nyttjats i samband med våldet (bomber, skjutvapen osv).

--Projektresultat och resonemang kring dessa--

Sammanfattning:

Givet komplexiteten hos våldshändelsernas granularitet och den höga precisionsnivå som krävs drog vi i projektet slutsatsen att befintliga maskininlärningstekniker saknar kapacitet att öka effektiviteten av UCDPs fallkodning avsevärt. Trots att noteringen av taktiker ej lyckades till fullo har flera lovande påföljande vägar identifierats.

Detalj:

Ursprungsplanen för att gripa oss an projektets första mål var att applicera en strategi för informationsextrahering för att kunna identifiera och klassificera omnämningar av enheter och händelser. Därigenom skulle vi kunnat nyttja maskininlärning för att underlätta för data extraktion från nyhetsartiklar. Annoteringsverktyget och processerna som UCDP använder är dock centrerade kring dokumentet som huvudobjekt vilket innebär att det inte går att ha annoteringar på sekvens-nivå, vilket krävs för informationsextrahering. Efter att detta uppdagats justerades arbetsplanen.

Efter att RISE-samarbetarna bekantat sig med UCDP-data och procedurerna annoterats utforskade RISE ett flertal textkategoriseringstekniker. Bland andra testades en Bag-of-Words strategi; karaktärsbaserade kontextualiserade inbäddningar producerade av ELMo; inbäddningar producerade av BERT-basmodellen samt en version av BERT-basen som var finjusterad för att passa UCDP-data; samt en förtränad och finjusterad klassificeringsmodell baserad på ULMFiT. Kategoriseringsresultaten uppvisade stor variabilitet över de 17 olika kategoriseringsuppgifterna som UCDP har, med ett F1-värde som varierar mellan 30.3% och 99.8%.

Analysen visade att automatiserade verktyg kunde utvecklas för vissa kategoriseringsuppgifter (såsom datum eller lokalisering av händelsen) men att dessa verktyg endast skulle minska tidsåtgången för kodare marginellt. Givet komplexiteten hos våldshändelsernas granularitet och den höga precisionsnivå som krävs drog projektet slutsatsen att vidare forskning på maskininlärningstekniker behövs innan de kan nyttjas som verktyg för att effektivisera UCDPs fallkodning.

Gällande det andra projektmålet var projektet först tvunget att hantera bristen på konflikttaktiksklassificering inom freds- och konfliktforskningen. UCDP utvärderade tidigare forskning inom forskningsfältet och i samarbete med Yon Lupu utvecklade man ett klassificeringssystem med vilket man kunde skapa relevanta kategorier för analytiska ändamål. Dessa kategorier förankrades i antaganden om att information rörande avståndet mellan den som attackerar och den som attackeras samt vilka krigsteknologier som används (särskilt huruvida det rörde sig om flyg- och explosionsbaserade attacker) vore till nytta för att undersökning av teorier inom forskningsfältet. RISE undersökte också klassifikationer baserade på Wikipedia. Dessa är emellertid mindre användbara för konfliktforskare.

RISE utforskade flera strategier för kategorisering. Dessa sträckte sig från strategier inom icke-väglett lärande med en klustrande algoritm till väglett lärande med en transformator, samt en strategi som nyttjar väglett lärande utan att behöva träningsdata: Zero-Shot lärande. Klusteralgoritmen saknade förmåga att iddentifiera kluster som var relevanta för att särskilja mellan fall beroende på vilka vapen eller taktiker som använts, utan fookuseradee snarare på fallets lokalisering. Vid applicering av filter som innehöll ord som var relevanta för identifikationen av vilka vapen och/eller taktiker som använts blev klustren mer relevanta. Vid jämförelse med ett annoterat dataset påvisade experimenten med Zero-Shot lärande ett resultat på 43.86% korrekt klassificerade artiklar utan någon som helst träning. Vid användning av en enkel klassificerare som tilldelar den vanligast förekommande etiketten till varje artikel skulle endast klassificera 32.83% av artiklarna korrekt. Detta indikerar att Zero-Shot gav bättre, om än otillräckliga, resultat. Fler tester behövs för att en ska kunna avgöra hur klassificeraren skulle kunna förstärkas. En applicering av BERT-klassificeraren påvisade goda resultat, framförallt vid klassificering av två kategorier: flygattacker samt suicidattacker. Dock var klassificeraren mindre effektiv vid klassificering av övriga kategorier. Medan dessa resultat är uppmuntrande indikerar de att det behövs vidare forskning för att undersöka och förbättra den här sortens algoritmer och deras effektivitet.

Sammanfattningsvis ter det sig lovande att kunna nyttja maskininlärningstekniker för att kategorisera textinnehåll i nyhetsartiklar baserat på vilka konflikttaktiker som används. Detta visade potential inte minst vid användning av annoterade artiklar som kunde användas vid experimentering med väglett lärande, samt för att kunna utvärdera klassificerarnas effektivitet. Med det sagt behövs vidare forskning för att förbättra de olika algoritmernas effektivitet innan denna teknik kan nyttjas för att skapa dataset som håller tillräckligt hög standard för att användas i forskning.


--Hur infrastrukturen har använts--

N/A

--Oförutsedda problem samt avvikelser från ursprungsplanen--

Gällande projektets andra mål visade en genomförbarhetstanalys på datarelaterade problem som innebar att insamlande av information om offrens demografiska karaktärsdrag osannolikt skulle kunna göras med tillräcklig precision. Därmed prioriterade UCDP komponenten som eftersträvar att klassificera fall baserat på vapen och /eller taktik. Efter att ha genomfört en uppdaterad litteraturöversikt bestämde vi oss för att skifta fokus något från vapen till konflikttaktik (t ex suicidattacker eller flygbombningar). Detta då vi bedömde att detta fokus skulle skapa en resurs som vore av större värde för forskningssamfundet.

--Långsiktigt underhåll av infrastrukturen--

N/A

--Infrastrukturens tillgänglighet--

N/A. UCDP data är fortsatt öppet tillgängliga via ucdp.uu.se

--Internationella samarbeten--

Associate Professor Yon Lupu vid George Washington University deltog i arbetet med taktikannoteringen under projektets andra år (oavlönad).
Publikationslista
Olsson, Fredrik, Magnus Sahlgren, Fehmi ben Abdesslem, Ariel Ekgren, and Kristine Eck. 2020. “Text Categorization for Conflict Event Annotation.” Proceedings of the Automated Extraction of Socio-political Events from News (AESPEN) workshop. Available at: https://lrec2020.lrec-conf.org/media/proceedings/Workshops/Books/AESPEN2020book.pdf
Anslagsförvaltare
Uppsala universitet
Diarienummer
IN18-0710:1
Summa
SEK 5 478 000,00
Stödform
Infrastruktur för forskning
Ämne
Statsvetenskap (exklusive studier av offentlig förvaltning och globaliseringsstudier)
År
2018