Jenny Jansson

Arbetarrörelsens digitala omvandling: bevarandet av organisationsmaterial i den digitala tidsåldern

Digitaliseringen har på kort tid öppnat nya möjligheter för sociala rörelser att kommunicera och agera. Allt fler aktiviteter i det civila samhället sker online via webbsidor och sociala medier och det finns inget system för arkivering av dessa aktiviteter. Tvärtom är det amerikanska företag såsom Facebook och Twitter som bestämmer hur länge flöden sparas. Det är ett ytterst osäkert system. Det kommer med andra ord att bli svårt att forska om våra samtida sociala rörelser i framtiden. Vårt infrastrukturprojekt syftar till att ta några grundläggande steg mot en lösning på detta problem. Vi kommer att systematiskt samla information från sociala medier såsom Facebook och Twitter om den mest betydelsefulla sociala rörelsen i Sverige, nämligen arbetarrörelsen. Insamlingen av det elektroniska materialet kommer att ske genom skapandet av ett program som vid givna klockslag kommer att ladda ned material från på förhand givna webbsidor. Insamlingen kommer att ske i samråd med ett antal folkrörelsearkiv. När vi väl utvecklat ett hållbart insamlings- och kodningssystem för materialet är vår ambition att inkludera fler rörelser i databasen.
Slutredovisning

Slutredovisning av Fackföreningsrörelsens digitala omvandling (DigiFacket)

Syftet med infrastrukturprojektet DigiFacket var att bygga ett e-arkiv för fackföreningar som laddar ner och bevarar material som skapats på internet (webbplatser och sociala medieflöden) av svenska fackföreningarna. Målet var att lösa två problem. För den första har digitaliseringen haft en stor påverkan på hur organisationer i civilsamhället agerar, många av organisationernas aktiviteter har flyttats till internet men bara en bråkdel av det material som produceras online arkiveras. För det andra, har organisationer lämnat in en betydlig mindre andel dokument till arkiven i jämförelse med innan digitaliseringen. Båda typer av information behövs för att förstå våra samtida rörelser, vårt projekt har hjälpt lösa vissa av dessa problem och är därför i allra högsta grad samhälls- såväl som forskningsrelevant.

Problemet att bevara material som genererats på internet är kanske särskilt stort för arkiv i enskild sektor då dessa arkiverar material från föreningar och organisationer i civilsamhället. Dessa arkiv har sällan ekonomiska resurser att göra kostsamma investeringar i e-arkiv eller kunskap att hantera sådana system. Det var därför viktigt att projektet skulle samarbeta med fackföreningsrörelsens två arkiv: Arbetarrörelsens arkiv och bibliotek, ARAB (för LO, LO-förbunden och SAC) och TAM-arkivet (för TCO, TCO-förbunden, Saco och Saco-förbunden), som också tagit över insamlat material så väl som mjukvara. Vi har också samarbetat med Folkrörelsearkivet i Uppsala och delat med av vår kunskap om hur man bygger ett e-arkiv.

Mycket enkelt uttryckt bygger DigiFacket, liksom andra projekt för arkivering av hemsidor, på tre steg: nedladdning av sidan som ska bevaras, indexering av densamma och slutligen nedpackning av filerna i ett format för långsiktig arkivering. Vi har byggt vår nedladdnings- och arkiveringslösning på olika mjukvara med öppen källkod (open source). Programvara med öppen källkod är gratis, ofta flexibel och det finns ett community som vidareutvecklar olika delar av mjukvaran.

Vi har valt att använda oss av beprövad mjukvara, nämligen NetArchiveSuite och den innehåller moduler för nedladdning (harvesting), användargränssnitt för att övervaka nedladdningen och för arkiveringen, samt ett Wayback-system för att återskapa nedladdade sidor. Fördelarna med NetArchiveSuite är många. Mjukvaran tillåter användaren att enkelt uppge vilka domännamn som ska laddas ned, frekvens av nedladdningarna, den uppger om nedladdningen lyckats eller inte - en funktion som är väldigt viktig för att en systematisk nedladdning av ett stort material ska fungera. Vidare kan man med NetArchiveSuite också enkelt definiera djup av nedladdningen, det vill säga hur många undersidor som ska laddas ned och om länkar som ligger på hemsidan ska öppnas och laddas ned. NetArchiveSuite är också kompatibelt med Apache Solr, som är den mjukvara vi använt för att indexera det nedladdade materialet. Att välja ett filformat som vi tror kommer att gå att öppna även i framtiden och/eller konverteras till nya format är en viktig del av att bygga ett arkiv om en långsiktig bevaring av materialet ska vara möjlig. Vi har valt det vanligaste formatet för webbarkiv Web ARChive (WARC) som är en ISO-standard (ISO 28500:2017).

Vi har utvecklat två gränssnitt genom vilka arkivbesökaren kommer åt materialet: en wayback machine som tillåter arkivbesökaren att återskapa hemsidan så som den såg ut vid nedladdningsdatumet och en sökmotor (Solr search) för fulltextsökningar. Wayback Machine hade vi inte planerat när vi skrev projektansökan men efter att ha prövat olika gränssnitt bestämde vi oss för att den har ett värde och var enkel att lägga till.

Infrastrukturen har nyligen överlämnats till TAM-arkiv och ARAB. Corona har dock omöjliggjort att arkivbesökare kommer åt materialet, då båda arkiv varit stängda under merparten av 2020 och början av 2021. Vi tror dock att det finns ett stort intresse att använda materialet. Vi i projektgruppen har använt delar av materialet vi samlat i publikationerna listade nedan.

Under projektets gång har olika problem tillstött som vi inte kunnat förutse, vilket framförallt fått till följd att projektet blev mer utdraget än vi planerat. Bland annat tog det längre tid än vad vi trott att samla in samtycke från de organisationer som ingår i DigiFacket vilket ledde till en del förseningar. Vi fick också tänka om vad gäller insamling av sociala medieflöden. Skälen till detta är flera: även om vi har fått tillstånd från de fackliga organisationer som ingår i DigiFacket att ladda ned deras hemsidor och flöden, så kan materialet innehålla känsliga personuppgifter genom att tredje part interagerat med facken i sociala medier. Detta blev särskilt komplicerat när GDPR trädde i kraft 2016 (två år efter att vi fått projektmedlen). Dessutom har sociala medieföretagen såsom Twitter och Facebook ändrat förutsättningarna för nedladdning ett flertal gånger under projektets gång, vilket gjort det svårt att konstruera ett hållbart system för nedladdning. Lösningen på detta problem blev att låta organisationerna själva ladda ned sina Facebook- och Twitterhistoriker. Detta material innehåller endast kontoägarens genererade material och är en långsiktigt hållbar lösning då sociala medieflödena med lätthet kan integreras i de vanliga överlämningarna av arkivmaterial till ARAB och TAM-arkiv som facken regelbundet gör. Vi utvecklade heller ingen thesaurus på egen hand. Vi började göra det men då det visade sig att indexeringen gör fulltextsökningar blixtsnabba och att Solr Search har en mycket välutvecklad syntax vilket möjliggör tydligt avgränsade fulltextsökningar, så avbröt vi utvecklandet av ett eget index, då det framstod som onödigt. Under 2020 ledde pandemin till att vi fick skjuta upp överlämning av mjukvara och insamlat material till ARAB flera månader, därför var det först i november 2020 som projektet blev helt klart.

DigiFacket har nu överlämnats till TAM-arkiv och ARAB som har ansvar för att fortsätta regelbundna nedladdningar samt att tillgängliggöra materialet för arkivbesökare. Infrastrukturen finns tillgänglig för arkivbesökare på ARAB och TAM-arkiv. Detta har hittills fungerat väl. Mjukvaran har också installerats på Folkrörelsearkivet i Uppsala.

Hemsida: www.statsvet.uu.se/digifacket

Twitter: @digifacket

Bidragsförvaltare
Uppsala universitet
Diarienummer
IN14-0698:1
Summa
SEK 3 614 000
Stödform
RJ Infrastruktur för forskning
Ämne
Statsvetenskap (exklusive studier av offentlig förvaltning och globaliseringsstudier)
År
2014