Krister Östlund

ArkA-D - ett verktyg för digitalisering av forskningsbibliotekens arkivsamlingar

ArkA-D är en databas där man på fyra olika nivåer kan registrera och digitalisera handskriftssamlingar, från en enkel samlingsbeskrivning till en fullfjädrad digital utgåva med kommentarer och transkriptioner. ArkA-D, kommer att byggas inom den digitala plattformen Alvin som redan innehåller bilddatabasen Bildsök och proveniens- och bokbandsdatabasen ProBok. Alvin är ett system byggt för att användas, delas, förvaltas och utvecklas av flera bibliotek gemensamt.
Med ArkA-D skulle en stor mängd av forskningsbibliotekens handskriftssamlingar kunna digitaliseras, och publiceras på olika vis. Forskarvärlden och allmänheten skulle dels få tillgång till materialet men också, efter överenskommelse, ges möjlighet att berika det med kommentarer, transkribering, fulltextediteringar mm. ArkA-D är ett typiskt infrastrukturprojekt men forskningskompetens och omfattande kontakter med forskare försäkrar applikationens framtida värde
Behovet av ett digitaliseringssystem för handskrifter är mycket stort. Äldre databaser, samt material från tidigare forskningsprojekt behöver tas om hand och förvaltas; samtidigt finns ambitioner och teknisk utrustning för att starta upp nya digitaliseringsprojekt. Hållbara tekniska system för att lagra, förvalta och ge mervärde till digitaliserat handskriftsmaterial har dock hittills saknats. Fördelarna med att bygga ut och vidareutveckla välfungerande tekniska lösningar och samarbetsmodeller inom Alvin på det sätt vi föreslår, torde vara uppenbara.
Slutredovisning

Projektmedel för två år beviljades hösten 2011 av Riksbankens Jubileumsfond för projektet ArkA-D - ett verktyg för digitalisering av forskningsbibliotekens arkivsamlingar.
Projektet skulle utveckla en databaslösning för arkivsamlingar med möjlighet att digitalisera ett arkivmaterial snabbt och publicera det utan ett omedelbart behov av extensiva metadatabeskrivningar till varje bild. Projektet kallades ArkA-D eftersom det fanns fyra urskiljbara moduler (A-D) som skulle utvecklas.
A - en modell för registrering av arkivsamlingar
B - en bildfångstmodul för att koppla bilder till samma struktur som etablerats i A.
C - en modell för att tillföra metadata.
D - en möjlighet för användare att kommentera och berika materialet med crowd-sourcing (CS).
ArkA-D var ett samarbetsprojekt mellan Uppsala universitetsbibliotek (UUB), stads-biblioteket i Linköping (SBL) och Universitetsbiblioteket i Lund (LUB). Göteborgs universitetsbibliotek (GUB) deltog med egen finansiering.

2012 - Arbetsformer och kravspecifikationer
Första projektåret bildades en styrgrupp med deltagare från de olika biblioteken.
En arbetsgrupp verkade parallellt inom Uppsala universitetsbibliotek för avstämning-ar mellan den enhet som stod för IT-utvecklingen, enheten för digital publicering (EDP) vid UUB och kulturarvsavdelningen vid UUB. EDP anställde två utvecklare för att bygga de olika funktionerna i den databas som kom att hamna i centrum för det praktiska utvecklingsarbetet.
En budget för projektet antogs under våren 2012

Utvecklingsarbete
En uppdelning av olika utvecklingsfält gjordes också i början av projektet. Uppsala UB skrev en teknisk kravspecifikation för delarna A och C. Denna föreslog en modell för registrering inte enbart av arkiv utan också böcker, handskrifter, kartor, bilder, föremål, ljudinspelningar, musikalier, video och programvara. Detta var nödvändigt för den mer omfattande metadatamärkningen som beskrevs i C-modulen eftersom dessa olika entiteter kräver olika metadata men kan samtidigt använda samma funktioner för att registrera namn, organisationer och platser.
Eftersom det redan från början planerades att driva databasen vidare i ett samarbete mellan projektdeltagarna byggdes den så att ingående parter skulle kunna få inloggningar för sina egna samlingar.
B-delen handlade om bildfångst och Göteborgs universitetsbibliotek utarbetade en modell för ett digitaliseringsflöde som skulle resultera i en METS-fil som skulle kunna laddas upp direkt i systemet.
CS togs om hand i en särskild beställargrupp med forskarrepresentanter från Lunds och Göteborgs universitet (Elisabet Göransson och Anna Nordenstam) Mathias von Wachenfeldt från SBL och Maria Berggren och Per Cullhed från UUB. Eftersom CS inte kunde implementeras innan systemet hade funktioner för att registrera och ladda upp material prioriterades det senare arbetet. CS -gruppen hade dock möten under 2012 och deras beställning till utvecklarna levererades i januari 2013. Då sågs CS som en teknik, (se mer om detta under Crowdsourcing nedan).
2013 -utveckling och konsortium
Utvecklingsarbetet fortsatte under det andra året och det stod nu allt mer klart att de olika delarna i ArkA-D i praktiken gav funktionalitet inte bara för publicering av de avsedda arkivsamlingarna utan för alla typer av samlingar inom ABM-sektorn. Eftersom inget annat system för sådan publicering fanns till hands var det naturligt att projektet skulle utvecklas till en databas för kulturarvssamlingar som var anpassat för hela ABM området. Det fanns en idé om ett sådant system redan under det RJ-finansierade ProBoksprojektet mellan Lunds och Uppsalas universitetsbibliotek och nu kom den att kallas för Alvin.

Framtida finansiering
Under 2013 lades mycket arbete ned på att säkra en framtida finansiering. Eftersom en publiceringsplattform som Alvin säkert skulle väcka intresse bland andra kultur-arvsinstitutioner arbetade ArkA-D-projektet fram en konsortiemodell som skulle kunna bära kostnaderna för publiceringsplattformen även efter projektets avslutande. Det var viktigt för det digitala bevarandet eftersom finansieringsmodellen för ett digitalt arkiv är en tungt vägande faktor för den framtida certifiering som föreslogs i projektet. Det var ISO 16363:2012 "Space data and information transfer systems - Audit and certification of trustworthy digital repositories".
Av ovanstående skäl föreslogs en finansieringsmodell för ett framtida konsortium under 2013. Den byggde delvis på erfarenheter från publiceringsplattformen DiVA i varje fall i så måtto att mindre institutioner inte skulle betala lika mycket som de större institutionerna och att det inte skulle finnas negativa incitament för publicering, d.v.s. ökade kostnader på grund av ökad publicering utan tvärtom värnades möjligheterna att fritt publicera så mycket som möjligt.
För att ytterligare förstärka möjligheterna till finansiering söktes medel från VR för att överbrygga tiden från det projektpengarna skulle ta slut tills dess ett konsortium skulle kunna stå på egna ben. (Alvin 2014-16 Konsolidering av en gemensam data-bas för digitalisering). Det var ett led i att behålla den kompetens som nu fanns i projektet. Inom projektet fanns det oro för vad som skulle ske om ansökan inte beviljades men Uppsala garanterade projektets fortlevnad. Tyvärr beviljades inte VR-ansökan, det var i slutet av 2013, och nu vände sig UUB till rektor vid Uppsala universitet med en ansökan om stöd för Alvin. I praktiken kom Uppsala universitetsbibliotek att finansiera Alvin under den del av 2014 då projektmedlen från RJ tagit slut men Alvin beviljades till sist ett stöd från UU:s rektor om 1,2 miljoner kronor om året under fem års tid. Under 2015 har konsortiet börjat ta form med SBL som första medlem efter UUB. Lunds och Göteborgs universitetsbibliotek har anslutit sig under hösten 2015 och Hagströmerbiblioteket tillkommer 2016. Dessutom har Stockholms universitet, Göteborgs universitet, Vetenskapsakademien och Polarforskningsinstitutet bidragit med samlingar (bilder från polarexpeditioner) och finansiering, likaså Umeå universitet i ett RJ-finansierat projekt om digitalisering och transkriptioner av J. A. Nenséns anteckningar.

Teknisk utveckling och migreringar
Under hösten 2013 diskuterades migrering av redan befintliga samlingar och nu började också de första tekniska lösningarna presenteras från utvecklarna så att man faktiskt kunde se hur systemet fungerade i praktiken. Ett första gränssnitt presenterades mot slutet av 2013 och det beslutades att först migrera de arkivsamlingar som Uppsala och Lund dittills publicerat i Ediffah. Det påbörjades under våren 2014 då Uppsalas Ediffahposter för första gången syntes i Alvin (som dock fortfarande låg på en testserver endast tillgänglig för projektdeltagarna).
Under hösten 2013, i takt med att de första lösningarna började presenteras, stod det klart att den tekniska utvecklingen blivit mer omfattande och framförallt mer tidsödande än vad som ursprungligen avsetts. För att effektivisera den delen anställdes en teknisk projektledare under 2013-14, alltså delvis efter den egentliga projekttiden. De första gränssnitten var inte heller tillfredsställande och 2014 byggdes de om. Det gränssnitt som fortfarande används presenterades efter sommaren 2014 och en om-fattande funktionsspecifikation godkändes också 2014.

Crowdsourcing (CS)
Under 2013 gjordes en omfattande utredning och testning av CS-verktyg och det stod då klart att det fanns en mängd olika verktyg som skulle kunna kopplas direkt till allt innehåll i Alvin. En granskning av befintliga CS-projekt visade dock att dessa alltid kontextualiserade ett innehåll och behövde vända sig till en publik som passade för den aktuella kontexten som kunde vara allt från etiketter på humlor till dagböcker. CS är sålunda inte bara en teknik för en mängd ospecificerat material i klump utan den behöver stödjas med administrativa rutiner och teknik för specifika urval och uppföljning för att kunna locka allmänheten att delta. Humlor respektive dagböcker har olika publik och måste presenteras därefter.
Den modell som nu växte fram var att ett digitalt arkiv som Alvin var den nödvändiga stabila och långsiktiga basen i ett digitalt universum men att all vidare bearbetning skulle utföras med externa verktyg i ett lager ovanför basen dit man kan länka eller ladda upp bilder och metadata för analys och bearbetning. Detta gynnar CS, kontextualisering i många olika sammanhang, teknisk utveckling av externa verktyg mm och det blev en principiellt intressant fråga som gynnar både digitalt bevarande och forskning på ett digitalt material. All digital humaniora gynnas egentligen av denna grundsyn eftersom analys, annoteringar, TEI-märkning mm kan göras i lagret ovanför basen medan grundmaterialet vilar tryggt i basen och försvinner inte även om tillfälliga gränssnitt, annoteringar och bearbetningar inte längre kan underhållas. Däremot är det viktigt att bearbetningar som resulterar i ett material som bör sparas går tillbaka till basen för långsiktig förvaring. Man kan kalla detta för ett digitalt kretslopp. Transkriptioner är ett bra exempel där material publiceras i Alvin, bearbetas i externa verktyg, och sist publiceras resultatet i Alvin vars gränssnitt måste anpassas för detta. CS var alltså mer omfattande än en enkel teknik och uteslöts därför i specifikationen 2014. Den kommer istället att utvecklas som separata verktyg i lagret ovanför Alvin.

Konferenser
Alvin lanserades på konferensen Digitalisera - men sen då? på Nordiska museet den 28 november 2014. Då fanns 2541 poster - nu, ett år senare finns 47422.
Alvin presenterades bl. a. på följande konferenser:
Per Cullhed, Alvin och ArkA-D - om digitalisering av personarkiv. Personarkiven i en ny tid, Umeå i maj 2012
Per Cullhed, ALVIN - a collaborative digital platform. Coimbra-möte i Edinburgh, maj 2013
Stefan Andersson, - ALVIN -the Swedish platform. Stichting Akademisch Erfgoed expert meeting, Amsterdam, september 2013

Länkar
http://www.alvin-portal.org

Bidragsförvaltare
Uppsala universitetsbibliotek
Diarienummer
In11-1135:1
Summa
SEK 6 700 000,000
Stödform
RJ Infrastruktur för forskning
Ämne
Ospecifierad ämne
År
2011