Daniel Löwenborg

Urdar. En forskningsinfrastruktur för arkeologisk undersökningsdata

Den omfattande kulturarvsinformationen från arkeologiska undersökningar är i hög utsträckning otillgänglig för datadriven forskning. Urdar-projektet kommer säkerställa att informationen i den digitala dokumentationen från undersökningar inte går förlorad utan blir tillgänglig för forskning genom länkade och öppna databaser. Semantisk länkning av fältdokumentation och forskningsdata innebär att informationen blir optimerad för forskning med metoder från digital humaniora och naturvetenskap, vilket kommer underlätta tvärvetenskapliga samarbeten och stärka arkeologins roll som vetenskapligt fält. Urdar kommer skapa en brygga mellan kulturmiljösektorn och akademisk forskning genom att möjliggöra forskning på arkeologins främsta empiriska data. Digital dokumentation är en källa för att utforska långtidsperspektiv inom många olika forskningsfält. Urdar kommer tillämpa FAIR principerna (Findable, Accessible, Interoperable and Reusable), för att säkerställa att resultaten från arkeologiska undersökningar kan inkluderas inom internationella forskningsinfrastrukturer genom öppna standarder och dataformat. Genom att göra den komplexa informationen från fornlämningar FAIR och möjliga att länka till museisamlingar och resultat av analyser (som paleoekologi, osteologi, kol-14 dateringar, genetik m.m.) kommer arkeologin få en ökad relevans och bidra till en ökad kunskap om mänsklighetens historia och förhistoria för att stödja beslutsfattande idag och i morgon.
Slutredovisning
Slutredovisning, Urdar. En forskningsinfrastruktur för arkeologisk undersökningsdata. In19-0135:1

Urdar - infrastrukturens syfte och utveckling
Syftet med Urdar var att bevara och tillgängliggöra Riksantikvarieämbetets (RAÄ) arkiv över digitalt född dokumentation från arkeologiska undersökningar som var skapade i mjukvaran Intrasis. Målet var att göra data från RAÄs uppdragsverksamhet (UV) fritt tillgängliga och användbara enligt FAIR data principerna, som ett led i att förbättra tillgången på arkeologisk information samt initiera en dialog kring återanvändning av data. Arkeologisk forskning bygger i hög grad på det empiriska material som tas fram i samband med uppdragsarkeologiska undersökningar. Att kunna använda mer av den informationen i digitalt format öppnar för alla de möjligheter till analys och kunskapsproduktion som de senaste decenniernas utveckling inom informationsteknologi blir möjlig.

Resultat
Samtliga 3 696 Intrasis-databaser från UV överfördes från RAÄ till Uppsala universitet för att bearbetas enligt FAIR-principerna. Dessa återskapades i en PosgreSQL/PostGIS-miljö för att möjliggöra bearbetning och export till öppna format. Bearbetningar gick i huvudsak ut på att korrigera koordinatsystem så att all geodata är i samma system (SWEREF99 TM, EPSG 3006). Informationen kompletterades även med uppdragsnummer så att det skulle bli möjligt att relatera varje databas till RAÄs uppdragsregister. Utöver det gjorde enbart mycket begränsade redigeringar av informationen, exempelvis om en vektor i en polygon var uppenbart mycket fel och kunde ligga tusentals kilometer bort. I ett par sådana fall togs den felande vektorn bort så att databaserna blir enklare att återanvända. Utöver det är grundprincipen att all data är som den ursprungligen levererades från undersökningen.

Efter bearbetning exporterades samtliga databaser i formaten GeoPackage (GPKG) och Comma-separated values (CSV). GPKG-formatet är väl lämpat för återanvändning inom GIS-program och är ett stabilt format lämpat för långtidslagring, men för säkerhetsskull exporterades data även som CSV. För att genomföra konvertering av format från Intrasis till GPKG/CSV utvecklades ett plugin till QGIS. Detta plugin, Swedigarch GeoTools, möjliggör enkel export via QGIS direkt från en PostgreSQL/PostGIS-server utan specialistkompetens. Pluginet utvecklades i samarbete med Sweco, som upphandlades för detta, och utvecklingen samfinansierades även med två RAÄ FoU-projekt för att även ta fram möjligheter att analysera innehållet i databaserna i QGIS. En fördel med att ta fram denna lösning, snarare än att göra exporter via skript direkt mot servern, är att det skapar förutsättningar för att enkelt samla in mer data i fortsättningen, där andra arkeologiska organisationer med data snabbt och enkelt kan exportera data själva. I förlängningen ger det möjlighet att data görs tillgänglig i samband med rapportering av arkeologiska undersökningar i framtiden.

Riksantikvarieämbetets e-arkiv (Iipax) lagrar digitala arkivobjekt, från publikationer och dokument, till bilder och fotografier. I samband med DAP (Digital Arkeologisk Process, utvecklingsprojekt 2015-2019) integrerades e-arkivet med tjänsten Fornreg genom vilken arkeologiska utförare kan leverera geodata till Kulturmiljöregistret (geometrier över lämningar, uppdrag och grävda ytor) samt rapporter och publikationer till e-arkivet. Dessutom kan fyndlistor levereras som tabell-data (CSV) till e-arkivet. Olika typer av objekt behöver ha sin egen metadatamall i e-arkivet som kategoriserar dem, specificerar vilken metadata som ska användas för att beskriva dem och anger vilka filformat som är godkända. Inom projekt Urdar utvecklades en kategori och metadatamall för “Dokumentationsdata” som dels tar emot filformat som GeoPackage och CSV, dels säkerställer att de kopplas till uppdragsnummer och lämningsnummer i Kulturmiljöregistret.

Av de 3696 Intrasis-databaserna var det i slutändan 3460 som bedömdes relevanta för bevarande och tillgängliggörande. De övriga rör sig om kopior eller helt tomma databaser. För varje databas gjordes två exporter:

* CSV är det mest arkivbeständiga formatet, ren tabelldata med koordinatuppgifter som kan omvandlas till geodata eller analyseras utanför GIS-miljöer. För att komma åt informationen måste relationerna mellan de olika tabellerna återskapas enligt det schema som följer med varje databas som en text-fil.

* GPKG är ett öppet filformat anpassat för GIS-plattformar. Tillhandahålls för att underlätta återanvändning. I GPKG-filen är alla relationer fördefinierade.

I december 2024 importerades GPKG- och CSV-filerna tillhörande metadata till e-arkivet och kompletterades med relevant metadata från arkiv och kulturmiljöregistret. Allt innehåll i e-arkivet tillgängliggörs i söktjänsten Arkivsök, så att filerna nu är sökbara på riktigt. Dessutom har Fornsök, kartsöktjänsten för arkeologisk lämnings- och uppdragsinformation, utvecklats så att det numera finns en direktlänk från respektive uppdrag till allt tillgängligt arkivmaterial i Arkivsök.

Måluppfyllelse:

Findable:
* Dokumentationsdata är sökbart i Arkivsök
* E-arkivets innehåll publiceras som OAI-PMH med öppet API
* Det går att hitta dokumentationsdata via Fornsök
* Det går att hitta dokumentationsdata via Swedigarch/AGES

Accessible:
* Varje fil har en beständig identifierare i e-arkivet
* Dokumentationsdata kan beställas för nedladdning via söktjänsten Arkivsök. En kontroll sker innan leverans för att säkerställa att den inte innehåller säkerhetsklassad information. Kontrollen går snabbt tack vare det förarbete på bulk-data som redan utförts inom projektet.
* Information om databaserna publiceras även via AGES inom Swedigarch, via ett WebGIS, som en WMS-tjänst och som ett index publicerat på Zenodo.

Interoperable:
* Koordinatsystem har korrigerats till SWEREF99.
* Det interna Intrasis-formatet har konverterats till ett helt nytt, öppet, format så att all information går att tillgängliggöra som GPKG och CSV.
* Varje fil har fått tillhörande metadata i e-arkivet
* Filerna är i relevanta fall länkade till uppdragsnummer och lämningsnummer med ytterligare information i Kulturmiljöregistret/Fornsök
* Metadata från Arkivsök är kompatibelt med Dublin Core och CIDOC-CRM

Reusable
* CSV-filerna går att öppna i valfritt program, men relationerna mellan de olika tabellerna behöver definieras innan de går att analysera.
* GeoPackage-formatet går att öppna i de GIS-program som stöder Open Geospatial Consortiums GPKG definitioner. För närvarande stöder inte ArcGIS dessa, utan de lämpar sig bättre för exempelvis QGIS, som är Open Source.
* Licens: CC0 (publikationerna för uppdragen har licens CC BY)

Användning
Data från Urdar lanserades i december 2024, så än är det begränsad användning, men ett exempel som kan nämnas är REICOR-projektet, där en preliminär version av materialet användes för analyser, och framför allt för att resonera kring framtida möjligheter med motsvarande material. REICOR (Rational and efficient ground investigations for industrialised construction of new railways) är ett projekt som syftar till att utveckla metoder för att skapa bättre underlag vid planering av sträckning av järnvägar, där det finns ett behov av att uppskatta mängden av arkeologiska lämningar i olika alternativa korridorer, för att beräkna behov och omfattning av undersökningar. Det konstateras att den detaljerade informationen om individuella anläggningar och fynd som går att analysera med tillgång till GIS-data från undersökningarna ger avsevärda vinster för denna typ av analyser. Ytterligare en viktig användning av resultaten är att de utgör en central grund för utvecklingen av Swedigarch.

Avvikelser
En viss förskjutning i tidsplanen uppstod på grund av pandemin som bröt ut när projektet drog igång, vilket försvårade möjligheten att ha fysiska workshops och möten. En annan faktor som kom att påverka projektet var att Vetenskapsrådet hösten 2021 beslutade att finansiera den nationella infrastrukturen Swedigarch. Det blev relevant att inom Urdar-projektet ta fram långsiktiga lösningar för infrastrukturen, exempelvis vilka tekniska metoder som utvecklades för att exportera Intrasis-data, så att det går att göra mer effektivt för stora volymer andra databaser framöver.

Mappning av metadata mot CIDOC-CRM flyttades till Swedigarch-projektet eftersom infrastrukturen utvecklar en helt ny version av datamodellen för K-Samsök. Det bedömdes inte vara relevant att mappa mot ett system som var på väg att bytas ut. Det innebar mindre behov av teknisk utveckling på RAÄ, och dessa resurser användes i stället för att upphandlad externa konsulter (Sweco) för att ta fram exportfunktioner till QGIS-pluginet Swedigarch Geotools. Detta innebar förändringar i budgeten då 210 308 kr flyttades över från lön till drift, med godkännande av ekonomidirektör Anna Mogård (2024-02-06).

Integrering och långsiktighet
Genom att publicera materialet på e-arkivet blir det långsiktigt tillgängligt, och de uppdateringar och rutiner som utvecklats där innebär även förbättrade möjligheter att ta emot och hantera den typen av information framgent, vilket är en betydande vinst då detta tidigare utgjort ett hinder för att ta om hand dessa informationstyper. Arbetet med att samla in, bearbeta och tillgängliggöra geodata från arkeologiska undersökningar får helt nya förutsättningar genom utvecklandet av exportfunktionerna i Swedigarch Geotools, och detta arbete fortsätter inom infrastrukturen Swedigarch där data från fler undersökningar görs FAIR. Inom Swedigarch utvecklas även tekniska lösningar för att kunna aggregera data från alla undersökningar för att kunna analysera tillsammans samt att länka till externa register och databaser, exempelvis med fynd, C14, miljöanalyser och aDNA.

Tillgänglighet och Open Science
All data går att söka fram och beställa via RAÄs e-arkiv. På grund av att geodata kan vara känsliga, särskilt i de fall det berör infrastruktur eller anläggningar i närheten av skyddsobjekt, så görs en extra säkerhetskontroll när ett dataset beställs. En visningstjänst finns på Swedigarch, och ett index över alla databaser (AGES_index.gpkg) finns på Zenodo. All kod som utvecklats inom projektet är öppet tillgänglig på GitHub (se länkar nedan).

Internationella samarbeten
Inom projektet har informella kontakter utvecklats, vilka kan ligga till grund för fortsatta samarbeten. Vi har framför allt haft kontakt med den Norska infrastrukturen ADED (Archaeological Digital Excavation Documentation) vilka har bearbetat samma typ av data (Intrasis) men utifrån delvis andra principer samt den Engelska infrastrukturen ADS (Archaeology Data Service) som också hanterar Intrasis-data. Representanter från både ADED och ADS har ingått i referensgruppen för projektet.

Länkar
En översikt över samtliga databaser på RAÄs e-arkiv: https://app.raa.se/open/arkivsok/results?arkiv_samling=Avdelningen%20f%C3%B6r%20arkeologiska%20unders%C3%B6kningar%20(UV)%201994-2014&searchtype=filter&page=0&pagesize=100

Swedigarch AGES-sidan, med information om data från Urdar och det som fortsätter samlas in genom infrastrukturen: https://swedigarch.se/index.php/swedigarch/resources/ages/

AGES_index på Zenodo: https://doi.org/10.5281/zenodo.14527340

GitHub-sida, med information om pluginet Swedigarch Geotools, som har all kod som används för att skapa GPKG-exporter: https://github.com/swedigarch/QGIS-plugin/wiki Koden finns även på Zenodo: https://doi.org/10.5281/zenodo.12158155
Bidragsförvaltare
Uppsala universitet
Diarienummer
In19-0135:1
Summa
SEK 7 938 000
Stödform
RJ Infrastruktur för forskning
Ämne
Arkeologi
År
2019