Lars Björk

Utvärdering och anpassning av en förbättrad OCR-process vid massdigitalisering

Förväntningarna är höga på kulturarvsinstitutionernas kapacitet att tillhandahålla sina samlingar i digitalt format. Datadriven forskning har blivit ett centralt begrepp inom humaniora och samhällsvetenskaplig forskning. Kungliga bibliotekets (KB:s) samlingar av digitaliserade dagstidningar kan i detta perspektiv betraktas som unika kulturella dataset med information som inte förmedlas via andra medietyper. Det digitala formatet möjliggör tillämpningar och bearbetningar som inte är möjliga så länge materialet hanteras i sitt tryckta format. Eftersom texter inte längre enbart läses utan också bearbetas algoritmiskt ökar kraven på tillförlitlighet. Tekniken för att överföra bild till maskinläsbar text – OCR – är av avgörande betydelse för möjligheten att göra dessa resurser tillgängliga men metodens kapacitet varierar med typ av dokument. Detta blir särskilt tydligt i digitaliseringen av dagstidningar där faktorer som tryckteknik, layout och papperskvalitet ofta försämrar korrektheten hos den OCR-producerade texten. För att förbättra produktionen av maskinläsbar text initierade KB ett projekt med syfte att utveckla en modul för OCR-bearbetning där centrala parametrar kan justeras för att matcha specifik karaktäristik hos källmaterialet. Denna projektansökan syftar till att genomföra en formell utvärdering av, samt förbättra detta redskap genom systematiska textanalyser, lexikon och ordlistor med målet att det ska implementeras KB:s massdigitaliseringsprocess för dagstidningar.
Anslagsförvaltare
Kungliga biblioteket
Diarienummer
IN18-0940:1
Summa
SEK 1 689 000,00
Stödform
Infrastruktur för forskning
Ämne
Språkteknologi (språkvetenskaplig databehandling)
År
2018