Lars Björk

Utvärdering och anpassning av en förbättrad OCR-process vid massdigitalisering

Förväntningarna är höga på kulturarvsinstitutionernas kapacitet att tillhandahålla sina samlingar i digitalt format. Datadriven forskning har blivit ett centralt begrepp inom humaniora och samhällsvetenskaplig forskning. Kungliga bibliotekets (KB:s) samlingar av digitaliserade dagstidningar kan i detta perspektiv betraktas som unika kulturella dataset med information som inte förmedlas via andra medietyper. Det digitala formatet möjliggör tillämpningar och bearbetningar som inte är möjliga så länge materialet hanteras i sitt tryckta format. Eftersom texter inte längre enbart läses utan också bearbetas algoritmiskt ökar kraven på tillförlitlighet. Tekniken för att överföra bild till maskinläsbar text – OCR – är av avgörande betydelse för möjligheten att göra dessa resurser tillgängliga men metodens kapacitet varierar med typ av dokument. Detta blir särskilt tydligt i digitaliseringen av dagstidningar där faktorer som tryckteknik, layout och papperskvalitet ofta försämrar korrektheten hos den OCR-producerade texten. För att förbättra produktionen av maskinläsbar text initierade KB ett projekt med syfte att utveckla en modul för OCR-bearbetning där centrala parametrar kan justeras för att matcha specifik karaktäristik hos källmaterialet. Denna projektansökan syftar till att genomföra en formell utvärdering av, samt förbättra detta redskap genom systematiska textanalyser, lexikon och ordlistor med målet att det ska implementeras KB:s massdigitaliseringsprocess för dagstidningar.
Slutredovisning
Projektets syfte
Syftet med projektet var att finjustera och utvärdera en testplattform för OCR-produktion (fortsättningsvis refererad till som OCR-modulen). Modulen utvecklades av Kungliga biblioteket (KB) i samarbete med det norska mjukvaruföretaget Zissor 2017 och är baserad på två programvaror för OCR-produktion: ABBYY FineReader version 11.1.16 och Tesseract version 4.0. Modulen baseras på principen att resultatet från respektive OCR-program jämförs på ordnivå. I de fall orden överensstämmer ges resultatet en högre tillförlitlighetsgrad än i de fall då orden inte överensstämmer. När det föreligger en sådan skillnad vidtar ett antal bearbetningssteg enligt ett fastställt schema där olika ordkandidater jämförs och poängsätts. Det slutgiltiga valet blir då det alternativ som viktas högst. OCR-modulens design möjliggör också justering och kontroll av några nyckelparametrar i efterbearbetningen i OCR-processen – t.ex ordböcker, språkliga algoritmer och anpassning utifrån typografi och utformning – för att matcha typiska drag för tidningen som tryckt produkt i ett historiskt perspektiv där egenskaper som språkkonventioner och layout förändras över tid.

Projektets resultat
För att möjliggöra projektets syfte utarbetades en guldstandard, det vill säga ett felfritt digitalt referensmaterial, innehållande 402 sidor hämtade från tidningar från 1818 till 2018 – den tidsperiod som projektet omfattade. Först valdes 201 digitaliserade tidningar, en från varje år under perioden. Dessa tidningar var noggrant utvalda för att återspegla typiska variationer i layout och typografi. I nästa steg valdes två sidor från varje tidning – den andra och den fjärde. I det tredje steget segmenterades bildfilen för varje sida ner till paragrafnivå där varje segment, sammanlagt 43613 i hela referensmaterialet, markerades med ett ID-nummer. Slutligen fastställdes transkriptionsinstruktioner och bildfilerna skickades till en extern byrå för manuell avskrift. Transkriptionsprocessen baserades på double-keying där två personer transkriberar samma text och resultaten sedan jämförs för att upptäcka eventuella felaktigheter. Materialet genomgick också en manuell annotering där karaktäristik på sid- och segmentnivå noterades. För denna bearbetning anställdes två studenter med bakgrund inom språkteknologi och lingvistik som klassificerade alla sidor och stycken i enlighet med fördefinierade attribut. Resultaten från denna klassning noterades under respektive segment-ID i ett kalkylark.

Kvantitativ utvärdering
Vi genomförde en initial utvärdering på det kompletta materialet för att fastställa en baseline. Denna körning utfördes för vardera OCR-program separat samt i OCR-modulen. Inga externa ordlistor användes. Resultaten visade att OCR-modulen presterar bättre än vart och ett av de enskilda OCR-programmen på teckennivå. På ordnivå fanns ingen avgörande förbättring.

Vi gjorde sedan flera systematiska utvärderingar på specifika tidsperioder och analyserade utvärderingsresultaten för var och en av dem separat. Vi försökte förbättra resultaten i relation till vår baseline genom att kombinera OCR-modulen och de separata OCR-systemen med externa ordlistor från tre olika tidsperioder samt med en ordlista med namnentiteter. Vi tillämpade först ett naivt tillvägagångssätt genom att helt enkelt jämföra ordsträngar (det lexikala ordet och det felaktiga ordet), vilket endast ledde till mindre förbättringar på ordnivån. Ett andra tillvägagångssätt vi försökte var att beräkna likhetspoängen mellan ordsträngarna och ersätta det felaktiga ordet med det ord som fick lägst poäng. Även om detta tillvägagångssätt var mycket mer framgångsrikt var det beräkningsmässigt ineffektivt eftersom ordkombinationerna ibland tog timmar att bearbeta.
Vi fann också att OCR-modulen ger en förbättrad möjlighet till kvalitetsbedömning av den bearbetade textens korrekthet eftersom den mäter hur många ord på en given sida som har tolkats lika. Denna indikation är alltså inte beroende av OCR-programmens egen förtroendebedömning och kan därför sägas utgöra ett mer användbart mått på textens överensstämmelse med det bearbetade källdokumentet.

Kvalitativ utvärdering
Den språkliga och typografiska analysen av materialet gjordes manuellt genom att undersöka hur layout, pappersegenskaper (t.ex. nedbrytning och missfärgning) och tryckkvalitet påverkade OCR-produktionens korrekthet. Segmenteringen av referensmaterialet ner till paragrafnivå möjliggjorde en hög detaljeringsgrad i denna del av undersökningen. En faktor som påverkar korrektheten i OCR-bearbetningen är att dagstidningstexten ofta är layoutad i spalter. Marginalen mellan sådana spalter kan vara mycken smal och dessutom oregelbunden vilket ibland leder till att OCR-programmet tolkar textrader som sammanhängande trots att de tillhör intilliggande kolumner. Analysen visade att majoriteten av tidningarna under perioden 1818 till 1837 endast innehåller en spalt och som mest innehåller tre spalter (10% av materialet). 60% av tidningar från 1838 till 1857 innehåller tre spalter. Från 1858 till 1997 finns det en större variation. Totalt sett är det vanligaste antalet spalter 3, vilket förekommer i 25% av hela materialet. På paragrafnivå innehåller majoriteten av paragraferna endast en spalt, även om det i vissa fall förekommer paragrafer som i sig omfattar text- och sifferkolumner i tabell eller listformat. Kvaliteten på trycket är generellt sett låg i de flesta tidningar i undersökningen, men förbättras från omkring 2000. Fotografiska bilder förekommer knappt i materialet före 1898. Från 1938 och framåt innehåller nästan alla tidningar fotografiska bilder.
Sned text, där orienteringen av textrader och kolumner avviker horisontellt och vertikalt till följd av brister i tryckprocessen, påverkar korrektheten i OCR-bearbetningen. Denna felkälla är som mest påtaglig i materialet under perioden 1818 till 1857 (förekommer i 13% av materialet). Från 1858 och framåt sjunker den sammantagna förekomster till ca 1%. I materialet ser vi en förekomst av listor och tabeller i cirka 1% av segmenten, en typografisk egenskap som också påverkar kvaliteten på OCR-bearbetningen. Bilder utgör cirka 2% av paragraferna fram till 1937. Från 1938 finner vi bilder i 5% av paragraferna. I många fall behandlas dessa bilder som text i OCR-processen, vilket som tidigare nämnts lägger till ytterligare en felkälla.

Slutsatser
Projektet har visat ett antal fördelar med att tillämpa ett system baserat principen för OCR-modulen där jämförelsen på ordnivå mellan resultaten från två olika OCR-program används som en metod för att förbättra korrektheten i OCR-produktionen.

Vår studie visade också att effekten av att använda externa ordlistor för att stödja OCR-programmen är svår att bedöma eftersom kommersiella mjukvarutillverkare av förståeliga skäl är ovilliga att dela med sig av sin dokumentation avseende vilka principer som ligger till grund för hur ord väljs i tolkningsprocessen. Det finns trots detta skäl att ytterligare undersöka möjliga tillämpningar av anpassade ordlistor och auktoritetsposter för att stödja OCR-bearbetning av material från specifika genrer eller historiska perioder.

Projektet levererade också en strukturerad bild av hur faktorer i källmaterialet (dvs tidningens fysiska egenskaper, layout, förekomst av bilder, brister i tryckprocessen osv ) kan påverka korrektheten i OCR-produktionen.

Slutligen, OCR-modulen erbjuder ett mer tillförlitligt kvalitetsmått när det gäller den producerade textens korrekthet eftersom den baseras på en jämförelse mellan de två OCR-programmens resultat på ordnivå – om båda programmens bearbetning resulterar i samma ord finns det skäl att anta att denna tolkning är mer korrekt än om resultatet skiljer sig åt. Undersökningen visade att de enskilda programmens interna konfidensvärden inte är en tillförlitlig indikation. Metoden som undersökts i projektet skulle därför kunna användas som en form av ”innehållsdeklaration” för den maskinläsbara texten på sidnivå eller för ett dokument i sin helhet.

Projektet har producerat fritt tillgängligt referensmaterial bestående av manuellt transkriberade och kommenterade resurser som kan användas för vidare analys, utbildning och förbättring av svenska OCR-modeller. Projektets metodologi, tillvägagångssätt och resultat har presenterats löpande under arbetet. Sammanlagt har nio artiklar publicerats, varav fem presenterats vid internationella konferenser, två är projektarbeten på masternivå. En ytterligare artikel är under granskning.

OCR-modulen befinner sig i testmiljö och är ännu inte driftsatt i massdigitiseringsprocessen eftersom detta kommer kräva anpassningar av KB:s tekniska infrastruktur. Vi har etablerat kontakter med forskningsgrupper kopplade till nationalbiblioteken i de nordiska länderna med syfte att formalisera ett forskningsinitiativ avseende infrastruktur för OCR-produktion. Vi kommer också, inom ramen för det pågående samarbetet mellan KB och Språkbanken Text/Swe-Clarin, fortsätta våra experiment och analyser med målet att förbättra OCR-produktionen på det svenska språket. Resultaten kommer att spridas genom nätverket CLARIN ERIC.

Nya forskningsfrågor som har genererats genom projektet
Förutom de resultat som diskuterats ovan har projektet också genererat flera nya frågor som skulle kunna utgöra utgångspunkter för fortsatt forskning.
• Vilken roll spelar styrkorna och svagheterna hos de olika OCR-programmen under konverteringsprocessen?
• Vilka lexikaliska resurser, förutom de som används i projektet, kan användas för att förbättra OCR-resultaten?
• Kan vi förbättra OCR-resultaten genom en tydligare koppling mellan den kvalitativa och den kvantitativa analysen?
• Vilka metoder är användbara för att särskilja typografisk information från icke informationsbärande element i textbaserade dokument med komplex layout?
• Vilka metoder och kvalitetsmått kan användas för att stödja bedömningen av korrektheten hos en OCR-behandlad text?
Publikationslista
Publications from the project
The approach, methodological development and results have been disseminated throughout the project. The project resulted in nine publications of which five were presented in international conferences, two are Master's thesis projects and one is currently under review. We have given several presentations in national and international venues.

1. Dana Dannélls, Torsten Johansson, and Lars Björk. Evaluation and refinement of an enhanced OCR process for mass digitisation (2019). In Proceedings of the Digital Humanities in the Nordic Countries 4th Conference (DHN), University of Copenhagen, Faculty of Humanities. CEUR Conference Proceedings. Copenhagen: CEUR-WS.org, pp. 112–123. http://ceur-ws.org/Vol-2364/9_paper.pdf

2. Dana Dannélls, Torsten Johansson, Ove Dirdal, and Lars Björk. Evaluation of a Two-OCR engine Method: First Results on Digitized Swedish Newspapers Spanning over nearly 200 Years (2020). In CLARIN Annual Conference Proceedings. Linköping: Linköping Electronic Press. ISBN: 978-91-7929-609-4. https://office.clarin.eu/v/CE- 2020- 1738-CLARIN2020_ConferenceProceedings.pdf

3. Dana Dannélls and Persson Simon (2020): Supervised OCR Post-Correction of Historical Swedish Texts: What Role Does the OCR System Play? In Proceedings of the Digital Humanities in the Nordic Countries, 5th Conference, Riga, Latvia, October 21-23, 2020 / edited by Sanita Reinsone, Inguna Skadina, Anda Baklane, Janis Daugavietis.

4. Dana Dannélls, Lars Björk, Ove Dirdal, and Torsten Johansson (2021). A two-OCR engine method for digitized Swedish newspapers. In Selected papers from the CLARIN Annual Conference, pages 65–73, Linköping University Electronic Press, ISBN:978-91-7929-609-4.

5. Molly Brandt Skelbye (2021). OCR correction of Swedish newspaper texts
using deep CNN–LSTM neural networks. Master’s thesis, Chalmers university of technology and University of Gothenburg. https://odr.chalmers.se/handle/20.500.12380/303910

6. Molly Brandt Skelbye and Dana Dannélls (2021). OCR Processing of Swedish Historical Newspapers Using Deep Hybrid CNN–LSTM Networks. In Proceedings of the International Conference on Recent Advances in Natural Language Processing. Online event. ACL. https://aclanthology.org/2021.ranlp-1.23/

7. Arvid Lundberg and Mattias Torstensson (2021). Deep learning for post-OCR error correction on Swedish texts. Master’s thesis, Chalmers university of technology and University of Gothenburg. https://odr.chalmers.se/handle/20.500.12380/303714

8. Dana Dannélls and Shafqat Virk (2021). A Supervised Machine Learning Approach for Post-OCR Error Detection for Historical Text. Linköping Electronic Press Workshop and Conference Collection. Selected contributions from the Eighth Swedish Language Technology Conference (SLTC-2020). https://doi.org/10.3384/ecp184170.

9. Dana Dannélls and Patricia Grau Francitorra (2022). Towards Large-scale Annotations of Typographical Information of Newspapers for Evaluating OCR Models. Submitted to LREC 2022.

Presentations

1. Digital Humanities in the Nordic Countries (DHN), 2019, University of Copenhagen on March 6. http://demo.spraakdata.gu.se/svedd/ocrproject/kb/presentation/OCR-presentation-DHN19.pdf

2. Språkbanken Text Spring Workshop 2020, online event: Reference data for evaluation of OCR. https://spraakbanken.gu.se/om/internt/terminsworkshoppar/semester-workshop-v2020

3. CLARIN Annual Conference 2020, online event: Evaluation of a Two-OCR engine Method: First Results on Digitized Swedish Newspapers Spanning over nearly 200 Years. http://demo.spraakdata.gu.se/svedd/ocrproject/kb/presentation/CLARIN2020-Session-1.3-OCR.pdf

4. Språkbanken Text Autumn Workshop 2021, online event: En förbättrad OCR-process för KB:s massdigitalisering av dagstidningar
http://demo.spraakdata.gu.se/svedd/ocrproject/kb/presentation/htworkshop-2021-211015.pdf

Open sources

1. A selection of digitized versions of Swedish newspapers from 1818 to 1870 https://spraakbanken.gu.se/resurser/svenska-tidningar-1818-1870

2. A selection of digitized versions of Swedish newspapers from 1871 to 1906, https://spraakbanken.gu.se/resurser/svenska-tidningar-1871-1906}

3. Manual transcriptions of newspapers from 1818-2018 http://demo.spraakdata.gu.se/svedd/ocrproject/kb/Grepect/all/GoldStandardCleaned.
The material was transcribed by Grepect, transcription instructions available here http://demo.spraakdata.gu.se/svedd/ocrproject/kb/Grepect/all/Instructions-for-transcription-190822.pdf

4. Document and segment level annotations of newspapers from 1818-2018. Annotated by two annotators http://demo.spraakdata.gu.se/svedd/ocrproject/kb/manual/annotators.zip}.
Annotations instruction also available here (in Swedish) http://demo.spraakdata.gu.se/svedd/ocrproject/kb/manual/instruktioner_annotering_svenska_tidningar.pdf

5. Four word lists that we experimented with in order to improve the OCR module results http://demo.spraakdata.gu.se/svedd/ocrproject/kb/wordlists

6. Swedish language models trained with open source OCR software Calamari https://github.com/mskelb/OCR_SB
Anslagsförvaltare
Kungliga biblioteket
Diarienummer
IN18-0940:1
Summa
SEK 1 689 000,000
Stödform
Infrastruktur för forskning
Ämne
Språkteknologi (språkvetenskaplig databehandling)
År
2018