Hans Ljungberg

Analys och teckentolkning av tabeller i SCB:s digitaliserade statistik

Statistiska centralbyrån (SCB) och dess föregångare har framställt statistik under lång tid i ett internationellet perspektiv. En allt mer systematisk och omfattande statistik byggdes upp från 1800-talet och framåt. Med webbens framväxt kom önskemål att digitalisera den äldre statistiken som bara fanns i tryckt form för att göra den mer tillgänglig. Den äldre statistiken hjälper oss att förstå vår historia och att göra jämförelser över tid. Det mesta av SCB:s äldsta statistik är digitaliserad och publicerad på nätet. De digitala versionerna är försedda med navigeringshjälpmedel såsom bokmärkning till lägsta rubriknivå, länkade innehållsförteckningar, samt sökbar text. Förarbetet till digitaliseringen konstaterade att det inte gick att få godtagbar korrekthet vid tolkning av tabeller. Tabellerna är därför endast tillgängliga som bilder i pdf-filerna och inte lätta överföra till ett kalkylark, vilket är önskvärt för forskare som vill kunna göra egna beräkningar på materialet. I en ny förstudie har SCB noterat att det nu finns bättre möjligheter att tolka äldre tabeller. Syftet med det här projektet är att bygga upp en arbetsmiljö och att tolka tabellerna i det redan digitaliserade materialet. Tanken är att börja med det nyare materialet som är lättare, och förfina komponenterna i tolkningsprocessen vart efter allt mer och allt äldre och svårare material analyseras och tolkas. Resultat blir tolkade tabeller som publiceras, samt en mängd tabellutformningskonventioner.
Slutredovisning

Hans Ljungberg, SCB

2014-2016
Statistiska centralbyrån (SCB) och dess föregångare har framställt statistik under lång tid i ett internationellt perspektiv. Med webbens framväxt kom önskemål att digitalisera den äldre statistiken som bara fanns i tryckt form för att göra den mer tillgänglig. Det mesta av SCB:s äldsta statistik är digitaliserad och publicerad på nätet. De digitala versionerna är försedda med navigeringshjälpmedel såsom bokmärkning till lägsta rubriknivå, länkade innehållsförteckningar, samt sökbar text. I förstudien 2013 har SCB noterat att det fanns möjligheter att tolka äldre tabeller från pdf-bilder till bearbetningsbara excel-tabeller. Intressanta leverantörer för projektet var verktyg från Flexicapture, Nuance, INSA och Abbyy.

Syftet med projektet har varit att upphandla och bygga upp en miljö för att tolka pdf-tabellerna i det redan digitaliserade materialet till bearbetningsbara excel-tabeller och att tillgängliggöra dessa för olika användare, t.ex. forskare.

Projektets tre viktigaste resultat
Sammanfattningsvis kan sägas att trots att den tidigare förstudien indikerat på att det fanns nya programvaror som skulle kunna tolka äldre tabeller enligt projektets krav, har projektet inte kunnat upphandla sådan mjukvara på den europeiska marknaden.

I projektet har ett kvalitativt underlag för kravspecifikation tillika RFI (Request for Information (förfrågan om information inför upphandling)) framtagits. Projektet har i arbetet med kravställningen för upphandling av mjukvaran tagit hänsyn till att det sannolikt skulle behövas relativt omfattande anpassningar av en existerande programvara för att nå målet om ett flexibelt verktyg för tolkning av tabeller. Med anledning härav har projektet bland annat varit i underhandskontakt med det internationella företaget Abbyy i syfte att utröna om företaget utvecklat mjukvara som projektet efterfrågar. Projektet har också i kravställningen tagit hänsyn till möjligheten att det kan finnas för oss obekanta verktyg som ligger närmare vårt mål (det kan ju finnas produkter under utveckling som inte tillkännagivits än). I förberedelsearbetet för kravspecifikationer till RFI, avropsförfrågan och upphandling har nya tabellegenskaper tillkommit och idéer till utformningen av databas för primär lagring av tabelltolkningar tillkommit. Det finns ett ännu inte sammanställt underlag till kunskapsinhämtning från olika håll, i synnerhet vetenskapliga artiklar.

Avropsförfrågan har först publicerats via Kammarkollegiets webbplats inom ramavtalet "Dokumenthantering 2012 - Skrivare, MFP, programvaror och tjänster" i maj 2016. Endast ett anbudssvar erhölls från Ricoh/Opto Sweden. Anbudssvaret motsvarade dock inte de ekonomiska förutsättningarna i projektet, varför projektet valda att avbryta avropsförfrågan i juni 2016. Beslut fattades därför att gå vidare och genomföra en "öppen upphandling" på den europeiska marknaden. Ny avropsförfrågan - med krav på att två arbetsprovet skulle uppvisas - publicerades sedan i Visma Commerce i juli 2016. Ånyo svarade endast Ricoh/Opto Sweden på förfrågan. Ytterligare en leverantör, INSA de Rennes, meddelade dock att de p.g.a. tidsbrist inte kunnat lämna svar på anbudsförfrågan.

Vid Ricoh/Opto Swedens demonstration av begärda arbetsprover, kunde leverantören inte uppfylla de krav projektet ställde. Opto Sweden förklarade först då att sådan specifik programvara ännu inte finns utvecklad i Europa, utan dylik programvara skulle behöva utvecklas från grunden. Ett annat intressant resultat från upphandlingsmötet med Ricoh/OptoSweden var att den programvara (Abbyy's Flexicapture), som sedan förstudien till projektet sett mest lovande ut och som då gjordes en testkörning med, enligt OptoSweden, inte längre skulle vara aktuell som grund för den anpassade mjukvara projektet sökte i upphandlingen. OptoSwedens representant förklarade att projektets önskemål skulle kräva för omfattande anpassningar på djupet och därmed mycket tid av underleverantörens mest kvalificerade utvecklare. För projektets fullföljande skulle det därför krävas en mycket stor utvecklingsinsats.

Som en följd av ovanstående beslöts att avbryta hela projektet, eftersom projektet inte ansåg det görligt att börja egenutveckla ett dylikt system från grunden. Det skulle också innebära en allt för stor risk för projektet. P.g.a. av att projektet avbröts i september 2016, har inte heller något egentligt innehållsligt arbete blivit utfört (dvs att tolka tabeller i det digitaliserade materialet eller uppsättning av tabellmallar).

Projektet har fokuserat på programvaror på den öppna marknaden, men har även observerat att det inom den akademiska världen finns en heterogen samling utvecklare/forskare av programvaror för teckentolkning i allmänhet och för teckentolkning av tabeller (och även andra dokumentslag). Via litteraturstudier har projektet uppmärksammat att det funnits andra projekt inom den akademiska världen, som i olika delar förmått teckentolka tabeller likartat detta projekt, se på exempel från University of Belfast's Center for Data Digitisation and Analysis, och IRISA (Institut de recherche en informatique et systèmes aléatoires) - INSA-Rennes (Institut National des Sciences Appliquées) i Bretagne, Frankrike.

Den programvara projektet sökt skulle kunna anpassa en generell objektmodell i flera nivåer för att modellera publikation(er) och tabeller på flera nivåer. Logisk tabellstruktur, en (av flera möjliga) utformning av tabellstruktur, och en av publikationsformen styrd typografi. Många tabellegenskaper för de olika nivåerna ska kunna definieras och för var av dem? dem vilka värden de kan anta, t.ex. genom användning av definitions- och värdemängder för respektive statistik. Genom att förutbestämma flera parameterar ges programmet mer kontext för säkrare tolkningar.

För en fortsatt utveckling på området tabelltolkning skulle möjligen en gemensam satsning från flera intressenter, t.ex. europeiska eller internationella statistikbyråer, kunna ge ett projekt en ekonomiskt trygg och stabil miljö som leder hela vägen till målet. Kostnaden måste förstås balanseras mot nyttan och intressenternas behov, och man kan generellt fråga sig hur mycket analogt material det finns och kommer att finnas som är värt att digitalisera och tolka. Räcker alla de nationella statistikbyråernas samlade tryck? Men det finns också andra områden som har stora mängder material i analog form. Tryckta flersidiga publikationer som innehåller en eller flera logiska delar som i sin tur består av en eller flera sidor. T.ex. sjukjournaler, musikalier, tidskrifter, manualer. Existerande mjukvara är mer inriktad att hantera en sida i taget, men i många fall skulle det behöva hantera flersidiga logiska objekt (t.ex. statistiska tabeller, musikstycken, tidskriftsartiklar) som formella tolkningsmål.

Litteraturförteckning
oCoüasnon, Bertrand (2006) DMOS, a generic document recognition method: application to table structure analysis in a general and in a specific way. In: International Journal of Document Analysis (2006) 8(2): 111-122
oCoüasnon, Bertrand, Lemaitre, Aurélie (2014) Recognition of Tables and Forms. In Handbook of Document Image Processing and Recognition, pp. 647-677; https://hal.inria.fr/hal-01087230
oGreen, E.A., Krishnamoorty, M.S., (1996) Model-Based analysis of Printed Tables, Lecture Notes in Computer Science, v. 1072: pp. 80-91
oGöbel, M., Hassan, T., Oro, E., Orsi, G., (2012) A Methodology for Evaluating Algorithms for Table Understanding in PDF Documents. DocEng' 12, ACM 2012
oKieninger, T., Dengel, A. (1999) The T-Recs Approach for Table Structure recognition and table border Determination, DLIA99
oKieninger, T., Dengel, A. (2005) An Approach towards benchmarking of table structure recognition results. Proc. ICDAR 2005: pp. 1232-1235
oMartinat, I., Coüasnon, B., Camillerapp, J. (2007) An adaptive recognition system using a table description language for hierarchical table structures in archival documents. Samma artikel titel och författare i :Graphics recognition: Recent advances and new opportunities. Berlin/Heidelberg, LNCS 5046, pp. 9-20
oOro, E., Ruffolo, M. (2009) PDF-TREX: An approach for Recognizing and extracting tables from PDF documents. ICDAR 2009: pp. 906-910
oTuganbaev, D, Pakhchanian, A., Deryagin, D., ABBYY Software House, Moscow (2005) Universal Data Capture Technology from Semi-Structured Forms; in Eight International Conference on Document Analysis And Recognition (ICDAR 2005)
oWang, Xinxin (1996) Tabular abstraction, editing and formatting. Avh. University of Waterloo, Canada,.
oZanibbi, R., Blostein, D., Cordy, J.R. (2004) A survey of table recognition: Models, Observations, transformations, and Inferences. International Journal of Document Analysis and Recognition, 7: 1-16

Nya forskningsfrågor som har genererats genom projektet

Det vore intressant att återgå till en förstudiefas där systemlösningar från Nuance (OmniPage Capture SDK), IRISA-INSA (programvara DMOS, i olika stadier) och Abbyy (Flexicapture) fördjupades samt kontakt med CDDA Univ. Belfast.

Projektets internationella förankring
Projektet har vänt sig till den europeiska marknaden för att sondera marknaden. Direktkontakt har förevarit med Nunance och INSA.

Bidragsförvaltare
Statistiska centralbyrån SCB
Diarienummer
IN14-0337:1
Summa
SEK 2 500 000
Stödform
RJ Infrastruktur för forskning
Ämne
Övrig annan samhällsvetenskap
År
2014