En komplett databas över voteringar i Sveriges Riksdag, 1925-2022
Syftet med projektet är att göra uppgifter från samtliga omröstningar i Sveriges riksdag mellan 1925 och 1993 åtkomliga för forskarsamhället och för allmänheten. Idag är omröstningar från riksdagsåret 1993/94 tillgängliga via riksdagens hemsida. Omröstningar före 1993 förvaras i format som omöjliggör systematisk analys. Under tvåkammarriksdagen, dvs. till 1970, kommer vi att registrera omröstningar på individuell nivå i såväl riksdagens första som andra kammare. Från 1971 gör vi likadant i enkammarriksdagens enda kammare. Vi skall även samla in individuella uppgifter om kön, födelseår och partitillhörighet för riksdagsledamöterna samt specifika uppgifter för varje omröstning. Vad gäller voteringarna kommer vi att utgå från riksdagsbibliotekets digitala arkiv, där omröstningarna är arkiverade i fyra olika format, och använda data-assisterad så kallad MM- och OCR-teknik för att sammanställa uppgifterna i analyserbart format. Uppgifter om riksdagsledamöterna kommer från bibliografiska lexikon samt från riksdagens databas ”Rixlex”. När det här projektet är genomfört kommer forskare, journalister och allmänheten att kunna få svar på frågor om den svenska politiska historien som tidigare inte varit möjliga att besvara. Till exempel kommer regeringens dagordningsmakt i lagstiftningsprocessen kunna studeras under olika politiska omständigheter och frågor om partidisciplin, ideologiska idealpositioner och polarisering kommer att kunna besvaras bättre än tidigare.
Slutredovisning
• Infrastrukturens syfte samt utveckling.
Varje år fattar Riksdagen ca 2500 beslut, varav ca 25% efter votering. Varje individuell riksdagsledamots röst – ja, nej eller avstår, samt om ledamoten var frånvarande – har registrerats offentligt sedan 1925. Idag är data på ledamotsnivå för dessa omröstningar tillgängliga via riksdagens hemsida från riksdagsåret 1993/94. Omröstningarna före 1993 förvaras dock i format som omöjliggör systematisk analys.
Syftet med detta infrastrukturprojekt har varit att göra uppgifter från samtliga omröstningar i Sveriges riksdag mellan 1925 och 1992/93 åtkomliga för forskarsamhället och för allmänheten. Vid sidan om data om hur varje enskild ledamot röstat skulle data tas fram om vad röstningen gällde (vilket utskottsbetänkande mm), samt om partitillhörighet, kön och födelseår för varje riksdagsledamot.
• Projektets resultat hittills, och ett resonemang om dessa.
I ansökan formulerade vi fyra olika ”work packages” (WP). Det första WP:t handlade om att manuellt koda in voteringarna under perioden 1925-1934, eftersom dessa registrerats i handskrivna liggare som inte lämpades för systematisk dataavläsning. Detta är redan avklarat. Det andra WP:t handlade om att samla in data om partitillhörighet, kön, födelseår och plats/bänknummer på alla riksdagsledamöter 1925-1993. Detta arbete pågår i samarbete med det RJ-finansierade infrastrukturprojektet Swerik och är fullbordat för perioden 1971-1993. Det tredje WP:t handlade om att genom automatisk avläsning omvandla voteringarna 1935-1993 till databasformat. Denna arbetsuppgift har delats upp i tre delpaket: (a) ett som handlat om OCR-avläsning för perioden 1983-1993, vilket är fullbordat; (b) ett som handlat om maskinell dataavläsning från fotograferade rösttavlor under perioden 1935-1983, vilket lades ut på ett externt upphandlat företag, Chalmers Teknologkonsulter AB (CTK); samt (c) ett tredje som handlat om att manuellt korrigera fel i den automatiska dataavläsningen. Resurserna räckte endast till att genomföra dessa manuella korrigering för perioden 1971-1993. Det fjärde WP:t, slutligen, handlade om att validera datan och sammanställa den. Validering på basis av stickprovsdata har redan gjorts av datan 1971-1993, med goda resultat (se nedan).
Sammanfattningsvis innebär ovanstående att vi inom kort kommer att kunna publicera den fullständiga voteringsdatan för perioden 1971-1993, vilket ger oss en komplett databas för alla omröstningar i enkammarriksdagen. Totalt har vi här sammanställt cirka 8 000 000 enskilda röster från ca 22 000 voteringar med tillhörande metadata, dvs. data om vad voteringrna handlade om (utskottsbetänkande mm). Voteringsdatan för perioden 1925-1970 (alltså tvåkammartiden) är ännu ofullständig på ledamotsnivå, antingen pga vanligt förekommande fel i röstavläsningen eller pga att länkningen till individdatan med partitillhörighet, kön och födelseår är ofullständig. En version av voteringarna under tvåkammartiden som innehåller totalerna för ja, nej, avstår och frånvarande, samt vad voteringen handlade om, kommer dock också inom kort att kunna publiceras.
• Kort om hur infrastrukturen använts samt vilken forskning som påbörjats med hjälp av infrastrukturen
Eftersom infrastrukturen ännu inte gjorts allmänt tillgänglig har ännu ingen forskning påbörjats med hjälp av infrastrukturen. Däremot har två av projektdeltagarna sökt ytterligare projektmedel som bygger på användandet av dessa data. Teorell har redan beviljats medel från Vetenskapsrådet för en jämförande studie om hur olika institutionella förhållanden kan påverka lagstiftningsarbetet i parlamentariska demokratier, medan Holmgren just nu söker medel för att undersöka regeringsmaktens effekter på lagstiftningsprocessen i Sverige. Ingen av projektansökningarna hade varit möjliga att genomföra utan förarbetet som vi gjort under det här infrastrukturprojektet och vi räknar också med att voteringsdatan kommer ligga till grund för många fler projekt i framtiden, såväl från oss själva som andra forskare.
• Oförutsedda tekniska och metodiska problem, samt avvikelser från den ursprungliga planen.
Två av projektets ”work packages” (det andra och tredje) ställdes inför större tekniska och metodologiska utmaningar än förväntat. För det första visade sig den automatiserade dataavläsningen, både den från text (1983-1993) och den från de fotograferade voteringstablåerna (1971-1983), leda till en stor andel fel. På basis av slumpmässiga stickprov var mängden fel under perioden 1935-1970 så hög som ca 14-15%, under 1971-1983 ca 4,5%, och under 1983-1993 ca 2,4%. Det ska påminnas om att detta alltså handlar om andelen fel bland de enskilda rösterna. Översatt till exempelvis en riksdag bestående av 349-350 ledamöter är detta, genomsnittligt sett, ett mycket stort antal röster som kan ha felklassificerats. Under perioden 1971-1983 höll riksdagen till exempel cirka 13 000 omröstningar. Med 349-350 ledamöter som avger en röst vardera resulterar det i cirka 4 500 000 enskilda röster. Med en felmängd på 4,5% skulle det i förlängningen ge oss cirka 200 000 felklassificerade röster bara under perioden 1971-1983. Översatt till alla enskilda röster som avgivits vid någon votering mellan 1925-1993 är antalet enormt.
För att korrigera dessa fel var vi tvungna att övergå till manuell korrigering. Denna genomfördes på två olika sätt. För perioden 1983-1993, då rösttotalerna inte kunnat OCR-avläsas, utgick vi från en beräkning av hur majoriteten av ett partis ledamöter röstat. Röster från ledamöter vars röst avvek från denna ”partilinje” kontrollerades sedan manuellt och rättades om det visade sig vara felaktiga. Ett nytt stickprovstest efter att denna metod använts visade på endast ca 0,13% återstående fel (med ett approximativt 95% konfidensintervall på 0,03%). För perioden 1971-1983 kunde vi utgå från kända rösttotaler, alltså summan av hur många ledamöter som röstat ja, nej, avstår eller varit frånvarande. Voteringarna sorterades efter den absoluta summan av dessa avvikelser och gicks sedan igenom en och en, i händelse av kraftiga avvikelser i sin helhet (så att alla 349-350 röster matades in manuellt), i händelser av mindre kraftiga avvikelser utifrån samma metod som ovan, alltså med huvudsakligt fokus på röster som avvek från partilinjen. Därefter kontrollerades att rösttotalerna stämde. Ett nytt stickprovstest efter att denna metod använts visade noll (0) återstående fel (vilket dock ska förknippas med en 95% felmarginal på upp till maximalt 0,33% fel).
Den andra oväntade metodologiska utmaningen bestod i att systematiskt koppla Swerik:s ledamotsdatabas, varifrån information om partitillhörighet, kön och födelseår hämtas, till plats/bänknummer. Dessa plats/bänknummer fanns bara delvis tillgängliga i databasformat på riksdagens hemsida, och även när så var fallet var de ofullständiga med avseende på ersättare och förändringar under en mandatperiod. Ett stort manuellt arbete fick läggas ner på att mata in och korrigera dessa stolsdata, vilket ledde till att resurserna endast räckte till att korrigera data för perioden 1971-1993 (enkammartiden).
• Infrastrukturens tillgänglighet och förhållande till krav på öppen tillgänglighet och Open Science.
Planen är fortfarande att den fullständiga voteringsdatan för perioden 1971-1993 (enkammartiden) ska tillgängliggöras bland Riksdagens öppna data. Den ofullständiga datan på voteringsnivå för perioden 1925-1970 (tvåkammartiden) kommer i stället att publiceras på en projekthemsida på Stockholms universitet (se nedan). All data som samlats in inom ramen för projektet kommer alltså att göras fritt tillgänglig för allmänheten.
• Arbetets integrering i myndigheten/organisationen, samt hur infrastrukturen ska underhållas långsiktigt.
Data för enkammartiden kan betraktas som färdig och kräver ingen framtida underhållning annat än för eventuell framtida felkorrigering. Hur denna ska organiseras kommer att diskuteras tillsammans med ansvariga på Riksdagens öppna data. Data för tvåkammartiden kommer inte kunna färdigställas med mindre än att någon söker nya projektmedel och genomför manuella korrigeringar, inklusive koppling till ledamotsdata via bänk/stolsnumer, enligt samma modell som beskrivits för enkammartiden ovan. Värt att poängtera är dock att riksdagen var betydligt mindre produktiv under tvåkammartiden än under enkammartiden. Till exempel täcker perioden 1935-1970 endast cirka 2 500 000 enskilda röster, medan perioden 1971-1993 täcker cirka 8 000 000 enskilda röster. Det kvarstående korrigeringsarbetet är följaktligen av betydligt mindre omfattning än arbetet vi redan har utfört och vi bedömer utmaningarna med tvåkammarperioden som fullt hanterbara inom ramarna för ett vanligt forskningsprojekt.
• Eventuella internationella samarbeten.
Inga i nuläget.
• Eventuella publikationer som tillkommit till följd av den forskning som bedrivits i anslutning till infrastrukturen.
Inga i nuläget.
• Länkar till egna webbsidor.
https://www.su.se/english/research/research-projects/h-data/datasets-1.610144
Varje år fattar Riksdagen ca 2500 beslut, varav ca 25% efter votering. Varje individuell riksdagsledamots röst – ja, nej eller avstår, samt om ledamoten var frånvarande – har registrerats offentligt sedan 1925. Idag är data på ledamotsnivå för dessa omröstningar tillgängliga via riksdagens hemsida från riksdagsåret 1993/94. Omröstningarna före 1993 förvaras dock i format som omöjliggör systematisk analys.
Syftet med detta infrastrukturprojekt har varit att göra uppgifter från samtliga omröstningar i Sveriges riksdag mellan 1925 och 1992/93 åtkomliga för forskarsamhället och för allmänheten. Vid sidan om data om hur varje enskild ledamot röstat skulle data tas fram om vad röstningen gällde (vilket utskottsbetänkande mm), samt om partitillhörighet, kön och födelseår för varje riksdagsledamot.
• Projektets resultat hittills, och ett resonemang om dessa.
I ansökan formulerade vi fyra olika ”work packages” (WP). Det första WP:t handlade om att manuellt koda in voteringarna under perioden 1925-1934, eftersom dessa registrerats i handskrivna liggare som inte lämpades för systematisk dataavläsning. Detta är redan avklarat. Det andra WP:t handlade om att samla in data om partitillhörighet, kön, födelseår och plats/bänknummer på alla riksdagsledamöter 1925-1993. Detta arbete pågår i samarbete med det RJ-finansierade infrastrukturprojektet Swerik och är fullbordat för perioden 1971-1993. Det tredje WP:t handlade om att genom automatisk avläsning omvandla voteringarna 1935-1993 till databasformat. Denna arbetsuppgift har delats upp i tre delpaket: (a) ett som handlat om OCR-avläsning för perioden 1983-1993, vilket är fullbordat; (b) ett som handlat om maskinell dataavläsning från fotograferade rösttavlor under perioden 1935-1983, vilket lades ut på ett externt upphandlat företag, Chalmers Teknologkonsulter AB (CTK); samt (c) ett tredje som handlat om att manuellt korrigera fel i den automatiska dataavläsningen. Resurserna räckte endast till att genomföra dessa manuella korrigering för perioden 1971-1993. Det fjärde WP:t, slutligen, handlade om att validera datan och sammanställa den. Validering på basis av stickprovsdata har redan gjorts av datan 1971-1993, med goda resultat (se nedan).
Sammanfattningsvis innebär ovanstående att vi inom kort kommer att kunna publicera den fullständiga voteringsdatan för perioden 1971-1993, vilket ger oss en komplett databas för alla omröstningar i enkammarriksdagen. Totalt har vi här sammanställt cirka 8 000 000 enskilda röster från ca 22 000 voteringar med tillhörande metadata, dvs. data om vad voteringrna handlade om (utskottsbetänkande mm). Voteringsdatan för perioden 1925-1970 (alltså tvåkammartiden) är ännu ofullständig på ledamotsnivå, antingen pga vanligt förekommande fel i röstavläsningen eller pga att länkningen till individdatan med partitillhörighet, kön och födelseår är ofullständig. En version av voteringarna under tvåkammartiden som innehåller totalerna för ja, nej, avstår och frånvarande, samt vad voteringen handlade om, kommer dock också inom kort att kunna publiceras.
• Kort om hur infrastrukturen använts samt vilken forskning som påbörjats med hjälp av infrastrukturen
Eftersom infrastrukturen ännu inte gjorts allmänt tillgänglig har ännu ingen forskning påbörjats med hjälp av infrastrukturen. Däremot har två av projektdeltagarna sökt ytterligare projektmedel som bygger på användandet av dessa data. Teorell har redan beviljats medel från Vetenskapsrådet för en jämförande studie om hur olika institutionella förhållanden kan påverka lagstiftningsarbetet i parlamentariska demokratier, medan Holmgren just nu söker medel för att undersöka regeringsmaktens effekter på lagstiftningsprocessen i Sverige. Ingen av projektansökningarna hade varit möjliga att genomföra utan förarbetet som vi gjort under det här infrastrukturprojektet och vi räknar också med att voteringsdatan kommer ligga till grund för många fler projekt i framtiden, såväl från oss själva som andra forskare.
• Oförutsedda tekniska och metodiska problem, samt avvikelser från den ursprungliga planen.
Två av projektets ”work packages” (det andra och tredje) ställdes inför större tekniska och metodologiska utmaningar än förväntat. För det första visade sig den automatiserade dataavläsningen, både den från text (1983-1993) och den från de fotograferade voteringstablåerna (1971-1983), leda till en stor andel fel. På basis av slumpmässiga stickprov var mängden fel under perioden 1935-1970 så hög som ca 14-15%, under 1971-1983 ca 4,5%, och under 1983-1993 ca 2,4%. Det ska påminnas om att detta alltså handlar om andelen fel bland de enskilda rösterna. Översatt till exempelvis en riksdag bestående av 349-350 ledamöter är detta, genomsnittligt sett, ett mycket stort antal röster som kan ha felklassificerats. Under perioden 1971-1983 höll riksdagen till exempel cirka 13 000 omröstningar. Med 349-350 ledamöter som avger en röst vardera resulterar det i cirka 4 500 000 enskilda röster. Med en felmängd på 4,5% skulle det i förlängningen ge oss cirka 200 000 felklassificerade röster bara under perioden 1971-1983. Översatt till alla enskilda röster som avgivits vid någon votering mellan 1925-1993 är antalet enormt.
För att korrigera dessa fel var vi tvungna att övergå till manuell korrigering. Denna genomfördes på två olika sätt. För perioden 1983-1993, då rösttotalerna inte kunnat OCR-avläsas, utgick vi från en beräkning av hur majoriteten av ett partis ledamöter röstat. Röster från ledamöter vars röst avvek från denna ”partilinje” kontrollerades sedan manuellt och rättades om det visade sig vara felaktiga. Ett nytt stickprovstest efter att denna metod använts visade på endast ca 0,13% återstående fel (med ett approximativt 95% konfidensintervall på 0,03%). För perioden 1971-1983 kunde vi utgå från kända rösttotaler, alltså summan av hur många ledamöter som röstat ja, nej, avstår eller varit frånvarande. Voteringarna sorterades efter den absoluta summan av dessa avvikelser och gicks sedan igenom en och en, i händelse av kraftiga avvikelser i sin helhet (så att alla 349-350 röster matades in manuellt), i händelser av mindre kraftiga avvikelser utifrån samma metod som ovan, alltså med huvudsakligt fokus på röster som avvek från partilinjen. Därefter kontrollerades att rösttotalerna stämde. Ett nytt stickprovstest efter att denna metod använts visade noll (0) återstående fel (vilket dock ska förknippas med en 95% felmarginal på upp till maximalt 0,33% fel).
Den andra oväntade metodologiska utmaningen bestod i att systematiskt koppla Swerik:s ledamotsdatabas, varifrån information om partitillhörighet, kön och födelseår hämtas, till plats/bänknummer. Dessa plats/bänknummer fanns bara delvis tillgängliga i databasformat på riksdagens hemsida, och även när så var fallet var de ofullständiga med avseende på ersättare och förändringar under en mandatperiod. Ett stort manuellt arbete fick läggas ner på att mata in och korrigera dessa stolsdata, vilket ledde till att resurserna endast räckte till att korrigera data för perioden 1971-1993 (enkammartiden).
• Infrastrukturens tillgänglighet och förhållande till krav på öppen tillgänglighet och Open Science.
Planen är fortfarande att den fullständiga voteringsdatan för perioden 1971-1993 (enkammartiden) ska tillgängliggöras bland Riksdagens öppna data. Den ofullständiga datan på voteringsnivå för perioden 1925-1970 (tvåkammartiden) kommer i stället att publiceras på en projekthemsida på Stockholms universitet (se nedan). All data som samlats in inom ramen för projektet kommer alltså att göras fritt tillgänglig för allmänheten.
• Arbetets integrering i myndigheten/organisationen, samt hur infrastrukturen ska underhållas långsiktigt.
Data för enkammartiden kan betraktas som färdig och kräver ingen framtida underhållning annat än för eventuell framtida felkorrigering. Hur denna ska organiseras kommer att diskuteras tillsammans med ansvariga på Riksdagens öppna data. Data för tvåkammartiden kommer inte kunna färdigställas med mindre än att någon söker nya projektmedel och genomför manuella korrigeringar, inklusive koppling till ledamotsdata via bänk/stolsnumer, enligt samma modell som beskrivits för enkammartiden ovan. Värt att poängtera är dock att riksdagen var betydligt mindre produktiv under tvåkammartiden än under enkammartiden. Till exempel täcker perioden 1935-1970 endast cirka 2 500 000 enskilda röster, medan perioden 1971-1993 täcker cirka 8 000 000 enskilda röster. Det kvarstående korrigeringsarbetet är följaktligen av betydligt mindre omfattning än arbetet vi redan har utfört och vi bedömer utmaningarna med tvåkammarperioden som fullt hanterbara inom ramarna för ett vanligt forskningsprojekt.
• Eventuella internationella samarbeten.
Inga i nuläget.
• Eventuella publikationer som tillkommit till följd av den forskning som bedrivits i anslutning till infrastrukturen.
Inga i nuläget.
• Länkar till egna webbsidor.
https://www.su.se/english/research/research-projects/h-data/datasets-1.610144