Multivariat regressionsanalys med rang restriktioner på parametrar och med tillämpningar inom området ”Small Area Estimation"
I projektet används ovannämnda idéer när vi arbetar med bilinjära modeller, tex den klassiska tillväxtkurvemodellen av Potthoff & Roy (1964). Vi är särskilt intresserade av modellen då bakgrundinformation inkluderas. Eftersom bakgrundsinformationen kan vara omfattande är det svårt att sätta upp en exakt modell. Istället används rangrestriktioner. För de modeller som diskuteras är samtliga resultat nya.
SAE (small area estimation) har blivit populärt att använda. Ofta utnyttjas survey data som har inhämtats från stora områden. Om man vill uttala sig om små delområden är det insamlade materialet i regel otillräckligt. Däremot om man kan kombinera materialet med annan information (tex registerbaserad) och om man samtidigt kan anta relevanta statistiska modeller så finns en möjlighet att kunna utnyttja den ursprungliga övergripande undersökningen.
I detta projekt är det tänkt att utveckla multivariat rangregressionsanalys så att modellerna kan användas inom SAE området.
Syfte:
(i) Att utvidga analysen av multivariata linjära modeller till att omfatta generaliserade tillväxtkurvemodellen ("sum of profiles models") med rangrestriktioner på väntevärdes- och dispersions- parametrar.
(ii) Att tillämpa rangrestriktioner i modeller som används i studier av små områden ("Small area domain estimation").
Syftet med forskningen är att hitta relevanta estimatorer (om möjligt explicita maximum likelihood estimatorer) som i de flesta fall kommer att vara så kallade "restricted maximum likelihood" estimatorer och konstruktion av lämpliga test vilka mestadels är kopplade till testning av trender över tid i små områden.
Genomförande:
Projektet har fungerat relativt smidigt. På grund av andra arbetsuppgifter vid Stockholms universitet framsköts Tatjana von Rosen officiella startpunkt till höstterminen 2015, och den planerade aktiviteten på 70% reducerades. Dietrich von Rosens forskningsverksamhet följde den ursprungliga planen. Inom projekttiden har nio artiklar skrivits och vi har kommunicerat våra resultat på konferenser och workshops. Fortfarande finns det några oavslutade manuskript som kommer att bearbetas under det kommande året. Under årens lopp har Tatjana hjälpt till med att förbereda manuskript och hålla föredrag vid konferenser, medan Dietrich har bedrivit forskning, organiserat sessioner vid internationella konferenser, hållit inbjudna föredrag vid konferenser och workshops, samt handlett forskarstudenter.
De tre viktigaste resultaten:
(i) Vi har visat hur man kombinerar latenta processer som påverkar väntevärdet med multivariata linjära (Bilinjära) slumpeffektmodeller.
Att modellera en latent process som direkt påverkar en responsvariabel har en lång historia och modellerna benämns ofta som rangreducerad regressionsmodeller när modellernas väntevärden diskuteras. Denna del av arbetet baseras på maximum likelihood metoder som i vårt fall ger explicita skattningar. Vidare kan sägas att i vår modell fungerar latenta variabler som observerade kovariater men däremot är deras påverkan oklar och kommer därför inte heller att kunna diskuteras i detalj. Även om vi mäter hundratals vädervariabler så kan vi inte säga vilka eller hur dessa variabler påverkar till exempel växters tillväxt. Dessutom, ofta på grund av den design som används i en studie så är det naturligt att slumpeffekter ingår i modellen, exempelvis om observationsenheter är dragna från en större population. Om våra modelleringsidéer tillämpas på "små områden" kommer användningen av skattningar från t.ex. en survey undersökning att naturligen också leda till slumpmässiga effekter i modellerna.
(ii) Vi har visat hur man får explicita estimatorer i obalanserade blandade linjära modeller.
En allmän obalanserad linjär modell med två varians komponenter har studerats i detalj. Genom en särskild återsamplingsteknik visades hur de fixa effekterna kan skattas explicit. Den erhållna ickelinjära estimatorn är väntevärdesriktig och dess varians kan också bestämmas. Vi har lyckats bestämma när den föreslagna estimatorn är bättre att använda än den vanliga minsta kvadrat skattningen.
(iii) Vi har studerat små områdes modeller där både latenta variabler och linjära slumpeffekter ingår för att hantera survey data tillsammans med kovariater från "små områden".
En tillväxtkurvemodell med slumpeffekter med möjlighet att inkludera ett stort antal kovariater formulerades och studerades. Huvudtanken är att kovariaterna styrs av ett fåtal latenta processer. Prediktion av slumpmässiga effekter och "små områdes" skattningar härleddes. Den föreslagna modellen kan vara användbara för små områdesskattningar när longitudinella "surveyundersökningar" genomförs. Vi har också modellerat saknade svarsvärden, särskilt "drop outs".
Nya forskningsfrågor som har genererats av projektet:
För att kunna använda de teoretiska resultaten tillsammans med riktiga data bör man utveckla modellvalideringstekniker. I synnerhet bör residualer studeras i modeller där latenta processer förekommer. Vanligtvis definieras residualer som skillnaden mellan det observerade och predicerade värdet och man kan säga att residualerna erhålls när data jämförs med värden för de skattade modellerna. Detta kan dock inte ske i modeller med rangrestriktioner på parametrarna. Dessutom bör residualer definieras och studeras när både latenta processer och slumpmässiga effekter förekommer. Efter att residualer har erhållits kan "inflytelserika observationer" och "extremvärden" studeras. Ett utmanande problem är att uppskatta dimensionen i den latenta processen.
Projektets internationella perspektiv (projektets bidrag):
(i) Forskarstudenter
En student från Rwanda, finansierad via SIDA, har blivit klar med sin avhandling:
Innocent Ngaruye (2017) Contributions to Small Area Estimation: Using Random Effects Growth Curve Model, Linköping University;
I dag handleds Felix Wemano från Makerere University, Uganda, som också är finansierad via SIDA. Avhandlingen handlar om residualer i modeller som används för små områdesskattningar och som utvecklades av Ngaruye. I juni 2020 kommer 2 uppsatser att vara redo för inlämning.
(ii) Internationella medarbetare
Feng Li, Central University of Finance and Economics, Beijing (School of Statistics and Mathematics);
Julia Volaufova, Louisiana State University (School of Medicine);
Innocent Ngaruye, University of Rwanda (College of Sciences and Technology);
Joseph Nzabanita, University of Rwanda (School of Agriculture and Food Sciences); Chengcheng Hao, Shanghai University of International Business and Economics (School of Statistics and Information).
(iii) Arrangerade sessioner vid internationella konferenser
Organisatör av sessionen "Mixed linear models with applications to small area estimation" vid CFE-CMStatistics, London, 16-18 December, 2017.
Organisatör av sessionen "Mixed linear models analysis: new estimation methods and diagnostic tools" vid CFE-CMStatistics, Pisa, 14-16 December, 2018.
Bjudit in professor Timo Schmid att arrangera sessionen "Small Area Estimation" vid LINSTAT 2018, Bedlewo, Poland, 20-24 August, 2018.
Förmedla resultat till samhället och andra forskare:
Vi har fokuserat på att förmedla våra resultat via publicering i internationella tidskrifter och att delta i internationella konferenser och olika seminarier.