Forrige7  af  22Næste

3.2. Appendiks: Livsindkomstmodel


3.2. Appendiks: Livsindkomstmodel

Indkomstforskelle måles sædvanligvis ved at sammenligne befolkningens disponible indkomster i et bestemt år. Denne metode indebærer imidler­tid en betydelig overvurdering af forskellene på personernes indkomst set i et livsperspektiv.

De fleste mennesker har således størst løbende indkomst i midten af den erhvervsaktive alder og mindre indkomst som unge og efter pensionering. Når man sammenligninger indkomsterne på tværs af hele befolkningen i et bestemt år, vil en stor del af de målte indkomstforskelle derfor afspejle, at folk befinder sig på forskellige stadier i livsforløbet, og at deres løbende indkomster varierer systematisk med alderen. Fx har unge og studerende beskedne indkomster, mens de efter afsluttet studium og som følge af arbejdserfaring kan se frem til højere indkomster. Dertil kommer tilfældige og kortvarige udsving i indkomsten som følge af midlertidig arbejdsløshed mv.

Der findes ikke statistiske oplysninger, der dækker hele livsforløb, og selv om sådanne oplysninger var tilgængelige, ville de være vanskelige at fortolke i et fremadrettet perspektiv. Den ulighed, der ville fremgå af så­danne tal, ville afspejle en række samfundsmæssige forhold, som ikke læn­gere er gældende. Eksempelvis kan nævnes et mindre udviklet velfærds­system og lavere arbejdsmarkedstilknytning blandt kvinder.

De fiktive livsforløb er dannet ved hjælp af statistisk match ud fra en fler­årig stikprøve dækkende perioden 1995 til 2002, som er korrigeret for vækst og inflation. De sammensatte livsforløb er dermed fiktive livsforløb, der tager udgangspunkt i et samfund, som det danske i den valgte perio­de, med eksempelvis faldende ledighed og stigende produktivitet. Livsfor­løbene er dannet med udgangspunkt i aldersgruppen 47 til 53-årige i 2002, for hvilke modellen dermed er repræsentativ. Den faldende ledig­hed i perioden kan således bevirke til, at ledigheden kan blive lidt højere i starten af livsforløbene, og lidt lavere i slutningen af livsforløbene, i forhold til perioden 1995 til 2002 som helhed.

Konstruktion af livsforløb ved statistisk matchning

Datagrundlaget indeholder oplysninger om indkomster, skatter, uddan­nelse mv. for perioden 1995-2002 for 10 pct. af Danmarks befolkning. Man kan således følge hvert enkelt individ i en 8-års periode, med mindre vedkommende er indvandret, udvandret, født eller død i perioden.

Princippet i statistisk match er at danne hele livsforløb ved at sammen­koble kortere dele af forskellige livsforløb. I den aktuelle analyse benyttes en række 8-årige forløb fra perioden 1995-2002. Fx skal en person, der er 18 år i 1995 (25 år i 2002), sammenkobles med en person, som er 25 år i 1995 (32 år i 2002). Herved opnås et 15-årigt forløb, som igen kan mat­ches med en person, der er 32 år i 1995. Denne proces fortsættes indtil det sammenkoblede livsforløb dækker perioden fra det 18. til det 90. år.

For at opnå så realistiske livsforløb som muligt tilstræbes, at de personer, som sammenkobles, ligner hinanden mest muligt. Derfor grupperes per­sonerne efter en række karakteristika: køn (2 grupper), antal voksne i familien (2 grupper), antal børn i husstanden (3 grupper), uddannelse (6 grupper), ejer/lejer (2 grupper) og kapitalindkomst (3 lige store grupper), jf. boks 1.



Boks 1. Grupperingsvariable

 

Personerne er delt ind i 432 grupper efter nedenstående kriterier.

Køn

    Mand

    kvinde

Antal voksne i familien

      1

      2

Antal børn i familien

      0

      1

      2 eller flere

Uddannelsesniveau

      Studerende

      Ufaglært eller uoplyst

      Faglært

      Kort videregående uddannelse

      Mellemlang videregående uddannelse

      Lang videregående uddannelse

Boligtype

      Ejerbolig

      Lejebolig mv.

Kapitalindkomst

      Lav kapitalindkomst

      Middel kapitalindkomst

      Høj kapitalindkomst

 

Når der skal findes et match til et givet 8-års forløb, vælges en person, som har samme karakteristika, og hvis disponible indkomst er så tæt som muligt på den oprindelige persons ækvivalerede disponible indkomst i overlapningsåret. Fx vil en person, som i 2002 er 26 år, enlig mandlig studerende uden børn og som bor til leje og har en lav kapitalindkomst og en ækvivaleret disponibel indkomst på 75.000 kr. blive sammenkoblet med en person, som i 1995 var en 26-årig enlig mandlig studerende uden børn, der bor til leje og har en lav kapitalindkomst og en ækvivaleret disponibel indkomst så tæt som muligt på 75.000 kr. i 2002-PL. For personer i par indebærer brugen af ækvivalerede indkomster, at det er familiens samlede indkomst (efter korrektion for stordriftsfordele) delt ligeligt ud på familie-medlemmerne, der benyttes.

Uddannelsesniveauet varierer betydeligt mellem aldersklasserne. Således er uddannelsesniveauet højst blandt den yngre del af befolkningen og lavest blandt den ældre del. Derfor er det ikke hensigtsmæssigt at tage udgangs­punkt i de 18-årige, da der i så fald vil være for få egnede match, når man kommer til de ældste aldersklasser. I stedet tages udgangspunkt i midten af aldersfordelingen, hvorved de dannede livsforløb bliver repræsentative for de midaldrende. Det gennemsnitlige uddannelsesniveau i de matchede livsforløb bliver herved lidt højere end det faktiske uddannelsesniveau i de ældste aldersklasser og lidt mindre end i de yngre aldersklasser.

Udgangspunktet for det statistiske match er personer, som var mellem 47 og 53 år i 1995, som matches med personer, der er henholdsvis yngre og ældre. I datagrundlaget er der godt 7.000 personer i hver aldersklasse, hvilket giver anledning til konstruktion af lidt mere end 50.000 indivi­duelle livsforløb. Alle livsforløb startes ved alderen 18 år eller ved indvan­dring og afsluttes, når personen dør eller ved alderen 90 år, fordi ret få personer i stikprøven er over 90 år.

I beregningerne benyttes den gennemsnitlige årlige indkomst som den gennemgående definition af livsindkomst. Hvis livsindkomsten defineres som summen af de årlige indkomster, medfører det, at personer, som dør tidligt, vil blive tildelt en lav livsindkomst, mens personer med en høj levealder vil have en høj livsindkomst. Det modsatte vil typisk være tilfæl­det, såfremt gennemsnittet af de årlige indkomster benyttes. Da indkoms­terne typisk falder ved tilbagetrækning fra arbejdsmarkedet, vil gennem­snitsindkomsten over et livsforløb alt andet lige falde med levealderen. Alternativt kan personkredsen og aldersintervallet begrænses, således at alle lever hele perioden.

Konstruktion af livsindkomster ved statistisk match er tidligere blevet benyttet af Det Økonomiske Råd og Sveriges Finansdepartement[1].

Test af livsindkomstmodellen ved Monte Carlo simulation

Som nævnt matcher livsindkomstmodellen personer, som ligner hinanden udfra følgende kriterier: Alder, indkomst, uddannelsesniveau, køn, bolig­status, kapitalindkomst, antal børn i husstanden samt antal voksne i hus­standen. Imidlertid påvirkes indkomsten også af andre forhold, som fx in­dividuelle evner, arbejdsløshed, uddannelsestype, tilfældige hændelser, konjunktursituationen osv.

En vurdering af modellens kvalitet kan bero på en empirisk analyse af de matchede livsforløb. Problemet er, at der ikke findes data, som de mat­chede livsforløb kan sammenlignes med. Eksisterende data dækker en for kort periode og afspejler tidligere samfundsforhold, der ikke længere er relevante. Da det således ikke er muligt at teste modellen med faktiske data, er det valgt at teste modellen på kunstige data, som intet har med den virkelige verden at gøre, men derimod afspejler en fiktiv verden med konstante samfundsforhold.

Ved hjælp af Monte Carlo simulation er det undersøgt, om udeladelse af to matchningskriterier med betydning for indkomsten, invaliderer model­lens resultater. Testet implementeres i 4 dele.

  1. Først konstrueres et stort antal fiktive livsforløb, dvs. data for køn, alder, uddannelse, antal voksne i familien, antal børn, kapitalind­komst og ækvivaleret disponibel indkomst i alderen 18-90 år. Da livsforløbene skal afspejle uændrede samfundsforhold, er sammen­hængen mellem matchningsvariablene og den ækvivalerede dis­ponible indkomst i en given alder den samme for alle livsforløb. Disse livsforløb kaldes de bagvedliggende kunstige livsforløb.
  2. Fra hvert af de bagvedliggende kunstige livsforløb udvælges en tilfældig 8 års periode. Tilsammen skaber disse 8 års perioder et datasæt, som svarer til det datagrundlag, der haves i den oprinde­lige stikprøve. Dette datasæt kaldes det kunstige datagrundlag.
  3. Livsindkomstmodellen implementeres på det kunstige datagrund­lag, dvs. at der dannes hele livsforløb udfra det kunstige data­grundlag ved hjælp af statistisk match. Disse livsforløb kaldes mat­chede kunstige livsforløb.
  4. Egenskaberne ved de bagvedliggende kunstige livsforløb og de matchede kunstige livsforløb kan nu sammenlignes. I det omfang de matchede kunstige livsforløb har samme egenskaber som de bagvedliggende kunstige livsforløb, kan modellen betragtes som realistisk.

For at danne de bagvedliggende kunstige livsforløb skal der fastlægges en sammenhæng mellem ækvivaleret disponibel indkomst og de bagvedlig­gende variable. Her er valgt en lineær indkomstfunktion:

Indkomst(t) =

118.000

 

+20.000*Uddannelsesniveau(t)

 

+43.000*dummy for køn(t)

 

-2.000*Antal voksne(t)

 

-5000*Antal børn(t)

 

-25.000*kapitalindkomstniveau(t)

 

+13.000*Alder(t) – 150*Alder(t)2

 

+10.000*X(t)

 

+10.000*Z(t)

hvor t angiver alderen. Indkomsten i en given alder er altså en funktion af matchningsvariablene og to ekstra variable X og Z. Koefficienterne til matchningsvariablene er beregnet ved en regression på den flerårige stikprøve. De ekstra variable er stokastiske variable med forskellig persi­stens, som antages at repræsentere fejlagtigt udeladte matchningskriterier. Koefficienterne til disse er udledt af regressionens residualer.

Dernæst vælges værdier for højresidevariablene i indkomstfunktionen (uddannelse, køn osv.) for alle livsforløb for alle aldre 18-90 år. På den flerårige stikprøve er beregnet sandsynligheder for, at værdierne af højresi­devariablene skifter i overgangen fra en alder til den næste, fx sandsyn­ligheden for at en 27-årig person med 1 barn har 2 børn som 28-årig. Aktuelt er valgt at tage udgangspunkt i de 18-årige i den flerårige stik­prøve og lade ændringer af matchningsvariablene styre af overgangssand­synlighederne for de enkelte variable.

Modellen testes for to udeladte variable, hvis indflydelse på indkomsten kan beskrives ved to ukorrelerede stokastiske første ordens differenslignin­ger:

X(t+1) = aX(t) +ex(t)

Z(t+1) = bZ(t) +ez(t)

a og b er parametre mellem 0 og 1, mens ex og ez er normalfordelte stokas­tiske variable med middelværdi 0 og varians o2.

Jo tættere a og b er på 1, desto større er persistensen i den pågældende udeladte variabel. Ved at lade differensligningernes autokorrelation og varians variere, testes modellen for forskellige typer af udeladte variable. Fx har evner en høj persistens, mens ledighed har en relativ lav persistens. Jo større variansen o2 er, desto større betydning har den pågældende varia­bel for indkomsten.

Testresultater

Livsindkomstmodellen reproducerer de aldersfordelte gennemsnits-ind­komster og aldersfordelte indkomstspredninger i de bagvedliggende kun­stige livsforløb med stor præcision uafhængig af de specifikke valg for persistens og varians på udeladte variable, jf. figur 1.

Figur 1. Aldersfordelt gennemsnitlig indkomst og spredning

a. Aldersfordelt gnst. Indkomst

b. Aldersfordelt spredning

Anm:   Udeladt variabel har høj persistens og lav varians.

Jo større korrelationen mellem indkomsten på forskellige tidspunkter i livsforløbet er, desto større bliver uligheden i livsindkomsten, alt andet lige. Det skyldes, at indkomsten vil have en større tendens til at være fast­holdt omkring et konstant niveau over en periode, dvs. relativt lave ind­komster vil forblive lave i en længere periode, og relativt høje indkomster vil forblive høje i en længere periode. Derfor er det vigtigt, at de mat­chede livsforløb udviser nogenlunde samme autokorrelation som de bag­vedliggende livsforløb. Medmindre en af de udeladte variable har en endog meget høj autokorrelation, er dette også tilfældet, jf. figur 2.



Figur 2. Autokorrelation, udeladte variable har høj eller fuldkommen persistens

a. Autokorrelation, udeladt variabel har høj persistens

b. Autokorrelation, udeladt variabel har fuldkommen persistens

Anm:   Figuren viser korrelationen mellem indkomsten som 50-årig og indkomsten på andre alderstrin.

Gini-koefficienten på livsindkomster for de bagvedliggende kunstige livs­forløb ligger mellem 10 pct. og 20 pct. alt efter egenskaberne ved de udeladte variable. For hver kombination af varians og autokorrelation be­regnes forskellen i Gini-koefficienten på livsindkomsten mellem de bag­vedliggende kunstige livsforløb og de matchede kunstige livsforløb. Uan­set om de udeladte variable har lav eller høj varians, er det kun i tilfælde med fuldkommen persistens, at Gini-koefficienten for de matchede kun­stige livesforløb afviger væsentligt fra de bagvedliggende kunstige livsfor­løb, jf. tabel 1.



Tabel 1. Afvigelse i Gini-koefficient ved forskellige kombinationer af persistens for to udeladte variable samt henholdsvis høj og lav varians

Variabel 1/ Variabel 2

Ingen persistens

Lav persistens

Høj persistens

Fuldkommen persistens

Lav varians:

Pct.enhed

Ingen persistens

-

0,7

0,6

-3,2

Lav persistens

-

-

0,6

-3,2

Høj persistens

-

-

-

-2,9

Fuldkommende persistens

-

-

-

-

Høj varians:

 

 

 

 

Ingen persistens

-

0,6

0,5

-6,1

Lav persistens

-

-

0,5

-5,9

Høj persistens

-

-

-

-5,4

Fuldkommende persistens

-

-

-

-

Anm.:  Ingen persistens: a=0 / b=0. Lav persistens: a=0,33 / b=0,33. Høj persistens: a=0,66 / b=0,66. Fuldkommen persistens: a=1 / b=1.

Monte Carlo simulationen viser, at livsindkomstmodellen er relativ ro­bust over for udeladte variable på individniveau. Dog vil modellen princi­pielt kunne undervurdere forskelle i livsindkomster med op til 6 pct.en­heder, såfremt der findes bagvedliggende variable med meget høj persi­stens, som har signifikant betydning for indkomsten, og som der ikke er taget højde for i match-grupperingen.



[1] Se Dansk Økonomi, efterår 2001 og Sveriges Finansdepartement: ”Skatter och social­försäkringar över livscykeln”, 1994 for en mere udførlig beskrivelse af metoden.


Forrige7  af  22Næste