En introduksjon til statistikk for nybegynnere
Skrevet av: Simen Sørbøe Solbakken, Institutt for statsvitenskap, UiO
Verden er kompleks. For å forstå den må vi mennesker forenkle den. Vi sier ting som at «nordmenn er glad i naturen». Ved hjelp av én setning sier vi noe om mer enn fem millioner mennesker.
Statistikk er mange ulike verktøy som er utviklet av mennesker for å forenkle verden. Vi kan for eksempel finne gjennomsnittsinntekten i Norge, som er ca. 520 000 kroner. Med ett tall har vi beskrevet inntekten til mer enn fem millioner mennesker. Når vi forenkler verden, sier vi at vi analyserer.
Når vi skal undersøke noe med statistikk, må vi først samle inn informasjon om det vi vil undersøke, om det så er stater, mennesker, fugler, biler eller planeter. Å samle inn informasjon koster både tid og penger. Ofte er det heller ikke mulig å samle inn informasjon om alle vi ønsker å undersøke. Vi kan ikke spørre alle nordmenn hver gang vi skal gjennomføre en meningsmåling. På grunn av tid, penger og praktiske utfordringer må vi ofte klare oss med å undersøke noen utvalgte mennesker eller hva man nå ønsker å undersøke. I statistikk kaller vi det eller de vi faktisk undersøker, for et utvalg.
Så må man bestemme seg for hvem man skal undersøke. Tenk deg at du ønsker å undersøke hvilken by som er Norges fineste. Siden du bor i Bergen, er det mest praktisk å intervjue bergensere. Da slipper du å reise rundt i hele Norge for å samle inn informasjon. Hvilken by tror du vil bli Norges fineste ifølge undersøkelsen din? Antakeligvis Bergen. Problemet er at de du har undersøkt (bergensere), er forskjellige fra de du ønsker å si noe om (alle nordmenn). Bergenserne er ikke representative for alle nordmenn når det gjelder hvilken by som er Norges fineste. Når de vi undersøker, ikke er representative, blir heller ikke undersøkelsen representativ.
For å sikre oss at de vi undersøker, er representative, må det være tilfeldig hvem vi undersøker. Dette kaller vi et tilfeldig utvalg. Når vi bare spør noen utvalgte nordmenn, kan vi aldri være helt sikre på at de vi undersøker, er representative for alle nordmenn. Men så lenge det er tilfeldig hvem vi undersøker, kan vi være ganske sikre på at undersøkelsen er representativ for alle nordmenn. Vi kan for eksempel være 90 eller 99 prosent sikre. Dette kaller vi undersøkelsens konfidensnivå.
Når vi bare spør noen utvalgte personer, vil resultatene våre bli litt upresise. I en undersøkelse forteller feilmarginen oss hvor presise resultatene er. Hvis 10 prosent av personene vi undersøker, ville stemt på Senterpartiet, og feilmarginen er ±2 prosentpoeng, kan vi være ganske sikre på at Senterpartiets oppslutning blant alle nordmenn er mellom 8 og 12 prosent, fordi 10 prosent – 2 prosentpoeng = 8 prosent og 10 prosent + 2 prosentpoeng = 12 prosent. Hvis vi ønsker et mer presist resultat, må vi rett og slett undersøke flere personer – jo større utvalg, desto sikrere svar.
Hva kan statistikk egentlig si noe om? Vi kan for eksempel si noe om hva som er typisk for det eller de vi undersøker. Hva er den typiske alderen blant studenter? Hva er den typiske inntekten blant nordmenn? Hvor stor er en typisk planet i solsystemet vårt? I statistikk kaller vi dette for sentraltendens. Gjennomsnitt er et vanlig statistisk mål for hva som er typisk. Hvis gjennomsnittsinntekten i Norge er 520 000 kroner, kan vi si at dette er den typiske inntekten blant nordmenn. Andre statistiske mål for hva som er typisk, er median og typetall (modus).
Statistikk kan også brukes til å si noe om hvor forskjellige det eller de vi undersøker, er. Er aldersforskjellen blant studenter stor eller liten? Tjener nordmenn stort sett like mye, eller er det store inntektsforskjeller? Er planetene i solsystemet vårt omtrent like store som planeter i andre solsystemer? Hvor likt eller forskjellig noe er, kaller vi spredning. Standardavvik er et av de vanligste statistiske målene for hvor forskjellig noe er.
Når vi spør hva som er typisk, og hvor forskjellig noe er, legger vi bare vekt på ett fenomen av gangen, slik som inntekt, alder eller størrelse. Ofte ønsker vi å undersøke hvordan fenomener henger sammen. Er det slik at menn tjener mer enn kvinner? I så fall er det en sammenheng mellom to fenomener: kjønn og inntekt. Er det slik at de som røyker, oftere får kreft enn de som ikke røyker? I så fall er det en sammenheng mellom røyking og kreft.
I statistikk kaller vi ofte sammenheng mellom fenomener for korrelasjon. I det første eksempelet ovenfor er det korrelasjon mellom kjønn og inntekt. Hvis kvinner og menn tjente like mye, ville det ikke vært noen sammenheng mellom kjønn og inntekt, og dermed heller ingen korrelasjon. Hvis menn tjener mye mer enn kvinner, er sammenhengen sterk. Hvis menn tjener litt mer enn kvinner, er sammenhengen svak. Pearsons r – også kalt Pearsons produktmomentkorrelasjonskoeffisient (puh!) – er et mye brukt statistisk mål som kan fortelle oss om det er en sammenheng mellom to fenomener, og hvorvidt sammenhengen er sterk eller svak.
Sammenhenger kan ofte lure oss. Barnehageansatte bruker langt flere tamponger enn personer som ikke jobber i barnehage. Det er med andre ord en svært sterk sammenheng mellom jobb i barnehage og forbruk av tamponger. Basert på denne konklusjonen, burde miljøbevisste personer unngå å jobbe i barnehage. Problemet med denne konklusjonen, er at tampongforbruket egentlig ikke påvirkes av hvorvidt man jobber i barnehage eller ikke. Flere kvinner enn menn jobber i barnehage, og det er naturlig nok langt høyere forbruk av tamponger blant kvinner. Den egentlige sammenhengen finner vi mellom kjønn og tampongforbruk.
Sammenhengen mellom jobb i barnehage og tampongforbruk er falsk. I statistikk kaller vi falske sammenhenger for spuriøse sammenhenger. Spuriøse sammenhenger kan lure oss til å tro på falske sammenhenger – for eksempel sammenhengen mellom religion og kriminelle handlinger. Kan det tenkes at andre fenomener enn religion, som at man har flyktet fra et land med krig, er den egentlige forklaringen på kriminelle handlinger – på samme måte som at kjønn er den egentlige forklaringen på barnehageansattes tampongforbruk?
I statistikk kan vi til en viss grad undersøke om sammenhenger er falske, ved hjelp av det vi kaller regresjonsanalyse. Men selv med statistikk kan vi aldri bli helt sikre på at sammenhenger er ekte. Det bør man alltid ha i bakhodet når forskere, politikere og andre argumenterer med resultatene fra statistiske undersøkelser.
Ingen er født med ski på beina. For å bli god i langrenn må du trene. Det samme gjelder statistikk. Ingen er født med forståelse for statistikk. Statistikk kan være litt vanskelig i begynnelsen, akkurat som langrenn. Men med nok trening i statistikk åpner det seg et hav av muligheter, både i arbeidslivet og for å forstå verden. Og med ett er statistikk gøy!
Alt du nå har lest – i tillegg til veldig mye mer – blir grundig forklart i Statistikk for nybegynnere. Boken inneholder rikelig med figurer og enkle eksempler. Forklaringene er skrevet på et enkelt språk, og alle begreper blir forklart underveis. Målet med boken er å gjøre statistikk mer tilgjengelig, og den er skrevet for alle som har sitt første møte med statistikk, eller som trenger en enkel repetisjon.