Spuriøse sammenhenger: Ostespising og lakendød

Statistikk er viktig. Enten du er økonom, politiker, naturviter eller bare vil vinne diskusjonen rundt middagsbordet lener vi oss ofte på statistikk. Ofte tyr vi til mer overflatiske poenger, basert på det som kalles «beskrivende statistikk». For eksempel antallet hendelser eller gjennomsnittsverdien av noe.

De som kan litt mer enn ungdomsskole-matematikken vil kanskje poengtere at enkel beskrivende statistikk kan være misvisende, og uansett ikke brukes til å si noe om årsakssammenhenger. Tenk deg at du om kompisen din diskuterer hvilket fotballag som er best til å gi unge spillere sjansen. Kompisen poengterer at laget hans har lavere gjennomsnittsalder. Men du vet at det er misvisende: Laget ditt bruker egentlig flere unggutter, men har et par veteraner som trekker opp snittet veldig. Om dere derimot sammenlignet ved bruk av median, blir bildet plutselig et annet.

Slik er det gjerne med statistikk. Statistikk er nemlig bare et redskap. Og som alle redskaper kan det brukes på en smart, hensiktsmessig måte, det kan brukes på en idiotisk måte, eller det kan til og med misbrukes.

Se for deg følgende tilfelle: På et tidspunkt har kvinner 9 % sykefravær. Menn har 6 %. Så faller sykefravær for begge kjønnene med 3 prosentpoeng frem til i dag. Strålende ikke sant? Kvinner er nå på 6 %, menn på 3 %. Åpenbart har det skjedd en positiv endring for alle. Men det er ikke overskriften i avisene. De skriver derimot «Kvinner har nå dobbelt så mye sykefravær som menn!». Det er jo ikke usant. Den relative forskjellen mellom kvinner og menn har økt, selv om den absolutte forskjellen er uendret. Problemet er at vinklingen impliserer at kvinner, i motsetning til menn, blir stadig sykere. Det omvendte er jo tilfellet! Slik kan statistikk misbrukes.

Eksempelet ovenfor virker kanskje skikkelig teit. Alle burde jo forstå at det er en misvisende fremstilling. Men nettopp eksempelet over skjedde for noen år tilbake. Statistikk misbrukes til stadighet. Og kanskje det verste tilfellet er spuriøse sammenhenger.

Griser på steiner og andre sammenhenger

En vanlig bruk av statistikk er å vise sammenhenger. De fleste har lært i grunnskolen å regne på gjennomsnitt og finne medianen i en kort tallrekke, men tyngre bruk av statistikk handler ofte om nettopp sammenhenger. Det vil si, en ønsker å finne årsak-virkning-forhold. Om A leder til B.

Mennesker er utrolig gode på å se etter mønstre. Vi er så gode at vi gjerne oppdager mønstre hvor de ikke finnes. Eller antar det må finnes mønstre (og en logisk forklaring) når ting egentlig bare er tilfeldig. Oldtidens polyteistiske religioner var i stor grad basert på nettopp dette. Slike religioner var mer enn noe annet praktiske og pragmatiske. De handlet om å gjøre byttehandler med gudene. Hvis vi gjorde denne spesifikke tjenesten for fruktbarhetsguden ville vi få mange barn og gode avlinger. Hvis vi gjorde denne spesifikke tjenesten for havguden ville vi få en rolig reise over sjøen. Alle disse tjenestene var basert på mennesker som trodde de så et mønster hvor det ikke fantes. Ett år hadde noen lagt igjen et grisekadaver på steinen på haugen over landsbyen. Og det året ble innhøstingen ekstra god. Så kanskje gudene likte grisekadaver på den steinen på akkurat den dagen, og belønnet de som la den der. Neste år plasserte landsbyboerne et grisekadaver på samme sted. Og dæven ble det ikke en strålende innhøsting igjen! Og slik gikk årene. Hver gode innhøsting var nok et bevis på at byttehandelen med gudene fungerte. Og det året avlingen feilet? Kanskje det var feil type gris? Kanskje den ikke lå riktig på steinene? De måtte bare gjøre ofringen riktig neste gang. Slike religioner var dominert av hva som kalles «orthopraxy». Riktig handling. For en måtte gjøre akkurat riktig handling for å gjøre gudene glade og få til en byttehandel.

Men selvsagt er det ikke slik at en gris på akkurat den rette steinen på akkurat den rette dagen leder til gode handlinger. Nå til dags vil de fleste fnyse av en slik sammenheng, og tenke at landsbyboerne fra oldtiden var noen skikkelige dumrianer. Det var de selvsagt ikke. De var ressurssterke og smarte som klarte å overleve uten alle våre moderne hjelpemidler. Og et av de hjelpemidlene er statistikk.

Nå til dags kan vi bruke statistikk til å kvantifisere alle mulige potensielle sammenhenger. Vi kan måle avlingen hvert eneste år, og måle forekomsten av grisekadaver på steiner på haugen på akkurat den dagen. Og så kan vi gjøre analyser som viser om disse korrelerer eller ikke. Det vil si, om avlingene blir bedre eller dårligere med eller uten grisekadaver, eller om de to beveger seg helt ulikt. Da hadde vi kanskje fort oppdaget at griseofring ikke har særlig effekt på avlingene våre.

Korrelasjon er ikke kausalitet

Så nå til dags er vi åpenbart så supersmarte og god i statistikk at vi aldri gjør slike dumme feil som dumrianene som ofret griser. Vi kan jo sjekke om ting korrelerer! Det er bare et problem. Korrelasjon er ikke kausalitet.

Korrelasjon betyr bare at to fenomener eller variabler beveger seg på samme måte. For eksempel at begge to går opp samtidig, eller at begge to går ned samtidig. Men det betyr ikke at de er relatert! Se for eksempel på denne grafen:

Skjermbilde 2020-02-23 kl. 21.23.48

Grafen viser to variabler. Den ene er hvor mye ost hver enkelt person i snitt spiser. Den andre er hvor mange mennesker som dør av å sitte fast i lakenet. De korrelerer nesten helt perfekt!

Herregud, om du spiser ost kommer du til å bli drept av lakenet ditt! Hvorfor er det ingen som snakker om dette!?

Ehh… eller kanskje ikke. Alle skjønner (forhåpentligvis) at det er absurd å tro at ostespising og lakendød er relatert. Som sagt, korrelasjon er ikke kausalitet.

Kausalitet, for å oppklare, er årsak-virknings-forhold. Hvis A og B endrer seg på samme vis, men er urelatert korrelerer de, men det er ingen kausalitet. Hvis A leder til B, derimot, er det kausalitet. For å gi et veldig enkelt eksempel: Jo mer du trykker ned gasspedalen i en bil, jo fortere kjører den. Her er det både korrelasjon og kausalitet mellom trykking av gasspedal og bilens hastighet.

Korrelasjon brukes imidlertid likevel ofte til å innebære kausalitet. Hvis A og B skjer samtidig, på samme måte, må de vel være relatert? Greit nok at ostespising og lakendød ikke hører sammen, men hva med dette: En grundig undersøkelse har vist at enkelte smådyrklinikker er mer lønnsomme enn andre. Videre analyse har vist at det er systematiske forskjeller mellom de mest og minst lønnsomme smådyrklinikkene. Den tydeligste forskjellen er at klinikker drevet av menn er langt mer lønnsomme enn de drevet av kvinner. At menn er mer konkurransedrevet og opptatt av gode resultater enn kvinner er jo ingen overraskelse, så har kan vi vel sette to streker under svaret?

Spuriøse sammenhenger

Mens noen sammenheng mellom ostespising og lakendød lett avskrives som absurd, er det ikke like lett å avfeie en slik sammenheng som den beskrevet over. Det er lett å finne en «passende historie» for hvorfor mannlige veterinærer driver en mer lønnsom business enn kvinner. For mange vil dette gjerne samsvare med tanker og ideer de allerede har om kjønnene. Da blir det selvsagt også lett å ta korrelasjonen mellom kjønn og lønnsomhet som en kausal sammenheng.

Slike hurtige slutninger kan være uheldige. Når en går nærmere inn i undersøkelsen av smådyrsklinikker finner en nemlig noe interessant. De eldste klinikkene er mest lønnsomme. Disse er også i hovedsak drevet av menn. De siste årene har det vært en overvekt av kvinner som utdanner seg til veterinærer. De yngste smådyrklinikkene er derfor i hovedsak drevet av unge, relativt nyutdannede kvinner.

Det viser seg at korrelasjonen mellom kjønn og lønnsomhet var nettopp bare en korrelasjon. Både kjønnssammensetning og lønnsomhet er nemlig drevet av en annen variabel: Alder.

Skjermbilde 2020-02-23 kl. 20.47.52

Dette er med andre ord et glimrende tilfelle av det som kalles spuriøse sammenhenger. Slike sammenhenger kan defineres slik:

En spuriøs sammenheng er korrelasjon mellom variabler som seg imellom ikke korrelerer, men likevel korrelerer fordi det finnes en bakenforliggende variabel som påvirker begge variablene.

Om en bruker statistikk uvørent og overflatisk vil en veldig ofte ende opp med spuriøse sammenhenger. Det kan gi ganske uheldige utslag: Det kan gi misvisende eller direkte feile innsikter, som igjen leder til gale beslutninger.

La oss ta et annet eksempel. NAV arrangerer jobbsøkerkurs hvor deltakerne lærer hvordan de skriver CV og motivasjonsbrev. Dette krever selvsagt ressurser og siden det er snakk om offentlige skattekroner må det være en dokumenterbar, samfunnsøkonomisk effekt av kurset. Heldigvis er dette lett, da kurset tilsynelatende utgjør et naturlig eksperiment: Det er en gruppe arbeidsledige som tar kurset og en annen som ikke tar det. Vi kan da måle hvor fort og i hvor stor grad de to gruppene finner jobb for å avgjøre effekten av kurset! Hvis kurset fungerer, vil det gi raskere jobb til en høyere andel av gruppen.

Resultatet er umiddelbart nedslående: Brukerne får verken raskere jobb eller oftere jobb i det hele tatt. Tvert imot. Det er en lavere andel som får jobb blant de som tar kurset enn de som ikke gjør det, og det går saktere. Uff, det ser ut som om jobbsøkerkurset faktisk ødelegger sjansene til å få jobb! Jobbsøkerkurset burde umiddelbart nedlegges. Og kanskje de som designet det burde få sparken for inkompetanse.

Men vent! Kanskje vi bør undersøke om dette er en spuriøs sammenheng før vi gjør noe så drastisk?

Det viser seg nemlig at det er en underliggende faktor som påvirker både deltakelse på jobbsøkerkurs og arbeidsledighet. Forenklet kan vi betegne dette «personlige karakteristikker». De som oftest deltar på jobbsøkerkurs har også lavere fullført utdannelse og mindre tidligere arbeidserfaring. Disse karakteristikkene gjør samtidig at de har det vanskeligere for å finne en jobb.

Skjermbilde 2020-02-23 kl. 20.51.12

En sivilingeniør med ti års erfaring finner gjerne en jobb på egenhånd i løpet av noen uker eller måneder, og synes kanskje også det er bortkastet å bruke tid på et jobbsøkerkurs hvor en lærer banale ting som å skrive en CV.

På den andre siden vil en person som falt fra tidlig på videregående og aldri har klart å få en fast jobb ha store problemer med å få seg en jobb, uansett hvor hardt han eller hun prøver. Denne personen har kanskje aldri lært å skrive en CV, og ser derfor jobbsøkerkurset som veldig verdifullt.

Det skjer derfor en «seleksjonseffekt». Altså er det en systematisk forskjell mellom de som tar kurset og de som ikke tar kurset, og denne forskjellen overdøver effekten av selve kurset. Å unngå eller kontrollere for seleksjonseffekter er ekstremt viktig når en gjør kvantitative studier. Hvis vi ikke gjorde dette hadde kanskje NAV sluttet med jobbsøkerkurs, og det hadde blitt enda vanskeligere for de som allerede står bakerst i køen å komme inn på arbeidsmarkedet.

Så hvordan kan vi påvise kausalitet?

Det er lett å tenke at «ok, så vi kan aldri vite noen ting om noe da?». Har en lest nok vitenskapsfilosofi er det lett å svare «tja». En viktig del av vitenskap er å forstå, anerkjenne og takle usikkerhet. Jeg er ganske sikker på at favorittfrasen til veilederen min på masteroppgaven, som underviser i økonomisk styring, er «det kommer an på».

I det daglige er vi ikke så avhengige av at alt skal være helt presist og riktig, så da slipper vi fint unna å ta snarveier og anta årsakssammenhenger uten ytterligere analyse.

Skjermbilde 2020-02-23 kl. 21.03.44
Enkelte spuriøse sammenhenger er så åpenbare at vi ikke trenger nøye analyse for å oppdage dem.

Innenfor vitenskapen er kravene imidlertid langt høyere. Målet med vitenskapen er tross alt å generere så presis ny kunnskap som mulig. Vi går til vitenskapen nettopp for å få svar på spørsmålene vi ikke kan avgjøre bare med sunn fornuft og tommelfingerregler. Og da må vi også stille høyere krav enn sunn fornuft og tommelfingerregler. Skal en avgjøre kausalitet (mellom A og B) er det derfor tre strenge krav:

  1. A og B må være korrelert (enten positivt eller negativt).
  2. Endringer i A må skje før endringer i B (dette kalles «temporal presedens»).
  3. Alle andre alternative grunner til at A og B er korrelert må utelukkes.

Så hvis vi returnerer til landsbyboerne med grisekadaveret kan det tenkes at 1. og 2. er oppfylt, i det minste over en veldig kort periode (det ene året avlingen ble ekstra god), men 3. er ikke oppfylt. Bare ved å legge grisekadaveret på steinen er det umulig å vite om nettopp dette forårsaket den gode avlingen, eller om det er én av en million andre mulige årsaker.

Punkt 3. er ofte vanskelig å oppfylle. 1. og 2. skjer på en måte av seg selv: Når du måler to variabler er de enten korrelert eller ikke, og det er temporal presedens eller ikke. Så lenge målingen er riktig vil det være ganske greit å finne dette ut med litt statistikk. 3. er ikke så enkel. Det handler om at undersøkelser må designes slik at en kan utelukke andre forklaringer (eksempelvis gjennom nøye planlagte eksperimenter) og at en sørger for tilgang til bakgrunnsdata som kan kontrolleres mot. Og selv da kreves det kreative, intelligente vurderinger fra den som gjør analysen. Et kjent sitat sier at «You can’t fix by analysis what you bungled by design». Altså, du kan ikke analysere deg frem til riktig svar, om du ikke har spurt spørsmålet på riktig måte!

Besøk fra storken

For å avrunde er det krevende å vise faktiske årsakssammenhenger. Det er ikke så enkelt at vi kan bare gjøre noen statistiske analyser og så er svaret der. Statistikk kan gi oss korrelasjoner. Dette er et viktig første steg. Vi må imidlertid fremdeles sørge for at vi stiller de riktige spørsmålene, på riktig måte, og at vi kontrollerer for alle alternativer.

Hvis vi ikke gjør det, risikerer vi å gå i en typisk felle hvor vi antar at korrelasjon er kausalitet. Det er det ikke! Bare fordi noe skjer samtidig betyr det ikke at de er relatert.

La meg avslutte med nok et eksempel. De fleste har kanskje hørt historien om hvordan det er storken som kommer med en ny lillebror eller lillesøster. Denne historien er ikke en skrøne tatt ut av løse luften. Den er veldig logisk når du tenker på det. Du ser jo flere storker rundt familier som vokser! Men dette er også en spuriøs sammenheng. Både antall storker og  antall voksende familier forklares av en annen variabel: Antall hus.

Skjermbilde 2020-02-23 kl. 21.30.57

3 kommentarer om “Spuriøse sammenhenger: Ostespising og lakendød

  1. Forfatter skriver:
    «Skal en avgjøre kausalitet (mellom A og B) er det derfor tre strenge krav:

    A og B må være korrelert (enten positivt eller negativt).
    Endringer i A må skje før endringer i B (dette kalles «temporal presedens»).
    Alle andre alternative grunner til at A og B er korrelert må utelukkes.»

    Korrelasjon måler IKKE om det eksisterer en sammenheng (i generell forstand) mellom to variabler. Man kan lett konstruere et moteksempel: La y=x^2 og regn ut korrelasjon mellom tallparene (x,y) for verdiene x = {-4,-3,-2,-1,0,1,2,3,4} (kan velge flere/færre verdier, så lenge symmetrien bevares). Corr(x,y) = 0. For hvert utfall av x vet man helt sikkert verdien på y, men ingen sammenheng fremkommer. Med andre ord, dersom x forårsaket y ville de «strenge» kravene ikke fanget opp denne kausale sammenhengen, til tross for at de tilsynelatende strengeste kravene begge var oppfylte. Altså avgjør ikke de tre kravene kausalitet!

    La meg fremme et annet aspekt (av mange) som er problematisk med korrelasjon (og derfor også de tre kravene som «avgjør» kausalitet). Anta at man studerer en tidsserie, og er interessert i den sanne korrelasjonen mellom to variabler. Anta også at krav 2 og 3 over er oppfylte. Korrelasjonen over hele tidsintervallet man er interessert i vil kunne være (og er ofte) veldig forskjellig fra korrelasjonen som fremkommer i delintervaller av det samme tidsrommet. Deler man tidsintervallet i 2 kan man eksempelvis ha 0 korrelasjon i første delintervall og korrelasjon nær 1 i andre delintervall. Er man på jakt etter effektstørrelser, og ikke bare fortegn (noe alle burde være), får man et ganske feilaktig inntrykk. Man kan ta et mer ekstremt eksempel og dele intervallet opp i f.eks. 10, med korrelasjon 0 i de 9 første delintervallene og «høy» korrelasjon i det siste. Har man funnet en kausal sammenheng fordi korrelasjonen over hele tidsintervallet er positiv, eller har man fått spuriøs korrelasjon i siste periode?

    Poengene over er ment å nyansere diskusjonen rundt kausalitet. Det finnes mange andre poenger bare på korrelasjon alene (og ikke minst hypotesetesting på koeffisienter i regresjonsanalyse, hvor svakhetene er meget underkommuniserte). For øvrig et bra innlegg med et viktig budskap! 🙂

    Liker

    1. Tusen takk for innspill, Thomas!

      Det er selvsagt mange nyanser ved dette som er vanskelig å fange opp i ett enkelt blogginnlegg, så det er flott at du supplementerer.

      Kriteriene jeg oppgav brukes gjerne spesifikt for å vise hvordan eksperimenter kan brukes for å etablere kausalitet – gjennom eksperimentdesign kan man mye lettere oppfylle (eller komme nærmere å oppfylle) det tredje kravet enn gjennom bare å observere et fenomen i ukontrollerte omgivelser.

      Kriteriene illustrerer også hvorfor man ikke kan stoppe ved å etablere en kausalitet. Poenget er nettopp at bare fordi noe beveger seg likt og etter hverandre betyr ikke at de forårsaker hverandre; de kan begge være forårsaket av noe annet, eller det hele kan være tilfeldig.

      Som du er inne på er det mange utfordringer ved korrelasjon (og andre utfordringer ved kvantitativ metode generelt), men alle nyansene kommer ikke frem skal en holde innlegget rimelig kort og uten at det blir for teknisk.

      Liker

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut /  Endre )

Google-bilde

Du kommenterer med bruk av din Google konto. Logg ut /  Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut /  Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut /  Endre )

Kobler til %s