Att rensa upp förvirring mellan korrelation och orsakssamband 

Här är ett historiskt sken som du kanske inte är medveten om. Mellan åren 1860 och 1940, när antalet metodistministrar som bor i New England ökade, så mängdes också mängden kubanskt rum in i Boston - och de ökade båda på ett extremt liknande sätt. Således måste metodistministrar ha köpt mycket rom under den tidsperioden!

Egentligen nej, det är en dum slutsats att dra. Det som verkligen händer är att båda kvantiteterna - metodistministrarna och kubanska rummen - drevs uppåt av andra faktorer, till exempel befolkningstillväxt.

När vi nått den felaktiga slutsatsen har vi gjort alltför vanligt misstaget av förvirrande korrelation med orsakssamband.

Vad är skillnaden?

Två kvantiteter sägs vara korrelerade  om båda ökar och minskar tillsammans ("positivt korrelerade") eller om man ökar när den andra minskar och vice versa ("negativt korrelerad").

Korrelation detekteras lätt genom statistiska mätningar av Pearsons korrelationskoefficient, vilket indikerar hur tätt låst ihop de två kvantiteterna sträcker sig från -1 (helt negativt korrelerad) genom 0 (inte alls korrelerad) och upp till 1 (perfekt positivt korrelerad).


innerself prenumerera grafik


 causation1tylervigen.com

Men bara för att två kvantiteter är korrelerade betyder inte nödvändigtvis att man är direkt orsakar den andra att ändra. Korrelation innebär inte orsakssamband, precis som det molniga väder betyder inte regn, även om det omvända är sant.

Om två kvantiteter är korrelerade så kan det mycket väl vara ett verkligt orsakssamband (till exempel regnfall och paraplyförsäljning), men kanske andra variabler driver både (t.ex. piratnummer och global uppvärmning), eller det är bara en tillfällighet (som US-ostkonsumtion och kvävningar-vid-bäddblad).

Även om orsakssambandet är närvarande måste vi vara försiktiga att inte blanda orsaken med effekten, annars kan vi till exempel dra slutsatsen att en ökad användning av värmare orsakar kallare väder.

För att skapa orsak och effekt måste vi gå längre än statistiken och leta efter separata bevis (av vetenskaplig eller historisk karaktär) och logisk resonemang. Korrelation kan leda oss till att leta efter sådant bevis i första hand, men det är inte på något sätt ett bevis i sig själv.

Subtila problem

Även om de ovanstående exemplen var uppenbart dumma, är korrelation ofta felaktig för orsakssamband på sätt som inte är direkt uppenbara i den verkliga världen. När man läser och tolkar statistik måste man vara mycket försiktig med att förstå exakt vad data och statistik innebär - och ännu viktigare, vad de är inte vilket innebär.

 causation2

Ett nytt exempel på behovet av försiktighet vid tolkning av data är spänningen tidigare i år kring det uppenbara banbrytande upptäckt av gravitationella vågor - Ett tillkännagivande som verkar ha gjorts förtid, innan alla variabler som påverkar uppgifterna redovisades.

Tyvärr är analys av statistik, sannolikheter och risker inte en färdighetsuppsättning kopplad till vår mänsklig intuition, och så är alltför lätt att ledas vilse. Hela böckerna har skrivits på de subtila sätten i vilka statistiken kan misstolkas (eller vilseledas). För att skydda dig, här är några vanliga hala statistiska problem som du borde vara medveten om:

1) Den hälsosamma arbetaren, där ibland två grupper inte kan jämföras direkt på lika villkor.

Tänk på en hypotetisk studie som jämför hälsan för en grupp kontorsarbetare med hälsan hos en grupp astronauter. Om studien inte visar någon signifikant skillnad mellan den två-nej korrelationen mellan hälsa och arbetsmiljö - ska vi dra slutsatsen att levande och arbetande i rymden inte medför några långsiktiga hälsorisker för astronauterna?

Nej! Grupperna står inte på samma sätt: Astronautkorpsskärmen söker sökanden för friska kandidater, som sedan upprätthåller en omfattande fitnessordning för att proaktivt bekämpa effekterna av att leva i "microgravity".

Vi förväntar oss därför att de ska vara betydligt hälsosammare än kontorsarbetare i genomsnitt och borde med rätta vara oroade om de inte var.

2) Kategorisering och scenmigreringseffekten - Blanda mellan grupper kan ha dramatiska effekter på statistiska resultat.

Detta är också känt som Will Rogers effekt, efter den amerikanska komikern som enligt uppgift talade:

När Okies lämnade Oklahoma och flyttade till Kalifornien ökade de den genomsnittliga intelligensnivån i båda staterna.

För att illustrera, tänk dig att dela en stor grupp vänner i en "kort" grupp och en "lång" grupp (kanske för att ordna dem för ett foto). Efter att ha gjort det är det förvånansvärt enkelt att höja den genomsnittliga höjden för båda grupperna samtidigt.

Fråga bara den kortaste personen i gruppen "lång" för att växla över till "kort" gruppen. Den "långa" -gruppen förlorar sin kortaste medlem, och dämpar därmed sin genomsnittliga höjd - men "kort" -gruppen får sin högsta medlem ännu, och får därmed också i medelhöjd.

Detta har stora konsekvenser i medicinska studier där patienter ofta sorteras i "friska" eller "ohälsosamma" grupper vid provning av en ny behandling. Om diagnostiska metoder förbättras kan vissa väldigt lite ohälsosamma patienter bli omkodade - vilket leder till att hälsoeffekterna för båda grupperna förbättras, oavsett hur effektiv (eller inte) behandlingen är.

 causation3Att välja och välja mellan data kan leda till felaktiga slutsatser. Skeptikerna ser kylningstid (blå) när data verkligen visar långvarig uppvärmning (grön). skepticalscience.com 

3) Data mining - när ett överflöd av data finns, kan bitar och bitar vara körsbärsplockade för att stödja vilken önskad slutsats som helst.

Detta är dålig statistisk praxis, men om gjort medvetet kan vara svårt att upptäcka utan kännedom om den ursprungliga, kompletta datasatsen.

Tänk på ovanstående diagram som visar två tolkningar av global uppvärmningsdata, till exempel. Eller fluorid - i små mängder är det ett av de mest effektiva förebyggande läkemedlen i historien, men den positiva effekten försvinner helt om man bara någonsin anser att giftiga kvantiteter fluorid.

Av liknande skäl är det viktigt att förfarandena för ett givet statistiskt experiment är fixade innan experimentet börjar och förblir oförändrat tills experimentet slutar.

4) Clustering - vilket kan förväntas även i helt slumpmässiga data.

Tänk på en medicinsk studie som undersöker hur en viss sjukdom, såsom cancer eller multipel skleros, är geografiskt fördelade. Om sjukdomen slår slumpmässigt (och miljön har ingen effekt), skulle vi förvänta oss att se en rad patientklyftor som en självklarhet. Om patienterna sprids ut jämnt, skulle distributionen vara mest slumpmässig!

Så närvaron av ett enda kluster, eller ett antal små kluster av fall, är helt normalt. Sofistikerade statistiska metoder behövs för att bestämma hur mycket klustring krävs för att dra slutsatsen att något i det området kan orsaka sjukdomen.

Tyvärr, vilket kluster som helst - även en icke-signifikant - gör det möjligt för en enkel (och vid första anblicken, övertygande) nyhetsrubrik.

 causation4

Statistisk analys, som alla andra kraftfulla verktyg, måste användas mycket noga - och i synnerhet måste man alltid vara försiktig när man drar slutsatser utifrån att två kvantiteter är korrelerade.

I stället måste vi alltid insistera på separata bevis för att argumentera för orsak och effekt - och att bevis kommer inte att komma i form av ett enda statistiskt nummer.

Verkligen övertygande korrelationer, säg mellan givna gener och schizofreni eller mellan a hög fet diet och hjärtsjukdom, kan visa sig vara baserad på mycket tvivelaktig metodik.

Vi är kanske som en art kognitivt illa beredd att hantera dessa frågor. Som kanadensisk pedagog Kieran Egan sätt det i sin bok Få det fel från början:

Den dåliga nyheten är att vår utveckling gav oss möjlighet att bo i små, stabila, jägare-samlare. Vi är Pleistocene människor, men våra languaged hjärnor har skapat massiva, mångkulturella, tekniskt avancerade och snabbt föränderliga samhällen för att vi bor i.

Följaktligen måste vi ständigt motstå frestelsen att se mening i chans och förvirra korrelation och orsakssamband.Avlyssningen

Den här artikeln publicerades ursprungligen den Avlyssningen
Läs ursprungliga artikeln.


Om författarna

borwein jonathanJonathan Borwein (Jon) är Laureate Professor i matematik vid University of Newcastle. Han är Laureate Professor i matematik vid University of Newcastle och chef för Center for Computer Assisted Research Mathematics och dess tillämpningar (CARMA). Han har arbetat på Carnegie-Melon, Dalhousie, Simon Fraser och Waterloo Universities och har haft två Kanada Research Chairs i datorer.

rose michaelMichael Rose är doktorand, matematisk och fysisk vetenskapsskola vid University of Newcastle. Matematik doktorand under ledning av pristagare prof. Jon Borwein vid University of Newcastle, Australien. För närvarande bistår med forskning kring tillämpning av fraktal matematik till modellering av hjärnans synapsfördelningar.

Disclosure Statement: Författarna arbetar inte för, konsulterar, äger aktier i eller får finansiering från något företag eller en organisation som skulle dra nytta av denna artikel. De har inte heller några relevanta tillhörigheter.


Rekommenderad bok:

Pengar, Sex, Krig, Karma: Anteckningar för en buddhistisk revolution
av David R. Loy.

Pengar, Sex, Krig, Karma: Anteckningar för en buddhistisk revolution av David R. Loy.David Loy har blivit en av de mest kraftfulla förespråkarna för den buddhistiska världsöversikten, och förklarar som ingen annan dess förmåga att förvandla det sociopolitiska landskapet i den moderna världen. I Pengar, Sex, Krig, Karma, han erbjuder skarpa och till och med chockerande tydliga presentationer av ofta missförstådda buddhistiska häftklamrar - Karma, självständighetens natur, orsakerna till problem på både enskilda och samhällsnivåer - och de verkliga anledningarna till vår kollektiva känsla av "aldrig tillräckligt , "om det är tid, pengar, kön, säkerhet ... även krig. Davids "buddhistiska revolution" är inget mindre än en radikal förändring av hur vi kan närma oss våra liv, vår planet, de kollektiva förvirringarna som speglar vårt språk, kultur och till och med vår andlighet.

Klicka här för mer info och / eller för att beställa den här boken på Amazon.