En orsak Vissa vetenskapliga studier kan vara felaktiga

Det finns en replikabilitetskris i vetenskap - oidentifierade "falska positiva" är genomtränger även våra toppforskningstidningar.

En falsk positiv är ett påstående att en effekt existerar när den inte är i verklighet. Ingen vet vilken andel av publicerade papper som innehåller sådana felaktiga eller överdrivna resultat, men det finns tecken på att andelen inte är liten.

Epidemiologen John Ioannidis gav den bästa förklaringen till detta fenomen i ett känt papper i 2005, provokativt titeln "Varför mest publicerade forskningsresultat är falska”. En av anledningarna till att Ioannidis gav så många falska resultat har kommit att kallas "p hacking ", som uppstår av tryckforskarna känner för att uppnå statistisk betydelse.

Vad är statistisk signifikans?

För att dra slutsatser från data är forskarna vanligtvis beroende av signifikanstest. Enkelt uttryckt betyder det att man beräknar "p värde ", vilket är sannolikheten för resultat som vårt om det verkligen inte finns någon effekt. Om p värdet är tillräckligt litet, förklaras resultatet statistiskt signifikant.

Traditionellt a p värdet mindre än .05 är kriteriet för betydelse. Om du rapporterar en p<.05, det är troligt att läsare tror att du har hittat en verklig effekt. Kanske är det dock faktiskt ingen effekt och du har rapporterat ett falskt positivt.


innerself prenumerera grafik


Många tidskrifter kommer endast att publicera studier som kan rapportera en eller flera statistiskt signifikanta effekter. Graduate studenter lär sig snabbt att uppnå den mytiska p

Detta tryck för att uppnå pp hacking.

Locket av p hacking

För att illustrera p hacking, här är ett hypotetiskt exempel.

Bruce har nyligen fullgjort en doktorand och har landat ett prestigefyllt bidrag för att bli med i ett av de bästa forskargrupperna inom sitt område. Hans första experiment går inte bra ut, men Bruce förfinar snabbt förfarandena och kör en andra studie. Det här ser mer lovande ut, men ger fortfarande inte en p värdet mindre än .05.

Övertygad om att han är på något, samlar Bruce mer data. Han bestämmer sig för att släppa några av resultaten, vilket såg helt klart ut.

Han märker då att en av hans åtgärder ger en tydligare bild, så han fokuserar på det. Några fler tweaks och Bruce identifierar äntligen en något överraskande men riktigt intressant effekt som uppnår p

Bruce försökte så svårt att hitta effekten som han kände lurade någonstans. Han kände också trycket att träffa p

Det finns bara en fångst: det fanns faktiskt ingen effekt. Trots det statistiskt signifikanta resultatet har Bruce publicerat en falsk positiv.

Bruce kände att han använde sin vetenskapliga insikt för att avslöja den lurande effekten när han tog olika steg efter att ha börjat sin studie:

  • Han samlade in ytterligare uppgifter.
  • Han släppte några data som verkade avvikande.
  • Han släppte några av sina åtgärder och fokuserade på de mest lovande.
  • Han analyserade data lite annorlunda och gjorde några ytterligare tweaks.

Problemet är att alla dessa val gjordes efter ser data. Bruce kan, omedvetet, ha varit kirsebärpickning - val och tweaking tills han fick den missbruksliga pp

Statistiker säger: Om du torterar data nog, kommer de att bekänna. Val och tweaks som gjorts efter att ha sett data är tvivelaktiga forskningspraxis. Använda dessa, medvetet eller inte, för att uppnå rätt statistiskt resultat är p hacking, vilket är en viktig anledning till att publicerade, statistiskt signifikanta resultat kan vara falska positiva.

Vilken andel av publicerade resultat är fel?

Det här är en bra fråga, och en fiendishly knepig. Ingen vet svaret, vilket sannolikt kommer att vara annorlunda inom olika forskningsområden.

En stor och imponerande försök att svara på frågan om social och kognitiv psykologi publicerades i 2015. Leds av Brian Nosek och hans kollegor vid Center for Open Science, the Replikerbarhetsprojekt: Psykologi (RP: P) hade 100-forskningsgrupper runt om i världen utför var och en noggrann replikering av ett av 100-publicerade resultat. Övergripande, ungefär 40 replikerades ganska bra, medan i omkring 60-fallen erhölls replikationsstudierna mindre eller mycket mindre effekter.

100 RP: P-replikationsstudierna rapporterade effekter som i genomsnitt var bara hälften av effekterna som rapporterades av de ursprungliga studierna. De noggrant utförda replikationerna ger noggrant uppskattningar än möjligt p hackade originalstudier, så vi kunde dra slutsatsen att de ursprungliga studierna överskattade verkliga effekter med i genomsnitt en faktor på två. Det är alarmerande!

Hur man undviker p hacking

Det bästa sättet att undvika p hacking är att undvika att göra val eller tweaks efter att ha sett data. Med andra ord undviker tvivelaktiga forskningspraxis. I de flesta fall är det bästa sättet att göra det här att använda förregistrering.

Förregistrering kräver att du i förväg förbereder en detaljerad forskningsplan, inklusive den statistiska analys som ska tillämpas på data. Då förregistrerar du planen med datumstämpel vid Open Science Framework eller något annat online-register.

Sedan genomföra undersökningen, analysera uppgifterna i enlighet med planen och rapportera resultaten, oavsett vad de är. Läsarna kan kontrollera förhandsregistrerade planer och därmed vara övertygade om att analysen specificerats i förväg, och inte p hackad. Förregistrering är en utmanande ny idé för många forskare, men sannolikt att vara framtidsvägen.

Uppskattning snarare än p värden

Frestelsen att p hack är en av de stora nackdelarna med att förlita sig på p värden. En annan är att psnarare som att det finns en effekt eller inte.

Men världen är inte svart och vitt. För att känna igen de många nyanser av grå är det mycket bättre att använda uppskattning snarare än p värden. Syftet med uppskattningen är att uppskatta storleken på en effekt - som kan vara liten eller stor, noll eller till och med negativ. När det gäller uppskattning är ett falskt positivt resultat en uppskattning som är större eller mycket större än det verkliga värdet av en effekt.

Låt oss ta en hypotetisk studie om effekten av terapi. Studien kan till exempel uppskatta att terapi i genomsnitt ger en minskning av 7-punkten i ångest. Antag att vi beräknar från våra data a konfidensintervall - En mängd osäkerhet på båda sidor av vår bästa uppskattning - av [4, 10]. Detta berättar för oss att vår uppskattning av 7 sannolikt ligger inom cirka 3 poäng på ångesteln för den sanna effekten - den verkliga genomsnittliga summan av behandlingen.

Med andra ord anger konfidensintervallet hur exakt vår uppskattning är. Att veta en sådan uppskattning och dess konfidensintervall är mycket mer informativ än någon annan p värde.

Jag hänvisar till uppskattning som en av "ny statistik". Teknikerna själva är inte nya, men för att använda dem som det viktigaste sättet att dra slutsatser från data skulle många forskare vara nya och ett stort steg framåt. Det skulle också bidra till att undvika störningar som orsakas av p dataintrång.

Om författaren

Geoff Cumming, emeritus professor, La Trobe University

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.

Relaterade böcker:

at InnerSelf Market och Amazon