Cum s-a născut ideea ciudată de „semnificație statistică”.

La mijlocul anilor 20th secolul, domeniul psihologiei a avut o problemă. În urma Proiectului Manhattan și în primele zile ale cursei spațiale, așa-numitele „științe dure” produceau rezultate tangibile, foarte mediatizate. Psihologii și alți oameni de știință socială priveau cu invidie. Rezultatele lor au fost slabe și greu de cuantificat.

Psihologii, în special, doreau o cheie schelet statistică pentru a debloca adevărate perspective experimentale. Era o povară nerealistă de pus pe statistici, dar dorința după un sigiliu matematic de aprobare a ars fierbinte. Deci, scriitorii și editorii de manuale de psihologie au creat unul și l-au numit semnificație statistică.

Prin calcularea unui singur număr din rezultatele lor experimentale, numită valoare P, cercetătorii ar putea acum considera aceste rezultate „semnificative statistic”. Asta a fost tot ce a fost nevoie pentru a pretinde – chiar dacă în mod eronat – că a fost demonstrat un efect interesant și puternic. Ideea a luat amploare, iar în curând legiuni de cercetători au raportat rezultate semnificative statistic.

Pentru a înrăutăți lucrurile, revistele de psihologie au început să publice lucrări numai dacă raportau constatări semnificative statistic, ceea ce a determinat un număr surprinzător de mare de anchetatori să-și maseze datele – fie prin jocul sistemului, fie prin trișare – pentru a ajunge sub valoarea P de 0,05 care a permis că stare. În mod inevitabil, descoperirile false și asociațiile întâmplătoare au început să prolifereze.

După cum a numit editorul unui jurnal Memorie și cunoaștere din 1993 până în 1997, Geoffrey Loftus de la Universitatea din Washington a încercat cu curaj să scoată psihologii din rutina lor statistică. La începutul mandatului său, Loftus a publicat un editorial prin care le spunea cercetătorilor să nu mai calculeze fără minte dacă rezultatele experimentale sunt semnificative statistic sau nu (SN: 5/16/13). Această practică comună a împiedicat progresul științific, a avertizat el.

Păstrați-o simplă, a sfătuit Loftus. Amintiți-vă că o imagine valorează cât o mie de calcule de semnificație statistică. În acest spirit, el a recomandat raportarea unor medii simple pentru a compara grupuri de voluntari într-un experiment de psihologie. Graficele ar putea arăta dacă scorurile indivizilor au acoperit o gamă largă sau s-au aglomerat în jurul mediei, permițând un calcul dacă scorul mediu s-ar schimba probabil puțin sau mult într-un studiu repetat. În acest fel, cercetătorii ar putea evalua, să zicem, dacă voluntarii au obținut un scor mai bun la un test de matematică dificil dacă mai întâi li s-a permis să scrie despre gândurile și sentimentele lor timp de 10 minute, față de ședința liniștită timp de 10 minute.

Loftus ar fi putut la fel de bine să fi încercat să lassoze un tren fugar. Majoritatea cercetătorilor au continuat să promoveze semnificația statistică a rezultatelor lor.

„Testarea de semnificație se referă la felul în care lumea nu este și nu spune nimic despre cum este lumea”, a spus mai târziu Loftus, privind încercarea sa de a schimba modul în care psihologii fac cercetări.

Ceea ce este remarcabil nu este doar că mijlocul anilor 20th Scriitorii și editorii de manuale de psihologie din secolul au inventat teste de semnificație dintr-un amestec de tehnici statistice contradictorii (SN: 6/7/97). De asemenea, creația lor ciudată a fost îmbrățișată de multe alte discipline în următoarele câteva decenii. Nu a contat că statisticieni și psihologi eminenți au analizat de la început testele de semnificație. Calculul inventat sa dovedit foarte popular în științele sociale, cercetarea biomedicală și epidemiologică, neuroștiință și antropologia biologică.

Foamea umană de certitudine a alimentat acea mișcare academică. Lipsiți de teorii unificatoare pentru a încadra predicții testabile, oamenii de știință care studiau mintea și alte subiecte legate de om s-au adunat în jurul unei rutine statistice. Repetarea procedurii a oferit un sentiment fals, dar reconfortant de a fi accesat adevărul. Cunoscută formal ca testarea semnificației ipotezei nule, practica presupune o ipoteză nulă (fără diferență sau nicio corelație între grupurile experimentale privind măsurile de interes) și apoi respinge acea ipoteză dacă valoarea P pentru datele observate a ieșit la mai puțin de 5% ( P < .05).

Problema este că efectuarea în mod servil a acestei proceduri îi absolvă pe cercetători de a fi nevoiți să dezvolte teorii care fac predicții specifice, falsificabile – elementele fundamentale ale științei bune. Respingerea unei ipoteze nule nu spune investigatorului nimic nou. Creează doar o oportunitate de a specula de ce ar fi putut apărea un efect. Rezultatele semnificative din punct de vedere statistic sunt rareori folosite ca rampă de lansare pentru testarea explicațiilor alternative ale acestor constatări.

Psihologul Gerd Gigerenzer, director al Centrului de alfabetizare Harding Risk din Berlin, consideră că este mai corect să se numească testarea semnificației ipotezei nule „ritualul nul”.

Iată un exemplu de ritual nul în acțiune. Un studiu din 2012 publicat în Ştiinţă a concluzionat că nivelul de credință religioasă al voluntarilor a scăzut după ce au văzut imagini cu statuia lui Auguste Rodin Ganditorul, în conformitate cu ideea că reflecția mentală îi determină pe oameni să-și pună la îndoială credința în entitățile supranaturale. În acest studiu, ipoteza nulă a prezis că credințele religioase ale voluntarilor vor rămâne aceleași, în medie, după ce vor vedea Ganditorulpresupunând că celebra sculptură nu are niciun efect asupra convingerilor spirituale ale privitorilor.

Ritualul nul a dictat ca cercetătorii să calculeze dacă diferențele de grup în ceea ce privește credințele religioase înainte și după examinarea statuii ar fi apărut întâmplător în cel mult una din 20 de încercări sau nu mai mult de 5 la sută din timp. Asta înseamnă P < .05. Prin atingerea acestui prag, rezultatul a fost etichetat semnificativ din punct de vedere statistic și, probabil, din cauza simplei întâmplări.

Dacă sună rezonabil, stai. Chiar și după ce a atins un prag arbitrar de 5% pentru semnificația statistică, studiul nu a demonstrat că spectatorii de statui își pierd religia. Cercetătorii nu au putut decât să conjecteze de ce ar putea fi așa, deoarece ritualul nul i-a forțat să presupună că nu există niciun efect. Vorbește despre alergarea în cerc.

În plus, o refacere independentă a Ganditorul Studiul nu a găsit nicio scădere semnificativă statistic a credințelor religioase în rândul privitorilor statuii gânditoare. Eșecurile frecvente în confirmarea rezultatelor semnificative din punct de vedere statistic au declanșat o criză de încredere în științele legate de ritualul nul (SN: 27/08/18).

Unele reviste solicită acum anchetatorilor să-și schimbe proiectele de cercetare și datele experimentale înainte de a trimite lucrările de cercetare pentru evaluarea inter pares. Scopul este de a descuraja falsificarea datelor și de a crește șansele de a publica rezultate care pot fi confirmate de alți cercetători.

Dar adevărata problemă constă în ritualul nul în sine, spune Gigerenzer. La începutul anilor 20th secol, și fără să calculeze vreodată semnificația statistică a nimicului, Wolfgang Köhler a dezvoltat legile Gestalt ale percepției, Jean Piaget a formulat o teorie a modului în care gândirea se dezvoltă la copii și Ivan Pavlov a descoperit principiile condiționării clasice. Acei oameni de știință de pionierat au studiat în mod obișnuit unul sau o mână de indivizi folosind tipurile de statistici simple aprobate zeci de ani mai târziu de Loftus.

Din 1940 până în 1955, psihologii preocupați să demonstreze valoarea practică a domeniului lor, în special educatorilor, au căutat un instrument obiectiv pentru a distinge realul din descoperirile întâmplătoare. În loc să recunoască faptul că există abordări statistice contradictorii, scriitorii și editorii de manuale de psihologie au combinat aceste metode în valoarea P universală, spune Gigerenzer.

O inspirație pentru ritualul nul a venit de la statisticianul britanic Ronald Fisher. Începând cu anii 1930, Fisher a conceput un tip de testare a semnificației pentru a analiza probabilitatea unei ipoteze nule, pe care un cercetător ar putea-o propune fie ca efect, fie ca fără efect. Fisher a vrut să calculeze semnificația statistică exactă asociată, de exemplu, cu utilizarea unui anumit îngrășământ considerat promițător pentru randamentul culturilor.

Aproximativ în aceeași perioadă, statisticienii Jerzy Neyman și Egon Pearson au susținut că testarea unei singure ipoteze nule este inutilă. În schimb, au insistat să determine care dintre cel puțin două ipoteze alternative a explicat cel mai bine rezultatele experimentale. Neyman și Pearson au calculat probabilitatea unui experiment de a accepta o ipoteză care este de fapt adevărată, ceva rămas neexaminat în testul ipotezei nule al lui Fisher.

Ritualul nul al psihologilor a împăturit elementele ambelor abordări într-un amestec confuz. Cercetătorii de multe ori nu realizează că rezultatele semnificative statistic nu dovedesc că a fost descoperit un efect adevărat.

Și aproximativ jumătate dintre cercetătorii medicali, biologici și psihologici chestionați presupun în mod greșit că găsirea unei semnificații statistice într-un studiu înseamnă că nu a existat un efect real. O analiză mai atentă poate dezvălui constatări în concordanță cu un efect real, mai ales atunci când rezultatele inițiale nu au ajuns la limita arbitrară pentru semnificația statistică.

Este timpul să renunțăm la ritualul nul, spune psihologul și statisticianul aplicat Richard Morey de la Universitatea Cardiff, Țara Galilor. Cercetătorii trebuie să se concentreze pe dezvoltarea de teorii ale minții și comportamentului care să conducă la predicții testabile. În acea nouă lume științifică curajoasă, anchetatorii vor alege care dintre multele instrumente statistice se potrivește cel mai bine nevoilor lor. „Statisticile oferă modalități de a-ți da seama cum să te îndoiești de ceea ce vezi”, spune Morey.

Nu există nicio îndoială că iluzia de a găsi adevărul în semnificația statistică încă atrage cercetătorii din multe domenii. Morey speră că, poate în câteva decenii, domnia erorilor ritualului nul se va încheia.