Jak naprawić naukę?

Kilka analiz z 2005 roku zasugerowało, że większość wyników badań w dziedzinie medycyny jest fałszywa. Przegląd z 2008 wykazał, że być może w 80% artykułów z pism akademickich używa nazwy poziom istotności na określenie istotności w potocznym znaczeniu tego słowa, co jest elementarnym błędem, przed którym przestrzega każdy podręcznik statystyki. Szczegółowa analiza sprzed czterech lat wykazała, że połowa prac z zakresu neurobiologii zawiera szczególnie prostą pomyłkę statystyczną.

W tym samym roku szanowany psycholog opublikował we wiodącym piśmie badanie, w którym utrzymuje się, że wykazana została prekognicja [zjawisko paranormalne oznaczające wiedzę o zdarzeniach w przyszłości]. Edytorzy wyjaśniali, że artykuł został zaakceptowany ponieważ był napisany jasno i spełniał zwykle stosowane standardy projektowania eksperymentu i metod statystycznych.

Pisarz Jonah Lehrer, specjalizujący się w tematyce naukowej postawił pytanie: "Czy coś jest nie tak z metodą naukową?"

Tak. Jest.

To nie powinno być niespodzianką. To co nazywamy w tej chwili "nauką" nie jest najlepszym możliwym sposobem odkrywania sekretów natury; to po prostu pierwszy zestaw metod, które zebraliśmy ponieważ nie były całkowicie bezużyteczne (jak zwykle jest dowód anegdotyczny czy poleganie na autorytecie).

W miarę upływu czasu uczymy się nowych rzeczy na temat tego jak uczynić naukę lepszą. Choć starożytni Grecy trudnili się w pewnym stopniu badaniami naukowymi, niewielu z nich podjęło się sprawdzenia hipotez pod kątem modeli matematycznych przed XI-wieczną książką Optyka Ibn al-Hajsama (która zawierała także napomknienia, jakie zaklasyfikowalibyśmy dziś do Brzytwy Ockhama i pozytywizmu). Mniej więcej w tym samym czasie al-Biruni podkreślał konieczność powtarzania badań, by ograniczyć działanie przypadku i inne błędy. Galileusz wyniósł matematykę wyżej w metodzie naukowej, Bacon opisał indukcjonizm eliminacyjny, Newton pokazał siłę konsyliencji, Peirce rozjaśnił role dedukcji, indukcji i abdukcji, zaś Popper podkreślił znaczenie falsyfikacji. Odkryliśmy użyteczność recenzji naukowych, grup kontrolnych, ślepej i podwójnie ślepej próby oraz bogactwa metod statystycznych, które włączyliśmy w metodę naukową.

Na wielu płaszczyznach, najlepsza nauka uprawiana dzisiaj jest lepsza niż kiedykolwiek przedtem, ale wciąż ma problemy i większość nauki jest uprawiana słabo. Dobrą wiadomością jest to, że wiemy jakie ma problemy i znamy wiele sposobów, żeby je wyeliminować. Tym czego brakuje jest wola, by tego dokonać.

Ten artykuł nie będzie zawierał wszystkich problemów z nauką, ani wszystkich możliwych ich rozwiązań (tutaj jedna z pominiętych kwestii). Jego intencją jest przedstawienie kilku podstawowych.

Problem #1: Złudzenie publikacyjne, efekt szuflady

Kiedy badania utrzymujące, że wykazano w nim prekognicję zostało opublikowane, psycholog Richard Wiseman stworzył rejestr ogłoszeń o próbach zreplikowania tego badania.

Carl Shulman wyjaśnił to słowami:

Taki rejestr chroni przed złudzeniem publikacyjnym, wiadomo o co najmniej pięciu podejściach do zreplikowania tego badania. Mogę powiedzieć, że wszystkie próby powtórzenia eksperymentu niespodziewanie zawiodły. Tym niemniej JPSP i inne wiodące pisma psychologiczne odmówiły opublikowania wyników, powołując się na politykę niepublikowania prostych replikacji.

Z punktu widzenia pisma ta (powszechna) polityka ma uzasadnienie: nowe, odważne tezy są zwykle cytowane częściej i zwiększają prestiż pisma (który jest zależny od liczby cytowań na artykuł), nawet kiedy większość opublikowanych "odkryć" jest fałszywa, nawet pomimo niskich poziomów wartości p (wysokich poziomów istotności). To oznacza, że pisma zachęcają naukowców do czarowania danymi, by uzyskać naciągane wyniki i do niekwestionowania naciąganych wyników innych osób.


To przykład złudzenia publikacyjnego (za: Rothstein et al. 2005):

Ze złudzeniem publikacyjnym mamy do czynienia, kiedy badanie pojawiające się w literaturze jest systematycznie niereprezentatywne dla populacji wykonanych badań. Innymi słowy, kiedy badanie, z którego wynikami można się zapoznać ma inne wyniki, niż wszystkie badania, które wykonano w jego przedmiocie, pojawia się niebezpieczeństwo, że czytelnicy i recenzenci wyciągną błędne wnioski. W niektórych przypadkach ma to dramatyczne konsekwencje, np. kiedy nieskuteczne lub niebezpieczne leczenie jest mylnie postrzegane jako bezpieczne i efektywne.

Czasami złudzenie publikacyjne jest w większym stopniu celowe, czego znanym przykładem jest sprawa przeciwbólowego i przeciwzapalnego leku o nazwie Rofecoxib. Był on stosowany przez 80 milionów ludzi, a jak się okazało w późniejszym okresie, stojąca za nim firma Merck przemilczała dowody związane z ryzykiem stosowania preparatu. Koncern zmuszono do wycofania leku, ale zanim to zrobiono spowodował on od 88 do 144 tys. przypadków poważnych chorób układu krążenia.

Przykład częściowego rozwiązania

Jednym ze sposobów na zwalczenie złudzenia publikacyjnego jest to, by magazyny akceptowały tylko publikacje wyników eksperymentów, które były zarejestrowane w publicznie dostępnej bazie przed ich rozpoczęciem. To pozwoliłoby naukowcom sprawdzić, które eksperymenty były przeprowadzone, ale nigdy nie opublikowano ich wyników (być może właśnie w związku z negatywnymi rezultatami). Niektóre znamienite pisma medyczne (m.in. Lancet i JAMA) już funkcjonują na tej zasadzie, ale zwyczaj ten nie jest tak rozpowszechniony, jak mógłby być.

Problem #2: Błąd eksperymentatora

Naukowcy są ludźmi, a ludzie ulegają heurystykom i błędom poznawczym (albo w istocie ludzie heurystykami i błędami) oraz reagują na motywacje, które mogą nie sprzyjać optymalnemu dążeniu do prawdy. Powinniśmy się więc spodziewać błędów eksperymentatora w praktyce naukowej.

Istnieje wiele etapów badań, na których mogą się one pojawić (za: Sackett 1979):

1. podczas zapoznawania się z literaturą przedmiotu,
2. przy określaniu i wyborze próby do badania,
3. podczas wykonywania eksperymentu,
4. w czasie odmierzania składników i pomiaru wyników,
5. w trakcie analizy danych,
6. wnioskowaniu z nich,
8. publikowaniu wyników.

Popularne błędy opisano w innym miejscu, więc pozwolę sobie tutaj pominąć tę kwestię.

Przykład częściowego rozwiązania

Istnieje wsparcie w badaniach dla poglądu, że umiejętności związane z byciem racjonalnym są możliwe do wyuczenia. Trenowanie naukowców w rejestrowaniu błędów i pokonywaniu tych, które pojawiają się w ich myśleniu, może być pomocne w redukowaniu skali i częstości przeszkód, które spychają z kursu w ramach każdego z etapów podążania metodą naukową.

Problem #3: Zła statystyka

Pamiętam, kiedy wykładowca statystyki tłumaczył mi rozumowanie stojące za metodologią opartą o testy istotności i hipotezę zerową (NHST). Weryfikacja hipotez statystycznych wykorzystuje wartości p, które są określeniem prawdopodobieństwa uzyskania pewnych danych (przykładowo wyników doświadczenia) biorąc pod uwagę to, jaka hipoteza jest testowana. Zapytałem swojego profesora "czy nie chcemy znać prawdopodobieństwa naszej testowanej hipotezy biorąc pod uwagę dane a nie odwrotnie?". Odpowiedzią było, że to najlepsze, co możemy zrobić (ale to nie jest prawdą, o czym przekonamy się za moment).

Innym problemem w weryfikacji hipotez statystycznych jest to, że obliczamy prawdopodobieństwo otrzymywania niezwykłych wyników poprzez rozważenie czego spodziewalibyśmy się gdyby dane doświadczenie powtórzyć wielokrotnie. Ale skąd mamy wiedzieć coś na temat tych, wyobrażonych powtórzeń? Jeśli chcę wiedzieć coś na temat konkretnego trzęsienia ziemi, to powinienem wyobrazić sobie, że powtarza się kilkukrotnie? Co to w ogóle oznacza?

Próbowałem odpowiedzieć na te pytania samodzielnie, ale wszystkie moje podręczniki zakładały zasadność mylonego narzędzia jakim jest NHST. Szkoda, że nie miałem zajęć z biostatistykiem Stevenem Goodmanem, który odpowiada tak:

Wartość p nie jest prawie niczym sensownym, nad czym można by się było zastanawiać. Mówię studentom, żeby nawet nie próbowali.
Smutną prawdą jest, że błędy logiczne NHST nie są nowinkami i było o nich wiadomo od kiedy Ronald Fisher zaczął lobbować tę metodę w latach 20. W 1960 William Rozeboom odnotował:

Pomimo niesamowitego prymatu, który [NHST] osiągnęła... bazuje ona na fundamentalnym niezrozumieniu natury racjonalnego wnioskowania i jest rzadko, o ile w ogóle, odpowiednia do celów naukowych.
Istnieje znacznie więcej problemów z NHST i frekwentystyczną statystyką w ogóle, ale najważniejszym jest ten, że NHST nie wynika z aksjomatów teorii prawdopodobieństwa. To tylko worek z technikami, które zależnie od tego jak będą stosowane, doprowadzić mogą do innych wyników podczas analizowania tych samych danych – czymś co powinno mrozić krew w żyłach każdego matematyka.

Metodą wnioskowania, która rozwiązuje problemy z frekwentyzmem – oraz, co ważniejsze, wynika dedukcyjnie z aksjomatów teorii prawdopodobieństwa – jest wnioskowanie bayesowskie.

Dlaczego więc wszyscy naukowcy nie używają wnioskowania bayesowskiego zamiast frekwentystycznego? Częściowo możemy obwiniać za to gorliwość wczesnych orędowników NHST. Możemy też przypisywać sukces NHST prostemu faktowi, że kalkulacje bayesowskie mogą być znacznie trudniejsze. Na szczęście nowe oprogramowanie, takie jak WinBUGS sprawia, że komputery zajmują się większością uciążliwych kwestii.

Istnieje też problem rozpędu. Kiedy jakaś praktyka jest otaczana czcią, trudno ją ruszyć, nawet mając dobre ku temu powody. Uczestniczyłem w trzech kursach statystyki na uniwersytecie i żaden z moich podręczników nie wspominał o wnioskowaniu bayesowskim. Nie uczyłem się o niej, aż do czasu porzucenia uniwersytetu i rozpoczęcia studiowania teorii prawdopodobieństwa we własnym zakresie.

Pamiętasz o badaniach na temat prekognicji? Nie powinien dziwić fakt, że wykonano je z użyciem NHST. Późniejsza analiza bayesowska tych samych danych zaprzeczyła wyciągniętym we wspomnianej pracy wnioskom.

Przykład częściowego rozwiązania

To oczywiste: uczyć studentów teorii prawdopodobieństwa zamiast NHST, reedukować obecnych naukowców w metodach bayesowskich oraz uczynić oprogramowanie w nich stosowane łatwiejszym do użycia i powszechniejszym.

Konkluzja

Jeśli mam rację, że istnieje niedwuznaczny, łatwy do osiągnięcia sposób na poprawienie praktyki naukowej, to można sądzić, iż poszczególne wydziały, uniwersytety i prywatne instytucje badawcze (probabilistycznie) są w stanie prześcignąć swoich rywali (w kwestii rzeczywistych odkryć, a nie jedynie publikacji) przy zbliżonych zasobach.

Skonkluduję hipotezą naukową. Jeśli się nie mylę, to grupa badawcza będąca w stanie zatrudnić osoby wyszkolone w rozumowaniu bayesowskim, wyłapywaniu złudzeń publikacyjnych i błędów eksperymentatora, będzie w stanie wyłowić z obecnej literatury wartościowe fakty z zakresu medycyny, z których naukowa społeczność głównego nurtu jeszcze nie zdaje sobie sprawy.

Było to tłumaczenie tekstu How to fix science autorstwa Luka Muehlhausera, dyrektora wykonawczego Machine Intelligence Research Institute. Warto też zapoznać się z dyskusją pod oryginalnym artykułem.