Według mnie rachunek prawdopodobieństwa to jedna z najbardziej zwodniczych dziedzin matematyki. Myślę, że wynika to głównie z tego, iż wydaje się ona intuicyjna, pytania są zwykle postawione w prostym języku powszechnym, a rozwiązania bywają zawiłe i wymagają zauważenia dodatkowych własności.
W minionym tygodniu na zajęciach z data miningu prowadzący wspomniał nam o procesie Sally Clark, który chciałbym tutaj przedstawić dodając przy tym matematyczny komentarz.
Myślę, że historia procesu jest dość dobrze opisana na serwerach polskiej Wikipedii:
//pl.wikipedia.org/wiki/Sally_Clark , więc nie będę jej tutaj przepisywał. Dodałbym jedynie, że pomimo uniewinnienia czas spędzony w więzieniu miał na życie Sally negatywny wpływ. Zmarła w 2007 roku (cztery lata po zwolnieniu) z powodu zatrucia alkoholowego.
Dlaczego profesor pediatrii Roy Meadow się mylił? Podobnie jak w poprzednich znaleziskach postaram się wszystko opisać w taki sposób, aby każdy był w stanie zrozumieć główną ideę.
W rozumowaniu Roya można doszukać się dwóch błędów.
Pierwszy z nich (o wiele łatwiejszy to wytypowania) to błędne założenie niezależności śmierci jednego dziecka od zdarzenia śmierci drugiego. Co to oznacza?
Jeżeli rozważalibyśmy dwójkę losowo wybranych noworodków na świecie, to ich śmierć łóżeczkowa faktycznie zdarzałaby się jak 1 do 8543 x 8543, czyli mniej więcej 1 do 73 milionów. Jednak w tym przypadku rozważane dzieci łączyło bardzo wiele - mieli tę samą matkę i byli wychowani w podobnych warunkach. Można się spodziewać, że te zmienne wpływają znacząco na śmierć łóżkową, a zatem nie mamy podstaw do mnożenia prawdopodobieństw. Jednakże drugi błąd Pana Meadow był o wiele gorszy.
Bardzo popularnym błędem, który tutaj także został popełniony, jest tak zwany "prosecutor's fallacy". Tak naprawdę ma on kilka odmian, a wytłumaczenie wersji popełnionej przez Roya wymaga użycia prawdopodobieństwa warunkowego, które nie wszystkim jest znane, więc nie będę się nad nim skupiał. Zaprezentuję jednak inną, prostszą odmianę "prosecutor's fallacy".
Wyobraźmy sobie sytuację, w której udało nam się odnaleźć DNA sprawcy na miejscu zbrodni i chcemy go odnaleźć. Załóżmy, że prawdopodobieństwo, iż dwa profile DNA pochodzące od innych osób będą ze sobą zgodne przez przypadek to 1 do 10000. Przeszukujemy naszą bazę osób notowanych (wielkości 20 tysięcy) i okazuje się, że znaleźliśmy tam osobę, której DNA pokrywa się z DNA sprawcy.
Jakie jest prawdopodobieństwo, iż podejrzany jest niewinny?
Większość osób odpowie że jest to jedynie 1 do 10000 i przychyli się do osądzenia podejrzanego. Niestety wszyscy, którzy tak odpowiedzą dali się zwieść intuicji. Dlaczego?
Załóżmy, że nikt z naszej bazy 20 000 nie jest sprawcą. Wtedy dla każdego DNA prawdopodobieństwo, iż zostanie ono połączone z DNA sprawcy przez przypadek to jedynie 1 do 10000. Zatem zgodnie z prawdą nie wykryjemy podobieństwa na 99,99%. Problem leży w tym, że nasza baza to aż 20 000 osób, więc prawdopodobieństwo, że zgodnie z prawdą żaden z testów nie wykryje połączenia to 99,99% do potęgi 20 000. Daje to niecałe 13,5%. To oznacza, że w naszej grupie 20 000 osób istnieje ponad 86% prawdopodobieństwo, iż przez przypadek połączymy DNA sprawcy z którymś DNA w bazie!
Z pomocą w przypadku rozwiązywania problemów związanych z "prosecutor's fallacy" przychodzi Twierdzenie Bayesa.
Osoby bardziej zainteresowane tematem zapraszam ponownie na polską Wikipedię
//pl.wikipedia.org/wiki/Twierdzenie_Bayesa . Jest tam świetnie przedstawiona teoria z bardzo klarownym przykładem na samym końcu.
Dziękuję za dotarcie do końca.
Komentarze (36)
najlepsze
Pozwolę sobie wrócić do pytania zadanego wcześniej:
To jest zupełnie inny problem, a wynik zależy od tego jaką część populacji mamy w naszej bazie. Jeśli mamy
Jeszcze tyko jedno: to nie jest "kompromis" między 86% a 0,01%. To jest zupełnie inny problem i te 86% nie mają tu nic do rzeczy.
Dosłownie :d czasem jest wszystko na kamerze, albo wiadomo kto to, a i tak nikogo nie znajdą
http://www.ted.com/talks/peter_donnelly_shows_how_stats_fool_juries.html
Jest też inna bardzo dobra prelekcja blisko tego tematu: http://www.ted.com/talks/anne_milgram_why_smart_statistics_are_the_key_to_fighting_crime.html
Heh, dobry motyw, ale to jeszcze nic. ;)
Ja "pamiętam", że w pewnym zdarzeniu uczestniczyła osoba, która (jak udało się ponad wszelką wątpliwość ustalić) w tym samym czasie przebywała jakieś 200 km od miejsca zdarzenia. ;D
Komentarz usunięty przez moderatora
Tak samo jak słynna swego czasu sprawa wylosowania w Bułgarii dwa razy pod rząd tych samych liczb w lotto. Po zdarzeniu pierwszym prawdopodobieństwo zdarzenia drugiego polegającego na wylosowaniu
A co to za różnica? Jeśliby dwoje dzieci już umarło, a było jakieś trzecie to prawdopodobieństwo jego śmierci byłoby wciąż 1:8500. To z jakiej racji prawdopodobieństwo śmierci dwójki poprzednich miałoby wynosić 1:74000000?
I prawdopodobieństwo śmierci dwóch wybranych (jeszcze żywych!) dzieci wynosi faktycznie 1:74000000. Jednakże gdy ta sama dwójka już nie żyje, to prawdopodobieństwo ich śmierci sprowadza się do prawdopodobieństwa śmierci każdego z nich z osobna.