W poniedziałek Mateusz Morawiecki z dumą ogłosił: "Dane nie kłamią. Proszę spojrzeć na wykres. Wygrywamy z epidemią! Liczba zakażeń spada!”
Ale czy aby na pewno? Czy dane podawane przez Ministerstwo Zdrowia są prawidłowe? ( ͡° ͜ʖ ͡°)
——
Słyszałeś kiedyś o prawie Benforda?
„Wyobraź sobie dane liczbowe. Spójrz na ich pierwsze liczby. Wydawałoby się, że każda cyfra – od jedynki do dziewiątki – będzie występowała mniej więcej tyle samo. Otóż nie! Okazuje się, że nieważne jakie dane z prawdziwego świata byśmy zebrali, okaże się, że liczb, które zaczynają się od cyfry jeden będzie najwięcej, a liczb, które zaczynają się od cyfry dziewięć będzie najmniej.
Ta dziwna cecha danych została odkryta przez inżyniera elektryka Franka Benforda w tysiąc dziewięćset trzydziestym ósmym roku. W ten sposób ponownie odkrył prawo sformułowane po raz pierwszy przez astronoma Simona Newcomba w 1881 roku.
Podsumowując: odkrył on, że częstotliwość z jaką występuje dana cyfra początkowa – czyli prawdopodobieństwo, że pierwsza cyfra przyjmie daną wartość – maleje wraz ze wzrostem tej wartości od 1 do 9.
Prawo Benforda mówi, że w pewnych zbiorach danych cyfra 1 pojawia się jako pierwsza w około 30% danych, cyfra 2 jest pierwsza w 17,6% danych i tak dalej:
1 - 30,1%
2 - 17,6%
3 - 12,5%
4 - 9,7%
5 - 7,9%
6 - 6,7%
7 - 5,8%
8 - 5,1%
9 - 4,6%”
Okazuje się, że prawo ma zastosowanie dla dowolnych zbiorów liczb opisujących jakieś naturalne zjawisko (przy zachowaniu odpowiedniej wielkości próby oraz w przypadku gdy dane mogą przyjmować różne rzędy wielkości) jak np. długości rzek, powierzchnie jezior, powierzchnie państw, populacje miast, wyniki wyborów, średnie zarobki w podziale na branże czy dane księgowe.
Podobno prawo to jest wykorzystywane przez urzędy skarbowe na całym świecie w celu wykrywania oszustw podatkowych, ponieważ, oszuści często wpisują losowe liczby nie uwzględniając tego, że początkowe cyfry 1 czy 2 powinny szczególnie częściej występować… :o
——
Gdy pierwszy raz o tym usłyszałem po obejrzeniu serii dokumentalnej „W świecie danych” na Netflixie pomyślałem: WOW to niesamowite - żyjemy w matrixie! Postanowiłem sprawdzić pierwsze dane liczbowe, które mi przyszły na myśl. Dane o których ostatnimi czasy mówi cała Polska. A mianowicie dane na temat zachorowań na COVID w naszym kraju, udostępnione przez Michała Rogalskiego (https://docs.google.com/spread... o którym notabene też mówi cała Polska ;)].
Okazało się, że dane pokrywają się z Rozkładem Benforda jedynie w 65%…. Pomyślałem, ech, czyli ta zasada nie działa wszędzie… Może źle to policzyłem… A może to w ogóle jakaś ściema…
—-
Jednak nie dawało mi to spokoju, zacząłem szukać czy ktoś w Polsce przeprowadzał podobne analizy w kontekście COVID, okazało się, że nie bardzo*. Zacząłem szukać za granicą, okazało się, że w okresie przejściowym między pierwszą a drugą falą, czyli w Sierpniu, nie jaki Davida Head robił podobne testy dla wszystkich krajów w oparciu o dane WHO (co ciekawe również zainspirowany tym samym dokumentem na Netflixie):https://medium.com/@davidhead/... Jakie było moje zdziwienie, że wyniki zachorowań dla aż 148 krajów są zgodne z rozkładem Benforda w ponad 90%, podczas gdy wyniki zachorowań dla Polski były zgodne jedynie w 31,8%… i uplasowało ją to UWAGA na 4 miejscu od końca pod względem wszystkich krajów, których wyniki są notowane w WHO… Zaraz przed Rosją(-11.6%), Tadżykistanem (6.8%) czy Kuwejtem (21.6%)… :o
Jednak próbka danych dotyczyła okresu od pierwszego raportowania w danym kraju, do jedynie 18 Sierpnia 2020 roku. Postanowiłem zaktualizować dane w pliku stworzonym przez Davida i co się okazało, wykresy wiele się nie zmieniły (https://docs.google.com/spread...). Polska jak w moim pierwszym pomiarze, z pokryciem na poziomie 65,3% uplasowała się tym razem na 12 miejscu OD KOŃCA (na 216 krajów), natomiast nadal aż 158 krajów osiągnęło wynik powyżej 90%! Co ciekawe Rosji również udało się poprawić wynik z -11.6%, do aktualnego 49.4%.
—-
W anglojęzycznej Wikipedii możemy znaleźć wpis (https://en.wikipedia.org/wiki/...): "Naukowcy wykazali możliwość zastosowania prawa Benforda do oceny możliwych oszustw w ujawnianiu liczb COVID-19, takich jak całkowita i codzienna potwierdzona liczba przypadków i zgonów. Badanie zasugerowało możliwe zmiany w danych dla Rosji i Iranu, ale nie dla Stanów Zjednoczonych, Brazylii, Indii, Peru, RPA, Kolumbii, Meksyku, Hiszpanii, Argentyny, Chile, Wielkiej Brytanii, Francji, Arabii Saudyjskiej, Chin, Filipiny, Belgia, Pakistan i Włochy."
—-
Nie wiem na ile Prawo Benforda jest RZECZYWIŚCIE uznawane za wiarygodny element analizy poprawności zbieranych danych, ale dosyć zadziwiający jest fakt, że jako nieliczni (właściwie jako jedyni w Europie!) w tak znaczny sposób odstajemy od niego, bliżej nam w zestawieniu do Rosji niż do Niemiec czy Wielkiej Brytanii, natomiast nikt w Polskich mediach nie wspomniał o tym ani razu (przynajmniej w internecie)… więc ja to tylko tutaj zostawię…. pod Waszą ocenę… ¯\_(ツ)_/¯
——
*Jedyna sensowna polska wzmianka o „prawo benforda covid” dla polskiego Google to wpis na stronie ambasady chińskiej, który powołuje się na to, że dane na temat zachorowań w Chinach są ZGODNE z rozkładem Benforda więc nie są zakłamane ;-) Oraz wpis na Twitterze Krzysztofa Piecha z dnia 7 Kwietnia o tym, że polskie dane są zgodne z rozkładem: https://twitter.com/krzysztof_... - i rzeczywiście na tamtą chwile były, jednak Krzysztof nie powrócił do ponownej analizy anymore…
Źródło Cytatu:
https://wszstk.wordpress.com/2...
P.S. Dane o zgonach z powodu COVID w Polsce są zbierane zgodnie z rozkładem Benforda w 97,5%
Komentarze (119)
najlepsze
Przede wszystkim: Na jakich danych była robiona analiza? Co było tym zbiorem liczb?
Dopiero wtedy można stwierdzić, czy ten zbiór liczb powinien być zgodny z rozkładem Benforda czy nie.
Po pierwsze rozkładu Benforda można się spodziewać tylko jeśli dane obejmują kilka rzędów wielkości. Jeśli tutaj przez większość badanego okresu mieliśmy wypłaszczony wykres (przez pół roku liczba nowych zachorowań wahała się od 200 do 800), to można to uznać za pół rzędu wielkości.
Po
– primo – oj kolego – pchasz się w multikonto ( ͡° ͜ʖ ͡°);
– primo-ultimo – to by świadczyło o tym, że "polski pacjent zero" był znacznie wcześniej, a od połowy lutego wiedzieli, że to jest nie do opanowania – co ciekawe taki wniosek potwierdzają wnikliwe obserwacje tego, co się dzieje w naszym umęczonym kraju.
1. Szumowski w styczniu śmiga do Włoch na narty.
2. Dworczyk i Szumowski mówią w lutym, że są doskonale przygotowani, ale w sumie to małe zagrożenie wirusem w Polsce.
3. Dopiero końcem lutego Polska zakupuje testy RT-PCR.
4. Pożar w burdelu, nie ma czym testować
Większość wyników jest w przedziale 100-999 więc zamiast rozkładu Bedforda dostajemy -+rozkład normalny z maks w średniej zchorowań.
Choćby i miasta przypominały strefę wojny.
Szkoda, że covid o tym nie wie
potem wirusa nie będzie, ale będzie trzeba się zaszczepić bo wirusa nie ma ale jest ¯\_(ツ)_/¯
0% - bulshit
Dwie wersje. Zgony i zakażenia tego samego dnia oraz zakażenia vs zgony przesunięte o 14 dni. Założenie, że tyle mija do śmierci od wyniku testu. Wszystko na ogólno dostępnych danych. Do września korelacja
@jedmar: dlaczego tego nie udostępni? Chętnie bym zerknął i pewnie nie tylko ja ( ͡° ͜ʖ ͡°)