Wpis z mikrobloga

Po co nam wizualizacja danych? Czy liczby mówią same za siebie?
Znakomitą odpowiedź na oba pytania daje kwartet Anscombe’a.

Ten szczwany amerykański statystyk wymyślił w 1973 roku cztery różne zestawy danych - dla każdego po 11 par zmiennych x i y.
Statystyczne podsumowanie zestawów było identyczne do kilku miejsc po przecinku. W szczególności zbiory miały te same:
- średnie x, średnie y
- wariancje x, wariancje y
- współczynnik korelacji między x i y
- równanie regresji liniowej

Cała specyfika danych ujawniała się po utworzeniu dla nich wykresów – tak bardzo różnych wizualnie.
Okazało się, że dopiero opracowanie graficzne pozwala dostrzec rzeczy nieuchwytne dla niektórych wskaźników statystycznych :)

Szczególną rolę w „manipulacji” Anscombe’a pełnią wartości skrajne (outliers). Zwróćcie uwagę na czwarty zestaw, gdzie jeden jedyny wysunięty punkt całkowicie zmienia wyniki (przede wszystkim korelacje)!

Na deser coś dla dociekliwych, czyli możliwość utworzenia własnego zestawu danych i porównania go do tworów pana Franciszka :)
https://www.geogebra.org/m/tbwXxySn - po ustawieniu na „Set 5” możemy sami zmieniać położenie punktów i próbować uzyskać statystyki zbliżone do oryginalnych.

Korzystałem z:
https://pl.wikipedia.org/wiki/Kwartet_Anscombe'a
https://www.geogebra.org

#statystyka #wizualizacja #datascience #ciekawostki #nauka

#whatadata – analiza i wizualizacja danych, statystyka, ciekawostki z półświatka Data Science ( ͡° ͜ʖ ͡°)
Pobierz w.....a - Po co nam wizualizacja danych? Czy liczby mówią same za siebie?
Znakomitą ...
źródło: comment_W3aJ8168a0Hs0bIbhCtkAn4Gk8JFrX9a.jpg
  • 4