Jak jednym prostym trikiem zwiększyć czytelność wykresu, gdy na mamy do zaprezentowania dane o skrajnie różnych wielkościach? Pomocą może służyć skala logarytmiczna.

W poniższym przykładzie skrzyżowano dwie zmienne dla różnych języków #programowanie - udział danego języka w liczbie wyszukiwań oraz wzrost/spadek zapytań rok do roku. Ponieważ różnice w udziałach są ogromne - porównajmy choćby 10% Javy do 0,03% F# - pokazanie ich na skali liniowej spowodowałoby duże zagęszczenie wartości na osi X i brak czytelności (pozdrawiam @mrauuu i @Dzwoneg ( ͡° ͜ʖ ͡°))

Zastosowanie skali logarytmicznej "rozciąga" przestrzeń z niższymi udziałami w wyszukiwaniach i zwiększa czytelność wykresu. Prezentowane wyniki trzeba rzecz jasna dobrze opisać, bo nie wszyscy konsumenci danych od
w.....a - Jak jednym prostym trikiem zwiększyć czytelność wykresu, gdy na mamy do zap...

źródło: comment_m8ybk1uN1A9hlDMDhr5hJaW97XhD1qu0.jpg

Pobierz
  • Odpowiedz
Barwna #grafika ukazująca znaczenia kolorów w różnych kulturach.
Skrzyżowano 84 wartości/idee/zjawiska z 10 obszarami cywilizacyjnymi. Widzicie pewnie sporo białych (no dobrze, bezbarwnych!) plam, ale pomysł jest ciekawy. Tradycyjnie dla lepszej rozdzielczości otwieramy w nowym oknie :)

Chętni mogą wypełnić ankietę https://www.colorcom.com/global-color-survey - z niej między innymi pochodzą dane.

#ciekawostki #wizualizacjadanych
w.....a - Barwna #grafika ukazująca znaczenia kolorów w różnych kulturach. 
Skrzyżow...

źródło: comment_dQXcyHEBKGfQ05ongBVHIh8vSfoT7Q4H.jpg

Pobierz
O ile samo BMI nie jest moim ulubionym wskaźnikiem, to zmiany w USA w ciągu 30 lat wyglądają zatrważająco. Dystrybucja w populacji cały czas względnie przypomina rozkład normalny, ale całość stopniowo przesuwa się i zwłaszcza wśród mężczyzn normą staje się "overweight".

Źródłem są dane z badań CDC, czyli Centers for Disease Control and Prevention - można samemu pogrzebać w wynikach https://www.cdc.gov/brfss/annual_data/annual_data.htm

#statystyka #zdrowie #gif #ciekawostki

PS.
w.....a - O ile samo BMI nie jest moim ulubionym wskaźnikiem, to zmiany w USA w ciągu...

źródło: comment_GkxoJ19lwClIxCtiOU77mSYbAdgUNzHF.gif

Pobierz
@Gacrux: Przecież od tego zacząłem :) BMI nie uwzględnia % udziału tłuszczu w składzie ciała, możesz wpaść nadwagę gdy jesteś muskularny.
Mimo wszystko nie sądzę, by to właśnie prawidłowy rozwój fizyczny odpowiadał za przesunięcie populacji USA w stronę wysokiego BMI.
  • Odpowiedz
@whatadata: to wszystko prędzej czy później i tak zatoczy koło i wrócimy do anorektycznego kanonu piękna ( ) swoją drogą jakie są inne wskaźniki od BMI, które bardziej odpowiadałyby prawdzie? słynne 0,7?
  • Odpowiedz
A gdyby tak badanie miejsca zbrodni zacząć od... kurzu?
Okazuje się, że bakterie w nim zawarte i ich proporcje mogą powiedzieć całkiem sporo o składzie osób przebywających w danym pomieszczeniu. Kobiety, mężczyźni, psy, koty - kogo więcej, kogo mniej?

Otwieramy w nowej karcie i sprawdzamy jakich dodatkowych lokatorów mamy w domu :)

#biologia #datascience #ciekawostki a przy okazji kolejna przyjemna #wizualizacja danych
w.....a - A gdyby tak badanie miejsca zbrodni zacząć od... kurzu?
Okazuje się, że ba...

źródło: comment_PyDtDWt5QfkWYkp086x790hKiMrWmelp.jpg

Pobierz
  • Odpowiedz
Arcyciekawa sytuacja, myślę że zakrawająca na manipulację (pewnie się nie dowiemy):

1. PiS chwali się zmianą ubóstwa skrajnego dzieci z 11,9% do 0,7% - czyli spadek o 11,2 punktów procentowych, czyli spadek o 94%.
2. PO (ustami prof. Rzońcy) podaje inne dane, akurat pod ręką jest 6%, które razem z 94% daje asumpt do twitterowych ataków.
3. ???
4. #gownoburza na temat obliczeń - https://www.wykop.pl/wpis/24910267/glowny-ekonomista-po-prof-andrzej-rzonca-liczy-pro/
w.....a - Arcyciekawa sytuacja, myślę że zakrawająca na manipulację (pewnie się nie d...

źródło: comment_s9p6ZDM5z6XNZcrZPMdqWVUYOAQuDQm6.jpg

Pobierz
Sami oceńcie, moim zdaniem to interesujący przyczynek do dyskusji o manipulacjach danymi - o tym temacie na pewno warto zrobić osobny wpis :)


@whatadata: To jest interesujący przyczynek do dyskusji o powszechnej w społeczeństwie ignorancji i braku podstawowych umiejętności matematycznych. Dr hab. Rzońca się skompromitował danymi, ale użytkownicy Twittera i Wykopu się skompromitowali ignorancją matematyczną.
  • Odpowiedz
Potęga wizualizacji danych na przykładzie (darmowego!) oprogramowania Circos. Otwieramy w nowej karcie!

Nie będę się mądrzył na temat genomu, niech ktoś z #biologia #chemia się wypowie odnośnie przydatności takich rzeczy. Natomiast ilość upakowanych danych, relacji i powiązań jest moim zdaniem powalająca, a możliwe zastosowania szerokie.

Źródło - http://circos.ca/

#
w.....a - Potęga wizualizacji danych na przykładzie (darmowego!) oprogramowania Circo...

źródło: comment_YEwnPN1lRdzI0VFlpYR5KUmNmeg994oa.jpg

Pobierz
@whatadata Wygląda równie imponująco, co mało intuicyjnie na pierwszy rzut oka. W kwestii danych przedstawionych na tym wykresie to raczej fajna ciekawostka która dobrze prezentuje złożoność analizy danych którą można przeprowadzić na tym programie.
PS. Fajny tag z analizą danych, biorę do obserwowanych i czekam na kolejne ciekawostki ( ͡° ͜ʖ ͡°)
  • Odpowiedz
Piąteczek, serwuję więc zestaw mniej lub bardziej udanych 10 żarcików z zakresu #statystyka :)
Statystycy sami o sobie!

Deviation is normal.
We feel complete and sufficient.
We are "mean" lovers.
  • Odpowiedz
Zastanawiałem się jak duży udział w wydłużeniu przeciętnego trwania życia miało zmniejszenie się śmiertelności niemowląt. Nie dotarłem jeszcze do szczegółowych liczb, ale pewną odpowiedź daje załączony wykres:
- dane z UK, powiedzmy że patrzymy na okres od 1845 roku
- poszczególne linie to oczekiwana długość życia dla osób w określonym wieku
- zmiana dla 70 latków to +5 lat życia dłużej (z 81 do 86 lat)
- zmiana dla noworodków to +41 lat życia więcej (z 40 do 81 lat)

Ładna
w.....a - Zastanawiałem się jak duży udział w wydłużeniu przeciętnego trwania życia m...

źródło: comment_8wV3EJWFq3ojbY4WEWLuWzfclCTI63EE.jpg

Pobierz
@wojteklbn: Nie. Przeciętna długość życia znacznie wydłużyła się w ciągu ostatnich 50 lat.
Spodziewana długość życia dla 20-latka, wydłużyła się o ok. 10 lat.
Biorąc to pod uwagę i uwzględniając dodatkowo zmianę struktury wiekowej społeczeństwa oznacza to tylko, że nasz system emerytalny jest w głębokiej dupie.

Ale pisowni nie przeszkadzało to w obniżce wieku emerytalnego.
  • Odpowiedz
Od kilku lat obserwuję w branży (nazwijmy ją umownie "analizą danych") trend rozwijania się interfejsów graficznych w programach analitycznych. Zaczynają wyglądać naprawdę przyjemnie, pracuje się w nich płynnie, w zasadzie bez konieczności pisania kodu. Ostatnio wpadł mi w ręce Alteryx, jedna z nowszych platform #datacience #bigdata
Wrażenia pozytywne, graficznie jest wręcz pięknie i wygodnie. Jest integracja z R, ale brakuje Pythona. Do zautomatyzowania procesów czyszczenia, przetwarzania i raportowania danych wydaje się być interesującą propozycją - choć kosztowną :)

Z drugiej strony mamy darmowe oprogramowanie, które wymaga jednak większych umiejętności kodowania. Mocne analitycznie narzędzia jak #jezykr czy wszelkie dodatki do #python nie są może tak kolorowe i gładkie, ale skuteczne i (pozornie) darmowe.

Sądzę że wszystko jak zwykle będzie rozbijać się o budżet i ludzi. Wydać 5 000 $ na roczną licencję, czy zatrudnić/wyszkolić pracowników by działali na narzędziach #opensource ?
w.....a - Od kilku lat obserwuję w branży (nazwijmy ją umownie "analizą danych") tren...

źródło: comment_qnPojIXSA6U29dfFmM2DR3Uz8S42YcWs.jpg

Pobierz
Cóż czytasz, mości książę?

Słowa, słowa, słowa.


Jaki jest Waszym zdaniem najbardziej znany cytat z Szekspira? "Być albo nie być?"
A najczęściej używana fraza, być może bez świadomości autorstwa? Zapoznałem się ostatnio z grafiką twierdzącą, że pan William wymyślił słowa tak powszechnie używane jak "operate", "manager", "investments". Mocno mnie to zdziwiło, ale o
w.....a - > Cóż czytasz, mości książę?
 Słowa, słowa, słowa.

Jaki jest Waszym zdan...

źródło: comment_EPo4rqplGT1HQWudUqYMzyE32NlrZv62.jpg

Pobierz
@whatadata: ja mysle, ze jednak takim najbardziej znanym jest wlasnie "byc albo nie byc".
Pozostale, nawet, jesli ktos kojarzy, to nie zawsze pamieta, ze to z jakiegos szekspirowskiego dzieła :)
  • Odpowiedz
@whatadata: "Być albo nie być" jest najbardziej zakorzeniony w popkulturze, a przez to najbardziej rozpoznawalny i powiedzmy najbardziej "znany". Filmy, seriale, a nawet bajki pokazują, że gdy wyciągniesz rękę i powiesz te słowa to znaczy, że jesteś aktorem bądź takiego udajesz.
  • Odpowiedz
Dziś wtręt z zakresu #malarstwo i #sztuka - jak połączyć to z #datascience ?

Bardzo proszę, oto kolory wybierane przez wielkich mistrzów na przestrzeni tysiąca lat. Na osi X oczywiście czas, na osi Y "Hue Value" (nasycenie? odcień?) + wielkość koła jako proporcja użytej barwy. Pewnie fachowcy z #grafika mogą powiedzieć coś więcej, ja kojarzę tylko hasło HSV jako bazę kolorów.

Przerost formy nad treścią, to tylko #ciekawostki ? Nie do końca, bo wykres jest interaktywny :)
Zachęcam do kliknięcia w link, każda plamka koloru odnosi się do konkretnego dzieła. Autora można więc sprawdzić, a wykres nawet edytować.
w.....a - Dziś wtręt z zakresu #malarstwo i #sztuka - jak połączyć to z #datascience ...

źródło: comment_CpBPlQPHKrjsqjAkltq72NXzrEQKuCIW.jpg

Pobierz
  • Odpowiedz
Zastanawiałem się ostatnio jak w prosty sposób wrzucić na wykresy coś co może zaciekawić tag #montypython - oto i rezultat :)

Długość życia wszystkich uczestników słynnego meczu filozofów, nałożona na oś czasu. Niebiescy oczywiście Grecy, Niemcy na czerwono, a sędziowie to zwykłe zielonki.

#filozofia #mecz #tworczoscwlasna #wizualizacja #historia humoru

w.....a - Zastanawiałem się ostatnio jak w prosty sposób wrzucić na wykresy coś co mo...

źródło: comment_owQyk1UbymgpSY4JXbhtjlgwEBiBJ338.jpg

Pobierz
Czy Tobie także marzy się praca w #datascience ? Proszę bardzo, po tym obrazku na pewno nabierzesz śmiałości!

Z samego Toolboxa znam 4/14 narzędzi, regularnie używam tylko dwóch. Na szczęście działa się w zespole :)
#nauka #machinelearning #naukaprogramowania #statystyka #wizualizacja #grafika

#whatadata – analiza i wizualizacja danych, statystyka, ciekawostki z półświatka Data Science ( ͡°
w.....a - Czy Tobie także marzy się praca w #datascience ? Proszę bardzo, po tym obra...

źródło: comment_vOsTvbJPvlEEIec0Beg4PhmixkCrUwbE.jpg

Pobierz
Proszę bardzo, po tym obrazku na pewno nabierzesz śmiałości!


@whatadata: A pewnie! Albo można skakać po polach od linii startu, albo skakać jak się chce i na co się chce. ( ͡ ͜ʖ ͡)
  • Odpowiedz
W dzisiejszym wpisie krótko o tym, jak wizualizacja danych ratowała życie już w połowie XIX wieku.

Tl;dr Jak wykryć źródło zarazy, gdy teorie dotyczące jej rozprzestrzeniania są fałszywe?

W 1954 roku w Londynie na cholerę zmarło ponad 600 osób. W tamtym czasach równie powszechnie co błędnie uważano, że za epidemię odpowiada „morowe powietrze”. John Snow, lekarz i jeden z twórców epidemiologii, drążył kwestię przyczyn rozprzestrzeniania się cholery, bo według niego fakty w żaden sposób nie potwierdzały roli powietrza. Na podstawie rozmów z mieszkańcami i świadkami doszedł do wniosku, że źródłem zarazy jest ogólnodostępna uliczna pompa. Nie potrafił tego jednak udowodnić mikroskopowymi czy chemicznymi badaniami próbek, posłużył się więc statystyką:
- wzorcami rozprzestrzeniania się cholery
w.....a - W dzisiejszym wpisie krótko o tym, jak wizualizacja danych ratowała życie j...

źródło: comment_5xKQ1EeSh3Ntrl8iNj9eyzJPn1n0vicN.jpg

Pobierz
  • Odpowiedz
Kolejna ciekawa #wizualizacja związana z historią. Tym razem śmierć wojskowych i cywilów w wyniku wojen, konfliktów i czystek.

Niektóre wymiary są dość oczywiste - czas na osi X czy wielkość koła oddającą bezwzględną liczbę ofiar. Ale zwróćcie uwagę na oś Y - czyli liczbę śmierci na 100 tysięcy ludzi. Im wyżej znajduje się dany konflikt, tym większy % ówczesnej populacji pochłonął. Wysoko mamy oczywiście obie wojny światowe, ale ładnie widać też jak ogromne straty w ludziach przyniosła wojna trzydziestoletnia. Uwaga - oś Y została przeskalowana tak, by było widać też mniejsze konflikty, które przy równomiernej skali byłyby niewidoczne.

"Cienka czerwona linia" to krocząca, 15-letnia średnia właśnie dla wartości z osi "Rate of Deaths per 100.000 People". Moim zdaniem to najbardziej przerażająca część grafiki - wygląda jakby trend właśnie miał się odbić.

Korzystałem
w.....a - Kolejna ciekawa #wizualizacja związana z historią. Tym razem śmierć wojskow...

źródło: comment_UZEY7zMxtnKx4vt7BeUsdAmDLA6kPLhc.jpg

Pobierz
Jakbyś porównał do populacji ziemi to byś zobaczyl że jest o wiele bardziej cywilizacji sensu obecnie.

A z innej beczki to w Brazylii ginie rocznie na ulicach 27000 ludzi, więcej niż w Syrii.

Per capita to nic vs Kolumbia.
  • Odpowiedz