Po co nam wizualizacja danych? Czy liczby mówią same za siebie?
Znakomitą odpowiedź na oba pytania daje kwartet Anscombe’a.

Ten szczwany amerykański statystyk wymyślił w 1973 roku cztery różne zestawy danych - dla każdego po 11 par zmiennych x i y.
Statystyczne podsumowanie zestawów było identyczne do kilku miejsc po przecinku. W szczególności zbiory miały te same:
- średnie x,
w.....a - Po co nam wizualizacja danych? Czy liczby mówią same za siebie?
Znakomitą ...

źródło: comment_W3aJ8168a0Hs0bIbhCtkAn4Gk8JFrX9a.jpg

Pobierz
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@whatadata: Najgorsze tylko jak ucza, ze założenia modelu liniowego spelnia tylko 1. zestaw, podczas gdy nawet nie jest to najlepszy fit jaki można uzyskać z tych zestawow (_)
  • Odpowiedz
Hej czy jest na wykopie ktoś kto na codzień zajmuje się analizą danych, czy też data science i używa głównie pythona? Szukam kogoś komu mogę odpłatnie zadawać różne pytania dotyczące wizualizacji danych w pythonie, bo sam stack overflow mi nie wystarcza, a jak sobie programuje to się tych pytań zbiera, a odpowiedzi na stacku nie ma. Mogę komuś płacić powiedzmy jak za konsultacje, z tym że potrzebuje kogoś kto faktycznie ogarnia to
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Za pomocą MapReduce'a chce przekształcić plik csv (by dało to co pandas.unstack(), zmiana formatu tabeli z "szerokiego" na "wąską i długą"), napisałem prosty mapper i reducer, działa, tylko że wiersze w wyniku są oddzielone pustymi liniami.
Jak można to tak zredukować, żeby otrzymać plik a'la csv, bez pustych linii?

#hadoop #python #programowanie #datascience
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#python #datascience #it #marketing #ecommerce

No XD! Marketing internetowy osiąga właśnie kolejne szczyty. Dostałem emaila od Team Anaconda, że dziękują za odwiedzenie ich stoiska na jakiejś konferencji (Gartner Data & Analytics Conference), i że dają mi pełną wersję książki (cośtam o data science). It was a pleasure to meet you. Stay in touch! i takie tam. Na konferencji oczywiście nie byłem, żadnego
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Jakie podejście można zastosować przy analizie czasu życia rekordu (jego zmian na przestrzeni czasu). Timestampy to pierwsze co przychodzi na myśl ale może jest jakieś podejście, które pomoże mi rozwiązać ten problem w sposób sprawdzony i cywilizowany. halp
#bazydanych #analiza #datascience
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

To zależy na jakim sprzęcie i - przede wszystkim - czy w ogóle o coś takiego chodzi, a nie np. tylko o jakieś statystyki ilości operacji na rekordach.
  • Odpowiedz
#datascience #praca
Mirki, może macie doświadczenie w temacie. Jakie trzeba spełniać realne wymagania, żeby startować do pracy jako data scientist, albo analityk danych? Czy status studenta informatyki wystarczy? Jakieś kursy? Lepiej dobrze programować Phyton, czy R? A może VBA wystarczy? Z SQL wystarczy umiejętność tworzenia bardziej skomplikowanych zapytań, czy coś więcej?
  • 10
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Renegat16: Data science, to też analityk, z tym że mniej się skupie na prezentowaniu danych, a bardziej na tworzeniu odpoweidniego kodu, żeby te dane jak najlepiej posegregować, wyciągnąć z nich wnioski, właśnie przy użyciu matematyki ,statystyki, informatyki.

BI analyst nie ma pojęcia za bardzo o programowaniu, a narzędzia jakich używa to Tablaeu/Power BI/ Qlikview, Excel, SQL, SAS
Data scientist będzie ogarniał więcej, pythona, zaawansowean biblioteki typu sckit-learn, seaborn, javascripta też warto
  • Odpowiedz
Do sceptyków i ludzi, którzy mają awersje do ryzyka.
Ostatnio obliczałem ryzyko związane z bitcoinem w poprzednim roku i wyszło mi, że z 95% pewnością nie osiągniemy większej straty niż 3,3%. Czyli mamy 95% szans, że inwestując milion złotych nie stracimy więcej niż 33 tysiące jednego dnia. To chyba nie tak źle.
Dla porównania akcje Tesli czyli spółki z duża kapitalizacją notowanej na amerykańśkiej giełdzie, gdzie rynek uważany jest za 'bezpieczny' przy takim samym
invtraveler - Do sceptyków i ludzi, którzy mają awersje do ryzyka.
Ostatnio obliczał...

źródło: comment_nbkMnCMNHQxhVnukZiKSIeUm5zk7aekO.jpg

Pobierz
  • 47
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Ignorantum: No ja to traktuje jako inwestycje to nie gram. Z reszta jak chcesz to w Tesle tez możesz inwestować używając dźwigni poprzez CFD czy jakieś synthetic stocks.
@zawszespoko: biore rozkład procentowych zwrotów dziennych przez rok i obliczam kwantyl 0.05
  • Odpowiedz
@invtraveler: Ogólnie żeby określić prawdopodobieństwo musisz mieć stacjonarny proces. Inaczej mówiąc rozkład prawdopodobieństwa nie zmienia się w czasie. Porównując w ten sposób zwroty założyłeś, że zwroty zarówno bitcoina jak i tesli są stacjonarne I niezależne, tzn. że rozkład zwrotów jest normalny. Jest to równoważne akceptacji hipotezy efektywnego rynku (EMH).

Jaki model to sprawa drugorzędna - o ile uwzględnia te dwa zjawiska. Celem modelu jest estymacja 'prawdziwego' rozkładu prawdopodobieństwa. O
  • Odpowiedz
Szanowne Mireczki,

Bardzo polecam http://smarterpoland.pl/index.php/2016/12/przewodnik-po-pakiecie-r-wydanie-4-0/ zaczynałem długi czas temu od wcześniejszej edycji. Bardzo dobra książka bardzo dobrze wprowadza i używa dobrych i "świeżych" pakietów-bibliotek w R.

#programowanie #rproject #datascience i troszkę #python u nas w R n-ty wyraz ciągu ma n-ty indeks. Numerujemy od 1, a nie od 0 ( ͡° ͜ʖ ͡°)
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

i troszkę #python


@kiwis: gdzie ten python? chyba tylko dlatego, że zdajesz sobie sprawę, że mógłbyś używać do tych samych celów znacznie lepszego języka, ale używasz R ( ͡° ͜ʖ ͡°)
  • Odpowiedz
http://www.wykop.pl/link/3482153/data-science-datasety-w-otwartej-bibliotece-kaggle/

Prawdziwa perła dla osób rozpoczynających przygodę z data science oraz tych którzy już w niej siedzą i szukają natchnienia. Na stronie jest duża liczba (i wciąż sie rozrasta) datasetów, które można badać. Jest również opcja przeglądania analiz innych osób.

#technologia #programowanie #naukaprogramowania #datascience #python #machinelearning
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach