#datascience to jednak podprogramiści. Zachwala pythona jaki to nie jest fajny bo można do listy wrzucić raz napis, raz liczbę, a później inną listę. A nie jak zwierzęta w C co muszą wiedzieć co chcą.
A 15 minut później się dziwi, że ramu brakuje jak ładuje kilka razy ten sam plik w różne zmienne w tym interpreterze interaktywnym.
I co z tego, że doktor z matematyki jak po słabym bootcampie,
  • 22
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#rstudio #datascience
Mireczki potrzebuję pomocy przy wczytaniu danych do R. Mam plik csv, separator to ewidentnie "," a danych nie czyta tak jak trzeba. Wpisałem komendę read.csv("nazwapliku.csv", sep = ",")
Tutaj link do danych: https://gateway.euro.who.int/en/indicators/hfa_478-5060-acute-care-hospital-beds-per-100-000/

A wywala coś takiego:
kaly7 - #Rstudio #datascience 
Mireczki potrzebuję pomocy przy wczytaniu danych do R...

źródło: comment_f04HFWSrlD2860zu60bTG7XVBcT6UY2s.jpg

Pobierz
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@kaly7 tutaj ewidentnie problem z nagłówkiem wczytywane go pliku. Przykładowo nie masz tam żadnego przecinka i nagłówek jest czytany jako jedna kolumna zaś w danych jest ich kilka. Albo zupełnie odwrotnie: po nagłówku rozpoznaje (x+y) kolumn a w danych x. Przejrzyj dokładnie nagłówek i pierwszy wiersz. Możesz ewentualnie gdzieś ustawić ignoruj pierwszy wiersz (tj nagłówek) albo ręcznie go usuń w notatniku
  • Odpowiedz
dzięki za odpowiedź, ale niestety to nie pomogło, robiłem tak jak napisałeś.


@kaly7: Gdzieś musiały zostać jeszcze jakieś wiersze z nieodpowiednią ilością kolumn. Otwórz sobie ten plik w jakimś edytorze tekstowym, albo np. w Firefoxie (przeciągnij i upuść), przeglądnij całą zawartość i usuń wszystkie nieodpowiednie linijki.
Z tego co widzę, to na samym dole też jest jakaś stopka, która nie zawiera czystych danych, tylko jakieś informacje o autorze i źródle
  • Odpowiedz
#datascience
#python

Uczę się data science i ML. Spotkałem się z czymś, czego nie do końca rozumiem. Do tej pory poprzez traintestsplit dzieliłem sobie zbiór na 2 grupy, wiadomo. Z kolei w jednej książce spotkałem się z pomysłem, aby dzielić nie na 2, ale na 3 grupy. Ta 3 miałaby być walidacyjną i miałaby służyć porównaniu z tą testową. Nie lepiej zrobić sobie pętlę z powiedzmy
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@poisonandwine: Słyszałem wiele dobrego o "Przewodniku po pakiecie R" Przemysława Bieceka. Ten pan jest takim polskim guru tego języka i ogólnie analizy danych, więc może warto przeglądnąć ten tytuł. Z tego co widzę, to autor udostępnił też tutorial w wersji on-line.

A ogólnie to polecam zerknąć na Kaggle i edX w poszukiwaniu kursów - wg. mnie da Ci to dużo więcej, niżeli kartkowanie tego typu książki.
  • Odpowiedz
@bohater: Jak nie wiąże się to z jakąś ogromną pracą do wykonania dla nich, albo z informacją cenotwórcza to raczej powinni udostępnic. Dla pewności możesz kontaktować się przez jakiegoś wykładowcę który ma tam znajomości.
  • Odpowiedz
Elo Mirki,
pracuje ktoś jako big data engineer? Łatwo się przekwalifikować z Data Scientista? Mam doświadczenie głównie w developmencie w Sparku, ale raczej Python, ok. 2 lata. W jakich językach piszecie? Dominuje Scala czy raczej Java? Jak wyglądają codzienne zadania?
#hadoop #bigdata #datascience #programowanie
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Jak wyglądają codzienne zadania?

Zrozum biznes, napisz kod tak aby dało się go utrzymać (zrozumieć, zmienić, rozwinąć). Czyli tak jak kazdy inny software engineer tylko z innymi technologiami.

W jakich językach piszecie?

Scala

Dominuje
  • Odpowiedz
@haka65: Nope, jedyne co wiem to że kod data scientistów z którymi pracowałem nie nadawał sie do niczego. Tzn wymagał przepisania od 0 gdy miał iść na produkcję. Ale to raczej nic nie znaczy w tym przypadku.

Generalnie uwazam ze nie ma się czego bać, dużo jest developerów samouków więc i DS jako DE da rade.
  • Odpowiedz
Mirki mam w #python funkcje 4 (hyper-)parametrow, w zasadzie bez zadnych constrainow, kotej wynikem jest score.
Da sie to jakos ladniej zoptymializowac niz poprzed k-fold validation? Gradient liczyc? Na pewno sa jakies gotowe rozwiazania? #machinelearning #datascience
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Cześć,

Przymierzam się do zmiany pracy ponieważ zaczynam czuć, że na obecnym stanowisku się już nie rozwijam i nie ucze nowych rzeczy, a nie chciałbym stać w miejscu i za parę lat obudzić się z ręką w nocniku.

Pokrótce obecnie zajmuje się raportingiem - na zlecenie klienta robimy analizy na podstawie danych, które pobieramy z naszego systemu wstępnie przepuszczamy przez accessa (jakieś proste kwerendy filtrujące, union itp) dalej obrabiamy w excelu za pomocą
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@empty11: rok :) ostatnio byłem na rozmowie w dużej firmie i jak powiedziałem że chce 4.5-5 to po oczach kierowniczki która rekrutowała widziałem że ona tyle nie ma :p

A odpowiadając na Twoje pytanie, to startowałem z podobnymi kompetencjami jak Ty, Qlik Sense nauczyłem się sam + w pracy więc jest to realne. I myślę że to dobry kierunek (po ilości ogłoszeń jakie widzę w bardziej centralnej i zachodniej Polsce)
  • Odpowiedz
@nohtyp_: Są osoby, które nagrywają makra w Excelu i uważają się za znawców VBA. Mam takich dwóch współpracowników w sąsiednich działach. Koniec końców jak trzeba coś od zera zbudować to nie wiadomo co i jak zrobić. Dlatego też moje pytanie o pisanie kodu. Jeśli ktoś tylko nagrywa makra i coś delikatnie w nich pozmienia to wiadomo, że nie stworzy nic bardziej skomplikowanego. Poza tym pisanie kodu to logiczne myślenie, planowanie
  • Odpowiedz
Czy polecacie jakiś program do rysowania diagramów i schematów, które potem można w dobrej jakości wstawić do Worda?

W Wordzie bardzo ciężko precyzyjnie narysować własny schemat, jest fajny program online draw.io, można prezycyjnie narysować i łatwo na nim działać, ale jak zapisuje się w PNG to mocno spada jakość (potrzebuję rysować schematy do pracy mgr).

Załączam przykładowy schemat (narysowany w draw.io).
#office #excel #kiciochpyta #datascience
zapomnialemjakiebylohaslo - Czy polecacie jakiś program do rysowania diagramów i sche...

źródło: comment_LBFkJllXxbiYwiMGaWhKXSkwOlkmUPHB.jpg

Pobierz
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Zaczynam za kilka dni pracę na stanowisku młodszego speca ds. analiz/raportów etc. Na rozmowie był krótki test ze znajomości excela (tabelka przestawna, funkcja vlookup itd). Genrealnie nie ukrywam że się lekko denerwuję. Uczyłem się excela i ćwiczyłem na arkuszach z danymi, niemniej zastanawiam się jak wygląda praca takiego "juniora" w praktyce. Póki co będę na umowie do końca kwietnia. O tyle mam dobrze że będę mógł się dogadać z kierownikiem co do
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Analitykzbozejlaski1_-: mamy kostki OLAP spięte z BI, dla użytkownika końcowego to praktycznie działa jak tabela przestawna.

Nie mam tutoriala, było mi coś potrzebne to na szybko szukałem w sieci i ogarnialem w nowe skille w miarę potrzeb.

Ale jak mam duże ilości danych, powyżej limitu wierszy excela to wrzucam je do Modelu Danych i z nich obrabiam.
  • Odpowiedz
Korzystał ktoś z kursu SQL p. Andrzeja Śmigielskiego? http://kursy.online-project.pl/ Pojawia mi się reklama z tymi lekcjami na fb (sponsorowane). I być może ktoś miał styczność. Generalnie facet opisuje te kursy w samych superlatywach, że uporządkowana wiedza itd. A moje pytanie brzmi, czy lepiej sobie na YT ogarnąć SQL pod kątem np. Data Analysis i też tam będzie wszystko fajnie wytłumaczone i ułożone??

#sql #it #kiciochpyta #
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Nartenlener: Wiem że teraz określa siebie jako P O T Ę Ż N Y SQLowiec, nie jak ci po kursach tylko po studiach i po projektach, które realizował. Coś więcej na ten temat? Nigdzie w sieciach nie mogę znaleźc opinii.
  • Odpowiedz
@Analitykzbozejlaski1_-: Nie za bardzo wiem jakie "coś więcej" mam Ci powiedzieć. Ogólnie ja pracuje na dość mało popularnej bazie i 3/4 systemu to właśnie triggery, procedury itp - i tutaj typ sobie średnio radził.

Ale nie przekreślam go, bo coś mi świta że on przychodził właśnie jako T-SQLowiec - a to się trochę różni od PSQLa.
  • Odpowiedz
Hej, nie odzywałem się jakiś czas, ale wcale nie próżnowałem na #jakbadacdane. Opublikowałem w tym czasie kilka artykułów #datascience i #machinelearning, myślę więc, że jest dobrze ;-). Sądzę, że dla każdego znajdzie się coś ciekawego:

* https://www.jakbadacdane.pl/accuracy-precision-recall-f1-co-to-za-czary/ - Przegląd podstawowych metryk oceniających jakość modelu w klasyfikacji. Powinno rozjaśnić nieco temat dla początkujących.
* https://www.jakbadacdane.pl/dlaczego-warto-zainteresowac-sie-scikit-learn/ - Zaczynasz nową ścieżkę kariery albo po prostu projekt i
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach