#datascience - strona 17

14.07.2022, 00:11:16

1

#datascience

Hej Mirki, tak sobie dlubie proste ETL w #pandas #numpy #python i glowkuje jak tu skrocic czas ladowania trzech duzych (1GB kazdy 900k x 200) CSV. Jedyne co przychodzi mi jeszcze do glowy to dorzucenie multiprocesingu bo duzo sie dzieje, z %pruna widze ze w tej chwili CPU jest waskim gardlem. Probowalem w prymitywny sposob zaladowac to w multi rozrzucajac kazdy plik na osobny

d.....z

konto usunięte 14.07.2022, 05:17:18

3

@hoszak: zobacz na rozwiązania w tym wątku: https://stackoverflow.com/questions/6475328/how-can-i-read-large-text-files-line-by-line-without-loading-it-into-memory

A.....c

konto usunięte 16.07.2022, 20:55:50

2

@hoszak: Spróbuj Polars, sporo szybsza biblioteka, wrapper Rust-a.
https://www.pola.rs/

Ewentualnie Pyarrow - https://arrow.apache.org/docs/python/generated/pyarrow.csv.read_csv.html

Arogancky

12.07.2022, 15:58:40

0

bawił się ktoś może w robienie customowego monitoringu dla Airflow?
medytuję nad naklepaniem jakiegoś dashboarda który będzie zbierał statusy wykonania DAGów i pokazywał wszystko w jednym miejscu, tylko jeszcze nie wiem czy to sensowny pomysł (bo cuda niewidy pan hindus czasem robi z naszą instancją ) a nie jestem ownerem i nie chce mi się ręcznie klikać ( ͡° ͜ʖ ͡°)
czyli - jaaaaakby ktoś "been there done

arysto2011

12.07.2022, 16:01:46

1

@Arogancky: Po co? AWS MWAA i masz wszystko na CloudWatch.

A jak lubisz się bawić to zobacz co da się zrobić z Graphaną.

Arogancky

12.07.2022, 17:30:21

0

@arysto2011: sprawdzę, dzięki!

Networks_PowerCat

09.07.2022, 18:00:59

14

Dodaję mirkowpis bo znalezisko nie dostało należytej uwagi, a mam do polecenia fantastyczny link dla wszystkich z #naukaprogramowania #machinelearning. Na https://today.bnomial.com/ codziennie publikowane jest jedno pytanie/historyjka w temacie sztucznej inteligencji/data science i jest to doskonałe uzupełnienie kursów o realne przypadki kiedy z modelem jest coś nie tak - z czego to może wynikać i jak spróbować to naprawić.

#programowanie #datascience #sztucznainteligencja

Networks_PowerCat - Dodaję mirkowpis bo znalezisko nie dostało należytej uwagi, a mam... — **źródło:** comment_16573896439cWMCG3lzH4GWsSRp0Lo08.jpg
Pobierz

szczepan-szczypawa

10.07.2022, 02:11:44

3

@Networks_PowerCat: trzeba też podpiąć twittery autorów: https://twitter.com/haltakov https://twitter.com/svpino kopalnia wiedzy.

R.....y

konto usunięte 08.07.2022, 15:39:32

3

#programowanie jak wygląda branża #datascience ? R-------a? Dobrze płatna? Z wysokim progiem wejścia? Używa się w niej więcej matematyki?

R.....y

konto usunięte 08.07.2022, 16:00:12

9

@J0g1: zawsze doceniałem obszerne, i uargumentowane opinie

Popcornn1

10.07.2022, 10:38:45

1

@Tasartico7: Żartujesz? Matematyki tylko trochę więcej niż na backendzie?
To jest jakaś opinia urwana z choinki.
W DS każdy algorytm oparty jest na matmie. Żeby zrozumieć najprostsze lasso już trzeba co nieco się orientować w matematycznych znaczkach. Już nie mówie o algorytmach pokroju sieci neuronowe czy transformery.

U mnie w firmie głownie przyjmują do działy analyst matematyków i później uczą ich programowania. Sam kończyłem bardziej informatyczny kierunek i teraz moją

E.....e

konto usunięte 07.07.2022, 15:14:11

2

Jakich pytań z #python mogę się spodziewać na rozmowie technicznej aplikując na mida data engineera? Jestem umówiony na już 2 rozmowy techniczne, na jednej ma być live coding głównie z Pythona i czuję przed nim stres (wiem czego mniej więcej się spodziewać po SQL'u i innych częściach).

Czy mam się spodziewać pytań o algorytmikę? Bo robię sobie zadanka na leetcode i mówiąc szczerze jestem sobą rozczarowany xD

#programista15k

c.....s

konto usunięte 07.07.2022, 15:22:25

2

@ElMatadore: no to zależy od firmy, ja bym stawiał, że może być więcej z obsługi pandasa/numpy ( ͡° ͜ʖ ͡°)

wyjechany

12.07.2022, 13:54:32

1

@ElMatadore: > ja miałem zadanie w stylu: podaj godzinę jako input i wypluj kąt między wskazówkami zegara ( ͡° ͜ʖ ͡°)

@Arogancky:

i cyk... 4 dni mi to zajęło ale udało się. gdzie mogę się zgłosić do pracy?

wyjechany - @ElMatadore: > ja miałem zadanie w stylu: podaj godzinę jako input i wypl... — **źródło:** comment_16576340653YLvMTraGDP1XO7a9ZNDQU.jpg
Pobierz

doctor07

01.07.2022, 17:05:02 via iOS

1

Hey czy ktoś studiował #it lub #datascience na #openuniversity i podzielił by się jak takie studia wyglądają nie mam doświadczenia z distance learning

doctor07

02.07.2022, 19:47:33 via iOS

0

@1392c309a2da8ca65641315bf7dc62f2: W sumie masz rację że sam się uczysz bardziej mi chodziło jakość materiałów do nauki

1.....2

konto usunięte 02.07.2022, 22:15:24

0

@doctor07: to tez zalezy, wybierajac na przyklad sieci i cisco, uczysz sie z ksiazek i materialow wydanych przez cisco. Egzaminy z rozdzialow i w dniu labow, tez sa wykonywane w cisco academy, wiec w tym wypadku jakosc materialow jest na dosc wysokim poziomie.

pustelnikk

27.06.2022, 09:08:03

2

Czy ktoś przechodził rekrutację w #samsung R&D w Warszawie na stanowisko związane z AI? Dostałem zaproszenie na rozmowę związaną z ofertą praktyk i zastanawia mnie, czy to będzie zadanie algorytmiczne, czy bardziej pytania o Pythona i ML. #programowanie #programista15k #pracbaza #praca #pracait #rd #ai #datascience

zibizz1

27.06.2022, 11:49:06

1

@pustelnikk: też byłem tam z 8 lat temu i część techniczna rekrutacji wyglądała jak kolokwium. Dodałem kserówke z zadaniami. Jeszcze spotkanie z HRem, tylko nie takie łupie bezsensowne ale z psychologiem który ocenia czy będziesz dobrym szczurem w korpo. Nie dostałem się jakby co.

red-devil

25.08.2022, 13:32:59

0

@straz_konsumencka: odblokujesz PW? Mam pytanie :)

Lawsuit

27.06.2022, 00:10:56

4

Daily reminder, że musicie być w rejestrze, żeby superkomputery z zaawansowanymi algorytmami analizowały wszystko co robicie. Nakierowywać na taki sam tok myślenia żeby być bardziej przewidywalnym, żeby profilować pod was reklamy, opierające się na psychice ludzkiej, waszych potrzebach akceptacji i instynktach. Które są tworzone przez ludzi którzy nawet by tego pewnie nie robili, gdyby nie było to trochę lepiej płatne, bo zostali zaprogramowani od wczesnych lat żeby to robić. I tak się

Moseva

27.06.2022, 00:13:19 via iOS

9

@Lawsuit: spiseg

ButelkaBezKaucji

27.06.2022, 00:17:27 via Android

3

Treść przeznaczona dla osób powyżej 18 roku życia...

Bejro

22.06.2022, 22:54:56

12

Udało mi się wreszcie lepiej zrozumieć jak efektywnie uczyć sieci typu GAN do generowania obrazów, więc postanowiłem podzielić się spostrzeżeniami i może oszczędzić komuś sporo czasu. Jak wiadomo ta architektura jest prawdopodobnie najtrudniejsza do debugowania a proces uczenia długi - no ale właśnie niekoniecznie. Jak się okazuje jednoczasowa propagacja wsteczna dla generatora i obu lossów dyskryminatora jest bardzo nieskuteczna. Lepiej rozbić to uczenie na 3 niezależne części - no ale wtedy czas

Bejro - Udało mi się wreszcie lepiej zrozumieć jak efektywnie uczyć sieci typu GAN do... — **źródło:** comment_1655938289GU2WRP43WYMF7A3scu6EUP.jpg
Pobierz

ejsap_kupno

25.06.2022, 16:22:14 via iOS

0

@Bejro: Nie byłem konkretny. Chodziło mi o WGAN-GP (tutaj nie clipujemy wag tylko mamy penalty na gradiencie, przez co zachowany jest warunek 1-Lipschitzowosci) który ma znacznie stabilniejszy proces uczenia od tego standardowego lossu który przytaczas. W praktyce tez nie stosuje sie częstszego treningu krytyka od generatora. Idea WGAN jest to, ze ta funkcja kosztu ma bardziej informacyjne gradienty przez co generator nawet jak się bardzo myli to może się poprawić

Bejro

25.06.2022, 16:55:53

0

@ejsap_kupno: Hinge loss jest bardzo podobny do crossentropy z logitów więc to takie cofnięcie się do czegoś co działało od funkcji W. Generalnie WGAN-GP wciąż robi to samo co WGAN ale w inny (lepszy) sposób. Jeśli używamy dyskryminatora z dużym dropoutem na tym samym wygenerowanym batchu to wirtualnie próbkujemy większy rozkład i zwiększamy generalizację - a to coś innego niż zapobieganie zanikaniu gradientów w WGANach.

FaterAnona

21.06.2022, 08:04:55

0

Na #dss powtorka z zeszlego roku widzę..
#datascience

RaV_Oyabun

06.11.2022, 23:45:26

0

@FaterAnona: a jak wrażenia? opłaca się zapłacić za część online? bo nadal się zastanawiam

FaterAnona

07.11.2022, 07:45:19

1

@RaV_Oyabun: tak, oplaca się. Nawet mimo tradycyjnych problemow technicznych. Bardzo inspirujące

malinq

21.06.2022, 07:44:47

2

Mam w pracy taką analityczkę danych która wiecznie jest zajęta, ale jest skarbnicą wiedzy więc sytuacja mnie zmusza żeby czasem jej dupę zawrócić. Zawsze jak do niej zadzwonię to ona zaczyna "tylko mów szybko o co chodzi" - a jak uzyskam odpowiedź lub przekieruje mnie do innej osoby to nie mogę się z nią rozłączyć, bo coś p------i cały czas. wtf

#pracbaza #it #datascience

GG99

21.06.2022, 07:48:10 via Android

6

@malinq Może udaje? Strategia na #korposwiat

Kj5s6f2dk7s54o

21.06.2022, 07:51:36

5

@malinq: jest wiecznie zajęta, bo przy każdej p------e włącza się jej słowotok, zagadka rozwiązana.

N.....p

konto usunięte 20.06.2022, 17:31:29 via iOS

3

Treść przeznaczona dla osób powyżej 18 roku życia...

umpiak

20.06.2022, 19:22:22

1

@Nxtp: ja kończyłem w tamtym roku. Jeśli nic się nie zmieniło, to studia są raczej skrojone pod osoby początkujące w analizie danych/data science. Nie oczekuj też, że ktoś tam będzie stał nad tobą z batem. Jeśli chcesz się nauczyć podstaw, to się nauczysz, jak nie to dostaniesz papier i tyle.

szczepan-szczypawa

20.06.2022, 23:40:57

1

zamiast wywalac 6k to lepiej zatrudnij się w big data na juniora zwlaszcze ze juz jakies minimalne pojecie masz

Ciężko z tym będzie w Białym.

@Nxtp: Część wykładowców prowadziła mi zajęcia i są bardzo spoko. Jeśli 6k nie robi Ci wielkiej różnicy, a jesteś w stanie poświęcić wystarczająco dużo czasu, żeby pogłębiać to co pokażą na zajęciach to skorzystasz.

Zapisy kończą się chyba we wrześniu, a tu masz zagadnienia, które

kartofel

19.06.2022, 11:16:11 via Android

0

Od zawsze dużo programuje. Co prawda w 90% były to sterowniki PLC oraz roboty przemysłowe. Po drodze liznąłem SQL przy różnych projektach. Sam uczę się pythona. Od jakiegoś czasu wujek google spamuje mnie kursem #datascience na #codecademy. Wykupiłem go sobie. Uzupełniam wiedzę o kursy z kaggle.
Jeszcze z pół roku, może rok i będę starał się o pierwszą pracę w tym kierunku. I teraz moje pytanie: będę

heniek_8

19.06.2022, 11:21:22

2

@kartofel: gdzie pracowałeś wczesniej i jaki biznes znasz od podszewki
Zrob model ktory coś w tym biznesie optymalizuje
Potem zacznij od tej samej branży jako guru od ds , z rozgladaniem się na boki oczywiście

mrocznapszczola

20.06.2022, 07:03:28

0

@kartofel: Tematy IoT w automatyce to chyba dosyć ciekawy temat. Swego czasu robiłem wykrywanie anomalii dla dużej firmy na urządzenia raspberry. Teraz dużo pracujemy nad wizją komputerową na urządzeniach przenośnych - więc tematów jest mnóstwo. Wydaje mi się, że dobrze jest założyć github i w twoim przypadku zaczepić sie gdzieś w społeczności IoT i w tym ogarnąć jakieś projekty

pustelnikk

15.06.2022, 13:24:50

1

Czego można się spodziewać na rozmowie technicznej #datascience na poziomie stażysty lub juniora? Planuję sobie powtórzyć Pythona, SQL, sklearn i TF. Rekrutacja w #capgemini
#programista15k #programowanie #pracbaza #programista #ai

girro13

15.06.2022, 15:08:05

1

@pustelnikk: Z bardziej ogólnych zagadnień to założenia mnk, jak poradzić sobie z outlierami, danymi brakującymi, skośność danych, metody pomiaru dokładności modelu.

szczepan-szczypawa

16.06.2022, 01:02:29

7

@pustelnikk: Najważniejsze to przygotować się jak najlepiej ze swoich projektów. Jakich metod użyłeś, metryk, technologii, architektury. Jeśli użyłeś xgboosta to jak działa, co to gradient boosting, jak działają algorytmy drzewiaste. W ten sposób zrobisz lepsze wrażenie niż jakby rekruter miał cię odpytywać samemu.

Pamietam takie pytania z rozmów:
- jakie sa metryki (precision, recall, f1, auc, mse, map@k itp.),
- jakie są funkcje aktywacji (czym sie rozni relu od leaky relu, roznica miedzy

AnonimoweMirkoWyznania

14.06.2022, 12:42:21 via AMWv2

2

#anonimowemirkowyznania
Mirki chciałbym się przebranżowić ale z głową. Nie mam nic wspólnego z IT. Kiedyś bawiłem się w gimpie i jakieś obróki graficzne. Wiem mniej więcej co można robić w IT ale nie wiem co byłoby ciekawe dla mnie więc.. obecnie pracuje z excelem, różne ilości danych, różne raporty. Podoba mi się wyciąganie danych z nich, tworzeniem formuł, kombinowaniem jak je połączyć, jak znaleźć różnicę, itd. Podobaja mi się też

clubcard

14.06.2022, 12:52:26

1

@AnonimoweMirkoWyznania: ucz sie Javy, Springa, Postgresa, Kafki, Terraforma, AWSa (SQS, SNS, DynamoDB), Kubernetes, Dockera, z frontu - React. Technologie - REST, OpenAPI.

Rob projekty na githubie, byle co, byle w tych technologiach. Pare pomysłów.
- sklep z rejestracją i obsługą stanów magazynowych
- Facebook bis
-

wyjechany

14.06.2022, 14:13:15

2

Treść przeznaczona dla osób powyżej 18 roku życia...

gharman

14.06.2022, 07:47:13

0

Widze te oferty pracy w branzy #it i sie zastanawiam, czy po 10 latach pracy w innej dziedzinie sie nie przebranzowic mam mgr inzyniera uprawnienia, i nie zarabiam nawet zblizonej sumy do pozycji ktorej proponuja stanowisko juniora
dzis widzialem oferte 13-19k dla junior data scientist.

#it #informatyka #datascience #inzynieria #praca #pracait

NewEpisode

14.06.2022, 08:35:48

7

@gharman: 3-9k XD

NewBlueSky

14.06.2022, 10:17:47 via Wykop Mobilny (Android)

7

@NewEpisode: @gharman: po tym tasku to nie wiem czy programowanie dla cb xD

Kielbasiarz

13.06.2022, 18:01:40

0

Mircy potrzebuje pobrac sobie tweety z danym slowem kluczowym/hastagiem z calego 2021 i 2020 roku.

Zalozylem sobie konto deweloperskie na twitterze ale niestety z tego co widze to zwykly darmowy dostep do ich API obejmuje tylko pobieranie tweetow z ostatnich 7 dni. Sa jakies plany premium i ewentualnie dostep uczelniany do celow resaerchowych.

I tutaj moje pytanie, czy ktos moze pobieral masowo tweety i zna jakis w miare dobry i tani sposob

I.....t

konto usunięte 13.06.2022, 18:11:43

3

@Kielbasiarz: możesz mieć dostęp za darmo w celach naukowych tylko musisz to uzasadnić
https://developer.twitter.com/en/products/twitter-api/academic-research

S.....W

konto usunięte 18.06.2022, 05:50:50

0

@Kielbasiarz: dodatki chrome twitter media downloader

AnonimoweMirkoWyznania

13.06.2022, 17:00:14 via AMWv2

1

#anonimowemirkowyznania
W accenture widzie że jest ogłoszenie o zdalnej akademii z SQLa. Zakładam że po tym można dostać robotę jako junior DA czy coś w tym stylu. Czy ktoś wie czy przed tą akademią są jakieś testy, test analityczny czy też test z angielskiego? Brał ktoś udział w takiej akademii?
#pracait #pracbaza #analizadaych #datascience #programowanie #korposwiat #accenture

---
Kliknij

AnonimoweMirkoWyznania

13.06.2022, 22:36:51 via AMWv2

0

OP: @kimikini:
Ten test przed akademią to jakiś test logiczno-matematyczny? Normalnie wysyłają linki sobie rozwiązuje na jakiejś platformie.
Angielski na poziomie B1 będzie git? Test też był online z angielskiego?
Rozmowa techniczna będzie przed akademią? Z opisu wynika że w zasadzie to jest skierowane do początkujących.

k.....i

konto usunięte 14.06.2022, 00:16:02

2

@AnonimoweMirkoWyznania: jak B1 moze byc git w miedzynarodowej firmie? bo jakos nie widze tego.
nie spotkalem sie z testami z angielskiego chyba nigdzie, po prostu czesto cala rozmowa lub część jest prowadzona po angielsku czesto w firmach.
zalezy ile umiesz ogolnie ale wiadomo ze nikogo zielonego nie beda brac ;d

pustelnikk

13.06.2022, 09:30:04

0

Jakie stawki wam oferowano na początku w IT? Mam jakąś szansę na staż w #capgemini na pozycji #datascience i zastanawiam się jaką stawkę powiedzieć.
#programista15k #programowanie #pracbaza

brh4life

13.06.2022, 09:43:03

5

@pustelnikk: Szczerze mówiąc gdybym był na początku, to powiedziałbym 3k z możliwością renegocjacji po 3 miesiącach. Jak po tym czasie i Ty i pracodawca uznacie że jest okej, to podwyżka do 4-4,5 i potem sukcesywnie idziesz w górę. Wydaje mi się to uczciwe

M.....f

konto usunięte 13.06.2022, 09:55:09

2

@pustelnikk: Nieważne ile powiesz mają raczej stałą stawkę dla stażystów. A rynkowo to jest 3500-5000 jeżeli chodzi o normalne firmy. Jakiś Google pewnie płaci dużo więcej.