✨️ Obserwuj #mirkoanonim
Mirki, wybieram się w tym roku na studia podyplomowe big data. Zastanawiam się nad Politechniką Warszawską i SGH. Macie jakieś opinie na temat tych studiów? Które byście wybrali? Który program wydaje wam się lepszy?
1. https://www.sgh.waw.pl/studia-podyplomowe-i-mba/transformacja-cyfrowa/studia-podyplomowe-inzynieria-danych-big-data
2. https://ds.ii.pw.edu.pl/bigdata.html

#bigdata #korposwiat #programista15k #programowanie
  • 7
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

✨️ Obserwuj #mirkoanonim
Pracuje od kilku lat w #testowanieoprogramowania jednak widzę że ilość ofert na stanowiska testerskie jest coraz mniejsza.
Myśle o zmianie zmianie na #bigdata #analizadanych #datascience #businessintelligence bo ilość ofert w tym obszarze jest kilka razy większa niż na #qa.
Doświadczenie mam głównie jako tester manualny, znam podstawy pythona i js (używane do testów automatycznych).
Jaki
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Mam pytanie uzupełniające do mojego wczorajszego pytania o sortowanie.
Dataframy mi się sortują ładnie. Teraz pytanie - czy taki posortowany dataframe mogę zapisać jako posortowany parquet?
Bo zwykłe zapisane posortowanego df niestety nie daje oczekiwanego rezultatu i parquet (a potem external table z tego parqueta) nie są posortowane po tej kolumnie co dataframe.

Pewnie jest opcja, że się nie da, bo tabela to logiczne dane, a nie posortowany zestaw danych?

  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@LucaJune Z tego co wiem to nie da się osiągnąć sortowania w parquet, ze względu na sposób w jaki zapisuje on dane (kolumny). Z reguly sortowanie musi odbyć się jeszcze raz po wczytaniu.

Jeśli twój DF jest dość mały, możesz spróbować zapisania go jako jedna partycja (df.coalesce(1)), wtedy sortowanie powinno być zachowane, ale tracisz obliczenia na wielu klastrach.
  • Odpowiedz
Mam w Synapsie Analytics dataframe złożony z joinów z 10 innych dataframów, nic przesadnie skomplikowanego.
Ale chcę to posortować i .orderBy(col("nazwakolumny").desc()) mi nie działa.

Jako ciekawostka - w jednym notebooku mi to ładnie działa, a w innym nie.

Nie wywala błędu, tylko po prostu nie sortuje.
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

????Odblokowanie mocy GPT: Ściągawka główna + 5jailbreak???? i Ściągawka CodeInterpreter GPT [Lite] ????
https://https://angonpl.gumroad.com/

W stale zmieniającym się krajobrazie sztucznej inteligencji jedną z najbardziej rewolucyjnych technologii, jaka się pojawiła, jest GPT (Generative Pre-trained Transformer) OpenAI. GPT okazał się przełomowy w różnych dziedzinach, od przetwarzania języka naturalnego po generowanie kreatywnych treści. Aby w pełni wykorzystać potencjał GPT, zarówno entuzjaści, jak i profesjonaliści sięgają po kompleksowe zasoby, takie jak ściągawki i przewodniki. W tym
chatman - ????Odblokowanie mocy GPT: Ściągawka główna + 5jailbreak????  i Ściągawka C...

źródło: hackerser2

Pobierz
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Hej, czy ktoś z was studiował albo zna osoby, które studiowały na studiach magisterskich po angielsku na SGH? Czy jest tam ciężej, lżej niż na polskich i na jakim poziomie jest angielski i zajęcia? #sgh #bigdata #studia #magisterka
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@benxz kilka przedmiotów brałem po angielsku, matematyczne - bez różnicy w poziomie, jak wiążesz przyszlosc z ekonometrią to polecam by liznąć jezyka specjalistycznego, jak nie to odradzam bo to dodatkowa przeszkoda w uczeniu się; reszta wg mnie trochę łatwiejsze, tj więcej zaliczania projektami czy prezentacjami. Ale to było w 2016, więc nie wiem, czy info aktualne
  • Odpowiedz
Statystyki YouTube są zadziwiające. Ciężko uwierzyć że działa tak sprawnie i są w stanie skalować tak ogromny ruch i objętość treści.

⚪️ W czerwcu 2022 roku na YouTube co minutę dodawano ponad 500 godzin materiału wideo. To oznacza, że co godzinę pojawiało się około 30 000 godzin nowej treści. Na dodatek to CDNy, więc wszystkie treści i serwery są w kilku kopiach.

⚪️ Codziennie oglądamy ponad 1 miliard godzin filmów na YouTube.
janjanuszziom - Statystyki YouTube są zadziwiające. Ciężko uwierzyć że działa tak spr...
  • 29
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 40
YouTube brought in $7.7 billion in advertising revenue in its second quarter, reversing the prior trends of a downturn.


@Jakie: Nieprawda. Od dawna YT jest rentowny i przynosi dochody. Nie wiem dlaczego ludzie wygadują bzdury, które im się wydają jako fakty. Bezsens... Wszystko możesz sprawdzić w kilka sekund, ale lepiej pisać jako pewniak coś co sobie wymyślasz i jedynie wprowadzasz ludzi w błąd. Taki komentarz ma ujemną wartość informacyjną. Pewnie
  • Odpowiedz
  • 18
Porównywanie YouTube do np. Netflixa jest bardzo głupie. Może Netflix ma dużą oglądalność, ale tutaj istotne jest jedynie obsłużenie dużego uploadu. Samych treści na Netflixie jest strasznie malutko względem YouTube. Tyle co nic. Muszą obsłużyć jedynie duży ruch ale danych do przechowywania mają nieporównywalnie mniej.
  • Odpowiedz
Robię model profitowości kontraktów handlowych w #pracbaza i chciałbym podpiąć pod niego prosty model machine learning, który na podstawie wstępnej propozycji handlowca proponowałby zoptymalizowane parametry takiego kontraktu, tak aby dążyć do maksymalnej profitowości.

Coś w stylu, że tutaj damy trochę większy rabat, tutaj dla nas ciut większa prowizja, klient prawie nie zauważy, a dla nas to będzie znacząca różnica w profitowości takiego kontraktu.

1. Ile czasu realnie coś takiego mogłoby zająć?
MarteenVaanThomm - Robię model profitowości kontraktów handlowych w #pracbaza i chcia...

źródło: image

Pobierz
  • 13
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@MarteenVaanThomm: jak masz dużo danych i ich model nie jest raczej skomplikowany to sieci neuronowe mogą łatwo być overkillem - model użyj jaki chcesz, ale nie przesadzaj z jego wielkością. Nie wiem też co dokładnie chcesz osiągnąć i dlaczego nie można tego po prostu policzyć. Jeśli masz zbiór zatwierdzonych "optymalnych" kontraktów i chcesz włożyć nowy nieoptymalny kontrakt aby go poprawić to możesz tu zastosować maszynę Boltzmanna. Ewentualnie zastosować redukcję wymiarowości,
  • Odpowiedz
@Bejro: dzięki bardzo, sporo ciekawych rzeczy piszesz.

Jeśli chodzi o równanie do średniej to tutaj nie zda to egzaminu. Dlatego, że jeśli mamy parametr X (jakaś opłata_2 powiedzmy) dla klienta równa 100, a w modelu referencyjnym, tym najbardziej profitowym ten parametr dąży do 20, to równanie 100 do 20, czy nawet 50 nie ma sensu, bo klient na to nie pójdzie. Nie chcemy tutaj przerabiać każdej propozycji kontraktu pod jeden
  • Odpowiedz
Mirabelki/Mirki polecają jakiś bardziej złożony kurs Pysparka /apache sparka z pythonem. Środowisko to databricksy osadzone na Azure. Niby człowiek pisze ale z googlem i bym przejrzał fajne materiały żeby uporządkować wiedzę i ciut lepiej pisać kod ;). Niby działa ale wstyd PRy wystawiać.
#programowanie #bigdata #datascience #programista15k
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Wrzuciłem swojego Google Docsa #zbieramnatesle do ChataGPT4/Code Interpreter i poprosiłem go, by wygenerował dla mnie wykres "Skumulowane wpłaty (na zakup akcji Tesli) i wypłaty, oraz średnia cena akcji na przestrzeni czasu".

Trochę informacji na temat samego wykresu:


anonimowy_programista - Wrzuciłem swojego Google Docsa #zbieramnatesle do ChataGPT4/C...

źródło: wykres

Pobierz
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach