@gabonczyk: Jeszcze CIę tutaj zawołam bo muszę przyznać, że szybko się nie zabiore za ogarnięcie tego przykłądowego pipeline (a przynajmniej nie przez następne 2 tygodnie) ale zagadałem do tego Leo na oficjalnym doscordzie ZIO.

Poniżej jego odpowiedź odnośnie performencu na IO więc trochę może dać to pogląd dlaczego ZIO na SParku może mieć sens.
Aczkolwiek martwi mnie, ze on takich benchmarków wcześniej nie zrobił xD
inny_89 - @gabonczyk: Jeszcze CIę tutaj zawołam bo muszę przyznać, że szybko się nie ...

źródło: comment_1636121185N4s0Pmud1Qz7b7i3UG7SnK.jpg

Pobierz
Słuchajcie mam zagadkę. Z zakresu troche fanaberii i sci-fi.

Raczej mniej istotne tło problemu:

Tworzę sobie Wheela w #pythonie i do pełnego wykorzystania tej libki, którą zbuduje jest potrzebna inna libka udostępniana jako plik .JAR.
Lokalnie jak sobie z tym pracuje i odpalam kod w ramach mojego develpmentu na sparku to mam zwyczajnie załączony ten JAR w odpowiedniej lokalizacji i wskazuje go podczas budowania SparkSession. Tak jak na uproszczonym przykłądzie poniżej:

spark
Apache Spark 2.0.0 wydany! A w wydaniu ponad 2500 poprawek od ponad 300 osób.

Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation
4. Przyspieszenie czytania z plików Parquet i ORC
5. Obsługa zapisu modeli Spark ML
6. Natywna obsługa plików CSV
7. Ulepszenie zarządzania pamięcią
8. I wiele innych - w ogłoszeniu jest napisane, że łącznie Spark jest szybszy
scrapowanie przeszlo pomyslnie, 2793 strony głównej z wykopaliskami, komentarzami, odpowiedziami do komentarzy + hashtagi, zawołania, nawet kolor nicka udało się wyciągnąć - łącznie jakieś 3,5gb danych do analizy ( ͡° ͜ʖ ͡°)

teraz pora na oczyszczenie danych i text mining komentarzy na wykopie ( ͡° ͜ʖ ͡°)

#dataisbeautiful #machinelearning #statystyka #python #apachespark #bigdata
kodi1911 - scrapowanie przeszlo pomyslnie, 2793 strony głównej z wykopaliskami, komen...

źródło: comment_iHqByudjm3hG5YvdN42R9ngcjVtdGy12.jpg

Pobierz