#programowanie #bigdata
Wszystko
Najnowsze
Archiwum
#programowanie #bigdata
- 0
- 20
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_1637146504dGplFndNOzAAF6ppVM6cKI.jpg
Pobierz- 2
- 2
a cos z sysadm będzie?
@Wielki_Wladca_Wypoku: Jak nakażą robotom zawsze odczekać kilka dni do tygodnia zanim coś zrobią, to admini mogą być zagrożeni. ;P
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.
- 1
Apache Ambari
@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.
W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już
8
Coursera - Wszystkie kursy i specjalizacje Google Cloud za darmo do 7 listopada

Get free access to any standalone course, Specialization, or Professional Certificate from Google Cloud. Offer valid through November 6, 2021. No limit per learner.
z- 1
- #
- #
- #
- #
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_16341147511WPJQ7C9Gg4i1ma8sTnz3s.jpg
Pobierz(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_16310912850TL7B9mUo3xnGqcTSWQtzN.jpg
Pobierz3
Apache Spark & Docker – Local Cluster Mode – Data Science In Action

Apache Spark jest to platforma umożliwiająca przetwarzanie ogromnych zbiorów danych w środowisku rozproszonym. Okazuje się jednak, że równie łatwo możemy korzystać ze Sparka na lokalnym komputerze. Oprócz trybu lokalnego możemy również zbudować własny klaster przy pomocy kontenerów Docker'a.
z- 0
- #
- #
- #
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_1628068794G7oBy6uQ8pSzrrWZuC4oE2.jpg
PobierzKomentarz usunięty przez moderatora
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_16244405399L5asBuGwKy6s0wZGHdD5i.jpg
Pobierz- 0
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_1621415156ny3GsZFMMkHGsErsPZ0MTy.jpg
Pobierz- 11
(SwissDevJobs.ch | LinkedIn | Twitter | Facebook)
(GermanTechJobs.de | LinkedIn | Twitter |
źródło: comment_1618394521GDmLmIaW6WCCsYediVXJcU.jpg
Pobierz- 3
Mam do speców z #datascience, #machinelearning, #dataengineering i ogólnie #data prośbę o pokierowanie na to jak rozwiązać poniżej opisany poroblem.
Jak widzicie na załączonym obrazku mam rozpisany mocno ogólny ale oddający główną istotę problemu przykład, z którym się
źródło: comment_1595715799r0qzy4X8hJ1zOMabEOs6K9.jpg
Pobierz- 2
Dla przykładu znalazłem artykuł autora biblioteki splink którą możesz użyć w Sparku. Jeśli dobrze zrozumiałem, to działa ona właśnie na podstawie obliczania prawdopodobieństwa dopasowań, co zostało opisane we wspomnianym wpisie pod nagłówkiem "How it works".
Polecam sprawdzić interaktywne demo zbliżone do Twojego problemu (znalezione
- 2
W tygodniu postaram się to sprawdzić w robocie. Jeśli coś z tego wyjdzie to będę wołać z podziękowaniami i wrażeniami. :)
- 7
- 0







#datascience
#dataengineering
#programowanie
Komentarz usunięty przez autora