#dataengineering - strona 4

17.11.2021, 22:08:24

0

W pracy mam projekt gdzie pracujemy na Hadoop, Hive, Apache NiFi, Pysparku i Tableau. Mam pewien task do zrobienia: odpalać shellowy skrypt jeżeli tabela w bazie danych zostanie zaktualizowana. Jest jakiś processor w nifi który nasłuchuje i sprawdza czy wpadły nowe rekordy do tabeli? Nie wiem jak to zrobić, nie chce odpalać zapytania sql co minutę i sprawdzać ilość rekordów. Czy jest coś lepszego co mogę użyć?

#programowanie #bigdata

PiotrokeJ

18.11.2021, 00:35:55

0

@informatyk: pytanie brzmi czy nie zarżnę bazy wykonując często takie zapytania?

plusujemny

18.11.2021, 08:31:49 via Wykop Mobilny (Android)

0

@PiotrokeJ: jak tabela w bazie danych to może jakis trigger styknie? Jaka to baza?

SwissDevJobs

17.11.2021, 10:57:07

20

SwissDevJobs - Zapraszamy na krótki przegląd ofert z kategorii #datascience i #dataen... — **źródło:** comment_1637146504dGplFndNOzAAF6ppVM6cKI.jpg
Pobierz

saif3r

17.11.2021, 11:01:52

2

SEBA Bank AG

@SwissDevJobs: ( ͡° ͜ʖ ͡°)

w__k

17.11.2021, 11:41:12

2

a cos z sysadm będzie?

@Wielki_Wladca_Wypoku: Jak nakażą robotom zawsze odczekać kilka dni do tygodnia zanim coś zrobią, to admini mogą być zagrożeni. ;P

PiotrokeJ

10.11.2021, 09:34:03

0

Cześć, dostałem mały projekt w pracy w pysparku. Mała transformacja danych i wrzucenie wyników do nowej tabeli. W punktach opiszę co trzeba zrobić:
1. 4 uniony
2. Pobrać tabelę z mappingiem
3. Zrobić joina (te 4 uniony i mapping)
5. Przerobić 2 kolumny na podstawie wartości, i dodać dwie puste kolumny
4. Wykonać prostą agregacje danych -> groupby po 5 kolumnach.

o.....6

konto usunięte 10.11.2021, 09:36:45

2

@PiotrokeJ: 7k rekordów w sparku? Jebnij im to w sql, pandas albo excelu.

inny_89

26.11.2021, 11:51:32

1

Apache Ambari

@PiotrokeJ: To już jest kwestia samego zarządzania (wybacz ale nie mam pojęcia jak to inaczej ubrać w słowa) translacją samego SQL na MapReduce na Hadoopie.

W tym przypadku Hadoop trochę inaczej ogarnia takie zapytanie niż spark. Dlatego jak odpalasz coś bezpośrednio na hadoopie to możesz dostać wyniki (błędne lub dobre), a w sparku już

SwissDevJobs

13.10.2021, 08:45:07

8

SwissDevJobs

08.09.2021, 08:56:07

9

SwissDevJobs

04.08.2021, 09:21:39

5

f.....-

konto usunięte 05.08.2021, 17:02:35

0

Komentarz usunięty przez moderatora

SwissDevJobs

23.06.2021, 09:30:35

8

neekerit

27.05.2021, 13:31:59

0

Siema mirki. Mam rozmowę na posadę Data Engineering Intern w Santanderze. Ktoś miał może taką rozmowę i chce się podzielić pytaniami( nie chodzi o santandera ale ogólnie na podobne stanowisko)? Nie powiem stack wymagany jest dosyć spory(Tableau, Spark, Kafka, Hadoop, Python, Flink, roziązania Cloudowe). Podstawy mam dosyć dobre jeżeli chodzi o Big Data, Hurtownie Danych i robiłem trochę we wszystkim zwłaszcza w PySpark, ale nadal się trochę cykam. ( ͡° ͜

Popcornn1

27.05.2021, 20:43:54

1

Spore wymagania jak na Interna :O

neekerit

28.05.2021, 13:11:28

1

Treść przeznaczona dla osób powyżej 18 roku życia...

SwissDevJobs

19.05.2021, 09:06:54

3

SwissDevJobs

14.04.2021, 10:02:44

11

SwissDevJobs - Kilka ofert z kategorii #datascience, #dataengineering i okolic, dla c... — **źródło:** comment_1618394521GDmLmIaW6WCCsYediVXJcU.jpg
Pobierz

inny_89

25.07.2020, 22:23:24

3

Witam Przyjaciele,
Mam do speców z #datascience, #machinelearning, #dataengineering i ogólnie #data prośbę o pokierowanie na to jak rozwiązać poniżej opisany poroblem.

Jak widzicie na załączonym obrazku mam rozpisany mocno ogólny ale oddający główną istotę problemu przykład, z którym się

inny_89 - Witam Przyjaciele,
Mam do speców z #datascience, #machinelearning, #dataen... — **źródło:** comment_1595715799r0qzy4X8hJ1zOMabEOs6K9.jpg
Pobierz

Pyxelr

25.07.2020, 23:24:26

2

@inny_89: Nigdy nie przyszło mi mierzyć się z takim problemem, ale szybko wygooglałem, że Twój problem może znaleźć rozwiązanie po zagłębieniu tematu "Fuzzy Matching".

Dla przykładu znalazłem artykuł autora biblioteki splink którą możesz użyć w Sparku. Jeśli dobrze zrozumiałem, to działa ona właśnie na podstawie obliczania prawdopodobieństwa dopasowań, co zostało opisane we wspomnianym wpisie pod nagłówkiem "How it works".
Polecam sprawdzić interaktywne demo zbliżone do Twojego problemu (znalezione

inny_89

25.07.2020, 23:52:31

2

@Pyxelr: Dziękuję! Na pierwszy rzut oka wydaje mi się, że to dobry trop. Jakoś w moich poszukiwaniach w odmętach internetu za bardzo przywiązałem się do hasła: "Proximate Matching". Teraz jak czytam o "Fuzzy matching" to faktycznie jest to bliskie temu co potrzebuję.

W tygodniu postaram się to sprawdzić w robocie. Jeśli coś z tego wyjdzie to będę wołać z podziękowaniami i wrażeniami. :)

P.....r

konto usunięte 01.08.2018, 15:12:45 via Wykop Mobilny (Android)

7

Mirki, jest tutaj ktos pracujacy, jako Data Engineer? Mam zagadke, poniewaz zaoferowano mi takie stanowisko na internship/traineeship, ale nie mam pojecia, czy to bedzie faktycznie interesujace dla mnie. Lubie machine learning, deep learning, data science, ale data engineering wydaje mi sie mocno backendowym zajeciem, ktore zwyczajnie moze mi sie znudzic. Chcialbym porozmawiac z kims, kto ma z tym stycznosc na codzien, moze to wyglada zupelnie inaczej, niz moje wyobrazenie. Bede bardzo wdzieczny

programistalvlhard

02.08.2018, 15:02:24

0

@pythongeek1234567: Warszawa

P.....r

konto usunięte 03.08.2018, 11:50:45 via Wykop Mobilny (Android)

0

@pythongeek1234567 : Europa Zachodnia, jak bede po rekrutacji, to powiem wiecej :P