Siema mirki. Mam rozmowę na posadę Data Engineering Intern w Santanderze. Ktoś miał może taką rozmowę i chce się podzielić pytaniami( nie chodzi o santandera ale ogólnie na podobne stanowisko)? Nie powiem stack wymagany jest dosyć spory(Tableau, Spark, Kafka, Hadoop, Python, Flink, roziązania Cloudowe). Podstawy mam dosyć dobre jeżeli chodzi o Big Data, Hurtownie Danych i robiłem trochę we wszystkim zwłaszcza w PySpark, ale nadal się trochę cykam. ( ͡° ͜
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Popcornn1: Już po. Spoko było chyba. Pytanka typowo pythonowe z przykładami kodów co robią(lambdy, jakieś funkcje, listy etc.), zadanka jakieś logiczne i wyjaśnienie co to hurtownie danych, po co są, etc. Ogółem specyficzna bardzo rozmowa bo nie było żadnych pytań z sekcji soft skill(dla mnie na plus mocno) i sami prowadzący rozmowy byli k--s. ( ͡ ͜ʖ ͡)
  • Odpowiedz
konto usunięte via Wykop Mobilny (Android)
  • 7
Mirki, jest tutaj ktos pracujacy, jako Data Engineer? Mam zagadke, poniewaz zaoferowano mi takie stanowisko na internship/traineeship, ale nie mam pojecia, czy to bedzie faktycznie interesujace dla mnie. Lubie machine learning, deep learning, data science, ale data engineering wydaje mi sie mocno backendowym zajeciem, ktore zwyczajnie moze mi sie znudzic. Chcialbym porozmawiac z kims, kto ma z tym stycznosc na codzien, moze to wyglada zupelnie inaczej, niz moje wyobrazenie. Bede bardzo wdzieczny
  • 11
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Dobrze rozumiem że baza NoSQL pozbywa się całkiem relacji, więc wiele danych w niej jest po prostu dublowana?
Załóżmy bazę z dwoma tabelami, autorzy i książki, tabela autorzy zawiera autorów: imię, nazwisko, rok urodzenia, skąd pochodzą, narodowość i masę innych rzeczy a książki to tytuł, gatunek, ilość stron itd...
W podejściu relacyjnej bazy w książkach mielibyśmy id do autora taki zwykły integer.
W podejściu NoSQL do x książek tego samego autora przypisywane jest x razy te same dane dotyczące autora.
Teraz autor Y umiera i aktualizujemy informację o nim:
w relacyjnej bazie zmieniamy 1 rekord,
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Ginden: No tak, myślę trochę pod sql, gdzie do książek dopisuje się autora, w nosqlowym rozwiązaniu to jest bardziej naturalne i do autora przypisuje się książki, w takim wypadku to ma sens i dane się nie dublują w rozwiązaniu

[
{autor: [
  • Odpowiedz
@michal__q: zależy jaka NoSQL. NoSQL to tylko nazwa nurtu, jest kilka rodzajów baz i "struktur danych". Np. grafowa baza danych da Ci dużo lepszą wydajność na danych które przedstawiają relację, bo naturalnie je odzwierciedla (w przeciwieństwie do relacyjnych baz danych ;) ). Na grafie od jednego autora (węzeł grafu) masz x relacji do książek które napisał. W przypadku wspomnianej śmierci autora również zmieniasz tylko info w węźle autora, nie musisz
  • Odpowiedz