Cześć Mirasy ( ͡° ͜ʖ ͡°) możecie polecić jakąś praktyczną książkę o projektowaniu hurtowni danych (najlepiej w formacie na #kindle byłoby super gdyby była po polsku) Na podyplomówce z #hurtowniedanych w 2015/16 profesor z #politechnikapoznanska polecał coś podobnego chyba nawet swego autorstwa, ale nie mogę sobie przypomnieć :(
#it #bi #businessintelligence #programista15k #bazydanych #sql #dataengineering #ksiazki #helion
@michoopro: jak kolega wyżej podał, jeśli projektowanie hurtowni, to tylko biblia od Kimballa. Generalnie nie polecam się uczyć niczego po polsku w IT, od razu po angielsku. Więcej materiałów, znasz od razu słowa kluczowe, które czasem nie mają dobrego tłumaczenia na polski. Co do samej książki to jest co prawda napisana dość ciężkim językiem i momentami czyta się ją ciężko i nudno ale otwiera głowę w kwestii hurtownii i jak sobie
  • Odpowiedz
Ma ktoś do polecenia jakąś dobrą książkę w tematyce hurtowni danych? Chodzi o jakieś podstawy od zera dotyczące projektowania/ architektury itp. napisane językiem dla świeżaka. Jestem w trakcie książki "Modelowanie tabelaryczne" Russo, Ferrari i jak wspomnieli we wstępie, trochę się do tego odwołują i jednak stwierdzam, że potrzebuję więcej teorii w tym temacie ( ͡° ʖ̯ ͡°)

#businessintelligence #hurtowniedanych #powerbi #bazydanych #informatyka
@ode45: Jeśli zacząłeś od Russo i Ferrari to Kimball będzie absolutną klasyką - jak doradza @matti05 . https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/books/ .
ETL Toolkit trochę się zestarzał ale Dimensional Modelling cały czas daje radę.

Jeśli interesujesz się bardziej unowocześnionym podejściem to Star Schema Adamsona lub Agile Data Warehouse Design Corra przy czym ta druga pozycja skupia się bardziej na metodyce zwinnej dostarczania hurtowni. Tylko one i tak mają korzenie (a nawet i pnie ;)
  • Odpowiedz
Mirki z tagu #programista15k #programowanie od niedawana pracuję w firmie, gdzie tworzymy hurtownie danych dla takiego jednego banku w Polsce ( ͡° ͜ʖ ͡°). Dołączyłem od już do rozwijanego projektu i jako nowy developer zauważyłem kilka problemów jednym z nich jest brak chociaż 1 strony, powiedziałbym nawet brak pół strony dokumentacji jakiejkolwiek. I chciałbym jakoś to mniej więcej zacząć ogarnąć. W poprzednich firmach pisałem raczej tylko dokumentację techniczną,
Chciałbym się podszkolić pod kątem architektury hurtowni danych i modelowania danych. Mirki spod tagu #programista15k doradźcie co warto przeczytać na początek. Co sądzicie o tych trzech pozycjach, które znalazłem na helion.pl:
- Hurtownie danych. Od przetwarzania analitycznego do raportowania
- Modelowanie danych
- Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji

#hurtowniedanych #bazydanych #sql #it
@inny_89: Z doświadczenia to całe zasilanie powinno się odbywać w dwóch krokach Source - Extract, Extract - Stage. Oczywiście mówię o hurtowni zasilanej raz na dobę nocną porą.

1. Source - Extract - truncate docelowych tabel i zasilenie ze źródła. Tak jest najszybciej. Nawet jak masz tabele do 100 mln rekordów. Z produkcji zasilamy dane tak szybko jak to jest możliwe.

2. Extract - Stage - zasilenie przyrostowe. I tu już
  • Odpowiedz
@inny_89: https://stackoverflow.com/questions/38487667/overwrite-specific-partitions-in-spark-dataframe-write-method

Ustawia się to jedną linijką w configu:

spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")
Wybacz też wysoki poziom abstrakcji przy opisywaniu założeń. :)


@inny_89: spoko, generalnie nie zajmuję się hurtowniami jako takimi i nie mam generalnie zbyt dużej wiedzy o pracy z nimi, za to coś tam technicznego ze sparka mogę pomóc ( ͡° ͜ʖ ͡°)
  • Odpowiedz
Panowie od #bazydanych #datawarehouse #hurtowniedanych
Projektuje sobie design finalnego schematu DWH, który chcemy zbudować.

I teraz tak:
- mamy naprawdę spory zespół. A sam projekt schematu finalnej DWH jest dosyć lekko mówiąc "płynny"
- działania chociaż zmierzają w dobrym kierunku to czasami są nieco nieskoordynowane
- dłuższy czas nie było mnie w firmie i jak się okazało przez ten czas trochę porzucili trzymanie się tematu "projektowania" DWH, a trochę bardziej poszli na
@inny_89: raczej nie ma tu idealnego toola i zawsze zostanie trochę ręcznej roboty. Ja kiedyś przy pomocy sqldbm.com robiłem docelowy diagram i porównywałem ze stanem faktycznym przy pomocy reverse engineera czyli importowania skryptów ddl. Dla SQL Server nawet dobrze to chodziło. Notatki dodawałem albo tam na diagramie, albo w samym projekcie (komentowanie wersji) no i osobno jeszcze to było kopiowane/komentowane w narzędziu do zarządzania projektami.
  • Odpowiedz
Mirki, jak uczyliście się o hurtowaniach danych? Ostatnio bardzo zaciekawił mnie temat, a nie wiem jak się za to zabrać dobrze. Wykładowca pokazał nam taką książkę: https://docplayer.pl/14657239-Marcin-gorawski-michal-jan-gorawski-slawomir-bankowski-hurtownie-danych.html. Warto to czytać, czy może znacie bardziej efektowne dane, czy lepsze książki lub kursy ( ͡° ͜ʖ ͡°) Co do narzędzi, to jednak MS SQL Server, gdyż nie chcę za bardzo uciekać z tematem poza syllabus w tym momencie. Jeśli chodzi
#bazydanych #sqlserver #oracle #programowanie #java #hurtowniedanych

Mam bazę danych z wieloma tabelami. Jakiego użyć narzędzia, żeby przeanalizować dane w tej bazie?
Chodzi o podgląd tabel, zliczenia, agregacje, jakieś wykresy, porównania itd.

Teoretycznie mógłbym wszystko napisać z palca SQL-em i zrobić wykresy w Javie. Docelowo właśnie tak będę chciał robić raporty i jakieś bardziej skomplikowane rzeczy.

Ale teraz chciałbym na szybko móc przejrzeć zawartość tej bazy w jakimś narzędziu graficznym, wyciągnąć najprostsze rzeczy
Mirki, mam pytanie do specjalistów od architektury hurtowni danych pod PowerBI.
Aktualnie posiadamy w firmie kostki OLAP zasilane pakietami SSIS z ERP do bazy pośredniej (Stage) i następnie po przetworzeniu do hurtowni danych. Kostki OLAP utworzone są w modelu wielowymiarowym, serwer od kostek jest pozostałością po starej wersji Axapta ERP i jest w wersji SQL 2008 Standard, nowszy serwer pod ERP ma wersję SQL 2012 Standard.
Możliwe jest przerobienie wspomnianych kostek na
@admin_admin: A co chcesz osiągnąć? Chcesz po prostu mieć Dashboardy z Power BI na obecnych strukturach danych (kostkach)? Bo wtedy mógłbyś użyć Live Connection do SSAS ale to niestety wymaga by Analysis Services było Enterprise dla 2012, 2014 lub 2016, 2017 Standard, wiec musielibyście podnieść wersje. Ale wtedy każdy w Power BI Desktop mógłby darmowo łączyć się do kostek i tworzyć z nich dashboardy, a z Power BI Pro miałby dane
  • Odpowiedz
@madry_i_mieciutki: opiszę ci jeszcze typy wdrożeń pod Power BI z jakimi miałem do czynienia:

1) to pierwsze, czyli hurtownia i kostka OLAP (wielowymiarowa) stoi na Analysis Services (2012, 2014 Enterprise albo 2016, 2017, 2019 Standard). Wtedy możliwe jest Live Connection. Z Power BI Desktop za darmo a jak ktoś chce mieć apkę na telefonie albo PowerBI.com to musi mieć Pro (per user) by korzystać. Uprawnienia są po stronie serwera OLAP. Da
  • Odpowiedz
Mirczkami mam pytanie. W pracy "przypadkiem" nauczyłem się #sql i do tego #ssrs - sql server reporting service (pozdrawiam 2 obserwujących :D). Mam doświadczenie pomniejsze w #csharp i #python. Jest jakiś sensowny kierunek komercyjny, który można obrać mając w zanadrzu głównie SQL? Słyszałem o #businessintelligence ale nie wiem czy to sensowny kierunek(przynajmniej przy ssrs który jest mega toporny). Może jakieś #bigdata #hurtowniedanych? Nie mam znajomych znających temat więc chciałbym Waszych
@FishyGuy: Jeśli interesuje Cię "prawdziwe programowanie" to BI nie jest takowym, zdarzają się ale mało jest ofert gdzie zajmujesz się tylko i wyłącznie pisaniem kodu. Co Cię czeka w tej branży to tworzenie raportów i kontakt z klientem albo analitykami, raz mniej, raz więcej, zależy od projektu i profilu firmy. Jeśli wystartujesz w firmie, która zajmuje się typowymi wdrożeniami dla innych to spotkasz się też z analizami podczas których będziesz siedział
  • Odpowiedz
@FishyGuy: imho spokojnie mozesz zostać w środowisku SQL Servera. Tu już jest wiele opcji. Na BI najlepiej na początku być fullstackiem czyli liznąć wszystkiego po trochu tj. raportowanie (SSRS, Power BI, Excel, customowe mniej znane rozwiązania), ETL (SQL Server + SSIS, Azure Data Factory, ew. jakiś framework/DWA toole na to), tworzneie kostek OLAPowych (Analysis Services) Sama teoria dotycząca tworzenia hurtownii danych też jest potrzebna o ile nie planujesz zostać zwykłym klepaczem
  • Odpowiedz
Pytanie na serio:
Jaka przyszłość czeka język #scala?
Warto się tego trzymać? Aktualnie coś się bawię w jednym projekcie w firmie na Databricksach i głównie piszemy w Pythonie/pyspark ale przyznam szczerze ciągnie mnie do Scali niemiłosiernie.
Z drugiej strony większość projektów w mojej firmie piszą w #dotnet i jak już skończę ten projekt to w .net bym miał większe pole manewru.

Koncepcja Scali odpowiada mi przez jej wszechstronność. Ogarnę w tym

Mirki potrzebne wsparcie!
Dostałem zadnie do wykonania jako projekt na studia:
"Pomyśl, jaką hurtownię danych mogłaby stworzyć firma, w której pracujesz?
Czego oczekiwaliby kierownicy i analitycy biznesowi od takiej hurtowni?
Jakiego rodzaju analiz?
Jakich raportów?
Z jakich źródeł pobierałbyś dane do hurtowni?"

Poratuje ktoś przykładem jak się za to zabrać?
@Trent:
No to w czym problem?

Przykładowe raporty i analizy.

Ile średnio/max zamówień dziennie.
Ile średnio sztuk towaru w zamówieniu.
Ile paczek dziennie.
Ile dni minęło od ostatniej wysyłki poszczególnych SKU.
Ilu unikalnych klientów codziennie zamawia.
Ile różnych SKU jest na stanie.
Analiza ABC.
Średni czas realizacji zamówienia (od wysłania zlecenia kompletacji do gotowej do odebrania paczki).
Jaki procent wysyłanych sztuk wraca jako zwroty.
Które SKU są zwracane najczęściej.
  • Odpowiedz
#hurtowniedanych #bazydanych #java #oracle #datascience

Mam dużą bazę danych. Jednak czasem oprócz zwykłych operacji potrzebuję generować jakieś raporty czy zestawiania. Oczywiście jest to bardzo obciążające dla bazy danych (trwa to długo, przy generowaniu spowalnia cały system).

Pomyślałem, że chciałbym postawić obok coś w stylu hurtowni danych tylko do tych raportów i zestawień. Co ileś dni dane byłyby przerzucane z operacyjnej bazy do tej hurtowni.

Jak to rozwiązać?

1. Pierwsze co przychodzi na
@mk321: Spark jest popularny w światku jvm i rozwijany, teraz cisną bodajże structured streaming, generalnie do etl i ml się nadaje

Zeppelin, hmm... Też jest rozwijany chociaż nie widzę, żeby w jakimś szybkim tempie, wizualizacje, zależnie jak skomplikowanych potrzebujesz, są raczej dosyć proste, nie ma zbyt zaawansowanych opcji tworzenia wykresów, do tego lepiej użyć innych narzędzi, D3, matplotliby, ggploty czy co tam jeszcze jest w data analitycs popularne, ja używałem vegas-viz
  • Odpowiedz
Ktoś korzysta może z Pentaho Community na linuxie? Mam problem z odpaleniem.

Wchodzę do folderu biserver, odpalam plik start-server.sh, następnie łączęsię w przeglądarce z localhost:8080/pentaho gdzie wyskakuje mi logowanie. I dupa, podstawowy login i hasło Admin password nie działa, wyskakuje mi, że podałem złe dane. A jak złe dane kiedy dopiero odpaliłem świeżo ściągniętą wersję i nic nie zmieniałem?

#it #informatyka #hurtowniedanych
Właśnie udało mi się ogarnąć. Nie zaznaczyłem 'Replace variables in script' przy ładowaniu z tabeli. Zadziałało z samym dolarem, bez 'P'. W każdym razie dzięki za pomoc.
  • Odpowiedz