Wpis z mikrobloga

Pytanie dla korposzczurow. Plik na 10 mln danych w Excelu do obrobienia ( analizy, wyliczenia wykresy itp) jaki to średni czas pracy dla typowego korposzczura i jakiej klasy to projekt. Bo nawet nie wiem w czym siedzę. A jestem ciekawa. #pracbaza #excel #korposwiat
  • 21
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@szynszyla2018: kilkanaście minut, jak wiesz co zrobić i wiesz jak zrobić.
Dłużej jak nie wiesz co zrobić ale wiesz jak zrobić i chcesz po prostu pomasować te dane i zobaczyć co wychodzi.
  • Odpowiedz
@szynszyla2018: power query - w godzinę ogarniesz 80% możliwości narzędzia, co pewnie zaspokoi 95% rzeczy, które chcesz w tym robić.
Model Danych - tu nie ma za dużo do nauki, więc niespecjalnie zajmie czasu.
DAX - czyli język przetwarzania danych z Modelu Danych - jakbyś potrzebował robić swoje proste miary (jakaś suma, średnia, liczba unikatowych wartości) - to taki totalny entry level kolejna godzina nauki, ale pełnia języka, która pozwala
  • Odpowiedz
@szynszyla2018: 10 mln to się nie mieści w excelu, chyba że użyjesz power query ale z tym nie mam doświadczenia
jeżeli to są ustrukturyzowane dane, trzeba je poagregować, coś wyliczyć i zrobić wykresy - to używam np python (pandas)

ewentualnie w czymś co obrobi 10 miliomów robię wstępną obróbkę w pythonie / R i dzielę na ileś tam małych excelików z których już da się robić wykresy / tabele

jeżeli
  • Odpowiedz
@szynszyla2018: vba ogarnie to w chwilę. Ale imo to trudny język do nauki. Power Query jest prostszym narzędziem i w miare szybko mozna nawet intuicyjnie się go nauczyć z wyjątkiem języka M, bo to ten sam case co vba.
  • Odpowiedz
@LucaJune:
Tak, to była moja mała prywatna hurtownia danych na potrzeby szacowania cyferek projektów -- przyjęcia i wysyłki towarów z ostatnich lat.
PQ pobierało dziesiątki plików .CSV z różnych źródeł, standardowo czyściło, normalizowało do kilku tabel, dodawało jakieś dodatkowe kolumny, które na tym etapie wygodniej zrobić niż w Power Pivot, całość leciała do Power Pivot, tam relacje między tabelami, tabela kalendarza, parę miar w DAX.
Odświeżenie tego trwało coś koło
  • Odpowiedz