Pytanie dla korposzczurow. Plik na 10 mln danych w Excelu do obrobienia ( analizy, wyliczenia wykresy itp) jaki to średni czas pracy dla typowego korposzczura i jakiej klasy to projekt. Bo nawet nie wiem w czym siedzę. A jestem ciekawa. #pracbaza #excel #korposwiat
@szynszyla2018: kilkanaście minut, jak wiesz co zrobić i wiesz jak zrobić. Dłużej jak nie wiesz co zrobić ale wiesz jak zrobić i chcesz po prostu pomasować te dane i zobaczyć co wychodzi.
@szynszyla2018: power query - w godzinę ogarniesz 80% możliwości narzędzia, co pewnie zaspokoi 95% rzeczy, które chcesz w tym robić. Model Danych - tu nie ma za dużo do nauki, więc niespecjalnie zajmie czasu. DAX - czyli język przetwarzania danych z Modelu Danych - jakbyś potrzebował robić swoje proste miary (jakaś suma, średnia, liczba unikatowych wartości) - to taki totalny entry level kolejna godzina nauki, ale pełnia języka, która pozwala
@szynszyla2018: 10 mln to się nie mieści w excelu, chyba że użyjesz power query ale z tym nie mam doświadczenia jeżeli to są ustrukturyzowane dane, trzeba je poagregować, coś wyliczyć i zrobić wykresy - to używam np python (pandas)
ewentualnie w czymś co obrobi 10 miliomów robię wstępną obróbkę w pythonie / R i dzielę na ileś tam małych excelików z których już da się robić wykresy / tabele
@szynszyla2018: vba ogarnie to w chwilę. Ale imo to trudny język do nauki. Power Query jest prostszym narzędziem i w miare szybko mozna nawet intuicyjnie się go nauczyć z wyjątkiem języka M, bo to ten sam case co vba.
@LucaJune: @Italian_plumber W samym arkuszu tak. Ale model danych limitowany jest tylko pamięcią ram. Kiedyś dobilem do 170 mln rekordów przetwarzanych w jednym pliku.
@LucaJune: Tak, to była moja mała prywatna hurtownia danych na potrzeby szacowania cyferek projektów -- przyjęcia i wysyłki towarów z ostatnich lat. PQ pobierało dziesiątki plików .CSV z różnych źródeł, standardowo czyściło, normalizowało do kilku tabel, dodawało jakieś dodatkowe kolumny, które na tym etapie wygodniej zrobić niż w Power Pivot, całość leciała do Power Pivot, tam relacje między tabelami, tabela kalendarza, parę miar w DAX. Odświeżenie tego trwało coś koło
Dłużej jak nie wiesz co zrobić ale wiesz jak zrobić i chcesz po prostu pomasować te dane i zobaczyć co wychodzi.
Model Danych - tu nie ma za dużo do nauki, więc niespecjalnie zajmie czasu.
DAX - czyli język przetwarzania danych z Modelu Danych - jakbyś potrzebował robić swoje proste miary (jakaś suma, średnia, liczba unikatowych wartości) - to taki totalny entry level kolejna godzina nauki, ale pełnia języka, która pozwala
jeżeli to są ustrukturyzowane dane, trzeba je poagregować, coś wyliczyć i zrobić wykresy - to używam np python (pandas)
ewentualnie w czymś co obrobi 10 miliomów robię wstępną obróbkę w pythonie / R i dzielę na ileś tam małych excelików z których już da się robić wykresy / tabele
jeżeli
W samym arkuszu tak.
Ale model danych limitowany jest tylko pamięcią ram.
Kiedyś dobilem do 170 mln rekordów przetwarzanych w jednym pliku.
Tak, to była moja mała prywatna hurtownia danych na potrzeby szacowania cyferek projektów -- przyjęcia i wysyłki towarów z ostatnich lat.
PQ pobierało dziesiątki plików .CSV z różnych źródeł, standardowo czyściło, normalizowało do kilku tabel, dodawało jakieś dodatkowe kolumny, które na tym etapie wygodniej zrobić niż w Power Pivot, całość leciała do Power Pivot, tam relacje między tabelami, tabela kalendarza, parę miar w DAX.
Odświeżenie tego trwało coś koło
@Polinik: Ile wazyl taki plik? Moj PBI niecale 2GB, niecale 77 milionow wierszy.
źródło: image
Pobierz