Wpis z mikrobloga

Skopiuj link

12.06.2019, 19:31:22

#datascience
#python

Jak najlepiej zabrać się za naprawdę duży dataset?

12.06.2019, 19:33:19

@IsambardKingdomBrunel: Znaleźć korelacje między jakimiś cechami? Nie żebym się znał, tak bym spróbował przynajmniej ja ale sam się uczę.

IsambardKingdomBrunel

12.06.2019, 19:38:44

@cl_master: Tzn chodzi mi o to że mam kilka milionów rekordów i muszę to jakoś przeanalizować, ale nie chcę by to trwało wieki.

vasper

12.06.2019, 19:45:33

@IsambardKingdomBrunel: No ale to przecież zależy, co chcesz uzyskać. Może nie potrzebujesz wszystkich tych danych, może da się to jakoś zmienić ich format, albo może najpierw przepuścić całość przez jakieś oprogramowanie do big data i dopiero później bawić się w konkretną analizę. Zależy, jak duży to jest dataset i co tam w środku jest.

IsambardKingdomBrunel

12.06.2019, 19:47:30

@vasper: Mam problem nawet z samym otwarciem json. Na pewno jest to dobrych kilka milionów rekordów w różnych plikach i 25 kolumnach. Żeby wiedzieć co z tym zrobić to muszę to jakoś przetworzyć. Wstępne googlowanie mówi mi o formacie HDF

vasper

12.06.2019, 19:57:06

@IsambardKingdomBrunel: Najprostsze rozwiązanie, to skorzystać z jakiejś chmury obliczeniowej.
Jeśli używasz Pandas do wczytywania danych, to spróbuj importować te jsony w częściach.
np. pd.read_json(r'../input/data.csv', chunksize=1000000)

IsambardKingdomBrunel

12.06.2019, 19:58:42

@vasper: Tzn to już sobie ogarnąłem na początku, ale jak pracować na pełnych danych? Przykładowo potrzebuję wykres zbudowany na pełnym datasecie.

maciejg

12.06.2019, 20:01:10 via Android

@IsambardKingdomBrunel kilka milionów, to nie jest takie znowu duże... Zwykły SQL podoła bez problemu.

Niemniej, polecam najpierw zastanowić się, co chcesz zrobić. Potem zrobić to na małej próbce. Następnie oczyszczać dane mnóstwo razy i próbować ponownie.
A jak wyjdzie już coś sensownego, to pandas.

I jeszcze zrzuć to do mniej pamięciożernego formatu. Csv może być, jeśli żadnej bazy danych nie używasz.

A Hdfs zostaw do faktycznie dużych danych.

vasper

12.06.2019, 20:05:07

@IsambardKingdomBrunel: Może Dask? I zmień może format tych danych, na chociażby .csv.
Przeglądnij jakiś wycinek tego setu i zastanów się, co można by stamtąd wyrzucić, albo zmienić na coś "lżejszego", albo jeszcze inaczej zoptymalizować.

bi-tek

12.06.2019, 20:18:15 via iOS

@maciejg @IsambardKingdomBrunel zmusiłem mysql do pracy z ok 350 mln rekordów w jednej tabeli i do tego join na 3 tabele i query generują się <1s na serwetki z 2gb ram.

Co to są za dane ?

maciejg

12.06.2019, 20:34:06 via Android

Komentarz usunięty przez autora

mrocznapszczola

12.06.2019, 21:40:21

https://github.com/modin-project/modin

Aktywne Wpisy

Bardamu

Bardamu +104

5 godz. i 9 min temu

Mózg mi paruje jak pomyślę o ludziach biorących 500,600,700 i więcej tysięcy kredytu na kwadrat w wielkiej płycie. Brudne klatki, zapach farby olejnej na korytarzu, rury na wierzchu, żeberkowe kaloryfery i plusk kloca sąsiada wydobywający się w toalecie przez pion biegnący za tekturową ścianką. Dobrze, że nasi budowniczowie nie poszli w ślady tych radzieckich, bo do zestawu dochodziłby jeszcze fetor gnijących śmieci z sypu na klatce. W dodatku przez większość dni w

Bardamu - Mózg mi paruje jak pomyślę o ludziach biorących 500,600,700 i więcej tysięc... — **źródło:** Zdjęcie z biblioteki
Pobierz

Zawiera treści 18+

Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.

Aktywne Wpisy

Zawiera treści 18+

Aktywne Znaleziska

Atak mieczem samurajskim na Dolnym Śląsku

Co promocje w sklepach potrafią zrobić z dorosłymi ludźmi

Rząd chce zmniejszyć dominację Orlenu na rynku gazu

Absurdy sądownictwa po gwałcie zbiorowym na 15-latce w Niemczech

Jak Fundacja Batorego (ta od Sorosa i Holland) finansuje nielegalną migrację

Popularne tagi