Aktywne Wpisy

Bardamu +104
Mózg mi paruje jak pomyślę o ludziach biorących 500,600,700 i więcej tysięcy kredytu na kwadrat w wielkiej płycie. Brudne klatki, zapach farby olejnej na korytarzu, rury na wierzchu, żeberkowe kaloryfery i plusk kloca sąsiada wydobywający się w toalecie przez pion biegnący za tekturową ścianką. Dobrze, że nasi budowniczowie nie poszli w ślady tych radzieckich, bo do zestawu dochodziłby jeszcze fetor gnijących śmieci z sypu na klatce. W dodatku przez większość dni w
źródło: Zdjęcie z biblioteki
PobierzZawiera treści 18+
Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.





#python
Jak najlepiej zabrać się za naprawdę duży dataset?
Jeśli używasz Pandas do wczytywania danych, to spróbuj importować te jsony w częściach.
np. pd.read_json(r'../input/data.csv', chunksize=1000000)
Niemniej, polecam najpierw zastanowić się, co chcesz zrobić. Potem zrobić to na małej próbce. Następnie oczyszczać dane mnóstwo razy i próbować ponownie.
A jak wyjdzie już coś sensownego, to pandas.
I jeszcze zrzuć to do mniej pamięciożernego formatu. Csv może być, jeśli żadnej bazy danych nie używasz.
A Hdfs zostaw do faktycznie dużych danych.
Przeglądnij jakiś wycinek tego setu i zastanów się, co można by stamtąd wyrzucić, albo zmienić na coś "lżejszego", albo jeszcze inaczej zoptymalizować.
Co to są za dane ?
Komentarz usunięty przez autora