Aktywne Wpisy
![Bardamu](https://wykop.pl/cdn/c3397992/Bardamu_gmieD7eTV8,q60.jpg)
Bardamu +104
Mózg mi paruje jak pomyślę o ludziach biorących 500,600,700 i więcej tysięcy kredytu na kwadrat w wielkiej płycie. Brudne klatki, zapach farby olejnej na korytarzu, rury na wierzchu, żeberkowe kaloryfery i plusk kloca sąsiada wydobywający się w toalecie przez pion biegnący za tekturową ścianką. Dobrze, że nasi budowniczowie nie poszli w ślady tych radzieckich, bo do zestawu dochodziłby jeszcze fetor gnijących śmieci z sypu na klatce. W dodatku przez większość dni w
![Bardamu - Mózg mi paruje jak pomyślę o ludziach biorących 500,600,700 i więcej tysięc...](https://wykop.pl/cdn/c3201142/ae45fea66d33395e5f16149802519e28282d328eb94b759784e1da1888aa81ca,w150.jpg?author=Bardamu&auth=ae82b3d2942f70c1bbf12968f247822b)
źródło: Zdjęcie z biblioteki
PobierzZawiera treści 18+
Ta treść została oznaczona jako materiał kontrowersyjny lub dla dorosłych.
#python
Jak najlepiej zabrać się za naprawdę duży dataset?
Jeśli używasz Pandas do wczytywania danych, to spróbuj importować te jsony w częściach.
np. pd.read_json(r'../input/data.csv', chunksize=1000000)
Niemniej, polecam najpierw zastanowić się, co chcesz zrobić. Potem zrobić to na małej próbce. Następnie oczyszczać dane mnóstwo razy i próbować ponownie.
A jak wyjdzie już coś sensownego, to pandas.
I jeszcze zrzuć to do mniej pamięciożernego formatu. Csv może być, jeśli żadnej bazy danych nie używasz.
A Hdfs zostaw do faktycznie dużych danych.
Przeglądnij jakiś wycinek tego setu i zastanów się, co można by stamtąd wyrzucić, albo zmienić na coś "lżejszego", albo jeszcze inaczej zoptymalizować.
Co to są za dane ?
Komentarz usunięty przez autora