Wpis z mikrobloga

@IsambardKingdomBrunel: No ale to przecież zależy, co chcesz uzyskać. Może nie potrzebujesz wszystkich tych danych, może da się to jakoś zmienić ich format, albo może najpierw przepuścić całość przez jakieś oprogramowanie do big data i dopiero później bawić się w konkretną analizę. Zależy, jak duży to jest dataset i co tam w środku jest.
@IsambardKingdomBrunel kilka milionów, to nie jest takie znowu duże... Zwykły SQL podoła bez problemu.

Niemniej, polecam najpierw zastanowić się, co chcesz zrobić. Potem zrobić to na małej próbce. Następnie oczyszczać dane mnóstwo razy i próbować ponownie.
A jak wyjdzie już coś sensownego, to pandas.

I jeszcze zrzuć to do mniej pamięciożernego formatu. Csv może być, jeśli żadnej bazy danych nie używasz.

A Hdfs zostaw do faktycznie dużych danych.