Wpis z mikrobloga

Skopiuj link

02.04.2022, 22:16:53

mam kilka zmieniających się codziennie plików json. są dość duże, między 20MB a 150MB.
muszę je przefiltrować raz dziennie na podstawie kilku różnych warunków (m.in. ==, !=, len, regex)
plik 1 filtruję, na podstawie jego wyników filtruję 2 (mając dostęp do pojedynczego wyniku z 1), potem na wynikach z 2 filtruje 3, itd.
real life example: szukam serwera, do niego dopasowuję maszynę na której stoi, do maszyny dopasowuję jej zasoby i zliczam zużycie. wszystko zlicza się na podstawie filtrów zdefiniowanych w yamlu.

na początku robiłem to operując na zserializowanym do dicta (używając python-benedict) jsonie, gdzie iteruję po każdym wyniku i szukam dla niego wyników. dopóki miałem kilka megabajtów danych to było to wystarczająco szybkie. teraz dotarła lista partycji, która aktualnie ma 143MB i cały mój kod się zesrał, trwa to co najmniej 30 minut (po tylu anulowałem).

myślałem o przeniesieniu tego do jakiejś bazy i filtrowaniu tam, ale mam do wyboru jedynie mysql 5.7 (gówniane korpo wymogi), gdzie jsonquery było ledwo co wprowadzone.
próbowałem yaql, ale po załadowaniu dużego pliku nie chce odpowiadać na zapytania waląc wyjątkiem o zbyt dużym pliku.
myślę jeszcze o memcached/redisie

jakieś inne pomysły?

hitherto

srgs

02.04.2022, 22:19:52

@s3b4: moze bash i jq? te 140MB to jednak maly plik jest

s3b4

FantaZy

02.04.2022, 22:20:04

@s3b4: nie da się tego jakoś zrównoleglić?
ew. może dałoby się to jakoś wczytać do dataframe i potem korzystanie z operacji wektorowych ktore są szybkie

2ubRYlGqXdXxRAzXwRaQQ

02.04.2022, 22:26:35

@s3b4: sed, awk, sqlite

aloucie

02.04.2022, 22:27:04 via Wykop Mobilny (Android)

@s3b4: Jeśli masz tablicę obiektów to pytanie czy musisz ładować do pamięci, zamiast strumieniować? SQLite jak coś też potrafi ładnie operować na json.

krasik01

02.04.2022, 22:29:09

@s3b4: Json'a możesz odpytywać SQLem, mieliłem pliki Json po parę GB i śmiga jak złoto
https://docs.microsoft.com/en-us/sql/t-sql/functions/openjson-transact-sql?view=sql-server-ver15

s3b4

02.04.2022, 22:38:37

@srgs: widzę, że ktoś nawet napisał pythonowe bindingi do jq, więc spróbuję, dzięki.

@FantaZy: da się zrównoleglić, ale nadal skala tego będzie za duża. jeśli nie znajdę lepszego rozwiązania, to spróbuję tak, ale może czegoś nie znam. sprawdzę dataframesy.

@aloucie: muszę to pobrać z api, a potem nie mam żadnych większych ograniczeń.

@krasik01: nie mam dostępu do sqlserwera

FantaZy

02.04.2022, 22:44:27

@s3b4: wolaj co sie udalo

s3b4

02.04.2022, 22:51:22

@FantaZy: jak na razie pierwsze wygrywa, jq jest już na starcie tysiąc razy szybsze od poprzedniego rozwiązania - filtrowanie tego dużego pliku trwa poniżej sekundy (｡◕‿‿◕｡)

zostanie tylko przekonać twórcę filtrów, żeby ogarnął nową składnię...

FantaZy

02.04.2022, 22:52:45

@s3b4: co to jest to 'jq' ?

FantaZy

02.04.2022, 22:54:18

@s3b4: ok znalazlem: https://stackoverflow.com/questions/38220370/is-there-a-way-to-execute-jq-from-python

Aktywne Wpisy

MrMas

MrMas +737

6 godz. i 14 min temu

Zakazać trzymania psów powyżej 5 kg w blokach mieszkalnych i myślę że większość problemów z psiarzami i sfrustrowanymi psami się rozwiąże
A taki mały szczur to poleci jak się go kopnie więc problemu nie ma
Tak btw to uważam że trzymanie dużego psa w kawalerce to znęcanie się w pewnym stopniu

#psiarze

ZenujacaDoomerka

ZenujacaDoomerka +339

4 godz. i 57 min temu

Żadna kobieta urodzona po 1993 nie umie gotować, znają tylko McDonald, ładowanie telefonu,"twerkowanie", biseksualizm, jedzenie ostrych chrupkow, kłamanie

Aktywne Wpisy

Aktywne Znaleziska

Zamykają działalność w Olsztynie. Przenoszą produkcję do Chorwacji

Czesi przyznają. "Przyjęliśmy za dużo uchodźców z Ukrainy"

Polskie firmy IT zwalniają pracowników i tną ich pensje

Usunęli ze słupa bocianie gniazdo. PGE tłumaczy

Niemcy rok bez atomu. Kraj w kryzysie energetycznym, który sam stworzył

Popularne tagi