Wpis z mikrobloga

Skopiuj link

12.08.2022, 09:57:03

Ładuje dane do postgresa, najszybszą metodą jest kopiowanie całej csv do bazy wykorzystując copy_from. Ja nie zapisuje csv tylko zapisują ją w pamięci czyli tworzę stream wykorzystując stringIO. Teraz pytanie jak poradzić sobie z dużymi plikami gdzie będę miał po kilkaset tysięcy/miliony wierszy. Chciałbym aby buffor był doładowywany na bieżąco a z drugiej strony konsumowany czyli dane z bufforu będą kopiowane/wrzucane do bazy danych.
#programowanie #python #bigdata

Saly

12.08.2022, 10:04:20

@PiotrokeJ: stringIO vs buffor był doładowywany: o co chodzi? StringIO trzyma całość w pamięci, jaki sens ma doładowywanie czegokolwiek?

Tank1991

jurny

12.08.2022, 10:04:22 via Android

@PiotrokeJ jakiś memory fs, gdzie zapisujesz batch csv i wrzucasz go do postgresa?

PiotrokeJ

12.08.2022, 10:14:42

@Saly: @jurny: Może opiszę jeszcze raz od nowa początek. Mam mikroserwis którego za zadaniem jest wrzucenie dataframe to bazy danych. Czasami ten dataframe będzie miał 1000 rekordów a czasami 1mln. Najszybszą metodą jest copyfrom, jednak żeby użyć copyfrom muszę mieć csv. Jako że nie chce zapisywać csv na storage to stwierdziłem ze zrobię stream czyli stringIO. Także cała csv ląduje do pamięci i potem robię copyfrom do

filozof900

12.08.2022, 10:19:22

@PiotrokeJ: no to podziel dataframe na mniejsze i laduj po jednej?

Tank1991

Wyrewolwerowanyrewolwer

12.08.2022, 10:22:27

@PiotrokeJ: https://github.com/PgBulkInsert/PgBulkInsert
To może Ci się przydać. Z rok temu musiałem ostro ładować postgresa i może i w pythonie szybko się kodowało, ale za to trwało to wieczność.
Z tym pgbulkinsertem ładowałem po milion rekordów w niecałą minutę z tego co pamiętam.

Saly

12.08.2022, 10:28:16

@PiotrokeJ: nie chcę mi się za długo nad tym myśleć, ale czy to nie da rady https://stackoverflow.com/a/55495065/4638604 ?

PiotrokeJ

12.08.2022, 10:34:47

@Saly: Może za bardzo kombinuje? Czyli wystarczy że mam takie coś? https://pastebin.com/7TfCw6KJ

Saly

12.08.2022, 10:40:08

@PiotrokeJ: ale tu jest problem, który (chyba) masz: konwertujesz cały df do .csv a tego chyba nie chcesz robić (bo dużo pamięci i można zrobić to w chunkach). Jak tego problemu nie ma to spoko

b0rn2frag

12.08.2022, 12:37:11 via Wykop Mobilny (Android)

@PiotrokeJ: napisz sobie file-like object który będzie streamowal i formatowal dane. Takie coś było u nas najszybsze, z zastrzeżeniem że na wejściu nie mieliśmy df.

Tank1991

12.08.2022, 13:21:50

@Saly: jedz readline po string io az zapelnisz swoj bufor(powiedzmy 200k wierszy), wtedy bulk insert, zeruj bufor i znowu do 200k i tak az wrzucisz

PiotrokeJ

12.08.2022, 16:17:00

@Tank1991: @b0rn2frag: @Wyrewolwerowanyrewolwer: @filozof900: @jurny: Bo Waszym propozycjach wybrałem chyba najprostrzą metodę. Dzielę dataframe na mniejsze paczki (po 20000 wierszy), wrzucam do buffora, potem do db, czyszcze bufor i ładuje kolejne 20k.

Tank1991

12.08.2022, 16:19:04

@PiotrokeJ: KISS ftw

Aktywne Wpisy

LuckyStrike

LuckyStrike +33

4 godz. i 55 min temu

Tyle zainstaluje się publicznych ładowarek do samochodów w Chinach vs reszta świata xD
#motoryzacja #chiny #tosachiny

Watchdog_Polska

Watchdog_Polska +302

4 godz. i 25 min temu

Od prawie 6 lat usiłujemy się dowiedzieć, kto miał dostęp do akt postępowań w sprawie katastrofy smoleńskiej. Najpierw odmawiano nam dostępu z powodu wciąż trwających postępowań, potem Prokuratura Krajowa uznała, że nasz wniosek jest nieprecyzyjny. Nie pomogły wyroki WSA i NSA, dlatego złożyliśmy skargę na niewykonanie wyroku. Więcej na ten temat na naszej www.
.
.
.
.
P.S. Od wczorajszego popołudnia wiadomo już, że wybory parlamentarne odbędą się 15 października.

Aktywne Wpisy

Aktywne Znaleziska

Milion złotych z resortu rodziny na reklamę 800+ w prasie

pomoc dla Jacka - operacja raka trzustki

Wycięto prawie 16 milionów drzew, aby zrobić miejsce dla farm wiatrowych

Sędzia z Iustitii zamknęła niewinną kobietę w areszcie!

Litwiniuk, RPP: BK2% jest proinflacyjny i nie pomógł ludziom tylko deweloperom

Popularne tagi