Wpis z mikrobloga

Skopiuj link

konto usunięte 30.01.2020, 10:21:15

Potrzebuję przeczytać bardzo długi plik csv (około 20 milionów linijek). Wiadomo, zajmuje to trochę czasu, dlatego zamiast czytać wszystkie linijki na raz to chciałem sobie czytać po około 2 tys. linijek. Zastanawiam się tylko czy jest jakiś sposób na czytanie plików od pewnego momentu (linijki)? Albo w jaki inny sposób powinienem podejść do tego problemu?
#python #programowanie

l.....e

konto usunięte 30.01.2020, 10:22:50

@SpacePotato: No zalezy co chcesz z tym robić.

S.....o

konto usunięte 30.01.2020, 10:29:49

@less_is_more: Potrzebuję przygotować wykresy z tych danych.

l.....e

konto usunięte 30.01.2020, 10:34:14

@SpacePotato: No to i tak musisz wczytać wszystkie linie. Pokaż pare linii z pliku i ktore dane potrzebujesz do wykresu.

asciiterror

30.01.2020, 10:36:36

@SpacePotato: wg https://stackoverflow.com/a/519653 open jest domyślnie leniwe, możesz zrobić tak żeby czytać linia po linii:

for line in open('really_big_file.dat'):
 process_data(line)

konto usunięte

S.....o

konto usunięte 30.01.2020, 10:43:28

@asciiterror: akurat nie mam problemu z czytaniem linia po linii. Większy mam problem z tym żeby rozpocząć czytanie od jakiejś konkretnej linijki, bo nie chcę znów czytać tego samego żeby dopiero po tym przejść do nowych danych.

@less_is_more: Na pewno? Wydaje mi się, że niekoniecznie. Mógłbym przecież pokazywać tylko część wykresu i doczytywać dane jeśli użytkownik chciał zobaczyć inną część danych. Dane wyglądają w ten sposób, gdzie pierwsza wartość to

S.....o - @asciiterror: akurat nie mam problemu z czytaniem linia po linii. Większy m... — **źródło:** comment_MSvS3T1rvkXWn7YZdx9FfpZHL7DjCy3h.jpg

l.....e

konto usunięte 30.01.2020, 10:45:04

@SpacePotato: No dlatego pytałem o to jak wygalda plik. W jakim przypadku chcesz przerwac czytanie pliku? To ma byc wczytywane za kazdym razem gdy user chce generowac wykres? Przenies to do bazy danych.

konto usunięte

zarev

30.01.2020, 10:48:03

@SpacePotato: Jakie to dane? Zmieszcza sie w pamieci? Ogolnie to mozesz uzyc pandas, jest duzo szybsze do obslugi CSV.

Inna opcja, jezeli zawsze przerabiasz CSV od 1 do ostatniej linijki to az sie prosi zeby uzyc generatora.

konto usunięte

asciiterror

30.01.2020, 10:51:15

@SpacePotato: jeśli chcesz rozpocząć czytanie od konkretnej linii pliku, to możesz popróbować z czymś takim:

with open('really_big_file.csv', 'r') as f:
 f.seek(start_position)
 line = f.readline()
 while line:
 current_position = f.tell()
 line = f.readline()

ale czy na pewno jest sens?

konto usunięte

S.....o

konto usunięte 30.01.2020, 10:52:44

@less_is_more: Powiedzmy, że wstępnie chciałbym przerywać czytanie co 2000 linijek. Wtedy wykres zostaje wykreślony i użytkownik może zadecydować, czy chce przeczytać kolejne 2000 próbek, czy może poprzednie 2000, a może 2000 próbek z jakiegoś dalszego momentu. W jednym momencie chciałbym przetrzymywać tylko te 2000 próbek.
Rozumiem, że przeniesienie do bazy danych będzie działać w ten sposób, że pierwsze przepisanie wszystkich danych do bazy zajmie sporo czasu, ale kolejne będą szybsze i

S.....o

konto usunięte 30.01.2020, 10:54:07

@asciiterror: Szczerze mówiąc to zależy mi na zmniejszeniu potrzebnej pamięci na przechowanie tego wszystkiego, bo tak jak pisałem wcześniej zajmuje mi to prawie 3GB RAM-u, a do tego długo się wczytuje co jest niewygodne.

l.....e

konto usunięte 30.01.2020, 10:55:19

Rozumiem, że przeniesienie do bazy danych będzie działać w ten sposób, że pierwsze przepisanie wszystkich danych do bazy zajmie sporo czasu, ale kolejne będą szybsze i będę mógł określić jaki zakres danych chcę czytać? Jak z pamięcią RAM w takim wypadku? Bo na chwilę obecną to przez wczytywanie całości do pamięci zajmuje mi to jakieś ~3GB.

@SpacePotato: No o to chodzi w bazach danych. 20M czystego tekstu to sporo, ale na

konto usunięte
Ilythiiri

S.....o

konto usunięte 30.01.2020, 10:59:35

@less_is_more: Tak podawał mi menedżer zadań kiedy puszczałem program na czytanie całości. Jest duża szansa, że nie robiłem tego najbardziej optymalnie ;)

asciiterror

30.01.2020, 11:00:18

@SpacePotato: wczytujesz to do zwykłej pythonowej listy? Każda pythonowa wartość ma spory narzut (liczba referencji, typ zmiennej, wielkość i dopiero wartość - powiedzmy 32B zamiast 8B dla inta.) Jakbyś użył np. Pandas zużycie pamięci powinno ci spaść na oko 4 razy.

To co podałem powinno działać, tylko musiałbyś mieć z góry obliczone offsety każdej porcji 2000 linii.
edit. dla zainteresowanych: pythonowy int w C wygląda mniej więcej tak:

struct _longobject {

konto usunięte

S.....o

konto usunięte 30.01.2020, 11:02:51

@asciiterror: Dokładnie tak, wykorzystuję listy. Przyjrzę się i Twojej sugestii z pandas i sugestii z bazą danych.
Dzięki :)

asciiterror

30.01.2020, 11:04:29

@SpacePotato: jeśli masz miejsce na dysku to baza będzie najlepszym rozwiązaniem. Do sytuacji gdzie tylko jeden uzytkownik korzysta jednocześnie z bazy (a tak masz) to sqlite jest bardzo w porządku, jest dostępne domyślnie w Pythonie.

konto usunięte

asciiterror

30.01.2020, 11:09:35

@SpacePotato: albo i pandas i baza ;)
możesz zapisać bezpośrednio do bazy bez bawienia się w pętle i parsowanie, RAM potrzebny tylko jeden raz:
https://stackoverflow.com/a/28802613
+ numery wierszy:
https://stackoverflow.com/a/49574839

konto usunięte

chrabia_bober

30.01.2020, 12:36:51 via Wykop Mobilny (Android)

@SpacePotato: Łoo panie listy to Ty z tego nie rób. Może jakiś generator lepiej. Tak jak tutaj :
https://stackoverflow.com/questions/17444679/reading-a-huge-csv-file

konto usunięte

zwei

30.01.2020, 14:51:09

Potrzebuję przeczytać

Potrzebuję przygotować

@SpacePotato: potrzebujesz to ty umiejętności posługiwania się swoim językiem

S.....o

konto usunięte 30.01.2020, 15:36:27 via Wykop Mobilny (Android)

@zwei: Ok Boomer

S.....o

konto usunięte 30.01.2020, 15:40:31 via Wykop Mobilny (Android)

@zwei: BTW nie zapomniałeś może o formie "Ty" z wielkiej litery i kropki na końcu zdania? Jak już się chcesz tak w puryzm bawić...

Aktywne Wpisy

D00msday

D00msday +46

6 godz. i 14 min temu

Teksty feministów "relacja 16-stki z facetem w wieku 25 / 30 lat to dosłownie pedofilia!!1111" pokazują, jak mocno w obecnych czasach represjonowana i zwalczana jest normalna, męska seksualność. Nie tylko zresztą męska seksualność, ale generalnie mężczyźni w obecnym systemie społecznym. Nawet tutaj na wykopie są ewenementy, które twierdzą, że macie się zamknąć, pod żadnym pozorem nie umawiać z młodszymi laskami i brać jakieś karyny w swoim wieku po peniso-karuzeli. A wszystko po