Wpis z mikrobloga

Skopiuj link

25.06.2015, 18:19:29

Mam w pliku binarnym zmultipleksowane dane (załóżmy, że każda litera to 2 bajty, dane to konkretnie int16):

ABCD ABCD ABCD
Jak wczytać w Pythonie tylko co któreś 2 bajty (tzn. w przykładzie tylko dane litery, np. tylko A)?
Jedyne co na razie wymyśliłem to:
zrobić sobie pustego stringa
file.read() - żeby przeczytać bajt i go dodać do tego stringa
file.seek() - żeby przesunąć się na kolejną pozycję

i na końcu użyć numpy.fromstring()
Da się to zrobić jakoś wydajniej? Albo chociaż ładniej?

#python #programowanie

xxen

25.06.2015, 18:37:06

@Lempek: Czytać wszystko dużymi blokami, a następnie mając dane w pamięci "skakać" iteratorem.

arrent

frax

25.06.2015, 18:40:06

@Lempek: Jeżeli nie boli cię pamięć, to możesz chyba zrobić coś w rodzaju [byte for i, byte in enumerate(file.read()) if i % 5 < 2]. Oczywiście wyrażenie na końcu trzeba odpowiednio dostroić, no i w ten sposób dostajesz tablicę pojedynczych bajtów, a nie po 2, więc dalej trzeba to jakoś przetworzyć, ale w każdym razie pozbywasz się brzydkiej pętli - przynajmniej chwilowo. Jak będę miał pomysł, jak to rozwinąć w

arrent

Pipcieo

25.06.2015, 18:45:50

Komentarz usunięty przez autora

frax

25.06.2015, 19:31:31

@Lempek: Wyszedł mi najpierw taki potwór:

bytes = file.read()
[(byte1, byte2) for i, byte1, byte2 in zip(range(len(bytes)), bytes, bytes[1:]) if i % 4 == 0]

Niewydajne i obleśne, ale w jednym wyrażeniu :P

Natomiast sensownym rozwiązaniem może być to, zwięzłe i chyba czytelne:

numpy.fromstring(file.read(), dtype=numpy.int16)[::4]

Lempek

25.06.2015, 19:32:58

@frax: dzięki, sprawdzę. Pliki mogą mieć do kilku GB więc... wydajność by się przydała ;d

frax

25.06.2015, 19:50:15

@Lempek: To możliwe, że trzeba plik wczytywać w kawałkach, cały może się w RAMie nie mieścić.

Drugą wersję można próbować przyspieszyć, omijając konwersję niepotrzebnych danych, ale jeżeli fromstring jest dobrze zoptymalizowane, to to wcale nie musi specjalnie pomóc - w sumie nie jest całkiem wykluczone, że to co napisałem jest bliskie optimum.

c.....o

konto usunięte 25.06.2015, 20:13:13

@Lempek: jeśli plik jest duży najlepiej napisać pętlę (albo generator) czytającą jakiś chunk (np. 4096 bajtów) i parsować dane w locie, z uwzględnieniem "ciekawych przypadków", czyli np. fragmentów interesującego ciągu leżących na złączeniu dwóch chunków.

Aktywne Wpisy

NaczelnyWoody

NaczelnyWoody +560

5 godz. i 49 min temu

Ze wszystkich #mlm scamów najbardziej udanym jest bez wątpienia sekta Thermomixiarzy xD
Nakłonić jelenia na jakieś pseudoszkolenia i zakup jakiegoś starter packa z kosztem 500 zł na minusie a nakłonić jelenia na zakup gara z WiFi za 6000 zł to jest mistrzostwo świata xD
I to wszystko są młodzi ludzie, którzy śmieją się ze starców że są naiwni i kupują zwykłe garnki za kilka tys zł xdd

#frajerzyzmlm #thermomix #bekazpodludzi #quovadis

mickpl

mickpl +377

5 godz. i 31 min temu

Orlen zaniża (lol) ceny paliw pod wybory, rząd ustalił sztucznie niższe ceny energii, Mati zastopował podwyżki biletów PKP, cały czas obowiązuje tarcza na żywność jeśli chodzi o VAT, założony deficyt budżetowy rekordowy - trudno wszystko zliczyć. Rząd nie śpi, bo trzyma kredens.

Pamiętajcie, że wszystko jest pod kontrolo XD

To nie będzie Turcja ani Węgry. To będzie Scenariusz Polski, proszę zapiąć pasy.

#inflacja #ekonomia #gospodarka #nieruchomosci #stopyprocentowe

Aktywne Wpisy

Aktywne Znaleziska

Igor Girkin chce być prezydentem, zobaczyć lekarza i wrócić do domu

J.K. Ardanowski: Obserwuję dziwne zachowanie ze strony Ukrainy. Politycy mówią j

Laweta z Teslami Model Y w rowie.

Czechy: 21 lat więzienia dla czeskiego snajpera walczącego po stronie Rosjan

Trans-lobbystka sprowadzona do parteru przez psychiatrę za pomocą dowodów naukow

Popularne tagi