Wpis z mikrobloga

Skopiuj link

konto usunięte 26.11.2015, 13:38:17

Mirki spod tagu #programowanie.
Mam dwa pliki:
1) zajmuje 5GB i jest w nim 150mln wierszy "nazwa liczba1 liczba2"
2) zajmuje 60MB i jest w nim 150k wierszy "nazwa liczba0"

Da się je skutecznie (tj. w rozsądnym czasie) połączyć względem kolumny "nazwa"?
W pliku wynikowym (będzie zajmował pewnie ze 200MB) mają być "nazwa liczba0 liczba1 liczba2".
Próbowałem w #python wczytać 150k wierszy - da się ( ͡° ͜ʖ ͡°), ale już znalezienie w 150mln i wypisanie ich do pliku będzie trwać ze 70h.
Próbowałem w #awk coś takiego:
awk 'NR==FNR {h[$1] = $2" "$3; next} {print $1,$2,$3,h[$1]} system("")' plik1 plik2 > plik3
ale właściwie stoi w miejscu i nic nie wypisuje do pliku.

Da się to zrobić szybciej? Czy pod osłoną nocy wrzucać to na klaster komputerowy? ( ͡° ͜ʖ ͡°)

#pytanie #pytaniedoeksperta

Cronox

Alkreni

26.11.2015, 13:38:55

@Siotson: Czy to są pliki tekstowe?

S.....n

konto usunięte 26.11.2015, 13:39:23

@Alkreni: tak jest

Alkreni

26.11.2015, 13:39:59

@Siotson: Spróbuję napisać coś w C++, może będzie szybsze.

mikkeboss

26.11.2015, 13:40:24 via Android

@Siotson: a możesz wcześniej posortowac po nazwie te rekordy? jak tak to chyba nie byłoby najgorzej.

S.....n

konto usunięte 26.11.2015, 13:41:56

@mikkeboss: są posortowane. W python szukam od konkretnego fragmentu tablicy i kończę od razu jak znajdzie.

Alkreni

26.11.2015, 13:42:21

@Siotson: Czy każda „nazwa” występuje w każdym pliku dokładnie jeden raz?

S.....n

konto usunięte 26.11.2015, 13:42:32

@mikkeboss: zaczynam też od miejsca w którym skończyłem (bo wiem, że wcześniej nie znajdzie). Tak więc wygląda to na przeszukiwanie liniowe ( ͡° ͜ʖ ͡°)

S.....n

konto usunięte 26.11.2015, 13:44:22

Czy każda „nazwa” występuje w każdym pliku dokładnie jeden raz?

@Alkreni: tak. Lepiej od razu wkleję fragmenty plików.

Plik 1)
BLG100.1.1 0.447679 -0.038985
BLG100.1.2 0.944482 -0.454577
BLG100.1.3 1.603496 -0.042718
BLG100.1.4 0.899882 0.302432
BLG100.1.5 0.266393 1.045791
BLG100.1.6 0.754660 0.066516
BLG100.1.7 0.744046 -0.056969
BLG100.1.8 0.440932 0.377768
BLG100.1.9 0.596077 0.000429
BLG100.1.10 0.108832 0.534986
...
Plik 2)
BLG100.1.2 reltot= 3.538064
BLG100.1.3 reltot= 4.255152
BLG100.1.6 reltot= 3.951874
BLG100.1.7 reltot= 2.941171
BLG100.1.10 reltot= 18.785726
...

S.....n

konto usunięte 26.11.2015, 13:44:57

@Alkreni: w drugim pliku można pominąć "reltot=" bo to śmieci.

Alkreni

26.11.2015, 13:46:26

@Siotson: Czyli można użyć liczby po ostatniej kropce jako indeks tablicy/wektora?
Dla BLG100.1.9 indeks to 9?

S.....n

konto usunięte 26.11.2015, 13:46:27

Komentarz usunięty przez autora

mikkeboss

26.11.2015, 13:47:07 via Android

@Siotson: jak na moje to ogarnij zagadnienie takie jak sortowanie taśmowe, raczej dałoby radę to przerobić na łączenie, a to o tyle fajne ze w jednym czasie nie wczytuje całego pliku tylko wycinek. w google wpisz chomikuj struktury baz danych semestr 5 to będzie przykład programu takiego ;)

Alkreni

26.11.2015, 13:48:40

@Siotson: Czy każda nazwa rozpoczyna się od "BLG100.1." a potem liczba porządkowa?

S.....n

konto usunięte 26.11.2015, 13:50:27

@Alkreni: kod w python na szybko (więc się nie śmiać, że ch*owy) http://pastebin.com/0P0qJn7n
Nie. Wszystkie zaczynają się od BLG, a potem liczba 100,101,102..., potem 1, 2, 3 i tak dalej.
@mikkeboss: w sumie można spróbować. Jak coś mi wyjdzie to dam znać.

Alkreni

26.11.2015, 13:51:32

@Siotson: Ok, nie ma tak łatwo. ( ͡° ͜ʖ ͡°)
Co należy zrobić, jeśli dany rekord nie ma liczby0 z mniejszego pliku?

Narkan

26.11.2015, 13:53:07

@Siotson: może access przyjmie taką liczbę wierszy ( ͡° ͜ʖ ͡°)

Alkreni

26.11.2015, 13:56:18

@Siotson: http://www.ats.ucla.edu/stat/spss/modules/merge.htm

teherty

26.11.2015, 13:58:21

@Siotson: czy nazwa jest unikatowa? co robisz z tymi co występują w pliku1 a nie w pliku2?

G.....n

konto usunięte 26.11.2015, 13:59:02

@Siotson: Są posortowane? Jeśli tak, to użyj algorytmu sort-merge join.

marionez

26.11.2015, 14:00:03

@Siotson:
# rozbierz duzy plik na malutkie
while read line; do echo "$line" > folder/$( echo "$line" | cut -d' ' -f1 ); done < input.txt
# polacz malutkie w wyjsciowy, jesli malutki pasuje
while read line; do nazwa=$(echo "$line" | cut -d' ' -f1); (test -e folder/"$nazwa" && awk -vL="$line" '{print "$L "$0 }'); done > output.txt

luki-p

Aktywne Wpisy

Suchutkowy

Suchutkowy +11

3 godz. i 29 min temu

Czyli Brudas z Lasu i Oskarek robili sobie wydzieranki ze screenów byle by pasowały do ich narracji... nie mówię, że Dubiel jest teraz niewinny bo i tak dużo sytuacji się nie klei ale jak się okazuje Ci internetowi szeryfi to zwykli oszuści. 0 wiarygodności. Jak mi powiecie, że to "outstanding move niczym w Grze o Tron, pułapka na Boxdela i Dubiela" to mam jedynie receptę żebyście zaj€bali baranka w ścianę. Bo chciałbym

TheFunGuy

TheFunGuy +6

4 godz. i 12 min temu

#famemma Powoli zaczynam sobie uświadamiać że na tym tagu siedzi najgorszy margines społeczny. Cała ta afera obnaża nie tylko samych w sobie influencerów, ale całą społeczność internetową. Reakcja wykopków na filmik Boxdela i Dubiela jest conajmniej żałosna, ludzie Wy naprawdę nie widzicie sensownych argumentów, które jednak przedstawiają cała sytuację inaczej niż to jak to zrobił Wardęga z Konopem?

Tag na którym ludzie propsuja już od lat patologie (przyznaję, często potem się od

Aktywne Wpisy

Aktywne Znaleziska

Obywatelski apel Makłowicza.

Irlandzki polityk o konflikcie między Palestyną a izraelem.

Szokujący fakt z życia Kaczyńskiego - groził bronią Tuskowi?

Kazik Staszewski w szpitalu. Kult odwołuje koncerty w najbliższych dniach :(

Przypomnijmy koronawirusowy zamordyzm. Zakaz wstępu do lasów...

Popularne tagi