Wpis z mikrobloga

Skopiuj link

konto usunięte 15.03.2017, 13:35:50 via Android

Za pomocą MapReduce'a chce przekształcić plik csv (by dało to co pandas.unstack(), zmiana formatu tabeli z "szerokiego" na "wąską i długą"), napisałem prosty mapper i reducer, działa, tylko że wiersze w wyniku są oddzielone pustymi liniami.
Jak można to tak zredukować, żeby otrzymać plik a'la csv, bez pustych linii?

#hadoop #python #programowanie #datascience

meohaw

15.03.2017, 13:47:29

@krolikbartek: biorąc pod uwagę ile kodu pokazałeś to mogę ci tylko doradzić abyś przestał zapisywać puste linie do pliku ( ͡° ͜ʖ ͡°)

k.....k

konto usunięte 15.03.2017, 13:56:11 via Android

@meohaw Wydaje mi się że to nie kwestia kodu, tylko ustawień MapReduce'a, ale proszę:
mapper:
import sys
for line in sys.stdin:
line = line.split(',')
for id in range(len(line) -

k.....k

konto usunięte 15.03.2017, 13:57:17 via Android

morsik

15.03.2017, 13:59:26

Z telefonu piszę, więc zjadło wcięcia

@krolikbartek: nie wina telefonu. Wypok cannot into wcięcia ( ͡° ʖ̯ ͡°) Używaj jakiegoś pastebina zawsze. Ja polecam dpaste.de bo ładne kolorki ma.

meohaw

15.03.2017, 14:04:00

@krolikbartek: https://ideone.com/fL88AF
wejście zawiera nowe linie, więc jak nie chcesz ich na wyjściu to musisz je usunąć, na przykład z pomocą line.strip()

k.....k

konto usunięte 15.03.2017, 14:10:40 via Android

@meohaw super, dzięki, już odpalam na zmienionym kodzie:)

k.....k

konto usunięte 15.03.2017, 14:58:43 via Android

@meohaw dodałem jeszcze stripa do reduktora i wychodzi już poprawnie (+ zapomniałem pominąć pierwszy rząd )

k.....k

konto usunięte 15.03.2017, 15:50:41 via Android

@meohaw Podpowiesz mi może jak ładnie ominąć pierwszy wiersz w mapperze? Aktualnie mam ifa sprawdzającego czy wartość pierwszego pola z wiersza to 'timestamp', czyli coś co jest jest tylko w pierwszym wierszu.
Fajne byłoby obcięcie tego wejścia o pierwszą pozycję ( [1:] ), ale nie działa mi to w ten sposób