Wpis z mikrobloga

Skopiuj link

06.10.2016, 14:10:34

#python
Dzień dobry !
Mam pewien plik z całym syfem html itp. Udało mi się uzyskać już postać prawie idealną:
x1
;x2
;x3
;x4
;NEW_LINE
y1
;y2
;y3
;y4
;NEWLINE
x-ów i y-ów jest po 65szt, linii ponad 4000
Ostatecznie chciałbym żeby plik przypominał csv, czyli:
x1;x2;x3;x4....
y1;y2;y3;y4...

Pomoże ktoś ? Szukałem na necie podobnych rozwiązań, jednak jakoś nic mi nie działa tak jak powinno.
Ps. Tak, uczę się :P

wiewior_s

06.10.2016, 14:14:01

@czaq: wrzuć swój kod

czaq

06.10.2016, 14:16:13

@wiewior_s: trochę wstyd :P link

l.....i

konto usunięte 06.10.2016, 14:18:13

with open('input', 'rb') as input, open('output', 'wb') as output:
....buffer = []
....for line in input:
........if line == ';NEWLINE':
............output.write(''.join(buffer))
............buffer = []
........else:
............buffer.append(line)

venomik

06.10.2016, 14:22:07

@czaq:
Teoretycznie poprawne wykonanie to to wczytanie pliku jako filefoo z .readlines() i później:
for line in filefoo:
_if linestartswith(';')
__filefoo2.append(line)
_elif fine=='/n':
__pass
else:
__filefoo2.append(line + '/n')

W sumie to chyba na całym pliku możesz wykonać:
replace('/n;', ';').replace('/n/n', '/n') ;)

@czaq: line.strip()

@czaq:
1.najpierw przygotuj sobie stringa a potem go zapisz do pliku ;)
2. pliku nie musisz zamykać, konstrukcja 'with' już CI to załatwia
3. nie nazywaj zmiennej 'file'
ogólnie mi się wydaje że lepiej by było wyciągnąć to co chcesz z pliku, a nie oryginalny string edytować tym replacem... zobacz sobie regexpy (biblioteka re) i wyciagnij co tam chcesz z tych "<td class". nie jestem pewny czy jesteś w stanie przewidzieć

wiewior_s

06.10.2016, 14:28:10

@czaq: if line.startswith(find) == True: tutaj to == True jest zbędne. startswith samo w sobie zwróci Ci prawdę lub fałsz ;)

biwalencik

06.10.2016, 14:40:37 via Android

Dobrze by było zobaczyc skąd to wyciagasz. Może scraper, albo pandas byłoby o wiele lepsza metoda na wyciągnięcie danych z HTMLa.
I pytanie czytasz jakiegoś pikla, że otwierasz pliki binarne, czy tekst? Bo jak tekst, to wywal b z funkcji open.
To na szybko.

czaq

06.10.2016, 14:52:54

@luzny_lori: Nie działa :/ przepisuje plik identycznie jak było. Nie wiem czemu ..

czaq

06.10.2016, 14:56:17

@biwalencik: link
Generalnie to jest plik *.xls, ale po otworzeniu jest komunikat że jest to inny format niż rozszerzenie pliku. Po otworzeniu dane widać ładnie. Czyli xml

biwalencik

06.10.2016, 15:14:50 via Android

@czaq skoro to Xml, to masz ładny moduł, który pozwoli ci wyciągnąc dane z zagnieżdżonych pól.

Lxml

czaq

06.10.2016, 15:31:27

@biwalencik: dzięki, ale póki co, to do nauki chyba muszę najpierw to ogarnąć :)

biwalencik

06.10.2016, 16:02:17

@czaq:

from lxml import etree
doc = etree.parse('file.xml')

root = doc.getroot()
root.tag # wyswietli glowny tag xmla

# szukasz tagow na piechotke
children = root.getchildren()

# mozesz je sobie wypisac
for child in children:
_print child.text # albo child.tag, jelsi zagniezdzenie idzie dalej.

x = []
#jelsi znasz nazwe tagu zawierajacego dane
for elem in root.getiterator('ix'):
x.append[elem.text]

# mozesz wypisac wszystkie tagi z pliku i sprawdzic gdzies a dane
for

czaq

06.10.2016, 16:19:51

@biwalencik: podziękować

MnieTuNieMaJuz

06.10.2016, 18:17:40

@czaq: jeżeli to jest tak jak myślę, to ściągasz sublime.
Wciskasz shift + ctrl + f (czy coś, find & replace), zamieniasz '\n' na ''. Następnie zamieniasz 'NEWLINE' na '\n'.
Gotowe.

Aktywne Wpisy

Wiskoler_double

Wiskoler_double +25

6 godz. i 10 min temu

#szczecin
Szczecin ładny jest, trzeba tylko poszukać. Zdjęcie zrobione aparatem Fed 5 C, czarnobiałej fotografii czar.

Wiskoler_double - #szczecin
Szczecin ładny jest, trzeba tylko poszukać. Zdjęcie zrob... — **źródło:** 04 - Fied 5 c
Pobierz

stormi

stormi +56

5 godz. i 56 min temu

dlaczego ludzie, ktorzy sami nienawidza pracowac, jak uslysza, ze ja nie pracuje to mi gadaja jakies teksty ALE PRZECIEZ KAZDY POWINIEN PRACOWAC, TAK TO JEST NUDNO!!!!! no nuda w chj, o wiele lepiej bym sie bawila caly dzien w pracy

Aktywne Wpisy

Aktywne Znaleziska

Nowy sondaż. PiS depcze KO po piętach. Konfederacja na podium z wynikiem 11,7%

Pościg motocyklistów za pijanym kierowcą który wjechał w ich kolumnę

Kraje bałtyckie twierdzą, że mogą wysłać wojska na Ukrainę bez czekania na NATO

Policja w Zielonej Górze mierzy dźwięk z wydechów

Zawiera treści 18+

Popularne tagi