Wpis z mikrobloga

@PokoryDoZycia: takie kombinacje jak \n \f \0 \r ... oznaczają pewien niedrukowalny symbol ascii. Na wszelki wypadek zawsze używaj \ jako backslasha (zostanie on skompilowany do pojedynczego, ale unikniesz dzięki temu problemu że backslash może oznaczać coś wiecej)
  • Odpowiedz
@PokoryDoZycia: W którymś pliku musi być jakiś znak, którego nie może przetworzyć.

Możesz dodać, aby sprawdzić w którym konkretnie:
except UnicodeDecodeError:
print("In the " + filename + " file exists unicode error.")
  • Odpowiedz
@PokoryDoZycia:
co do pierwszego błędu '\f' jest znakiem formatowania, Python interpretuje znaki wewnątrz cudzysłowu. Możesz to obchodzić poprzez dwukrotny '\' lub wyłączyć interpretowanie stosując 'r'. tj.

filenames = [r'.....', r'....', r'10.10\france.txt']
znaki specjalne w python: link
Co do kodowania w Windows, to jest galimatias i magia, ludzie raczej wybierają Linuksa lub Maca. Tak czy siak, w kodowaniu znaków skryptów w PyCharm w ustawieniach wybierz UTF-8 a pliki pythona
  • Odpowiedz
@benedek: Do tego zadania pobrałem jakieś randomowe klasyki literatury z gutenberg.org, tekst który nie chciał się wczytać był w całości po hiszpańsku xD Teraz się zastanawiam czy po prostu Python nie radzi sobie z tym językiem
  • Odpowiedz
@PokoryDoZycia:
No to masz problem :) Szukaj kodowania windows dla Hiszpani by dekodować i to nie jest problem pythona lecz burdelu w windows. Świat dogaduje się co do standadów ISO, RFC itp a Microsoft zawsze był przed a nawet ponad.

tu masz wątek o dekodowaniu:
link
  • Odpowiedz