Wpis z mikrobloga

#programowanie #php #curl Witam. Miał ktoś z was kiedyś problem z kodowaniem znaków? Pobieram sobie treści ze strony przez cURL i własciwie w 80% przypadków wszystko jest ok, pobiera polskie znaki i wszystko gra. Problem nasuwa się wtedy gdy w jednym z fragmentów strony (konkretnie lewa górna częśc, napis (tytuł) w tagach h1) zawiera polskie znaki - wtedy cała treśc wyciągnięta przez cURL jest z krzakami (mimo że ta strona ma takie samo kodowanie jak strona której tytuł nie zawiera polskich znaków.

Jakieś pomysły ?
  • 33
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@anonim1133: Próbowałem, razem z mddetectencoding i nic. W ogóle nie wiem co to za kodowanie (nawet jak są krzaki to i tak pokazuje że to UTF8 (jak wyświetla poprawnie to też utf-8, więc to nie kwestia wyświetlania w przeglądarce))
  • Odpowiedz
@JareQ: Hm, a może sprawdź jakie kodowanie dostajesz w nagłówkach? Może w curl da się zmienić kodowanie? W sumie nigdy nie sprawdzałem, to nie wiem. ALe może coś podpowiem co CIę doprowadzi ;)

Szukał bym na stackoverflow "php curl encoding"
  • Odpowiedz
Wyświetla takie krzaczki jakby dwa razy zakodował do utf8, tylko teraz jak rozpoznać które to 2x zakodowane w utf8 ?

Kodowanie na każdej podstronie / stronie to utf-8, curl ma ustawione w nagłówkach accept-encoding: utf-8
  • Odpowiedz