Aktywne Wpisy
![Tymariel](https://wykop.pl/cdn/c3397992/Tymariel_GCZ2faGryI,q60.jpg)
Tymariel +215
Hej Mirki i Mirabelki. Wczoraj wskoczyła mi nowa odznaka. Jestem już na wykopie od 15 lat. Z tej okazji mam zaszczyt ogłosić, że organizuje #rozdajo 150€ dla jednego Mirka/Mirabelki!
Zasady:
- Zieloni nie
- pato tagi tez nie
- Daj plusa!
- kliknij w pajacyka! https://www.pajacyk.pl/
- W komentarzu wrzuć zabawnego mema, lub napisz na co by poszła wygrana
- czas na danie plusa i komentarza to 24h od dodania tego wpisu.
Zasady:
- Zieloni nie
- pato tagi tez nie
- Daj plusa!
- kliknij w pajacyka! https://www.pajacyk.pl/
- W komentarzu wrzuć zabawnego mema, lub napisz na co by poszła wygrana
- czas na danie plusa i komentarza to 24h od dodania tego wpisu.
![DzonySiara](https://wykop.pl/cdn/c3397992/DzonySiara_6e6Nf6zzp4,q60.jpg)
DzonySiara +569
Chyba najlepsze rozwiązanie jakie mogło zostać wprowadzone...
#technologia
#technologia
![DzonySiara - Chyba najlepsze rozwiązanie jakie mogło zostać wprowadzone...
#technolog...](https://wykop.pl/cdn/c3201142/ac5c17e2fddbf8c956f45aec1c0f90bafb4320e80950da348c3c60f826fa48a5,w150.jpg)
źródło: 1000019337
Pobierz
http://www.wp.pl/ - nie ma w swojej strukturze żadnych linków - widać to w źródle strony.
http://docs.celeryproject.org/ - przekierowuje do http://docs.celeryproject.org/en/latest/ co jest rozsądne ale jak zrobić uniwersalną regułę, która będzie przygotowana na takie sytuacje? Jak pobrać docelowy adres?
Czy są jakieś sprawdzone metody postępowania w takich sytuacjach? Czy są biblioteki, które ułatwiają normalizowanie url'i?
(na razie używam tylko BeautifulSoup)
#django #python #programowanie #beautifulsoup
@soma115: Jak to 'nie ma linków'? Może nie zrozumiałem pytania, ale przecież każdy art tam ma link.
@soma115:
* a.) Musisz mieć bajer, co ogarnia JSa: http://phantomjs.org/
* b.) Jest wersja z linkami: http://www.wp.pl/static.html
Normalnie – musisz podążać za redirectami (w rozsądnej ilości) – kwestia skonfigurowania pobieracza (chyba każdy ogarnia,
b) no też nie bardzo - zobacz źródło view-source:http://www.wp.pl/static.html - pustka ale ok - jest a) :)
Czy możesz mi podać jakieś przykłady 'pobieraczy'? Czy BeautifulSoup to potrafi? (sorry za gupie pytanie)
Normalizowanie czyli - usuwanie z adresów ?, mailto, www i innych znaczków i tego typu operacje żeby wszystkie zebrane linki były
@soma115: http://docs.guzzlephp.org/en/latest/request-options.html#allow-redirects
Nie wiem, nie używam Pytonga. Zajrzyj do dokumentacji.
Od parametrów może zależeć co strona zaprezentuje. Np
[http://example.com?page=news](http://example.com?page=news)
i[http://example.com?page=gallery](http://example.com?page=gallery)
to mogą być zupełnie inne rzeczy. Nie powinieneś ich wywalać.Ja bym raczej ignorował linki z mailto – przecież mejla nie pobierzesz ;-)
Ja tam widzę dużo linków, choć pewnie nie wszystkie (część nadal może być generowana dynamicznie).
@MacDada: A czym patrzysz? Bo ja po prostu 'pokaż źródło strony' w przeglądarce.
* Poczta
* Program TV
* WP.TV
* Gry
* Praca
* Zakupy
* ![]([http://d.wpimg.pl/1492908751--483649005/SK161003_01022459.jpg)"Jestem](http://d.wpimg.pl/1492908751--483649005/SK161003_01022459.jpg)"Jestem) matką. Rząd mnie zgwałcił". Tłumy na Placu Zamkowym
* ![]([http://d.wpimg.pl/1053043782-737679/332_329-gosiewska2.jpg)To](http://d.wpimg.pl/1053043782-737679/332_329-gosiewska2.jpg)To) oni stoją za strajkiem kobiet? Gosiewska uderza w protestujących
* ![]([http://d.wpimg.pl/410432855-892574306/332_191_ohme.jpg)Ohme:](http://d.wpimg.pl/410432855-892574306/332_191_ohme.jpg)Ohme:) nie pozwolę córce zostać w kraju, gdzie jej prawa są łamane
* ![]([http://d.wpimg.pl/1237673932-1044406435/332_191__macierewicz.jpg)Macierewicz](http://d.wpimg.pl/1237673932-1044406435/332_191__macierewicz.jpg)Macierewicz) kusi dodatkowym wynagrodzeniem nawet przez 6 lat. Co w zamian?
*
@soma115: Jakich konkretnie linków potrzebujesz i szukasz? Daj przykład.
Ja tam widzę sporo linków, więc chyba nie rozumiem do końca czego potrzebujesz.