Wpis z mikrobloga

Skopiuj link

08.06.2016, 17:40:03

Mirki, tak się zastanawiam. Napisałem crawler w #pythonie, strony z ogłoszeniami,
1.wchodzi mi na listę
2.zbiera paginacje
3.chodzi po paginacji
4.wchodzi na ogorzenia
5. zbiera info i zapisuje do bazy

Generalnie takie główne kroki. Skrypt wykonuje zapis ok.5 ogłoszeń na sekundę.

I teraz moje pytanie jak by sobie poradził php7, ma ktoś jakieś linki do benchmarków czy czegoś takiego? ew. jakieś pomysły jak zoptymalizować kod?

#programowanie #php #php7 #pytaniedoeksperta

wiewior_s

08.06.2016, 17:41:46

@destyl: jak nie rzucisz skryptem to Ci nie powiem co można zoptymalizować ;) zamiast odpalania paru skryptów równolegle możesz je sobie wystartować w osobnych wątkach.

Diabl0

08.06.2016, 17:44:16

@destyl: zazwyczaj większym problemem są łącza i prędkość generowania strony niż sam crawler. Możesz trochę przyśpieszyć odpalając jednocześnie kilka wątków, ale pytanie co na to powie admin strony którą pobierasz.

m_bielawski

08.06.2016, 17:45:41

@destyl: php7 by sobie poradził tak samo, bo najwięcej tracisz zapewne na pobieranie strony. Użyj scrapy. Samo się ładnie zrównolegla, więc będzie #!$%@?ć requestami aż miło, a nie musisz tej logiki pisać samemu.

kao3991

08.06.2016, 17:49:27

@destyl: pisałem ostatnio pythonowego crawlera, i najwolniejsze okazało się samo oczekiwanie na odpowiedź serwera. Przyspieszyłem sprawę robiąc tak:
1. Pobieram listę ogłoszeń (czyli otwieram listing, przelatuję po stronach i dodaję do kolekcji urle do stron do scrapowania) - to działo się jednowątkowo.
2. Tworzę n wątków (n dobrałem doświadczalnie) których zadaniem jest wzięcie pierwszego urla z kolekcji, skasowanie go z tej kolekcji, a potem pobranie zawartości i wrzucenie do bazy -

destyl

08.06.2016, 17:54:29

@m_bielawski: używam scrapiego ( ͡º ͜ʖ͡º)

@kao3991: Hmm, nie bawiłem się jeszcze w wątki, masz może jakiś dobry manual? czy pytać #wujekgoogle ?

@Diabl0: Może porty pomogą, żeby się nie dowiedział? ( ͡° ͜ʖ ͡°)

m_bielawski

08.06.2016, 17:57:19

@destyl: jakie porty? Jak nie będziesz wysyłał zapytań z różnych adresów, to od razu widać, że to ten sam user. Zresztą nawet jak będziesz miał kilka, to łatwo je powiązać ze sobą jak będziesz naparzał 100+ requestów na sekundę.

destyl

08.06.2016, 18:02:16

@m_bielawski: *proxy ( pomyłka ), wtedy myślę że już nie będzie problemu? + używam opcji DOWNLOAD_DELAY ustawione na .5

qwelukasz

08.06.2016, 18:10:28

@destyl: Mały tip ode mnie: Jeżeli strona ma widok dla uderzeń mobilnych to użyj jego zamiast pełnej strony. Czasami takie strony działają dużo szybciej i krócej będziesz czekać na response

konto usunięte
piotrb

legolass

08.06.2016, 18:35:59

@destyl: Zainstaluj apachebench i następnie w konsoli ab -c 5 -t 5 zobaczysz jak wydajna jest ta strona z ogłoszeniami.

kozubix

08.06.2016, 18:55:29

@qwelukasz:
@destyl: no mysle ze w czasach bootstrapow i responsive web page strony waza tyle samo tylko widok jest inby

destyl

08.06.2016, 19:00:15

@kozubix: no właśnie, wszystkie RWD ( ͡° ʖ̯ ͡°)

qwelukasz

08.06.2016, 19:04:44

@kozubix: to źle myslisz, tutaj przykład strony którą ostatnio przerabiałem:

pełna wersja: http://rozklady.kzkgop.pl/index.php?co=rozklady&submenu=tabliczka&nr_linii=T11&nr_przyst=3&id_trasy=16896
do druku: http://rozklady.kzkgop.pl/wydruk.php?plik=przystankowo3_16896.php&numer_linii=T11

różnica może nie jest ogromna zauważalna przy scrappowaniu całego rozkładu jazdy.

Była jeszcze jakaś z MPK... tylko nie pamiętam jaka to była strona.
Tam zaś nie warto było scrappować strony bo rekordy zwracała jsonem :)

grrzes

08.06.2016, 19:15:03

@destyl: jesli PHP7 to tylko klient HTTP Guzzle - mozesz wyslac w jednym czasie wiele requestow - to sie nazywa concurrent requests (np 10 jednoczesnie) - ostatnio nawet robilem cos podobnego do scrapowania komentarzy :)

destyl

08.06.2016, 19:27:41

@grrzes: ala multithreading ( ͡° ͜ʖ ͡°) nie blokował Cie serwer? jakie czasy?

grrzes

08.06.2016, 19:31:37

@destyl: takk zgadza sie. pewnie to ile requestow w jenym czasie mozesz wyslac zalezy od dostepnego RAMu. a jezeli chodzi o czasy to tutaj zalezy jakie masz lacze i jak szybko odpowiadaja sewery docelowe. ale Guzzle to jest taki starndard w swiecie PHP jezeli chodzi o klienta HTTP

Kiro

08.06.2016, 19:55:20

Działa to zadziwiająco dobrze, zrobiłem tylko taki błąd że nie zadbałem o synchronizację dostępu do listy i zdarza się że dwa wątki pracują nad jedną stroną - ale w moim przypadku akurat to nie jest problem, marnuje się tylko chwilę czasu.

@kao3991: Queue.Queue albo collections.deque i masz z automatu rozwiązane :)

kao3991

singollo

09.06.2016, 08:46:46

@destyl: poradziłby sobie tak, jak byś go napisał. Może lepiej, może wolniej. Głównym bottleneckiem jest łącze, więc wybór języka jest pewnie drugorzędny.

Aktywne Wpisy

dzidek_nowak

dzidek_nowak +107

3 godz. i 26 min temu

Biedni ukraińcy xD
Macie przykład co o nas polakach myślą ukraińcy.
Przypadkowo trafiłem na jakiś film ukraińskiego kierowcy z granicy na FB a tam kilka tysięcy komentarzy a gdy w nie wszedłem to takie o to opinie przeważały xD

Pomijając już sam filmik gdzie ów kierowca kłócąc się z rolnikami i policją ciągle wyzywał ich od "bladzi".

No to macie #ukrofile swoich braci.

#ukraina #wojna #protest #granica #protestrolnikow

dzidek_nowak - Biedni ukraińcy xD
Macie przykład co o nas polakach myślą ukraińcy.
Pr... — **źródło:** temp_file5889972884582753744
Pobierz

whoru

whoru +1005

3 godz. i 18 min temu

Kupione w ciemno za jakieś grosze rok temu, psiknięte dwa razy. Nie mogę znieść tego zapachu, więc robię #rozdajo #perfumy nie wiem tylko czy ten syf można określić mianem perfum

Przesyłkę InPost opłaca wygrywający.

Losowanie dzisiaj o 21.

Udziału nie biorą: zielonki, użytkownicy z tagów pato mma gal

whoru - Kupione w ciemno za jakieś grosze rok temu, psiknięte dwa razy. Nie mogę znie... — **źródło:** IMG_5849
Pobierz

Aktywne Wpisy

Aktywne Znaleziska

Dorohusk. Protest rolników. Wicewojewoda został wygwizdany

Rolnicy chcą zablokować magazyn dystrybucyjny Biedronki. Sytuacja jest napięta

Wynajęła luksusową willę i za nią nie płaci. "Czuje się bezkarnie"

Zdjęcia nadesłane przez pracowników terminali oraz kierowców.

Firma reklamująca się lokalną mąką korzysta z ukraińskiej mąki za 8 mln zł.

Popularne tagi