Wpis z mikrobloga

Dzień dobry, szukam biblioteki do webscrapingu, najważniejszym parametrem jest chyba szybkość. popróbowałem requests plus bs4, problem jednak w tym że jest wolno. Chce ten kod wsadzić do programu okienkowego, więc najchętniej bym przyspieszył jakoś dostęp do danych, by poprawić płynność.
#python #webscraping
  • 9
  • Odpowiedz
przyspieszył jakoś dostęp do danych, by poprawić płynność.


@Xardin: niech zgadnę, nie scrapujesz w osobnym wątku, prawda? Poczytaj sobie o threadingu.
  • Odpowiedz
@cohontes: Dzięki

@zwei: Również dzięki, choć trzeba zaznaczyć że na razie tylko testuje sam scraping i to nie tak wielkiej liczby obiektów, więc problemem jest chyba tylko te 2-4 sekundy logowania requests.
  • Odpowiedz
więc problemem jest chyba tylko te 2-4 sekundy logowania requests.


@Xardin: brzmi jak by problem był po drugiej stronie. sprawdź ile te requesty trwają.
(i też jestem za scrapy w wielu wątkach)
  • Odpowiedz
@emitar: jako element programu który opublikuje na githubie. Czyli ilekroć ktoś będzie chciał skorzystać, program będzie zaciągał te rzeczy.
  • Odpowiedz
@Xardin: zdajesz sobie sprawę, że niektóre strony są bardzo dynamiczne i xpath potrafi się dosyć często zmienić, więc taki kod na githubie może być po paru dniach już do poprawy.
  • Odpowiedz
@cohontes: Cześc, miałbym jeszcze pytanie do tego. Czy jestem w stanie używać stworzonego scrapera wewnątrz programu? No bo działa to tak że pobieram dane i następnie je przetwarzam, liczę, rysuje jakieś wykresy itd. Czyli potrzebuje mieć dane w programie. Te projekty w scrapy z tego co widzę są dosyć mocno samodzielne i nie wiem w zasadzie jak zescrapowane dane przechwycić bezpośrednio do programu na nich operującego, czy to jest możliwe? celuje
  • Odpowiedz