Wpis z mikrobloga

Cześć, pytanie do mirków programistów.
Projekt: Apka do rekomendacji najlepszej konfiguracji komponentów PC.
Problem: W jaki sposób najlepiej aktualizować ceny poszczególnych komponentów?
Scrapowanie sklepów internetowych? Ceneo?
Jeżeli scrapowanie to kiedy? Raz dziennie np w nocy aktualizacja całej bazy? Tzn iterowanie przez całą bazę, następnie request do strony produktowej, sprawdzenie ceny - jeżeli inna to aktualizacja? Wydaje mi się że to rażąco nieoptymalne ;/
#webdev #programowanie
  • 13
@Marmite: parę proxy + renderowanie strony(selenium,puppeteer) i bana nie dostanie lub karta sim(sposob na raspberrypi + modem usb gsm) i wtedy możesz nawet zwykłymi http jechać a co do @WebDevIsMyPassion: to na wszystkie te pytania musisz sobie sam odpowiedzieć bo to nie są rzeczy, które ktoś Ci powie bo tego nawet nikt nie wie :) cena w sklepie równie dobrze może się zmienić o 10 lub 22 musisz kombinować
via Wykop Mobilny (Android)
  • 1
@hiroszi: no mówię, jeśli masz podejrzenie ze ktoś cie scrapuje ale nie masz jak go złapać za rękę bo cały czas unika bycia zidentyfikowanym, to podrzucasz do bazy kontrolowane dane z dupy i sprawdzasz czy zostały zaindeksowane na tej innej stronie - jak tak, to masz dowód na scrapowanie
@Marmite: tylko, że możesz przez przypadek pokazać takie dane prawdziwemu klientowi na co nie może być miejsca. Firmy pokroju x-kom,ceneo itd... wolą być scrapowane niż dopuścić do skandalu dlatego nie ma się co martwić wiem to nawet z własnego doświadczenia :)

P.S poza tym nikt nie crawluje realtime a to, że ktoś po paru godzinach da taką samą cene to niczemu nie dowodzi tak naprawdę mógł to nawet ktoś ręcznie zrobić
Do zrobienia scrappera polecam Cloudflare Workers i ich HTMLRewriter który w większości przypadków powinien dać rade, ale można też użyć Cloudflare Workers jako proxy do pobierania danej strony (przez Fetch API) i zwracać HTML strony jako tekst i parsować u siebie na serwerze.
@WebDevIsMyPassion:

nie skrapuj bo szkoda wysiłku na bezsensowną pracę

1) napisz do kilku sklepów z pytaniem o dostęp do wsadu danych z aktualizacjami cen (wszyscy więksi takie generują, i idzie to do ceneo itp), oczywiście Tobie większość odmówi, ale starczy że ze dwa sklepy zgodzą się na to, i to wystarczy żeby opracować działający "proof of concept"

2) zajmij się zrobieniem swojej aplikacji tak aby działała z tymi danymi

3) potem
via Wykop Mobilny (Android)
  • 0
@hiroszi: czy nie może być miejsca to zależy, trzeba sobie skalkulować czy bardziej opyla się stracić jednorazowo dwóch prawdziwych klientów, czy mieć stratę wielu klientów przez pojawienie się konkurencji (nieuczciwej w dodatku). Realtime czy nie też nie ma tu nic do rzeczy, a ręcznie ok to nie jest scraping, ale i tak nie wiem czy czasem nie podpada pod kopiowanie treści bez zgody.

Tak czy inaczej, teoretyzujemy.
@Marmite: nie podpada bo sprawdzałem ogólnie no nie powiedziałbym "kilku klientów" poza tym nawet google i inne poważne firmy nie radzą sobię ze scrapowaniem ich danych to tym bardziej jakis ecommerce w Polsce sobie nie poradzi bo jakiś mediaexpert,mediamarkt,x-kom i reszta to nie są nie wiadomo jak wielkie firmy w porównaniu z np. Google, Amazon etc...