Wpis z mikrobloga

Cześć Wszystkim ????
Prowadzimy firmę zajmującą się pisaniem scraperów i pobieraniem danych z internetu.

Chcielibyśmy Wam pokazać jak wygląda nasza praca!

Dużo programistów myśli, że najważniejszy jest tutaj kod jak i sam scraper ????
Oczywiście są to rzeczy ważne, ale nie najważniejsze.

Przeżyjcie razem z nami przygodę obserwując jak powstaje: scraper danych – Steam Store!

Niestety będą to dłuższe posty ze screenami stąd musimy je opublikować na naszej stronie.

Dla zainteresowanych mamy nadzieję, że kliknięcie w link:
???? https://letsscrape.com/posty/steam-store-scraper-wstep/
nie będzie stanowić problemu!

O czym jest pierwszy post?
✔️ porównujemy sposoby pobierania HTMLa (HttpClient Vs Przeglądarka)
✔️ pokazujemy, że pisanie scraperów wcale nie jest takie proste jak się wydaje
✔️ szukamy pierwszej podstrony na Steamie do scrapowania
✔️ piszemy kod scrapujący
✔️ sprawdzamy zabezpieczenia strony
✔️ wrzucamy parę rad dla osób, które też chciałyby sobie "poskrapować"

Zapraszamy do lektury!
Komentarze, plusy (minusy ;)) mile widziane!

#programowanie #selenium #webdriver #csharp
#letsscrape - do obserwowania lub czarnolisto
  • 11
@letsscrape: zawsze mnie zastanawialo jak to się robi a konkretnie w jaki sposób pobiera się dane o praktycznie każdym produkcie:
1. czy jest jakiś index produktów które pobieracie
2. co gdy zostaje dodana nowa gra - jak szybko sie pojawia u was
3. jak często dane są aktualizowane
4. jak wiele adresów IP musicie mieć
@mirasKo-Kalwario: Fajne pytania zadałeś!

1. czy jest jakiś index produktów które pobieracie


Wszystko zależy od serwisu. Czasem jest ogólnie dostępny (np. w formie sitemap) a jeśli nie ma, to trzeba latać po listingach (to w ostateczności)

2. co gdy zostaje dodana nowa gra - jak szybko sie pojawia u was


rozumiem, że tutaj pytasz o Steama?

Tutaj jest inna sprawa. LetsScrape to nasza nowa "marka", która ma obsługiwać mniejsze firmy/developerów.
Scrapery
@letsscrape: żarik, żarcik ;)

A poważniej:

Jakie są obecnie sposoby na to aby nie zblokowano IP? lista 1000 serwerów proxy które randomowo sa uzywane do requestów? Ostatnio widzę (drogie) IP mobilne, które podobno są nie do zablokowania bo IP zalezy od polaczenia z wierzą mobilnego operatora?

To ogólnie dla mnie największy problem stawiania jakiejkolwiek apki która zalezy od scrapera. To że nie wiem kiedy, ale w koncu serwis/strona którą scrapuje, zorientuje
@Varin: postaram się odpowiedzieć najlepiej jak potrafię przy obecnej wiedzy na temat problemu
Jakie są obecnie sposoby na to aby nie zblokowano IP?


rzeczywiście coraz częściej widzi się mobilne IPki, ale masz racje... są drogie.
My nie korzystamy z mobilnych w żadnym scraperze ponieważ zazwyczaj pomaga:
- scrapowanie w losowych odstępach czasu - czyli nie atakujemy mocno servera
- używanie IP ale RESIDENTAL zamiast zwykłych STATICów
- reszta zależna od servera