Szukam opcji dla pobierania postów z grup FB, których jestem członkiem. Większość scraperów lub usług typu B24 ogranicza się do publicznych grup (co jest zgodne z zasadami FB). Mam konkretne słowa kluczowe, które chcę wyłapywać. Jak się domyślam, FB szybko blokuje próby odświeżania XX grup i pobierania ich postów - stąd może ktoś ma inne sprytne rozwiązanie, jak np. bazowanie na powiadomieniach.

#scraping
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 0
@throaway: nic niestety, podobno bardzo mocno banują i ciężko to ominąć - ale jeśli masz na celu promocję czegoś to przyznam że obecnie reklamy mety bardzo precyzyjnie trafiają w klientów (w tym grup) i po nastu latach udało mi się trafić w końcu do klientów bez marnowania 95% budżetu. Głównie zasługa podsłuchiwania - ktoś wspomina obok telefonu o materacu i pyk, reklama materacy. Wiadomo, to od dawna trochę tak wyglądało,
  • Odpowiedz
Pytanko, chciałbym pobrać dla 50k domen ich certyfikaty SSL
Dla serwera hostującego to żadne obciążenie 1 request bez strony sam handshake SSL, pytanko tylko czy np ISP może mnie zablokować lub hostingodawca ze uderzam do tak dużej liczby pojedynczych domen?

#isp #sysadmin #sieci #scraping #datascience
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Mam jakieś 1k linków do aukcji konkurencji (docelowo pewnie bym chciał do 10k aukcji) z których chcę pobierać dane do raportu w PowerBI, dokładnie cenę i ilość (albo prosto do PowerBi albo przez skrypt pythona i wtedy do PowerBI).

Nie interesuje mnie moment pobrania tych 1k-10 aukcji, bardziej interesuje mnie kwestia odświeżania danych, czyli ceny oraz ilości.

Czy allegro szybko wyłapują takie ruchy przy takiej ilości? Jakiś sposób na obejście, sprawdzone metody? Czy
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@junus123: Wszystkie strony blokują dużą liczbę zapytań i odpowiadając @thebigshort - tak, do minuty (max kilku, zależy od ilości zapytań) Cię wyłapią i będzie captcha. Oczywiście da się obejść, ale do tego potrzebujesz zainwestować w rotator z przyzwoitą pulą.
  • Odpowiedz
#scraping #webscraping #selenium

czy ktoś używał z was serwisów typu zenrows do scrapowania danych? Zazwyczaj radziłem sobie ze zmianą headerów, ewentualnie mniejsze batche, jakieś darmowe proxy. Teraz problem jest taki, że wystarczy otworzyć 5 kart z danej strony i już jest podejrzenie bycia botem :P dlatego rozkminiam nawet takie portale.
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#anonimowemirkowyznania
Cześć, z góry zaznaczam, że nie mam konta na wykopie i nie mam się kogo poradzić. Od razu podam tagi #programowanie #naukaprogramowania #python #scraping #webscraping

Wymyśliłem sobie taki plan. Zapytacie się jaki? Kurna sprytny.( ͡° ͜ʖ ͡°) Chciałbym scrapować nazwy produktów+ceny tych produktów. Słabo się znam na programowaniu, ale myślę, że ogarnę na podstawie filmików na yt i nauczę
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Taki co ściąga np. 300tys. produktów z rozbiciem na lokalizacje czyli łącznie +2 mln produktów per sklep w 24h? Jak tak to pisz na pw.


@lol3pdg: takiego nie pisałem, ale nie powinno być to zbyt skomplikowane, teoretycznie potrzeba wiele serwerów z zainstalowanym i dobrze skonfigurowanym sock5, do tego soft który łączy się przez tak skonfigurowane proxy.
Kiedyś analizowaliśmy jeden tego typu projekt aby go zrobić w oparciu o routery Teltonika,
  • Odpowiedz
@DreqX: jak nie ma to odwiedzaj stronę odpowiedno często i utrzymuj swoją własną bazę ogłoszeń - będziesz wtedy miał moment dodania danego ogłoszenia, na podstawie swojej własnej bazy,
  • Odpowiedz
@pierzchala6: nie scrapuję allegro, ale możesz spróbować technik:

- odpowiedni user-agent => https://pypi.org/project/user-agents/ (nie zmieniaj w trakcie, stosuj w jednej sesji)
- losowe czasy "klikania", czyli nie w 1s wszystko, a klik w link, jakieś opóźnienie z zakresu powiedzmy 10-30s, dopiero potem klik w kolejny link (nie kilka na raz jednocześnie i nie po tym samym opóźnieniu)
- reagowanie na kody, np. http/429 - czasem web server może strzelić takim
  • Odpowiedz
Scrapował może ktoś ostatnio dane ze stooq/money.pl? Potrzebuję danych daily dotyczących wszystkich opcji notowanych na polskiej giełdzie, ale mam problem z sensownym zescrapowaniem tego. Dotychczas leciałem pandasem po bankier.pl i śmigało, na stooq i money już nie ma tak łatwo. Stooq zupełnie nie ładuje się przez request, a money nie przechowuje interesujących mnie danych w htmlowej tabeli, ale w jakichś klasach do których nie mam pojęcia jak się dorwać xD Będę bardzo
  • 20
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@goferoo: otwierasz przegladarke za pomoca selenium, potem klikasz przycisk, potem uzywasz bs4 zeby sciagnal calosc i e voila! ( ͡° ͜ʖ ͡°) prostrze niż requesty itd. Po jednym tutorialu ogarniesz
  • Odpowiedz
@Spofity: trochę mało dokładne informacje.
Ja bym do płyt głównych dorzucił nazwę kodową chipsetu np. SR2WC dla Biostar TB250-BTC+ albo SR1JK dla serii Z97.

Dla kart graficznych mógłbyś dodać nazwy GPU w postaci np. GP107 dla 1050 itp.
Wszystkie te informacje możesz pociągnąć z techpowerup i podobnych stron.
  • Odpowiedz
Cześć Mirki,

Chciałbym przeprowadzić badanie na podstawie bazy danych na stronie EUvsDisinfo (https://euvsdisinfo.eu/disinformation-cases/). Zastanawiam się, w jaki sposób mógłbym napisać skrypt tak, żeby przy użyciu biblioteki do scrapowanie (np. request) móc pobierać i ładować do beautifulsoup kolejne strony bazy danych. Stron jest od 1 - 1337.

Uprzedzam, że nie mam żadnego wykształcenia programistycznego i znam tylko podstawy podstaw Pythona.

#python #scraping #naukaprogramowania
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Istnieje jakiś skrypt do web scrapingu wykopu? Chciałbym się za to zabrać, ale może nie muszę wynajdywać koła od nowa. Zależy mi głównie na pobieraniu tytułów znalezisk z jakimś if'em dotyczącym tego ile razy wykopano dane znalezisko - i to zapisywać w .txt
#scraping #python
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich podań i ich współrzędnych z danego meczu (pic related - kropki). Jak się za to zabrać? Dane z innych stron często są łatwo w jsonie lub źródle strony, a tu nie. Wszędzie w internecie czytam że scrapowanie tego jest trudne, a potem widzę jak prawie każdy na tt to robi, ale nie chce ujawniać kodu.

link do przykładowego meczu: https://www.whoscored.com/Matches/1464189/Live/France-Ligue-1-2020-2021-Marseille-Lyon

#python
tyrytyty - Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich p...

źródło: comment_1614591345zOYaHmtoFElLrcoEQPU9ny.jpg

Pobierz
  • 27
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#python #scraping #ocr

Czy jest możliwe dokładne pobieranie danych z pdfu, który wygląda jak np. gazetka Biedronki?
Potrzebuję zebrać sporo danych historycznych i m.in. takie pdfy są znakomitym źródłem informacji jednak próbowałem różnych programów ocr i efekt jest słaby. Z kolei ręczne wklepywanie kilkuset pdf też wygląda słabo.

Znacie jakieś programy ocr, sposoby jak to zrobić?
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Czy scrapując filmweb klasyczną metodą python+requests+BeautifulSoup mogę się narazić na bana ip? Jeśli tak, to co zrobić żeby się nie narazić poza ustawieniem delayu w requestach?

#python
#scraping
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

via Wykop Mobilny (Android)
  • 1
@4ndy:
Jakiś czas temu na wykopie pojawił się link do artykułu, gdzie ktoś w ten sposób pobierał dane z filmweb.
Robił to właśnie w nocy i z różnymi opźnieniami bo nie chciał problemów. Chyba kilka miesięcy zbierał dane.
Jak znajdę linka to podrzucę.
  • Odpowiedz
Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z googla informacje na temat fryzjerow. Konkretnie z tej zakladki mapy gdzie sa listy firm dodanyxh do google. Jest jakas inna droga niz scrapowanie? Bo pewnie google sid lrzed tym jakos zabezpiecza.
Wiem ze jest tez cos takiego jak places API, ale platne, a tp tylko hobbystyczny projekt
Najlepeiej jakby byl w C# ale bez znaczenia, chodzi mo o sama idee.
#scraping
ChamskoCytuje - Mirki umiace dobrze w komputer jest sprawa. Chcialbym pobierac z goog...

źródło: comment_1603719805GLr4nzY142jDzfBtYm1oBl.jpg

Pobierz
  • 10
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@ChamskoCytuje: Albo kup te API albo odpuść bo obstawiam, że jak google wykryje żeś BOT a nie człowiek to captchę Ci zacznie rzucać. Jestem prawie pewien - nie wiem czy wiesz czym są google dorks ale jak się ich dużo używa to google po Cię IP odcina na jakiś czas bo podejrzana aktywność
  • Odpowiedz