Wpis z mikrobloga

Skopiuj link

01.03.2021, 09:36:15

Jak scrapować whoscored.com? Chciałbym pobrać sobie np. listę wszystkich podań i ich współrzędnych z danego meczu (pic related - kropki). Jak się za to zabrać? Dane z innych stron często są łatwo w jsonie lub źródle strony, a tu nie. Wszędzie w internecie czytam że scrapowanie tego jest trudne, a potem widzę jak prawie każdy na tt to robi, ale nie chce ujawniać kodu.

link do przykładowego meczu: https://www.whoscored.com/Matches/1464189/Live/France-Ligue-1-2020-2021-Marseille-Lyon

#python
#scraping

tyrytyty

01.03.2021, 09:36:45

@tyrytyty: po kliknięciu na kropkę można dostać współrzędne i autora podania

tyrytyty - @tyrytyty: po kliknięciu na kropkę można dostać współrzędne i autora podan... — **źródło:** comment_16145914044GIDMwIHNnAac4uOUPss2A.jpg
Pobierz

p.....3

konto usunięte 01.03.2021, 09:40:28

@tyrytyty: Przecież masz w źródle cały obiekt konfiguracji meczu: var matchCentreData. Gdzie widzisz trudność?

tyrytyty

01.03.2021, 09:41:25

@pp53: ... nie jestem wykopowym programistą 15k i nie miałem pojęcia że mam w xródle cały obiekt konfiguracji meczu?

p.....3

konto usunięte 01.03.2021, 09:42:53

No jak nie jesteś programistą to pisanie programu może sprawić ci trudność. Przed pisaniem scrapera sugeruję nauczyć się programowania, to bardzo pomaga w pisaniu oprogramowania.

tyrytyty

01.03.2021, 09:43:22

Treść przeznaczona dla osób powyżej 18 roku życia...

Zendemion

01.03.2021, 09:45:43

wiedziałem że spytanie się na wypoku to będzie zły pomysł

@tyrytyty: e tam, odpowiedź dostałeś choć opryskliwą ( ͡° ͜ʖ ͡°)

pwn3r

01.03.2021, 09:45:51

@tyrytyty: no ale co już masz zrobione? Jakimś selenium wyciagasz te dane czy coś? Nikt Ci tu gotowego rozwiązania nie da. Whoscored nie ma otwartego api to musisz to reverse engineerowac samemu.

tyrytyty

01.03.2021, 09:46:40

@Zendemion: no, taka zaleta wypoku nad elektrodą ( ͡° ͜ʖ ͡°) ale musiał zaznaczyć wyższość, nie wytrzymałby janusz nosacz jakby nie zaakcentował że ON UMI a ja NIE UMIĘ i jak śmiem śmieć o coś zapytać xD

Ark00

01.03.2021, 09:53:33

@tyrytyty: jest trudne bo whoscored się dobrze zabezpiecza. Pierwsze co to musisz pewnie móc wykonać js'a, czyli użyć pewnie jakiegoś selenium albo headless drivera i nie sprawdzałem jak działa ws, ale pp53 Ci napisał, że zwracany jest obiekt z info meczowymi więc z tego będziesz musiał wyciągnąć info jak już uda Ci się je w ogóle dostać.

p.....3

konto usunięte 01.03.2021, 09:55:52

@tyrytyty: Jakiej odpowiedzi oczekujesz?
Scrapowanie meczu z whoscored:
1) Przeanalizuj obiekt meczu który podesłałem, sprawdź czy zawiera wszystkie informacje, czy może jest to tylko część.
2) Przeanalizuj kilka obiektów z innych meczy, tak żeby mieć pewność, że rozumiesz jak ten obiekt jest zbudoway
3) zakładam, że obiekt meczu zawiera wszystkie potrzebne dane Gdy będziesz mieć pewność, że wiesz gdzie znajdują się dane i jaki mają format, pobierz źródło strony i

tyrytyty

01.03.2021, 09:56:14

@Ark00: czyli większość pracy to będzie takie skonfigurowanie selenium by działało, niż samo pobranie danych bo jak zauwazono wyżej to już siedzi w kodzie, yes?

jak googlowałem to ludzie chcieli pojedynczo selenium każdy event wyciągać XD dałbym sobie jaja uciąć że jak sprawdzałem źródło strony wcześniej to te dane nie były zapisane prosto w kodzie

HansLanda88

01.03.2021, 10:00:37

@tyrytyty: a czy takie scrapowanie będzie legalne? ( ͡° ͜ʖ ͡°)

tyrytyty

01.03.2021, 10:01:13

@HansLanda88: ( ͡° ͜ʖ ͡°)( ͡° ͜ʖ ͡°)

p.....3

konto usunięte 01.03.2021, 10:02:18

Co do 1) i 2), nie wiem jak się zabezpiecza whoscored, ale mogą "szyfrować" swoje dane poprzez zastosowanie dynamicznego oznaczania eventów. Tzn. w meczu A event 64 oznacza strzelenie bramki, ale w meczu B będzie to faul. Jeżeli coś takiego robią, to gdzieś na stronie musi być konfiguracja tych mapowań.

Po co Ci selenium? Ściąganie strony i wyciąganie obiektu to 5-10 linijek w pythonie. Zapniesz selenium, 3 dni będziesz się uczył jak

Ark00

01.03.2021, 10:02:29

czyli większość pracy to będzie takie skonfigurowanie selenium by działało, niż samo pobranie danych bo jak zauwazono wyżej to już siedzi w kodzie, yes?

@tyrytyty: żeby Ci to wyświetlić w przeglądarce to musi jakieś dane pobrać, nie sprawdzałem dokładnie czy po wejściu w podsumowanie meczu pobiera Ci wszystko, czy dodatkowe staty są pobierane po kliknięciu w zawodnika czy jakieś statystyki meczowe, jeśli to drugie to musisz wywołać jeszcze zdarzenia kliknięcia

tyrytyty

01.03.2021, 10:04:05

i widzicie, teraz nawet taki kretyn jak ja ma jakiś plan jak sie za to zabrać. dziękuję

Ark00

01.03.2021, 10:04:53

Treść przeznaczona dla osób powyżej 18 roku życia...

p.....3

konto usunięte 01.03.2021, 10:25:22

@Ark00: Co za problem ustawić nagłówki w dowolnej innej metodzie pobierania strony?
Po co wykonywać jakiegoś JSa?

@tyrytyty: Kod do pobierania tego obiektu z whoscored, bez selenium, 7 linijek

Ark00

01.03.2021, 12:54:09

@pp53: yo, wrócę na chatę to zweryfikuję to, bo nie chce mi się wierzyć, że whoscored w taki prosty sposób da Ci dostęp do swoich danych ( ͡° ͜ʖ ͡°)

tyrytyty

01.03.2021, 13:25:04

@Ark00:

Request unsuccessful. Incapsula incident ID: 324000610002252970-6000812363091779

( ͡° ͜ʖ ͡°)

Aktywne Wpisy

Bully37

Bully37 +451

4 godz. i 34 min temu

#mecz Mecz komentuje Komentator, który zakończył Karierę komentatora po Finale MŚ w 2022 roku.
Opaskę Kapitana ma Piłkarz, który w czerwcu zawiesił swoją karierę reprezentanta po tym, jak odebrali mu opaskę kapitana.
Na boisko wszedł piłkarz, który zakończył Karierę reprezentacyjną w czerwcu.
Selekcjonerem jest nowy selekcjoner, który zastąpił poprzednika po tym, jak tamten powiedział, że nie poda się do dymisji, po czym podał się do dymisji.

pancreaticcarcinoma

pancreaticcarcinoma +16

5 godz. i 35 min temu

Może kobiety nie były bezpośrednią przyczyną upadku imperium wykopowego, ale na pewno są jego najlepszym dowodem.

Dopadła mnie dzisiaj nostalgia i wpadłam na pomysł, żeby przekopać stare wiadomości z Mirabelkami. I powiem Wam szczerze – kiedyś to było. Rozmowy o wszystkim: od rowerów, przez kosmos, po przepisy kulinarne i zwykłe #chcepogadac. Człowiek przegląda, wspomina… a potem zauważa, że większość kont już dawno nie istnieje. Smuteczek.

Przypomniały mi się też Mirabelki-legendy, które

pancreaticcarcinoma - Może kobiety nie były bezpośrednią przyczyną upadku imperium wy... — **źródło:** IMG_3467
Pobierz

Aktywne Wpisy

Aktywne Znaleziska

Winda Einsteina

Planowane postarzanie produktu (planned obsolescence)

Szok w Niemczech. Gigant przenosi produkcję do Polski. Ma być taniej

"Syn ma trzydziestkę. Nie wyprowadza się, nie dokłada do czynszu, nie sprząta"

Trump planuje zablokować outsourcing IT do Indii

Popularne tagi