Wpis z mikrobloga

Skopiuj link

24.12.2021, 09:23:05

Cześć Mirki,

Chciałbym przeprowadzić badanie na podstawie bazy danych na stronie EUvsDisinfo (https://euvsdisinfo.eu/disinformation-cases/). Zastanawiam się, w jaki sposób mógłbym napisać skrypt tak, żeby przy użyciu biblioteki do scrapowanie (np. request) móc pobierać i ładować do beautifulsoup kolejne strony bazy danych. Stron jest od 1 - 1337.

Uprzedzam, że nie mam żadnego wykształcenia programistycznego i znam tylko podstawy podstaw Pythona.

#python #scraping #naukaprogramowania

l.....k

konto usunięte 24.12.2021, 09:28:41

Komentarz usunięty przez autora

LazyInitializationException

24.12.2021, 09:36:04

@kamilm119:

Po zmianie strony zmienia się url

https://euvsdisinfo.eu/disinformation-cases/?offset=10&per_page=10
https://euvsdisinfo.eu/disinformation-cases/?offset=20&per_page=10
.
.
.
https://euvsdisinfo.eu/disinformation-cases/?offset=13360&per_page=10

Wrzucasz sobie w pętle od 0 do 13360, przy każdej iteracj.

Możesz też zwiększyć per_page na 100 np. wtedy mniej requestów pójdzie i po 100 elementów pobierać

kamilm119

l.....k

konto usunięte 24.12.2021, 09:37:38

@kamilm119: strona 0 ma adres: https://euvsdisinfo.eu/disinformation-cases/?offset=0&per_page=10
gdzie offset=0 jest równy nr strony *10
więc strona 2 będzie miała https://euvsdisinfo.eu/disinformation-cases/?offset=20&per_page=10

wiesz że jest 1337 stron więc ostatnia ma adres
https://euvsdisinfo.eu/disinformation-cases/?offset=13370&per_page=10
dajesz sobie iterację od 2 do 1338
for x in list(range(2,1338)):
page =r"https://euvsdisinfo.eu/disinformation-cases/?offset={}&per_page=10".format(x*10)
reguest.get(page)
print(request.text)

coś takiego tak na szybko

EDIT:
możesz też dać range(20,13380) i nie będziesz musiał robić *10 tylko format(x)

kamilm119

kamilm119

24.12.2021, 09:56:06

@LazyInitializationException: @luukasek: No i super, bardzo dziękuję Mireczkom. Wesołych świąt!

L.....k

konto usunięte 24.12.2021, 10:11:54

@kamilm119: Sugeruję zmienić parametr "per_page" na 100, wtedy zrobisz 10x mniej requestów

kamilm119

Aktywne Wpisy

szzzzzz

szzzzzz +370

5 godz. i 43 min temu

Mięso z kurczaka surowe: bleh
Mięso z kurczaka ugotowane z rosołu: bleh
Jakiekolwiek mięso: bleh
Tuńczyk czy inna ryba: bleh
Jajko specjalnie ugotowane i rozdrobnione: bleh
Jakieś #!$%@? zaschnięte resztki jajecznicy i okruszki chleba z rana: ABSOLUTNY PRZYSMAK, POKARM BOGÓW, CO ZA AMBROZJA, CAŁY TALERZ WYLIŻĘ, NAJLEPSZY POSIŁEK MOJEGO ŻYCIA

#koty #alboialba #zwierzaczki #bekazkota #beka

szzzzzz - Mięso z kurczaka surowe: bleh
Mięso z kurczaka ugotowane z rosołu: bleh
Jak... — **źródło:** temp_file5397060073744258118

Duniksond

Duniksond +196

4 godz. i 32 min temu

Juleczki, przypominam Wam niewygodną prawdę - dzisiejsza "moda" na szerokie ubrania wynika tylko i wyłącznie z tego że nie chce Wam się dbać o siebie, jesteście spasione i same sobie wmawiacie "body positive".

#modadamska #plodnajulka #logikarozowychpaskow #rozowepaski #ubrania #feminizm #julka #licbaza #studbaza

Duniksond - Juleczki, przypominam Wam niewygodną prawdę - dzisiejsza "moda" na szerok... — **źródło:** dfgdfsdfvs

Aktywne Wpisy

Aktywne Znaleziska

Orban: Węgry przeciwne dawaniu pieniędzy Ukrainie

Rozporządzenie uderzające w patodeweloperkę podpisane. Co się zmienia?

Recesja nie puka do drzwi Europy. Właśnie je wyważyła!

Kłusownictwo na tarliskach troci.

Nawet Pakistan wydali wszystkich nielegalnych imigrantów xDDDD

Popularne tagi