Wpis z mikrobloga

Skopiuj link

18.10.2024, 20:46:09

Staram się poduczyć trochę o programowaniu, no a zawsze się mówi, że najlepiej gdy ma się jakiś projekt. Wymyśliłem sobie, że zliczę sobie łączny czas jaki poświęciłem, na obejrzenie filmów i seriali jakie mam zapisane w bazie Filmwebu. Jako że nie wyciągnę tych informacji z ich danych (nawet nie o to by mi chodziło w tym projekcie), chciałbym zrozumieć jak mogę zautomatyzować proces ściągania tych danych, po prostu korzystając z tych informacji które się wyświetlają na stronie. Nazywa się to chyba metodą webscrappingu?
W każdym razie, nawet nie chodziłoby mi o to, aby czytać każdą informację ze źródła każdej strony (może na pierwszy sposób) - tylko może jakoś zrobić program, który kazałby komputerowi patrzeć w określone miejsce na stronie, rozpoznał co tam pisze, przekonwertował dane do excela.

Chciałbym to zrobić na dwa sposoby, ten drugi, wizualny w ogóle nie wiem jak zacząć. Jak mógłbym to zrobić?

Jeśli chodzi o pierwszy sposób, zapytałem chatagpt, no i do VCS, kazał mi wkleić coś takiego. Zainstalowałem bibliotekę soup w cmd pipem.
Uruchomiony skrypt (z wpisaną poprawną nazwą profilu filmweb), nie generuje nic do zapisanego pliku .csv - więc pewnie chodzi o to że identyfikatory ze strony nie są dobrze ściągnięte. Jak klikając na nazwę filmu na filmwebie, mogę po "zbadaj element" zobaczyć które parametry należy wpisać do skryptu aby dane się zaciągnęły?

#pytanie #programowanie #python #filmweb #webscraping #webdev

interpenetrate - Staram się poduczyć trochę o programowaniu, no a zawsze się mówi, że... — **źródło:** obraz_2024-10-18_224638301
Pobierz

w00nski

18.10.2024, 20:52:54 via Wykop

@interpenetrate: <h1 class="filmCoverSection__title " itemprop="name">Dawno temu w Ameryce</h1>

w00nski

18.10.2024, 20:58:30 via Wykop

cmd(ctrl)+shift+c i zaznaczasz interesujący cię element na stronie - jak najdokładniej. z prawej strony będziesz miał odpowiednik tego elementu w kodzie

p.....t

konto usunięte 18.10.2024, 20:59:31 via Wykop

@w00nski: nie wiem na jakiej stronie masz taką klasę ale na https://www.filmweb.pl/user/<username> jej nie widzę

w00nski

18.10.2024, 21:16:28 via Wykop

@patryk_ekiert: nie czytalem calego wywodu autora.
jak chcialby ze strony usera to kombinowalbym na dwa sposoby:
1) albo na sztywno po takim elemencie <section type="noPadding" class="sc-eoVZPG sc-bSoiow ckudOY LXlSr"> o ile te nazwy klas nie są definiowane dynamicznie
2) albo po elemencie <div id="app" class="page_content fa_wrapper"> i z tego aby zrobił ekstrakt tekstów/elementów i wśród nich wyszukal nazwy filmow (tu juz dodac wlasna logike na filtrowanie)

Aha i

arinkao

18.10.2024, 21:18:30 via Wykop

@interpenetrate: Wołaj koniecznie jak zrobisz i sie uda!

p.....t

konto usunięte 18.10.2024, 21:20:14 via Wykop

Treść przeznaczona dla osób powyżej 18 roku życia...

venomik

18.10.2024, 22:13:03 via Wykop

@interpenetrate: Idea odpowienia, ale wybór kiepski. Scrappowanie stron sprawi, że pewnie większość problemów będziesz rozwiązywał właśnie w tym zakresie. I często nie będziesz pewien czy problem jest z Twoim kodem czy może jednak z tym jak strona się 'wczytała'. Plus się będziesz męczyć z selectorami. I znów będziesz się zastanawiał czy Twój kod jest zły, czy może selector źle napisany.

Trust me. Znajdź sobie coś innego.
Mogę Ci nawet spróbować

interpenetrate

19.10.2024, 12:39:06 via Wykop

Mogę Ci nawet spróbować coś dobrać odpowiedniego, bylebyś nie wisiał utykając trochę niepotrzebnie.

@venomik: bardzo chętnie, miałbyś coś na myśli?

A słuchaj, no tak jak piszę w pierwszym poście - tytuł i długość są tekstowo na stronach. W zasadzie wystarczy żeby skrypt otwierał sobie każdą stronę i patrzył w to samo miejsce i sobie spisywał. Czy coś takiego byłoby łatwiej zrobić?

interpenetrate

19.10.2024, 12:43:02 via Wykop

ja najpierw kliknąłem na plakat, zbadaj element. widzę że to element typu img, jako alt tekst jest tytuł

@patryk_ekiert: jak to znajdujesz? Jak to robię, to pokazuje mi link do obrazka .webp i tyle. Wyżej nad tym mam tylko link do strony filmu i tyle

edit. a, dobra
class="sc-fjvvzt jDaEvH">Deadpool

p.....t

konto usunięte 19.10.2024, 12:48:11 via Wykop

jak to znajdujesz?

@interpenetrate: o tak znalazłem

Jak to robię, to pokazuje mi link do obrazka .webp i tyle. Wyżej nad tym mam tylko link do strony filmu i tyle

brzmi jakbyś patrzał na odpowiedni element. właśnie o tym mówię. ma on "alt" gdzie jest tytuł

interpenetrate

19.10.2024, 12:48:23 via Wykop

cmd(ctrl)+shift+c i zaznaczasz

@w00nski: nie no, nic się nie dzieje jak to klikam, ani jak zrobię to z włączonym panelem konsoli

nie czytalem calego wywodu

interpenetrate - >cmd(ctrl)+shift+c i zaznaczasz

@w00nski: nie no, nic się nie dziej... — **źródło:** obraz_2024-10-19_144821212
Pobierz

venomik

19.10.2024, 13:06:44 via Wykop

@interpenetrate: O tym mówiłem. Zamiast faktycznie uczyć się programować to się męczysz z znajdywaniem odpowiedniego selectora elementu na stronie ;)

interpenetrate

19.10.2024, 16:14:59 via Wykop

@venomik: no to jak masz lepszy pomysł to przecież dawaj

venomik

19.10.2024, 21:20:18 via Wykop

@interpenetrate: Pewnie. Tak jak wczesniej pisałem. Niestety mój ostatni sarkastyczny komentarz nie mógł być bardziej rozbudowany - dziś akurat pare godzin spędziłem w aucie jadąc po psa mojej siostry.
Nevermind.

Jak bardzo lubisz filmy to weź sobie jakiś JSON z informacjami o filmach. Możesz na przykład któryś z tych:
https://github.com/prust/wikipedia-movie-data
Sugeruję coś z ostatnich dekad, jest

Kocurzysko

19.10.2024, 23:57:12 via Wykop

@interpenetrate: nie wiem jak BS działa, bo korzystam z Selenium, ale moje podejście wymaga użycia xpatha
https://www.scrapingbee.com/webscraping-questions/beautifulsoup/can-i-use-xpath-selectors-in-beautifulsoup/

No i kwestia jest prosta:
struktura sekcji z

interpenetrate

20.10.2024, 15:49:36 via Wykop

Treść przeznaczona dla osób powyżej 18 roku życia...

interpenetrate

20.10.2024, 16:08:08 via Wykop

ma on "alt" gdzie jest tytuł

@patryk_ekiert: no właśnie na różnych stronach inaczej Ci pokaże. Na stronie usera gdzie jest scrollowana lista wszystkich filmów - jest tak, a sama nazwa filmu jest 4 linijki powyżej tego co się zaznacza w kodzie jak się klika ppm na nazwie filmu i zbadaj element

interpenetrate - >ma on "alt" gdzie jest tytuł

@patryk_ekiert: no właśnie na różnych... — **źródło:** obraz_2024-10-20_180850760
Pobierz

venomik

20.10.2024, 17:50:16 via Wykop

@interpenetrate: Na jakim Ty właściwie poziomie pythona jesteś?
Jakbyś miał dicta i miał wyświetlić wszystkie wartości dla kluczy, które składają się z pojedynczej litery i cyfry parzystej to napisałbys ten kod od ręki?

interpenetrate

20.10.2024, 18:05:43 via Wykop

@venomik: Nie, nie umiem go całkowicie.

Powiedz mi lepiej takie coś. Jakbyś wyciągnął te dwie wartości stąd?
Pokazuje mi się błąd, no że zaciąga tekst (a pewnie dlatego że to hyperlink).

Ogólnie udało mi się wyciągnąć nazwę filmu oraz jego długość z jego danej

interpenetrate - @venomik: Nie, nie umiem go całkowicie.

Powiedz mi lepiej takie co... — **źródło:** obraz_2024-10-20_200541166
Pobierz

p.....t

konto usunięte 20.10.2024, 18:45:10 via Wykop

no właśnie na różnych stronach inaczej Ci pokaże

@interpenetrate: no i na tej co zalinkowałeś to ci pokazałem jak to zrobić :P

Aktywne Wpisy

Miguelos

Miguelos +6

5 godz. i 59 min temu

Treść przeznaczona dla osób powyżej 18 roku życia...

Dziwny_Dzwiek_Gzymsu

Dziwny_Dzwiek_Gzymsu +101

5 godz. i 52 min temu

Zapraszam do PIRAMIDY SEBCELA TORUSA.
Zasady są proste:
Każdy zaproszony oznacza trzy osoby. Zaproszone świeżaki mają obowiązek plusować wszystkich, którzy już są w tym wątku - łącznie z założycielem oraz oznaczyć kolejnych trzech świeżaków.

Co można osiągnąć? Bardzo wiele:
0 - 5 plusów - Pała J----a

DziwnyDzwiekGzymsu - Zapraszam do PIRAMIDY SEBCELA TORUSA.
Zasady są proste:
Każdy z... — **źródło:** PIRAMIDA_SEBCELA
Pobierz

Aktywne Wpisy

Aktywne Znaleziska

Wątroba świni wszczepiona pacjentowi

AI zamienia myszkę w szpiegowski mikrofon - nowa metoda podsłuchu

Opracowano szkło zwiększające plony w szklarniach

Pozew na bilion złotych przeciwko Orange Polska. Wojna jednego człowieka

Naukowcy biją na alarm. Centrum Astronomiczne Kopernika na skraju bankructwa

Popularne tagi