Aktywne Wpisy
dqdq1 +922
Tetsuya +399
Musi być wysoki, dobrze zbudowany, chodzić na siłownię, dużo zarabiać, mieć własne mieszkanie, bujne włosy i brodę. Też polka:
#p0lka #logikarozowychpaskow #heheszki #rozowepaski #zwiazki
#p0lka #logikarozowychpaskow #heheszki #rozowepaski #zwiazki
W każdym razie, nawet nie chodziłoby mi o to, aby czytać każdą informację ze źródła każdej strony (może na pierwszy sposób) - tylko może jakoś zrobić program, który kazałby komputerowi patrzeć w określone miejsce na stronie, rozpoznał co tam pisze, przekonwertował dane do excela.
Chciałbym to zrobić na dwa sposoby, ten drugi, wizualny w ogóle nie wiem jak zacząć. Jak mógłbym to zrobić?
Jeśli chodzi o pierwszy sposób, zapytałem chatagpt, no i do VCS, kazał mi wkleić coś takiego. Zainstalowałem bibliotekę soup w cmd pipem.
Uruchomiony skrypt (z wpisaną poprawną nazwą profilu filmweb), nie generuje nic do zapisanego pliku .csv - więc pewnie chodzi o to że identyfikatory ze strony nie są dobrze ściągnięte. Jak klikając na nazwę filmu na filmwebie, mogę po "zbadaj element" zobaczyć które parametry należy wpisać do skryptu aby dane się zaciągnęły?
#pytanie #programowanie #python #filmweb #webscraping #webdev
jak chcialby ze strony usera to kombinowalbym na dwa sposoby:
1) albo na sztywno po takim elemencie <section type="noPadding" class="sc-eoVZPG sc-bSoiow ckudOY LXlSr"> o ile te nazwy klas nie są definiowane dynamicznie
2) albo po elemencie <div id="app" class="page_content fa_wrapper"> i z tego aby zrobił ekstrakt tekstów/elementów i wśród nich wyszukal nazwy filmow (tu juz dodac wlasna logike na filtrowanie)
Aha i
.filmTitle
i znajduje wszystkiemi się udało filmy na tej podstronie ogarnąć tak:
[...document.querySelectorAll('[data-btn-center-sel="poster"] > img')].map(a => a
Trust me. Znajdź sobie coś innego.
Mogę Ci nawet spróbować
@venomik: bardzo chętnie, miałbyś coś na myśli?
A słuchaj, no tak jak piszę w pierwszym poście - tytuł i długość są tekstowo na stronach. W zasadzie wystarczy żeby skrypt otwierał sobie każdą stronę i patrzył w to samo miejsce i sobie spisywał. Czy coś takiego byłoby łatwiej zrobić?
@patryk_ekiert: jak to znajdujesz? Jak to robię, to pokazuje mi link do obrazka .webp i tyle. Wyżej nad tym mam tylko link do strony filmu i tyle
edit. a, dobra
class="sc-fjvvzt jDaEvH">Deadpool
@interpenetrate: o tak znalazłem
brzmi jakbyś patrzał na odpowiedni element. właśnie o tym mówię. ma on "alt" gdzie jest tytuł
@w00nski: nie no, nic się nie dzieje jak to klikam, ani jak zrobię to z włączonym panelem konsoli
Nevermind.
Jak bardzo lubisz filmy to weź sobie jakiś JSON z informacjami o filmach. Możesz na przykład któryś z tych:
https://github.com/prust/wikipedia-movie-data
Sugeruję coś z ostatnich dekad, jest
https://www.scrapingbee.com/webscraping-questions/beautifulsoup/can-i-use-xpath-selectors-in-beautifulsoup/
No i kwestia jest prosta:
struktura sekcji z
@venomik: Myślisz że nie umiałbym już od 10 lat programowania, gdyby nie było najeżone tyloma problemami z d--y chociażby skonfigurowanie serwera czy pythona pod windowsem dla laika? Lepsze znajdowanie tego selektora, niż to co wcześniej z tym gównem dla autystów przeszedłem, bo tylko oni chyba lubią się w tym grzebać. Naprawdę,
@patryk_ekiert: no właśnie na różnych stronach inaczej Ci pokaże. Na stronie usera gdzie jest scrollowana lista wszystkich filmów - jest tak, a sama nazwa filmu jest 4 linijki powyżej tego co się zaznacza w kodzie jak się klika ppm na nazwie filmu i zbadaj element
Jakbyś miał dicta i miał wyświetlić wszystkie wartości dla kluczy, które składają się z pojedynczej litery i cyfry parzystej to napisałbys ten kod od ręki?
Powiedz mi lepiej takie coś. Jakbyś wyciągnął te dwie wartości stąd?
Pokazuje mi się błąd, no że zaciąga tekst (a pewnie dlatego że to hyperlink).
Ogólnie udało mi się wyciągnąć nazwę filmu oraz jego długość z jego danej
@interpenetrate: no i na tej co zalinkowałeś to ci pokazałem jak to zrobić :P