Wpis z mikrobloga

Skopiuj link

07.08.2018, 19:44:55

Treść przeznaczona dla osób powyżej 18 roku życia...

konto usunięte 07.08.2018, 19:48:18

@Khaine: jeżeli ma to być aplikacja uniwersalna to nie wróżę sukcesu.
A do pojedynczych stron to bez problemu da się to wyciągnąć z kodu pewnie.

Khaine

07.08.2018, 19:50:00

@Decay: No właśnie chciałem zrobić w miarę uniwersalną podpieprzajkę, ale zapomniałem, że teraz wszędzie nasrane JSem i większość rzeczy dzieje się pod wpływem interakcji użytkownika i pierwotny HTML tego nie zawiera.

xetrov

07.08.2018, 19:56:55

@Khaine: kiedyś robiłem taki scraping phantomjsem, dowolny headless browser się nada.

D.....y

konto usunięte 07.08.2018, 19:58:44

@Khaine: jeszcze mam taki pomysł: scrapowanie obrazów z google/binga. W wyszukiwarce obrazów wpisujesz site:domena.tld i dostajesz listę obrazów, miniaturki możesz wywalić za pomocą filtrowania rozmiaru obrazów. Możesz też określić zakres dat, z których chcesz obrazki.
Oczywiście musiałbyś pobrać sobie jakiś słownik i do zapytania dołączać słówka żeby otrzymać jak największą liczbę wyników(bo domyślnie chyba są jakieś ograniczenia).

No i jeżeli robiłbyś to bez API to zapytania do google wysyłaj +/-

Greg36

07.08.2018, 20:00:01

@Khaine: Mógłbyś kombinować obchodząc popularne skrypty do lazy loading, sprawdzając który strona używa i pisząc swego rodzaju adapater co będzie je adekwatnie pobierał.

Chociaż łatwiej przyjdzie ci to kombinując z https://pptr.dev/

Khaine

07.08.2018, 20:00:16

@xetrov: Ja się na JSie nie znam, bo bym tego pewnie nawet nie tykał w C# jakbym się znał. Ale tak czuję, że jak coś ma magiczne furtki to raczej JS. W jaki sposób miałoby to działać?

@Decay: Gra niewarta świeczki raczej, szybciej będzie zrobić na stronie prawoklik -> zbadaj. A tu chodziło właśnie o pominięcie kopania w kodzie źródłowym, tylko wdupcenie linka i naciśnięcie przycisku - żeby

D.....y

konto usunięte 07.08.2018, 20:04:54

@Khaine: jak to? Piszesz automat, binga można scrapować co kilka sekund, google co te 60 sekund, jednorazowo dostajesz chyba kilkadziesiąt obrazów. Chcesz mi powiedzieć, że jesteś w stanie siedzieć 24/7 przed kompem i wyciągać obrazki z kodu? I do tego zrobisz to wydajniej w 60 sekund, niż automat? ( ͡° ͜ʖ ͡°)

Khaine

07.08.2018, 20:07:51

@Decay: Niee, zwykle chodzi o wywleczenie 1-5 obrazków z konkretnej strony (ale nie wiadomo jakiej z góry), bo są do czegoś potrzebne. Nie potrzebuję ściągać całego śmietnika ze strony, nawet miałem przygotowane filtrowanie po rozmiarze (niestety nie każdy tag img ma rozmiar w sobie) żeby mi jakichś pypków nie ściągał.

D.....y

konto usunięte 07.08.2018, 20:12:20

@Khaine: aaa, rozmiar możesz sprawdzać bezpośrednio po pobraniu, zapisz z url do bitmapy i tak weryfikuj, bo z tagów nie koniecznie musi się zgadzać z faktycznym rozmiarem.

Nie jestem specjalistą, ale jak chcesz to spróbuję pomóc. Napisz na pw o co chodzi, albo tutaj jeżeli to nie tajemnica.

xetrov

07.08.2018, 20:16:03

a się na JSie nie znam, bo bym tego pewnie nawet nie tykał w C# jakbym się znał. Ale tak czuję, że jak coś ma magiczne furtki to raczej JS. W jaki sposób miałoby to działać?

@Khaine: nie wiem jak w C# bo go nie znam, ale zakładam, że same zasady są takie same, zresztą widzę że jest wrapper na C#. Generalnie działa to tak, że odpalasz przeglądarkę (PhantomJS to

Khaine

07.08.2018, 20:20:23

@Decay: A jaka tam tajemnica, różowemu czasem były potrzebne zdjęcia do wrzucenia na stronę w asortyment, ze strony producenta czy coś, to stwierdziłem że spróbuję coś urzeźbić, bo to ja potem kopałem łopatką w tym HTMLu pod F12 żeby te linki wyciągać xD

No i wyciągam, ale nie te rozmiary o które mi chodzi - czyli nie te największe, które wchodzą na stronę dopiero po interakcji z użytkownikiem.

Nic ważnego ogólnie, ale

xetrov

07.08.2018, 20:22:55

@Khaine: ale własnie o to chodzi, masz sesję, cookiesy, działa z ajaxem, możesz klikać elementy na stronie z odpowiednim lagiem i tak dalej.

Khaine

07.08.2018, 20:29:24

@xetrov: Trochę trudno mi sobie wyobrazić jakby to miało działać, bo za cienki jestem we frontendowe klocki. Ja raczej C++/C# + bazy danych.

D.....y

konto usunięte 07.08.2018, 20:33:08

@Khaine: jeżeli miałbyś pewność, że na każdej stronie po wczytaniu zawartości te linki do obrazków są w kodzie to bez problemu bierzesz pomysł xetrova, tym sposobem wyciągasz kod, wyciągasz wszystkie odnośniki, filtrujesz te od obrazków, a później lecisz po rozmiarach.
webbrowser powinien sobie poradzić z wyciągnięciem zrenderowanego kodu.

A jeżeli obrazki wczytuje dynamicznie, to chyba nie mam pomysłu. Ewentualnie mógłbyś znaleźć jakąś bazę produktów, coś jak ceneo i napisać scraper

xetrov

07.08.2018, 20:33:16

@Khaine: takie potworki jak nodejs pewnie znasz chociaż z zasady działania ( ͡° ͜ʖ ͡°) To wyobraź sobie, że to coś podobnego, tak jakby emulujesz przeglądarkę i możesz oskryptować zachowanie tego Twojego pseudousera, daje to sporo możliwości w interakcji z asynchronicznymi requestami i innymi wynalazkami nowoczesnego frontu.

D.....y

konto usunięte 07.08.2018, 20:34:37

@xetrov: z tego co zrozumiałem to ma działać uniwersalnie, a to jest chyba trudne do osiągnięcia?

xetrov

07.08.2018, 20:38:21

@Decay: to co robiłem działało mniej więcej w ten sposób (było kilkanaście dość podobnych layoutów do sparsowania), co nie siedziało w htmlu (tu jest banalnie, byle nie regexpem oczywiście) to dało się jakoś zrobić jsowym odpowiednikiem (nie pamiętam jak, ale tak jak pisałem - jak ja to zrobiłem to nie mogło być trudne ( ͡° ͜ʖ ͡°)) i w efekcie miałem coś z 80% udanych pobrań,

Khaine

07.08.2018, 20:40:38

jeżeli miałbyś pewność, że na każdej stronie po wczytaniu zawartości te linki do obrazków są w kodzie to bez problemu

@Decay: To już działa. Wybebesza wszystko co ma tylko <img i src= z jakimś ludzkim formatem .jpg, .jpeg, .png czy cokolwiek bym chciał - pod warunkiem, że znajduje się w źródłowym HTML (tym wyciągniętym z linku). Problem jest właśnie tam, gdzie ten obrazek ładuje się w pełnej formie dopiero jak klikniesz

Khaine

07.08.2018, 20:47:22

@Decay:
https://www.nakrywamy.pl/gerlach-celestia-sztucce-komplet-68-el-pudelko-12-os-polysk-gratis-torba-prezentowa

Natomiast stąd już mi nie zaciągnie tego rozmiaru co się pojawi po kliknięciu na te widelce. Jego widać nie ma w pierwotnym HTMLu, pojawia się później. To zresztą widać, bo wystarczy kliknąć na tym "Zbadaj" i możemy sobie w czasie rzeczywistym obserwować jak się ta sekcja pojawia w kodzie po kliku.

D.....y

konto usunięte 07.08.2018, 20:52:39

@Khaine: ja tam w kodzie widzę obrazki:
https://www.nakrywamy.pl/images/items/18347/gerlach-celestia-68-opakowanie-2_big.png
Jeżeli o te chodzi to one tam są tylko w tagach a. Jak pisałem żeby scrapować linki to chodziło mi o scrapowanie wszystkiego co zaczyna się na http://. W sumie tutaj też może być problem tylko, że z wyciąganiem linków hmm

A czekaj, zapomniałem wyłączyć javascripta, to chwila.
Dobra, bez js też tam linki są w kodzie. Czyli albo scrapujesz wszystkie linki,

Aktywne Wpisy

okoboji

okoboji +88

4 godz. i 8 min temu

i cyk - kolejny miesiąc, naliczenie niemal 50k od frajerów tzn patronów wpadło.
Gość nagrał "potężny" film o titanie, którego treść to było kopiuj-wklej zagranicznych kanałów i zamknąl się
na kilka miesięcy, by po pół roku zrobić recenzję... filmu. Podkoloryzował ją jakimś tandetnym AI i to jest w porządku?
360 tysięcy za recenzję filmu to jest naplucie w twarz, ale stado owiec wpłaca dobrowolnie bo te pieniądze "po prostu mu się należą' xD cytując była

okoboji - i cyk - kolejny miesiąc, naliczenie niemal 50k od frajerów tzn patronów wpa... — **źródło:** Zrzut ekranu 2026-01-5 o 19.27.45
Pobierz

dzem_z_rzodkiewki

dzem_z_rzodkiewki +58

5 godz. i 56 min temu

Ludzie chcą normalnie spacerować po mieście i używać chodników zamiast być terroryzowanym przez pyłki, smród i NOx z starych diesli
Wykopki be like - literally communis - to jest moja wolność że wjadę swoim sadzomiotem do miasta i będę terroryzował ludzi i rozgrzewał ten złom na parkingu smrodząc stu innym pieszym na parkingu, na chodnikach i w normalnych samochodach.

Jak wg ciebie twój 20 letni dieselek nie smrodzi to odpal sobie go rano

dzemzrzodkiewki - Ludzie chcą normalnie spacerować po mieście i używać chodników zami... — **źródło:** com-razoroil
Pobierz

Aktywne Wpisy

Aktywne Znaleziska

Areszt gorszy niż więzienie. Policja zabrała głos w sprawie kradzieży znaków SCT

Brutalne pobicie 16-latka w centrum Koszalina. Sprawcami dwóch nastolatków.

Dyskryminacja w strefach czystego transportu w Warszawie i Krakowie?

Ostrzeżenie publiczne dotyczące żywności: Produkty do żywienia niemowląt Nestle

10 osób skazane za nazwanie żony Macrona mężczyzną.

Popularne tagi