Wpis z mikrobloga

Skopiuj link

24.02.2015, 21:43:11

#programowanie #java #webdev

W jaki sposób pobrać całą stronę WWW?

Tak umiem:

HttpURLConnection conn = (HttpURLConnection) url.openConnection();
BufferedReader rd = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line;
while ((line = rd.readLine()) != null) {
 System.out.println(line);
}

Ale to pobiera mi tylko sam HTML. Chciałbym aby pobrało mi również ze wszystkimi plikami (grafika, Javascript) - tak jak pobiera to przeglądarka internetowa (np. zapisywanie stron w Chrome).

Po prostu chcę zmierzyć objętość stron.

h.....z

konto usunięte 24.02.2015, 21:44:27

@mk321: To nie łatwiej korzystając z Chrome Developer Tools albo Firefox cośtam?

J.....n

konto usunięte 24.02.2015, 21:45:54

@mk321:
możesz wyszukiwać łańcuch ' src=" ' i wyciągać url
ale pewnie w javie są dedykowane metody od tego

ninetyeight

mk321

24.02.2015, 21:46:19

@herbaciarz: no właśnie nie mogę znaleźć tej opcji sprawdzenia w Chrome. Wciskam F12 i gdzie dalej?

Ale i tak będzie mi potrzebne to w Javie, bo chcę sprawdzić tak dużo stron.

ninetyeight

jestem_bordo

24.02.2015, 21:46:43

@mk321: Url url = new Url("wykop.pl"); File mojePliki[] = url.pobierzCałąStronęWWW("tak, całą");

h.....z

konto usunięte 24.02.2015, 21:51:01

@mk321: tak dokładnie nie wiem, ale powinieneś szukać w Timeline, Profiles, Resources, Audits. Wystarczy że wpiszesz hasło w google i Ci znajdzie jakiś tutorial. Np. google pagespeed i inne takie.

Nie chcę pisać bzdur, bo to nie są takie proste narzędzia, najlepiej zapoznaj się z jakimś artykułem.

kraluk

24.02.2015, 21:52:44

@mk321: zerknij tutaj: http://www.jaunt-api.com/

mk321

s.....a

konto usunięte 24.02.2015, 21:54:54

@mk321: http://www.httrack.com/ ?

mk321

24.02.2015, 21:56:35

@Jojne_Zimmerman: w sumie niezły pomysł z tym "src=". Szukam własnie cały czas czegoś gotowego, ale nie mogę znaleźć - dlatego pytam.

@jestem_bordo: nie rozumiem. Jaka metoda "pobierzCałąStronęWWW"? Jest tylko url.getContent(), ale to to samo co podałem wyżej.

jestem_bordo

24.02.2015, 22:01:15

@mk321: nie ma takiej metody, to był taki żart

nie wiem na ile cie to zadowala, ale możesz użyć np. jakiegoś Jsoupa do wyciągnięcia linków i potem coś z nimi zrobić, ale nie wiem, nie robiłem niczego podobnego

mk321

24.02.2015, 22:02:29

@seoama: potrzebuję to zrobić w Javie a nie oddzielnym programem. Po za tym pobrać stronę można za pomocą zwykłej przeglądarki (albo wget). Chodzi mi tylko o jedną podstronę (z zawartością) a nie pobierać wszystkie linki ze strony (do czego przydaje się HTTrack).

J.....n

konto usunięte 24.02.2015, 22:11:22

@mk321:
sparsuj html i następnie sam wybierz które linki masz pobierać (np. znacznik ![]()

darck

24.02.2015, 22:21:25

@mk321: nie wiem w czym piszesz, ale pewnie najprostszą metodą jest użycie gotowej biblioteki, albo jakiegoś komponentu do wyświetlania stron internetowych. Taki komponent może mieć opcję zapisu wszystkiego co pobrał.

mk321

24.02.2015, 22:29:00

@kraluk: Widzę, że Jaunt jest głównie do wyszukiwania, ale coś jest: http://www.jaunt-api.com/jaunt-tutorial-advanced.htm
"Example 6: Using content handlers to retrieve JS/CSS/GIF/etc files."
Da się ustawić co chcę pobierać (CSS, JS itd). Tylko nie wiem jak ustawić wszystko (po prostu żeby pobrało jak przeglądarka).

@darck: no właśnie nie wiem jak. Jak wyświetlę np. w okienku w Swingu (podając ściągnięty HTML), to owszem, w okienku ściągnie się wszystko po włączeniu. Ale jak sprawdzić

@mk321: wget

@mk321: dawno już tym się nie zajmowałem, ale na Stacku piszą, że się da - spróbuj tego (ostatnia odpowiedź): https://stackoverflow.com/questions/4359060/download-a-complete-web-page-including-resources-like-images-in-java

mk321

mk321

24.02.2015, 22:49:14

@kraluk: ok, zapisuje mi stronę z folderem na dysku tym przykładem. Teraz tylko policzę rozmiar całego folderu i mam. No i trzeba usuwać z dysku.

kraluk

24.02.2015, 22:56:45

@mk321: hint: deleteDirectory oraz sizeOfDirectory - https://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/FileUtils.html

mk321

mk321

25.02.2015, 03:24:31

@kraluk: saveCompleteWebPage z Jaunt dla dobrych strona działa. Jednak na większości stron a to jest jakiś błąd, a to nie ma cssów itd. Ta funkcja sobie z tym nie radzi - sypie błędami (wyświetla na konsolę! zamiast rzucić wyjątek, abym mógł go sobie obsłużyć np. pominąć plik który nie istnieje, a jest do niego link). Gdzie przeglądarka normalnie pobiera i omija to czego nie ma.

Szukam dalej.

@herbaciarz: znalazłem na