Wpis z mikrobloga

Skopiuj link

21.10.2015, 20:36:03

#programowanie #java #spring #webdev

Chcę napisać aplikację, która: będzie pobierać stronę internetową (z obrazkami, CSS itd), zapisywać ją do bazy, odczytywać, wyświetlać stronę w przeglądarce.

Oczywiście prosto w Javie nie mogę tego zrobić (za pomocą HttpURLConnection, setRequestMethod("GET"), InputStreamReader) bo mam sam kod HTML (bez obrazków itd). Musiałbym ręcznie ściągać wszystkie linki, potem podmieniać w kodzie linki do nich itd.

Podobno można skorzystać z webcrawlera (ma ktoś inny pomysł?): http://java-source.net/open-source/crawlers

Ten jest profesjonalny, ale trudny (więc odpada): https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Ten jest chyba łatwiejszy: https://github.com/yasserg/crawler4j

Pod końcem jest nawet przykład ściągnięcia strony (ten kod z setCrawlStorageFolder). Tylko to mi zapisuje wszystkie pliki do folderu. Jak zrobić, żeby zapisywało to do bazy? W dokumentacji nic nie znalazłem ;/

Ręcznie zapisywać po pobraniu wszystkie pliki z folderu do bazy? A jak będę chciał wyświetlić tą stronę to znowu z bazy do tymczasowego folderu na dysku?
To chyba jest bardzo niewydajne. Nie da się tego zrobić jakoś na strumieniach (bez zapisywania na dysk)? Jakoś nadpisać tą metodę setCrawlStorageFolder (bo nie znalazłem nic w stylu setCrawlStorageDatabase).

franciss

21.10.2015, 20:39:17

@mk321
Użyj pythona - znacznie mniej się upiszesz.

mk321

21.10.2015, 20:40:07

@franciss: nie mogę. Mam już kawałek aplikacji w Javie w Springu i muszę w tym pisać.

A jak w Pythonie? Też ręcznie czy są jakieś biblioteki (i łatwo z nich skorzystać? są przykłady?).

B.....e

konto usunięte 21.10.2015, 20:40:53

zapisywać ją do bazy, odczytywać, wyświetlać stronę w przeglądarce.

@mk321: Po co chcesz je trzymać w bazie ,aby wyświetlić potem w przeglądarce?
Nie lepiej trzymać je jako statyczne pliki na dysku a w bazie tylko identyfikatory które będziesz nadawał zapisując pliki?

b.....4

konto usunięte 21.10.2015, 20:41:04

@mk321: zależy co to za kawałek ( ͡° ͜ʖ ͡°)

franciss

21.10.2015, 20:41:47

@mk321
są biblioteki - pisałem kiedyś crawlera w Javie i masakra z tego wyszła. A w pythonie prosty crawler już w kilkunastu linijkach kodu zamkniesz (używając choćby scrapy)

b.....4

konto usunięte 21.10.2015, 20:45:30

@franciss: albo odpalać pythonowego crawlera spod Javy na serwerze ( ͡° ͜ʖ ͡°)

mk321

21.10.2015, 20:48:45

@Bozyszcze: piszę aplikację do archiwizacji stron. Jakby to był jeden plik ze stroną, to tak (a jedna strona to kilkadziesiąt plików). Przy ich dużej ilości nie wyobrażam sobie przenoszenie milionów malutkich plików.

Po za tym muszę mieć to w bazie (bo chcę to móc potem przetwarzać). Odczytywanie z dysku będzie niewydajne.

@blue94: po prostu muszę w Javie i już (inżynierka, już wcześniej wybrałem).

B.....e

konto usunięte 21.10.2015, 20:54:41

@mk321: nie napisałeś w zasadzie po co to robisz :) Także odpowiedziałem na podstawie wiedzy jaką miałem :)
Jeśli nie spodziewasz się nie wiadomo jakiego ruchu to może i w bazie będzie lepiej. Ja założyłem ,że pliki statyczne zawsze lepiej się keszują i jeśli masz zamiar tylko je wyświetlać to lepsze będą statyki.

Piszesz ,że chcesz je przetwarzać. Przetwarzać jednokrotnie czy wiele razy? Może się okazać ,że po przetworzeniu lepiej

B.....e

konto usunięte 21.10.2015, 20:58:48

@mk321: jak chcesz trzymać dokumenty html to może lepiej zastanowić się nad jakimś noSQL które dobrze sobie radzą z takimi rzeczami .

mk321

21.10.2015, 21:18:42

@Bozyszcze: o z tym keszowaniem to nie pomyślałem, że z dysku szybciej się odczyta. Tylko, że przy ich dużej ilości wdaje mi się, że strasznie niewygodne.
Ogólnie to ma być coś w stylu: https://archive.org/web/ (oni korzystają z Heritrixa, ale ja go nie potrafię ogarnąć, w dodatku termin mnie goni).

O NoSQL dopiero zaczynam się interesować. Nie wszystko na raz. Na razie sobie z Hibernate skorzystam.

Nie umiem tylko skorzystać z

B.....e

konto usunięte 21.10.2015, 21:23:46

@mk321: no ja ci nie pomogę :) Aczkolwiek spróbuj z mongoDB. Raczej sobie poradzisz. Poczytaj trochę.

MozeSuker

21.10.2015, 21:36:40

@mk321: Czy jesteś świadomy, że NoSQL a Hibernate to są zupełnie inne bajki? NoSQL to "typ" bazy danych a Hibernate to framework realizujący dostęp do bazy danych?

mk321

21.10.2015, 21:39:00

@MozeSuker: dzięki. To tym bardziej, później sobie może kiedyś podmienię w Hibernate "zwykłą" bazę na NoSQL (np. mongoDB). Ale na razie wolałbym w ogóle mieć to tam trzymać, bo na razie nie mam nic ;(