Wpis z mikrobloga

@atm-Pa: pytanie, czy chcesz zbudować coś na wzór google, czy chcesz bazować na jakimś api google. Jeśli drugie, to chyba nic nie udostępniają, możesz ich co najwyżej scrapować, ale to chyba nie ma za dużo sensu.
Jeżeli pierwsze to zerknij na bibliotekę apache nutch
via Wykop Mobilny (Android)
  • 2
@atm-Pa: 1. Ustalasz listę adresów URL, z których pająk internetowy będzie startował.
2. Pobierasz zawartość strony spod wybranego adresu URL.
3. Znajdujesz na niej wszystkie słowa i zapisujesz postaci wiążącej słowa z adresem URL, pewnie w bazie danych o określonej strukturze.
4. Znajdujesz na niej wszystkie odnośniki i dodajesz do kolejki do odwiedzenia przez pająka później.
5. Ustalasz na kolejny adres URL z kolejki do odwiedzenia
6. Skok do punktu 2.