Wpis z mikrobloga

MIRKO MANIFESTO!

TL;DR


Ponieważ ostatnio pojawiło się sporo głosów, że jednak wyszukiwarka wpisów na mirko by się przydała
a kolega, który ją napisał nie chce jej udostępnić, postanowiłem wyjść temu naprzeciw.

http://szukajo.tk

Kod źródłowy frontendu jest dostępny tu - https://github.com/cantorek/szukajo
Bardzo gorąco zachęcam Was do rozwijania tego projektu, ja niestety nie mam na to zbyt dużo czasu.

Na dzień dzisiejszy całe mirko do zeszłego weekendu jest zindexowane (razem z komentarzami).
Muszę jeszcze odpalić powolny crawler, który będzie indexował bieżące wpisy.
Może dziś wieczorem albo jutro.

Proszę się nie śmiać z kodu (albo śmiać :P). Klepałem to tylko kilka godzin w weekend popijając piwko.
Nie jestem też zbytnio fronendowcem ale się starałem :D Jeszcze raz bardzo zachęcam do rozwijania strony.

Projekt ten powstał aby zachowywać wpisy na mirkoblogu dla potomnych oraz umożliwić łatwe oraz zaawansowane ich wyszukiwanie.
Gromadzi on tylko publicznie dostępne dane.
Projekt nie ma charakteru komercyjnego, jest całkowicie non-profit.

TODO:
Sortowanie po dacie, plusach, etc.
Lepsze UI
Lepsza walidacja query string

#mirko #programowanie #ciekawostki #python #django #perl #internet #html #js

  • 22
  • Odpowiedz
@DK13: sam crawler jest bardzo szybki, parsowanie danych zajmuje najwięcej czasu.
Jeśli chodzi o samo crawlowanie z jednego serwera to mogę obrobić tyle ile fabryka dała czyli kilka set/tysięcy requestów na sekundę.
Crawlowanie z różnych domen to około 300 requestów na sekundę, to jest w głównej mierze zależne od tego jak dany serwer odpowiada.

Ale jeśli masz jeden cel, jak wypok czy wikipedia to otwierasz rurę i sky is the
  • Odpowiedz