Jakość danych w Wikipedii: automatyczna ocena infoboksów w różnych językach

Infoboks zawiera podsumowanie najważniejszych informacji dotyczących konkretnego obiektu opisanego w artykule Wikipedii. Informacje w infoboksach na ten sam temat mogą się różnić w różnych językach. Niedawno wydane rozszerzenie Chrome może automatycznie oceniać jakość infoboksów.
z- 0
- #
- #
- #
- #
- #

















1) Jeżeli chodzi tylko o kody źródłowe artykułów w ich ostatniej wersji - 1.5 GB z kompresją bzip2 (https://dumps.wikimedia.org/plwiki/20180120/plwiki-20180120-pages-articles.xml.bz2)
Jednak, do ekstrakcji pełnej listy parametrów, należy brać pod uwagę inne pliki, w tym historję zmian, statystyki odwiedzin i inne.
2) Dla sprawdzenia niektórych wskazówek dotyczących ilości danych (tekstu, referencji, sekcji etc.) napisanie robota "sprawdzającego" jest relatywnie proste. Inna sprawa, kiedy trzeba przeanalizować treść jakościowo - np. sprawdzić neutralność.