Wpis z mikrobloga

Heja.
Robie sobie projekt zwiazany z bigdata, mianowicie chce napisac system, ktory na podstawie komentarzy bedzie sprawdzal czy ktos jest lewakiem czy prawakiem.

Do pelni szczescia potrzebne mi sa dane wejsciowe na podstawie ktorych bede dzielil konta na lewakow i prawakow. Potrzebuje 6 kont, 3 wzorcowych przedstawicieli #neuropa oraz 3 wzorcowych przedstawicieli #4konserwy.
Jak bede mial komentarze napisane przez osoby o pogladach lewicowych i prawicowych to bede mogl przepuscic przez to ponad 300 tysiecy zebranych przeze mnie komentarzy. :)

Przy okazji otwieram nowy tag, gdzie bede informowal o postepach prac. :) #bdml

#machinelearning #bigdata #spark #scala
  • 14
@BreathDeath: Tak btw kiedy już o tym pomyślałem (wcześniejszy koment pisałem w drodze, bez większej rozkminy): masz w planie zbudować na podstawie tych komentarzy korpus tekstowy i analizować treści pod względem ilościowym, czy jak to chcesz rozgryźć? Wydaje mi się, że zbadanie częstotliwości występowania konkretnych wytrychów słownych (np. "lewactwo", "prawactwo") przy pomocy Wordsmitha miałoby na tym etapie najwięcej sensu.
@greven: Heja, na poczatek chcialem sprawdzac czestotliwosc wystapienia slow. Potem calych fraz. Na koniec myslalem o analizie zakopow i wykopow. Do tego analiza plusowanych i minusowanych komentarzy.
Niestety wykop api ma ograniczenie i musze korzystac z 20 multikont, zeby cokolwiek pobrac. :D
@Ark00: Tak, zyje, oczywiscie. Technicznie wyglada to tak, ze pobieram sobie wszystkie komentarze z wybranych "politycznych" tagow i wrzucam je na HDFS. Przetwarzam sobie to w scali za pomoca sparka. Dlubie sobie to powoli po godzinach, wlasnie nad tym siedze. :P
Ogolnie to kod pisze i jak mysle, ze jest ok to odpalam w amazonie cala maszynerie do przetwarzania, zbieram wyniki i niszcze infrastrukture. Jeden przebieg to kilkanascie groszy. :)