Wpis z mikrobloga

TLDR


Rok temu miałem przyjemność gościć na konferencji projektu CLARIN który skupia ludzi zajmujących się przetwarzaniem języka naturalnego, szczególnie polskiego. Podczas trzech dni prezentowano wiele ciekawych narzędzi, część użytecznych i w całkiem dojrzałej formie, wszystko na otwartych licencjach, tylko brać i używać - no nie do końca. Problem polega na tym, że poza jakimiś demkami internetowymi sklejenie maszyny która będzie nam serwowała ich usługi jest zadaniem wymagającym wielogodzinnych poszukiwań i integrowania różnych projektów ze sobą z dziesiątek bibliotek i skryptów. Z pomocą autora części narzędzi, Janem Koconiem z #pwr , udało mi się stworzyć skrypty (#ansible) które na #ubuntu z #vagrant instalują i konfigurują co trzeba w efekcie dając REST-owy serwer który jest w stanie rozpoznawać w tekście
- wyrażenia temporalne (czyli daty i inne wyrażenia związane z czasem, używając różnych modeli)
- nazwy własne z kategoryzacją (dostępne są różne modele: dzielące nazwy na bardziej ogólne lub szczegółowe kategorie)
- opisy sytuacji (tego akurat jeszcze nie testowałem, ale modele są gotowe)
W Internecie często można trafić na różne biblioteki które to robią, najczęściej jednak dla języka angielskiego, tutaj mamy gotowe narzędzia dla polskiego.

Projekt leży na #github - https://github.com/merito/liner2-soap-vagrant

Co ma na celu ten wpis? Po pierwsze zapraszam do używania projektu i narzędzi w nim zawartych - jest to gotowe rozwiązanie, mam nadzieję, że komuś się przyda (sam go używam i mam pewne obserwacje praktyczne, chętnie się podzielę). Po drugie można tam jeszcze wiele ulepszyć - po pierwsze i najważniejsze przejść ze starego już Ubuntu 12.04 LTS na coś nowszego, wymaga to jednak trochę pracy i eksperymentów. Do tego potrzebna jest znajomość #java, #php i innych, których mi brakuje.

Zapraszam do dyskusji, może znacie jakieś miejsca w Internecie gdzie można byłoby wspomnieć o tym projekcie i znalazłyby szerszy odzew niż na mirko :P Poniżej kilka linków do rozpoznania się w temacie:
http://clarin-pl.eu/pl/strona-glowna/
http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/narzedzia/liner2
http://nlp.pwr.edu.pl/redmine/projects

#programowanie #nlp
  • 6
@autowired: Kiedyś skończyłem W4, ale teraz nie mam już nic wspólnego z PWr poza sentymentem. Ekipa tworząca te narzędzia to bardziej W8, ale są tam też ludzie z W4.
@SwordPL: Dziękuję ;) Nie docker z bardzo prostej przyczyny - nie znam go. Jakoś nigdy nie złożyło się bardziej używać dockera, a w tym przypadku jednak priorytetem było, żeby coś zrobić i działało, a nie żeby robić i może skończyć, więc
@asdasdce2w: Aktualnie korzystam z tego obrazu - https://app.vagrantup.com/ubuntu/boxes/precise64 i to jest 64 bitowe Ubutnu 12.04.5 LTS. Bardziej myślałem nad przejściem na 16.04 LTS, bo wsparcie dla 12.04 już się skończyło. Aktualizacja do 16.04 wiąże się z przejściem z PHP 5 na 7, z czymś jeszcze były problemy. Mam już lokalnie na branchu trochę rozgrzebaną wersję na 16.04, ale ciągle nie gotową - wrzucę ją na githuba jutro.