Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

CLARIN-PL: narzędzia lingwistyczne do przetwarzania języka polskiego

Autor: Piotr Karpiuk o czwartek 9. Luty 2017

Nierzadko informatycy stają przed zadaniem przetwarzania języka polskiego. Jest to oczywiście złożone zagadnienie i mało prawdopodobne by ktoś chciał sam się pokusić o napisanie parsera (choćby tylko płytkiego) dla języka polskiego, nie mówiąc już o poziomie semantycznym. Na szczęście polscy lingwiści-informatycy udostępniają stworzone przez siebie narzędzia w Internecie, a wśród nich prawdziwe perełki.
CLARIN-PL to strona od której warto zacząć przegląd. Mamy tu bardzo szybki analizator morfologiczny Morfeusz, wrocławski szybki tager języka polskiego WCRFT2, narzędzie do wydłubywania nazw własnych z tekstu Liner2, parsery do języków polskiego/angielskiego/niemieckiego czy narzędzia do przetwarzania mowy.
Ponieważ z czasem pojawiają się nowe narzędzia i aktualizacje istniejących, warto skorzystać z Wyszukiwarki, gdzie można sobie posortować wyniki malejąco po dacie zgłoszenia.
Niektóre pomysły są intrygujące, np. system do wykrywania listów samobójczych.
Zdecydowanie warto obejrzeć również zestaw narzędzi i zasobów IPI PAN.
Trochę szkoda że w obu repozytoriach opisy są często zdawkowe i mało przystępne dla osób które przetwarzaniem języka polskiego nie zajmują się na co dzień. Chciałoby się mieć te usługi łatwo dostępne i gotowe do uruchomienia np. jako kontenery Dockera – wyeliminowałoby to potrzebę nieraz kłopotliwej i czasochłonnej instalacji i konfiguracji.

Share and Enjoy:
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Śledzik
  • Blip
  • Blogger.com
  • Gadu-Gadu Live
  • LinkedIn
  • MySpace
  • Wykop

Zostaw komentarz

XHTML: Możesz użyć następujących tagów: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>