Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum: 'Lingwistyka' Kategorie

CLARIN-PL: narzędzia lingwistyczne do przetwarzania języka polskiego

Autor: Piotr Karpiuk o 9. lutego 2017

Nierzadko informatycy stają przed zadaniem przetwarzania języka polskiego. Jest to oczywiście złożone zagadnienie i mało prawdopodobne by ktoś chciał sam się pokusić o napisanie parsera (choćby tylko płytkiego) dla języka polskiego, nie mówiąc już o poziomie semantycznym. Na szczęście polscy lingwiści-informatycy udostępniają stworzone przez siebie narzędzia w Internecie, a wśród nich prawdziwe perełki.
CLARIN-PL to strona od której warto zacząć przegląd. Mamy tu bardzo szybki analizator morfologiczny Morfeusz, wrocławski szybki tager języka polskiego WCRFT2, narzędzie do wydłubywania nazw własnych z tekstu Liner2, parsery do języków polskiego/angielskiego/niemieckiego czy narzędzia do przetwarzania mowy.
Ponieważ z czasem pojawiają się nowe narzędzia i aktualizacje istniejących, warto skorzystać z Wyszukiwarki, gdzie można sobie posortować wyniki malejąco po dacie zgłoszenia.
Niektóre narzędzia są intrygujące, np. system do wykrywania listów samobójczych.

Napisany w Lingwistyka | Brak komentarzy »

Carrot2 Clustering Engine

Autor: Piotr Karpiuk o 26. marca 2015

Carrot2 to stworzona przez panów Dawida Weissa i Stanisława Osińskiego z Politechniki Poznańskiej alternatywa dla Googlowej wyszukiwarki. Jej bardzo interesującą funkcją jest grupowanie wyników wyszukiwania. Przykładowo gdy pytamy o „apple”, osobno będziemy mieli pogrupowane informacje o owocach, a osobno o firmie Apple Inc. Wyszukiwarka obsługuje kilka różnych algorytmów (Lingo jest wolniejszy, ale produkuje etykietki grup lepszej jakości niż STC) i obsługuje jedynie języki angielski, niemiecki, francuski, włoski i hiszpański. Być może ciekawsza nawet niż sama wyszukiwarka jest używana pod spodem otwartoźródłowa, dobrze udokumentowana biblioteka Javy, której można użyć we własnych projektach do grupowania rekordów (np. wyników wyszukiwania) zawierających tekst w jednym z 19 języków, m.in. obsługiwany jest język polski.

Napisany w Lingwistyka | Brak komentarzy »

Tłumacz Google coraz lepszy

Autor: Piotr Karpiuk o 10. kwietnia 2013

W Google Translatorze pojawiło się ostatnimi laty kilka usprawnień, które widać na poniższym obrazku (kliknij aby powiększyć). Po pierwsze widzimy które tłumaczenie słowa wydaje się najbardziej prawdopodobne (jest najczęstsze), a dla każdego znaczenia mamy synonimy. Gdy któreś tłumaczenie szczególnie przypadnie nam do gustu, możemy je zapisać we własnym słowniku, dającym się przeszukiwać. Od dawna dla danej frazy można ją ocenić, zaproponować własne tłumaczenie, lub posłuchać wymowy. Być może głównie dzięki wolontariuszom, ale widać że jakość generowanych przez narzędzie tłumaczeń poprawia się z roku na rok.



Kliknij aby powiększyć

Napisany w Lingwistyka | Brak komentarzy »

Ekstrakcja treści ze stron WWW

Autor: Piotr Karpiuk o 9. kwietnia 2013

Zagadnienie „oczyszczania” dowolnej strony WWW ze śmieci (ang. clutter) w rodzaju reklamy, nagłówki, stopki, linki nawigacyjne itp. ma duże znaczenie praktyczne. Przydaje się przy indeksowaniu treści w Internecie na użytek późniejszego wyszukiwania, do czytania artykułów na urządzeniach mobilnych, czy po prostu prezentowania treści internetowych w przeglądarce, w przystępniejszej formie (inaczej poformatowanej, większa czcionka itp.).
Krótki rekonesans w Googlu pokazuje, że problem jest stary, a idealnego rozwiązania nie ma – choć jest wiele praktycznych narzędzi takich jak:

Sprawa się komplikuje, gdy zauważymy że podział zawartości strony WWW na śmieci i treść jest jednym z najprostszych możliwych – przydatny byłby dodatkowy podział treści na tytuł, wprowadzenie (ang. lead), treść właściwą (ang. article body), komentarze, oraz różne dodatki (ang. supplemential) w rodzaju obrazki z podpisami, czy ramki uzupełniające (ang. fact box), albo linki do artykułów o podobnej tematyce.
Programistów rzecz jasna interesuje wykorzystanie takiego mechanizmu we własnych programach.
Czytaj więcej »

Napisany w Lingwistyka | Brak komentarzy »