Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum dla Lipiec 28th, 2013

Chmury tagów

Autor: Piotr Karpiuk o 28. lipca 2013

Chmury tagów (takie jak ta na obrazku po prawej) już od dawna towarzyszą nam na wielu serwisach internetowych. Teoretycznie pozwalają na łatwe zorientowanie się w zawartości serwisu, a także można je wykorzystać do szybkiego streszczenia jakiegoś dokumentu, tak aby rzut oka wystarczył do poznania głównych pojęć lub przynajmniej podjęcia decyzji o tym czy warto poświęcać cenny czas na sięganie do treści artykułu.

Co jednak decyduje o jakości takiej chmury i w jaki sposób jest tworzona? W pierwszej kolejności przychodzi do głowy algorytm trywialny: zliczmy wszystkie leksemy (słowa w formie podstawowej) dokumentu i ilość każdego leksemu zobrazujmy wielkością czcionki w chmurze tagów. Niestety, praktyka pokazuje że otrzymany wynik raczej nie będzie dobrym streszczeniem, nie tylko z tego powodu że najliczniejsze słowa to tzw. stop-words (a, aby, lecz, bo, co, oraz, i, itp.) – po prostu najważniejsze słowa tekstu niekoniecznie rekrutują się spośród tych liczniejszych.

Panowie J.Chuang, Ch.Manning i J.Heer zajęli się tematem i poprosili grupę 70 studentów o ręczne sporządzenie kilku tysięcy chmur tagów z blisko 9000 opisów dysertacji doktorskich, po czym przeanalizowali te chmury i doszli do następujących wniosków:

  • Najlepsze słowa kluczowe na ogół występują w tekście średnio-często.
  • Najczęściej spotykane frazy to grupy rzeczownikowe (ang. noun phrases), grupy czasownikowe (ang. verb phrases) i terminy techniczne (ang. technical terms). Ludzi interesują szczególnie wykryte w tekście osoby, nazwy miejsc i organizacji.
    % słów kluczowych % wszystkich fraz tekstu
    Grupy rzeczownikowe 65% 13%
    Grupy czasownikowe 7% 3%
    Terminy techniczne 82% 8%
    Złożone terminy techniczne 85% 9%

    Przypomnienie z lingwistyki: budowa zdań języka naturalnego rozróżnia w każdym zdaniu pewne spójne (na ogół) fragmenty zwane grupami lub frazami. Intuicyjnie rzecz ujmując, w zdaniu Biały pies głośno szczeka, słowo biały jest ściśle związane ze słowem pies (jest tego samego rodzaju i wspólnie z nim się odmienia, np. białego psa, białym psem, itp.). Frazy rzeczownikowe to te, które pełnią w zdaniu funkcję rzeczownika (np. dom, najstarszy dom w okolicy, itp.), frazy czasownikowe to te które pełnią funkcję czasownika (np. kupił obraz). Są też frazy przymiotnikowe, przysłówkowe, przyimkowe, liczebnikowe itp.

    Definicja terminu technicznego (w języku angielskim) i złożonego terminu technicznego w postaci gramatyki (N – rzeczownik, A – przymiotnik, C – liczba):

        Technical Term T ::= (A|N)+ (N|C) | N
        Compound Technical Term X ::= (A|N)∗ N of (T|C) | T

    Przykłady terminów technicznych: hardware, interactive visualization, Windows 95.

    Czytaj więcej »

Napisany w datavis | Brak komentarzy »