Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum dla Lipiec, 2013

Chmury tagów

Autor: Piotr Karpiuk o 28. lipca 2013

Chmury tagów (takie jak ta na obrazku po prawej) już od dawna towarzyszą nam na wielu serwisach internetowych. Teoretycznie pozwalają na łatwe zorientowanie się w zawartości serwisu, a także można je wykorzystać do szybkiego streszczenia jakiegoś dokumentu, tak aby rzut oka wystarczył do poznania głównych pojęć lub przynajmniej podjęcia decyzji o tym czy warto poświęcać cenny czas na sięganie do treści artykułu.

Co jednak decyduje o jakości takiej chmury i w jaki sposób jest tworzona? W pierwszej kolejności przychodzi do głowy algorytm trywialny: zliczmy wszystkie leksemy (słowa w formie podstawowej) dokumentu i ilość każdego leksemu zobrazujmy wielkością czcionki w chmurze tagów. Niestety, praktyka pokazuje że otrzymany wynik raczej nie będzie dobrym streszczeniem, nie tylko z tego powodu że najliczniejsze słowa to tzw. stop-words (a, aby, lecz, bo, co, oraz, i, itp.) – po prostu najważniejsze słowa tekstu niekoniecznie rekrutują się spośród tych liczniejszych.

Panowie J.Chuang, Ch.Manning i J.Heer zajęli się tematem i poprosili grupę 70 studentów o ręczne sporządzenie kilku tysięcy chmur tagów z blisko 9000 opisów dysertacji doktorskich, po czym przeanalizowali te chmury i doszli do następujących wniosków:

  • Najlepsze słowa kluczowe na ogół występują w tekście średnio-często.
  • Najczęściej spotykane frazy to grupy rzeczownikowe (ang. noun phrases), grupy czasownikowe (ang. verb phrases) i terminy techniczne (ang. technical terms). Ludzi interesują szczególnie wykryte w tekście osoby, nazwy miejsc i organizacji.
    % słów kluczowych % wszystkich fraz tekstu
    Grupy rzeczownikowe 65% 13%
    Grupy czasownikowe 7% 3%
    Terminy techniczne 82% 8%
    Złożone terminy techniczne 85% 9%

    Przypomnienie z lingwistyki: budowa zdań języka naturalnego rozróżnia w każdym zdaniu pewne spójne (na ogół) fragmenty zwane grupami lub frazami. Intuicyjnie rzecz ujmując, w zdaniu Biały pies głośno szczeka, słowo biały jest ściśle związane ze słowem pies (jest tego samego rodzaju i wspólnie z nim się odmienia, np. białego psa, białym psem, itp.). Frazy rzeczownikowe to te, które pełnią w zdaniu funkcję rzeczownika (np. dom, najstarszy dom w okolicy, itp.), frazy czasownikowe to te które pełnią funkcję czasownika (np. kupił obraz). Są też frazy przymiotnikowe, przysłówkowe, przyimkowe, liczebnikowe itp.

    Definicja terminu technicznego (w języku angielskim) i złożonego terminu technicznego w postaci gramatyki (N – rzeczownik, A – przymiotnik, C – liczba):

        Technical Term T ::= (A|N)+ (N|C) | N
        Compound Technical Term X ::= (A|N)∗ N of (T|C) | T

    Przykłady terminów technicznych: hardware, interactive visualization, Windows 95.

    Czytaj więcej »

Napisany w datavis | Brak komentarzy »

Amazon Mechanical Turk

Autor: Piotr Karpiuk o 27. lipca 2013

Pomimo oszałamiającego rozwoju technologii IT, wciąż istnieje wiele względnie prostych zadań ciągle jeszcze niewykonalnych dla komputerów. Rozważmy np. tłumaczenie fragmentu tekstu, transkrypcję podkastów, ustalanie wykonawcy płyty CD, tagowanie obrazków, czy wykrywanie obrazków zawierających treści niedozwolone (np. pornografia dziecięca).

Usługa Amazon Mechanical Turk wykorzystuje mechanizm crowdsourcingu, czyli zlecania wszystkim chętnym ludziom zadań przez Internet i odbierania przez Internet wyników. Typowe mikrozadanie, zwane również HIT (ang. Human Intelligence Task) jest krótkie, proste i za jego wykonanie zleceniobiorca otrzymuje od 1 centa do 10 dolarów, przy czym pośrednik Amazon potrąca 10% tej kwoty dla siebie.

O popularności usługi świadczy fakt, że obecnie dostępnych jest 200 tysięcy wolnych zadań, a społeczność zleceniobiorców liczy sobie pół miliona ludzi w 190 krajach, głównie w USA (przede wszystkim białe, młode kobiety o wykształceniu nieco wyższym niż przeciętne). Niestety póki co zleceniodawcami (ang. requesters) mogą być tylko obywatle USA, ale zleceniobiorcy (ang. workers, turkers) są rozsiani po całym świecie (patrz mapa).

Zlecając zadanie, można oczekiwać od zleceniobiorcy określonych kwalifikacji, które określa się wykonując przygotowany test lub benchmark („najpierw proszę wykonać te prostsze zadania, zobaczymy jak Pani/Panu pójdzie”). Ponadto, każdy zleceniobiorca kreuje swoją reputację, wyrażaną liczbą wykonanych poprawnie zleceń. Najlepsi pracownicy otrzymują wyróżniający tytuł Master (obecnie tylko w kategoriach Kategoryzacja Danych i Moderacja Fotografii).

Usługa wystartowała w 2005 roku i – jak zwykle w przypadku Amazona – firma chciała za jej pomocą rozwiązać przede wszystkim własne problemy – szukano chętnych do wykrywania duplikatów opisów sprzedawanych produktów na witrynie WWW. Dzisiaj typowe zadania to – oprócz wymienionych wcześniej – opisywanie produktów, pisanie komentarzy (reklam) w serwisach społecznościowych, klikanie „Lubię to” na Facebooku, a także przeprowadzanie badań (np. ankiet). Wykorzystywano też usługę do poszukiwania ludzi, m.in. Steve Fossetta – dane z satelity zostały podzielone na sektory po kilkadziesiąt metrów kwadratowych, zleceniobiorcy proszeni byli o oznaczanie sektorów które wydają się zawierać „obce obiekty” przypominające fragmenty rozbitego samolotu.

Czytaj więcej »

Napisany w Uncategorized | Brak komentarzy »

Wizualizacje danych (5)

Autor: Piotr Karpiuk o 17. lipca 2013

IRC Arcs

Monitorowanie kanału IRC. Na poziomej osi rozmieszczeni są użytkownicy, a łuk między A i B oznacza że w swojej rozmowie A powoływał się na B. Łuki mają kierunek zgodnie z ruchem wskazówek zegara: górne łuki skierowane są od lewej do prawej, a dolne od prawej do lewej. Grubość łuku odpowiada ilości odwołań.

Visuwords

Interaktywne przeglądanie semantycznej sieci słów angielskich WordNet. Wpisujemy wybrane słowo i poznajemy słowa powiązane z nim wedle różnych relacji semantycznych (synonim, antonim, hiponim, meronim itp.). Można używać w charakterze tezaurusa.

Interaktywna prezentacja

Hierarchical Edge Bundles

Sposób na wizualizację złożonych grafów. Krawędzie są łączone w wiązki przedstawiane w postaci krzywych B-sklejanych (ang. B-spline curves), co redukuje bałagan na ekranie i ułatwia orientację.

Artykuł naukowy

ClusterBall: Visualizing Wikipedia

Wizualizacja 3-poziomowego poddrzewa drzewa kategorii angielskiej Wikipedii, począwszy od wskazanej kategorii. Wierzchołek pierwszego poziomu jest rysowany w centrum okręgu, wierzchołki drugiego poziomu wewnątrz okręgu, a trzeciego poziomu na obrzeżach. Kliknij rysunek aby powiększyć.

Więcej przykładów

ONEWORD

SMSy przysyłane przez widzów włoskiego programu telewizyjnego na bieżąco pokazywane były w postaci drzewa (wielkość czcionki odpowiada ilości SMSów o danej treści).

Web Trend Map 2007

Mapa londyńskiego metra sporządzona w 1930 roku przez Harrego Becka to klasyka w świecie infografik – świetny przykład mapy w której zrezygnowano z dokładności odwzorowania topograficznego na rzecz czytelności i przydatności dla odbiorców (pasażerów). Od tej pory aż po dziś dzień mapy systemów transportowych wzorują się na tym podejściu i są poddawane rozmaitym interpretacjom. W 2007 roku czytelnicy japońskiego magazynu mogli zobaczyć diagram przedstawiający trendy w sieci WWW (najważniejsze witryny webowe na świecie), luźno wzorowany na mapie tokijskiego metra. Kolor linii oznacza tematykę, np. stacje na linii zielonej to witryny poświęcone omawianiu najnowszych wydarzeń na świecie, na fioletowej – muzyka, itp. Linia czarna łączy największe witryny. Oczywiście są stacje, które leżą na przecięciu kilku linii, jak to w metrze bywa. Kliknij rysunek aby powiększyć.

Więcej szczegółów

Internet Map

Mapa połączeń internetowych między poszczególnymi miastami na świecie. Intensywność krawędzi odzwierciedla liczbę połączeń. Kliknij rysunek aby powiększyć.

Więcej szczegółów

Anymails

Wyobraź sobie maile w swojej skrzynce pocztowej jako robactwo łażące po stole. Rodzaj i kolor robaka oznacza kategorię maila (rodzina, szkoła, praca, spam itp.), wielkość i przezroczystość robaka mają związek z długością zalegania maila w skrzynce. Robaki odpowiadające nieprzeczytanym mailom poruszają się wyraźnie szybciej. Mail na który odpowiedziałeś porusza się wolno i nie ma włosków. Warto obejrzeć wideo (YouTube).

Video 1, Video 2

Napisany w datavis | Brak komentarzy »

Wizualizacje danych (4)

Autor: Piotr Karpiuk o 10. lipca 2013

Backchannel

Monitorowanie na bieżąco kanału IRC. Na okręgu wymienieni są uczestnicy kanału #etech. Długość niebieskiego paska odzwierciedla poziom aktywności. Powiązania pokazują kto z kim rozmawia. Najechanie kursorem myszki na osobę podświetla powiązania z jej rozmówcami.

Travel-time Maps

Czas dojazdu z centrum Londynu do innych miejsc w mieście za pomocą transportu publicznego.

Websites as graphs

Każdą stronę HTML/XML możemy zaprezentować jako graf (drzewo).
Poszczególne kolory oznaczają:

  • niebieski: linki (znaczniki A),
  • czerwony: tabele (TABLE, TR, TD),
  • zielony: znacznik DIV,
  • fioletowy: obrazki (IMG),
  • żółty: formularze (FORM, INPUT, TEXTAREA, SELECT itp.),
  • pomarańczowy: akapity, cytaty i łamanie wiersza (BR, P, BLOCKQUOTE),
  • szary: pozostałe tagi.

Przedstawienie dowolnej strony internetowej jako grafu (tutaj: msn.com) rodzi pytanie o możliwość porównywania stron na gruncie teorii grafów.

Mistrzostwa Świata Piłki Nożnej 2006

Finałowy mecz Francja-Włochy. Diagram pokazuje ilość podań między zawodnikami. Rozmiar kuli reprezentującej gracza odzwierciedla wpływ gracza na grę zespołu.

Swarm

Monitorowanie połączeń HTTP w firmie – jak pracownicy surfują po Internecie. Popularniejsze witryny przemieszczają się do środka, linie oznaczają przejście z jednej witryny do drugiej.

Drzewo gatunków biologicznych

Jeszcze jeden sposób na wizualizację struktury drzewiastej. Interaktywny przykład.

LaNet, Indiana University 2006

Sposób na przedstawienie dużych, skomplikowanych grafów. Najpierw graf trzeba „rozplątać” i odkryć jego hierarchiczną strukturę, poprzez rekurencyjne wycinanie najmniej połączonych wierzchołków i odkrywanie „centrów”. W ten sposób odkrywa się warstwy, które następnie umieszcza się na kolejnych koncentrycznych okręgach. Rysunek przedstawia lotniska na świecie, krawędź oznacza że pomiędzy dwoma lotniskami jest regularne połączenie lotnicze. Najważniejsze, najbardziej oblegane lotniska świata są oczywiście w środku (kliknij rysunek, aby powiększyć).

Artykuł naukowy

Napisany w datavis | Brak komentarzy »