Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum dla Kwiecień 9th, 2013

Ekstrakcja treści ze stron WWW

Autor: Piotr Karpiuk o 9. kwietnia 2013

Zagadnienie „oczyszczania” dowolnej strony WWW ze śmieci (ang. clutter) w rodzaju reklamy, nagłówki, stopki, linki nawigacyjne itp. ma duże znaczenie praktyczne. Przydaje się przy indeksowaniu treści w Internecie na użytek późniejszego wyszukiwania, do czytania artykułów na urządzeniach mobilnych, czy po prostu prezentowania treści internetowych w przeglądarce, w przystępniejszej formie (inaczej poformatowanej, większa czcionka itp.).
Krótki rekonesans w Googlu pokazuje, że problem jest stary, a idealnego rozwiązania nie ma – choć jest wiele praktycznych narzędzi takich jak:

Sprawa się komplikuje, gdy zauważymy że podział zawartości strony WWW na śmieci i treść jest jednym z najprostszych możliwych – przydatny byłby dodatkowy podział treści na tytuł, wprowadzenie (ang. lead), treść właściwą (ang. article body), komentarze, oraz różne dodatki (ang. supplemential) w rodzaju obrazki z podpisami, czy ramki uzupełniające (ang. fact box), albo linki do artykułów o podobnej tematyce.
Programistów rzecz jasna interesuje wykorzystanie takiego mechanizmu we własnych programach.
Czytaj więcej »

Napisany w Lingwistyka | Brak komentarzy »