Ekstrakcja treści ze stron WWW
Autor: Piotr Karpiuk o 9. kwietnia 2013

Krótki rekonesans w Googlu pokazuje, że problem jest stary, a idealnego rozwiązania nie ma – choć jest wiele praktycznych narzędzi takich jak:
- rozszerzenia do przeglądarek (np. dla Chrome: iReader i Clearly, dla FF: Reader, iReader, Readable, Tranquility),
- usługi które ładnie formatują i zachowują przeglądaną stronę do przeczytania na później na urządzeniach mobilnych: Instapaper, Getpocket, Readability (patrz osobny wpis na blogu)
Sprawa się komplikuje, gdy zauważymy że podział zawartości strony WWW na śmieci i treść jest jednym z najprostszych możliwych – przydatny byłby dodatkowy podział treści na tytuł, wprowadzenie (ang. lead), treść właściwą (ang. article body), komentarze, oraz różne dodatki (ang. supplemential) w rodzaju obrazki z podpisami, czy ramki uzupełniające (ang. fact box), albo linki do artykułów o podobnej tematyce.
Programistów rzecz jasna interesuje wykorzystanie takiego mechanizmu we własnych programach.
Czytaj więcej »
Napisany w Lingwistyka | Brak komentarzy »