Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum dla Marzec 27th, 2017

Wikidata

Autor: Piotr Karpiuk o 27. marca 2017

Wikipedia jest popularnym repozytorium wiedzy, ale jest przeznaczona raczej dla ludzi niż do automatycznego przetwarzania przez komputery. Łatwo się o tym przekonać gdy staniemy np. przed zadaniem napisania programu który ma z Wikipedii wyciągnąć artykuły hasłowe poświęcone biografiom mężczyzn urodzonych w danym przedziale lat. Pewną namiastką danych ustrukturyzowanych w artykule hasłowym jest tzw. infoboks, ale prezentuje on ograniczony zakres informacji (np. w infoboksie Polityk nie ma własności określającej płeć), wartości własności w praktyce są wypełniane w sposób mało ustandaryzowany (np. data urodzenia może być zapisana na wiele sposobów), a sam infoboks może być trudny do wyodrębnienia z wikitekstu artykułu hasłowego a tym bardziej sparsowania.

Gromadzenie danych w sposób ustrukturyzowany leży również w interesie samych twórców Wikipedii: jeśli informacje o datach urodzin polityków zostaną zapisane w sposób ujednolicony w jakiejś bazie danych, to poszczególne wersje językowe Wikipedii (a jest ich przeszło 300) będą mogły pobierać te informacje z centralnej bazy, a nie zmuszać 300 ludzi do ręcznego wklepywania tej daty w artykułach hasłowych. Gdy polityk umrze, potencjalnie wystarczy wprowadzić datę śmierci w jednym centralnym repozytorium, aby pojawiła się we wszystkich wersjach językowych Wikipedii itd.

Wikidata to darmowa, społecznościowa, wielojęzyczna, ustrukturyzowana i powiązana z innymi projektami Wikimedia (w szczególności: z Wikipedią) baza danych połączonych ze sobą rekordów (graf). Najprościej spojrzeć na nią w ten sposób, że docelowo każdemu artykułowi hasłowemu Wikipedii odpowiadać będzie dokładnie jeden ustrukturyzowany rekord Wikidata (tzw. element, ang. item), przy czym np. dla rekordu reprezentującego osobę będą tam własności takie jak imię, nazwisko, płeć, data i miejsce urodzin/śmierci, narodowość, wyznanie, zawód, dzieci, zdjęcie, a także linki do odpowiedniego artykułu Wikipedii (do poszczególnych wersji językowych). O ile jest wiele wersji językowych Wikipedii, to w Wikidata istnieje tylko jeden rekord dla danego bytu, choć tytuł rekordu (np. imię i nazwisko w przypadku osoby) jest przechowywany w wielu językach. Dane w bazie Wikidata tworzą graf ponieważ wartościami własności elementu mogą być inne elementy, np. element Polska ma własność „stolica”, którego wartością jest element Warszawa, wartością własności „dziecko” elementu Krystyna Loska jest element Grażyna Torbicka.

Docelowo Wikidata ma być bazą wiedzy ogólnego przeznaczenia, podobnie jak np. Google Knowledge Graph. Wikidata wystartowała w 2012 roku z inicjatywy m.in. Google’a, a jest nadzorowana przez niemiecki oddział Wikimedia. Choć korzyści projektu dla Wikipedii są oczywiste, pojawiają się podejrzenia że Wikidata ma służyć głównie specjalistom od PR i właścicielom wyszukiwarek internetowych. Obecnie serwis Wikidata zawiera ok. 29 mln elementów i szybko zdobywa kluczową pozycję w branży Semantic Web, skutecznie kanibalizując takie serwisy jak Freebase.org czy DBpedia.

Czytaj więcej »

Napisany w Bazy danych | Brak komentarzy »