Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Archiwum dla wrzesień 5th, 2012

Wikipedia – inne spojrzenie

Autor: Piotr Karpiuk o 5. września 2012

Kliknij, aby przejrzeć bazę danych (Google Chrome lub Firefox)

Na wielu stronach Wikipedii występują tzw. infoboksy. Na przykład na stronie hasła Lublin po prawej stronie artykułu mamy stablicowane informacje takie jak powierzchnia miasta, liczba ludności, herb i flaga miasta. Na infoboksy możemy spojrzeć jak na rekordy tabel relacyjnej bazy danych.

W źródle artykułu Wikipedii typowy infoboks wygląda tak:

{{POL miasto infobox
 |nazwa                 = Lublin
 |zdjęcie               = Collage of views of Lublin.jpg
 |herb                  = POL Lublin COA 1.svg
 |flaga                 = POL Lublin flag 1.svg
 |dewiza                = [[Fidelitatem et Constantiam|''Fidelitatem et Constantiam'' (''Wierność i Stałość'')]]
 |województwo           = [[Grafika:POL województwo lubelskie flag.svg|20px]][[województwo lubelskie|lubelskie]]
 |założono              = [[VI wiek]]
 |powierzchnia          = 147
 |wysokość              = 163-238
 |populacja             = 348 567
 |rok populacji         = 31.03.2011
 |gęstość               = 2371
 |strefa numeracyjna    = (+48) 81
 |kod pocztowy          = 20-001 do 20-999
 |tablice rejestracyjne = LU
 |stopniN = 51 |minutN = 14 |sekundN = 53
 |stopniE = 22 |minutE = 34 |sekundE = 13
 |adres urzędu miasta   = plac Łokietka 1<br />20-109 Lublin
 |www                   = http://www.um.lublin.pl/
}}

Po ściągnięciu sobie zawartości całej Wikipedii (np. ze strony dumps.wikimedia.org) i odpowiednim sparsowaniu infoboksów otrzymujemy kilkaset tabel z całkiem interesującymi danymi – statystyki państw, miast, lista wszystkich piłkarzy, artystów, żołnierzy itp.

Klikając obrazek po prawej, otwieramy aplikację webową pozwalającą przejrzeć bazę. W drzewku po lewej dla każdego wierzchołka w nawiasie kwadratowym liczba tabel, w nawiasie okrągłym liczba rekordów w tabelach. Podgląd danych w tabeli ograniczyłem do 500 wierszy ze względów wydajnościowych. W opisie struktury tabeli dla każdej kolumny podane jaki procent tej kolumny jest wypełniony.

Napisany w WWW | Brak komentarzy »