logo watchdog do użycia na facebook.com
strona z kontrastem English
KURSO NASDLA CIEBIEMÓWIĘ, ŻE...SLLGO
Jesteś na stronie: ›› watchdog.org.pl›› Spotkania o narzędziach strażnika ›› O technologii Semantic Web
21.09.2011
O technologii Semantic Web

Działalność strażnicza opiera się w dużej mierze na monitoringu informacji i danych dotyczących różnych sfer życia publicznego, pochodzących z różnych źródeł i dostarczanych w różnych formach i formatach. Mogą to być  dane bardzo uporządkowane – np. dokumenty przedstawiające tabelaryczne dane, bazy danych. Mogą to być jednak również dane trudno dostępne, znajdujące się w słabo ustrukturyzowanych plikach tekstowych, skanach dokumentów, artykułach prasowych, faksach czy plikach audio lub video.

Podstawowym problemem jest dostępność i możliwość ponownego wykorzystania danych i informacji umieszczonych w różnych dokumentach. Ta dostępność ma przynajmniej dwa zasadnicze wymiary: formalny i techniczny. Wymiar formalny odnosi się przede wszystkim do uregulowań prawnych zapewniających obywatelom wgląd do informacji pochodzących z sektora publicznego. W tym zakresie kluczowe są odpowiednie przepisy definiujące, czym jest informacja publiczna i jakie są procedury uzyskiwania do niej dostępu. Dostępność w wymiarze technicznym to z kolei przede wszystkim określenie formatów dokumentów elektronicznych i standardów dotyczących tworzenia i udostępniania dokumentów elektronicznych zawierających informacje publiczne. W tym obszarze również pojawiają się pewne uregulowania prawne i rekomendacje, jednak szeroko pojęta jakość techniczna informacji sektora publicznego pozostawia wiele do życzenia.

Kiedy już uzyskamy dostęp do informacji i wyciągniemy z niej ważne dla nas dane, pojawi się kolejne wyzwanie: zestawianie danych ze sobą. W wielu przypadkach monitoring wymaga śledzenia i analizy danych pochodzących z różnych źródeł po to, aby odkrywać łączące je zależności. Dodatkowo, dobrze byłoby gdyby przynajmniej wstępna analiza związków między różnymi danymi odbywała się w sposób automatyczny. Ale jak to zrobić, kiedy mamy dane w wielu różnych formatach? Rozwiązaniem może być wprowadzenie jednolitego standardu publikowania informacji publicznych w taki sposób, aby była możliwość automatycznego (komputerowego) zestawiania ich ze sobą i z innymi danymi pochodzącymi z różnych dziedzin. Poważnym kandydatem do roli takiego standardu jest technologia sieci semantycznej Semantic Web.

W skrócie, technologia Semantic Web to technologia publikowania różnego rodzaju treści w taki sposób, aby stały się one danymi zrozumiałymi dla komputerów. O samej technologii pisze się dużo, więc nie chcę powtarzać tych treści.  Przybliżę tę technologię na przykładzie projektu pod nazwą „Open Natura 2000” realizowanego przez prowadzony przeze mnie zespół badawczo-rozwojowy.

Najważniejszymi celami projektu było pozyskanie wybranych danych z sektora publicznego, opublikowanie ich w technologii Semantic Web, a następnie napisanie aplikacji automatycznie wiążących zsemantyzowane dane z innymi danymi dostępnymi w Internecie i uzyskanie w ten sposób wartości dodanej w postaci nowej wiedzy, nie znajdującej się w żadnej z połączonych baz danych.

Jako dziedzinę projektu wybraliśmy szeroko pojętą ochronę przyrody. Jednym z głównych projektów związanych z ochroną przyrody i zarządzaniem przestrzennym w Europie jest projekt Natura 2000. Projektem tym objęte są liczne tereny z całej Europy. W ramach projektu wybrane obszary o szczególnych cechach przyrodniczych opisywane są przy pomocy tzw. standardowych formularzy danych (ang. SDF). Zawierają one wiele cennych informacji jednak, co zauważyliśmy, zapoznając się z nimi, bardzo mało czytelnych i podanych w mało atrakcyjnej formie dla przeciętnego odbiorcy. Przykładowo, w każdym dokumencie występuje długa lista gatunków ptaków żyjących na danym obszarze Natura 2000, ale ich nazwy podane są wyłącznie po łacinie. W związku z tym na początek postanowiliśmy zaprząc technologię Semantic Web do prostego zadania polegającego na automatycznym i dynamicznym (w czasie rzeczywistym) sprawdzaniu, jak w języku polskim nazywają się gatunki ptaków zamieszkujących określony obszar Natura 2000. W tym celu należało najpierw sprowadzić dane zgromadzone w SDFach do postaci semantycznej bazy wiedzy. SDFy udostępniane są jako pliki pdf. Napisaliśmy program prasujący wybrane dane z pdfów i wprowadzający je do przygotowanej uprzednio bazy wiedzy, którą nazwaliśmy ON2K (Open Natura 2000).

Kiedy wypełniliśmy już naszą bazę wiedzy danymi, przeszukaliśmy obecnie dostępne zasoby Internetu publikowane w technologii Semantic Web i znaleźliśmy dwa przydatne dla naszego projektu zbiory danych tj.  freebase i dbpedia (semantyczna wersja encyklopedii Wikipedia). Freebase to semantyczna baza wiedzy zawierająca bardzo dużą liczbę danych przyrodniczych. Dla nas ważne było przede wszystkim to, że freebase zawiera tłumaczenia łacińskich nazw gatunków zwierząt i roślin na wiele języków, w tym na język polski. Na tym etapie mieliśmy zsemantyzowane nasze zasoby (dokumenty SDF) i zlokalizowane inne bazy wiedzy zawierające przydatne dla nas dane. W kolejnym kroku zaprojektowaliśmy i wykonaliśmy aplikację (tzw. aplikację agentową), której celem było automatyczne połączenie wiedzy z kilku baz. Konkretnym zadaniem, jakie postawiliśmy przed naszą aplikacją agentową, było podanie polskich nazw gatunków ptaków bytujących na wybranym obszarze Natura 2000 oraz pokazanie zdjęcia przedstawiającego osobnika danego gatunku. Aplikacja agentowa, w chwili składania zapytania, sięga do semantycznej bazy ON2K i pozyskuje bieżącą listę z nazwami gatunków ptaków. Następnie sięga do bazy freebase i pozyskuje tłumaczenie nazw gatunków. W kolejnym kroku, posiadając nazwę gatunku w języku polskim i angielskim, agent odpytuje bazę dbpedia w celu pozyskania zdjęcia osobnika danego gatunku ptaków. W rezultacie otrzymujemy nową wiedzę, której nie było w żadnej pojedynczej z tych trzech baz wiedzy. Jest to następująca wiedza: „Bocian czarny, wyglądający jak na załączonym zdjęciu, bytuje obecnie na obszarze Natura 2000 na terenie Słowińskiego Parku Narodowego”.
Więcej o projekcie Open Natura 2000 można przeczytać tutaj: http://openbase.pl/index.php/2011/06/opennatura2000-pierwsza-odslona-projektu/ .

Projekt Open Natura 2000 ilustruje zasady działania technologii Semantic Web oraz praktyczne korzyści wynikające z udostępniania danych w tej technologii. Trudno stwierdzić, czy ta technologia stanie się standardem publikowania danych przez podmioty publiczne. Jest to na pewno jedna z rozważanych alternatyw. Praktyczne przykłady widać już np.: w Stanach Zjednoczonych (data.gov) i Wielkiej Brytanii (data.gov.uk). Komisja Europejska powołała organizację pod nazwą Semantic Interoperability Center Europe (www.semic.eu), która zajmuje się stworzeniem platformy wymiany danych pomiędzy krajami członkowskimi głównie w technologii Semantic Web. Jest zatem prawdopodobne, że technologia Semantic Web lub jej pochodna stanie się podstawową technologią publikacji danych publicznych. Na pewno warto się jej przyglądać.

Dariusz Głażewski
Wydrukuj skomentuj



wróć
CC SLLGO, ul. Ursynowska 22/2, 02-605 Warszawa, +48 22 844 73 55, watchdog@sllgo.pl | CMS by Pr@ska Pracownia Internetu | Grafika by Agencja BO TAK! & PPI