Sieć semantyczna

Sieć semantyczna lub semantyka sieciowa jest rozszerzeniem sieci Web ustandaryzowanym przez konsorcjum World Wide Web Consortium (W3C). Standardy te zachęcają do korzystania ze standardowych formatów danych i protokołów wymiany w Internecie, opartych na modelu Resource Description Framework (RDF).

Sieć semantyczna jest przez niektórych określana jako Web 3.0.

Według W3C, „Semantic Web dostarcza modelu , który umożliwia wymianę danych i ponownie między wieloma aplikacjami, firm i grup użytkowników . ” Fraza została ukuta przez Tima Berners-Lee (wynalazcę sieci i dyrektora W3C), który nadzoruje rozwój popularnych technologii sieci semantycznej. Definiuje to jako „sieć danych, które mogą być przetwarzane bezpośrednio i pośrednio przez maszyny, aby pomóc ich użytkownikom w tworzeniu nowej wiedzy” . Aby to osiągnąć, Sieć Semantyczna wdraża Sieć Danych która polega na łączeniu i porządkowaniu informacji w Internecie w celu prostego dostępu do wiedzy, którą już zawiera.

Podczas gdy jego krytycy kwestionują jego wykonalność, jego promotorzy twierdzą, że wnioski złożone przez naukowców z przemysłu , biologii i nauk humanistycznych dowiodły już słuszności tej nowej koncepcji. Oryginalny artykuł Tima Bernersa-Lee z 2001 roku w Scientific American opisał oczekiwaną ewolucję od istniejącej sieci do sieci semantycznej, ale to jeszcze się nie wydarzyło. W 2006 roku Tim Berners-Lee i jego koledzy powiedzieli: „Ten prosty pomysł… pozostaje w dużej mierze niewykorzystany. "

Historia

Pojęcie „modelowej sieci semantycznej ” zostało ukute w latach sześćdziesiątych przez kognitywisty Allana Collinsa , językoznawcę Rossa Quilliana (w) oraz psycholog Elizabeth Loftus i ujawnione w różnych publikacjach jako sposób przedstawiania ustrukturyzowanej wiedzy. Model ten, zastosowany w kontekście Internetu, rozszerza sieć hiperłączy stron internetowych czytelnych dla człowieka, umieszczając na stronach metadane odczytywane przez komputer. Te metadane są ze sobą powiązane, co pozwala agentom na bardziej inteligentny dostęp do sieci i wykonywanie zadań w imieniu użytkowników. Sieć semantyczna jest postrzegana jako brama dostępu do danych między różnymi aplikacjami i systemami. Jego zastosowania są liczne w publikacjach, blogach iw kilku innych dziedzinach.

Tim Berners-Lee pierwotnie wyraził pogląd na sieć semantyczną w następujący sposób:

Marzę o Sieci [w której komputery] będą zdolne do analizowania wszystkich danych w Sieci - treści, linków i transakcji między ludźmi a komputerami. „Sieć semantyczna”, która powinna to umożliwić, jeszcze się nie pojawiła, ale kiedy już się pojawi, codziennymi mechanizmami handlu, biurokracji i naszego codziennego życia zajmą się maszyny rozmawiające z maszynami. „Inteligentni agenci”, których ludzie zachwalali od wieków, w końcu się zmaterializują.

- Tim Berners-Lee, Tkanie sieci

„Marzy mi się sieć [w której komputery] będą w stanie analizować wszystkie dane w sieci: treści, linki i transakcje między ludźmi a komputerami. „Sieć semantyczna”, która powinna to umożliwić, jeszcze się nie pojawiła, ale kiedy już się pojawi, codzienne funkcjonowanie handlu, administracji i naszego codziennego życia będą przetwarzane przez maszyny komunikujące się z innymi. „Inteligentni agenci”, o których mówiono od dawna, w końcu się zmaterializują. "

- Tkanie sieci

Większość technologii oferowanych przez W3C istniała już wcześniej. Są one używane w różnych kontekstach, zwłaszcza tych dotyczących informacji, które obejmują ograniczoną i zdefiniowaną domenę, i gdy udostępnianie danych jest powszechną koniecznością, np. badania naukowe lub wymiana danych między organizacjami, firmami. Ponadto pojawiły się inne technologie o podobnym przeznaczeniu, takie jak mikroformaty .

Głównym celem sieci semantycznej jest kierowanie ewolucją sieci, aby umożliwić użytkownikom bez pośredników łatwiejsze wyszukiwanie, udostępnianie i łączenie informacji. Ludzie mogą używać sieci do wykonywania zadań, takich jak znajdowanie słowa Paryż, aby zarezerwować książkę w bibliotece, znaleźć mapę i zarezerwować bilet na transport. Jednak maszyny nie mogą wykonać wszystkich tych zadań bez pomocy człowieka, ponieważ strony internetowe są przeznaczone głównie do czytania przez ludzi. Sieć semantyczna ma na celu umożliwienie indeksowania stron zarówno przez ludzi, jak i maszyny. Umożliwiłoby to żmudną i powtarzalną pracę związaną z wyszukiwaniem informacji w sposób zautomatyzowany, przy jednoczesnej poprawie i konsolidacji informacji w sieci dla jej użytkowników.

Sieć semantyczna, zgodnie z pierwotnym zamierzeniem, jest systemem, który pozwala maszynom „zrozumieć” i odpowiadać na złożone ludzkie żądania zgodnie z ich znaczeniem. Takie „zrozumienie” wymaga wcześniejszego ustrukturyzowania odpowiednich źródeł informacji. Ta struktura dostępna dla maszyn pozwala na znacznie większą zdolność wykrywania niż to, co jest możliwe po prostu w sieci dokumentów. Wykorzystanie RDF do strukturyzowania tych danych umożliwia wykorzystanie wydajności maszyny; ich zdolność do przetwarzania danych umożliwia badanie informacji uzyskanych z tych danych w celu wyciągnięcia nowych wniosków z istniejącej wiedzy. Za pomocą RDF dokumenty tworzone w HTML stają się danymi, które poprzez wspólną pracę maszyn i użytkowników wytwarzają nową wiedzę.

Często wyrażenia „ semantyka ”, „ metadane ”, „ ontologie ” i „Sieć semantyczna” są używane niekonsekwentnie. W szczególności są używane na co dzień przez badaczy i praktyków, których terminologia obejmuje szeroki krajobraz technologii, koncepcji i obszarów zastosowań. Ponadto istnieje zamieszanie między technologiami, które są rozważane w celu jego wdrożenia, a ruchem sieci semantycznej. W artykule przedstawionym przez Gerbera, Barnarda i Van der Merwe nakreślono krajobraz sieci semantycznej oraz przedstawiono krótkie podsumowanie powiązanych terminów i technologii wspomagających. Model architektoniczny zaproponowany przez Tima Berners-Lee służy jako podstawa do przedstawienia stanu obecnych i powstających technologii.

Rozwiązania doprowadzone przez Semantic Web do granic HTML

Przykład

W poniższym przykładzie tekst „Paul Schuster urodził się w Dreźnie” na stronie internetowej zostanie opatrzony adnotacją poprzez połączenie osoby z jej miejscem urodzenia. Kawałek HTML kod wyświetlany poniżej pokazuje jak opisują mini-Graph użyciu standardu RDFa składni ze słownika schema.org i wikidane identyfikatora :

<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>

Ten przykład definiuje następujące pięć trójek ( in ), wyświetlanych w formacie Turtle . Każda trójka reprezentuje krawędź generowanego grafu: jej pierwszy element (temat) to nazwa węzła, od którego zaczyna się ta krawędź, drugi element (predykat) wskazuje rodzaj krawędzi, a ostatni (obiekt) jest nazwą węzła docelowego lub wartością literału (tekst, liczba itp.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .

Ograniczenia HTML

Wiele plików na komputerze można mniej więcej podzielić na dwie kategorie: dokumenty czytelne dla człowieka i dane czytelne dla komputera . Dokumenty takie jak e-maile , raporty czy broszury są czytelne dla człowieka. Z drugiej strony dane zawarte w kalendarzach, książkach adresowych, listach lektur czy arkuszach kalkulacyjnych są czytelne pod warunkiem korzystania z aplikacji, która umożliwia ich odczytywanie, przeszukiwanie i przekształcanie na różne sposoby.

Obecnie sieć WWW opiera się przede wszystkim na dokumentach napisanych w Hypertext Markup Language (HTML) , czyli konwencji znaczników używanej do kodowania tekstu przeplatanego obiektami multimedialnymi, takimi jak obrazy czy interaktywne formularze. Tagi metadanych zapewniają metodę, dzięki której komputery mogą kategoryzować zawartość stron internetowych; na przykład :

Za pomocą kodu HTML i narzędzia do wyświetlania (którym może być przeglądarka internetowa lub inny „agent użytkownika” ) możesz utworzyć i zaprezentować stronę wyświetlającą przedmioty na sprzedaż. HTML dla strony katalogu można zrobić po prostu, dokument zawierający stwierdzenia takie jak "tytuł tego dokumentu to 'Gadgets Supermarket'", ale kod HTML nie jest w stanie jednoznacznie stwierdzić, że np. numer pozycji X586172 jest tabelą z ceną 199 USD , ani nie jest to produkt konsumencki. HTML może tylko powiedzieć, że zakres tekstu „X586172” to coś, co powinno znajdować się w pobliżu „Meble” i „199 € ” itp. Nie sposób powiedzieć, że „to jest strona katalogowa”, ani nawet powiedzieć, że „Meble” to rodzaj tytułu, ani nawet wiedzieć, że „199 € ” to cena. W żaden sposób nie można wyrazić, że te informacje są ze sobą połączone w celu opisania odrębnego elementu , który różni się od innych elementów, które mogą być wymienione na tej samej stronie.

Semantyczny HTML odnosi się do używania znaczników HTML do wstawiania dodatkowych informacji do dokumentu. Na przykład użycie elementu HTML deloznaczającego usuniętą zawartość, a nie striketylko wyświetlanie przekreślonego tekstu i określanie tylko jego formatowania. Semantyczny HTML pozostawia układ w przeglądarce, dodając kaskadowe arkusze stylów . Ale ta praktyka osiąga swoje granice, jeśli chodzi o precyzowanie semantyki przedmiotów, takich jak przedmioty na sprzedaż.

W mikroformaty są również nieoficjalne próby rozszerzenia HTML Składnia Urządzenie może odczytać semantycznych znaczników o obiektach w dokumencie, takich jak artykuły do sprzedania lub kontaktów (np hCard ).

Rozwiązania sieci semantycznej

Sieć semantyczna oferuje języki specjalnie zaprojektowane dla danych: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) i XML ( eXtensible Markup Language ). HTML opisuje dokumenty i powiązania między nimi. Z drugiej strony RDF, OWL i XML mogą również opisywać takie rzeczy, jak ludzie, spotkania lub części samolotu. Według Tima Bernersa-Lee „RDF jest dla danych tym, czym HTML dla dokumentów. RDF umożliwia łączenie danych z kategorią. "

Technologie te są łączone w celu dostarczenia opisów, które uzupełniają lub zastępują treść dokumentów internetowych. Treść może więc pojawiać się w postaci danych opisowych przechowywanych w bazach danych dostępnych w sieci lub poprzez znaczniki w dokumentach (poprzez HTML lub jego wariant XHTML - XML HTML -). Te dane mogą być następnie przeplatane z XML lub czasami publikowane tylko jako XML, z układem i danymi przechowywanymi oddzielnie. Opisy do odczytu maszynowego umożliwiają menedżerom treści nadawanie znaczenia ich treści, to znaczy opisywanie struktury wiedzy w treści. W ten sposób maszyna może:

przetwarzać samą wiedzę, zamiast tekstu, wykorzystując procesy podobne do ludzkiego rozumowania i wnioskowania dedukcyjnego ,
uzyskać bardziej znaczące wyniki, pomagając komputerom w automatycznym gromadzeniu informacji, a tym samym ułatwiając badania .

Oto przykład tagu, którego można użyć na niesemantycznej stronie internetowej :

Zakodowanie podobnych informacji na semantycznej stronie internetowej może wyglądać tak:

Tim Berners-Lee promuje pojawienie się powiązanej sieci danych ( dane połączone , w języku angielskim ) lub danych internetowych (w języku francuskim ) dla Giant Global Graph , w przeciwieństwie do sieci Web, która jest ogólnoświatowymi stronami HTML. Tim Berners-Lee zakłada, że jeśli w przeszłości udostępnialiśmy dokumenty, to w przyszłości będziemy udostępniać dane. Jego odpowiedź na pytanie „jak?” Opiera się na trzech filarach. Po pierwsze, adres URL musi wskazywać na dane. Po drugie, każdy, kto ma dostęp do adresu URL, powinien mieć możliwość pobierania danych. Po trzecie, relacje w danych muszą wskazywać na inne adresy URL z danymi.

Internet 3.0

Tim Berners-Lee opisał Semantic Web jako składnik Web 3.0:

Ludzie ciągle pytają, czym jest Web 3.0. Myślę, że jeśli masz nakładkę skalowalnej grafiki wektorowej – wszystko falujące, składane i wyglądające na mgliste – w Web 2.0 i dostęp do sieci semantycznej zintegrowanej na ogromnej przestrzeni danych, będziesz miał dostęp do niewiarygodnego zasobu danych .

- Tim Berners-Lee , „Bardziej rewolucyjna” sieć, 2006, Victoria Shannon

„Ludzie cały czas pytają, czym jest Web 3.0. Wydaje mi się, że kiedy masz nakładkę rysunków wektorowych – wszystkie fale i zamglone fałdy – opisującą Web 2.0 i dostęp do sieci semantycznej osadzonej w ogromnej przestrzeni danych, będziesz miał dostęp do niesamowitego zasobu danych. "

- „Bardziej rewolucyjna” sieć, 2006, Victoria Shannon

„Sieć semantyczna” jest czasami używana jako synonim „Web 3.0”, chociaż definicja każdego terminu jest różna. Podobnie jak „Web 2.0”, „Web 3.0” to neologizm i modne hasło . W przypadku Web 2.0 użycie tego terminu jest przedmiotem dyskusji między tymi, którzy uważają, że jest to termin marketingowy bez prawdziwej zmiany, a tymi, którzy uważają, że nastąpiła prawdziwa ewolucja.

Wyzwania

Niektóre z wyzwań Sieci Semantycznej to ogrom, niejasność, niepewność, niespójność i oszustwo. Zautomatyzowane systemy wnioskowania będą musiały odpowiedzieć na wszystkie te pytania, aby spełnić obietnicę sieci semantycznej.

Ogrom: sieć WWW zawiera kilka miliardów stron . Sama ontologia terminologii medycznej SNOMED CT (en) zawiera 370 000 nazw klas, a żadna istniejąca technologia nie była jeszcze w stanie wyeliminować wszystkich duplikatów z semantycznego punktu widzenia tej ontologii. Wraz z nadejściem sieci semantycznej wszystkie zautomatyzowane systemy wnioskowania będą musiały radzić sobie z naprawdę ogromną ilością parametrów .
Nieprecyzyjność: istnieją nieprecyzyjne pojęcia, takie jak „młody” lub „duży”. Wynika to z niejasności zapytań użytkowników, które są zgodne z terminami używanymi przez dostawców treści. Dostawcy z nakładającymi się bazami wiedzy odtwarzają jednak różne koncepcje z subtelnymi różnicami. Logika rozmyta jest najczęstszą techniką czynienia z niejasności.
Niepewność: są to precyzyjne pojęcia o niepewnych wartościach. Na przykład pacjent może prezentować zestaw objawów, które odpowiadają wielu różnym diagnozom, z których każda ma inne prawdopodobieństwo. Techniki rozumowania probabilistycznego są zwykle używane do radzenia sobie z niepewnością.
Niespójność: Są to logiczne sprzeczności, które nieuchronnie pojawią się podczas rozwoju dużych ontologii i gdy ontologie z oddzielnych źródeł zostaną połączone. Dedukcyjne rozumowanie nie zmierzyć się z tym niespójności ze względu na sprzeczność można wywnioskować niczego ( zasada wybuchu ). Korekcie rozumowanie i paraconsistant rozumowanie są dwie techniki, które mogą być użyte do czynienia z niekonsekwencji.
Oszustwo: dzieje się tak, gdy producent informacji dobrowolnie chce oszukać konsumenta tego typu informacji. Techniki kryptograficzne są obecnie wykorzystywane do przeciwdziałania temu zagrożeniu, a tym samym zapewnienia integralności danych .

Ta lista wyzwań jest bardziej ilustracyjna niż wyczerpująca, ponieważ koncentruje się na wyzwaniach warstwy „logiki unifikacji” i „dowodu” dla implementacji sieci semantycznej. Większość wymienionych tutaj technik będzie musiała rozszerzyć język OWL ( Język Ontologii Sieciowej ) na przykład, aby opisać warunkowe prawdopodobieństwo fragmentu informacji. To aktywny obszar badań.

Specyfikacje

Standaryzacja Sieci Semantycznej jest nadzorowana przez W3C .

Struktura

Wyrażenie „sieć semantyczna” jest często używane bardziej konkretnie do określenia formatów i technologii, które pozwolą na jej istnienie. Zbieranie, strukturyzacja i wyszukiwanie powiązanych danych będzie działać przy użyciu technologii, które zapewnią formalny opis pojęć, terminów i relacji w danej dziedzinie wiedzy . Technologie te są standaryzowane przez W3C i obejmują w szczególności:

Semantic Web Stos jest ilustracją do reprezentowania architekturę sieci semantycznej. Funkcje i relacje komponentów można podsumować w następujący sposób:

XML zapewnia podstawową składnię strukturę zawartości w dokumentach, ale nie opisuje semantykę dokumentu. XML nie jest obecnie niezbędnym składnikiem technologii Semantic Web. W większości przypadków istnieją alternatywne składnie, takie jak Turtle . Żółw jest de facto standardem, ponieważ jest mniej gadatliwy niż XML, ale nie został wybrany w formalnym procesie standaryzacji.
XSD jest dokumentem XML Opis formatu język do definiowania struktury i typu treści z dokumentu XML. Definicja ta umożliwia w szczególności sprawdzenie ważności tego dokumentu.
RDF jest prostym językiem do wyrażania modeli danych jako obiektów ( „zasobów” ) i ich relacje. Model oparty na RDF może być reprezentowany przez kilka składni wymiany, na przykład RDF / XML, N3 , Turtle i RDFa . RDF jest podstawowym standardem Sieci Semantycznej.
Schemat RDF rozszerza RDF i jego słownictwo, aby móc organizować właściwości i klasy w zasobach opisanych w RDF.
OWL dodaje więcej słownictwa do opisu właściwości i klas: jak w przypadku relacji między klasami, kardynalności (np. "dokładnie jeden"), równości, typowania właściwości, cech właściwości (np. symetrii) itp.
SPARQL (wymawiane sparkle ; w języku angielskim : „spark”) to język zapytań i protokół umożliwiający wyszukiwanie, dodawanie, modyfikowanie lub usuwanie danych RDF dostępnych w sieci za pośrednictwem Internetu .

Postęp

Nadal potrzebne do wdrożenia sieci semantycznej przejść przez normy zalecenia procesie z W3C ( World Wide Web Consortium ) grup roboczych. Oznacza to, że każda nowa rekomendacja została poddana publicznej ocenie. Wówczas rekomendacje W3C, które zostaną powszechnie przyjęte, w naturalny sposób staną się standardami „Sieci semantycznej”.

Oto lista standardów i głównych zaleceń, na których opiera się Sieć Semantyczna:

Oto aktualne aktywne rekomendacje:

RIF ( Rule Interchange Format ) to warstwa reguł w stosie sieci semantycznej .

Z drugiej strony, wiele kroków do wdrożenia „sieci semantycznej” wciąż wymaga wyobrażenia, wyjaśnienia i sprecyzowania. Tim Berners-Lee , za pośrednictwem swojego stosu sieci semantycznej , podsumowuje te kroki w następujących warstwach:

Warstwa logiki unifikacji
Warstwa dowodu
Warstwa zaufania / integralności
Warstwa kryptografii

Czekając na wdrożenie wszystkich tych warstw, już dostępne technologie, takie jak SPARQL , już umożliwiają oferowanie interoperacyjności z lepszą granulacją danych niż ta oferowana przez usługi sieciowe (W3C wycofało ponadto standaryzację usług internetowych jego priorytety ).

Zbiór źródeł danych, które udostępniają swoje dane za pomocą standardów sieci semantycznej, został nazwany Web of data (lub w języku angielskim „ Linked Open Data ”), aby ułatwić przyjęcie go przez opinię publiczną. Sieć danych jest oparta na technologiach danych połączonych , które pokrywają się z technologiami sieci semantycznej, które zostały już powszechnie przyjęte. Związany danych jest jednym z podstawowych technologii wykorzystywanych w ruchu „ otwartych danych ” w Anglii, której celem jest udział masowo danych publicznych w celu przyspieszenia badań i handlu. Pojawienie się Sieci Semantycznej jest uważane przez niektórych za kolejny przełom technologiczny, a zatem ekonomiczny, który już nazywają Siecią 3.0 .

Celem będzie zatem w przyszłości poprawa dostępu i użyteczności sieci oraz zasobów połączonych za jej pośrednictwem, takich jak:

Serwery udostępniające dane przy użyciu RDF i SPARQL . Istnieje kilka konwerterów RDF do różnych zastosowań. Na przykład serwer może konwertować dane zawarte w relacyjnej bazie danych bez wpływu na jej działanie, a tym samym udostępniać dane w formacie RDF i odpowiadać na zapytania SPARQL.
Dokumenty „otagowane” informacjami semantycznymi (rozszerzenie znaczników <meta>HTML używanych na stronach internetowych umożliwia dostarczanie informacji do wyszukiwarek internetowych za pomocą robotów indeksujących ). Treść zawiera zatem informacje odczytywalne maszynowo związane z dokumentem, takie jak twórca, tytuł, opis itp. Informacje te mogą również zawierać metadane reprezentujące zbiór faktów (takich jak inne zasoby i usługi związane z witryną). Zwróć uwagę, że wszystko można zidentyfikować za pomocą identyfikatora URI ( Uniform Resource Identifier ), a tym samym opisać, aby umożliwić sieci semantycznej wnioskowanie o zwierzętach, ludziach, miejscach, pomysłach itp. Te semantyczne znaczniki lub znaczniki są często generowane automatycznie, a nie ręcznie.
Współdzielony słownik metadanych ( ontologie ) to repozytorium między tym słownikiem, które pozwala twórcom dokumentów wiedzieć, jak oznaczać swoje dokumenty semantycznie, aby agenci mogli korzystać z informacji zawartych w dostarczonych metadanych.
Zautomatyzowanych agentów, którzy wykonują zadania użytkowników sieci semantycznej przy użyciu tych uporządkowanych i dostępnych danych.
Usługi internetowe ( często do własnych agentów ) Zapewnią dokładne informacje agentom, na przykład usługa reputacji , która ma agenta, może zapytać, czy niektóre sklepy internetowe mają dobrą lub złą reputację i zweryfikować ją.

Sceptyczne obserwacje

Praktyczna wykonalność

Główna krytyka dotyczy pełnej lub nawet częściowej wykonalności sieci semantycznej. Cory Doctorow mówi o „ metacrapie ” ( portmanteau uformowane słowa metadane i bzdury , które możemy spróbować doprowadzić do władzy francuskiej przez „métamerde”), krytykę, która opiera się na sarkastycznej obserwacji ludzkiego zachowania. Na przykład ludzie mogą umieszczać pasożytnicze mikrodane na stronach internetowych, aby oszukać silniki sieci semantycznej, które będą „naiwnie” ufać prawdziwości wszystkich danych. Zjawisko to jest powszechnie znane z oszukiwania: silniki indeksujące, takie jak Google , starają się wykryć tego typu manipulacje. Peter Gärdenfors i Timo Honkela (en) zauważyli, że logika technologii sieci semantycznej obejmuje tylko ułamek zjawisk, które będą miały wpływ na semantykę sieci.

W 2001 roku Cory Doctorow sporządził listę siedmiu rzekomo niemożliwych do pokonania przeszkód w uzyskaniu metadanych wystarczająco niezawodnych, aby uruchomić możliwą sieć semantyczną. Według niego :

Ludzie kłamią.
Ludzie są leniwi.
Ludzie są głupi.
Trudno opisać siebie.
Klasyfikacje nie są neutralne.
Wybrana jednostka miary wpływa na wyniki.
To samo można opisać na wiele sposobów.

Obejmuje również inne przyczyny związane z dezaktualizacją metadanych:

Z czasem dane mogą stać się fałszywe.
Dane nie mogą zawierać nowych pomysłów.

Cory Doctorow wnioskuje, że badania nad takim systemem mogą zwracać tylko dane, które są przestarzałe i częściowo lub całkowicie niepoprawne.

Architektura, narzędzia i bardzo koncepcje Semantic Web często krytykowane, powołując się, że technologie lub procesów utrzymania jakości danych, włożonego przez człowieka i dlatego omylny, nie może jednak działać na dużą skalę. Web . Te ograniczenia to wszystkie nowe problemy, które badacze próbują obecnie rozwiązać poprzez wyzwania sieci semantycznej . Nauka internetowej (w) to nazwa dajemy do „dyscypliny”, który ma na celu rozwiązanie nowych problemów naukowych, które wydobywa z sieci. Jednak technologie sieci semantycznych zostały zaadoptowane w społecznościach specjalizujących się we wdrażaniu systemów informatycznych, ale głównie w systemach zamkniętych (np. intranet ), takich jak firmy czy biblioteki.

Cenzura i prywatność

Entuzjazm dla Sieci Semantycznej może być łagodzony względami takimi jak odmowa cenzury i chęć ochrony prywatności . Na przykład, obecnie można łatwo nakłonić analizatorów tekstu do używania innych słów, metafor lub używania obrazów zamiast słów. Rządom o wiele łatwiej jest wizualizować, a tym samym kontrolować, tworzenie informacji online, jeśli wykorzystuje ona strukturę semantyczną, ponieważ informacje są wtedy znacznie łatwiejsze do interpretacji i ewentualnie blokowania za pomocą zautomatyzowanego systemu. Dodatkowo problem został podniesiony przez wykorzystanie metadanych, takich jak FOAF czy Geolokalizacji API (as) , które kwestionują anonimowość World Wide Web . Obawy te sprawiają, że bezpieczeństwo danych osobowych jest aktywnym tematem badań, jak w projekcie „ Policy Aware Web ”.

Podwójne formaty wyjściowe

Inny recenzent mówi o wydłużeniu czasu potrzebnego na tworzenie i publikowanie treści ze względu na konieczność wytworzenia dwóch jej wersji: jednej do oglądania przez ludzi, a drugiej do maszyn. Jednak wiele aplikacji internetowych już boryka się z tym problemem, tworząc czytelny format dla przeglądarki internetowej lub na żądanie czytnika RSS, takiego jak blog . Reakcją na tego rodzaju krytykę był rozwój mikroformatów . W swojej obronie sieć semantyczna prawdopodobnie zmniejszy wysiłek związany z zadaniami wyszukiwania informacji, a tym samym zrekompensuje dodatkowy koszt zapewnienia kompatybilnego formatu dla maszyn.

Jednym z pierwszych rozwiązań było wykorzystanie języka GRDDL , mechanizmu, który wykorzystuje tylko zawartość już obecną na stronie HTML (z potencjalnie mikroformatami) do wyodrębnienia z niej RDF. Jednak wielość i niestabilność mikroformatów, a także trudności w stworzeniu konwertera XSLT dla GRDDL doprowadziły do określenia RDFa w celu prostej i wyraźnej integracji RDF ze stronami HTML . Metoda RDFa zostanie również zintegrowana bezpośrednio ze standardem HTML5 poprzez mikrodane , co jeszcze bardziej uprości wstawianie danych RDF do dokumentu.

Projektowanie

W tej sekcji wymieniono niektóre z wielu projektów i narzędzi, które istnieją w ramach ruchu Semantic Web.

Europa: ERCIM

Rozwój sieci semantycznej na całym świecie jest monitorowany przez W3C w ramach projektu Semantic Web Advanced Deployment ( SWAD ). Projekt SWAD -Europe odbył się zmaj 2002 w październik 2004.

Europejską organizacją goszczącą projekty W3C i monitorującą postęp sieci semantycznej jest ERCIM ( Europejskie Konsorcjum Badawcze ds. Informatyki i Matematyki ).

Projekt Data.bnf.fr Biblioteki Narodowej Francji

Biblioteka Narodowa Francji wprowadzeniu Semantic Web poprzez data.bnf.fr projektu . Projekt ten integruje dane wytworzone w różnych formatach, w tym Intermarc, XML-EAD i Dublin Core , na potrzeby biblioteki cyfrowej. Dane są modelowane i pogrupowane według automatycznym przetwarzaniem i publikowane w różnych RDF normami : RDF-XML, RDF-N3 i RDF-NT. Istnieje również publikacja danych w formacie JSON . Projekt wykorzystuje semantyczną platformę programistyczną CubicWeb .

Biblioteka Narodowa Francji zapewnia zatem:

URI dla zasobów dzięki wieloletnim identyfikatorom, przydzielanym zgodnie z mechanizmem ARK, który umożliwia dostęp do wszystkich zasobów biblioteki.
dla każdego zasobu zestaw metadanych powiązanych z URI zasobu w postaci trójek RDF, zgodnie z połączonymi technologiami otwartych danych . Te metadane można odzyskać na każdej stronie (eksport) i dla całej bazy danych (zrzut). Można je również odpytywać za pomocą konsoli Sparql.

W 2013 roku, projekt wspólny Nagrodę Stanford innowacji w Bibliotek Naukowych (SPIRL) z galijskiego .

Od 2017 roku model danych data.bnf.fr opiera się na koncepcyjnym modelu referencyjnym IFLA LRM , co pozwala na nawigację po relacjach między podmiotami.

DBpedia i SemanticPedia

DBpedia jest pierwszą historyczną próbą publikowania uporządkowanych danych pochodzących z Wikipedii : dane są pobierane ze stron, a w szczególności z pól informacyjnych Wikipedii publikowanych w RDF i udostępnianych w Internecie danych za pośrednictwem HTTP i SPARQL na licencji GFDL . .

SemanticPedia to platforma do publikowania danych z różnych projektów Wikimedia w języku francuskim, wspierana przez Ministerstwo Kultury i Komunikacji , Inria i Wikimedia France . Francuska wersja DBpedia została opracowana przez zespół Wimmics pod kierownictwem Fabiena Gandona w centrum badawczym Inria Sophia Antipolis. Ten francuskojęzyczny rozdział nosi nazwę DBpedia.fr i przyczynia się do umiędzynarodowienia inicjatywy DBpedia, wydobywając i publikując dane z różnych rozdziałów językowych Wikipedii . Ten francuski rozdział DBpedii obsługuje wiele aplikacji. Minister Kultury Francji Aurélie Filippetti ogłosiła announced19 listopada 2012 r. że następny projekt będzie dotyczył Wikisłownika i jego dwóch milionów terminów.

Wikidane

Wikidata to jeden z projektów Fundacji Wikimedia. Jego celem jest bezpłatne udostępnienie wszystkich ustrukturyzowanych danych wszystkich projektów fundacji współpracownikom bez żadnego pośrednika.

Wikipedia jest jednym z projektów powiązanych z Wikidata. Każdy artykuł Wikipedii ma teraz unikalny identyfikator w postaci IRI i jest podmiotem w społeczności Wikidata. Każda jednostka składa się z kilku właściwości z jedną lub większą liczbą wartości (trójek). Te jednostki i właściwości są oznaczone unikalnym identyfikatorem (na przykład: Q90 jest unikalnym identyfikatorem Paryża), dzięki czemu baza danych jest niezależna od używanego języka. Wartością tych właściwości może być inna jednostka, ale także ciąg, liczba, data itp. Dane ustrukturyzowane w ten sposób mogą być ponownie wykorzystywane w różnych formatach (XML, JSON, Turtle itp.) i ostatecznie mogą być wykorzystane do zasilania infoboksów Wikipedii, dzięki czemu unika się konieczności ich ręcznego modyfikowania we wszystkich językach, ponieważ za każdym razem, gdy Wikidane są modyfikowane , wszystkie infoboksy są modyfikowane w tym samym czasie.

Dane Wikidata są objęte licencją CC0 . Wszystkie udostępniane dane są zatem bezpłatne i otwarte dla wszystkich rodzajów użytkowania.

W przypadku sieci semantycznej Wikidata jest jednym z niewielu punktów końcowych SPARQL połączonych w czasie rzeczywistym z producentami danych. Oznacza to, że zmiany w Wikidanych natychmiast wpływają na bazę danych RDF, a tym samym pozwalają na ponowne wykorzystanie tych danych w innych aplikacjach za pośrednictwem SPARQL. Pod względem ontologicznym struktura jest budowana w czasie w sposób zgodny między współtwórcami. Struktura tej ontologii może zatem zmieniać się w dowolnym momencie, zgodnie z potrzebami współtwórców.

AKSW

AKSW ( Agile wiedzy inżynierskiej i Semantic Web ) to grupa badawcza, która jest prowadzona przez betriebliche Informationssysteme ( BIS ) Krzesłoz Institut für Informatik ( IFI ) na Uniwersytecie w Lipsku, jak również przez Institute for Applied Computing ( INFAI ) . Grupa badawcza AKSW uruchomiła szereg projektów, takich jak DBpedia.

Datalift

Datalift to oryginalna platforma przeznaczona do eksploatacji danych, która integruje w jednym rozwiązaniu open source wszystkie funkcje przydatne do łączenia danych, od ich przechwytywania do ostatecznej publikacji. W Datalift dane wejściowe to surowe dane pochodzące z heterogenicznych formatów (bazy danych, CSV, XML, RDF, RDFa, GML, Shapefile ...). Wytworzone dane są danymi połączonymi. Platforma Datalift aktywnie uczestniczy w transformacji z sieci do sieci danych .

Projekty ontologiczne

FOAF

FOAF (ang. Friend Of A Friend ) to słownictwo, które wykorzystuje RDF do opisania relacji, jakie ludzie mają z innymi ludźmi oraz „rzeczy” wokół nich. FOAF jest przykładem próby wykorzystania przez sieć semantyczną relacji w kontekście społecznym.

Semantycznie połączone społeczności internetowe (SIOC)

SiOC jest słownictwo opisujące obiekty powszechnie używane w serwisach społecznościowych i ich związkach.

Inny

Sieć danych oferuje rozwój nowych zastosowań, które ukonkretniają pojęcie inteligencji zbiorowej, takie jak:

Społecznościowym .
W semantyczne wiki , które pozwalają na tworzenie treści określające ich znaczenie i charakteryzujące ich związek poprzez rodzaj składni wiki .

Uwagi i referencje

(fr) Ten artykuł jest częściowo lub w całości zaczerpnięty z anglojęzycznego artykułu Wikipedii zatytułowanego „ Sieć semantyczna ” ( zobacz listę autorów ) .

„Wyszukiwarka – definicja i wyjaśnienia ” , na techno-science.net (dostęp 22 czerwca 2021 r. )
(w) "XML and Web Standards W3C Semantic Timeline" (wersja z 26 października 2019 r. w Internet Archive ) ,4 lutego 2012.
(en) „ W3C Semantic Web Activity ” , Konsorcjum World Wide Web (W3C),7 listopada 2011(dostęp 26 listopada 2011 ) .
(w) Tim Berners-Lee , James Hendler i Ora Lassila, „ The Semantic Web ” , Scientific American Magazine ,17 maja 2001( przeczytaj online , skonsultowano 26 marca 2008 ).
(w) Lee Feigenbaum, „ Sieć semantyczna w działaniu ” , Scientific American ,1 st maja 2007(dostęp 24 lutego 2010 ) .
(w) Berners-Lee, Tim „ Sieć semantyczna ” , Scientific American ,1 st maja 2001(dostęp 13 marca 2008 ) .
(w) Nigel Shadbolt , Wendy Hall, Tim Berners-Lee, „ The Semantic Web Revisited ” , IEEE Intelligent Systems ,2006(dostęp 13 kwietnia 2007 ) .
(w) Allan M. Collins i R. Quillian, „ Retrieval time from semantic memory ” , Journal of Verbal Learning and Verbal Behavior , theft. 8, N O 21969, s. 240-247 ( PMID 615603750 , DOI 10,1016 / S0022-5371 (69) 80069-1 ).
(w) Allan Collins i Ross Quillian, „ Czy rozmiar wpływa na czas kategoryzacji kategorii? » , Dziennik nauki werbalnej i zachowań werbalnych , obj. 9 N O 4,1970, s. 432–438 ( DOI 10.1016 / S0022-5371 (70) 80084-6 ).
(w) Allan Allan Collins i Elizabeth F. Loftus, „ A rozprzestrzeniająco-aktywująca teoria przetwarzania semantycznego ” , „ Psychological Review” , tom. 82, n o 6,1975, s. 407-428 ( DOI 10.1037 / 0033-295X.82.6.407 ).
(w) MR Quillian , „ Koncepcje słów – teoria i symulacja niektórych podstawowych zdolności semantycznych ” , Behavioural Science , tom. 12 N O 5,1967, s. 410-430 ( PMID 6059773 , DOI 10.1002 / bs.3830120511 ).
(w) Pamięć semantyczna książka: Marvin Minsky (redaktor): Semantic information processing, MIT Press, Cambridge, Massachusetts ,1988.
(w) Tim Berners-Lee , Fischetti, Mark, Weaving the Web , HarperSanFrancisco ,1999( ISBN 978-0-06-251587-2 ) , rozdział 12.
Yannick Maignien, „Zagadnienia sieci semantycznej” , w: Marcello Vitali-Rosati , Michael E. Sinatra, Praktyki publikowania cyfrowego , Montreal, Presses de l'Université de Montréal ,2014, 224 s. ( ISBN 9782760632035 , czytaj online ) , s. 77-94.
(w) Gerber, AJ Barnard, A, & Van der Merwe, Alta (2006) „Model stanu sieci semantycznej, zintegrowany projekt i technologia procesów” Wydanie specjalne: ITDP, 2006.
(en) Gerber, Aurona; Van der Merwe, Alta; Barnard, Andries (2008) „Funkcjonalna architektura sieci semantycznej” Konferencja Europejskiej Sieci Semantycznej 2008 ESWC'08, Teneryfa, czerwiec 2008.
(w) Wyrównanie, style czcionek i linie poziome , Specyfikacja HTML 4.01 , 24 grudnia 1999 r.
Tim Berners-Lee, " Sieć zmieni wymiar " The Search , n o 413,2007, s. 34.
(w) Artem Chebotko i Lu Shiyong, „Querying the Semantic Web: An Efficient Approach Using Relational Databases” LAP Lambert Academic Publishing , ( ISBN 978-3-8383-0264-5 ) , w 2009 r.
„ Blog Tima Bernersa Lee ” .
(en) Victoria Shannon, „ A 'bardziej rewolucyjny' Web ” , International Herald Tribune ,26 czerwca 2006(dostęp 24 maja 2006 ) .
buzzword, zwłaszcza w dziedzinie technologii, mniej lub bardziej bezsensowny
http://www.worldwidewebsize.com ].
(w) „ Rozumowanie niepewności w sieci WWW ” na stronie www.w3.org , Grupa Inkubatorów ds. Rozumowania Niepewności w sieci WWW (URW3-XG) 2008(dostępny 1 st lipca 2012 ) .
(w) Thomas Łukasiewicz i Umberto Straccia, „ Zarządzanie niepewnością i niejasnością w logikach opisu dla sieci semantycznej ” , Journal of Web Semantics , vol. 2 6, n O 4,Listopad 2008, s. 291-308 ( czytaj online ).
(w) Standardy sieci semantycznej opublikowane przez W3C .
(w) " Przegląd języka ontologii sieciowej OWL " , Konsorcjum World Wide Web (W3C)10 lutego 2004 r.(dostęp 26 listopada 2011 ) .
(w) " poradnik RDF " , D r Leslie Sikos (dostęp 05 lipca 2011 ) .
(w) „ Struktura opisu zasobów (RDF) ” , Konsorcjum World Wide Web .
(w) " strony internetowe standardowe " , D r Leslie Sikos (dostęp 05 lipca 2011 ) .
(w) Allemang, D. Hendler, J., RDF - Podstawa sieci semantycznej ; w: Semantic Web dla Ontologist roboczej ( 2 th ed. ) , Morgan Kaufmann,2011( DOI 10.1016/B978-0-12-385965-5.10003-2 ).
(w) Jim Rapoza, „ SPARQL sprawi, że sieć zabłyśnie ” , eWeek (w) ,2 maja 2006(dostęp 17 stycznia 2007 ) .
„ Oznaczenie«rekomendacją W3C»oznacza, że dokument został poddany przeglądowi publicznym i że został on rozesłany wśród członków organizacji W3C do sprawdzenia. " (Wersja z dnia 5 sierpnia 2012 roku na Internet Archive ) .
„ W3C publikuje rekomendacje RDF i OWL ” na w3.org (dostęp 13 lipca 2021 )
Redakcja JDN, „ Co to jest Web 3.0?” » , W dzienniku du net.fr ,29 stycznia 2019(dostęp 5 lutego 2021 )
Jean-François Ruiz, „ Od DNA Web 2.0 do zerwania Web 3.0 za pośrednictwem sieci semantycznej, nawet Dædalus zgubiłby się w Webyrinth… ” , na Webdeux.info ,30 marca 2006(dostęp 5 lutego 2021 )
(w) Która sieć semantyczna? .
(w) Peter Gärdenfors , „ How to make the Semantic Web more semantic ” (Formal Ontology in Information Systems: Proceedings of the International Conference Third (TIME-2004)), Frontiers in Artificial Intelligence and Applications , IOS Press,2004, s. 17–34.
(w) Timo Honkela, City Könönen Tiina-Knuutila Lindh i Sanna-Mari Paukkeri, „ Symulowanie procesów tworzenia koncepcji i komunikacji ” , Journal of Economic Methodology ,2008.
""Ontologia jest przereklamowana", Clay Shirky, tłumaczenie: Christophe Ducamp" (wersja z 28 czerwca 2008 w Internet Archive ) .
(w) James Hendler, Nigel Shadbolt, Wendy Hall, Tim Berners-Lee i Daniel Weitzner. 2008. „Nauka o sieci: interdyscyplinarne podejście do zrozumienia sieci” Komunikacja ACM 51, 7 (lipiec 2008), 60-69. DOI : 10.1145 / 1364782.1364798 .
(w) Ivan Herman, „ Stan sieci semantycznej ” , Semantic Days 2007 ,2007(dostęp 26 lipca 2007 ) .
www.policyawareweb.org .
http://data.bnf.fr/semanticweb
(w) „ 2013 Prizes ” , na Stanford Libraries (dostęp 26 września 2020 r . ) .
Przykład strony DBpedia.fr .
„ DBpedia FR ” na fr.dbpedia.org (dostęp 3 kwietnia 2017 r . ) .
Camille Gévaudan, „ Wikipedia oszczędzi roboty ”, Wyzwolenie ,21 listopada 2012 r.( przeczytaj online , dostęp 19 maja 2017 r. ).
AKSW ( Agile Knowledge Engineering and Semantic Web ) .
http://www.datalift.fr

Zobacz również

Powiązane artykuły

Linki zewnętrzne

(en) Oficjalna strona sieci semantycznej, W3C .
Collins AM i Quillian M. R, Czas wyszukiwania z pamięci semantycznej , 1969.
Julien Plu, Wprowadzenie do sieci semantycznej ,kwiecień 2011.
Dlaczego i jak świat stał się cyfrowy? Podsumowanie historii informatyki, INRIA, 2010. Film edukacyjny o długości około 24 minut dla uczniów szkół średnich. Prezentacja sieci semantycznej Rose Dieng-Kuntz ; początek: 15 min.

Bibliografia

Fabien Gandon , Catherine Faron Zucker i Olivier Corby , Sieć semantyczna: jak łączyć dane i wzorce w sieci? , Dunod ,1 st styczeń 2012( ISBN 978-2-10-057294-6 i 2-10-057294-6 , OCLC 795501050 )