Was ist das semantische Web?

Das Netz kann vieles. Aber es kann derzeit noch keine Zusammenhänge erkennen. Google arbeitet mit seinem Knowledge Graph an diesem Defizit – und möchte das Netz zur größten Wissensmaschine der Menschheitsgeschichte umbauen. Ein Netz, das Kontext herstellen kann – das semantische Web.

Das Netz kann seit Beginn des www einfache Objekte “verstehen”. Das liegt an der Sprache des Web, der HyperText Markup Language HTML. Diese strukturiert eine Internetseite – und über diese Struktur kann das Netz eindeutig unterscheiden, was beispielsweise eine Überschrift ist und was ein Bild, was eine Tabelle oder was eine Liste. Wenn die Webautorinnen und -autoren ein Zitat einer Berühmtheit ins Netz stellen möchten, ist auch das kein Problem. HTML hält für alle diese Objekte eigene Auszeichnungsbefehle bereit.

<h1>Headline der Seite</h1>
<p>normaler Text</p>
<ul><li>Listenelement 1</li>
    <li>Listenelement 2</li></ul>
<img src="einstein.jpg">ein Bild.

HTML kann also Funktionen unterscheiden. Was HTML nicht kann: Verstehen, welche Funktionen zusammengehören oder welche Inhalte zur selben Kategorie gehören. Ob “Gerd Müller” ein Fußballer oder ein Minister ist – das Web weiß es nicht. Es kann die beiden Personen nicht unterscheiden. Streng genommen weiß es nicht mal, dass es sich um Personen handelt. Für das Netz ist “Gerd Müller” erstmal nichts anderes als eine Zeichenfolge. Eine Zeichenfolge, mit der man nach “Gerd Müller” googeln kann. Und viel findet, das mit Fußball und Entwicklung zu tun hat.

Viermal Gerd Müller - doch welcher ist welcher?
Viermal Gerd Müller – doch welcher ist welcher? Wir brauchen mehr Daten, um eindeutig zu wissen, wer wer ist.

Zeichenfolgen werden zu Menschen

Doch welcher Gerd Müller ist welcher? Das müssen wir dem Netz sagen – und dann kann es uns je nach Interesse etwas zu Fußball und Weltmeisterschaft oder zu Entwicklungshilfe und Regierungspolitik sagen. Wir können den Zeichenfolgen einen Sinn geben, sie in einen Zusammenhang stellen, ihnen eine Bedeutung geben. Diese Bedeutung nennt man Semantik.

Gegenstand der Semantik sind Beziehungen zwischen sprachlichen Zeichen (Wörter, Sätze) und ihrer Bedeutung sowie zwischen Zeichen und Bezeichnetem.

Prof. Dr. Jean-Paul Thommen im Gabler WIrtschaftslexikon

Das semantische Web ist also die Weiterentwicklung des Web: Weg von einem Netz der unzusammenhängenden Inhalte hin zu einem Netz der Bedeutungen und Kontexte. Ein Netz also, das die Welt erklärt. Ein Netz, das Zusammenhänge aufzeigt und Verbindungen sichtbar macht. Ein Netz letztlich, das Fake News aufdeckt und verhindern kann.

Zusammenhänge erkennen

Das nebenstehende Zitat eines US-Präsidenten ist Fake News, die das Netz nicht erkennt. Alle drei Elemente sind real und sie stehen prinzipiell auch in einem gewissen Zusammenhang – aber nicht in diesem, den ich hier erfunden habe. Der Satz stammt nicht von US-Präsident Hoover, sondern seinem Nachfolger Franklin D. Roosevelt. Einstein war Zeitgenosse Roosevelts und hat einen Brief an den Präsidenten unterzeichnet, in dem er den Start des US-Nuklearprogramms befürwortete hat.

Die Zusammenstellung ist also Unsinn, der Zusammenhang ist jedoch da. Und genau das macht das semantische Web aus: Es kann den Zusammenhang erstellen und alleine daraus schon die Zusammenstellung als Fake News entlarven.

Geschichten leben von den Details

Wie aber schafft es das semantische Web, dieses historische Wissen nachzubilden? Indem es die Geschichten richtig erzählt. Geschichten werden gut, wenn sie detailreich ausgeschmückt sind und wir uns die Szenerie richtig plastisch vorstellen können. Dazu müssen diese Details korrekt sein. Je mehr Details, desto genauer die Vorstellung von der damaligen Situation. Je detailreicher, desto korrekter, könnte man sagen. Und genau das ist der Hebel für das semantische Web: die Details, die Eigenschaften, die Beschreibungen.

Im semantischen Web werden Objekte nicht einfach bezeichnet wie im klassischen HTML. Sie werden beschrieben.

Albert Einstein zum Beispiel. Das semantische Web nennt nicht einfach seinen Namen als leblose Zeichenfolge – es erklärt, wann er wo in den USA gelebt hat, welche Briefe er geschrieben und welche Sätze er gesagt hat. Für Roosevelt gilt dasselbe, und für Hoover ebenfalls. Aus diesen Beschreibungen können wir den Zusammenhang zwischen den dreien rekonstruieren, wiederherstellen. Das Netz nutzt dazu eine besondere Datenbank, die genau die Parameter festlegt, mit denen die drei beschrieben werden müssen – das Schema von schema.org, Da es sich um drei Personen handelt, hinterlegen wir im Netz einfach ihren Steckbrief.

Vorname: Albert
Nachname: Einstein

Beruf: Physiker
Besonderheit: Nobelpreisträger

geboren: 14. März 1879 in Ulm
gestorben 18. April 1955 in Princeton

eindeutiger Wikipediaeintrag

Vorname: Herbert Clark
Nachname: Hoover

Beruf: Unternehmer
Besonderheit: 31. US-Präsident

geboren: 10. August 1874 in West Branch, Iowa
gestorben: 20. Oktober 1964 in New York City

eindeutiger Wikipediaeintrag

Vorname; Franklin Delano
Nachname; Roosevelt

Beruf: Anwalt
Besonderheit; 32. US-Präsident

geboren  30. Januar 1882 in Hyde Park
gestorben 12. April 1945 in Warm Springs

eindeutiger Wikipediaeintrag 

Storytelling mit Daten

Immer, wenn im Netz nun von einem Herbert Hoover die Rede ist und es sich tatsächlich um den unbeliebten Präsidenten handelt, können wir das dem Netz auch sagen, Wir geben dazu versteckt und nur für Suchmaschine sichtbar die Lebensdaten Hoovers an und verlinken auf seinen Wikipedia-Artikel. Damit kann er nicht mehr verwechselt werden, der versteckte Steckbrief ist sein Identitätsnachweis.

Alle diese Lebensdaten sind die Details, die die Geschichte erzählen. Und diese Daten ermöglichen weitere Geschichten. Wenn es einen 31. und einen 32. Präsidenten gab – wie hießen der 30. und der 33.? Alle drei haben etwas mit New York zu tun, alle drei waren Zeitgenossen. Die Geschichten, die wir Menschen uns erzählen würden, können sich auch Suchmaschinen erzählen. Sie benötigen nur die Daten.

Das ist eine andere Form von Storytelling. Eine Story der Verknüpfungen. Google und die anderen Suchmaschinen würden sie gerne für die ganze Welt erzählen. Dazu benötigen sie aber unseren Input, unsere Verschlagwortung.

Was ist das semantische Web?

Wie funktioniert das semantische Web?

Semantik funktioniert über Zusammenhänge, Konnotationen, über Sinn, der in einem Begriff oder einem Satz steckt. Also müssen wir dem Netz diese Zusammenhänge und Konnotationen erläutern. Wir müssen unsere Inhalte strukturieren, unsere Daten strukturieren. Wir müssen unsere Daten – grob gesagt – in eine große Bibliothek stellen und sie Themen, Fachbereichen, Inhalten zuordnen. Wir brauchen “strukturierte Daten”.

Die HTML-Auszeichnungen von oben sind ein erster Schritt zu solchen strukturierten Daten. Aber: Das reicht nicht. Es ist gut zu wissen, was eine Headline ist und was ein Bild. Besser wäre es aber, wenn wir wüssten, was auf dem Bild drauf ist, in welchem Zusammenhang es steht, wer es fotografiert hat und was es uns sagen will. Diese Inhalte sind Metadaten. Man könnte auch #Hashtags dafür verwenden. Diese Metadaten beschreiben den Content: Was ist es funktional, was ist es technisch, was ist es inhaltlich, wo kommt es her, was soll es verändern, was ist sein Sinn und Zweck?

Wenn wir diese Fragen beantworten, können wir

Und diese

Related posts