Das Schema gegen Fake News?

Selbstregulierung als Prozess

Manche Prozesse regulieren sich selbst. Klassisches Beispiel ist das ökologische Gleichgewicht in der Natur. Wächst in einem üppigen Jahr überdurchschnittlich viel Getreide, profitieren davon auch die Mäuse. Sie sind nicht nur wohlgenährter als sonst, sie bekommen in dieser Zeit auch deutlich mehr Nachwuchs. Mehr dickere Nager lassen die Herzen der Raubvögel höher schlagen. Auch sie werden dieses Jahr satter und bringen mehr Nachwuchs durch. Doch da wir nicht im Schlaraffenland leben, kommt das beiderseitige Wachstum schnell an eine natürliche Grenze, der Prozess dreht sich um. Denn mehr Konkurrenz am Himmel bedeutet immensen Stress am Boden. Bei zu vielen Falken, Milanen und Bussarden sinkt die Zahl der Mäuse dramatisch. Die Krallen der Greife bleiben immer öfter leer, damit ihre Mägen auch - und schließlich die Nester der Raubvögel im nächsten Jahr. Ein sich selbst regulierender Kreislauf. Hart für alle Individuen, klar. Aber seit Jahrmillionen erprobt - die Evolution ist kein Ponyhof.

Ich hätte gerne in einem anderen Bereich ein solches sich selbst regulierendes System. Ich hätte gerne eine systemische Methode, die Fake News im Internet reduziert. Eine architektonische Konstellation, die aus der Struktur des Netzes selbst für "Wahrheit" sorgt. Ein Content-Werkzeug, das die Quelle(n) der Behauptung automatisch mitliefert. Ob das grundsätzlich geht, weiß ich nicht. Ich würde aber gerne eine Diskussion darüber eröffnen.

Der Knowledge-Graph als Motor

Mein Ansatz liegt in der Google-Erfindung des Knowledge Graphs verborgen - ich habe vor drei Jahren hier schon mal darüber geschrieben. Grob zusammengefasst ist der Knowledge Graph der Versuch, einzelne Fakten in einen Erklärungszusammenhang zu bringen, ihren Sinn und Zweck zu erläutern und sie als wichtige Knoten eines Netzes zu verstehen. Dabei kommt es nicht mehr auf Suchergebnisse an, sondern auf Sinnzusammenhänge, nicht mehr auf Suchtreffer, sondern auf Kontexte, nicht mehr auf einzelne Keywords, sondern auf umfassende Keyword-Wolken.

Mein Lieblingsbeispiel ist der Suchbegriff "Brücke". Was verstehen wir darunter? Nun, vieles: Die Tower Bridge und eine Gymnastikübung, einen teuren Teppich und einen Zahnersatz. Es gibt so viele Möglichkeiten, was eine Brücke im materiellen wie im ideellen Sinn sein könnte - wir brauchen daher noch weitere Keywords, um den Begriff präziser zu fassen. Wir müssen weitere Eigenschaften dieser Brücke aufzählen - aus unterschiedlichen Perspektiven, je umfassender, desto besser. Wir müssen einerseits alles ausschließen, was keine "Brücke" in unserem gemeinten Sinne ist, müssen also stark filtern. Und wir müssen andererseits die Brücke in so vielen denkbaren Zusammenhängen schildern wie irgend möglich, müssen sie vor unseren geistigen Augen immer detaillierter modellieren - und sie dadurch immer unterscheidbarer machen von allen anderen Möglichkeiten.

Im Netz hat sich dafür seit ein paar Jahren eine Methode etabliert, die diese Eigenschaftenbeschreibung netzweit vereinheitlicht und systematisiert. Das Schema, resp. schema.org. Eine Ontologie des Netzes beziehungsweise seiner Inhalte. Wenden wir diese Ontologie auf diesen Artikel hier an.

Was ist was, und was ist es nicht?

Es handelt sich zweifelsohne um einen ideellen Text ohne materielle, physische Existenz. Es ist ein Artikel in deutscher Sprache, geschrieben in Heidelberg an einem Sonntag von einem 47 Jahre alten PR-Menschen und veröffentlicht auf LinkedIn Pulse. Das sind die Rahmendaten. Inhaltlich soll es um eine Methode gegen Fake News gehen. Zweck des Artikels ist eine Diskussion darüber, ob der Ansatz selbst funktionieren kann und wenn ja, wie und unter welchen Bedingungen. Eine ganze Menge Eigenschaften also, die den Artikel beschreiben und dabei helfen, ihn einordnen zu können. Wir wissen also, was er ist und wozu er beitragen möchte. Zudem ist er keine Pizza und keine Schallplatte und nicht auf Französisch verfasst - wir wissen also auch, was er alles nicht ist.

Ich könnte den Artikel jetzt verschlagworten. Ich könnte ihn mit #fakeNews #vorschlag #schema #schlagworte etikettieren. Er wäre unter diesen Schlagworten einsortiert in der größten und bedeutendsten Bibliothek der Menschheitsgeschichte. Er hätte einen Platz gefunden im Wissen der Welt. Einen Platz, den ich ihm durch meine eigene vorurteilsbehaftete, absichtsvolle und interessegeleite Verschlagwortung zugeschustert hätte.

Plausibilität als Sichtbarkeitsbremse

Ich könnte ihn aber auch mit #pizza #schallplatte und #französisch verschlagworten - und schauen, was Google damit macht...

Würde mein Artikel tatsächlich als Pizza durchgehen, weil ich ihn so verschlagwortet habe? Ich denke nicht. Denn das ist ja das Besondere an der Schlagwortwolke: Sie muss konsistent sein, muss insgesamt zum Inhalt passen - was sie nicht tut, der Text ist weder auf Französisch noch handelt es sich um eine Pizza. Diesen Plausibilitätscheck würde die Schlagwortwolke als Ganze nicht bestehen; die Suchmaschine kann sehr gut Französisch und weiß als Gourmet sehr genau, was eine Pizza ist. Google könnte den Artikel nicht fraglos in den Knowledge Graph einbauen - es würde nichts zusammenpassen. Meinen Artikel würde Google also als "begründet zweifelhaft" einschätzen. Er hätte kaum eine Chance auf ein hohes Ranking in den SERPs, er würde nicht gefunden.

Ein krasseres Beispiel, das Sascha Lobo gerne benutzt: "Der Mond ist aus Käse". Wie könnte Google feststellen, dass diese Aussage falsch ist? Nun, was der Mond ist, weiß Google erstens durch viele hunderttausend Suchtreffer mit vielen tausend Metadaten. Von Käse ist dort kaum die Rede. Der Begriff "Mond" ist aber auch verknüpft mit anderen Objekten, die dazu passen: Saturnmonde wie Titan, Atlas oder Calypso beispielsweise. Und jeder dieser Monde ist wiederum mit anderen Begriffswolken verknüpft, die sich der Begriffswolke rund um den Mond signifikant ähneln. In keiner dieser Begriffswolken kommt Käse als relevanter Begriff vor. Würde jemand das Schema - untechnisch - für den Mond folgendermaßen ausfüllen: Material = Käse - dann würde das Google sehr verwirren. In 100.000 anderen Beiträgen steht nämlich Material = Mondgestein, o.s.ä. Die "falsche" weil manipulative Verschlagwortung nimmt Google sofort wahr, weil sie herausfällt aus der homogenen Masse.

Schützt die Semantik vor Manipulation?

Umgekehrt weiß Google sehr genau, was Käse ist. Und Quark und Butter und Joghurt und Dickmilch. Der Mond spielt eventuell eine Rolle, zumindest mag es einige Webseiten geben, die einen Zusammenhang zwischen Mondphase und Käsereifung vermuten. Google weiß aber auch, dass ein Zusammenhang zwischen dem Mond und dem Tidenhub besteht und dass es psychologische Phänomene zu Vollmond geben mag. Doch diese Begriffswolken haben mit dem Einfluss des Mondes auf die Erde zu tun - um Käse geht es also immer hier auf der Erde, niemals oben am Himmel. Google kann das einfach durchschauen durch schnellen Abgleich der bisherigen Verschlagwortungen. Die Suchmaschine geht einfach den Knowledge Graph ein paar Knotenpunkte entlang und checkt die Plausibilität. Käsevorkommen = Himmel würde Google ebenfalls auffallen. Das widerspricht schlicht den 100.000 anderen Käseartikeln.

Manipulation ausgeschlossen?

Wer Fake News veröffentlicht, müsste also diesen Knowledge Graph manipulieren. Er müsste auch die nächsten Knotenpunkte manipulieren und die übernächsten - und da sich die Möglichkeiten im Netz nach jedem Knoten exponentiell vergrößern, müsste man auch alle Eintragungen über Planeten und das Sonnensystem und die Milchwirtschaft und Ebbe und Flut manipulieren - in allen Sprachen! Der Manipulator wäre sehr schnell am Ende und flöge auf.

Wie seht Ihr das?

Ist der Knowledge Graph daher ein systemischer Schutz vor Fake News? Wie seht Ihr das? Könnte er mit vertretbarem Aufwand manipuliert werden? Oder schützt einfach die Semantik und die ihr innewohnende Logik vor Manipulationsversuchen?