Mit Hilfe von Häufigkeitsverteilungen vergleichend die Qualität eines Textes messen

Dies ist ein . Er ist nicht ganz so verrückt wie Karl, ist aber bestrebt die Differenzen zu verringern. In diesem Artikel schreibt er über Häufigkeitsgebirge und stellt ein Thema zur Diskussion, welches ihn und uns alle tiefgehend interessiert. In Zukunft wird er auf gleichnamiger Domain (haeufigkeitsgebirge.de) weiterführende Daten publizieren. Jetzt viel Spaß mit dem Artikel und auf eine spannende Diskussion in den Kommentaren!

Gordon verfolgt die Kommentare natürlich und steht für Fragen gerne zur Verfügung.

Die Basis

Hintergrund
Ich bin im Rahmen meiner Magisterarbeit auf einen Teilbereich der Mathematik gestoßen: Kryptologie. In dieser Disziplin werden Verschlüsselungen wissenschaftlich diskutiert. In den Anfängen wurden für jede Sprache die Zeichen aus zahlreichen Büchern ausgezählt, um zu erfahren, welcher Sprache eine verschlüsselte Nachricht denn entspricht. Ergebnis war ein Häufigkeitsgebirge – der Fingerabdruck einer jeden Sprache (Details: vgl. http://nic.gorbo.de/analyse-domain-namen/buchstaben/).

Ziel

Ich wollte in meiner Arbeit beweisen, dass Domainnamen (DN) unter der TLD .de ein Spiegelbild der deutschen Sprachwirklichkeit sind, mit dem Vorteil, aktueller soziale Strömungen wiedergeben zu können.

  • absolut messbare Menge
  • durch Sonderzeichen etc. reagieren DN auf kulturelle Einflüsse, da es bestimmte Zeichen nur in bestimmten Kulturkreisen gibt
  • DN werden häufig spontan gebildet, um auf Trends zu reagieren/ zu erzeugen

Ergebnis
Es ist der Fall!

Spannende Korrelationen wären u.a. auch dadurch möglich, die DN dem PLZ-Gebiet des Registrierenden zuzuordnen (nur am Rande, jetzt nicht wichtig. Und ja: mir sind die Verzerrungen durch Domainer bewusst).

Die aktuelle Überlegung

Wenn DN einem idealtypischen Sprachenmuster zugeordnet werden können, behaupte ich, dass

  1. Texte ebenfalls einer Sprache zuordenbar sind,
  2. Texte Themengebieten in einer Sprache zuordenbar sind.

Die Zuordnung von DN zur Sprache und der Vergleich mit dem bestehenden Häufigkeitsgebirge ist ja nichts anderes als die Zuordnung einer Menge zu einem Index. Über den Vergleich ergibt sich die Aussagekraft des Häufigkeitsgebirges (Was ist es denn nun für ein Text?).

Nehmen wir mal an, ich hätte

  • Zugang zu (fast) allen Texten dieser Online-Welt, und würde eine
  • grundlegende Semantik schaffen,
  • für jedes semantische Feld (z.B. Versicherungen) zugehörige (als relevant eingestufte) Texte


auszählen (dazu zählen alle Zeichen, wie Zahlen etc.) und damit

  • ein Häufigkeitsgebirge für jedes semantische Feld erstellen
  • so könnte ich jeden neuen Text mit diesem „Ideal-Typus“ vergleichen und werten.

Wie ich die Spitzen letztlich werte ist noch ein weiterer Schritt, aber bei zu großen Abweichungen, wäre ein Text eben nicht idealtypisch relevant. Alles steht und fällt wohl mit der richtigen Semantik – diese kann man aber nach Keywords erstellen (es lohnt also wieder mal eine gute Keywordrecherche).

Verzerrung: englischer Text auf deutscher Website. Lösung: lang-tag oder eben wieder auszählen und Sprache zuordnen.

Und nun?

Ich könnte für die Nischen (in diesem semantischen Umfeld), in denen ich aktiv bin, mir meinen eigenen Index erstellen, in dem ich z.B. die Texte der TOP 20 (besser mehr und dafür handverlesen) in den SERPs

  • crawle,
  • auszähle und
  • meinen Text nach meinem „Ideal-Typus“ ausrichte.

Es ist auf keinen Fall eine einzelne Metrik, aber in Kombination denke ich mir, kann es funktionieren, einen „wertvolleren“ Text zu erkennen. Oder besser: einen „schlechten“ Text erkennen und diesen durch einen guten zu ersetzen – spart nicht an der Qualität der Inhalte. „Liebe Deinen Texter!“ (nach Karl Kratz). Ich habe da noch weitere Ideen – so aber erst einmal in Kurzform als Diskussionsgrundlage.

Kurz

  • jede Sprache hat einen eigenen „Fingerabdruck“
  • jedes Themenfeld innerhalb einer Sprache hat einen eigenen „Fingerabdruck“
  • Texte können an einen Ideal-typischen Text innerhalb eines Themengebietes in einer Sprache ausgerichtet werden

Ein Beweis?

Das Google grundsätzlich mit Häufigkeiten arbeitet, zeigt das Google Books Projekt „nGram“. Hier kann man die Häufigkeit von Worten im Verlauf der Zeit in einer bestimmten Sprache ausgeben lassen. (Vgl.: http://books.google.com/ngrams). Datenbasis sind die eingescannten Worte aus dem Bücher-Projekt. Warum also nicht auch Zeichen auszählen …

Was man damit anstellen kann: http://www.zbw-mediatalk.eu/2011/09/google-ngram-viewer-was-wir-von-funf-millionen-buchern-lernen-konnen/

Soeren
Ich bin Soeren, Blogger und Betreiber von eisy.eu. Über die Jahre hat es sich ergeben, dass mich viele einfach eisy nennen. Das ist okay. :-) Ich blogge seit 2005 und teile hier mein Wissen und meine Erfahrungen.