Mit Hilfe von Häufigkeitsverteilungen vergleichend die Qualität eines Textes messen

Mittwald Webhosting

Mittwald Webhosting

Dies ist ein . Er ist nicht ganz so verrückt wie Karl, ist aber bestrebt die Differenzen zu verringern. In diesem Artikel schreibt er über Häufigkeitsgebirge und stellt ein Thema zur Diskussion, welches ihn und uns alle tiefgehend interessiert. In Zukunft wird er auf gleichnamiger Domain (haeufigkeitsgebirge.de) weiterführende Daten publizieren. Jetzt viel Spaß mit dem Artikel und auf eine spannende Diskussion in den Kommentaren!

Gordon verfolgt die Kommentare natürlich und steht für Fragen gerne zur Verfügung.

Die Basis

Hintergrund
Ich bin im Rahmen meiner Magisterarbeit auf einen Teilbereich der Mathematik gestoßen: Kryptologie. In dieser Disziplin werden Verschlüsselungen wissenschaftlich diskutiert. In den Anfängen wurden für jede Sprache die Zeichen aus zahlreichen Büchern ausgezählt, um zu erfahren, welcher Sprache eine verschlüsselte Nachricht denn entspricht. Ergebnis war ein Häufigkeitsgebirge – der Fingerabdruck einer jeden Sprache (Details: vgl. http://nic.gorbo.de/analyse-domain-namen/buchstaben/).

Ziel

Ich wollte in meiner Arbeit beweisen, dass Domainnamen (DN) unter der TLD .de ein Spiegelbild der deutschen Sprachwirklichkeit sind, mit dem Vorteil, aktueller soziale Strömungen wiedergeben zu können.

  • absolut messbare Menge
  • durch Sonderzeichen etc. reagieren DN auf kulturelle Einflüsse, da es bestimmte Zeichen nur in bestimmten Kulturkreisen gibt
  • DN werden häufig spontan gebildet, um auf Trends zu reagieren/ zu erzeugen

Ergebnis
Es ist der Fall!

Spannende Korrelationen wären u.a. auch dadurch möglich, die DN dem PLZ-Gebiet des Registrierenden zuzuordnen (nur am Rande, jetzt nicht wichtig. Und ja: mir sind die Verzerrungen durch Domainer bewusst).

Die aktuelle Überlegung

Wenn DN einem idealtypischen Sprachenmuster zugeordnet werden können, behaupte ich, dass

  1. Texte ebenfalls einer Sprache zuordenbar sind,
  2. Texte Themengebieten in einer Sprache zuordenbar sind.

Die Zuordnung von DN zur Sprache und der Vergleich mit dem bestehenden Häufigkeitsgebirge ist ja nichts anderes als die Zuordnung einer Menge zu einem Index. Über den Vergleich ergibt sich die Aussagekraft des Häufigkeitsgebirges (Was ist es denn nun für ein Text?).

Nehmen wir mal an, ich hätte

  • Zugang zu (fast) allen Texten dieser Online-Welt, und würde eine
  • grundlegende Semantik schaffen,
  • für jedes semantische Feld (z.B. Versicherungen) zugehörige (als relevant eingestufte) Texte


auszählen (dazu zählen alle Zeichen, wie Zahlen etc.) und damit

  • ein Häufigkeitsgebirge für jedes semantische Feld erstellen
  • so könnte ich jeden neuen Text mit diesem „Ideal-Typus“ vergleichen und werten.

Wie ich die Spitzen letztlich werte ist noch ein weiterer Schritt, aber bei zu großen Abweichungen, wäre ein Text eben nicht idealtypisch relevant. Alles steht und fällt wohl mit der richtigen Semantik – diese kann man aber nach Keywords erstellen (es lohnt also wieder mal eine gute Keywordrecherche).

Verzerrung: englischer Text auf deutscher Website. Lösung: lang-tag oder eben wieder auszählen und Sprache zuordnen.

Und nun?

Ich könnte für die Nischen (in diesem semantischen Umfeld), in denen ich aktiv bin, mir meinen eigenen Index erstellen, in dem ich z.B. die Texte der TOP 20 (besser mehr und dafür handverlesen) in den SERPs

  • crawle,
  • auszähle und
  • meinen Text nach meinem „Ideal-Typus“ ausrichte.

Es ist auf keinen Fall eine einzelne Metrik, aber in Kombination denke ich mir, kann es funktionieren, einen „wertvolleren“ Text zu erkennen. Oder besser: einen „schlechten“ Text erkennen und diesen durch einen guten zu ersetzen – spart nicht an der Qualität der Inhalte. „Liebe Deinen Texter!“ (nach Karl Kratz). Ich habe da noch weitere Ideen – so aber erst einmal in Kurzform als Diskussionsgrundlage.

Kurz

  • jede Sprache hat einen eigenen „Fingerabdruck“
  • jedes Themenfeld innerhalb einer Sprache hat einen eigenen „Fingerabdruck“
  • Texte können an einen Ideal-typischen Text innerhalb eines Themengebietes in einer Sprache ausgerichtet werden

Ein Beweis?

Das Google grundsätzlich mit Häufigkeiten arbeitet, zeigt das Google Books Projekt „nGram“. Hier kann man die Häufigkeit von Worten im Verlauf der Zeit in einer bestimmten Sprache ausgeben lassen. (Vgl.: http://books.google.com/ngrams). Datenbasis sind die eingescannten Worte aus dem Bücher-Projekt. Warum also nicht auch Zeichen auszählen …

Was man damit anstellen kann: http://www.zbw-mediatalk.eu/2011/09/google-ngram-viewer-was-wir-von-funf-millionen-buchern-lernen-konnen/

SERPWatcher - Stop wasting time with conventional rank trackers
Über Soeren 571 Artikel

Ich bin Soeren, Blogger und Betreiber von eisy.eu. Über die Jahre hat es sich ergeben, dass mich viele einfach eisy nennen. Das ist okay. :-) Ich blogge seit 2005 und teile hier mein Wissen und meine Erfahrungen.

7 Kommentare zu Mit Hilfe von Häufigkeitsverteilungen vergleichend die Qualität eines Textes messen

  1. Hallo Gordon,

    super interessanter Ansatz, aber prinzipiell fehlt mir da in deinem Artikel die mögliche Alleinstellung. Worin unterscheidet sich dieses Prinzip (rein ergebnisbezogen) von dem Karl’schen WDF-Blablub?

    Im grunde habe ich durch diese Art der Verteilungslehre also die Möglichkeit, die Verteilung von „eineindeutigen“ zeichen wie Buchstaben oder zahlen auszuzählen um somit unter den Top X Ergebnissen eine Art Durchschnitt zu erstellen? Und mit diesem Durchschnitt kann ich einen Mastertext verfassen? Habe ich es ca. erfasst? Hierbei stellt sich mir nun nur noch die Frage, inwiefern das evtl. relevant für den Teilbereich SEO sein könnte, da hier noch nichts über die Bedeutung einzelner Schlagwörter (und deren Semantik) beschrieben ist…oder bin ich da zu voreilig?

  2. Ich glaube so einfach wird das nicht funktionieren. Die Klassifikation von Sprachen mag mit einer Häufigkeitsverteilung einzelner Buchstaben noch funktionieren – bei einzelnen Themen wird das aber nicht mehr klappen. Buchstaben alleine tragen keine Bedeutung – du müsstest dir also wenn schon ganze Wörter anschauen.

    Bist du mit deiner Arbeit schon durch oder sind die von dir genannten Punkte noch Sachen, die du untersuchen wirst?

    Viele Grüße
    Pascal

  3. Hallo,
    vielen Dank für das feedback!

    @Markus Für SEO wäre es dann relevant, wenn man bestehende Inhalte dahingehend prüfen kann, ob sie aus dem „Ideal-typischen“ Muster ausbrechen. Das kann ein Indiz für „schlechten“ Inhalt sein, den man anschließend korrigieren kann. Natürlich fügt man dann keine einzelnen Buchstaben hinzu, sondern prüft den Text insgesamt und erstellt einen besseren.
    Der Vorteil ist die Erfassung aller Zeichen (siehe dazu nächsten Absatz).

    @Pascal Das glaube ich nicht! Betrachten wir Texte mal unter dem Gesichtspunkt von „Experten- vs. Laienkommunikation“: der Wortschatz eines Experten in einem Themengebiet ist sicher ein anderer, als der eines Laien. Demnach wird er ein Thema mit anderen Worten und Worthäufigkeiten bearbeiten, was zu einem anderen Häufigkeitsgebirge gegenüber dem Text des Laien führt. Und das betrifft eben nicht nur Buchstaben, sondern ALLE Zeichen.

    Kleines Beispiel: ausgewählte Finanztexte (die, die man händisch als wertvoll einstuft) werden sehr wahrscheinlich mehr Sonderzeichen (% € oder $ o.ä.) und Zahlen beinhalten. Im Häufigkeitsgebirge wird dies den Text besonders machen und unterscheidet ihn wesentlich von den 300-Wort-Kredit-Texten, bei denen diese Ausschläge im Bereich der Sonderzeichen fehlen. Als Datenbasis kann google ja auf den Datenbestand aller eingescannten Bücher aus den Bibliotheken zurückgreifen.

    Wie erwähnt ist es sicher keine einzelne Metrik, kann bestehende aber sinnvoll ergänzen. Du kannst zwar Deinen Finanz-Text nach WDF*IDF aussteuern, aber es würden ggf. die Signale themenspezifischer Zeichenhäufigkeiten fehlen – das erübrigt sich meist natürlich, wenn man auf einen Fachautor zurückgreift, da er automatisch die Expertensprache spricht/schreibt.

    Zu den Tests: ich habe heute erste Gespräche um einen Testaufbau vorzunehmen. Die Ergebnisse gibt es dann auf der oben angegebenen website.

    Grüße

  4. Hallo,
    das sind ja nette Thesen und alles klingt sehr wissenschaftlich.
    Aber wenn man die These beweisen möchte, dass Domainnamen die Strömungen und Tendenzen der Zeit abbilden und wiederspiegeln, wie kann man dann die Tatsache einfließen lassen, dass Domainnamen heute häufig nur die zweit- oder drittbeste Alternative sind, die man für die einzurichtende Domain wählt? Die besten Keydomains sind doch besetzt und alle stricken sich aus den noch vorhandenen Möglichkeiten bestmögliche Alternativen zusammen. Wenn wir aber könnten, wie wir wollten, würden wir doch fast alle eine andere Adresse wählen, oder? (Ich hoffe, ich habe das Projekt und die zugrunde liegende Theorie korrekt verstanden…)

  5. Hi Joe,

    letztlich ist der Faktor nicht weiter relevant aus welcher Motivation Du einen Domain-Namen (DN) auswählst und registrierst. Der Fakt, dass Du diese registrierst und als Zeichensatz ein (Schlag-)Wort aus dem deutschen Sprachraum wählst, bestätigt/verstärkt ja die Zusammengehörigkeit von DN zur Sprache.

    Und da immer mal wieder neue Märkte und damit Schlagworte entstehen, werden auch immer wieder neue DN passend zu den Themen der Zeit registriert und sind damit ein dynamischerer Spiegel der Sprache.

    Keyword-Domains sind sogar die besseren Indikatoren, da sie immer genau das ausdrücken, wie tatsächlich gesucht/gesprochen wird.

    Ich hoffe ich habe etwas mehr aufgeklärt als verwirrt … 😉

    Grüße

Kommentar hinterlassen

E-Mail Adresse wird nicht veröffentlicht.


*