Computerhilfe. Das Gesetz von Zipf und die fraktale Natur sozialer und wirtschaftlicher Phänomene

Das erste Mal traf ich beim Lesen auf eine Beschreibung des Zipfschen Gesetzes. Die Essenz des Gesetzes: Wenn die Wörter eines Textes nach ihrer Verwendungshäufigkeit geordnet werden, dann ist das Produkt aus Rang und Häufigkeit ein konstanter Wert:

F*R=C, wo:

F ist die Häufigkeit des Vorkommens des Wortes im Text;

R - Wortrang (das am häufigsten verwendete Wort erhält Rang 1, das nächste - 2 usw.);

C ist eine Konstante.

Für diejenigen, die sich noch an ein wenig Algebra erinnern :), in der obigen Formel ist es leicht, die Gleichung einer Hyperbel zu erkennen. Zipf hat experimentell festgestellt, dass C ≈ 0,1. Die grafische Darstellung des Zipfschen Gesetzes ist also ungefähr die folgende:

Reis. 1. Hyperbel des Zipfschen Gesetzes.

Hinweis im Format herunterladen, Beispiele im Format

Hyperbeln haben eine bemerkenswerte Eigenschaft. Wenn wir für beide Achsen eine logarithmische Skala nehmen, sieht die Hyperbel wie eine gerade Linie aus:

Reis. 2. Dieselbe Übertreibung, aber auf einem Diagramm mit logarithmischen Skalen

Da stellt sich vielleicht die Frage: Was hat Suchmaschinenoptimierung damit zu tun? Es stellt sich also heraus, dass speziell generierte Texte mit einer erhöhten Anzahl von Schlüsselwörtern nicht in das Gesetz passen. Suchmaschinen (Google, Yandex) prüfen Texte auf „Natürlichkeit“, also die Einhaltung des Zipf-Gesetzes, und stufen Seiten mit „verdächtigen“ Texten entweder schlechter ein oder sperren solche Seiten sogar.

Das zweite Mal, dass ich Zipfs Gesetz begegnete, war mit Benoit Mandelbrot in seinem Buch. Und dieser kleine Abschnitt hat mir so gut gefallen, dass ich ihn vollständig zitieren darf.

Unerwartetes Potenzgesetz

1950 suchte ich als junger Mathematikstudent an der Universität Paris nach einem Thema für meine Dissertation. Mein Onkel Zolem war das örtliche Lehrbuchbeispiel eines Mathematikprofessors: ein tiefer Theoretiker, sehr konservativ und, obwohl er in Polen geboren wurde, eine Säule der französischen Wissenschaftsgemeinschaft. Bereits mit 31 Jahren wurde er zum ordentlichen Professor am renommierten French College gewählt.

Das war die Ära von Nicolas Bourbaki; Hinter diesem kollektiven Pseudonym verbarg sich ein mathematischer „Club“, der sich, wie Dada in der Kunst oder Existentialismus in der Literatur, von Frankreich aus ausbreitete und auf der Weltbühne zeitweilig äußerst einflussreich wurde. Abstraktion und reine Mathematik, Mathematik um der Mathematik willen, wurden in den Rang eines Kultes erhoben; Mitglieder des "Clubs" verachteten Pragmatismus, angewandte Mathematik und sogar Mathematik als Werkzeug der Wissenschaft. Dieser Ansatz war ein Dogma für französische Mathematiker und für mich vielleicht der Grund, Frankreich zu verlassen und bei IBM zu arbeiten. Zum Leidwesen meines Onkels war ich ein junger Rebell. Während der Arbeit an meiner Doktorarbeit bin ich am Ende des Tages oft in sein Büro gegangen, um mich zu unterhalten, und oft wurden diese Gespräche zu einer Diskussion. Einmal, als ich versuchte, die bevorstehende lange und langweilige U-Bahnfahrt nach Hause irgendwie aufzuheitern, bat ich ihn um etwas zum Lesen für unterwegs. Er griff in den Papierkorb und zog mehrere zerknitterte Zettel heraus.

„Hier, nimm das“, murmelte mein Onkel. „Der dümmste Artikel, den du liebst.

Es war eine Besprechung eines Buches des Soziologen George Kingsley Zipf. Zipf, ein Mann, der reich genug war, um nicht an sein tägliches Brot zu denken, hielt an der Harvard University Vorlesungen über die von ihm erfundene Disziplin, die er statistische Humanökologie nannte. In seinem Buch Human Behavior and the Principle of Least Effort wurden Machtgesetze als allgegenwärtige Strukturen der Sozialwissenschaften angesehen. In einem Chip sind Potenzgesetze weit verbreitet und wirken als eine Form dessen, was ich jetzt als fraktale Selbstwiederholung auf einer Skala bezeichne. Seismologen haben eine mathematische Formel für die potenzgesetzliche Abhängigkeit der Anzahl von Erdbeben von ihrer Stärke nach der berühmten Richterskala. Oder mit anderen Worten: Schwache Erdbeben sind häufig, starke dagegen selten, und die Häufigkeit und Stärke von Erdbeben hängen durch eine exakte Formel zusammen. Damals gab es wenige solcher Beispiele, und sie waren nur wenigen Menschen bekannt. Zipf, der Enzyklopädist, war besessen von der Idee, dass Potenzgesetze nicht auf die Naturwissenschaften beschränkt seien; Sie unterliegen allen Manifestationen des Verhaltens, der Organisation und der menschlichen Anatomie - sogar der Größe der Genitalien.

Glücklicherweise beschränkte sich die Rezension des Buches, die mir mein Onkel gab, auf nur ein ungewöhnlich elegantes Beispiel: die Häufigkeit von Wörtern. In Text oder Sprache kommen einige Wörter häufig vor, wie z. B. das Englische the (bestimmter Artikel) oder this ("it"); andere, milreis oder momus, erscheinen selten oder gar nicht (für die Neugierigsten: der erste bedeutet eine alte portugiesische Münze, der zweite ist ein Synonym für das Wort "Kritiker"). Zipf schlug folgende Übung vor: Nehmen Sie einen beliebigen Text und zählen Sie, wie oft jedes Wort darin vorkommt. Weisen Sie dann jedem Wort einen Rang zu: 1 - für die am häufigsten verwendeten Wörter, 2 - für diejenigen, die in Bezug auf die Häufigkeit des Vorkommens an zweiter Stelle stehen usw. Erstellen Sie schließlich ein Diagramm, in dem Sie für jeden Rang die Anzahl der Vorkommen dieses Wortes angeben. Wir werden eine erstaunliche Zeichnung bekommen. Die Kurve nimmt nicht gleichmäßig vom häufigsten Wort in einem bestimmten Text zum seltensten ab. Zuerst fällt es mit schwindelerregender Geschwindigkeit, danach beginnt es langsamer abzunehmen und wiederholt die Flugbahn eines Skifahrers, der von einem Sprungbrett gesprungen ist und dann gelandet ist und den relativ sanften Hang eines schneebedeckten Berges hinuntergefahren ist. Ein Beispiel für eine klassische ungleichmäßige Skala. Nachdem Zipf die Kurve an seine Diagramme angepasst hatte, entwickelte er eine Formel dafür.

Ich war geschockt. Am Ende meiner langen U-Bahnfahrt hatte ich bereits ein Thema für die Hälfte meiner Doktorarbeit. Ich wusste genau, wie ich die mathematischen Grundlagen der Häufigkeitsverteilung von Wörtern erklären musste, was Zipf als Nicht-Mathematiker nicht hätte tun können. In den folgenden Monaten warteten erstaunliche Entdeckungen auf mich. Mit dieser Gleichung können Sie ein mächtiges Werkzeug für die Sozialforschung erstellen. Eine verbesserte Version der Zipf-Formel ermöglichte es, den Reichtum des Vokabulars jeder Person zu quantifizieren und einzuordnen: ein hoher Wert – ein reichhaltiges Vokabular; niedriger Wert - schlecht. Mit einer solchen Skala kann man Unterschiede im Wortschatz zwischen Texten oder Sprechern messen. Es wird möglich, Gelehrsamkeit zu quantifizieren. Es stimmt, meine Freunde und Berater waren entsetzt über meine Entschlossenheit, dieses seltsame Thema anzugehen. Zipf, sagten sie mir, ist ein schrulliger Mann. Mir wurde sein Buch gezeigt und ich stimmte zu, dass es widerlich war. Wortzählen ist keine echte Mathematik, davon war ich überzeugt. Nachdem ich dieses Thema aufgegriffen habe, werde ich nie einen guten Job finden; Und es wird mir auch nicht leicht fallen, Professor zu werden.

Aber ich blieb taub für weise Ratschläge. Außerdem habe ich meine Dissertation komplett ohne Gutachter geschrieben und sogar einen der Uni-Bürokraten überredet, sie mit einem Siegel zu beglaubigen. Ich war entschlossen, den eingeschlagenen Weg zu Ende zu gehen und Zipfs Ideen in der Ökonomie anzuwenden, denn nicht nur Sprache lässt sich auf ein Potenzgesetz reduzieren. Wir sind reich oder arm, wohlhabend oder hungernd – all dies schien mir auch Gegenstand eines Machtgesetzes zu sein.

Mandelbrot modifizierte Zipfs Formel leicht:

F \u003d C * R -1 /a, wo

a - Koeffizient, der den Reichtum des Wortschatzes charakterisiert; Je größer der Wert von a ist, desto reicher ist der Wortschatz des Textes, da die Abhängigkeitskurve der Häufigkeit des Auftretens jedes Wortes von seinem Rang langsamer abnimmt und beispielsweise seltene Wörter häufiger vorkommen als bei kleineren Werten von a. Diese Eigenschaft wollte Mandelbrot zur Beurteilung der Gelehrsamkeit nutzen.

Mit dem Zipfschen Gesetz ist nicht alles so glatt, und in bestimmten Anwendungen kann man sich nicht immer auf den experimentell ermittelten Koeffizienten a verlassen. Gleichzeitig ist Zipfs Gesetz nichts anderes als Paretos Gesetz "im Gegenteil", da beide Spezialfälle von Potenzreihen sind oder ... eine Manifestation der fraktalen Natur von Wirtschafts- und Gesellschaftssystemen.

Für mich habe ich die Essenz der fraktalen Natur von Wirtschaftssystemen folgendermaßen formuliert. Auf der einen Seite gibt es ein Glücksspiel: Roulette, Würfeln. Andererseits technologischer/physischer Unfall: Veränderung des Durchmessers einer auf einer Drehbank hergestellten Welle, Veränderung der Körpergröße eines Erwachsenen. All diese Phänomene werden beschrieben. Es gibt also eine Reihe von Phänomenen, die dieser Verteilung nicht folgen: der Reichtum von Ländern und Einzelpersonen, Schwankungen der Aktienkurse, Wechselkurse, die Häufigkeit des Gebrauchs von Wörtern, die Stärke von Erdbeben ... Für solche Phänomene das Merkmal ist, dass der Durchschnittswert sehr stark von der Probe abhängt. Wenn Sie zum Beispiel hundert zufällige Personen unterschiedlicher Größe nehmen, dann wird das Hinzufügen der größten Person der Erde die durchschnittliche Größe dieser Gruppe nicht wesentlich ändern. Wenn wir das durchschnittliche Einkommen von hundert zufälligen Personen berechnen, dann wird das Hinzufügen der reichsten Person auf dem Planeten - Carlos Slim Elu (und nicht Bill Gates, wie viele vielleicht denken :)) das durchschnittliche Vermögen aller erheblich erhöhen, auf etwa 500 Millionen Dollar!

Eine weitere Manifestation von Fraktalität ist eine signifikante Schichtung der Stichprobe. Betrachten Sie zum Beispiel

Stimmen Sie zu, das dargestellte Muster ist wie zwei Wassertropfen, ähnlich der Zipf-Kurve!

Eine der Eigenschaften von Fraktalität ist die Selbstwiederholung. Von den 192 in der Liste aufgeführten Ländern der Welt konzentrieren sich also 80 % des Weltvermögens auf nur 18 Länder - 9,4 % (18/192). Wenn wir jetzt nur diese 18 Länder betrachten, dann beträgt ihr Gesamtvermögen 46 Billionen. Dollar - gleichmäßig ungleich verteilt. 80 % dieser 46 Billionen. Konzentration auf weniger als die Hälfte der Länder usw.

Sie fragen sich vielleicht: Was ist die praktische Schlussfolgerung aus all dem? Ich würde Folgendes sagen:

  1. Soziale und wirtschaftliche Systeme werden nicht durch eine Gaußsche beschrieben. Diese Muster gehorchen Potenzreihen [gleichbedeutend mit fraktaler Natur].
  2. Ausreißer vom Mittelwert sind wesentlich wahrscheinlicher als die von der Gaußschen Glockenkurve vorhergesagten. Darüber hinaus sind Ausreißer systemimmanent; sie sind nicht zufällig, sondern regelmäßig.
  3. Risikoschätzungen können nicht auf der Grundlage einer normalen Wahrscheinlichkeitsverteilung seltener unerwünschter Ereignisse erstellt werden.
  4. … Ich werde nicht lügen, mir fällt noch nichts anderes ein … aber das heißt nicht, dass es keine praktischen Schlussfolgerungen mehr gibt … es ist nur so, dass mein Wissen darauf beschränkt ist …

... aber Sie müssen zugeben, schöne Muster!

Zur Fraktalität siehe Benoit Mandelbrot

Es ist zu beachten, dass Daten aus verschiedenen Quellen stark variieren, dies ist jedoch für das hier behandelte Thema nicht relevant.

Unter den Kriterien zur Beurteilung der Qualität des Textes wird seine Natürlichkeit als das wichtigste angesehen. Dieser Indikator kann mit einer mathematischen Methode verifiziert werden, die vom amerikanischen Linguisten George Zipf entdeckt wurde.

Zipfs Gesetztest ist eine Methode zur Beurteilung der Natürlichkeit eines Textes, die das Muster der Wortanordnung bestimmt, wobei die Häufigkeit eines Wortes umgekehrt proportional zu seiner Position im Text ist.

Zipfs erstes Gesetz "Rang - Häufigkeit"

C \u003d (Häufigkeit des Auftretens eines Wortes x Häufigkeitsrang) / Anzahl der Wörter.

Wenn wir das Verhältnis eines Wortes zum Rang der Häufigkeit nehmen, dann bleibt der Wert (C) unverändert, und dies gilt für ein Dokument in jeder Sprache, innerhalb jeder Sprachgruppe bleibt der Wert konstant.

In der Mitte der Übertreibung stehen die für das Dokument bedeutsamen und inhaltlich bestimmenden Worte. Die am häufigsten verwendeten Wörter sowie die selteneren haben keine entscheidende semantische Bedeutung.

Zipfs zweites Gesetz "Menge - Häufigkeit"

Auch die Häufigkeit eines Wortes und seine Anzahl im Text stehen in Beziehung zueinander. Wenn Sie ein Diagramm erstellen, in dem X die Häufigkeit eines Wortes und Y die Anzahl der Wörter einer bestimmten Häufigkeit ist, bleibt die Form der Kurve unverändert.

Das Prinzip, guten Text zu schreiben, besagt, dass er mit möglichst wenigen Worten möglichst verständlich gemacht werden muss.

Das Gesetz zeigt ein gemeinsames Eigentum für jede Sprache, da es wird immer eine bestimmte Anzahl von Wörtern geben, die am häufigsten vorkommen.

Es ist notwendig, den SEO-Text auf Natürlichkeit zu prüfen, wenn Keywords schriftlich verwendet wurden, damit er für eine große Leserschaft interessant und verständlich ist. Dieser Indikator ist auch wichtig, wenn Websites von Suchmaschinen bewertet werden, die die Übereinstimmung des Textes mit Schlüsselabfragen bestimmen und Wörter in Gruppen von wichtigen, zufälligen und Hilfswörtern verteilen.

Mehr:

  • Die Beziehung zwischen der Häufigkeit des Auftretens eines Wortes im Text f und seinem Platz im Häufigkeitswörterbuch (Rang) r ist umgekehrt proportional. Je höher der Rang des Wortes ist (je weiter es vom Anfang des Wörterbuchs entfernt ist), desto geringer ist die Häufigkeit seines Vorkommens im Text.
  • Der Graph einer solchen Abhängigkeit ist eine Hyperbel, die bei niedrigen Rängen sehr stark abfällt und sich dann im Bereich kleiner Werte der Auftrittshäufigkeit f sehr weit ausdehnt, allmählich, aber sehr unmerklich abnimmt der Rang, r, steigt.
  • Wenn die Häufigkeit des Auftretens eines Wortes 4 pro Million beträgt und die Häufigkeit eines anderen 3 pro Million, spielt es keine Rolle, dass sich die Ränge dieser Wörter um das Tausendfache unterscheiden. Diese Wörter werden so selten verwendet, dass viele Muttersprachler sie noch nicht einmal gehört haben.
  • Bemerkenswert an dieser fernen Region ist jedoch, dass das hier befindliche Wort sehr leicht den Wert seines Ranges um ein Vielfaches mindern kann. Schon die kleinste Erhöhung der Häufigkeit des Auftretens eines Wortes verschiebt seine Position dramatisch an den Anfang des Häufigkeitsverzeichnisses.
  • Im Sinne dieses Gesetzes ist das Maß für die Popularität eines Wortes seine Position im Häufigkeitswörterbuch der Sprache. Ein beliebteres Wort steht weiter oben im Wörterbuch als ein weniger beliebtes.
  • Sie spiegelt die Abhängigkeit der Verwendungshäufigkeit eines Wortes in einer Sprache von seinem Platz im Häufigkeitswörterbuch wider. Beliebte Wörter der Sprache werden häufiger verwendet. Aus mathematischer Sicht ist der Graph dieser Abhängigkeit eine Hyperbel mit einem scharfen Anstieg, wenn sie sich dem Ursprung nähert, und einem langen, sanften, fast horizontalen "Schwanz". Die meisten Wörter der Sprache befinden sich in diesem "Schwanz". Hier ist der Platz eines Wortes im Häufigkeitswörterbuch, wenn es die Häufigkeit der Verwendung dieses Wortes in der Sprache ändert, überhaupt nicht viel.
  • Aber sobald die Position des Wortes im Häufigkeitslexikon jene Stelle auf der Hyperbel erreicht, wo, wenn wir uns dem Ursprung nähern, ein deutlicher Anstieg der Kurve beginnt, ändert sich die Situation. Nun führt eine kleine Änderung in der Häufigkeit des Auftretens eines Wortes nicht mehr zu signifikanten Änderungen in seinem Rang, dh die Position des Wortes im Häufigkeitswörterbuch ändert sich nicht mehr. Das bedeutet, dass sich das Wachstum der Popularität des Wortes verlangsamt hat. Damit es weitergeht, sollten besondere Maßnahmen ergriffen werden, um die Häufigkeit des Vorkommens des Wortes zu erhöhen. Wenn das Wort beispielsweise der Name des Produkts ist, müssen Sie Geld für eine Werbefirma ausgeben (

Hallo! In letzter Zeit höre ich immer öfter von Kollegen von der Forderung im TOR, die Qualität des Textes nach dem Zipfschen Gesetz zu bewerten. Und nicht jeder versteht, wie man den Text für dieses Gesetz bearbeitet. Im heutigen Artikel werde ich versuchen, Ihnen zu erklären, wie Sie den Parameter auf einfachste Weise verbessern können, und auch klären, warum gute Autoren ihn nicht wirklich brauchen.

Über mehrere Dienste können Sie die Qualität des Textes nach dem Zipf-Gesetz ermitteln. Aber ich denke, PR-CY ist am besten geeignet, es kombiniert die richtige Formel mit einer einfachen und verständlichen Oberfläche. Das habe ich bei der Vorbereitung dieses Materials verwendet.

Was ist das Zipfsche Gesetz?

Zunächst lohnt es sich zu verstehen, was es ist. Laut Wikipedia hat Jean-Baptiste Estoux dieses Muster 1908 formuliert, dieses Gesetz bezog sich ursprünglich auf Kurzschrift. Die erste allgemein bekannte Anwendung der Regularität bezieht sich auf die Demographie, genauer gesagt auf die Verteilung der Bevölkerung in Städten, wurde von Felix Auerbach verwendet.

Seinen heutigen Namen erhielt das Muster 1949 durch den Linguisten George Zipf. Er zeigte mit seiner Hilfe die Abstufung der Vermögensverteilung in der Bevölkerung. Und erst dann wurde das Gesetz angewendet, um die Lesbarkeit von Texten zu bestimmen.

Wie wird es berechnet

Um dieses Gesetz richtig anzuwenden, müssen Sie verstehen, wie es funktioniert. Lassen Sie uns die Formel für die Berechnung analysieren.

  • F ist die Häufigkeit der Verwendung des Wortes;
  • R ist die Seriennummer;
  • C ist ein konstanter Wert (eine Zahl, die das größte Wort in Bezug auf die Anzahl der Wiederholungen angibt).

In der Praxis erweist sich eine andere Formel als bequemer, sie sieht übersichtlicher aus.

Dieser Ansatz ist bequemer, da wir Daten über die Anzahl der Wiederholungen des häufigsten Wortes haben. Von dieser Menge werden sie abgestoßen.

Zur Vereinfachung soll in unserem Text das zweithäufigste Wort doppelt so selten sein wie das erste. Dreimal Dritter werden und so weiter.

Beispiel für die Textanpassung

Die Theorie wurde ein wenig abgehandelt. Es bleibt, sich mit der Praxis zu befassen. Als experimentellen Text habe ich einen Artikel von T-Zh genommen. Warum von dort? Alles ist einfach. Im Moment ist dies eines der besten Beispiele für den von vielen geliebten Info-Stil. Nun, es war interessant, was der unter der Leitung von Maxim Ilyakhov geschriebene Text zeigen würde. Ich werde gleich sagen, dass die Texte für diesen Indikator auf dem Niveau sind, obwohl ich, nachdem ich mehr als 40 Websites geschaufelt hatte, überhaupt keinen einzigen Artikel mit schlechter Natürlichkeit gefunden habe. Außerdem greife ich gleich vor und sage, dass der experimentelle Text nach dem Fitting deutlich schlechter geworden ist, trotz verbessertem Zipf-Score sollte man sich nicht allzu sehr um eine übermäßige Steigerung der Natürlichkeit kümmern.

Das hat uns der Analysator nach der Überprüfung angezeigt.

Schauen wir uns an, was da drin ist. Wie Sie sehen können, gibt es eine Spalte mit Wörtern sowie unverständlichen Zahlen. Die Spalte „Vorkommen“ (1) gibt an, wie oft die Wortformen im Text vorkommen. In der Zipf-Spalte (2) steht die empfohlene Anzahl an Einträgen. Die Markierungen 3 und 4 markieren ideale Indikatoren für die zweite und dritte Position. Sie sollten auch auf die Empfehlungen achten, sie geben an, wie viele Wörter Sie entfernen müssen, um die perfekte Kombination zu erreichen.

Lassen Sie uns zum besseren Verständnis analysieren, was der Analysator gezählt hat. Wir nehmen die Nummer 39 (C) als Grundlage, wir brauchen auch eine Seriennummer, achten Sie auf die 2 (F) Position. Wir nehmen die Formel.

Ersatz.

F=39/2=19,5

Wir runden auf und erhalten 20, dies ist die erforderliche Anzahl von Vorkommen. Dies wird vom Analysator bestätigt. In unserem Land wird das zweitbeliebteste Wort 28 Mal verwendet, 8 Wiederholungen müssen entfernt oder ersetzt werden.

Nachdem wir uns mit dem Prinzip des Gesetzes befasst haben, beginnen wir mit der Bearbeitung. Dazu löschen oder ersetzen wir durch Synonyme Wörter, die häufiger vorkommen als von Zipf gefordert. Als Ergebnis erhalten wir dieses Bild.

Wie Sie sehen können, ist es mir gelungen, die Rate von 83 % auf 88 % zu erhöhen. Allerdings litt die Qualität des Textes erheblich. Sie sollten nicht danach streben, diese Zahl auf 100 % zu erhöhen. In der Tat, wenn Sie bereits 75% haben, ist dies ausgezeichnet und Sie sollten nicht weiter pervertieren.

Hilfreicher Rat

Achten Sie nicht nur auf die ersten Zeilen. Beginnen Sie mit der Anpassung an den letzten Positionen in der Liste, sie haben oft einen größeren Einfluss auf die Gesamtpunktzahl als die ersten zehn Wörter.

Zipf und SEO

Kommen wir nun dazu, warum ein Texter dieses Muster kennen muss. Bei der Bestellung von Texten bemühen sich SEOs, sie für Suchmaschinen so bequem wie möglich zu gestalten. Es wird angenommen (obwohl nicht klar von wem), dass das Gesetz von Zipf aktiv von Suchalgorithmen verwendet wird. Es ist schwierig, diese Aussage zu beweisen oder zu widerlegen. Ich konnte keine vernünftigen Forschungen und Experimente zu diesem Thema finden.

Beschlossen, es selbst zu überprüfen. Dazu nahm ich das Thema für eine solche Konkurrenzanfrage „Plastikfenster“, Yandex nahm das Moskauer Thema, ich musste in Google zaubern, und er schien mich auch als Einwohner der Hauptstadt zu identifizieren (zumindest zeigte er es mir eine Anzeige mit Moskauer Geolokalisierung). Ich belegte die erste Seite der Ausgabe, plus Platz 49. So ist das Schild geworden.

Wenn Sie genauer hinsehen, können Sie sehen, dass die Ausgabe in Yandex gleichmäßiger ist, wenn Sie sich das Muster ansehen, das wir untersuchen. Gleichzeitig garantiert eine höhere Zahl jedoch keinen Sieg im Kampf um den ersten Platz an der Spitze.

Darauf basierend kann gesagt werden, dass, wenn Suchmaschinen dieses Gesetz anwenden, dies nur einer der Faktoren ist. Und nicht die Hauptsache.

Ergebnisse

Das ist es. Jetzt wissen Sie, wie die Qualität des Textes nach dem Zipf-Gesetz ist, und Sie können diesen Indikator auch anpassen. Tatsächlich ist hier nichts kompliziert, alles ist ganz einfach. Es genügt, das Funktionsprinzip dieser Regelmäßigkeit einmal zu verstehen.

Die Welt der SEO entwickelt sich ständig weiter und die Optimierung steht nicht still. Es gibt neue Methoden zum Schreiben von Texten, deren Aufbereitung für eine bessere Erschließung. Einer der Parameter, auf den die Optimierer besonders geachtet haben, ist die Natürlichkeit des Textes nach dem Zipfschen Gesetz. Was ist das Zipf-Gesetz und seine Rolle bei der SEO-Werbung?

Das Zipfsche Gesetz ist dem Wortlaut nach eine empirisch festgestellte Regelmäßigkeit in der Lage der Häufigkeit von Wörtern in einem Text. Laut Gesetz ist die Häufigkeit eines Wortes in einem Text fast umgekehrt proportional zu seiner Position in der Liste. Das heißt, wenn wir vom Gesetz ausgehen, sollte das zweithäufigste Wort im Text zweimal seltener verwendet werden als das erste und das dritte dreimal seltener und so weiter.

Zum leichteren Verständnis dieses Musters sollten Sie auf die Anordnung der Buchstaben auf einer Computertastatur achten. Es ist kein Zufall: Die am häufigsten verwendeten Buchstaben einer Sprache sind bequemer zu finden als die weniger häufig verwendeten. Bei Wörtern verhält es sich ähnlich: Es gibt häufig verwendete Wörter und selten verwendete, bedeutsamere Wörter, die das Thema des Textes bestimmen.

Die Trennung nach der Wichtigkeit von Wörtern wird auch beim Ranking von Websites in Suchmaschinenalgorithmen verwendet. Vor diesem Hintergrund hilft der Unterschied der Wörter in Bezug auf Bedeutung und Verwendungshäufigkeit beim Verfassen von SEO-Texten, Wörter in 3 Gruppen einzuteilen:

  • Hilfs. Diese Gruppe umfasst Wörter, die keine unabhängige semantische Last tragen, wie Konjunktionen, Präpositionen, Pronomen, Partikel. Alle Hilfswörter werden von Suchmaschinen als Informationsrauschen wahrgenommen und beim Ranking ignoriert.
  • Wichtig. Solche Wörter sind in Texten weniger verbreitet und tragen eine erhebliche semantische Last. Suchmaschinen nehmen die Wörter dieser Gruppe als Schlüsselwörter wahr.
  • Zufällig. Die Wörter dieser Gruppe werden selten für Texte zu einem bestimmten Thema verwendet und haben praktisch keinen Einfluss auf das Suchranking.

Laut SEO-Spezialisten definierte der amerikanische Linguist George Zipf die Gesetze, nach denen Suchmaschinen begannen, die Natürlichkeit und Einzigartigkeit von Texten anhand der Häufigkeit der verwendeten Wörter zu bestimmen.

SEOs haben oft Probleme mit der Textwerbung, wenn die Eindeutigkeits- und Relevanzwerte hoch sind. Das heißt, der Text kann zu 100 % einzigartig sein, auf ein Keyword mit hoher Relevanz optimiert werden und dennoch nicht ganz nach oben gelangen oder, schlimmer noch, aus dem Blickfeld von Positionsanalyseprogrammen bleiben.

Es ist nicht einfach festzustellen, wie sehr sich das Zipf-Gesetz individuell auf die Suchergebnisse auswirkt. Höchstwahrscheinlich berücksichtigen die Suchmaschinen eine Kombination aus vielen Faktoren, unter denen sich laut Zipf eine Prüfung auf Natürlichkeit befindet. Heutzutage spielt der Inhalt eine der wichtigsten Rollen in der Suchförderung, daher wird empfohlen, bei der Erstellung von SEO-Texten die Indikatoren für Einzigartigkeit und Natürlichkeit sorgfältig zu überwachen. Es gibt viele Dienste zum Überprüfen von Texten. Lassen Sie uns auf die beiden beliebtesten und bewährtesten Seiten eingehen - 1y.ru und pr-cy.ru.

Dienst 1y.ru

Die Website ermöglicht es Ihnen, die Natürlichkeit des Inhalts einzelner Webseiten, ganzer Websites oder Texte von 100 bis 5000 Wörtern zu überprüfen. Das Limit für anonyme Benutzer erlaubt die Überprüfung von bis zu 2000 Textnachrichten pro Tag. Der Nachteil der Website besteht darin, dass es unmöglich ist, die Webseite zu überprüfen, ohne die Ergebnisse zu verfälschen, da der Dienst alle gefundenen Textinformationen scannt, einschließlich Rubrik, Widgets, Menüs und anderer Arten von Hilfstext.

Nach Überprüfung des Textes liefert 1y.ru Inhaltsstatistiken mit Empfehlungen zur Reduzierung von Wortwiederholungen und liefert ein Diagramm mit drei Kurven: die Kurve der Werte des überprüften Textes, die Kurve der empfohlenen Werte und die Kurve der Idealwerte .

Dienst pr-cy.ru

Diese Ressource bietet auch die Möglichkeit, die Natürlichkeit von Texten und Webseiten zu bewerten. Der Dienst filtert Stoppwörter heraus, berechnet den Prozentsatz der Textübelkeit und gibt auch Empfehlungen zur Reduzierung oder Erhöhung der Anzahl der Vorkommen gemäß dem Zipf-Gesetz.


Fazit

Der Unterschied in den Ergebnissen bei der Überprüfung eines Textes in verschiedenen Diensten kann erheblich sein. Die ersten drei Absätze des Textes, den Sie gerade lesen, zeigten also 59 % für 1y.ru und 88 % für pr-cy.ru. Bleibt nur ein Fazit: Beim Verfassen von Texten sollte man nicht zu sehr darauf achten, wichtige Einträge in den Textkörper einzutragen. Sie müssen interessant und zugänglich schreiben, und wenn Sie noch Schlüsselwörter in den Text einbetten müssen, sollten Sie den Text mit der Zipf-Methode überprüfen.

Wörter einer natürlichen Sprache: Wenn alle Wörter einer Sprache (oder nur ein ausreichend langer Text) nach absteigender Häufigkeit ihrer Verwendung geordnet sind, dann die Häufigkeit n-te Wort in einer solchen Liste ist ungefähr umgekehrt proportional zu seiner Ordnungszahl n(die sogenannte Rang dieses Wortes siehe Ordnungsskala). Beispielsweise ist das am zweithäufigsten verwendete Wort etwa zweimal seltener als das erste, das dritte dreimal seltener als das erste und so weiter.

Geschichte der Schöpfung[ | ]

Der Autor der Entdeckung des Musters ist ein französischer Stenograph (fr. Jean Baptiste Estoup), der es 1908 in The Range of Shorthand beschrieb. Das Gesetz wurde erstmals 1913 vom deutschen Physiker Felix Auerbach in seiner Arbeit „Das Gesetz der Bevölkerungskonzentration“ zur Beschreibung der Verteilung von Stadtgrößen angewendet und ist nach dem amerikanischen Linguisten George Zipf benannt, der dieses Muster 1949 aktiv populär machte und als erster vorschlug damit die Verteilung der wirtschaftlichen Kräfte und des sozialen Status zu beschreiben.

Eine Erklärung des Zipfschen Gesetzes basierend auf den Korrelationseigenschaften additiver Markov-Ketten (mit Stufenspeicherfunktion) wurde 2005 gegeben.

Das Zipfsche Gesetz wird mathematisch durch die Pareto-Verteilung beschrieben. Es ist eines der Grundgesetze der Infometrie.

Anwendungen des Gesetzes[ | ]

George Zipf zeigte 1949 erstmals die Einkommensverteilung der Menschen nach ihrer Körpergröße: Der Reichste hat doppelt so viel Geld wie der Nächstreichste und so weiter. Diese Aussage bewahrheitete sich für eine Reihe von Ländern (England, Frankreich, Dänemark, Holland, Finnland, Deutschland, USA) im Zeitraum von 1926 bis 1936.

Dieses Gesetz funktioniert auch in Bezug auf die Verteilung des Städtesystems: Die Stadt mit der größten Bevölkerung in einem Land ist doppelt so groß wie die nächstgrößte Stadt und so weiter. Ordnet man in der Liste alle Städte eines bestimmten Landes nach absteigender Einwohnerzahl an, dann kann jeder Stadt ein bestimmter Rang, also die Zahl, die sie in dieser Liste erhält, zugeordnet werden. Gleichzeitig gehorchen Bevölkerungsgröße und Rang einem einfachen Muster, das durch die Formel ausgedrückt wird:

Pn = P1 / n (\displaystyle P_(n)=P_(1)/n),

wo Pn (\displaystyle P_(n))- Stadtbevölkerung n-ter Rang; P1 (\displaystyle P_(1))- Bevölkerung der Hauptstadt des Landes (1. Rang).

Empirische Studien stützen diese Behauptung.

1999 beschrieb der Ökonom Xavier Gabet das Zipfsche Gesetz als Beispiel für ein Potenzgesetz: Wenn Städte zufällig mit der gleichen Standardabweichung wachsen, dann konvergiert die Verteilung am Limit gegen das Zipfsche Gesetz.

Nach den Erkenntnissen von Forschern in Bezug auf die städtische Besiedlung in der Russischen Föderation gemäß dem Zipf-Gesetz:

  • Die meisten Städte in Russland liegen oberhalb der idealen Zipf-Kurve, daher ist der erwartete Trend ein anhaltender Rückgang der Zahl und Bevölkerung mittlerer und kleiner Städte aufgrund der Abwanderung in die Großstädte.
  • entsprechend haben über 7 Millionen Städte (St. Petersburg, Nowosibirsk, Jekaterinburg, Nischni Nowgorod, Kasan, Tscheljabinsk, Omsk), die unterhalb der idealen Zipf-Kurve liegen, eine erhebliche Bevölkerungswachstumsreserve und erwarten ein Bevölkerungswachstum;
  • Es bestehen Abwanderungsrisiken der ersten Stadt im Rang (Moskau), da die zweite Stadt (St. Petersburg) und nachfolgende Großstädte aufgrund eines Rückgangs der Nachfrage nach Arbeitskräften bei gleichzeitigem Anstieg der ZIPF-Kurve weit hinter der idealen Zipf-Kurve zurückbleiben Lebenshaltungskosten, darunter vor allem die Kosten für Kauf und Mietwohnungen.

Kritik [ | ]

US-amerikanischer Bioinformatiker schlugen eine statistische Erklärung des Zipfschen Gesetzes vor und bewiesen, dass eine zufällige Folge von Zeichen auch diesem Gesetz gehorcht. Der Autor kommt zu dem Schluss, dass das Zipfsche Gesetz offenbar ein rein statistisches Phänomen ist, das nichts mit der Semantik des Textes zu tun hat und einen oberflächlichen Bezug zur Linguistik hat.