IV. Danilevsky, Zipf-Pareto-Gesetz, neue Quantentechnologien und die Philosophie des Unbewussten

Während des Wahlvorgangs äußern die Wähler ihre Einstellung zu bestimmten Politiker oder Parteien, die ihre Stimme für einen bestimmten Kandidaten oder eine bestimmte Partei abgeben. Es stellt sich die Frage – gibt es Muster, die die Stimmenverteilung zwischen verschiedenen Kandidaten oder Parteien beschreiben? Liegen keine Regelmäßigkeiten vor, so ist eine Korrelation zwischen den Stimmenzahlen der Kandidaten oder Parteien sowie zwischen diesen Stimmenzahlen und beispielsweise der Wahlbeteiligung oder der Zahl der ungültigen Stimmzettel möglich. Gibt es bestimmte Muster in der Stimmenverteilung, dann sind nicht alle Varianten ihrer Verteilung möglich. Basierend auf dem Material von vielen Wahlen in den meisten verschiedene Länder es wurde ein statistischer zusammenhang zwischen den bei den wahlen erhaltenen stimmenzahlen verschiedener kandidaten und parteien festgestellt. Es wurde festgestellt, dass diese Beziehung durch die folgende einfache Beziehung beschrieben wird:

Wenn wir auf einer Achse die Anzahl der Stimmen N(i), die jeder Kandidat erhalten hat, auf einer logarithmischen Skala auftragen und auf der anderen Achse, ebenfalls auf einer logarithmischen Skala, den Platz i, den derselbe Kandidat während der Wahlen eingenommen hat, dann die Punkte mit hinreichender Näherung erhalten werden, liegen entlang einer Geraden :

ln N(i) = A - B x lni (1)

Die Gültigkeit der obigen Gleichung wurde in einer Reihe von Arbeiten bestätigt Russische Spezialisten in Mathematical Political Science (Sobyanin, Sukhovolsky, 1995), der die Ergebnisse der Wahlen der Volksabgeordneten Russlands im Jahr 1990, der Wahlen des Präsidenten Russlands in den Jahren 1991 und 1996 sowie Daten zu Wahlen in einer Reihe von Ländern analysierte , beginnend mit den Präsidentschaftswahlen in Frankreich im Jahr 1848, wo Louis Napoleon Bonaparte besiegt wurde.

Dies mathematisches Ergebnis nichttrivialer Natur. Spezialisten – Physiker, Chemiker, Metallurgen, Demographen, Ökologen und Vertreter vieler anderer Wissensgebiete, die sich mit großen Mengen statistischer Daten befassen, sind sich bewusst, dass die angegebene numerische Regelmäßigkeit ist allgemeinen Charakter und beschreibt die Situation von "free Wettbewerb„für die Verteilung einer endlichen Anzahl beliebiger bedingter „Güter“. Es stellt sich heraus, dass alle denkbare Vielfalt von Gegenständen, Situationen und kausalen Zusammenhängen nichts an der Natur dieser Abhängigkeit ändert: sobald es freie Konkurrenz gibt, ergibt sich daraus keine Dabei passen sie auf die „logarithmische Gerade“ – nur die Konstante A und die Steigung der Geraden B ändern sich.In diesen Ländern führt die Bevölkerung in zivilisierten Ländern zu eben solchen Abhängigkeiten und einige andere Zentren wichen erheblich vom "direkten freien Wettbewerb" ab - aufgrund administrativer Beschränkungen im Zusammenhang mit dem Passregime. Der Wettbewerb führt zu demselben Verhältnis zwischen der Größe der größten Vermögen und dem den "Platz", den ihre Besitzer in der Liste solcher Staaten einnehmen - natürlich in den Teilen der Welt, in denen solche Listen existieren. Genauso Zoologen bekannt das Gesetz der Verteilung von Raubtieren nach Masse (in Ermangelung von anthropogene Faktoren), usw.

Regelmäßigkeiten dieser Art wurden erstmals von dem italienischen Soziologen und Mathematiker V. Pareto festgestellt, der sich mit der Verteilung der Einwohner des Landes nach ihrem Vermögen beschäftigte; später hat der amerikanische Linguist J.K. Zipf, Untersuchung der Verteilung der Häufigkeit der Verwendung von Wörtern in Texten. Verschiedene Optionen Die oben beschriebenen Verhältnisse werden Zipf-Pareto-Gesetz genannt. Analysemethoden im Zusammenhang mit der Untersuchung von Rangverteilungen werden in der Linguistik, Szientometrie und Ökologie häufig verwendet. Die Einhaltung von Relation (1) für den Wahlvorgang bedeutet, dass „freier Wettbewerb“ aller Kandidaten besteht, die die Möglichkeit haben, sich den Wählern frei zu erklären Politische Sichten und politische Plattform.

Die Erfüllung des Zipf-Pareto-Gesetzes für das Wahlverfahren bedeutet, dass jeder der Kandidaten, jede der Parteien und politischen Gruppierungen entsprechend abstimmt bestimmten Typ, hat eine eigene politische Plattform, die sich nicht mit allen anderen überschneidet. Verfügbare Kandidaten sollten alle möglichen Präferenzen der Wähler abdecken; dann ist der Anteil der Wähler, die ihre Wahl außerhalb der vorgeschlagenen Kandidatenliste suchen, recht gering, und Gleichung (1) beschreibt die Stimmenverteilung mit hoher Genauigkeit. Andernfalls können leere "Nischen" in der Verteilung (1) auftreten, und die gesamte Analyse wird komplizierter.

Die in Gleichung (1) enthaltenen Parameter A und B werden basierend auf Daten über die Anzahl der Wähler berechnet, die unter Verwendung der Verfahren für verschiedene Kandidaten oder für verschiedene politische Gruppen gestimmt haben Regressionsanalyse. Parameter A in Gleichung (1) ist der Logarithmus der Anzahl der Wähler, die für den Spitzenkandidaten gestimmt haben. Der Wert B, der Präferenzkoeffizient, charakterisiert die Steigung der Geraden (1) und dient als numerisches Maß für die Homogenität der Wählerauswahl. Wenn B = 0, bedeutet dies, dass die Wähler einige Parteien oder Kandidaten gegenüber anderen nicht bevorzugen und dass sie alle bei den Wahlen gewonnen haben die gleiche Nummer Stimmen. Im Gegenteil, bei große Werte Steilheit B erhalten Außenseiterparteien sehr wenige Stimmen im Vergleich zu führenden Parteien (in der Praxis ist Parameter B jedoch fast nie größer als eins). Werden Abweichungen von der Geraden vom Typ (1) festgestellt, so deutet dies unter den oben getroffenen Annahmen auf das Fehlen von Bedingungen für freien politischen Wettbewerb hin. Dies kann entweder durch das Vorhandensein von etwas zusätzlich wirkendem verursacht werden externe Faktoren B. Einschüchterung von Wählern mit möglicher politischer und wirtschaftlicher Repression im Falle der Stimmabgabe (oder Nichtwahl) für einen bestimmten Kandidaten oder direkte Fälschung von Wahlergebnissen während der Stimmenauszählung in Wahlkommissionen verschiedene Level. Abbildung 2 zeigt eine typische Grafik der Rangverteilung der Wählerzahlen bei Wahlen in Russland. Wie Sie sehen können, zwischen den Zahlen verschiedene Gruppen der Wähler und der Ränge dieser Gruppen (d.h. Kandidatenplätze) in logarithmischen Koordinaten (entlang beider Achsen) besteht praktisch ein linearer Zusammenhang.

Die Art der Verteilung der abgegebenen Stimmen auf unterschiedliche Kandidaten oder Parteien hilft, Wahlbetrug zu erkennen. Wird im einfachsten Fälschungsfall eine bestimmte Anzahl von Stimmzetteln zugunsten eines Kandidaten oder einer Partei in die Wahlurnen geworfen, so stellt sich heraus, dass die Rangverteilung der abgegebenen Stimmenzahl für einzelne Kandidaten nicht geradlinig abgebildet wird. Zieht man aber die Daten des Kandidaten heraus, zu dessen Gunsten gefälscht wurde, dann entspricht die Rangverteilung für die übrigen Kandidaten (bzw. Parteien) der theoretischen. Im betrachteten Fall kann die Zahl der abgegebenen Stimmzettel aus der Differenz zwischen der Zahl der Stimmen, die ein solcher Kandidat nach offiziellen Angaben erhalten hat, und der Zahl geschätzt werden, die sich aus der Rangverteilungsgleichung ergibt, nachdem die Daten, die sich auf den genannten Kandidaten beziehen, ausgeschlossen wurden. Abbildung 3 zeigt die Verteilung der abgegebenen Stimmen – laut Wahlkommission – für die Kandidaten für den Posten des Verwaltungschefs Region Lipezk bei den Wahlen im Frühjahr 1993. Diese Verteilung ist offensichtlich weit von einer geraden Linie entfernt. In diesem Fall bestätigte der Prozess, der 1995 stattfand, das Vorliegen von Fälschungen zugunsten des Erstplatzierten.

Georg Zipf

Texte sind die Hauptinformationsquelle im Internet. Natürlich ist die Förderung von Websites in den Such-TOPs meistens damit verbunden richtige Rechtschreibungähnliche Inhalte. Aber das Schreiben eines Textes reicht nicht aus – Sie müssen ihn auch nach verschiedenen SEO-Regeln und -Empfehlungen gestalten. Von diesen können die beliebtesten und am weitesten verbreiteten unterschieden werden:

  • Ein Minimum an Übelkeit, Wasser und Spam.
  • Die korrekte Struktur des platzierten Materials (Überschriften, Listen).
  • Schlüssel eingeben.

Das sind alles Grundlagen, also benutzt er sie Großer Teil Optimierer. Aber es gibt immer mehr Websites im Internet, sodass einige ihrer Besitzer nach anderen Optionen suchen, um ihr Produkt erfolgreich zu bewerben. Und hier erinnern sich einige von ihnen an ein gewisses Zipfsches Gesetz. Aber sie fangen nicht nur an, ihre eigenen Texte für einen Dienst zu schärfen, basierend auf den Aussagen eines englischen Wissenschaftlers, der vor wer weiß wie vielen Jahren gelebt hat, sie lassen sich auch angestellte Werbetexter den Kopf zerbrechen!

Aber Dr. Aytupit ist auf der Hut, deshalb eilt er wie Black Cloak Internet-Hacks zu Hilfe, um mit der Effizienz fertig zu werden diese Methode Websites in den Spitzen der bekanntesten Suchmaschinen zu fördern.

Zipfs Gesetztest

Eigentlich nur zwei wichtige Eigenschaften:

  • Die Übelkeit von geprüften Inhalten.
  • Natürlichkeit.

Der erste Nachteil dieses Produkts liegt gerade in den Übelkeitsindikatoren: Die Entwickler haben offensichtlich nicht berücksichtigt, dass es eine klassische und akademische Variante dieser SEO-Eigenschaft gibt. Und die meisten Leute, die in diesem Bereich arbeiten, wissen, dass völlig unterschiedliche Methoden verwendet werden, um die Leistung jeder der Optionen zu reduzieren. verschiedene Wege(Dr. Aitupit wird versuchen, dies in einem seiner nächsten Beiträge zu erzählen). Aber Tsipfo-Service informiert seine Benutzer nicht darüber, was manchmal zu einigen Schwierigkeiten führen kann. Ich werde dich lange nicht quälen und das sage ich in dieser Fall nur klassische Übelkeit ist impliziert.

Kommen wir zu Natural. Was ist es? Ich habe lange nach angemessenen Informationen zu diesem Thema gesucht. Aber ich fand nur ein ständiges Umschreiben einiger abstruser Wörter, deren Bedeutung ohne ein paar Flaschen Bier nicht zu verstehen ist. Nein, natürlich bin ich vielleicht dumm, aber jeder von Ihnen kann das verstehen:

„..empirisches Muster der Worthäufigkeitsverteilung Natürliche Sprache: Wenn alle Wörter der Sprache (oder gerade genug langer Text) Reihenfolge in absteigender Reihenfolge der Häufigkeit ihrer Verwendung, dann ist die Häufigkeit des n-ten Wortes in einer solchen Liste ungefähr umgekehrt proportional zu seiner Seriennummer n (der sogenannte Rang dieses Wortes, siehe Ordnungsskala). Zum Beispiel ist das am zweithäufigsten verwendete Wort etwa zweimal seltener als das erste, das dritte dreimal seltener als das erste und so weiter.

Empirisch, verdammt noch mal, Regelmäßigkeit ... So hätte man es schreiben sollen! Gut, okay – Satan wird ihm nicht vergeben. Das ist nicht das Interessanteste! Es ist interessant, dass der Autor dieses Sprichworts ein amerikanischer Linguist ist, der Mitte des letzten Jahrhunderts lebte, als nur George Lucas und Leonid Iljitsch Breschnew vom Internet wussten. Das heißt, es gibt Leute, die glauben, dass moderne Suchmaschinen einfach verpflichtet sind, Analysen nach Zipfs Gesetz durchzuführen? Pardonte, Monsieur, aber warum zum Teufel? ..

Wahrscheinlich werden einige Leser nach den obigen Worten entscheiden, dass der Autor dieses Werks ein typischer Balabol ist? Ich werde versuchen, würdige Argumente zu liefern, um Sie zu überzeugen!

– Die Forderung, dass Textparameter dem Gesetz von Zipf entsprechen, oder genauer gesagt allen möglichen „Diensten“, die Texte angeblich auf solche Konformität prüfen, ist eine Farce das reinste Wasser. Eine solche Bedingung ist sowohl vom Standpunkt der Qualität des Textes als auch vom Gesichtspunkt seiner Optimierung für bedeutungslos Suchmaschinen.

- Zipf-Check ist vergleichbar mit SEO-Amuletten und Feng Shui - Ich habe ein Klingeln gehört, aber ich weiß nicht, wo es ist. Und da es im SEO allgemein aufgrund der anfänglichen Nähe von Suchmaschinenalgorithmen viel pseudowissenschaftlichen Schwindel gibt, gesellte sich beim Zipf-Check sehr harmonisch weitere relevante Qualitätsindikatoren hinzu – Schlüsseldichte und Eindeutigkeit, deren Ergebnisse wiederum auch sein müssen soweit akzeptiert.

Keine Spekulation meinerseits - ehrlich kommunizierte Worte über dieses Gesetz geschrieben!

Und ich bin bereit, jedes Wort von Zheka und Advego zu abonnieren. Lass uns phantasieren. Stellen Sie sich vor, dass vor Ihnen eine Maschine steht. Sie müssen sich einer beliebigen Zahlenkombination auf seiner Anzeigetafel nähern und sie wählen. Richtige Nummer Niemand weiß es, daher ist die Höhe der Gewinne jedes Mal anders. Einige Leute geben einfach Werte ein und gehen, andere beginnen, eine Art System zu erfinden: Sie tanzen Rumba, spucken dreimal streng in einem Winkel von fünfzehn Grad aus, essen eine Ziege, die vor drei Tagen vertrocknet ist, und so weiter. Und dann einer der letzten Glücklichen – er knackt den Jackpot! Warum er Glück hatte – die Hölle weiß es. Vielleicht hat er die Kombination nur erraten, oder vielleicht war die Ziege magisch. Aber am nächsten Tag kommt diese Person zum Automaten und stellt einen Tisch in der Nähe auf, an dem er alle einlädt, seine Methode auszuprobieren, bevor er eine Nummer wählt ...

Immer noch nicht überzeugt? Dann werde ich schwere Artillerie einsetzen - ich werde ein Experiment durchführen.

Visuelle Überprüfung des Textes nach dem Zipfschen Gesetz

Für die anstehende Arbeit habe ich mich entschieden, ein paar andere zu nehmen Schlüsselwörter und überprüfen Sie die Texte auf Einhaltung des Zipf-Gesetzes, die sich an verschiedenen Stellen der TOP unserer inländischen Suchmaschine Yandex befinden. Lass uns anfangen.

Der erste Schlüssel ist "Aus einer Bar ein Haus bauen".

Ich wähle eine Seite, die sich ganz oben im Suchranking befindet, ich mache eine Analyse:

Was wir haben: Natürlichkeit - 80, Übelkeit - 5,9.

Ich gehe in der Suchmaschine auf die Seite unten, wähle eine Seite aus dem dritten Dutzend und führe eine Analyse durch:

Ergebnis: Natürlichkeit - 82, Übelkeit - 6,16.

Ich gehe unten ein Dutzend Positionen nach unten und wiederhole den Vorgang:

Ergebnis: E - 86, T - 8,6.

Aber im TOP lohnt sich etwas anderes! Wenig? Wir wiederholen die Prüfung. Wir nehmen den nächsten Schlüssel. Angenommen - die Behandlung von Hämorrhoiden.

Ergebnis: E - 70, T - 11.23.

Unter zwei Dutzend Positionen:

Ergebnis: E - 91, T - 4,90.

Eine weitere Seite unten:

Ergebnis: E - 91, T - 4.12.

Fazit

Wie aus der Analyse hervorgeht, garantieren die besten Indikatoren für die Natürlichkeit von Textmaterialien nach dem Gesetz von Zipf keineswegs den Erfolg des Wettbewerbs mit Texten, die sich auf anderen Internetressourcen befinden. Die Entscheidung liegt jedoch bei Ihnen...


Hallo alle! BEI In letzter Zeit Immer öfter höre ich von Kollegen von der Forderung im TOR, die Qualität des Textes nach dem Zipfschen Gesetz zu bewerten. Und nicht jeder versteht, wie man den Text für dieses Gesetz bearbeitet. Im heutigen Artikel werde ich versuchen, Ihnen zu sagen, wie das am besten funktioniert auf einfache Weise den Parameter verbessern und auch klären, warum gute Autoren eigentlich wird es nicht benötigt.

Über mehrere Dienste können Sie die Qualität des Textes nach dem Zipf-Gesetz ermitteln. Aber ich halte PR-CY für am besten geeignet, es kombiniert richtige Formel mit einer einfachen und übersichtlichen Oberfläche. Das habe ich bei der Vorbereitung dieses Materials verwendet.

Was ist das Zipfsche Gesetz?

Zunächst lohnt es sich zu verstehen, was es ist. Laut Wikipedia hat Jean-Baptiste Estoux dieses Muster 1908 formuliert, dieses Gesetz bezog sich ursprünglich auf Kurzschrift. Die erste allgemein bekannte Anwendung der Regularität bezieht sich auf die Demographie, genauer gesagt auf die Bevölkerungsverteilung in Städten, wurde von Felix Auerbach verwendet.

Seinen heutigen Namen erhielt das Muster 1949 durch den Linguisten George Zipf. Er zeigte mit seiner Hilfe die Abstufung der Vermögensverteilung in der Bevölkerung. Und erst dann wurde das Gesetz angewendet, um die Lesbarkeit von Texten zu bestimmen.

Wie wird es berechnet

Um dieses Gesetz richtig anzuwenden, müssen Sie verstehen, wie es funktioniert. Lassen Sie uns die Formel für die Berechnung analysieren.

  • F ist die Häufigkeit der Verwendung des Wortes;
  • R ist die Seriennummer;
  • C- Konstante(die Zahl, die die größte Anzahl von Wiederholungen des Wortes angibt).

In der Praxis erweist sich eine andere Formel als bequemer, sie sieht übersichtlicher aus.

Dieser Ansatz ist bequemer, da wir Daten über die Anzahl der Wiederholungen des häufigsten Wortes haben. Von dieser Menge werden sie abgestoßen.

Zur Vereinfachung soll in unserem Text das zweithäufigste Wort doppelt so selten sein wie das erste. Dreimal Dritter werden und so weiter.

Beispiel für die Textanpassung

Die Theorie wurde ein wenig abgehandelt. Es bleibt, sich mit der Praxis zu befassen. Als experimentellen Text habe ich einen Artikel von T-Zh genommen. Warum von dort? Alles ist einfach. Im Moment ist dies eines der besten Beispiele für den von vielen geliebten Info-Stil. Nun, es war interessant, was der unter der Leitung von Maxim Ilyakhov geschriebene Text zeigen würde. Ich werde gleich sagen, dass die Texte für diesen Indikator auf dem Niveau sind, obwohl ich nach dem Schaufeln von mehr als 40 Websites überhaupt keinen einzigen Artikel mit schlechter Natürlichkeit gefunden habe. Außerdem greife ich gleich vor und sage, dass der experimentelle Text nach dem Fitting deutlich schlechter geworden ist, trotz verbessertem Zipf-Score sollte man sich nicht allzu sehr um eine übermäßige Steigerung der Natürlichkeit kümmern.

Das hat uns der Analysator nach der Überprüfung angezeigt.

Schauen wir uns an, was da drin ist. Wie Sie sehen können, gibt es eine Spalte mit Wörtern sowie unverständlichen Zahlen. Die Spalte „Vorkommen“ (1) gibt an, wie oft die Wortformen im Text vorkommen. In der Zipf-Spalte (2) steht die empfohlene Anzahl an Einträgen. Die Markierungen 3 und 4 markieren ideale Indikatoren für die zweite und dritte Position. Sie sollten auch auf die Empfehlungen achten, sie geben an, wie viele Wörter Sie entfernen müssen, um die perfekte Kombination zu erreichen.

Lassen Sie uns zum besseren Verständnis analysieren, was der Analysator gezählt hat. Wir nehmen die Nummer 39 (C) als Grundlage, wir brauchen auch eine Seriennummer, achten Sie auf die 2 (F) Position. Wir nehmen die Formel.

Ersatz.

F=39/2=19,5

Wir runden auf und bekommen 20, das wird sein notwendige Menge Vorkommnisse. Dies wird vom Analysator bestätigt. In unserem Land wird das zweitbeliebteste Wort 28 Mal verwendet, 8 Wiederholungen müssen entfernt oder ersetzt werden.

Nachdem wir uns mit dem Prinzip des Gesetzes befasst haben, beginnen wir mit der Bearbeitung. Dazu löschen oder ersetzen wir durch Synonyme Wörter, die häufiger vorkommen als von Zipf gefordert. Als Ergebnis erhalten wir dieses Bild.

Wie Sie sehen können, ist es mir gelungen, die Rate von 83 % auf 88 % zu erhöhen. Allerdings litt die Qualität des Textes erheblich. Sie sollten nicht danach streben, diese Zahl auf 100 % zu erhöhen. In der Tat, wenn Sie bereits 75% haben, ist dies ausgezeichnet und Sie sollten nicht weiter pervertieren.

Nützlicher Rat

Achten Sie nicht nur auf die ersten Zeilen. Beginnen Sie mit der Anpassung letzte Positionen aufgeführt, bieten sie oft größerer Einfluss auf der Gesamtpunktzahl als die ersten zehn Wörter.

Zipf und SEO

Kommen wir nun dazu, warum ein Texter dieses Muster kennen muss. Bei der Bestellung von Texten bemühen sich SEOs, sie für Suchmaschinen so bequem wie möglich zu gestalten. Es wird angenommen (obwohl nicht klar von wem), dass das Gesetz von Zipf aktiv von Suchalgorithmen verwendet wird. Es ist schwierig, diese Aussage zu beweisen oder zu widerlegen. Ich konnte keine vernünftigen Forschungen und Experimente zu diesem Thema finden.

Beschlossen, es selbst zu überprüfen. Dazu habe ich die Suchergebnisse für eine solche Konkurrenzabfrage „Plastikfenster“ genommen, Yandex hat die Moskauer Suchergebnisse genommen, ich musste in Google zaubern, und es scheint mich auch als Einwohner der Hauptstadt identifiziert zu haben (lt wenigstens hat mir eine Anzeige mit Moskauer Geolokalisierung gezeigt). Ich belegte die erste Seite der Ausgabe, plus Platz 49. So ist das Schild geworden.

Wenn Sie genauer hinsehen, können Sie sehen, dass die Ausgabe in Yandex gleichmäßiger ist, wenn Sie sich das Muster ansehen, das wir untersuchen. Aber während mehr hohe Rate garantiert keinen Sieg im Kampf um den ersten Platz in der Spitze.

Darauf basierend kann gesagt werden, dass wenn Suchmaschinen verwenden dieses Gesetz, ist nur einer der Faktoren. Und nicht die Hauptsache.

Schlussfolgerungen

OK, jetzt ist alles vorbei. Jetzt wissen Sie, wie die Qualität des Textes nach dem Zipf-Gesetz ist, und Sie können diesen Indikator auch anpassen. Tatsächlich ist hier nichts kompliziert, alles ist ganz einfach. Es genügt, das Funktionsprinzip dieser Regelmäßigkeit einmal zu verstehen.

Wörter einer natürlichen Sprache: wenn alle Wörter einer Sprache (oder auch nur ein hinreichend langer Text) nach ihrer Verwendungshäufigkeit absteigend geordnet sind, dann die Häufigkeit n-te Wort in einer solchen Liste ist ungefähr umgekehrt proportional zu seiner Ordnungszahl n(die sogenannte Rang dieses Wortes siehe Ordnungsskala). Beispielsweise ist das am zweithäufigsten verwendete Wort etwa zweimal seltener als das erste, das dritte dreimal seltener als das erste und so weiter.

Geschichte der Schöpfung[ | ]

Der Autor der Entdeckung des Musters ist ein französischer Stenograph (fr. Jean Baptiste Estoup), der es 1908 in The Range of Shorthand beschrieb. Das Gesetz wurde erstmals 1913 vom deutschen Physiker Felix Auerbach in seiner Arbeit „The Law of Population Concentration“ zur Beschreibung der Verteilung von Stadtgrößen angewendet und trägt den Namen des amerikanischen Linguisten George Zipf, der 1949 aktiv popularisiert wurde diese Regelmäßigkeit, schlägt zunächst vor, es zu verwenden, um die Verteilung der wirtschaftlichen Kräfte zu beschreiben und sozialer Status.

Eine Erklärung des Zipfschen Gesetzes basierend auf den Korrelationseigenschaften additiver Markov-Ketten (mit Stufenspeicherfunktion) wurde 2005 gegeben.

Das Zipfsche Gesetz wird mathematisch durch die Pareto-Verteilung beschrieben. Es ist eines der Grundgesetze der Infometrie.

Anwendungen des Gesetzes[ | ]

George Zipf zeigte 1949 erstmals die Verteilung der Einkommen der Menschen nach ihrer Größe: Der reichste Mensch hat das Doppelte mehr Geld als der nächste reiche Mann und so weiter. Diese Aussage bewahrheitete sich für eine Reihe von Ländern (England, Frankreich, Dänemark, Holland, Finnland, Deutschland, USA) im Zeitraum von 1926 bis 1936.

Dieses Gesetz funktioniert auch in Bezug auf die Verteilung des Städtesystems: die Stadt mit den meisten große Bevölkerung in jedem Land, das doppelt so groß ist wie die nächstgrößte Stadt, und so weiter. Ordnet man in der Liste alle Städte eines bestimmten Landes nach absteigender Einwohnerzahl an, dann kann jeder Stadt ein bestimmter Rang, also die Zahl, die sie in dieser Liste erhält, zugeordnet werden. Gleichzeitig gehorchen Bevölkerungsgröße und Rang einem einfachen Muster, das durch die Formel ausgedrückt wird:

Pn = P1 / n (\displaystyle P_(n)=P_(1)/n),

wo Pn (\displaystyle P_(n))- Stadtbevölkerung n-ter Rang; P1 (\displaystyle P_(1))- Bevölkerung der Hauptstadt des Landes (1. Rang).

Empirische Forschung bestätigt diese Aussage.

1999 beschrieb der Ökonom Xavier Gabet das Zipfsche Gesetz als Beispiel für ein Potenzgesetz: Wenn Städte zufällig mit der gleichen Standardabweichung wachsen, dann konvergiert die Verteilung am Limit gegen das Zipfsche Gesetz.

Nach den Erkenntnissen von Forschern in Bezug auf die städtische Besiedlung in der Russischen Föderation gemäß dem Zipf-Gesetz:

  • Die meisten russischen Städte liegen oberhalb der idealen Zipf-Kurve, daher ist der erwartete Trend ein anhaltender Rückgang der Zahl und Bevölkerung von Mittel- und Kleinstädten aufgrund von Migration große Städte;
  • jeweils über 7 Millionen Städte (St. Petersburg, Nowosibirsk, Jekaterinburg, Nizhny Novgorod, Kasan, Tscheljabinsk, Omsk), die unterhalb der idealen Zipf-Kurve liegen, eine erhebliche Bevölkerungswachstumsreserve haben und ein Bevölkerungswachstum erwarten;
  • Es bestehen Abwanderungsrisiken der ersten Stadt im Rang (Moskau), da die zweite Stadt (St. Petersburg) und nachfolgende Großstädte aufgrund eines Rückgangs der Nachfrage nach Arbeitskräften bei gleichzeitigem Anstieg der ZIPF-Kurve weit hinter der idealen Zipf-Kurve zurückbleiben Lebenshaltungskosten, darunter vor allem die Kosten für Kauf und Mietwohnungen.

Kritik [ | ]

US-amerikanischer Bioinformatiker schlugen eine statistische Erklärung des Zipfschen Gesetzes vor und bewiesen, dass eine zufällige Folge von Zeichen auch diesem Gesetz gehorcht. Der Autor kommt zu dem Schluss, dass das Zipfsche Gesetz offenbar ein rein statistisches Phänomen ist, das nichts mit der Semantik des Textes zu tun hat und einen oberflächlichen Bezug zur Linguistik hat.