И.В. Данилевский, Закон Ципфа-Парето, новые квантовые технологии и философия бессознательного

Почему «Закон Ципфа» в России не работает? March 11th, 2017

«Закон Ципфа» был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году. Он носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса.

В России этот закон не работает.

Вернёмся в 1949 год. Лингвист Джордж Ципф (Зипф) заметил странную тенденцию в использовании людьми определённых слов в языке. Он обнаружил, что небольшое количество слов используется постоянно, а подавляющее большинство - очень редко. Если оценить слова по популярности, открывается поразительная вещь: слово первого разряда всегда используется вдвое чаще, чем слово второго разряда и втрое чаще, чем слово третьего разряда.

Ципф обнаружил, что это же правило действует в распределении доходов людей в стране: самый богатый человек имеет вдвое больше денег, чем следующий богач и так далее.

Позже стало понятно, что этот закон также работает в отношении размера городов. Город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город и так далее. Невероятно, но закон Ципфа действовал абсолютно во всех странах мира на протяжении прошлого столетия.

Просто взгляните на список самых больших городов Соединённых Штатов. Итак, в соответствии с переписью 2010-го года население самого большого города США, Нью-Йорка, составляет 8 175 133 человека. Номер два -Лос-Анджелес с населением в 3 792 621 человек. Следующие три города, Чикаго, Хьюстон и Филадельфия, могут похвастаться населением в 2 695 598, 2 100 263 и 1 526 006 человек соответственно. Очевидно, эти числа неточны, но, тем не менее, они удивительно соответствуют закону Ципфа.

Пол Кругман, писавший о применении закона Ципфа к городам, превосходно подметил: часто экономическую теорию обвиняют в создании сильно упрощённых моделей сложной, беспорядочной действительности. Закон Ципфа показывает, что всё обстоит с точностью до наоборот: мы применяем слишком сложные, беспорядочные модели, а действительность поразительно аккуратна и проста.

Закон силы

В 1999 году экономист Ксавье Габэ написал научный труд, в которой описывал закон Ципфа как “закон силы”.

Габэ отметил, что этот закон сохраняется, даже если города растут в хаотическом порядке. Но эта ровная структура ломается, как только вы переходите к городам, не входящим в разряд мегаполисов. Небольшие города с численностью населения около ста тысяч человек, по всей видимости, подчиняются другому закону и показывают более объяснимое распределение размеров.

Можно задаться вопросом, что же имеется в виду под определением «город»? Ведь, например, Бостон и Кембридж считаются двумя разными городами, так же, как Сан-Франциско и Окленд, разделённые водой. У двух шведских географов тоже возник такой вопрос, и они стали рассматривать так называемые «естественные» города, объединённые населением и дорожными связками, а не политическими мотивами. И они обнаружили, что даже такие «естественные» города подчиняются закону Ципфа.

Почему закон Ципфа работает в городах?

Так что же заставляет города быть столь предсказуемыми в количестве населения? Никто точно не может это объяснить. Нам известно, что города расширяются за счёт иммиграции, иммигранты стекаются в большие мегаполисы, потому что там больше возможностей. Но иммиграции недостаточно, чтобы объяснить этот закон.

Есть также экономические мотивы, поскольку в больших городах делают большие деньги, а закон Ципфа работает и для распределения доходов. Однако, чёткого ответа на вопрос это по-прежнему не даёт.

В прошлом году группа исследователей обнаружила, что у закона Ципфа всё же есть исключения: закон работает, только если рассматриваемые города связаны экономически. Это объясняет, почему закон действует, например, для отдельной европейской страны, но не для всего ЕС.

Как же растут города

Существует ещё одно странное правило, применимое к городам, оно имеет отношение к тому, каким способом города потребляют ресурсы, когда растут. Вырастая, города становятся более стабильными. Например, если город удваивается в размере, требуемое ему число бензоколонок не увеличивается вдвое.

Город будет вполне комфортно жить, если количество бензоколонок увеличится примерно на 77%. В то время, как закон Ципфа следует определённым социальным законам, этот закон более близок к природным, например, к тому, как животные потребляют энергию, становясь взрослее.

Математик Стивен Строгац описывает это так:

Сколько калорий в день нужно мыши по сравнению со слоном? Оба они млекопитающие, таким образом, можно предположить, что на клеточном уровне они не должны сильно отличаться. И действительно, если вырастить в лаборатории клетки десяти различных млекопитающих, у всех этих клеток будет одинаковая скорость метаболизма, они не запоминают на генетическом уровне, какого размера в действительности их хозяин.

Но если взять слона или мышь как полноценное животное, функционирующее скопление миллиардов клеток, то на одно и то же действие клетки слона будут расходовать гораздо меньше энергии, чем клетки мыши. Закон метаболизма, названный законом Кляйбера, утверждает, что метаболические потребности млекопитающего растут пропорционально его массе тела в 0,74 раза.

Эти 0,74 очень близки к 0,77, наблюдаемым у закона, управляющего количеством бензоколонок в городе. Совпадение? Может быть, но скорее всего нет.

В России население самого крупного города, Москвы, официально составляет около 11,5 млн. человек. Численность второго города, Санкт-Петербурга, — 5,2 млн. Как мы видим, соотношение численности населения двух городов примерно соответствует «закону Ципфа». По нему третий по численности город в России должен иметь около 4 млн. человек, а четвёртый — около 3 млн. Однако таких городов в России нет. В реальности третий город в России, Новосибирск, имеет численность 1,6 млн. человек (в 2,5 раза меньше нормы), а четвёртый, Екатеринбург, 1,4 млн., что тоже в 2 раза ниже нормы «по Ципфу».

Почему «закон Ципфа» не работает в России? Американский социолог Ричард Флорида в книге «Креативный класс» даёт ответ на этот вопрос. Он пишет, что «закон Ципфа» не работает в империях (или странах, имеющих рецидив империй) и плановых экономиках. Он называет три таких страны-исключения: Англию (где после Лондона нет даже второго города, меньшего по населению в 2 раза), Россию и Китай.

Исследование по «закону Ципфа» проводилось и Финансовым университетом при правительстве России. Вывод в нём был таков:

«Реальное распределение городов России по численности населения не в полной мере соответствует кривой Ципфа ни для развитых, ни для развивающихся стран. Часть реальной кривой Ципфа для России расположена выше идеальной, что соответствует распределению городов в развитых странах, а часть ниже - соответствует распределению городов в развивающихся странах. Таким образом, по правилу Ципфа получается, что в России доминирующую роль играют крупнейшие города и города-миллионники. Отклонение реальной кривой от идеальной связано с обширной территорией страны и различными социально-экономическими и природно-климатическими факторами».

Два мегаполиса и малые и средние города (до 250 тыс. человек) вполне укладываются в тип западной урбанизации. А вот крупные города и города-миллионники — нет.

Вывод ещё одного исследования:

«Выявленные тенденции не соответствуют высказанным в литературе предположениям, что причиной отклонения России от закономерности Ципфа является централизованное планирование пространственного развития, которое включало поддержку средних и малых городов в советский период. Переход к рынку должен был устранить эти искажения и приблизить зависимость ранг - размер к канонической форме, однако, несмотря на подключение рыночных механизмов к формированию пространства экономической активности, в стране наблюдалось дальнейшее отклонение от неё».

(Кружками обозначена численность населения областей России)

Т.е. отклонение от «закона Ципфа» в России не результат плановой экономики (как в Китае), а следствие имперскости страны (когда один или два города играют роль метрополии).

Исходя из этих тенденций, вероятность развития/регресса городов в России такова:

— Большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города.

— 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения.

— Существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья».

(В СССР «закон Ципфа» тоже не работал — видно отклонение городов от кривой Ципфа, где они должны были бы находиться)

Ричард Флорида в книге «Креативный класс» замечает ещё одно отличие американских и российских городов. В США концентрация креативного класса — в средних городах, разбросанных по всей территории страны. Так, наивысшая доля креативного класса в таких города, как Сан-Хосе, Боулдер (штат Колорадо), Хантсвилл (штат Алабама), Корваллис (штат Орегон) и т.д. — в них эта доля составляет 40-48%. А вот самый крупный город США, Нью-Йорк в числе середняков по доле креативного класса — 35% от общего числа работников и 34-е место в рейтинге, второй город страны, Лос-Анджелес — вообще 60-е место. Похожая тенденция наблюдается и в других странах, где работает «закон Ципфа» (Германия, Франция, Италия, Швеция и т.д.).

В России же почти весь креативный класс страны сосредоточен в Москве, а остальные города так и остаются зоной индустриального времени образца середины ХХ века.

Всё это ужасно захватывающе, но, пожалуй, менее таинственно, чем закон Ципфа. Не так сложно понять, почему город, являющийся, по сути, экосистемой, хоть и построенной людьми, должен подчиняться естественным законам природы. Но закон Ципфа не имеет аналога в природе. Это социальное явление и оно имеет место только на протяжении последних ста лет.

Всё, что мы знаем, это то, что закон Ципфа действует и для других социальных систем, включая экономическую и лингвистическую. Таким образом, возможно, есть какие-то общие социальные правила, создающие этот странный закон, и когда-нибудь мы сможем их понять. Тот, кто разгадает этот ребус, возможно, обнаружит ключ к предсказанию намного более важных вещей, чем рост городов. Закон Ципфа может быть лишь небольшим аспектом глобального правила социальной динамики, которое определяет то, как мы общаемся, торгуем, образуем сообщества и многое другое.

П.С. лично мне кажется, что закон с такими примерными допущениями к цифрам и кучей исключений вообще то и законом назвать сложно. Просто случайное совпадение.

А вы что думаете?

источники

Мир SEO непрерывно развивается, и оптимизация не стоит на месте. Появляются новые методы написания текстов, их подготовка для лучшего индексирования. Одним из параметров, на который оптимизаторы обратили пристальное внимание, является естественность текста по закону Ципфа. В чем же заключается закон Ципфа и его роль в SEO-продвижении?

Согласно формулировке, закон Ципфа представляет собой установленную опытным путем закономерность расположения частоты слов в тексте. Согласно закону, частота слова в тексте почти обратно пропорциональна его месту в списке. То есть, если отталкиваться от закона, второе по частоте упоминания в тексте слово должно использоваться в два раза реже, чем первое, а третье - в три раза реже, и так далее.

Для простоты понимания данной закономерности стоит обратить внимание на расположение букв на компьютерной клавиатуре. Оно не случайно: наиболее часто употребляемые буквы любого языка располагаются удобнее, чем употребляемые реже. Ситуация со словами идентичная: существуют часто употребляемые слова и редко употребляемые, более значимые слова, определяющие тематику текста.

Разделение по значимости слов используется и при ранжировании сайтов в алгоритмах поисковых систем. С этим учетом различие слов по смысловой нагрузке и частоте употребления помогает разделить слова при написании SEO-текстов на 3 группы:

Вспомогательные. К этой группе относятся слова, не несущие самостоятельной смысловой нагрузки, например союзы, предлоги, местоимения, частицы. Все вспомогательные слова воспринимаются поисковыми системами как информационный шум и игнорируются при ранжировании.
Важные. Такие слова реже встречаются в текстах и несут существенную смысловую нагрузку. Поисковые системы воспринимают слова этой группы как ключевые.
Случайные. Слова этой группы нечасто используются для текстов конкретной тематики и практически не влияют на поисковое ранжирование.

По мнению SEO-специалистов, американский лингвист Джордж Ципф определил законы, которые начали использоваться поисковиками для определения естественности и уникальности текстов по частоте используемых слов.

Оптимизаторы часто сталкиваются с проблемами продвижения текста при высоких показателях уникальности и релевантности. То есть текст может быть уникальным на 100%, оптимизированным под ключевой запрос с высокой релевантностью, и при этом не выйти в топ или, что хуже, остаться вне поля зрения программ для анализа позиций.

Непросто установить, насколько закон Ципфа в отдельности влияет на результаты поисковой выдачи. Вероятнее всего, поисковики учитывают совокупность многих факторов, среди которых есть и проверка на естественность по Ципфу. На сегодняшний день, в поисковом продвижении контент играет одну из важнейших ролей, поэтому при создании SEO-текстов рекомендуется тщательно следить за показателями уникальности и естественности. Существует множество сервисов для проверки текстов. Остановимся на двух наиболее популярных и зарекомендовавших себя сайтах - 1y.ru и pr-cy.ru.

Сервис 1y.ru

Сайт позволяет проверить на естественность контента отдельные веб-страницы, сайты целиком или тексты объемом от 100 до 5000 слов. Ограничение для анонимных пользователей позволяет проверять до 2000 текстов в день. Недостаток сайта заключается в том, что невозможно проверить веб-страницу без искажения результатов, так как сервис сканирует всю найденную текстовую информацию, включая рубрикатор, виджеты, меню и другие виды вспомогательного текста.

После проверки текста 1y.ru выдает статистику по содержанию с рекомендациями по уменьшению повторяющихся слов и предоставляет график с тремя кривыми: кривая значений проверяемого текста, кривая рекомендуемых значений и кривая идеальных значений.

Сервис pr-cy.ru

Этот ресурс также предоставляет возможность оценить естественность текстов и веб-страниц. Сервис отфильтровывает стоп-слова, рассчитывает процент тошноты текста, а также предоставляет рекомендации по уменьшению или увеличению количества вхождений согласно закону Ципфа.

Заключение

Разница результатов при проверке одного текста в различных сервисах может быть значительной. Так, первые три абзаца текста, который вы читаете, показали 59% по 1y.ru и 88% по pr-cy.ru. Вывод напрашивается только один: при написании текстов не стоит уделять излишнее внимание вписыванию в тело статьи ключевых вхождений. Писать нужно интересно и доступно, а если все же будет необходимо внедрить в текст ключевые слова, то стоит проверить текст по методу Ципфа.

Первый раз с описанием законом Ципфа я встретился, читая . Суть закона: если слова любого текста ранжировать по частоте использования, то произведение ранга на частоту есть величина постоянная:

F*R =C , где:

F – частота появления слова в тексте;

R – ранг слова (наиболее часто употребляемое слово получает ранг 1, следующее – 2 и т.д.);

С – константа.

Для тех, кто еще хоть немного помнит алгебру:), в приведенной выше формуле легко узнает уравнение гиперболы. Ципф экспериментально определил, что С ≈ 0,1. Так, что графическое изображение закона Ципфа приблизительно следующее:

Рис. 1. Гипербола закона Ципфа.

Скачать заметку в формате , примеры в формате

У гипербол есть замечательно свойство. Если для обеих осей взять логарифмический масштаб, то гипербола будет иметь вид прямой:

Рис. 2. Та же гипербола, но на графике с логарифмическими шкалами

Может возникнуть вопрос: при чем здесь поисковая оптимизация? Так вот, оказывается, что специально сгенерированные тексты, содержащие повышенное число ключевых слов, не вписываются в закон. Поисковые машины (Google, Yandex) проверяют тексты на «естественность», то есть соблюдение закона Ципфа и, либо понижают рейтинг сайтов с «подозрительными» текстами, либо вообще банят такие сайты.

Второй раз я встретился с законом Ципфа у Бенуа Мандельброта в его книге . И этот небольшой раздел мне так понравился, что позвольте привести его полностью.

Неожиданный степенной закон

В 1950 году я был молодым студентом-математиком Парижского университета, подыскивавшим тему для своей диссертации. Мои дядя Золем являл собою местный хрестоматийный образец профессора математики: глубокий теоретик, очень консервативный и, несмотря на то, что родится в Польше, столп французского научного сообщества. Уже в 31-летнем возрасте его избрали профессором на полной ставке престижного Французского колледжа.

То быта эра Николя Бурбаки; за этим собирательным псевдонимом скрывался математический «клуб», который, подобно Дада в искусстве или экзистенциализму в литературе, распространился из Франции и стал на некоторое время чрезвычайно влиятельным на мировой сцене. Абстракция и чистая математика, математика ради математики, были возведены в ранг культа; члены «клуба» презирали прагматизм, прикладную математику и даже математику как инструмент науки. Такой подход был для французских математиков догмой, а для меня, пожалуй, причиной уехать из Франции и поступить на работу в IBM. Я был, к ужасу моего дяди, молодым бунтарем. Работая над своей докторской диссертацией, я часто в конце дня заходил к нему в кабинет поболтать, и нередко эти разговоры перерастали в дискуссию. Однажды, пытаясь как-то скрасить предстоящую долгую и скучную поездку на метро домой, я попросил у него в дорогу что-нибудь почитать. Он сунул руку в мусорную корзину и извлек оттуда несколько скомканных листков бумаги.

– Вот, возьми, – буркнул дядя. – Глупейшая статья, из тех, какие ты любишь.

То был обзор книги социолога Джорджа Кингсли Ципфа. Ципф, достаточно богатый человек, чтобы не думать о куске хлеба насущного, читал в Гарвардском университете лекции по им же придуманной дисциплине, которую он назвал статистической человеческой экологией. В его книге Human Behavior and the Principle of Least Effort (Поведение человека и принцип наименьших усилий) степенные законы рассматривались как вездесущие структуры общественных наук. В фишке степенные законы вполне обычны и выступают формой того, что я ныне называю фрактальным самоповторением в масштабе. У сейсмологов есть математическая формула степенной зависимости количества землетрясений от их силы по знаменитой шкале Рихтера. Или, другими словами: слабые землетрясения обычны, тогда как сильные редки, а частота и сила землетрясений связаны точной формулой. В то время было немногих таких примеров, да и известны они были всего нескольким людям. Ципф, энциклопедист, был одержим навязчивой идеей, будто степенные законы действуют не только в физических науках; им подчиняются все проявления поведения, организации и анатомии человека – даже размеры половых органов.

К счастью, обзор книги, который мне дал дядя, ограничивался только одним необычно изящным примером: частотой слов. В тексте или речи некоторые слова, такие как английские the (определенный артикль) или this («это»), встречаются часто; другие, milreis или momus, появляются редко или вообще никогда (для самых любознательных: первое означает древнюю португальскую монету, второе – синоним слова «критик»). Ципф предложил следующее упражнение: взять любой текст и посчитать, сколько раз в нем появляется каждое слово. Затем присвоить каждому слову ранг: 1 - для самых часто употребляемых слов, 2 - для занимающих второе место по частоте появления и т.д. Наконец, построить график, на котором для каждого ранга указать количество появлении этого слова. Мы получим удивительный рисунок. Кривая не убывает равномерно от самого обычного слова в данном тексте к самому редкому. Сначала она обрушивается с головокружительной быстротой, после чего начинает убывать медленнее, повторяя траекторию лыжника, прыгнувшего с трамплина, а затем приземлившегося и спускающегося по относительно пологому склону заснеженной горы. Образец классической неравномерной шкалы. Ципф, подогнав под свои диаграммы кривую, придумал для нее формулу.

Я был ошеломлен. К концу моей долгой поездки на метро я уже имел тему для половины моей докторской диссертации. Я точно знал, как объяснить математические основания частотного распределения слов, чего Ципф, не будучи математиком, сделать не смог бы. В последующие месяцы меня ждали удивительные открытия. Используя упомянутое уравнение, можно создать мощный инструмент социальных исследований. Улучшенный вариант формулы Ципфа позволял количественно оценить и ранжировать богатство словарного запаса любого человека: высокое значение – богатый лексикон; низкое значение – бедный. Имея такую шкалу, можно измерять различия по словарному запасу между текстами или говорящими. Появляется возможность количественно оценить эрудицию. Правда, мои друзья и консультанты были в ужасе от моей решимости заняться этой странной темой. Ципф, говорили они мне, человек с причудами. Мне показали его книгу, и я согласился, что она отвратительна. Подсчет слов – это не настоящая математика, убеждали меня. Занявшись этой темой, я никогда не найду хорошую работу; и профессором стать мне тоже будет нелегко.

Но я оставался глух к мудрым советам. Мало того, я написал диссертацию вообще без консультантов и даже уговорит одного из университетских бюрократов заверить ее печатью. Я был исполнен решимости пройти избранный путь до конца и применить идеи Ципфа в экономике, ведь не только речь можно свести к степенному закону. Богаты мы или бедны, процветаем или голодаем - все это тоже казалось мне объектом степенного закона.

Мандельброт немного модифицировал формулу Ципфа:

F = C * R -1/ a , где

a – коэффициент, характеризующий богатство словарного запаса; чем больше значение a, тем богаче словарный запас текста, поскольку кривая зависимости частоты появления каждого слова от его ранга убывает медленнее, и, например, редкие слова появляются чаще, чем при меньших значениях a. Именно это свойство Мандельброт предполагал использовать для оценки эрудиции .

С законом Ципфа не всё так гладко, и в конкретных применениях опираться на экспериментально определенный коэффициент a не всегда получается. В то же время закон Ципфа является ни чем иным, как законом Парето «наоборот», поскольку и тот и другой – частные случаи степенных рядов, или… проявление фрактальной природы экономических и социальных систем .

Для себя суть фрактальной природы экономических систем я сформулировал следующим образом. С одной стороны, есть игровая случайность: рулетка, бросание костей. С другой, технологическая/физическая случайность: разброс диаметра вала, изготавливаемого на токарном станке, разброс роста взрослого человека. Все перечисленные явления описываются . Так вот, есть целый ряд явлений не подчиняющихся этому распределению: богатство стран и отдельных людей, колебания цен на акции, курсы валют, частота использования слов, сила землетрясений… Для таких явлений характерным является то, что среднее значение очень сильно зависит от выборки. Например, если взять сто случайных людей разного роста, то добавление к ним самого высокого человека на Земле не сильно изменит средний рост этой группы. Если же посчитать средний доход ста случайных людей, то добавление самого богатого человека планеты – Карлоса Слим Элу (а не Билла Гейтса, как многие могли бы подумать:)) значительно увеличит среднее богатство каждого, примерно, до 500 млн. долларов!

Другим проявлением фрактальности является значительное расслоение выборки. Рассмотрим, например,

Согласитесь, представленная закономерность как две капли воды похожа на кривую Ципфа!

Одно из свойств фрактальности, это самоповторение. Так вот, из 192-х стран мира, перечисленных в списке, 80% мирового богатства сосредоточена всего в 18 странах – 9,4% (18/192). Если же теперь рассмотреть только эти 18 стран, то их суммарное богатство – 46 трлн. долл. – распределено столь же неравномерно. 80% от этих 46 трлн. Сосредоточено в менее чем половине стран, и т.д.

Вы можете спросить: какой практический вывод из всего сказанного? Я бы сказал так:

Социальные и экономические системы не описываются гауссианой. Эти закономерности подчиняются степенным рядам [синоним – фрактальная природа].
Выбросы от среднего существенно более вероятны, чем в соответствии с предсказаниями колоколообразной кривой Гаусса. Более того, выбросы внутренне присущи системе; они не случайны, а закономерны.
Оценки рисков нельзя строить на основе нормального распределения вероятностей редких нежелательных событий.
… не буду лукавить, пока больше ничего придумать не могу… но это не значит, что практических выводов больше нет… просто мои знания этим ограничиваются…

… но согласитесь, ведь красивые закономерности!

О фрактальности см. Бенуа Мандельброт

Надо отметить, что данные из разных источников сильно разнятся, но это не имеет отношения к рассматриваемой здесь теме.

Всем привет! В последнее время все чаще от коллег слышу о требовании в ТЗ оценивать качество текста по закону Ципфа. И далеко не все понимают, как нужно редактировать текст под этот закон. В сегодняшней статье попробую рассказать, как наиболее простым способом улучшить параметр, а также уточню почему хорошим авторам на самом деле это не нужно.

Определить качество текста по закону Ципфа можно по нескольким сервисам. Но, наиболее адекватным я считаю PR-CY, тут сочетается правильная формула с простым и понятным интерфейсом. Именно его я и использовал при подготовке этого материала.

Что такое закон Ципфа

Для начала стоит разобраться, что это такое. Если верить Википедии, сформулировал эту закономерность в 1908 году Жан-Батист Эсту, первоначально относился этот закон к стенографии. Первое известное широкой общественности применение закономерности относится к демографии, а точнее к распределению численности населения в городах, использовал ее Феликс Ауэрбах.

Современное название закономерность получила в 1949 году благодаря лингвисту Джорджу Ципфу. Он показал с ее помощью градацию распределения богатства среди населения. И только потом закон стали применять для определения читабельности текстов.

Как рассчитывается

Чтобы правильно использовать этот закон нужно понимать, как он работает. Разберем формулу для расчета.

F – частота использования слова;
R – порядковый номер;
C – постоянная величина (число обозначающее самое большое по количеству повторов слово).

На практике более удобной оказывается другая формула, она выглядит понятнее.

Удобнее такой подход так как у нас есть данные по числу повтора максимально распространенного слова. Именно от этого количества и отталкиваются.

Если упростить, то в нашем тексте второе по повторяемости слово должно встречаться в два раза реже, чем первое. Идущее на третьем месте, в три раза и так далее.

Пример подгонки текста

С теорией немного разобрались. Осталось разобраться с практикой. В качестве подопытного текста взял статью из Т-Ж. Почему именно оттуда? Все просто. На текущий момент это один из лучших образчиков любимого многими инфостиля. Ну, и было интересно, что покажет текст, написанный под руководством Максима Ильяхова. Скажу сразу, тексты по этому показателю на уровне, хотя, перелопатив более 40 сайтов вообще не нашел ни одной статьи с плохой естественностью. Также, сразу забегу вперед и скажу, что подопытный текст после подгонки стал намного хуже, несмотря на улучшенный показатель по Ципфа, не стоит сильно заморачиваться по чрезмерному повышению естественности.

Вот что нам показал анализатор после проверки.

Разберем, что там указано. Как видим есть столбец со словами, а также непонятные цифры. В столбце «вхождения» (1) указано сколько раз встречаются словоформы в тексте. В столбце «по Ципфу» (2) рекомендованное количество вхождений. Маркерами 3 и 4 помечены идеальные показатели для второй и третьей позиции. Также стоит обратить внимание на рекомендации, здесь указано сколько слов нужно убрать для достижения идеального сочетания.

Для большего понимания разберем, что насчитал анализатор. За основу возьмем цифру 39 (C), также нам понадобится порядковый номер, обратим внимание на 2 (F) позицию. Берем формулу.

Подставляем.

F=39/2=19,5

Округляем в большую сторону и получаем 20, это и будет необходимым количеством вхождений. Что подтверждает и анализатор. У нас же второе по популярности слово употребляется 28 раз, соответственно 8 повторов нужно будет удалить или заменить.

Разобравшись с принципом работы закона начинаем редактировать. Для этого удаляем или заменяем на синонимы слова, у которых больше вхождений, чем это требуется по Ципфа. В результате получаем вот такую картину.

Как видите, мне удалось увеличить показатель с 83% до 88%. Но, при этом значительно пострадало качество текста. Не стоит стремиться к увеличению этого показателя до 100%. По факту, если у вас уже есть 75%, это отлично и дальше извращаться не стоит.

Полезный совет

Уделяйте внимание не только первым строчкам. Начинайте подгонку с последних позиций в списке, они зачастую оказывают большее влияние на общий показатель, чем первый десяток слов.

Ципфа и SEO

Теперь перейдем к тому, зачем требуется знание этой закономерности копирайтеру. Сеошники заказывая тексты стремятся сделать их наиболее удобными для поисковых систем. Считается (правда, непонятно кем), что закон Ципфа активно используется поисковыми алгоритмами. Доказать или опровергнуть это утверждение сложно. Никаких вменяемых исследований и экспериментов на эту тему мне найти не удалось.

Решил проверить самостоятельно. Для этого взял выдачу по такому конкурентному запросу «пластиковые окна», в Яндексе бралась московская выдача, в Гугле пришлось поколдовать, и он меня вроде тоже определил, как жителя столицы (по крайней мере рекламу мне показал с московской геолокацией). Брал первую страницу выдачи, плюс 49 место. Получилась вот такая табличка.

Если посмотреть внимательнее, можно обратить внимание, в Яндексе выдача более ровная, если смотреть на исследуемую нами закономерность. Но, при этом более высокий показатель не гарантирует победы в борьбе за первое место в топе.

На основании этого можно сказать, если поисковики и применяют данный закон, является он только одним из факторов. И не основным.

Выводы

Ну, вот и все. Теперь вы знаете, что такое качество текста по закону Ципфа, а также можете корректировать этот показатель. На самом деле тут нет ничего сложного, все достаточно просто. Достаточно один раз понять принцип работы этой закономерности.

слов естественного языка : если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n -го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье - в три раза реже, чем первое, и так далее.

История создания [ | ]

Автором открытия закономерности является французский стенографист (фр. Jean-Baptiste Estoup ), который описал её в 1908 году в работе «Диапазон стенографии» . Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году и носит имя американского лингвиста Джорджа Ципфа , который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса .

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году .

Закон Ципфа математически описывается распределением Парето . Является одним из базовых законов, используемых в инфометрии .

Приложения закона [ | ]

Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год.

Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее . Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой :

P n = P 1 / n {\displaystyle P_{n}=P_{1}/n} ,

где P n {\displaystyle P_{n}} - население города n -го ранга; P 1 {\displaystyle P_{1}} - население главного города страны (1-го ранга).

Эмпирические исследования подтверждают данное утверждение .

В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона : если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сходиться к закону Ципфа .

Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации , в соответствии с законом Ципфа :

большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция - продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.

Критика [ | ]

Американский специалист по биоинформатике предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону . Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике.

Портал для школьника. Самоподготовка