Ajuda informática. A lei de Zipf e a natureza fractal dos fenômenos sociais e econômicos

A primeira vez que me deparei com a descrição da lei de Zipf foi durante a leitura. A essência da lei: se as palavras de qualquer texto são classificadas por frequência de uso, então o produto da classificação e frequência é um valor constante:

F*R=C, Onde:

F – frequência de ocorrência de uma palavra no texto;

R – classificação da palavra (a palavra usada com mais frequência recebe classificação 1, a próxima recebe classificação 2, etc.);

C é uma constante.

Para quem ainda se lembra pelo menos um pouco de álgebra :), na fórmula acima você pode reconhecer facilmente a equação de uma hipérbole. Zipf determinou experimentalmente que C ≈ 0,1. Portanto, a representação gráfica da lei de Zipf é aproximadamente a seguinte:

Arroz. 1. Hipérbole da lei de Zipf.

Baixe a nota em formato, exemplos em formato

As hipérboles têm uma propriedade maravilhosa. Se tomarmos uma escala logarítmica para ambos os eixos, a hipérbole se parecerá com uma linha reta:

Arroz. 2. A mesma hipérbole, mas em um gráfico com escalas logarítmicas

Pode surgir a pergunta: o que a otimização de mecanismos de pesquisa tem a ver com isso? Assim, verifica-se que textos especialmente gerados contendo um número maior de palavras-chave não se enquadram na lei. Os mecanismos de busca (Google, Yandex) verificam a “naturalidade” dos textos, ou seja, a conformidade com a lei Zipf, e diminuem a classificação de sites com textos “suspeitos” ou até mesmo proíbem tais sites.

A segunda vez que encontrei a lei de Zipf foi no livro de Benoit Mandelbrot. E gostei tanto desta pequena seção que me permito citá-la na íntegra.

Lei de potência inesperada

Em 1950, eu era um jovem estudante de matemática na Universidade de Paris e procurava um tema para a minha dissertação. Meu tio Zolem foi o exemplo clássico local de professor de matemática: um teórico profundo, muito conservador e, apesar de ter nascido na Polônia, um pilar da comunidade científica francesa. Já aos 31 anos foi eleito professor em tempo integral no prestigiado Colégio Francês.

Essa foi a era de Nicolas Bourbaki; por trás deste pseudônimo coletivo estava escondido um “clube” matemático que, como o dadaísmo na arte ou o existencialismo na literatura, se espalhou pela França e se tornou durante algum tempo extremamente influente no cenário mundial. A abstração e a matemática pura, a matemática pela matemática, foram elevadas à categoria de culto; os membros do “clube” desprezavam o pragmatismo, a matemática aplicada e até a matemática como ferramenta da ciência. Esta abordagem foi um dogma para os matemáticos franceses e, para mim, talvez, a razão para deixar a França e ir trabalhar na IBM. Eu era, para horror do meu tio, um jovem rebelde. Enquanto trabalhava na minha dissertação de doutorado, muitas vezes ia ao seu escritório no final do dia para conversar, e muitas vezes essas conversas se transformavam em discussões. Um dia, tentando de alguma forma alegrar a longa e chata viagem de metrô para casa, pedi a ele algo para ler no caminho. Ele enfiou a mão na lata de lixo e tirou vários pedaços de papel amassados.

“Aqui, pegue isso”, meu tio murmurou. - O artigo mais estúpido, daqueles que você ama.

Era uma resenha de um livro do sociólogo George Kingsley Zipf. Zipf, um homem rico o suficiente para não se preocupar com um pedaço de pão de cada dia, lecionou na Universidade de Harvard sobre uma disciplina que ele mesmo inventou, que chamou de ecologia humana estatística. Seu livro Comportamento Humano e o Princípio do Menor Esforço explorou as leis de potência como estruturas onipresentes nas ciências sociais. No chip, as leis de potência são bastante comuns e atuam como uma forma do que hoje chamo de autorrepetição fractal em escala. Os sismólogos têm uma fórmula matemática para a dependência da lei de potência do número de terremotos em relação à sua força na famosa escala Richter. Ou, em outras palavras: terremotos fracos são comuns, enquanto os fortes são raros, e a frequência e a intensidade dos terremotos são relacionadas por uma fórmula exata. Naquela época, havia poucos exemplos desse tipo e eram conhecidos apenas por algumas pessoas. Zipf, um enciclopedista, estava obcecado com a ideia de que as leis de potência não operam apenas nas ciências físicas; Todas as manifestações do comportamento, organização e anatomia humana estão sujeitas a eles - até mesmo o tamanho dos órgãos genitais.

Felizmente, a resenha do livro que meu tio me deu limitou-se a apenas um exemplo incomumente claro: frequência das palavras. No texto ou na fala, algumas palavras, como o inglês the (artigo definido) ou this ("this"), aparecem com frequência; outros, mil-réis ou momus, aparecem raramente ou nunca (para os mais curiosos: o primeiro significa uma antiga moeda portuguesa, o segundo é sinónimo da palavra “crítico”). Zipf propôs o seguinte exercício: pegue qualquer texto e conte quantas vezes cada palavra aparece nele. Em seguida, atribua uma classificação a cada palavra: 1 - para as palavras mais utilizadas, 2 - para as que ocupam o segundo lugar em termos de frequência de ocorrência, etc. Por fim, construa um gráfico no qual, para cada classificação, indique o número de ocorrências desta palavra. Teremos um desenho incrível. A curva não diminui uniformemente da palavra mais comum em um determinado texto até a mais rara. A princípio cai com uma velocidade vertiginosa, depois começa a diminuir mais lentamente, repetindo a trajetória de um esquiador que salta de um trampolim, e depois pousa e desce ao longo da encosta relativamente suave de uma montanha coberta de neve. Um exemplo de escala desigual clássica. Zipf, tendo ajustado a curva aos seus diagramas, elaborou uma fórmula para ela.

Fiquei atordoado. Ao final da minha longa viagem de metrô, eu já tinha um tema para metade da minha tese de doutorado. Eu sabia exatamente como explicar a base matemática da distribuição de frequência das palavras, o que Zipf, não sendo matemático, não poderia ter feito. Nos meses seguintes, descobertas surpreendentes me aguardavam. Usando a equação acima, uma poderosa ferramenta de pesquisa social pode ser criada. Uma versão melhorada da fórmula de Zipf tornou possível quantificar e classificar a riqueza do vocabulário de qualquer pessoa: alto valor - vocabulário rico; valor baixo – pobre. Com tal escala, é possível medir diferenças de vocabulário entre textos ou falantes. Torna-se possível quantificar a erudição. É verdade que os meus amigos e conselheiros ficaram horrorizados com a minha determinação em abordar este estranho tema. Zipf, disseram-me, é um homem com peculiaridades. Foi-me mostrado o livro dele e concordei que era nojento. Contar palavras não é matemática de verdade, me disseram. Ao abordar este tema, nunca encontrarei um bom emprego; e ser professor também não será fácil para mim.

Mas permaneci surdo aos conselhos sábios. Além disso, escrevi minha dissertação sem nenhum consultor e até consegui convencer um dos burocratas da universidade a certificá-la com um selo. Estava determinado a seguir até ao fim o caminho escolhido e a aplicar as ideias de Zipf na economia, porque não só o discurso pode ser reduzido a uma lei de potência. Quer sejamos ricos ou pobres, prósperos ou famintos - tudo isso também me pareceu objeto de uma lei de potência.

Mandelbrot modificou ligeiramente a fórmula de Zipf:

F = C * R -1/a, Onde

a – coeficiente que caracteriza a riqueza do vocabulário; quanto maior o valor de a, mais rico é o vocabulário do texto, pois a curva de dependência da frequência de ocorrência de cada palavra em sua classificação diminui mais lentamente e, por exemplo, palavras raras aparecem com mais frequência do que com valores menores de um. Foi essa propriedade que Mandelbrot pretendia usar para avaliar a erudição.

Com a lei de Zipf, nem tudo é tão tranquilo e, em aplicações específicas, nem sempre é possível confiar no coeficiente a determinado experimentalmente. Ao mesmo tempo, a lei de Zipf nada mais é do que a lei de Pareto “ao contrário”, uma vez que ambas são casos especiais de séries de potências, ou... uma manifestação da natureza fractal dos sistemas económicos e sociais.

Para mim, formulei a essência da natureza fractal dos sistemas económicos da seguinte forma. Por um lado, existe a aleatoriedade do jogo: roleta, lançamento de dados. Por outro lado, aleatoriedade tecnológica/física: variação no diâmetro de um eixo feito em torno, variação na altura de um adulto. Todos os fenômenos acima são descritos. Então, há uma série de fenômenos que não obedecem a essa distribuição: a riqueza dos países e dos indivíduos, as flutuações nos preços das ações, as taxas de câmbio, a frequência do uso das palavras, a força dos terremotos... O que é característico de tais fenômenos é que o valor médio depende muito da amostra. Por exemplo, se você pegar cem pessoas aleatórias de alturas diferentes, adicionar a elas a pessoa mais alta da Terra não alterará muito a altura média desse grupo. Se calcularmos a renda média de cem pessoas aleatórias, então somar a pessoa mais rica do planeta - Carlos Slim Helu (e não Bill Gates, como muitos podem pensar :)) aumentará significativamente a riqueza média de cada um, para aproximadamente 500 milhões dólares!

Outra manifestação da fractalidade é a estratificação significativa da amostra. Considere, por exemplo,

Concordo, o padrão apresentado é como duas ervilhas em uma vagem e é semelhante à curva Zipf!

Uma das propriedades da fractalidade é a autorrepetição. Assim, dos 192 países do mundo listados na lista, 80% da riqueza mundial está concentrada em apenas 18 países - 9,4% (18/192). Se considerarmos agora apenas estes 18 países, então a sua riqueza total é de 46 biliões. dólares - distribuídos de forma igualmente desigual. 80% desses 46 trilhões. Concentrado em menos da metade dos países, etc.

Você pode perguntar: qual é a conclusão prática de tudo isso? Eu diria isto:

  1. Os sistemas sociais e econômicos não são descritos pelos gaussianos. Esses padrões obedecem a séries de potências [sinônimo: natureza fractal].
  2. Valores discrepantes da média são significativamente mais prováveis ​​do que o previsto pela curva de sino gaussiana. Além disso, as emissões são inerentes ao sistema; eles não são aleatórios, mas naturais.
  3. As avaliações de risco não podem basear-se numa distribuição de probabilidade normal de eventos adversos raros.
  4. ... não vou mentir, ainda não consigo pensar em mais nada... mas isso não significa que não haja mais conclusões práticas... é só que meu conhecimento se limita a isso...

... mas você tem que admitir, os padrões são lindos!

Sobre fractalidade, veja Benoit Mandelbrot

Deve-se notar que os dados de diferentes fontes variam muito, mas isso não é relevante para o tema aqui discutido.

Dentre os critérios de avaliação da qualidade de um texto, a naturalidade é considerada o principal. Este indicador pode ser testado usando um método matemático descoberto pelo linguista americano George Zipf.

Verifique de acordo com a lei de Zipfé um método de avaliação da naturalidade de um texto, determinando o padrão de disposição das palavras, onde a frequência de uma palavra é inversamente proporcional ao seu lugar no texto.

A primeira lei de Zipf "classificação - frequência"

C = (Frequência de ocorrência de uma palavra x Classificação de frequência) / Número de palavras.

Se considerarmos a razão entre uma palavra e sua classificação de frequência, então o valor (C) será constante, e isso é verdade para um documento em qualquer idioma; dentro de cada grupo de idiomas o valor será constante.

As palavras que são significativas para o documento e definem seu tema estão no meio da hipérbole. As palavras mais utilizadas, assim como as de baixa frequência, não carregam um significado semântico decisivo.

Segunda lei de Zipf "quantidade - frequência"

A frequência de uma palavra e seu número em um texto também estão relacionados. Se você construir um gráfico onde X é a frequência de uma palavra, Y é o número de palavras de uma determinada frequência, a forma da curva permanecerá inalterada.

O princípio de escrever um bom texto é torná-lo o mais claro possível, usando o menor número de palavras possível.

A lei mostra uma propriedade geral para qualquer língua, porque Sempre haverá um certo número de palavras que ocorrem com mais frequência.

É necessário verificar a naturalidade do texto SEO se foram utilizadas palavras-chave na escrita, para que seja interessante e compreensível para um grande público de leitores. Este indicador também é importante na classificação dos sites pelos motores de busca, que determinam a correspondência do texto com as consultas-chave, distribuindo as palavras em grupos de importantes, aleatórias e auxiliares.

Mais detalhes:

  • A relação entre a frequência de ocorrência de uma palavra no texto f e seu lugar no dicionário de frequências (rank) r é inversamente proporcional. Quanto maior a classificação de uma palavra (quanto mais longe ela estiver do início do dicionário), menor será a frequência de sua ocorrência no texto.
  • O gráfico de tal dependência é uma hipérbole, que em pequenos valores de classificação cai muito acentuadamente, e então, na região de baixos valores de frequência de ocorrência, f, se estende muito, gradualmente, mas de forma muito imperceptível , diminuindo à medida que a classificação, r, aumenta.
  • Se a frequência de uma palavra é 4 por milhão e a frequência de outra é 3 por milhão, não importa que as classificações dessas palavras difiram mil vezes. Essas palavras são usadas tão raramente que muitos falantes nativos nunca as ouviram.
  • No entanto, esta região distante é notável porque uma palavra localizada aqui pode facilmente reduzir seu valor de classificação muitas vezes. Mesmo o menor aumento na frequência de ocorrência de uma palavra muda drasticamente sua posição para o início do dicionário de frequências.
  • Nos termos desta lei, a medida da popularidade de uma palavra é a sua posição no dicionário de frequências da língua. Uma palavra mais popular está mais próxima do início do dicionário do que uma menos popular.
  • Reflete a dependência da frequência de uso de uma palavra em um idioma em relação ao seu lugar no dicionário de frequências. Palavras populares do idioma são usadas com mais frequência. Do ponto de vista matemático, o gráfico desta dependência é uma hipérbole com uma subida acentuada à medida que se aproxima da origem e uma “cauda” longa, plana, quase horizontal. A maioria das palavras da língua está localizada nesta “cauda”. Aqui, o lugar de uma palavra no dicionário de frequências, se alterar a frequência de uso dessa palavra na língua, não a altera muito.
  • Mas assim que a posição da palavra no dicionário de frequências atinge aquele local da hipérbole onde, à medida que se aproxima da origem das coordenadas, começa um aumento significativo na curva, a situação muda. Já uma pequena mudança na frequência de ocorrência de uma palavra não leva mais a mudanças significativas em sua classificação, ou seja, a posição da palavra no dicionário de frequências deixa de mudar. Isso significa que o crescimento da popularidade da palavra desacelerou. Para que continue, medidas especiais devem ser tomadas para aumentar a frequência de ocorrência da palavra. Por exemplo, se a palavra é o nome de um produto, você precisa gastar dinheiro em uma campanha publicitária (

Olá a todos! Ultimamente, tenho ouvido cada vez mais de colegas sobre a exigência nas especificações técnicas de avaliar a qualidade do texto de acordo com a lei de Zipf. E nem todo mundo sabe como editar o texto para cumprir essa lei. No artigo de hoje tentarei dizer como melhorar o parâmetro da maneira mais simples, e também esclarecer por que bons autores realmente não precisam disso.

Você pode determinar a qualidade do texto de acordo com a lei de Zipf usando vários serviços. Mas acho que o PR-CY é o mais adequado, pois combina a fórmula certa com uma interface simples e compreensível. Foi exatamente isso que usei na preparação deste material.

Qual é a lei de Zipf

Primeiro, você precisa descobrir o que é. Se você acredita na Wikipedia, Jean-Baptiste Estou formulou esse padrão em 1908; esta lei originalmente se aplicava à taquigrafia. A primeira aplicação do padrão conhecido do público em geral diz respeito à demografia, ou mais precisamente à distribuição da população nas cidades, utilizada por Felix Auerbach.

O padrão recebeu seu nome moderno em 1949 graças ao linguista George Zipf. Com sua ajuda, ele mostrou a gradação da distribuição da riqueza entre a população. E só então a lei passou a ser utilizada para determinar a legibilidade dos textos.

Como é calculado

Para usar esta lei corretamente, você precisa entender como ela funciona. Vejamos a fórmula de cálculo.

  • F – frequência de uso das palavras;
  • R – número de série;
  • C é um valor constante (um número que indica a palavra com maior número de repetições).

Na prática, outra fórmula acaba sendo mais conveniente: parece mais clara.

Esta abordagem é mais conveniente porque temos dados sobre o número de repetições da palavra mais comum. É dessa quantidade que eles partem.

Para simplificar, no nosso texto a segunda palavra mais repetida deve aparecer com metade da frequência da primeira. Chegando em terceiro lugar, três vezes e assim por diante.

Exemplo de ajuste de texto

Resolvemos um pouco a teoria. Resta apenas descobrir a prática. Como texto experimental, peguei um artigo de T-J. Por que daí? É simples. No momento, este é um dos melhores exemplos do estilo info apreciado por muitos. Bem, foi interessante o que o texto escrito sob a liderança de Maxim Ilyakhov mostraria. Direi desde já que os textos sobre este indicador estão no mesmo nível, embora, depois de pesquisar em mais de 40 sites, não tenha encontrado um único artigo com pouca naturalidade. Além disso, vou adiantar e dizer que o texto experimental ficou muito pior após o ajuste, apesar da pontuação Zipf melhorada, você não deve se preocupar muito em aumentar excessivamente a naturalidade.

Isto é o que o analisador nos mostrou após o teste.

Vejamos o que está dito lá. Como você pode ver, há uma coluna com palavras, além de números incompreensíveis. A coluna “ocorrências” (1) indica quantas vezes as formas das palavras ocorrem no texto. A coluna Zipf (2) mostra o número recomendado de ocorrências. Os marcadores 3 e 4 marcam os indicadores ideais para a segunda e terceira posições. Também vale ficar atento às recomendações, pois indicam quantas palavras precisam ser retiradas para chegar à combinação ideal.

Para uma melhor compreensão, vejamos o que o analisador contou. Tomemos como base o número 39 (C), precisaremos também de um número de série, preste atenção na posição 2 (F). Vamos pegar a fórmula.

Vamos substituir.

F=39/2=19,5

Arredondamos e obtemos 20, esse será o número necessário de ocorrências. Isto é confirmado pelo analisador. Em nosso país, a segunda palavra mais popular é usada 28 vezes, portanto, 8 repetições precisarão ser removidas ou substituídas.

Tendo entendido o princípio da lei, começamos a editar. Para fazer isso, excluímos ou substituímos por sinônimos palavras que possuem mais ocorrências do que o exigido pelo Zipf. Como resultado, obtemos esta imagem.

Como você pode ver, consegui aumentar a alíquota de 83% para 88%. Mas, ao mesmo tempo, a qualidade do texto sofreu significativamente. Você não deve se esforçar para aumentar esse indicador para 100%. Na verdade, se você já tem 75%, isso é ótimo e não há necessidade de distorcer ainda mais.

Conselho util

Preste atenção não apenas nas primeiras linhas. Comece a ajustar a partir das últimas posições da lista; muitas vezes elas têm um impacto maior no indicador geral do que as primeiras dez palavras.

Zipf e SEO

Agora vamos ver por que um redator precisa conhecer esse padrão. Os especialistas em SEO, ao solicitar textos, se esforçam para torná-los o mais convenientes para os mecanismos de busca. Acredita-se (embora não esteja claro por quem) que a lei de Zipf é ativamente usada por algoritmos de busca. É difícil provar ou refutar esta afirmação. Não consegui encontrar nenhuma pesquisa ou experimento sensato sobre esse assunto.

Eu decidi verificar sozinho. Para fazer isso, peguei os resultados da pesquisa para uma consulta tão competitiva como “janelas de plástico”, o Yandex pegou os resultados da pesquisa de Moscou, tive que fazer um pouco de mágica no Google, e parecia também me identificar como residente da capital ( pelo menos me mostrou um anúncio com geolocalização de Moscou). Peguei a primeira página dos resultados da pesquisa, além do 49º lugar. O resultado é um sinal como este.

Se você olhar mais de perto, notará que no Yandex os resultados são mais uniformes, se você observar o padrão que estamos estudando. Mas, ao mesmo tempo, um indicador maior não garante a vitória na briga pelo primeiro lugar no topo.

Com base nisso, podemos dizer que se os motores de busca aplicarem esta lei, é apenas um dos fatores. E não o principal.

conclusões

OK, está tudo acabado agora. Agora você sabe qual é a qualidade do texto de acordo com a lei de Zipf e também pode ajustar esse indicador. Na verdade, não há nada complicado aqui, tudo é bastante simples. Basta entender uma vez o princípio de funcionamento desse padrão.

O mundo do SEO está em constante evolução e a otimização não pára. Estão surgindo novos métodos de escrever textos e prepará-los para uma melhor indexação. Um dos parâmetros aos quais os otimizadores prestaram muita atenção é a naturalidade do texto de acordo com a lei de Zipf. Qual é a lei de Zipf e seu papel na promoção de SEO?

De acordo com a formulação, a lei de Zipf é um padrão de frequência de palavras estabelecido experimentalmente em um texto. Segundo a lei, a frequência de uma palavra em um texto é quase inversamente proporcional à sua posição na lista. Ou seja, com base na lei, a segunda palavra mais citada no texto deve ser usada duas vezes menos que a primeira, e a terceira - três vezes menos, e assim por diante.

Para facilitar a compreensão desse padrão, você deve prestar atenção à disposição das letras no teclado do computador. Não é acidental: as letras usadas com mais frequência em qualquer idioma estão localizadas de forma mais conveniente do que aquelas usadas com menos frequência. A situação com as palavras é idêntica: há palavras de uso frequente e palavras de uso raro, mais significativas que determinam o tema do texto.

A separação pela importância das palavras também é usada na classificação de sites em algoritmos de mecanismos de busca. Levando isso em consideração, a diferença entre as palavras em termos de significado e frequência de uso ajuda a dividir as palavras na hora de escrever textos de SEO em 3 grupos:

  • Auxiliar. Este grupo inclui palavras que não carregam carga semântica independente, por exemplo conjunções, preposições, pronomes, partículas. Todas as palavras auxiliares são percebidas pelos motores de busca como ruído de informação e são ignoradas na classificação.
  • Importante. Tais palavras são menos comuns em textos e carregam uma carga semântica significativa. Os motores de busca percebem as palavras deste grupo como palavras-chave.
  • Aleatório. As palavras deste grupo raramente são usadas para textos sobre um tópico específico e praticamente não têm efeito nas classificações de pesquisa.

Segundo especialistas em SEO, o linguista americano George Zipf identificou leis que passaram a ser utilizadas pelos buscadores para determinar a naturalidade e a singularidade dos textos com base na frequência das palavras utilizadas.

Os otimizadores frequentemente encontram problemas ao promover textos com altos níveis de exclusividade e relevância. Ou seja, o texto pode ser 100% único, otimizado para uma consulta-chave de alta relevância, e ao mesmo tempo não chegar ao topo ou, pior, ficar fora do campo de visão dos programas de análise de posições.

Não é fácil determinar o quanto a lei de Zipf afeta individualmente os resultados da pesquisa. Muito provavelmente, os motores de busca levam em consideração uma combinação de muitos fatores, entre os quais está o teste Zipf de naturalidade. Hoje, o conteúdo desempenha um dos papéis mais importantes na promoção dos motores de busca, por isso, ao criar textos SEO, é recomendável monitorar cuidadosamente os indicadores de exclusividade e naturalidade. Existem muitos serviços para verificação de textos. Vamos nos concentrar nos dois sites mais populares e comprovados - 1y.ru e pr-cy.ru.

Serviço 1y.ru

O site permite que você verifique páginas da web individuais, sites inteiros ou textos que variam de 100 a 5.000 palavras quanto à naturalidade do conteúdo. O limite para usuários anônimos permite verificar até 2.000 textos por dia. A desvantagem do site é que é impossível verificar uma página web sem distorcer os resultados, pois o serviço verifica todas as informações textuais encontradas, incluindo rubricador, widgets, menus e outros tipos de texto auxiliar.

Depois de verificar o texto, 1y.ru fornece estatísticas de conteúdo com recomendações para reduzir palavras repetitivas e fornece um gráfico com três curvas: uma curva de valor para o texto que está sendo verificado, uma curva de valor recomendado e uma curva de valor ideal.

Serviço pr-cy.ru

Este recurso também oferece a oportunidade de avaliar a naturalidade de textos e páginas web. O serviço filtra palavras irrelevantes, calcula o percentual de náusea do texto e também fornece recomendações para reduzir ou aumentar o número de ocorrências de acordo com a lei de Zipf.


Conclusão

A diferença nos resultados ao verificar o mesmo texto em serviços diferentes pode ser significativa. Assim, os três primeiros parágrafos do texto que você está lendo mostraram 59% para 1y.ru e 88% para pr-cy.ru. A conclusão é apenas uma: ao escrever textos, não se deve prestar muita atenção ao encaixe dos principais verbetes no corpo do artigo. Você precisa escrever de forma interessante e acessível, e se ainda precisar inserir palavras-chave no texto, vale a pena conferir o texto pelo método Zipf.

palavras de uma língua natural: se todas as palavras de uma língua (ou apenas um texto suficientemente longo) forem ordenadas em ordem decrescente de frequência de seu uso, então a frequência n da décima palavra em tal lista será aproximadamente inversamente proporcional ao seu número de série n(assim chamado classificação esta palavra, veja escala de ordem). Por exemplo, a segunda palavra mais usada ocorre aproximadamente duas vezes menos que a primeira, a terceira - três vezes menos que a primeira e assim por diante.

História da criação[ | ]

O autor da descoberta do padrão é um estenógrafo francês (fr. Jean-Baptiste Estoup), que a descreveu em 1908 em sua obra “The Range of Shorthand”. A lei foi usada pela primeira vez para descrever a distribuição dos tamanhos das cidades pelo físico alemão Felix Auerbach em seu trabalho “A Lei da Concentração Populacional” em 1913 e recebeu o nome do linguista americano George Zipf, que em 1949 popularizou ativamente esse padrão, propondo pela primeira vez usá-lo para descrever a distribuição das forças econômicas e do status social.

Uma explicação da lei de Zipf baseada nas propriedades de correlação de cadeias de Markov aditivas (com uma função de memória passo a passo) foi dada em 2005.

A lei de Zipf é descrita matematicamente pela distribuição de Pareto. É uma das leis básicas utilizadas na infometria.

Aplicações da lei[ | ]

George Zipf, em 1949, foi o primeiro a mostrar a distribuição dos rendimentos das pessoas de acordo com a sua dimensão: a pessoa mais rica tem o dobro de dinheiro que a próxima pessoa mais rica, e assim por diante. Esta afirmação revelou-se verdadeira para vários países (Inglaterra, França, Dinamarca, Holanda, Finlândia, Alemanha, EUA) no período de 1926 a 1936.

Esta lei também funciona em relação à distribuição do sistema urbano: a cidade com a maior população de qualquer país é duas vezes maior que a segunda maior cidade, e assim por diante. Se você organizar todas as cidades de um determinado país em uma lista em ordem decrescente de população, então cada cidade poderá receber uma determinada classificação, ou seja, o número que ela recebe nesta lista. Neste caso, o tamanho e a classificação da população obedecem a um padrão simples expresso pela fórmula:

P n = P 1 / n (\estilo de exibição P_(n)=P_(1)/n),

Onde P n (\estilo de exibição P_(n))- população da cidade n-ª classificação; P 1 (\estilo de exibição P_(1))- população da principal cidade do país (1ª posição).

A pesquisa empírica confirma esta afirmação.

Em 1999, o economista Xavier Gabet descreveu a lei de Zipf como um exemplo de lei de potência: se as cidades crescerem aleatoriamente com o mesmo desvio padrão, então no limite a distribuição convergirá para a lei de Zipf.

De acordo com as conclusões dos pesquisadores em relação ao assentamento urbano na Federação Russa, de acordo com a lei de Zipf:

  • a maioria das cidades russas situa-se acima da curva Zipf ideal, pelo que a tendência esperada é uma redução contínua no número e na população de cidades médias e pequenas devido à migração para grandes cidades;
  • consequentemente, mais de 7 milhões de cidades (São Petersburgo, Novosibirsk, Yekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk), localizadas abaixo da curva Zipf ideal, têm uma reserva significativa para o crescimento populacional e esperam crescimento populacional;
  • há riscos de despovoamento da primeira cidade da classificação (Moscou), uma vez que a segunda cidade (São Petersburgo) e as grandes cidades subsequentes ficam muito atrás da curva Zipf ideal devido a uma diminuição na demanda por mão de obra com um aumento simultâneo na custo de vida, incluindo, em primeiro lugar, o custo de compra e aluguer de habitação.

Crítica [ | ]

Especialista americano em bioinformática propôs uma explicação estatística da lei de Zipf, provando que uma sequência aleatória de símbolos também obedece a esta lei. O autor conclui que a lei de Zipf parece ser um fenômeno puramente estatístico que nada tem a ver com a semântica do texto e tem uma relação superficial com a linguística.