Lei de Zipf

A Lei de Zipf é uma lei empírica formulada utilizando estatísticas matemáticas que se refere ao fato de que para muitos tipos de dados estudados nas ciências físicas e sociais, a distribuição de frequência de classificação é uma relação inversa[1]. A distribuição zipfiana esta inserida dentro da família de leis de distribuições de probabilidades poder discreta relacionadas. Está relacionado com a distribuição de zeta, mas não é idêntica.

A lei de Zipf foi originalmente formulada em termos de linguística quantitativa, afirmando que, dado algum corpus de expressões linguísticas naturais, a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequências. Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais frequentemente do que a segunda palavra mais frequente, três vezes mais vezes que a terceira palavra mais frequente, e assim sucessivamente. Não há consenso na literatura, porém, sobre o que causa o fenômeno[2].

A lei é nomeada em homenagem à George Kingsley Zipf, linguista da Universidade de Harvard, que a popularizou na década de 1940 por meio de sua obra Human Behaviour and the Principle of Least-Effort ("Comportamento Humano e o Principio do Menor Esforço").[3][1] Apesar disso, porém, alguns estudiosos já haviam notado essa regularidade antes de Zipf, como o estenógrafo francês Jean-Baptiste Estoup[4], e o físico alemão Felix Auerbach, em 1913[5].

A Lei de Zipf é semelhante em conceito, embora não idêntico na distribuição, à Lei de Benford.


Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n. Por exemplo, numa língua a frequência com que surgem as diversas palavras segue uma distribuição que se pode aproximar por:

P n 1 / n a {\displaystyle P_{n}\sim 1/n^{a}}

onde Pn representa a frequência de uma palavra ordenada na n-ésima posição e o expoente a é próximo da unidade. Isto significa que o segundo elemento se repetirá aproximadamente com uma frequência que é metade da do primeiro, e o terceiro elemento com uma frequência de 1/3 e assim sucessivamente. Uma lei não empírica, mas mais precisa, derivada dos trabalhos de Claude Shannon foi descoberta por Benoît Mandelbrot.

Os campos de aplicação da lei de Zipf são diversos, e são também várias as tendências de pensamento que a têm proposto como contrapartida à distribuição gaussiana no âmbito das ciências sociais. Na realidade, nas ciências sociais não se segue sempre uma distribuição gaussiana, mas também não se segue sempre a lei de Zipf.

Génese

Frequência das palavras em função da ordem na versão original de Ulisses de James Joyce.

Zipf analisou a obra monumental de James Joyce, Ulisses, e contou as palavras distintas, ordenando-as por frequência. Verificou-se que:

  • a palavra mais comum surgia 8000 vezes;
  • a décima, 800 vezes;
  • a centésima, 80 vezes;
  • a milésima, 8 vezes.

Os resultados fazem parecer, à luz de outros estudos que podem ser feitos rapidamente com qualquer computador, demasiado precisos para serem perfeitamente exatos, e em estudos similares a décima palavra mais comum surge cerca de 1000 vezes, por via de um efeito de cauda observado nesta distribuição. A lei de Zipf prevê que num dado texto, a frequência de ocorrência f(n) de uma palavra esteja ligada à sua ordem n na ordem das frequências por uma lei da forma: f ( n ) = K n {\displaystyle f(n)={\frac {K}{n}}} onde K é uma constante.

Aplicações

Durante algum tempo, acreditava-se que o livro medieval Código Voynich, indecifrado até hoje, pudesse ser um livro falso, uma fraude. Porém, como o texto do Código segue a Lei de Zipf, isso indica que o livro deve estar escrito em alguma linguagem desconhecida, ao invés de ser pura invenção. [6]

Ver também

Leituras complementares

Principais:

  • George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
  • George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (citações em http://citeseer.ist.psu.edu/context/64879/0 )

Secundárias:

  • Gelbukh, Alexander, and Sidorov, Grigori (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
  • Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
  • Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
  • Gabaix, Xavier (1999). «Zipf's Law for Cities: An Explanation» (PDF). Quarterly Journal of Economics. 114 (3): 739–67. ISSN 0033-5533. doi:10.1162/003355399556133 

Referências

  1. a b Laura Cerqueira, Armando Malheiro da Silva (2007). «Uma abordagem infométrica no âmbito da Ciência de Informação a propósito dos dez anos de edição das Páginas a&b» (PDF) 
  2. poder360.com.br/ O guarda-chuva do presidente
  3. «lei de Zipf». Arquivado do original em 3 de dezembro de 2010 
  4. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  5. Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  6. «O livro mais misterioso do mundo». El País. 12 de dezembro de 2015. Consultado em 15 de dezembro de 2015 

Ligações externas

  • «La ley de Zipf por Javier Sampedro, El País, 13 de dezembro de 2009» (em espanhol) 
  • «Zipf - Lista de palavras do léxico francês, com frequências» 
  • «Zipf - Lista de palavras do léxico português, com frequências - retirado do Project Gutenberg, pelo que inclui palavras noutras línguas retiradas de textos complementares aos disponíveis no site» (PDF) 
  • «Zipf - Lista de palavras para os léxicos inglês, francês espanhol, italiano, sueco, islandês, latim, português e finlandês, do Gutenberg Project. Inclui calculadora online para cálculo de frequências de palavras em textos» 
  • Portal da linguística