Bantuan komputer. Hukum Zipf dan sifat fraktal dari fenomena sosial dan ekonomi

Pertama kali saya bertemu deskripsi hukum Zipf saat membaca. Inti dari hukum: jika kata-kata dari teks apa pun diberi peringkat berdasarkan frekuensi penggunaan, maka produk peringkat dengan frekuensi adalah nilai konstan:

F*R=C, di mana:

F adalah frekuensi kemunculan kata dalam teks;

R - peringkat kata (kata yang paling sering digunakan mendapat peringkat 1, selanjutnya - 2, dll.);

C adalah konstanta.

Bagi yang masih ingat sedikit aljabar :), pada rumus di atas mudah untuk mengenali persamaan hiperbola. Zipf secara eksperimental menentukan bahwa C 0,1. Jadi, representasi grafis dari hukum Zipf kira-kira sebagai berikut:

Beras. 1. Hiperbola hukum Zipf.

Unduh catatan dalam format, contoh dalam format

Hiperbola memiliki sifat yang luar biasa. Jika kita mengambil skala logaritmik untuk kedua sumbu, maka hiperbola akan terlihat seperti garis lurus:

Beras. 2. Hiperbola yang sama, tetapi pada grafik dengan skala logaritmik

Pertanyaan yang mungkin muncul: apa hubungannya optimasi mesin pencari dengannya? Jadi, ternyata teks yang dibuat secara khusus yang berisi peningkatan jumlah kata kunci tidak sesuai dengan undang-undang. Mesin pencari (Google, Yandex) memeriksa teks untuk "kealamian", yaitu kepatuhan terhadap hukum Zipf dan menurunkan peringkat situs dengan teks "mencurigakan", atau secara umum melarang situs tersebut.

Kali kedua saya bertemu hukum Zipf adalah dengan Benoit Mandelbrot dalam bukunya. Dan saya sangat menyukai bagian kecil ini sehingga saya dapat mengutipnya secara lengkap.

Hukum kekuatan tak terduga

Pada tahun 1950, saya adalah seorang mahasiswa matematika muda di Universitas Paris yang sedang mencari topik untuk disertasi saya. Paman saya Zolem adalah profesor buku teks matematika lokal: seorang ahli teori mendalam, sangat konservatif dan, meskipun lahir di Polandia, pilar komunitas ilmiah Prancis. Sudah pada usia 31, ia terpilih sebagai profesor penuh waktu di French College yang bergengsi.

Itu adalah era Nicolas Bourbaki; Di balik nama samaran kolektif ini tersembunyi sebuah "klub" matematika yang, seperti Dada dalam seni atau eksistensialisme dalam sastra, menyebar dari Prancis dan untuk sementara waktu menjadi sangat berpengaruh di panggung dunia. Abstraksi dan matematika murni, matematika demi matematika, diangkat ke peringkat sekte; anggota "klub" membenci pragmatisme, matematika terapan, dan bahkan matematika sebagai alat sains. Pendekatan ini merupakan dogma bagi matematikawan Prancis, dan bagi saya, mungkin, alasan untuk meninggalkan Prancis dan bekerja di IBM. Saya, yang membuat paman saya cemas, adalah seorang pemberontak muda. Saat mengerjakan disertasi doktor saya, saya sering pergi ke kantornya di penghujung hari untuk mengobrol, dan seringkali percakapan ini berubah menjadi diskusi. Suatu kali, mencoba mencerahkan perjalanan pulang yang panjang dan membosankan dengan kereta bawah tanah yang akan datang, saya meminta sesuatu untuk dibaca di jalan. Dia merogoh keranjang sampah dan mengeluarkan beberapa lembar kertas kusut.

"Ini, ambil ini," gumam pamanku. “Artikel paling bodoh yang kamu suka.

Itu adalah ulasan buku oleh sosiolog George Kingsley Zipf. Zipf, seorang pria yang cukup kaya untuk tidak memikirkan tentang makanan sehari-harinya, mengajar di Universitas Harvard tentang disiplin ilmu yang dia temukan, yang dia sebut ekologi manusia statistik. Dalam bukunya Human Behavior and the Principle of Least Effort, hukum kekuasaan dilihat sebagai struktur yang ada di mana-mana dari ilmu-ilmu sosial. Dalam sebuah chip, hukum daya cukup umum dan bertindak sebagai bentuk dari apa yang sekarang saya sebut pengulangan diri fraktal dalam skala. Seismolog memiliki rumus matematika untuk ketergantungan hukum daya dari jumlah gempa bumi pada kekuatannya menurut skala Richter yang terkenal. Atau, dengan kata lain: gempa bumi lemah sering terjadi, sedangkan gempa kuat jarang terjadi, dan frekuensi serta kekuatan gempa dihubungkan dengan rumus yang tepat. Pada waktu itu hanya ada sedikit contoh seperti itu, dan mereka hanya diketahui oleh beberapa orang saja. Zipf, sang ensiklopedis, terobsesi dengan gagasan bahwa hukum kekuatan tidak terbatas pada ilmu fisika; mereka tunduk pada semua manifestasi perilaku, organisasi, dan anatomi manusia - bahkan ukuran alat kelamin.

Untungnya, ulasan buku yang diberikan paman saya kepada saya hanya terbatas pada satu contoh yang luar biasa elegan: frekuensi kata-kata. Dalam teks atau ucapan, beberapa kata, seperti bahasa Inggris the (definite article) atau this ("it"), sering muncul; yang lain, milreis atau momus, muncul jarang atau tidak pernah sama sekali (untuk yang paling ingin tahu: yang pertama berarti koin Portugis kuno, yang kedua adalah sinonim untuk kata "kritik"). Zipf mengusulkan latihan berikut: ambil teks apa saja dan hitung berapa kali setiap kata muncul di dalamnya. Kemudian tetapkan peringkat untuk setiap kata: 1 - untuk kata-kata yang paling sering digunakan, 2 - untuk kata-kata yang menempati posisi kedua dalam hal frekuensi kemunculan, dll. Terakhir, buatlah sebuah grafik di mana, untuk setiap peringkat, menunjukkan jumlah kemunculan kata ini. Kami akan mendapatkan gambar yang menakjubkan. Kurva tidak berkurang secara seragam dari kata yang paling umum dalam teks yang diberikan ke yang paling langka. Pada awalnya jatuh dengan kecepatan yang memusingkan, setelah itu mulai berkurang lebih lambat, mengulangi lintasan pemain ski yang melompat dari batu loncatan, dan kemudian mendarat dan turun di sepanjang lereng gunung yang tertutup salju yang relatif landai. Contoh tangga nada tidak seragam klasik. Zipf, setelah menyesuaikan kurva agar sesuai dengan diagramnya, menemukan formula untuk itu.

Saya tercengang. Pada akhir perjalanan kereta bawah tanah yang panjang, saya sudah memiliki topik untuk setengah disertasi doktoral saya. Saya tahu persis bagaimana menjelaskan dasar matematika dari distribusi frekuensi kata-kata, yang Zipf, bukan ahli matematika, tidak bisa lakukan. Dalam bulan-bulan berikutnya, penemuan-penemuan menakjubkan menunggu saya. Dengan menggunakan persamaan ini, Anda dapat membuat alat yang ampuh untuk penelitian sosial. Versi formula Zipf yang ditingkatkan memungkinkan untuk mengukur dan memberi peringkat kekayaan kosakata setiap orang: nilai tinggi - kosakata yang kaya; nilai rendah - miskin. Dengan skala seperti itu, seseorang dapat mengukur perbedaan kosakata antara teks atau pembicara. Menjadi mungkin untuk mengukur pengetahuan. Benar, teman dan konsultan saya merasa ngeri dengan tekad saya untuk menangani topik aneh ini. Zipf, kata mereka, adalah pria yang unik. Saya ditunjukkan bukunya dan saya setuju bahwa itu menjijikkan. Hitungan kata bukanlah matematika yang sebenarnya, saya yakin. Setelah mengambil subjek ini, saya tidak akan pernah menemukan pekerjaan yang baik; Dan tidak akan mudah bagi saya untuk menjadi profesor juga.

Tapi saya tetap tuli terhadap nasihat bijak. Selain itu, saya menulis disertasi saya tanpa konsultan sama sekali dan bahkan membujuk salah satu birokrat universitas untuk mengesahkannya dengan meterai. Saya bertekad untuk mengikuti jalan yang dipilih sampai akhir dan menerapkan ide-ide Zipf di bidang ekonomi, karena tidak hanya pidato yang dapat direduksi menjadi undang-undang kekuatan. Kami kaya atau miskin, makmur atau kelaparan - semua ini bagi saya juga tampak sebagai objek dari undang-undang kekuasaan.

Mandelbrot sedikit memodifikasi rumus Zipf:

F \u003d C * R -1 /sebuah, di mana

a - koefisien yang mencirikan kekayaan kosa kata; semakin besar nilai a, semakin kaya kosakata teks, karena kurva ketergantungan frekuensi kemunculan setiap kata pada peringkatnya berkurang lebih lambat, dan, misalnya, kata-kata langka muncul lebih sering daripada dengan nilai yang lebih kecil dari a. Properti inilah yang ingin digunakan Mandelbrot untuk menilai pengetahuan.

Tidak semuanya begitu mulus dengan hukum Zipf, dan dalam aplikasi khusus tidak selalu mungkin untuk mengandalkan koefisien yang ditentukan secara eksperimental a. Pada saat yang sama, hukum Zipf tidak lebih dari hukum Pareto "sebaliknya", karena keduanya adalah kasus khusus rangkaian kekuasaan, atau ... manifestasi dari sifat fraktal sistem ekonomi dan sosial.

Untuk saya sendiri, saya merumuskan esensi dari sifat fraktal sistem ekonomi sebagai berikut. Di satu sisi, ada permainan peluang: roulette, melempar dadu. Di sisi lain, kecelakaan teknologi/fisik: variasi diameter poros yang dibuat pada mesin bubut, variasi ketinggian orang dewasa. Semua fenomena ini dijelaskan. Jadi, ada beberapa fenomena yang tidak mengikuti distribusi ini: kekayaan negara dan individu, fluktuasi harga saham, nilai tukar, frekuensi penggunaan kata-kata, kekuatan gempa ... Untuk fenomena seperti itu, karakteristiknya adalah bahwa nilai rata-rata sangat tergantung pada sampel. Misalnya, jika Anda mengambil seratus orang secara acak dengan ketinggian berbeda, menambahkan orang tertinggi di Bumi ke dalamnya tidak akan banyak mengubah tinggi rata-rata grup ini. Jika kita menghitung pendapatan rata-rata seratus orang secara acak, kemudian menambahkan orang terkaya di planet ini - Carlos Slim Elu (dan bukan Bill Gates, seperti yang mungkin dipikirkan banyak orang :)) akan secara signifikan meningkatkan kekayaan rata-rata setiap orang, menjadi sekitar 500 juta dolar!

Manifestasi lain dari fraktalitas adalah stratifikasi sampel yang signifikan. Pertimbangkan, misalnya,

Setuju, pola yang disajikan seperti dua tetes air mirip dengan kurva Zipf!

Salah satu sifat fraktalitas adalah pengulangan diri. Jadi, dari 192 negara di dunia yang terdaftar dalam daftar, 80% kekayaan dunia terkonsentrasi hanya di 18 negara - 9,4% (18/192). Jika sekarang kita mempertimbangkan hanya 18 negara ini, maka total kekayaan mereka adalah 46 triliun. dolar - didistribusikan secara merata. 80% dari 46 triliun ini. Terkonsentrasi di kurang dari setengah negara, dll.

Anda mungkin bertanya: apa kesimpulan praktis dari semua ini? Saya akan mengatakan ini:

Sistem sosial dan ekonomi tidak dijelaskan oleh seorang Gaussian. Pola-pola ini mematuhi deret pangkat [sinonim dengan sifat fraktal].
Pencilan dari rata-rata secara substansial lebih mungkin daripada yang diprediksi oleh kurva lonceng Gaussian. Selain itu, outlier bersifat intrinsik pada sistem; mereka tidak acak, tetapi teratur.
Estimasi risiko tidak dapat dibangun berdasarkan distribusi probabilitas normal dari kejadian yang tidak diinginkan yang jarang terjadi.
… Saya tidak akan berbohong, saya belum bisa memikirkan hal lain … tetapi ini tidak berarti bahwa tidak ada kesimpulan yang lebih praktis … hanya saja pengetahuan saya terbatas pada ini …

... tapi harus Anda akui, pola yang indah!

Untuk fraktalitas, lihat Benoit Mandelbrot

Perlu dicatat bahwa data dari sumber yang berbeda sangat bervariasi, tetapi ini tidak relevan dengan topik yang dibahas di sini.

Di antara kriteria untuk menilai kualitas teks, kealamiannya dianggap yang utama. Indikator ini dapat diverifikasi menggunakan metode matematika yang ditemukan oleh ahli bahasa Amerika George Zipf.

Tes hukum Zipf- Ini adalah metode untuk menilai kewajaran teks, menentukan keteraturan susunan kata, di mana frekuensi kata berbanding terbalik dengan tempatnya dalam teks.

Hukum pertama Zipf "peringkat - frekuensi"

C \u003d (Frekuensi kemunculan kata x Peringkat frekuensi) / Jumlah kata.

Jika kita mengambil rasio sebuah kata dengan peringkat frekuensi, maka nilai (C) tidak akan berubah, dan ini berlaku untuk dokumen dalam bahasa apa pun, dalam setiap kelompok bahasa nilainya akan konstan.

Kata-kata yang penting bagi dokumen dan menentukan pokok bahasannya berada di tengah-tengah hiperbola. Kata-kata yang paling sering digunakan, serta yang berfrekuensi rendah, tidak memiliki makna semantik yang menentukan.

Hukum kedua Zipf "kuantitas - frekuensi"

Frekuensi sebuah kata dan jumlahnya dalam teks juga saling berhubungan. Jika Anda membuat grafik, di mana X adalah frekuensi kata, Y adalah jumlah kata dari frekuensi tertentu, bentuk kurva tidak akan berubah.

Prinsip menulis teks yang baik menunjukkan bahwa itu harus dibuat paling mudah dipahami dengan menggunakan kata-kata yang paling sedikit.

Hukum menunjukkan properti umum untuk bahasa apa pun, karena akan selalu ada sejumlah kata yang paling sering muncul.

Penting untuk memeriksa teks SEO untuk kealamian jika kata kunci digunakan secara tertulis sehingga menarik dan dapat dimengerti oleh banyak pembaca. Juga, indikator ini penting ketika memberi peringkat situs oleh mesin pencari, yang menentukan korespondensi teks dengan kueri utama, mendistribusikan kata-kata ke dalam kelompok-kelompok penting, acak dan tambahan.

Lagi:

Hubungan antara frekuensi kemunculan kata dalam teks f dan tempatnya dalam kamus frekuensi (rank) r berbanding terbalik. Semakin tinggi peringkat kata (semakin jauh dari awal kamus), semakin rendah frekuensi kemunculannya dalam teks.
Grafik ketergantungan semacam itu adalah hiperbola, yang turun sangat tajam pada peringkat rendah, dan kemudian, di wilayah nilai frekuensi kemunculan yang kecil, f, membentang sangat jauh, secara bertahap, tetapi sangat tidak terlihat, menurun seiring pangkat, r, meningkat.
Jika frekuensi kemunculan satu kata adalah 4 per sejuta, dan frekuensi kemunculan kata lain adalah 3 per sejuta, tidak masalah jika peringkat kata-kata ini berbeda seribu kali. Kata-kata ini sangat jarang digunakan sehingga banyak penutur asli bahkan belum pernah mendengarnya.
Namun, wilayah yang jauh ini luar biasa karena kata yang terletak di sini dapat dengan mudah mengurangi nilai peringkatnya berkali-kali lipat. Bahkan peningkatan terkecil dalam frekuensi kemunculan sebuah kata secara dramatis menggeser posisinya ke awal kamus frekuensi.
Dari segi hukum ini, ukuran popularitas sebuah kata adalah posisinya dalam kamus frekuensi bahasa tersebut. Kata yang lebih populer lebih dekat ke bagian atas kamus daripada kata yang kurang populer.
Ini mencerminkan ketergantungan frekuensi penggunaan kata dalam bahasa pada tempatnya dalam kamus frekuensi. Kata-kata populer dari bahasa tersebut lebih sering digunakan. Dari sudut pandang matematika, grafik ketergantungan ini adalah hiperbola dengan kenaikan tajam ketika mendekati titik asal dan "ekor" yang panjang, lembut, hampir horizontal. Sebagian besar kata-kata bahasa terletak di "ekor" ini. Di sini tempat sebuah kata dalam kamus frekuensi, jika itu mengubah frekuensi penggunaan kata ini dalam bahasa, sama sekali tidak banyak.
Tetapi segera setelah posisi kata dalam kamus frekuensi mencapai tempat itu pada hiperbola, di mana, ketika kita mendekati titik asal, kenaikan kurva yang signifikan dimulai, situasinya berubah. Sekarang perubahan kecil dalam frekuensi kemunculan suatu kata tidak lagi menyebabkan perubahan signifikan dalam peringkatnya, yaitu, posisi kata dalam kamus frekuensi tidak lagi berubah. Ini berarti bahwa pertumbuhan popularitas kata telah melambat. Agar terus berlanjut, perlu dilakukan tindakan khusus untuk meningkatkan frekuensi kemunculan kata tersebut. Misalnya, jika kata tersebut adalah nama produk, Anda perlu mengeluarkan uang untuk perusahaan periklanan (

Halo! Belakangan ini, semakin sering saya mendengar dari rekan-rekan tentang persyaratan dalam TOR untuk mengevaluasi kualitas teks menurut hukum Zipf. Dan tidak semua orang mengerti cara mengedit teks untuk undang-undang ini. Dalam artikel hari ini saya akan mencoba memberi tahu Anda cara meningkatkan parameter dengan cara paling sederhana, dan juga menjelaskan mengapa penulis yang baik tidak benar-benar membutuhkannya.

Anda dapat menentukan kualitas teks menurut hukum Zipf menggunakan beberapa layanan. Tapi, menurut saya PR-CY adalah yang paling memadai, menggabungkan formula yang tepat dengan antarmuka yang sederhana dan mudah dipahami. Itulah yang saya gunakan dalam penyusunan materi ini.

Apa itu hukum Zipf?

Untuk memulainya, ada baiknya memahami apa itu. Menurut Wikipedia, Jean-Baptiste Estoux merumuskan pola ini pada tahun 1908, undang-undang ini awalnya mengacu pada steno. Penerapan pertama dari keteraturan yang diketahui masyarakat umum berkaitan dengan demografi, dan lebih tepatnya pada persebaran penduduk di kota-kota, digunakan oleh Felix Auerbach.

Pola ini menerima nama modernnya pada tahun 1949 berkat ahli bahasa George Zipf. Dia menunjukkan dengan bantuannya gradasi distribusi kekayaan di antara penduduk. Dan baru kemudian hukum mulai diterapkan untuk menentukan keterbacaan teks.

Bagaimana cara menghitungnya?

Untuk menggunakan hukum ini dengan benar, Anda perlu memahami cara kerjanya. Mari kita menganalisis rumus untuk perhitungannya.

F adalah frekuensi penggunaan kata;
R adalah nomor seri;
C adalah nilai konstan (angka yang menunjukkan kata terbesar dalam hal jumlah pengulangan).

Dalam praktiknya, formula lain ternyata lebih nyaman, terlihat lebih jelas.

Pendekatan ini lebih nyaman, karena kami memiliki data tentang jumlah pengulangan kata yang paling umum. Dari kuantitas inilah mereka ditolak.

Untuk menyederhanakan, dalam teks kita, kata kedua yang paling sering muncul harus dua kali lebih jarang dari yang pertama. Datang di tempat ketiga, tiga kali dan seterusnya.

Contoh pas teks

Teori telah ditangani dengan sedikit. Masih berurusan dengan latihan. Sebagai teks percobaan, saya mengambil artikel dari T-Zh. Kenapa dari sana? Semuanya sederhana. Saat ini, ini adalah salah satu contoh terbaik dari gaya info yang disukai banyak orang. Nah, menarik apa yang akan ditunjukkan oleh teks yang ditulis di bawah arahan Maxim Ilyakhov. Saya akan segera mengatakan bahwa teks untuk indikator ini berada pada level, meskipun, setelah menyekop lebih dari 40 situs, saya tidak menemukan satu artikel pun dengan kealamian yang buruk sama sekali. Juga, saya akan segera melompat ke depan dan mengatakan bahwa teks eksperimental setelah pemasangan menjadi jauh lebih buruk, meskipun skor Zipf meningkat, Anda tidak perlu terlalu repot dengan peningkatan kealamian yang berlebihan.

Inilah yang ditunjukkan oleh penganalisis kepada kami setelah memeriksa.

Mari kita lihat apa saja yang ada di dalamnya. Seperti yang Anda lihat, ada kolom dengan kata-kata, serta angka yang tidak bisa dipahami. Kolom "kejadian" (1) menunjukkan berapa kali bentuk kata muncul dalam teks. Di kolom Zipf (2) adalah jumlah entri yang disarankan. Penanda 3 dan 4 menandai indikator ideal untuk posisi kedua dan ketiga. Anda juga harus memperhatikan rekomendasi, ini menunjukkan berapa banyak kata yang perlu Anda hapus untuk mencapai kombinasi yang sempurna.

Untuk pemahaman yang lebih baik, mari kita analisis apa yang dihitung oleh penganalisis. Kami mengambil angka 39 (C) sebagai dasar, kami juga membutuhkan nomor seri, perhatikan posisi 2 (F). Kami mengambil rumusnya.

Pengganti.

F=39/2=19.5

Kami mengumpulkan dan mendapatkan 20, ini akan menjadi jumlah kemunculan yang diperlukan. Ini dikonfirmasi oleh penganalisa. Di negara kita, kata paling populer kedua digunakan 28 kali, masing-masing, 8 pengulangan perlu dihapus atau diganti.

Setelah berurusan dengan prinsip hukum, kami mulai mengedit. Untuk melakukan ini, kami menghapus atau mengganti dengan kata-kata sinonim yang memiliki kemunculan lebih dari yang dibutuhkan oleh Zipf. Hasilnya, kami mendapatkan gambar ini.

Seperti yang Anda lihat, saya berhasil meningkatkan tarif dari 83% menjadi 88%. Namun, kualitas teks mengalami penurunan yang signifikan. Anda tidak harus berusaha untuk meningkatkan angka ini menjadi 100%. Bahkan, jika Anda sudah memiliki 75%, ini sangat bagus dan Anda tidak boleh menyimpang lebih jauh.

Saran yang bermanfaat

Perhatikan tidak hanya pada baris pertama. Mulai pas dari posisi terakhir dalam daftar, mereka sering memiliki dampak yang lebih besar pada skor keseluruhan daripada sepuluh kata pertama.

Zipf dan SEO

Sekarang mari kita beralih ke mengapa seorang copywriter perlu mengetahui pola ini. Saat memesan teks, SEO berusaha menjadikannya yang paling nyaman untuk mesin telusur. Diyakini (meskipun tidak jelas oleh siapa) bahwa hukum Zipf digunakan secara aktif oleh algoritma pencarian. Sulit untuk membuktikan atau menyangkal pernyataan ini. Saya tidak dapat menemukan penelitian dan eksperimen yang waras tentang topik ini.

Memutuskan untuk memeriksanya sendiri. Untuk melakukan ini, saya mengambil masalah untuk pertanyaan kompetitif seperti "jendela plastik", Yandex mengambil masalah Moskow, saya harus menyulap di Google, dan dia juga sepertinya mengidentifikasi saya sebagai penduduk ibukota (setidaknya dia menunjukkan kepada saya iklan dengan geolokasi Moskow). Saya mengambil halaman pertama dari masalah ini, ditambah tempat ke-49. Ini adalah bagaimana tanda itu ternyata.

Jika Anda melihat lebih dekat, Anda dapat melihat bahwa di Yandex outputnya lebih merata, jika Anda melihat pola yang kita pelajari. Namun, pada saat yang sama, angka yang lebih tinggi tidak menjamin kemenangan dalam perebutan tempat pertama di puncak.

Berdasarkan hal ini, dapat dikatakan bahwa jika mesin pencari menerapkan undang-undang ini, itu hanya salah satu faktornya. Dan bukan yang utama.

temuan

Itu dia. Sekarang Anda tahu seperti apa kualitas teks menurut hukum Zipf, dan Anda juga dapat menyesuaikan indikator ini. Faktanya, tidak ada yang rumit di sini, semuanya cukup sederhana. Cukup memahami prinsip pengoperasian keteraturan ini sekali.

Dunia SEO terus berkembang, dan optimasi tidak berhenti. Ada metode baru untuk menulis teks, persiapan mereka untuk pengindeksan yang lebih baik. Salah satu parameter yang sangat diperhatikan oleh pengoptimal adalah kealamian teks menurut hukum Zipf. Apa hukum Zipf dan perannya dalam promosi SEO?

Menurut kata-katanya, hukum Zipf adalah keteraturan yang ditetapkan secara empiris di lokasi frekuensi kata dalam sebuah teks. Menurut hukum, frekuensi sebuah kata dalam sebuah teks hampir berbanding terbalik dengan tempatnya dalam daftar. Artinya, jika kita mulai dari hukum, kata kedua yang paling sering disebutkan dalam teks harus digunakan dua kali lebih jarang daripada yang pertama, dan yang ketiga - tiga kali lebih jarang, dan seterusnya.

Untuk memudahkan memahami pola ini, sebaiknya perhatikan susunan huruf pada keyboard komputer. Ini bukan kebetulan: huruf-huruf yang paling sering digunakan dalam bahasa apa pun terletak lebih nyaman daripada huruf-huruf yang lebih jarang digunakan. Situasi dengan kata-kata identik: ada kata-kata yang sering digunakan dan kata-kata yang jarang digunakan, kata-kata yang lebih signifikan menentukan subjek teks.

Pemisahan oleh pentingnya kata-kata juga digunakan ketika peringkat situs dalam algoritma mesin pencari. Dengan mengingat hal ini, perbedaan kata dalam arti dan frekuensi penggunaan membantu membagi kata menjadi 3 kelompok saat menulis teks SEO:

Bantu. Kelompok ini termasuk kata-kata yang tidak membawa beban semantik independen, seperti konjungsi, preposisi, kata ganti, partikel. Semua kata bantu dianggap oleh mesin pencari sebagai gangguan informasi dan diabaikan saat memberi peringkat.
Penting. Kata-kata seperti itu kurang umum dalam teks dan membawa beban semantik yang signifikan. Mesin pencari menganggap kata-kata dari grup ini sebagai kata kunci.
Acak. Kata-kata dari grup ini jarang digunakan untuk teks tentang subjek tertentu dan praktis tidak mempengaruhi peringkat pencarian.

Menurut pakar SEO, ahli bahasa Amerika George Zipf mendefinisikan hukum yang mulai digunakan mesin pencari untuk menentukan kealamian dan keunikan teks berdasarkan frekuensi kata yang digunakan.

SEO sering menghadapi masalah dengan promosi teks ketika skor keunikan dan relevansi tinggi. Artinya, teks dapat menjadi 100% unik, dioptimalkan untuk kueri kunci dengan relevansi tinggi, dan pada saat yang sama tidak mencapai puncak atau, lebih buruk, tetap tidak terlihat oleh program analisis posisi.

Tidak mudah untuk menentukan seberapa besar hukum Zipf secara individual memengaruhi hasil pencarian. Kemungkinan besar, mesin pencari memperhitungkan kombinasi banyak faktor, di antaranya ada pemeriksaan kealamian menurut Zipf. Saat ini, konten memainkan salah satu peran terpenting dalam promosi pencarian, oleh karena itu, saat membuat teks SEO, disarankan untuk memantau dengan cermat indikator keunikan dan kealamian. Ada banyak layanan untuk memeriksa teks. Mari kita membahas dua situs paling populer dan terbukti - 1y.ru dan pr-cy.ru.

Layanan 1thn.ru

Situs ini memungkinkan Anda untuk memeriksa kealamian konten halaman web individual, seluruh situs atau teks dari 100 hingga 5000 kata. Batas untuk pengguna anonim memungkinkan memeriksa hingga 2000 teks per hari. Kerugian dari situs ini adalah tidak mungkin untuk memeriksa halaman web tanpa mendistorsi hasil, karena layanan memindai semua informasi tekstual yang ditemukan, termasuk rubrikator, widget, menu, dan jenis teks tambahan lainnya.

Setelah memeriksa teks, 1y.ru memberikan statistik konten dengan rekomendasi untuk mengurangi kata-kata yang diulang dan menyediakan grafik dengan tiga kurva: kurva nilai teks yang diperiksa, kurva nilai yang direkomendasikan, dan kurva nilai ideal .

Layanan pr-cy.ru

Sumber daya ini juga memberikan kesempatan untuk mengevaluasi kealamian teks dan halaman web. Layanan menyaring kata-kata berhenti, menghitung persentase mual teks, dan juga memberikan rekomendasi untuk mengurangi atau meningkatkan jumlah kemunculan menurut hukum Zipf.

Kesimpulan

Perbedaan hasil saat memeriksa satu teks di layanan yang berbeda dapat menjadi signifikan. Jadi, tiga paragraf pertama dari teks yang Anda baca menunjukkan 59% untuk 1y.ru dan 88% untuk pr-cy.ru. Hanya ada satu kesimpulan: saat menulis teks, Anda tidak boleh terlalu memperhatikan memasukkan entri kunci ke dalam badan artikel. Anda perlu menulis dengan cara yang menarik dan mudah diakses, dan jika Anda masih perlu menyematkan kata kunci dalam teks, maka Anda harus memeriksa teks menggunakan metode Zipf.

kata-kata bahasa alami: jika semua kata dari suatu bahasa (atau hanya teks yang cukup panjang) diurutkan dalam urutan menurun dari frekuensi penggunaannya, maka frekuensi n-kata ke dalam daftar seperti itu kira-kira berbanding terbalik dengan nomor urutnya n(disebut pangkat kata ini, lihat skala keteraturan). Misalnya, kata kedua yang paling sering digunakan kira-kira dua kali lebih jarang daripada yang pertama, yang ketiga tiga kali lebih jarang daripada yang pertama, dan seterusnya.

Sejarah penciptaan[ | ]

Penulis penemuan pola tersebut adalah seorang stenografer Prancis (fr. Jean-Baptiste Estoup), yang menggambarkannya pada tahun 1908 dalam The Range of Shorthand. Hukum ini pertama kali diterapkan untuk menggambarkan distribusi ukuran kota oleh fisikawan Jerman Felix Auerbach dalam karyanya "The Law of Population Concentration" pada tahun 1913 dan dinamai ahli bahasa Amerika George Zipf, yang pada tahun 1949 secara aktif mempopulerkan pola ini, pertama kali mengusulkan menggunakannya untuk menggambarkan distribusi kekuatan ekonomi dan status sosial.

Penjelasan hukum Zipf berdasarkan sifat korelasi rantai Markov aditif (dengan fungsi memori langkah) diberikan pada tahun 2005.

Hukum Zipf secara matematis dijelaskan oleh distribusi Pareto. Ini adalah salah satu hukum dasar yang digunakan dalam infometrik.

Aplikasi hukum[ | ]

George Zipf pada tahun 1949 pertama kali menunjukkan distribusi pendapatan orang menurut ukurannya: orang terkaya memiliki uang dua kali lebih banyak daripada orang terkaya berikutnya, dan seterusnya. Pernyataan ini ternyata benar untuk sejumlah negara (Inggris, Prancis, Denmark, Belanda, Finlandia, Jerman, AS) pada periode 1926 hingga 1936.

Hukum ini juga berlaku dalam kaitannya dengan distribusi sistem kota: kota dengan populasi terbesar di negara mana pun adalah dua kali lebih besar dari kota terbesar berikutnya, dan seterusnya. Jika Anda mengatur semua kota di negara tertentu dalam daftar dalam urutan populasi yang menurun, maka setiap kota dapat diberi peringkat tertentu, yaitu jumlah yang diterimanya dalam daftar ini. Pada saat yang sama, ukuran dan peringkat populasi mengikuti pola sederhana yang dinyatakan oleh rumus:

P n = P 1 / n (\displaystyle P_(n)=P_(1)/n),

di mana P n (\gaya tampilan P_(n))- penduduk kota n peringkat -th; P 1 (\gaya tampilan P_(1))- populasi kota utama negara (peringkat 1).

Studi empiris mendukung pernyataan ini.

Pada tahun 1999, ekonom Xavier Gabet menggambarkan hukum Zipf sebagai contoh hukum kekuatan: jika kota tumbuh secara acak dengan standar deviasi yang sama, maka pada batas distribusi akan menyatu dengan hukum Zipf.

Menurut temuan para peneliti sehubungan dengan pemukiman perkotaan di Federasi Rusia, sesuai dengan hukum Zipf:

sebagian besar kota di Rusia berada di atas kurva Zipf yang ideal, sehingga tren yang diharapkan adalah penurunan terus-menerus dalam jumlah dan populasi kota-kota menengah dan kecil karena migrasi ke kota-kota besar;
karenanya, 7 juta lebih kota (St. Petersburg, Novosibirsk, Yekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk), yang berada di bawah kurva Zipf yang ideal, memiliki cadangan pertumbuhan penduduk yang signifikan dan mengharapkan pertumbuhan penduduk;
ada risiko depopulasi kota pertama di peringkat (Moskow), karena kota kedua (St. Petersburg) dan kota-kota besar berikutnya jauh di belakang kurva Zipf yang ideal karena penurunan permintaan tenaga kerja dengan peningkatan simultan dalam biaya hidup, termasuk, pertama-tama, biaya pembelian dan sewa perumahan.

Kritik [ | ]

ahli bioinformatika Amerika mengusulkan penjelasan statistik hukum Zipf, membuktikan bahwa urutan karakter acak juga mematuhi hukum ini. Penulis menyimpulkan bahwa hukum Zipf, tampaknya, adalah fenomena statistik murni yang tidak ada hubungannya dengan semantik teks dan memiliki hubungan yang dangkal dengan linguistik.