რუსულ ენაში ასოების გამოყენების სიხშირე. როგორ გამოვიყენოთ რუსული ლექსიკის ახალი სიხშირის ლექსიკონი. სიტყვების სიხშირის სტატისტიკა რუსულ ენაზე

რუსულ ენაზე ასოების გამოყენების სიხშირე

იცით თუ არა, რომ ანბანის ზოგიერთი ასო სიტყვებში უფრო ხშირად გვხვდება, ვიდრე სხვები... უფრო მეტიც, ენაში ხმოვანთა სიხშირე უფრო მაღალია, ვიდრე თანხმოვნები.

რუსული ანბანის რომელი ასოა ყველაზე მეტად ან ნაკლებად გავრცელებული ტექსტის დასაწერად გამოყენებულ სიტყვებში?

სტატისტიკა ეწევა ზოგადი შაბლონების იდენტიფიკაციასა და შესწავლას. ამ სამეცნიერო მიმართულების დახმარებით თქვენ შეგიძლიათ უპასუხოთ ზემოხსენებულ კითხვას რუსული ანბანის თითოეული ასოს რაოდენობის დათვლით, გამოყენებული სიტყვებით, ამონაწერის არჩევით სხვადასხვა ავტორის ნაშრომებიდან. საკუთარი ინტერესებისთვის და მოწყენილობისთვის ყველას შეუძლია ამის გაკეთება თავისით. მივმართავ უკვე ჩატარებული კვლევის სტატისტიკას...

რუსული ანბანი კირილიცაა. თავისი არსებობის მანძილზე მან გაიარა რამდენიმე რეფორმა, რის შედეგადაც ჩამოყალიბდა თანამედროვე რუსული ანბანური სისტემა, რომელიც მოიცავს 33 ასოს.

o - 9.28%
a - 8.66%
e - 8.10%
და - 7,45%
n - 6.35%
t - 6.30%
p - 5.53%
გ - 5,45%
ლ - 4.32%
c — 4.19%
კ - 3.47%
n - 3.35%
მ - 3.29%
y - 2.90%
e - 2.56%
I - 2.22%
s — 2.11%
ბ - 1.90%
სთ - 1.81%
ბ - 1.51%
d - 1.41%
ე - 1.31%
სთ - 1.27%
yu - 1.03%
x - 0.92%
გ - 0,78%
w - 0.77%
გ - 0.52%
u - 0.49%
ვ - 0.40%
e - 0.17%
ბ — 0.04%

რუსული ასო ყველაზე მაღალი სიხშირით არის ხმოვანი " “, როგორც აქ სამართლიანად იყო შემოთავაზებული. ასევე არის დამახასიათებელი მაგალითები, როგორიცაა " თავდაცვითი შესაძლებლობა(7 ცალი ერთი სიტყვით და არაფერი ეგზოტიკური ან გასაკვირი; ძალიან კარგად იცნობს რუსულ ენას). ასო "O"-ს მაღალი პოპულარობა დიდწილად განპირობებულია ისეთი გრამატიკული ფენომენით, როგორიცაა სრული ხმოვანი. ანუ „ცივის“ ნაცვლად „ცივი“ და „ნაძირის“ ნაცვლად „ყინვა“.

და სიტყვების დასაწყისშივე, თანხმოვანი ასო " ". ეს ხელმძღვანელობა ასევე თავდაჯერებული და უპირობოა. სავარაუდოდ, ახსნაში მოცემულია პრეფიქსების დიდი რაოდენობა ასო "P"-ით: ხელახალი, წინასწარი, წინასწარი, წინასწარი, პრო- და სხვა.

ასოების სიხშირე კრიპტოანალიზის საფუძველია.

მინდა გაგაფრთხილოთ, რომ ამ სტატიაში წარმოდგენილი ინფორმაცია გარკვეულწილად მოძველებულია. მე არ გადამიწერია, რომ მოგვიანებით შევადარო, თუ როგორ იცვლება SEO სტანდარტები დროთა განმავლობაში. თქვენ შეგიძლიათ იპოვოთ უახლესი ინფორმაცია ამ თემაზე ახალ მასალებში:

გამარჯობა, ბლოგის საიტის ძვირფასო მკითხველებო. დღევანდელი სტატია კვლავ დაეთმობა ისეთ თემას, როგორიცაა საძიებო სისტემის ოპტიმიზაცია (). მანამდე ჩვენ უკვე შევეხეთ ბევრ საკითხს, რომელიც ეხება ისეთ კონცეფციას, როგორიცაა.

დღეს მსურს გავაგრძელო საუბარი გვერდის SEO-ზე, განვმარტო ადრე ნახსენები რამდენიმე პუნქტი, ასევე ვისაუბრო იმაზე, რაც ჯერ არ გვისაუბრია. თუ თქვენ შეძლებთ დაწეროთ კარგი უნიკალური ტექსტები, მაგრამ ამავე დროს სათანადო ყურადღებას არ აქცევთ საძიებო სისტემების მიერ მათ აღქმას, მაშინ ისინი ვერ შეძლებენ გზას ძიების შედეგების ზედა ნაწილამდე აიღონ კითხვებთან დაკავშირებით. თქვენი მშვენიერი სტატიების თემები.

რა გავლენას ახდენს ტექსტის შესაბამისობაზე საძიებო მოთხოვნასთან

და ეს ძალიან სამწუხაროა, რადგან ამ გზით თქვენ ვერ აცნობიერებთ თქვენი პროექტის სრულ პოტენციალს, რაც შეიძლება ძალიან შთამბეჭდავი იყოს. თქვენ უნდა გესმოდეთ, რომ საძიებო სისტემები უმეტესწილად სულელური და პირდაპირი პროგრამებია, რომლებსაც არ შეუძლიათ თავიანთი შესაძლებლობების მიღმა გასვლა და თქვენს პროექტს ადამიანის თვალით შეხედონ.

ისინი ვერ დაინახავენ ბევრს, რაც არის კარგი და საჭირო თქვენს პროექტში (რაც თქვენ მოამზადეთ ვიზიტორებისთვის). მათ შეუძლიათ მხოლოდ ტექსტის ანალიზი, ბევრი კომპონენტის გათვალისწინებით, მაგრამ მაინც ძალიან შორს არიან ადამიანის აღქმისგან.

ამიტომ, ჩვენ ცოტა ხნით მაინც დაგვჭირდება საძიებო რობოტების პოზიციაში ჩასვლა და გავიგოთ, რაზე აკეთებენ აქცენტს ისინი სხვადასხვა საძიებო მოთხოვნისთვის სხვადასხვა ტექსტების რანჟირებისას (). და ამისათვის თქვენ უნდა გქონდეთ წარმოდგენა, ამისთვის დაგჭირდებათ სტატიის წაკითხვა.

როგორც წესი, ისინი ცდილობენ გამოიყენონ საკვანძო სიტყვები გვერდის სათაურში, ზოგიერთ შიდა სათაურში, ასევე თანაბრად და რაც შეიძლება ბუნებრივად გაავრცელონ ისინი მთელ სტატიაში. დიახ, რა თქმა უნდა, ტექსტში გასაღებების ხაზგასმა ასევე შეიძლება გამოყენებულ იქნას, მაგრამ არ დაივიწყოთ ხელახალი ოპტიმიზაცია, რომელიც შეიძლება მოჰყვეს.

ასევე მნიშვნელოვანია ტექსტში გასაღებების გაჩენის სიმკვრივე, მაგრამ ახლა ეს არ არის სასურველი ფაქტორი, არამედ, პირიქით, გამაფრთხილებელი - არ შეიძლება გადაჭარბება.

დოკუმენტში საკვანძო სიტყვის სიმკვრივის მნიშვნელობა განისაზღვრება საკმაოდ მარტივად. სინამდვილეში, ეს არის ტექსტში მისი გამოყენების სიხშირე, რომელიც განისაზღვრება დოკუმენტში მისი გაჩენის რაოდენობის გაყოფით დოკუმენტის სიგრძეზე სიტყვებით. ადრე ამაზე პირდაპირ იყო დამოკიდებული საიტის პოზიცია ამ საკითხში.

მაგრამ თქვენ ალბათ გესმით, რომ შეუძლებელი იქნება მთელი მასალის შედგენა მხოლოდ გასაღებებიდან, რადგან ის არ იკითხება, მაგრამ მადლობა ღმერთს ეს არ არის საჭირო. Რატომ კითხულობ? დიახ, რადგან არსებობს შეზღუდვა ტექსტში საკვანძო სიტყვის გამოყენების სიხშირეზე, რის შემდეგაც დოკუმენტის შესაბამისობა ამ საკვანძო სიტყვის შემცველი მოთხოვნისთვის აღარ გაიზრდება.

იმათ. საკმარისი იქნება, რომ მივაღწიოთ გარკვეულ სიხშირეს და ამდენად, მაქსიმალურად გავაუმჯობესოთ ის. ან ვაჭარბებთ და ფილტრის ქვეშ ვიქცევით.

რჩება ორი კითხვის გადაჭრა (და შესაძლოა სამი): რა არის საკვანძო სიტყვის წარმოქმნის მაქსიმალური სიმკვრივე, რის შემდეგაც უკვე საშიშია მისი გაზრდა და ასევე გარკვევა.

ფაქტია, რომ საკვანძო სიტყვებს, რომლებიც ხაზგასმულია აქცენტის ტეგებით და ჩასმულია TITLE ტეგში, უფრო მეტი წონა აქვს ძიებისას, ვიდრე მსგავს საკვანძო სიტყვებს, რომლებიც უბრალოდ გვხვდება ტექსტში. მაგრამ ამ ბოლო დროს ვებმასტერებმა დაიწყეს მისი გამოყენება და მთლიანად სპამი გაუკეთეს ამ ფაქტორს, რის გამოც მისი მნიშვნელობა შემცირდა და შეიძლება გამოიწვიოს მთელი საიტის აკრძალვაც კი ძლიერი ძალების ბოროტად გამოყენების გამო.

მაგრამ TITLE-ის კლავიშები კვლავ აქტუალურია, უმჯობესია არ გაიმეოროთ ისინი იქ და არ შეეცადოთ მათი გადატანა ერთი გვერდის სათაურში. თუ საკვანძო სიტყვები არის TITLE-ში, მაშინ ჩვენ შეგვიძლია მნიშვნელოვნად შევამციროთ მათი რიცხვი სტატიაში (და, შესაბამისად, გავხადოთ ის ადვილად წასაკითხი და უფრო შესაფერისი ხალხისთვის და არა საძიებო სისტემებისთვის), იგივე შესაბამისობის მიღწევის შემდეგ, მაგრამ რისკის გარეშე. ფილტრის ქვეშ მოხვედრა.

ვფიქრობ, ამ კითხვასთან დაკავშირებით ყველაფერი ნათელია - რაც უფრო მეტი კლავიატურაა აქცენტით და TITLE ტეგებით, მით მეტია შანსი, რომ ყველაფერი ერთდროულად დაკარგოთ. მაგრამ თუ მათ საერთოდ არ იყენებთ, მაშინ ვერც ვერაფერს მიაღწევთ. ყველაზე მნიშვნელოვანი კრიტერიუმია ტექსტში საკვანძო სიტყვების შეტანის ბუნებრიობა. თუ ისინი არიან, მაგრამ მკითხველი არ წააწყდება მათზე, მაშინ ზოგადად ყველაფერი კარგადაა.

ახლა რჩება იმის გარკვევა, თუ რა სიხშირეა დოკუმენტში საკვანძო სიტყვის გამოყენების ოპტიმალური, რაც საშუალებას გაძლევთ გახადოთ გვერდი მაქსიმალურად აქტუალური სანქციების გარეშე. ჯერ გავიხსენოთ ფორმულა, რომელსაც საძიებო სისტემების უმეტესობა (ალბათ ყველა) იყენებს რეიტინგისთვის.

როგორ განვსაზღვროთ გასაღების გამოყენების მისაღები სიხშირე

ჩვენ უკვე ვისაუბრეთ მათემატიკური მოდელის შესახებ ზემოთ ხსენებულ სტატიაში. მისი არსი ამ კონკრეტული საძიებო მოთხოვნისთვის გამოიხატება ერთი გამარტივებული ფორმულით: TF*IDF. სადაც TF არის ამ მოთხოვნის გაჩენის პირდაპირი სიხშირე დოკუმენტის ტექსტში (სიხშირე, რომლითაც მასში ჩნდება სიტყვები).

IDF - ამ მოთხოვნის შებრუნებული სიხშირე (იშვიათობა) ყველა სხვა ინტერნეტ დოკუმენტში, რომელიც ინდექსირებულია ამ საძიებო სისტემის მიერ (კრებულში).

ეს ფორმულა საშუალებას გაძლევთ განსაზღვროთ დოკუმენტის შესაბამისობა (შესაბამისობა) საძიებო მოთხოვნასთან. რაც უფრო მაღალი იქნება პროდუქტის TF*IDF ღირებულება, მით უფრო აქტუალური იქნება ეს დოკუმენტი და მით უფრო მაღალი იქნება, ყველა სხვა თანაბარი.

იმათ. გამოდის, რომ დოკუმენტის წონა მოცემული მოთხოვნისთვის (მისი კორესპონდენცია) იქნება უფრო დიდი, რაც უფრო ხშირად გამოიყენება ამ მოთხოვნის კლავიშები ტექსტში და მით უფრო იშვიათად გვხვდება ეს გასაღებები სხვა ინტერნეტ დოკუმენტებში.

ნათელია, რომ ჩვენ არ შეგვიძლია გავლენა მოახდინოთ IDF-ზე, გარდა სხვა შეკითხვის არჩევისა, რომლის ოპტიმიზაციასაც მოვახდენთ. მაგრამ ჩვენ შეგვიძლია და მოვახდენთ გავლენას TF-ზე, რადგან გვსურს ავიღოთ ჩვენი წილი (და არა მცირე) ტრაფიკის Yandex-იდან და Google-ის ძიების შედეგებიდან მომხმარებლისთვის საჭირო კითხვებზე.

მაგრამ ფაქტია, რომ საძიებო ალგორითმები ითვლის TF მნიშვნელობას საკმაოდ რთული ფორმულის გამოყენებით, რომელიც ითვალისწინებს ტექსტში საკვანძო სიტყვის გამოყენების სიხშირის ზრდას მხოლოდ გარკვეულ ზღვარამდე, რის შემდეგაც TF-ის ზრდა პრაქტიკულად ჩერდება, მიუხედავად ფაქტია, რომ გაზრდის სიხშირეს. ეს არის ერთგვარი ანტი-სპამის ფილტრი.

შედარებით დიდი ხნის წინ (დაახლოებით 2005 წლამდე), TF მნიშვნელობა გამოითვლებოდა საკმაოდ მარტივი ფორმულის გამოყენებით და რეალურად ტოლი იყო საკვანძო სიტყვის წარმოშობის სიმკვრივისა. ამ ფორმულის გამოყენებით შესაბამისობის გამოთვლის შედეგები საძიებო სისტემებს ზუსტად არ მოეწონათ, რადგან ისინი სპამერებს ეხებოდნენ.

შემდეგ TF ფორმულა გართულდა, გაჩნდა ისეთი რამ, როგორიცაა გვერდის გულისრევა და დაიწყო დამოკიდებული არა მხოლოდ გაჩენის სიხშირეზე, არამედ იმავე ტექსტში სხვა სიტყვების გამოყენების სიხშირეზე. და TF-ის ოპტიმალური მნიშვნელობის მიღწევა შეიძლებოდა, თუ გასაღები აღმოჩნდებოდა ყველაზე ხშირად გამოყენებული სიტყვა.

ასევე შესაძლებელი იყო TF მნიშვნელობის გაზრდა ტექსტის ზომის გაზრდით, შემთხვევის პროცენტის შენარჩუნებით. რაც უფრო დიდია პირსახოცი სტატიით გასაღებების იგივე პროცენტით, მით უფრო მაღალი იქნება ეს დოკუმენტი.

ახლა TF ფორმულა კიდევ უფრო გართულდა, მაგრამ ამავდროულად, ახლა არ გვჭირდება სიმკვრივის მიყვანა იქამდე, რომ ტექსტი წაუკითხავი გახდეს და საძიებო სისტემები დააწესებენაკრძალეთ ჩვენი პროექტი სპამისთვის. ახლა კი არ არის საჭირო არაპროპორციულად გრძელი ფურცლების დაწერა.

იგივე იდეალური სიმკვრივის შენარჩუნებისას (ჩვენ განვსაზღვრავთ მას შესაბამისი გრაფიკიდან ოდნავ დაბლა), სტატიის სიტყვის ზომის გაზრდა მხოლოდ გააუმჯობესებს მის პოზიციას SERP-ში, სანამ ის გარკვეულ სიგრძეს არ მიაღწევს. მას შემდეგ, რაც თქვენ გაქვთ იდეალური სიგრძე, მისი შემდგომი გაზრდა არ იმოქმედებს შესაბამისობაზე (უფრო ზუსტად, ეს იქნება, მაგრამ ძალიან, ძალიან ცოტა).

ეს ყველაფერი ნათლად ჩანს, თუ თქვენ შექმნით გრაფიკს ამ სახიფათო TF-ზე (პირდაპირი შესვლის სიხშირე) საფუძველზე. თუ ამ გრაფიკის ერთ სკალაზე არის TF, ხოლო მეორე სკალაზე - ტექსტში საკვანძო სიტყვის გაჩენის სიხშირის პროცენტი, მაშინ შედეგად მივიღებთ ეგრეთ წოდებულ ჰიპერბოლას:

გრაფიკი, რა თქმა უნდა, სავარაუდოა, რადგან ცოტამ თუ იცის რეალური TF ფორმულა, რომელსაც იყენებს Yandex ან Google. მაგრამ ხარისხობრივად შეიძლება განისაზღვროს ოპტიმალური დიაპაზონისადაც სიხშირე უნდა იყოს. ეს არის სიტყვების მთლიანი რაოდენობის დაახლოებით 2-3 პროცენტი.

თუ გავითვალისწინებთ, რომ რამდენიმე კლავიშს კვლავ ჩაურთავთ აქცენტის ტეგებსა და TITLE სათაურში, მაშინ ეს იქნება ლიმიტი, რის შემდეგაც სიმკვრივის შემდგომი ზრდა შეიძლება აკრძალვით იყოს სავსე. აღარ არის მომგებიანი ტექსტის გაჯერება და დამახინჯება დიდი რაოდენობით საკვანძო სიტყვებით, რადგან მეტი მინუსი იქნება ვიდრე პლიუსი.

ტექსტის სიგრძე საკმარისი იქნება პოპულარიზაციისთვის

იმავე სავარაუდო TF-ზე დაყრდნობით, შეიძლება მისი მნიშვნელობა სიტყვის სიგრძის მიხედვით. ამ შემთხვევაში, შეგიძლიათ აიღოთ საკვანძო სიტყვების სიხშირე მუდმივი ნებისმიერი სიგრძისთვის და ტოლი, მაგალითად, ნებისმიერ მნიშვნელობას ოპტიმალური დიაპაზონიდან (2-დან 3 პროცენტამდე).

აღსანიშნავია, რომ ჩვენ მივიღებთ ზუსტად იმავე ფორმის გრაფიკს, როგორც ზემოთ განხილული, მხოლოდ ტექსტის სიგრძე ათასობით სიტყვაში იქნება დარეგულირებული აბსცისის გასწვრივ. და მისგან შესაძლებელი იქნება დასკვნის გაკეთება ოპტიმალური სიგრძის დიაპაზონი, სადაც უკვე მიღწეულია TF-ის თითქმის მაქსიმალური მნიშვნელობა.

შედეგად, გამოდის, რომ ის იქნება 1000-დან 2000 სიტყვის დიაპაზონში. შემდგომი გაზრდით, აქტუალობა პრაქტიკულად არ გაიზრდება, ხოლო უფრო მოკლე სიგრძით, ის საკმაოდ მკვეთრად დაეცემა.

რომ. შეგვიძლია დავასკვნათ, რომ იმისათვის, რომ თქვენმა სტატიებმა დაიკავონ მაღალი ადგილები ძიების შედეგებში, თქვენ უნდა გამოიყენოთ საკვანძო სიტყვები ტექსტში მინიმუმ 2-3% სიხშირით. ეს არის პირველი და მთავარი დასკვნა, რაც ჩვენ გავაკეთეთ. ისე, მეორე ის არის, რომ ახლა სულაც არ არის საჭირო ტოპში მოხვედრისთვის ძალიან მოცულობითი სტატიების დაწერა.

საკმარისი იქნება 1000 - 2000 სიტყვის ეტაპს გადააჭარბოთ და მასში საკვანძო სიტყვების 2-3% შევიტანოთ. ესე იგი - ესე იგი რეცეპტი სრულყოფილი ტექსტისთვის, რომელსაც შეეძლება კონკურენცია გაუწიოს ზედა ადგილს დაბალი სიხშირის მოთხოვნებისთვის, თუნდაც გარე ოპტიმიზაციის გარეშე (ამ სტატიის ბმულების ყიდვა წამყვანებით, რომლებიც შეიცავს საკვანძო სიტყვებს). თუმცა, ცოტათი შემოვიხედე მირალინკები , GGL, Rotapost ან GetGoodLink კარგია, რადგან ის დაეხმარება თქვენს პროექტს.

კიდევ ერთხელ შეგახსენებთ, რომ თქვენ მიერ დაწერილი ტექსტის სიგრძე, ისევე როგორც მასში გარკვეული საკვანძო სიტყვების გამოყენების სიხშირე, შეგიძლიათ გაიგოთ სპეციალიზებული პროგრამების დახმარებით ან მათ ანალიზში სპეციალიზებული ონლაინ სერვისების დახმარებით. ერთ-ერთი ასეთი სერვისია ისტიო, იმ ნაწარმოების შესახებ, რომელთანაც ვესაუბრე.

ყველაფერი, რაც ზემოთ ვთქვი, არ არის ასი პროცენტით სანდო, მაგრამ ძალიან ჰგავს სიმართლეს. ყოველ შემთხვევაში, ჩემი პირადი გამოცდილება ადასტურებს ამ თეორიას. მაგრამ Yandex-ისა და Google-ის ალგორითმები მუდმივად განიცდის ცვლილებებს და ცოტამ თუ იცის, როგორი იქნება ხვალ, გარდა მათ, ვინც ახლოსაა მათ განვითარებასთან ან დეველოპერებთან.

Წარმატებას გისურვებ! მალე შევხვდებით ბლოგის გვერდების საიტზე

შეიძლება დაგაინტერესოთ

შიდა ოპტიმიზაცია - საკვანძო სიტყვების შერჩევა, გულისრევის შემოწმება, ოპტიმალური სათაური, კონტენტის დუბლირება და ხელახალი მიბმა დაბალ სიხშირეზე
საკვანძო სიტყვები ტექსტში და სათაურებში
როგორ მოქმედებს საკვანძო სიტყვები ვებსაიტის პოპულარიზაციაზე საძიებო სისტემებში
ონლაინ სერვისები ვებ მასტერებისთვის - ყველაფერი, რაც გჭირდებათ სტატიების დასაწერად, საძიებო სისტემის ოპტიმიზაციისა და მისი წარმატების გასაანალიზებლად
კონტენტის ოპტიმიზაციის გზები და საიტის თემის გათვალისწინება ლინკის პოპულარიზაციის დროს ხარჯების მინიმიზაციის მიზნით
Yandex Wordstat და სემანტიკური ბირთვი - საიტისთვის საკვანძო სიტყვების შერჩევა სტატისტიკის გამოყენებით ონლაინ სერვისიდან Wordstat.Yandex.ru
წამყვანი - რა არის ეს და რამდენად მნიშვნელოვანია ისინი ვებსაიტის პოპულარიზაციაში
რა საძიებო სისტემის ოპტიმიზაციის ფაქტორები მოქმედებს ვებსაიტის პოპულარიზაციაზე და რამდენად
დამოუკიდებლად საიტის პოპულარიზაცია, პოპულარიზაცია და ოპტიმიზაცია
ენის მორფოლოგიის აღრიცხვა და საძიებო სისტემების მიერ გადაწყვეტილი სხვა პრობლემები, ასევე განსხვავება HF, MF და LF მოთხოვნებს შორის
ვებსაიტის ნდობა - რა არის ეს, როგორ გავზომოთ ის XTools-ში, რა გავლენას ახდენს მასზე და როგორ გაზარდოთ თქვენი საიტის ავტორიტეტი

პრობლემის მოკლე განცხადება

არსებობს ფაილების ნაკრები ტექსტებით რუსულ ენაზე სხვადასხვა ჟანრის მხატვრული ლიტერატურიდან ახალი ამბების სიუჟეტებამდე. აუცილებელია სტატისტიკის შეგროვება სიტყვის სხვა ნაწილებთან წინადადებების გამოყენების შესახებ.

მნიშვნელოვანი პუნქტები ამოცანაში

1. საბაბებს შორის არის არა მხოლოდ ზედა რომ, მაგრამ სიტყვების სტაბილური კომბინაციები, რომლებიც გამოიყენება წინადადებებად, მაგალითად შედარებითან მიუხედავად. აქედან გამომდინარე, შეუძლებელია ტექსტების უბრალოდ დაშლა სივრცეების მიხედვით.

2. უამრავი ტექსტია, რამდენიმე GB, ამიტომ დამუშავება საკმარისად სწრაფი უნდა იყოს, სულ მცირე, რამდენიმე საათში.

გამოთვალეთ გამოსავალი და შედეგები

ტექსტის დამუშავებასთან დაკავშირებული პრობლემების გადაჭრის არსებული გამოცდილების გათვალისწინებით, გადაწყდა, რომ შევინარჩუნოთ შეცვლილი „unix-way“, კერძოდ, დამუშავების რამდენიმე ეტაპად დაყოფა, რათა ყოველ ეტაპზე შედეგი იყოს მარტივი ტექსტი. სუფთა unix-way-ისგან განსხვავებით, ტექსტური ნედლეულის მილების საშუალებით გადაცემის ნაცვლად, ჩვენ ყველაფერს დისკის ფაილებად შევინახავთ. საბედნიეროდ, მყარ დისკზე გიგაბაიტის ღირებულება ახლა მწირია.

თითოეული ეტაპი განხორციელებულია როგორც ცალკე, პატარა და მარტივი პროგრამა, რომელიც კითხულობს ტექსტურ ფაილებს და ინახავს მისი სილიკონის სიცოცხლის პროდუქტებს.

ამ მიდგომის დამატებითი ბონუსი, გარდა კომუნალური საშუალებების სიმარტივისა, მდგომარეობს გადაწყვეტის დამატებითი ბუნებაში - შეგიძლიათ გამართოთ პირველი ეტაპი, გაუშვათ ტექსტის ყველა გიგაბაიტი, შემდეგ დაიწყოთ მეორე ეტაპის გამართვა, დაკარგვის გარეშე. პირველის გამეორების დრო.

ტექსტის სიტყვებად დაყოფა

ვინაიდან დასამუშავებელი საწყისი ტექსტები უკვე ინახება როგორც ბრტყელი ფაილები utf-8 კოდირებით, ჩვენ გამოვტოვებთ ნულოვან ეტაპს - დოკუმენტების ანალიზს, მათგან ტექსტის შინაარსის ამოღებას და მათ მარტივ ტექსტურ ფაილებად შენახვას, დაუყოვნებლივ ვაგრძელებთ ტოკენიზაციის ამოცანას.

ყველაფერი მარტივი და მოსაწყენი იქნებოდა, რომ არა ის უბრალო ფაქტი, რომ ზოგიერთი წინადადება რუსულში შედგება რამდენიმე „სტრიქონისაგან“ გამოყოფილი ინტერვალით, ზოგჯერ კი მძიმით. იმისათვის, რომ არ დავშალოთ ასეთი სიტყვიერი წინადადებები, პირველად ჩავრთე ტოკენიზაციის ფუნქცია ლექსიკონის API-ში. განლაგება C#-ში აღმოჩნდა მარტივი და გაურთულებელი, ფაქტიურად ასი ხაზი. აქ არის წყარო. თუ გამოვრიცხავთ შესავალ ნაწილს, ლექსიკონის დატვირთვას და ბოლო ნაწილს მისი ამოღებით, მაშინ ყველაფერი რამდენიმე ათეულ სტრიქონამდე ჩამოდის.

ეს ყველაფერი წარმატებით აფუჭებს ფაილებს, მაგრამ ტესტებმა აჩვენა მნიშვნელოვანი ნაკლი - ძალიან დაბალი სიჩქარე. x64 პლატფორმაზე აღმოჩნდა დაახლოებით 0,5 მბ წუთში. რა თქმა უნდა, ტოკენიზატორი ითვალისწინებს ყველა სახის განსაკუთრებულ შემთხვევას, როგორიცაა " ა.ს. პუშკინი“, მაგრამ თავდაპირველი პრობლემის გადასაჭრელად, ასეთი სიზუსტე ზედმეტია.

შესაძლო სიჩქარის სახელმძღვანელოდ, არსებობს სტატისტიკური ფაილების დამუშავების პროგრამა Empirika. ის აკეთებს 22 GB ტექსტის სიხშირის დამუშავებას დაახლოებით 2 საათში. ასევე არის უფრო ჭკვიანური გადაწყვეტა სიტყვიერი წინადადების პრობლემის შესახებ, ამიტომ მე დავამატე ახალი სკრიპტი, რომელიც ჩართულია -tokenize ოფციით ბრძანების ხაზზე. გაშვების შედეგების მიხედვით, ეს იყო დაახლოებით 500 წამი 900 მბ-ზე, ანუ დაახლოებით 1.6 მბ წამში.

ამ 900 მბ ტექსტთან მუშაობის შედეგი არის დაახლოებით იგივე ზომის ფაილი, 900 მბ. თითოეული სიტყვა ინახება ცალკე ხაზში.

წინადადებების გამოყენების სიხშირე

ვინაიდან არ მინდოდა წინადადებების სიის შეტანა პროგრამის ტექსტში, ისევ ავიღე გრამატიკული ლექსიკონი C # პროექტისთვის, sol_ListEntries ფუნქციის გამოყენებით მივიღე წინადადებების სრული სია, დაახლოებით 140 ცალი, და შემდეგ ყველაფერი არის. ტრივიალური. პროგრამის ტექსტი C#-ში. ის აგროვებს მხოლოდ წყვილებს წინდებული + სიტყვა, მაგრამ გაფართოება არ იქნება პრობლემა.

1 GB ტექსტური ფაილის სიტყვებით დამუშავებას მხოლოდ რამდენიმე წუთი სჭირდება, რის შედეგადაც ვიღებთ სიხშირის ცხრილს, რომელსაც ისევ ვტვირთავთ დისკზე ტექსტური ფაილის სახით. წინადადება, მეორე სიტყვა და შემთხვევების რაოდენობა გამოყოფილია მასში ჩანართის სიმბოლოთი:

PRO გატეხილი 3
პროფ-მა 1 ქულა
პროფ ფორმა 1
PRO NORM 1
პრო მშიერი 1
იურიდიულად 9
ტერასიდან 1
ფირის მიუხედავად 1
უჯრაზე 14

საერთო ჯამში, საწყისი 900 მბ ტექსტიდან მიღებული იქნა დაახლოებით 600 ათასი წყვილი.

გაანალიზეთ და ნახეთ შედეგები

მოსახერხებელია ცხრილის ანალიზი შედეგებით Excel-ში ან Access-ში. SQL-ის ჩვევის ძალით ჩავტვირთე მონაცემები Access-ში.

პირველი, რაც უნდა გააკეთოთ, არის შედეგების დახარისხება სიხშირის კლებადობით, რათა ნახოთ ყველაზე ხშირი წყვილები. დამუშავებული ტექსტის საწყისი რაოდენობა ძალიან მცირეა, ამიტომ ნიმუში არ არის ძალიან წარმომადგენლობითი და შეიძლება განსხვავდებოდეს საბოლოო შედეგებისგან, მაგრამ აქ არის საუკეთესო ათეული:

ჩვენ გვყავს 29193
26070 ტომში
მე მაქვს 25843
ტომის შესახებ 24410
მას აქვს 22768
ამ 22502 წელს
რაიონში 20749
20545 წლის განმავლობაში
ამის შესახებ 18761 წ
NIM 18411-ით

ახლა თქვენ შეგიძლიათ ააგოთ გრაფიკი ისე, რომ სიხშირეები იყოს OY ღერძზე, ხოლო შაბლონები გაფორმებულია OX-ის გასწვრივ კლებადობით. ეს მისცემს მოსალოდნელ განაწილებას გრძელი კუდით:

რატომ არის საჭირო ეს სტატისტიკა?

გარდა იმისა, რომ ორი C# პროგრამა შეიძლება გამოყენებულ იქნას პროცედურული API-სთან მუშაობის საჩვენებლად, არსებობს კიდევ ერთი მნიშვნელოვანი მიზანი - მთარგმნელსა და ტექსტის რეკონსტრუქციის ალგორითმის სტატისტიკური ნედლეულის მიცემა. სიტყვების წყვილების გარდა, საჭირო იქნება ტრიგრამებიც, ამისთვის საჭირო იქნება ხსენებული კომუნალური მეორის ოდნავ გაფართოება.

- - თემები ინფორმაციის დაცვა EN სიტყვის გამოყენების სიხშირე ... ტექნიკური მთარგმნელის სახელმძღვანელო

ს; სიხშირეები; კარგად. 1. ხშირი (1 ციფრი). თვალყური ადევნეთ სვლების განმეორების სიხშირეს. კარტოფილის დარგვის საჭირო საათები. ყურადღება მიაქციეთ პულსის სიხშირეს. 2. იგივე მოძრაობების გამეორებების რაოდენობა, რყევები რა ლ. დროის ერთეული. H. ბორბლის ბრუნვა. ჩ... ენციკლოპედიური ლექსიკონი

I ალკოჰოლიზმი არის ქრონიკული დაავადება, რომელიც ხასიათდება ფსიქიკური და სომატური აშლილობების ერთობლიობით, რომელიც გამოწვეულია ალკოჰოლის სისტემატური ბოროტად გამოყენების შედეგად. ყველაზე მნიშვნელოვანი გამოვლინებები A. x. იცვლება გამძლეობა ... ... სამედიცინო ენციკლოპედია

გადაღება- ერთ-ერთი სპეციფიური ტერმინი, რომელიც გამოიყენება ჰუკის ჩანაწერებში რუსეთში. არაწრფივი მრავალხმიანობა, რომელსაც ახასიათებს განვითარებული ქვეხმოვანი პოლიფონიური საწყობი და ვერტიკალის მკვეთრი დისონანსი. პევჩ. ტერმინის დღევანდელი განხორციელება. დრო უცნობია... მართლმადიდებლური ენციკლოპედია

ტექსტის ანალიზის სტილოსტატისტიკური მეთოდი- არის მათემატიკური სტატისტიკის ხელსაწყოების გამოყენება სტილისტიკის სფეროში ენის ფუნქციონირების ტიპების დასადგენად მეტყველებაში, ენის ფუნქციონირების ნიმუშები კომუნიკაციის სხვადასხვა სფეროში, ტექსტების ტიპები, ფუნქციების სპეციფიკა. სტილები და...

პორციით არომატიზებული სნუსი, მინი პორცია სნუსი თამბაქოს ნაწარმის სახეობაა. ეს არის დაქუცმაცებული დატენიანებული თამბაქო, რომელიც მოთავსებულია ზედა (ნაკლებად ხშირად ქვედა) ტუჩსა და ღრძილს შორის... ვიკიპედია

სამეცნიერო სტილი- წარმოადგენს მეცნიერულ კომუნიკაციისა და მეტყველების აქტივობის სფერო, რომელიც დაკავშირებულია მეცნიერების განხორციელებასთან, როგორც სოციალური ცნობიერების ფორმასთან; ასახავს თეორიულ აზროვნებას, მოქმედებს კონცეპტუალური ლოგიკური ფორმით, რომელიც ხასიათდება ობიექტურობით და აბსტრაქციით... რუსული ენის სტილისტური ენციკლოპედიური ლექსიკონი

- (სპეციალიზებულ ლიტერატურაში ასევე პატრონიმი) ზოგადი სახელის ნაწილი, რომელიც ბავშვს ენიჭება მამის სახელით. პატრონიმული სახელების ვარიაციებს შეუძლიათ მათი მატარებლების დაკავშირება უფრო შორეულ წინაპრებთან, ბაბუებთან, ბაბუებთან ... ... ვიკიპედია

ზოგადი გამოყენება, გამოყენებადობა, გავრცელება, გამოყენებადობა, ბაზრობა, ზოგადად მიღებული რუსული სინონიმების ლექსიკონი. საერთო არსებითი სახელი, სინონიმების რაოდენობა: 10 საერთო (11) ... სინონიმური ლექსიკონი

მსჯელობა- - მეტყველების ფუნქციურად სემანტიკური ტიპი (იხ.) - (FSTR), რომელიც შეესაბამება აბსტრაქტული აზროვნების ფორმას - დასკვნა, სპეციალური კომუნიკაციური დავალების შესრულება - მეტყველების დასაბუთებული ხასიათის მიცემა (ლოგიკური გზით მიდიხართ ახალ განსჯაზე ან .. .... რუსული ენის სტილისტური ენციკლოპედიური ლექსიკონი