ნიმუშის ამოცნობის უახლესი იდეები. მარტივი საქმე, ერთგანზომილებიანი გამოყოფა

ზოგადად, ნიმუშის ამოცნობის სამი მეთოდი შეიძლება გამოიყოს: აღრიცხვის მეთოდი. ამ შემთხვევაში ხდება შედარება მონაცემთა ბაზასთან, სადაც თითოეული ტიპის ობიექტისთვის წარმოდგენილია ჩვენების ყველა შესაძლო მოდიფიკაცია. მაგალითად, გამოსახულების ოპტიკური ამოცნობისთვის, შეგიძლიათ გამოიყენოთ ობიექტის ტიპის დათვლის მეთოდი სხვადასხვა კუთხით, მასშტაბებით, გადაადგილებით, დეფორმაციებით და ა.შ. ხმის გამოსახულების ამოცნობის შემთხვევა, შესაბამისად, შედარება ზოგიერთ ცნობილ შაბლონთან (მაგალითად, რამდენიმე ადამიანის მიერ წარმოთქმული სიტყვა).

მეორე მიდგომა არის გამოსახულების მახასიათებლების ღრმა ანალიზი. ოპტიკური ამოცნობის შემთხვევაში, ეს შეიძლება იყოს სხვადასხვა გეომეტრიული მახასიათებლების განსაზღვრა. ხმის ნიმუში ამ შემთხვევაში ექვემდებარება სიხშირის, ამპლიტუდის ანალიზს და ა.შ.

შემდეგი მეთოდი არის ხელოვნური ნერვული ქსელების (ANN) გამოყენება. ეს მეთოდი მოითხოვს ან სწავლების დროს ამოცნობის ამოცანის მაგალითების დიდ რაოდენობას, ან სპეციალური ნერვული ქსელის სტრუქტურას, რომელიც ითვალისწინებს ამ ამოცანის სპეციფიკას. თუმცა, გამოირჩევა უფრო მაღალი ეფექტურობითა და პროდუქტიულობით.

4. ნიმუშის ამოცნობის ისტორია

მოკლედ განვიხილოთ ნიმუშის ამოცნობის მათემატიკური ფორმალიზმი. ნიმუშის ამოცნობის ობიექტი აღწერილია ძირითადი მახასიათებლების სიმრავლით (მახასიათებლები, თვისებები). ძირითადი მახასიათებლები შეიძლება იყოს განსხვავებული ხასიათისა: მათი აღება შესაძლებელია რეალური ხაზის ტიპის მოწესრიგებული ნაკრებიდან, ან დისკრეტული ნაკრებიდან (რომელიც, თუმცა, ასევე შეიძლება დაჯილდოვდეს სტრუქტურით). ობიექტის ეს გაგება შეესაბამება როგორც ნიმუშის ამოცნობის პრაქტიკული გამოყენების აუცილებლობას, ასევე ობიექტის ადამიანის აღქმის მექანიზმის გაგებას. მართლაც, ჩვენ გვჯერა, რომ როდესაც ადამიანი აკვირდება (ზომავს) ობიექტს, მის შესახებ ინფორმაცია შემოდის ტვინში სენსორების (გაანალიზებული არხების) სასრული რაოდენობის მეშვეობით და თითოეული სენსორი შეიძლება დაკავშირებული იყოს ობიექტის შესაბამის მახასიათებლებთან. გარდა იმ მახასიათებლებისა, რომლებიც შეესაბამება ობიექტის ჩვენს გაზომვებს, ასევე არის შერჩეული მახასიათებელი, ან მახასიათებლების ჯგუფი, რომელსაც ჩვენ ვუწოდებთ მახასიათებლების კლასიფიკაციას და მათი მნიშვნელობების გარკვევას მოცემული ვექტორისთვის X არის ამოცანა, რომელიც ბუნებრივია. და ხელოვნური ამოცნობის სისტემები ასრულებენ.

ნათელია, რომ ამ მახასიათებლების მნიშვნელობების დასადგენად, აუცილებელია გვქონდეს ინფორმაცია იმის შესახებ, თუ როგორ არის დაკავშირებული ცნობილი მახასიათებლები კლასიფიკაციასთან. ინფორმაცია ამ ურთიერთობის შესახებ მოცემულია პრეცედენტების სახით, ანუ ობიექტების აღწერილობების კომპლექტი კლასიფიკაციის მახასიათებლების ცნობილი მნიშვნელობებით. და ამ პრეცედენტული ინფორმაციის მიხედვით, საჭიროა გადაწყვეტილების წესის აგება, რომელიც დაადგენს ობიექტის თვითნებურ აღწერას მისი კლასიფიკაციის მახასიათებლების ღირებულების შესახებ.

ნიმუშის ამოცნობის პრობლემის ეს გაგება მეცნიერებაში დამკვიდრდა გასული საუკუნის 50-იანი წლებიდან. შემდეგ კი შენიშნა, რომ ასეთი წარმოება სულაც არ არის ახალი. სტატისტიკური მონაცემების ანალიზის კარგად დადასტურებული მეთოდები, რომლებიც აქტიურად გამოიყენებოდა მრავალი პრაქტიკული ამოცანისთვის, როგორიცაა, მაგალითად, ტექნიკური დიაგნოსტიკა, ასეთი ფორმულირების წინაშე აღმოჩნდა და უკვე არსებობდა. მაშასადამე, შაბლონის ამოცნობის პირველი საფეხურები გაიარა სტატისტიკური მიდგომის ნიშნით, რაც კარნახობდა მთავარ პრობლემას.

სტატისტიკური მიდგომა ემყარება იმ აზრს, რომ ობიექტების საწყისი სივრცე არის სავარაუდო სივრცე, ხოლო ობიექტების მახასიათებლები (მახასიათებლები) არის მასზე მოცემული შემთხვევითი ცვლადები. შემდეგ მონაცემთა მეცნიერის ამოცანა იყო გამოეტანა სტატისტიკური ჰიპოთეზა მახასიათებლების განაწილების შესახებ, უფრო სწორად, მახასიათებლების კლასიფიკაციის დანარჩენზე დამოკიდებულების შესახებ, გარკვეული მოსაზრებებიდან. სტატისტიკური ჰიპოთეზა, როგორც წესი, იყო პარამეტრულად განსაზღვრული მახასიათებლების განაწილების ფუნქციების ნაკრები. ტიპიური და კლასიკური სტატისტიკური ჰიპოთეზა არის ამ განაწილების ნორმალურობის ჰიპოთეზა (სტატისტიკაში ასეთი ჰიპოთეზის უამრავი სახეობაა). ჰიპოთეზის ჩამოყალიბების შემდეგ დარჩა ამ ჰიპოთეზის შემოწმება პრეცედენტის მონაცემებზე. ეს შემოწმება მოიცავდა დისტრიბუციების თავდაპირველად მოცემული სიმრავლიდან (განაწილების ჰიპოთეზის პარამეტრი) გარკვეული განაწილების არჩევას და ამ არჩევანის სანდოობის (ნდობის ინტერვალის) შეფასებას. სინამდვილეში, ეს განაწილების ფუნქცია იყო პრობლემის პასუხი, მხოლოდ ობიექტი იყო კლასიფიცირებული არა ცალსახად, არამედ კლასების კუთვნილების გარკვეული ალბათობით. სტატისტიკოსებმა ასევე შეიმუშავეს ასეთი მეთოდების ასიმპტომური დასაბუთება. ასეთი დასაბუთებები გაკეთდა შემდეგი სქემის მიხედვით: დადგინდა განაწილების არჩევის გარკვეული ხარისხის ფუნქციონალი (ნდობის ინტერვალი) და ნაჩვენები იყო, რომ პრეცედენტების რაოდენობის მატებასთან ერთად, ჩვენი არჩევანი 1-ისკენ მიდრეკილი ალბათობით სწორი გახდა. ამ ფუნქციის განცდა (ნდობის ინტერვალი მიდრეკილია 0-მდე). წინ რომ ვიხედოთ, შეგვიძლია ვთქვათ, რომ ამოცნობის პრობლემის სტატისტიკური ხედვა ძალიან ნაყოფიერი აღმოჩნდა არა მხოლოდ შემუშავებული ალგორითმების თვალსაზრისით (რომლებიც მოიცავს კლასტერული და დისკრიმინაციული ანალიზის მეთოდებს, არაპარამეტრულ რეგრესიას და ა.შ.), არამედ შემდგომში ხელმძღვანელობდა Vapnik. ამოცნობის ღრმა სტატისტიკური თეორიის შესაქმნელად .

მიუხედავად ამისა, არსებობს ძლიერი არგუმენტი იმ ფაქტის სასარგებლოდ, რომ ნიმუშის ამოცნობის პრობლემები სტატისტიკით არ არის დაყვანილი. ნებისმიერი ასეთი პრობლემა, პრინციპში, შეიძლება განიხილებოდეს სტატისტიკური თვალსაზრისით და მისი გადაჭრის შედეგების სტატისტიკურად ინტერპრეტაცია. ამისათვის საჭიროა მხოლოდ ვივარაუდოთ, რომ პრობლემის ობიექტების სივრცე ალბათურია. მაგრამ ინსტრუმენტალიზმის თვალსაზრისით, გარკვეული ამოცნობის მეთოდის სტატისტიკური ინტერპრეტაციის წარმატების კრიტერიუმი შეიძლება იყოს მხოლოდ ამ მეთოდის დასაბუთების არსებობა სტატისტიკის ენაზე, როგორც მათემატიკის ფილიალში. დასაბუთება აქ გულისხმობს პრობლემის ძირითადი მოთხოვნების შემუშავებას, რაც უზრუნველყოფს ამ მეთოდის გამოყენების წარმატებას. თუმცა, ამ დროისთვის, ამოცნობის მეთოდების უმეტესობისთვის, მათ შორის ისეთებიც, რომლებიც უშუალოდ წარმოიშვა სტატისტიკური მიდგომის ფარგლებში, ასეთი დამაკმაყოფილებელი დასაბუთება არ მოიძებნა. გარდა ამისა, ამჟამად ყველაზე ხშირად გამოყენებულ სტატისტიკურ ალგორითმებს, როგორიცაა ფიშერის წრფივი დისკრიმინანტი, პარზენის ფანჯარა, EM ალგორითმი, უახლოესი მეზობლები, რომ აღარაფერი ვთქვათ ბაიესის რწმენის ქსელებზე, აქვთ მკვეთრად გამოხატული ევრისტიკური ბუნება და შეიძლება ჰქონდეთ სტატისტიკურისგან განსხვავებული ინტერპრეტაციები. და ბოლოს, ყოველივე ზემოთქმულს უნდა დაემატოს, რომ ამოცნობის მეთოდების ასიმპტოტური ქცევის გარდა, რაც სტატისტიკის მთავარი საკითხია, ამოცნობის პრაქტიკა აჩენს კითხვებს მეთოდების გამოთვლითი და სტრუქტურული სირთულის შესახებ, რომელიც ბევრად სცილდება. მხოლოდ ალბათობის თეორიის ჩარჩო.

საერთო ჯამში, სტატისტიკოსების სწრაფვის საწინააღმდეგოდ, შაბლონის ამოცნობა სტატისტიკის მონაკვეთად განიხილონ, სრულიად განსხვავებული იდეები შევიდა აღიარების პრაქტიკასა და იდეოლოგიაში. ერთ-ერთი მათგანი გამოწვეული იყო ვიზუალური ნიმუშის ამოცნობის სფეროში გამოკვლევით და ეფუძნება შემდეგ ანალოგიას.

როგორც უკვე აღვნიშნეთ, ყოველდღიურ ცხოვრებაში ადამიანები მუდმივად წყვეტენ (ხშირად არაცნობიერად) სხვადასხვა სიტუაციების, სმენითი და ვიზუალური სურათების ამოცნობის პრობლემებს. კომპიუტერების ასეთი შესაძლებლობა, საუკეთესო შემთხვევაში, მომავლის საკითხია. აქედან, შაბლონების ამოცნობის ზოგიერთმა პიონერმა დაასკვნა, რომ კომპიუტერზე ამ პრობლემების გადაწყვეტა, ზოგადად, უნდა ასახავდეს ადამიანის აზროვნების პროცესებს. პრობლემის ამ მხრიდან მიახლოების ყველაზე ცნობილი მცდელობა იყო ფ. როზენბლატის ცნობილი კვლევა პერცეპტრონების შესახებ.

50-იანი წლების შუა პერიოდისთვის, ჩანდა, რომ ნეიროფიზიოლოგებმა გაიგეს ტვინის ფიზიკური პრინციპები (წიგნში "მეფის ახალი გონება" ცნობილი ბრიტანელი თეორიული ფიზიკოსი რ. პენროუზი საინტერესოდ სვამს კითხვებს ტვინის ნერვული ქსელის მოდელს, რაც ასაბუთებს კვანტური მექანიკური ეფექტების არსებითი როლი მის ფუნქციონირებაში, თუმცა ეს მოდელი თავიდანვე კითხვის ნიშნის ქვეშ დადგა.ამ აღმოჩენებზე დაყრდნობით ფ.როზენბლატმა შეიმუშავა მოდელი ვიზუალური ნიმუშების ამოცნობის სწავლისთვის, რომელსაც მან უწოდა პერცეპტრონი.როზენბლატის პერცეპტრონი. არის შემდეგი ფუნქცია (ნახ. 1):

ნახ 1. პერცეპტრონის სქემა

შეყვანისას პერცეპტრონი იღებს ობიექტის ვექტორს, რომელიც როზენბლატის ნამუშევრებში იყო ორობითი ვექტორი, რომელიც აჩვენებს ეკრანის რომელი პიქსელი არის გაშავებული გამოსახულების მიერ და რომელი არა. გარდა ამისა, თითოეული ნიშანი მიეწოდება ნეირონის შეყვანას, რომლის მოქმედება არის მარტივი გამრავლება ნეირონის გარკვეულ წონაზე. შედეგები მიეწოდება ბოლო ნეირონს, რომელიც აერთიანებს მათ და ადარებს მთლიან რაოდენობას გარკვეულ ზღურბლთან. შედარების შედეგებიდან გამომდინარე, X შეყვანის ობიექტი აღიარებულია საჭიროდ თუ არა. შემდეგ ნიმუშის ამოცნობის სწავლის ამოცანა იყო ნეირონების წონების და ზღვრული მნიშვნელობის შერჩევა, რათა პერცეტრონი გასცემდა სწორ პასუხებს პრეცედენტურ ვიზუალურ სურათებზე. როზენბლატს სჯეროდა, რომ შედეგად მიღებული ფუნქცია კარგი იქნებოდა სასურველი ვიზუალური გამოსახულების ამოცნობაში, მაშინაც კი, თუ შეყვანის ობიექტი არ იყო პრეცედენტებს შორის. ბიონიკური მოსაზრებებიდან მან ასევე მოიფიქრა წონისა და ზღურბლის შერჩევის მეთოდი, რაზეც არ შევჩერდებით. ვთქვათ, რომ მისი მიდგომა წარმატებული იყო ამოცნობის რიგ პრობლემებში და დასაბამი მისცა ნერვულ ქსელებზე დაფუძნებული ალგორითმების სწავლის მთელ რიგს, რომელთაგან განსაკუთრებული შემთხვევაა პერცეპტრონი.

გარდა ამისა, გამოიგონეს პერცეპტრონის სხვადასხვა განზოგადება, ნეირონების ფუნქცია გართულდა: ახლა ნეირონებს შეეძლოთ არა მხოლოდ შეყვანილი რიცხვების გამრავლება ან მათი დამატება და შედეგის შედარება ზღვრებთან, არამედ მათზე უფრო რთული ფუნქციების გამოყენება. სურათი 2 გვიჩვენებს ერთ-ერთ ამ ნეირონულ გართულებას:

ბრინჯი. 2 ნერვული ქსელის დიაგრამა.

გარდა ამისა, ნერვული ქსელის ტოპოლოგია შეიძლება იყოს ბევრად უფრო რთული, ვიდრე როზენბლატის მიერ განხილული, მაგალითად, ეს:

ბრინჯი. 3. როზენბლატის ნერვული ქსელის დიაგრამა.

გართულებებმა გამოიწვია ვარჯიშის დროს რეგულირებადი პარამეტრების რაოდენობის ზრდა, მაგრამ ამავდროულად გაზარდა ძალზე რთულ ნიმუშებზე მორგების უნარი. ამ სფეროში კვლევები ახლა მიმდინარეობს ორ მჭიდროდ დაკავშირებულ სფეროში - შესწავლილია როგორც სხვადასხვა ქსელის ტოპოლოგია, ასევე სხვადასხვა დარეგულირების მეთოდები.

ნერვული ქსელები ამჟამად არა მხოლოდ შაბლონის ამოცნობის პრობლემების გადაჭრის ხელსაწყოა, არამედ გამოიყენება ასოციაციური მეხსიერების და გამოსახულების შეკუმშვის კვლევაში. მიუხედავად იმისა, რომ კვლევის ეს ხაზი მკაცრად ემთხვევა შაბლონების ამოცნობის პრობლემებს, ის კიბერნეტიკის ცალკე განყოფილებაა. ამომცნობისთვის ამ დროისთვის, ნერვული ქსელები სხვა არაფერია, თუ არა ძალიან სპეციფიკური, პარამეტრულად განსაზღვრული რუკების ნაკრები, რომელსაც ამ თვალსაზრისით არ აქვს რაიმე მნიშვნელოვანი უპირატესობა ბევრ სხვა მსგავსი სასწავლო მოდელთან შედარებით, რომლებიც მოკლედ იქნება ჩამოთვლილი ქვემოთ.

ნეირონული ქსელების როლის ამ შეფასებასთან დაკავშირებით სათანადო ამოცნობისთვის (ანუ არა ბიონიკისთვის, რისთვისაც მათ ახლა უმთავრესი მნიშვნელობა აქვთ), მინდა აღვნიშნო შემდეგი: ნერვული ქსელები, რომლებიც უკიდურესად რთული ობიექტია მათემატიკისთვის. ანალიზი, მათი სათანადო გამოყენებით, გვაძლევს საშუალებას ვიპოვოთ ძალიან არატრივიალური კანონები მონაცემებში. მათი ანალიზის სირთულე, ზოგად შემთხვევაში, აიხსნება მათი რთული სტრუქტურით და, შედეგად, პრაქტიკულად ამოუწურავი შესაძლებლობებით განზოგადების მრავალფეროვან კანონზომიერებებს. მაგრამ ეს უპირატესობები, როგორც ხშირად ხდება, არის პოტენციური შეცდომების წყარო, გადამზადების შესაძლებლობა. როგორც მოგვიანებით იქნება განხილული, ნებისმიერი სასწავლო მოდელის პერსპექტივების ასეთი ორმხრივი შეხედულება მანქანური სწავლის ერთ-ერთი პრინციპია.

აღიარების კიდევ ერთი პოპულარული მიმართულება არის ლოგიკური წესები და გადაწყვეტილების ხეები. ზემოაღნიშნული ამოცნობის მეთოდებთან შედარებით, ეს მეთოდები ყველაზე აქტიურად იყენებენ საგნის სფეროს შესახებ ჩვენი ცოდნის გამოხატვის იდეას ალბათ ყველაზე ბუნებრივი (ცნობიერ დონეზე) სტრუქტურების - ლოგიკური წესების სახით. ელემენტარული ლოგიკური წესი ნიშნავს დებულებას, როგორიცაა „თუ არაკლასიფიცირებული თვისებები არის X თანაფარდობაში, მაშინ კლასიფიცირებული არის Y თანაფარდობით“. სამედიცინო დიაგნოსტიკაში ასეთი წესის მაგალითია შემდეგი: თუ პაციენტის ასაკი 60 წელზე მეტია და მას ადრე ჰქონდა ინფარქტი, მაშინ არ გაიკეთოთ ოპერაცია - უარყოფითი შედეგის რისკი მაღალია.

მონაცემებში ლოგიკური წესების მოსაძიებლად საჭიროა 2 რამ: წესის „ინფორმატიულობის“ საზომი და წესების სივრცის დადგენა. და ამის შემდეგ წესების პოვნის ამოცანა იქცევა წესების სივრცეში სრული ან ნაწილობრივი ჩამოთვლის ამოცანად, რათა მათგან ყველაზე ინფორმაციული ვიპოვოთ. საინფორმაციო შინაარსის განმარტება შეიძლება შემოვიტანოთ სხვადასხვა გზით და ამაზე არ შევჩერდებით, იმის გათვალისწინებით, რომ ესეც მოდელის გარკვეული პარამეტრია. საძიებო სივრცე განისაზღვრება სტანდარტული გზით.

საკმარისად ინფორმაციული წესების პოვნის შემდეგ, იწყება წესების საბოლოო კლასიფიკატორში „აწყობის“ ეტაპი. აქ წარმოქმნილი პრობლემების სიღრმისეულად განხილვის გარეშე (და მათი საკმაოდ დიდი რაოდენობაა), ჩვენ ჩამოვთვლით "შეკრების" 2 ძირითად მეთოდს. პირველი ტიპი არის ხაზოვანი სია. მეორე ტიპი არის შეწონილი ხმის მიცემა, როდესაც თითოეულ წესს ენიჭება გარკვეული წონა და კლასიფიკატორი მიმართავს ობიექტს იმ კლასს, რომელსაც წესების უდიდესი რაოდენობა მისცა ხმა.

ფაქტობრივად, წესების შედგენის ფაზა და „შეკრების“ ფაზა შესრულებულია ერთად და, შეწონილი ხმის ან სიის აგებისას, საქმის მონაცემების ნაწილებზე წესების ძიება კვლავ და ისევ ხდება, რათა უზრუნველყოფილი იყოს უკეთესი შეთავსება მონაცემებსა და შორის. მოდელი.

გამეორების მეთოდი.ამ მეთოდით, შედარება ხდება გარკვეულ მონაცემთა ბაზასთან, სადაც თითოეული ობიექტისთვის არის დისპლეის შეცვლის სხვადასხვა ვარიანტი. მაგალითად, გამოსახულების ოპტიკური ამოცნობისთვის, შეგიძლიათ გამოიყენოთ გამეორების მეთოდი სხვადასხვა კუთხით ან მასშტაბებით, ოფსეტებით, დეფორმაციებით და ა.შ. ასოებისთვის შეგიძლიათ გაიმეოროთ შრიფტი ან მისი თვისებები. ხმის ნიმუშის ამოცნობის შემთხვევაში, შედარება ხდება ზოგიერთ ცნობილ შაბლონთან (სიტყვა, რომელსაც ბევრი ადამიანი ლაპარაკობს). გარდა ამისა, შესრულებულია სურათის მახასიათებლების უფრო ღრმა ანალიზი. ოპტიკური ამოცნობის შემთხვევაში, ეს შეიძლება იყოს გეომეტრიული მახასიათებლების განსაზღვრა. ხმის ნიმუში ამ შემთხვევაში ექვემდებარება სიხშირისა და ამპლიტუდის ანალიზს.

შემდეგი მეთოდი არის ხელოვნური ნერვული ქსელების გამოყენება(INS). ის მოითხოვს ან ამოცნობის ამოცანის მაგალითების დიდ რაოდენობას, ან სპეციალურ ნერვულ ქსელის სტრუქტურას, რომელიც ითვალისწინებს ამ ამოცანის სპეციფიკას. მაგრამ, მიუხედავად ამისა, ეს მეთოდი ხასიათდება მაღალი ეფექტურობითა და პროდუქტიულობით.

მახასიათებლის მნიშვნელობების განაწილების სიმკვრივის შეფასებებზე დაფუძნებული მეთოდები. ნასესხები სტატისტიკური გადაწყვეტილებების კლასიკური თეორიიდან, რომელშიც შესწავლის ობიექტები განიხილება, როგორც მრავალგანზომილებიანი შემთხვევითი ცვლადის რეალიზაცია, რომელიც განაწილებულია ფუნქციურ სივრცეში რაიმე კანონის მიხედვით. ისინი ეფუძნება ბაიესის გადაწყვეტილების მიღების სქემას, რომელიც მიმართავს კონკრეტულ კლასს მიეკუთვნება ობიექტების საწყის ალბათობას და პირობითი მახასიათებლების განაწილების სიმკვრივეს.

მახასიათებლების მნიშვნელობების განაწილების სიმკვრივის შეფასებაზე დაფუძნებული მეთოდების ჯგუფი პირდაპირ კავშირშია დისკრიმინაციული ანალიზის მეთოდებთან. გადაწყვეტილების მიღებისადმი ბაიესის მიდგომა არის ერთ-ერთი ყველაზე განვითარებული პარამეტრული მეთოდი თანამედროვე სტატისტიკაში, რომლისთვისაც ცნობილია განაწილების კანონის ანალიტიკური გამოხატულება (ნორმალური კანონი) და მხოლოდ მცირე რაოდენობის პარამეტრები (საშუალო ვექტორები და კოვარიანტების მატრიცები. ) უნდა შეფასდეს. ამ მეთოდის გამოყენების მთავარ სირთულედ ითვლება მთელი სასწავლო ნიმუშის დამახსოვრების აუცილებლობა, რათა გამოვთვალოთ სიმკვრივის შეფასებები და მაღალი მგრძნობელობა სასწავლო ნიმუშის მიმართ.

გადაწყვეტილების ფუნქციების კლასის შესახებ დაშვებებზე დაფუძნებული მეთოდები.ამ ჯგუფში ცნობად ითვლება გადაწყვეტილების ფუნქციის ტიპი და მოცემულია მისი ხარისხი ფუნქციონალური. ამ ფუნქციონალიდან გამომდინარე, ოპტიმალური მიახლოება გადაწყვეტილების ფუნქციასთან არის ნაპოვნი ტრენინგის თანმიმდევრობიდან. გადაწყვეტილების წესის ხარისხის ფუნქციონალური ჩვეულებრივ დაკავშირებულია შეცდომასთან. მეთოდის მთავარი უპირატესობა არის ამოცნობის პრობლემის მათემატიკური ფორმულირების სიცხადე. ობიექტის ბუნების შესახებ ახალი ცოდნის მოპოვების შესაძლებლობა, კერძოდ, ცოდნის ატრიბუტების ურთიერთქმედების მექანიზმების შესახებ, აქ ძირეულად შემოიფარგლება ურთიერთქმედების მოცემული სტრუქტურით, რომელიც ფიქსირდება გადაწყვეტილების ფუნქციების არჩეულ ფორმაში.

პროტოტიპის შედარების მეთოდი.ეს არის ყველაზე მარტივი გაფართოებული ამოცნობის მეთოდი პრაქტიკაში. იგი გამოიყენება, როდესაც ცნობადი კლასები ნაჩვენებია როგორც კომპაქტური გეომეტრიული კლასები. შემდეგ პროტოტიპად არჩეულია გეომეტრიული დაჯგუფების ცენტრი (ან ცენტრთან ყველაზე ახლოს მდებარე ობიექტი).

განუსაზღვრელი ობიექტის კლასიფიკაციისთვის, ნაპოვნია მასთან ყველაზე ახლოს პროტოტიპი და ობიექტი მიეკუთვნება იმავე კლასს, როგორც მას. ცხადია, ამ მეთოდით განზოგადებული გამოსახულებები არ იქმნება. საზომად შეიძლება გამოყენებულ იქნას სხვადასხვა ტიპის მანძილი.

K უახლოესი მეზობლების მეთოდი.მეთოდი მდგომარეობს იმაში, რომ უცნობი ობიექტის კლასიფიკაციისას, ნაპოვნია სხვა უახლოესი მეზობლების გეომეტრიულად უახლოესი მახასიათებლის სივრცის მოცემული რიცხვი (k) კლასში უკვე ცნობილი კუთვნილებით. უცნობი ობიექტის მინიჭების გადაწყვეტილება მიიღება მისი უახლოესი მეზობლების შესახებ ინფორმაციის გაანალიზებით. სასწავლო ნიმუშში ობიექტების რაოდენობის შემცირების აუცილებლობა (დიაგნოსტიკური პრეცედენტები) ამ მეთოდის მინუსია, რადგან ეს ამცირებს სასწავლო ნიმუშის წარმომადგენლობას.

გამომდინარე იქიდან, რომ სხვადასხვა ამოცნობის ალგორითმები განსხვავებულად იქცევიან ერთსა და იმავე ნიმუშზე, ჩნდება კითხვა სინთეზური გადაწყვეტილების წესის შესახებ, რომელიც გამოიყენებს ყველა ალგორითმის ძლიერ მხარეებს. ამისათვის არსებობს სინთეზური მეთოდი ან გადაწყვეტილების წესების ნაკრები, რომელიც აერთიანებს თითოეული მეთოდის ყველაზე დადებით ასპექტებს.

ამოცნობის მეთოდების მიმოხილვის დასასრულს, ჩვენ წარმოვადგენთ ზემოაღნიშნულის არსს შემაჯამებელ ცხრილში, დავამატებთ პრაქტიკაში გამოყენებულ სხვა მეთოდებს.

ცხრილი 1. ამოცნობის მეთოდების კლასიფიკაციის ცხრილი, მათი გამოყენების სფეროებისა და შეზღუდვების შედარება

ამოცნობის მეთოდების კლასიფიკაცია

განაცხადის არეალი

შეზღუდვები (მინუსები)

ამოცნობის ინტენსიური მეთოდები

სიმკვრივის შეფასებებზე დაფუძნებული მეთოდები

პრობლემები ცნობილ განაწილებასთან (ნორმალური), დიდი სტატისტიკის შეგროვების საჭიროება

ამოცნობის დროს მთელი სავარჯიშო ნაკრების ჩამოთვლის აუცილებლობა, მაღალი მგრძნობელობა სავარჯიშო ნაკრებისა და არტეფაქტების არაწარმომადგენლობით

ვარაუდებზე დაფუძნებული მეთოდები

კლასები კარგად უნდა იყოს გამიჯნული

გადაწყვეტილების ფუნქციის ფორმა წინასწარ უნდა იყოს ცნობილი. მახასიათებლებს შორის კორელაციის შესახებ ახალი ცოდნის გათვალისწინების შეუძლებლობა

ლოგიკური მეთოდები

მცირე განზომილების პრობლემები

ლოგიკური გადაწყვეტილების წესების შერჩევისას აუცილებელია სრული ჩამოთვლა. შრომის მაღალი ინტენსივობა

ლინგვისტური მეთოდები

გრამატიკის განსაზღვრის ამოცანა განცხადებების გარკვეული ნაკრებისთვის (ობიექტების აღწერილობა) რთულია ფორმალიზება. გადაუჭრელი თეორიული პრობლემები

ამოცნობის გაფართოებული მეთოდები

პროტოტიპის შედარების მეთოდი

მხატვრული სივრცის მცირე განზომილების პრობლემები

კლასიფიკაციის შედეგების მაღალი დამოკიდებულება მეტრიკაზე. უცნობი ოპტიმალური მეტრიკა

k უახლოესი მეზობლის მეთოდი

კლასიფიკაციის შედეგების მაღალი დამოკიდებულება მეტრიკაზე. ამოცნობის დროს სასწავლო ნიმუშის სრული აღრიცხვის აუცილებლობა. გამოთვლითი სირთულე

ქულების გამოთვლის ალგორითმები (ABO)

მცირე განზომილების პრობლემები კლასების რაოდენობისა და მახასიათებლების თვალსაზრისით

კლასიფიკაციის შედეგების დამოკიდებულება მეტრულზე. ამოცნობის დროს სასწავლო ნიმუშის სრული აღრიცხვის აუცილებლობა. მეთოდის მაღალი ტექნიკური სირთულე

კოლექტიური გადაწყვეტილების წესები (CRC) არის სინთეზური მეთოდი.

მცირე განზომილების პრობლემები კლასების რაოდენობისა და მახასიათებლების თვალსაზრისით

მეთოდის ძალიან მაღალი ტექნიკური სირთულე, თეორიული პრობლემების გადაუჭრელი რაოდენობა, როგორც კონკრეტული მეთოდების კომპეტენციის სფეროების განსაზღვრისას, ასევე თავად კონკრეტულ მეთოდებში.

მზე, 29 მარტი, 2015 წ

ამჟამად, არსებობს მრავალი დავალება, რომლებშიც საჭიროა გარკვეული გადაწყვეტილების მიღება სურათზე ობიექტის არსებობის ან მისი კლასიფიკაციის მიხედვით. „ამოცნობის“ უნარი განიხილება ბიოლოგიური არსების მთავარ საკუთრებად, ხოლო კომპიუტერული სისტემები სრულად არ ფლობენ ამ თვისებას.

განვიხილოთ კლასიფიკაციის მოდელის ზოგადი ელემენტები.

Კლასი- ობიექტების ნაკრები, რომლებსაც აქვთ საერთო თვისებები. იმავე კლასის ობიექტებისთვის ვარაუდობენ „მსგავსების“ არსებობას. ამოცნობის ამოცანისთვის შეიძლება განისაზღვროს კლასების თვითნებური რაოდენობა, 1-ზე მეტი. კლასების რაოდენობა აღინიშნება რიცხვით S. თითოეულ კლასს აქვს საკუთარი კლასის საიდენტიფიკაციო ეტიკეტი.

კლასიფიკაცია- ობიექტებისთვის კლასის ეტიკეტების მინიჭების პროცესი, ამ ობიექტების თვისებების ზოგიერთი აღწერის მიხედვით. კლასიფიკატორი არის მოწყობილობა, რომელიც იღებს ობიექტის მახასიათებლების ერთობლიობას შეყვანის სახით და შედეგად აწარმოებს კლასის ეტიკეტს.

გადამოწმება- ობიექტის მაგალითის ერთი ობიექტის მოდელთან ან კლასის აღწერასთან შესაბამისობის პროცესი.

ქვეშ გზაატრიბუტების სივრცეში გავიგებთ არეალის სახელს, რომელშიც მატერიალური სამყაროს მრავალი ობიექტი თუ ფენომენია გამოსახული. ნიშანი- შესწავლილი ობიექტის ან ფენომენის კონკრეტული თვისების რაოდენობრივი აღწერა.

ფუნქციური სივრცეეს არის N-განზომილებიანი სივრცე, რომელიც განსაზღვრულია ამომცნობი ამოცანისთვის, სადაც N არის ნებისმიერი ობიექტისთვის გაზომილი მახასიათებლების ფიქსირებული რაოდენობა. ვექტორი x მახასიათებლის სივრციდან, რომელიც შეესაბამება ამოცნობის ამოცანის ობიექტს, არის N-განზომილებიანი ვექტორი კომპონენტებით (x_1,x_2,…,x_N), რომლებიც არის მოცემული ობიექტის მახასიათებლების მნიშვნელობები.

სხვა სიტყვებით რომ ვთქვათ, ნიმუშის ამოცნობა შეიძლება განისაზღვროს, როგორც საწყისი მონაცემების მინიჭება გარკვეულ კლასზე არსებითი მახასიათებლების ან თვისებების ამოღებით, რომლებიც ახასიათებს ამ მონაცემებს შეუსაბამო დეტალების ზოგადი მასიდან.

კლასიფიკაციის პრობლემების მაგალითებია:

  • პერსონაჟების ამოცნობა;
  • სიტყვის აღიარება;
  • სამედიცინო დიაგნოზის დადგენა;
  • ამინდის პროგნოზი;
  • სახის ამოცნობა
  • დოკუმენტების კლასიფიკაცია და ა.შ.

ყველაზე ხშირად, წყაროს მასალა არის კამერიდან მიღებული სურათი. დავალება შეიძლება ჩამოყალიბდეს, როგორც მახასიათებლის ვექტორების მიღება განხილულ სურათზე თითოეული კლასისთვის. პროცესი შეიძლება განიხილებოდეს, როგორც კოდირების პროცესი, რომელიც მოიცავს თითოეული მახასიათებლის მნიშვნელობის მინიჭებას თითოეული კლასის ფუნქციების სივრციდან.

თუ განვიხილავთ ობიექტების 2 კლასს: მოზრდილები და ბავშვები. როგორც მახასიათებლები, შეგიძლიათ აირჩიოთ სიმაღლე და წონა. როგორც ნახატიდან ჩანს, ეს ორი კლასი ქმნის ორ არაგადაკვეთის სიმრავლეს, რაც აიხსნება არჩეული მახასიათებლებით. თუმცა, ყოველთვის არ არის შესაძლებელი სწორი გაზომილი პარამეტრების არჩევა, როგორც კლასების მახასიათებლები. მაგალითად, შერჩეული პარამეტრები არ არის შესაფერისი ფეხბურთელებისა და კალათბურთელთა არა გადახურვის კლასების შესაქმნელად.

ამოცნობის მეორე ამოცანაა ორიგინალური სურათებიდან დამახასიათებელი ნიშნების ან თვისებების შერჩევა. ეს ამოცანა შეიძლება მიეკუთვნებოდეს წინასწარ დამუშავებას. თუ გავითვალისწინებთ მეტყველების ამოცნობის ამოცანას, შეგვიძლია განვასხვავოთ ისეთი ნიშნები, როგორიცაა ხმოვნები და თანხმოვნები. ატრიბუტი უნდა იყოს კონკრეტული კლასის დამახასიათებელი თვისება, მაგრამ ამავე დროს იყოს საერთო ამ კლასისთვის. ნიშნები, რომლებიც ახასიათებს განსხვავებას - კლასთაშორისი ნიშნები. ყველა კლასისთვის საერთო ფუნქციები არ შეიცავს სასარგებლო ინფორმაციას და არ განიხილება როგორც ფუნქციები ამოცნობის პრობლემაში. მახასიათებლების არჩევანი ერთ-ერთი მნიშვნელოვანი ამოცანაა, რომელიც დაკავშირებულია ამოცნობის სისტემის აგებასთან.

მახასიათებლების დადგენის შემდეგ აუცილებელია კლასიფიკაციისთვის ოპტიმალური გადაწყვეტილების პროცედურის განსაზღვრა. განვიხილოთ ნიმუშის ამოცნობის სისტემა, რომელიც შექმნილია სხვადასხვა M კლასის ამოცნობისთვის, რომელიც აღინიშნება როგორც m_1,m_2,…,m 3. მაშინ შეგვიძლია ვივარაუდოთ, რომ გამოსახულების სივრცე შედგება M რეგიონებისგან, თითოეული შეიცავს წერტილებს, რომლებიც შეესაბამება ერთი კლასის სურათს. მაშინ ამოცნობის პრობლემა შეიძლება ჩაითვალოს, როგორც M კლასების გამიჯნული საზღვრების აგება მიღებული საზომი ვექტორების საფუძველზე.

გამოსახულების წინასწარი დამუშავების, მახასიათებლების ამოღების და ოპტიმალური გადაწყვეტის და კლასიფიკაციის პრობლემის გადაწყვეტა ჩვეულებრივ ასოცირდება რიგი პარამეტრების შეფასების საჭიროებასთან. ეს იწვევს პარამეტრის შეფასების პრობლემას. გარდა ამისა, აშკარაა, რომ ფუნქციების ამოღებას შეუძლია გამოიყენოს დამატებითი ინფორმაცია კლასების ბუნებაზე დაყრდნობით.

ობიექტების შედარება შეიძლება განხორციელდეს მათი წარმოდგენის საფუძველზე საზომი ვექტორების სახით. მოსახერხებელია გაზომვის მონაცემების რეალური რიცხვების სახით წარმოდგენა. შემდეგ ორი ობიექტის მახასიათებლების ვექტორების მსგავსება შეიძლება აღწერილი იყოს ევკლიდური მანძილის გამოყენებით.

სადაც d არის მახასიათებლის ვექტორის განზომილება.

არსებობს ნიმუშის ამოცნობის მეთოდების 3 ჯგუფი:

  • ნიმუშის შედარება. ეს ჯგუფი მოიცავს კლასიფიკაციას უახლოეს საშუალოზე, კლასიფიკაციას უახლოეს მეზობლამდე მანძილის მიხედვით. სტრუქტურული ამოცნობის მეთოდები ასევე შეიძლება შევიდეს ნიმუშების შედარების ჯგუფში.
  • სტატისტიკური მეთოდები. როგორც სახელი გულისხმობს, სტატისტიკური მეთოდები იყენებს გარკვეულ სტატისტიკურ ინფორმაციას ამოცნობის პრობლემის გადაჭრისას. მეთოდი განსაზღვრავს ობიექტის კუთვნილებას კონკრეტულ კლასში ალბათობის საფუძველზე.ზოგიერთ შემთხვევაში ეს დამოკიდებულია ობიექტის გარკვეულ კლასს მიკუთვნებული უკანა ალბათობის განსაზღვრაზე, იმ პირობით, რომ ამ ობიექტის მახასიათებლებმა მიიღო შესაბამისი. ღირებულებები. ამის მაგალითია ბაიესის გადაწყვეტილების წესის მეთოდი.
  • Ნეირონული ქსელები. ამოცნობის მეთოდების ცალკე კლასი. სხვებისგან გამორჩეული თვისებაა სწავლის უნარი.

კლასიფიკაცია უახლოესი მნიშვნელობით

ნიმუშის ამოცნობის კლასიკურ მიდგომაში, რომელშიც კლასიფიკაციისთვის უცნობი ობიექტი წარმოდგენილია ელემენტარული მახასიათებლების ვექტორად. მახასიათებლებზე დაფუძნებული ამოცნობის სისტემა შეიძლება განვითარდეს სხვადასხვა გზით. ეს ვექტორები შეიძლება სისტემისთვის წინასწარ იყოს ცნობილი ტრენინგის შედეგად ან რეალურ დროში პროგნოზირება ზოგიერთი მოდელის საფუძველზე.

კლასიფიკაციის მარტივი ალგორითმი შედგება კლასის საცნობარო მონაცემების დაჯგუფებისგან კლასის მოლოდინის ვექტორის (საშუალო) გამოყენებით.

სადაც x(i,j) არის i კლასის j-ე საცნობარო მახასიათებელი, n_j არის i კლასის მითითების ვექტორების რაოდენობა.

მაშინ უცნობი ობიექტი მიეკუთვნება i კლასს, თუ ის ბევრად უფრო ახლოსაა i კლასის მოლოდინის ვექტორთან, ვიდრე სხვა კლასების მოლოდინის ვექტორებთან. ეს მეთოდი შესაფერისია პრობლემებისთვის, რომლებშიც თითოეული კლასის წერტილები განლაგებულია კომპაქტურად და სხვა კლასების წერტილებისგან შორს.

სირთულეები წარმოიქმნება, თუ კლასებს აქვთ ოდნავ უფრო რთული სტრუქტურა, მაგალითად, როგორც ფიგურაში. ამ შემთხვევაში, კლასი 2 იყოფა ორ გადახურულ განყოფილებად, რომლებიც ცუდად არის აღწერილი ერთი საშუალო მნიშვნელობით. ასევე, კლასი 3 არის ძალიან წაგრძელებული, მე -3 კლასის ნიმუშები x_2 კოორდინატების დიდი მნიშვნელობებით უფრო ახლოს არის 1 კლასის საშუალო მნიშვნელობასთან, ვიდრე მე -3 კლასი.

აღწერილი პრობლემა ზოგიერთ შემთხვევაში შეიძლება მოგვარდეს მანძილის გაანგარიშების შეცვლით.

ჩვენ გავითვალისწინებთ კლასის მნიშვნელობების "გაფანტვის" მახასიათებელს - σ_i, თითოეული კოორდინატის მიმართულებით i. სტანდარტული გადახრა უდრის დისპერსიის კვადრატულ ფესვს. მასშტაბური ევკლიდური მანძილი x ვექტორსა და მოლოდინის ვექტორს შორის x_c არის

ეს მანძილის ფორმულა შეამცირებს კლასიფიკაციის შეცდომების რაოდენობას, მაგრამ სინამდვილეში, პრობლემების უმეტესობა არ შეიძლება წარმოდგენილი იყოს ასეთი მარტივი კლასით.

კლასიფიკაცია უახლოეს მეზობლამდე მანძილის მიხედვით

კლასიფიკაციის კიდევ ერთი მიდგომა არის უცნობი მახასიათებლის ვექტორის x მინიჭება იმ კლასს, რომელსაც ეს ვექტორი ყველაზე ახლოს არის ცალკეულ ნიმუშთან. ამ წესს უახლოესი მეზობლის წესს უწოდებენ. უახლოესი მეზობლების კლასიფიკაცია შეიძლება იყოს უფრო ეფექტური მაშინაც კი, როდესაც კლასები რთულია ან როდესაც კლასები ერთმანეთს ემთხვევა.

ეს მიდგომა არ საჭიროებს ვარაუდებს სივრცეში ფუნქციების ვექტორების განაწილების მოდელების შესახებ. ალგორითმი იყენებს მხოლოდ ინფორმაციას ცნობილი საცნობარო ნიმუშების შესახებ. ამოხსნის მეთოდი ეფუძნება მონაცემთა ბაზაში თითოეულ ნიმუშამდე x მანძილის გაანგარიშებას და მინიმალური მანძილის პოვნას. ამ მიდგომის უპირატესობები აშკარაა:

  • ნებისმიერ დროს შეგიძლიათ დაამატოთ ახალი ნიმუშები მონაცემთა ბაზაში;
  • ხის და ბადის მონაცემთა სტრუქტურები ამცირებს გამოთვლილ მანძილებს.

გარდა ამისა, გამოსავალი უკეთესი იქნება, თუ მონაცემთა ბაზაში შეხედავთ არა ერთ უახლოეს მეზობელს, არამედ კ. შემდეგ, k > 1-ისთვის, ის იძლევა ვექტორების განაწილების საუკეთესო ნიმუშს d-განზომილებიან სივრცეში. თუმცა, k მნიშვნელობების ეფექტური გამოყენება დამოკიდებულია იმაზე, არის თუ არა საკმარისი სივრცის თითოეულ რეგიონში. თუ ორზე მეტი კლასია, მაშინ უფრო რთულია სწორი გადაწყვეტილების მიღება.

ლიტერატურა

  • M. Castrillon,. ო.დენიზი,. დ. ერნანდესი და ჯ. ლორენცო, „სახისა და სახის მახასიათებლების დეტექტორების შედარება ვიოლა-ჯონსის ზოგადი ობიექტების აღმოჩენის ჩარჩოზე დაყრდნობით“, International Journal of Computer Vision, No. 22, pp. 481-494, 2011 წ.
  • Y.-Q. Wang, "Viola-Jones Face Detection Algorithm-ის ანალიზი", IPOL Journal, 2013 წ.
  • L. Shapiro and D. Stockman, Computer vision, Binom. ცოდნის ლაბორატორია, 2006 წ.
  • Z. N. G., ამოცნობის მეთოდები და მათი გამოყენება, საბჭოთა რადიო, 1972 წ.
  • ჯ.ტუ, რ. გონსალესი, ნიმუშის ამოცნობის მათემატიკური პრინციპები, მოსკოვი: „მირ“ მოსკოვი, 1974 წ.
  • Khan, H. Abdullah and M. Shamian Bin Zainal, "Efficient eyes and mouth detection algorithm using combination of viola jones and skin color pixel detection" International Journal of Engineering and Applied Sciences, No. 3 no 4, 2013 წელი.
  • V. Gaede და O. Gunther, "მრავალგანზომილებიანი წვდომის მეთოდები", ACM Computing Surveys, გვ. 170-231, 1998 წ.
  • სახელმძღვანელო

დიდი ხნის განმავლობაში მსურდა დამეწერა ზოგადი სტატია, რომელიც შეიცავდა გამოსახულების ამოცნობის საფუძვლებს, ერთგვარ სახელმძღვანელოს ძირითადი მეთოდების შესახებ, მეთქვა როდის უნდა გამოვიყენო ისინი, რა ამოცანებს წყვეტენ, რა შეიძლება გაკეთდეს საღამოს მუხლზე და რაზე ჯობია არ იფიქრო 20 კაციანი გუნდის გარეშე.

დიდი ხანია ვწერ სტატიებს ოპტიკურ ამოცნობაზე, ამიტომ თვეში რამდენჯერმე მწერენ ამ თემაზე კითხვებით სხვადასხვა ადამიანები. ხანდახან გიჩნდება განცდა, რომ მათთან ერთად ცხოვრობ სხვადასხვა სამყაროში. ერთის მხრივ, გესმით, რომ ადამიანი, სავარაუდოდ, პროფესიონალია დაკავშირებულ თემაზე, მაგრამ ძალიან ცოტა იცის ოპტიკური ამოცნობის მეთოდების შესახებ. და ყველაზე მოსაწყენი ის არის, რომ ის ცდილობს გამოიყენოს მეთოდი ახლომდებარე ცოდნის სფეროდან, რაც ლოგიკურია, მაგრამ სრულად არ მუშაობს გამოსახულების ამოცნობაში, მაგრამ ამას ვერ ხვდება და ძალიან ეწყინება, თუ რაღაცის თქმას დაიწყებს. ძალიან საფუძვლები. და თუ გავითვალისწინებთ, რომ საფუძვლებიდან მოყოლა ბევრი დროა, რაც ხშირად არ არის, ეს კიდევ უფრო სევდიანი ხდება.

ეს სტატია შექმნილია ისე, რომ ადამიანს, რომელსაც არასოდეს ეხებოდა გამოსახულების ამოცნობის მეთოდებს, შეუძლია 10-15 წუთში თავის თავში შექმნას თემის შესაბამისი სამყაროს გარკვეული ძირითადი სურათი და გაიგოს, თუ რა მიმართულებით უნდა იჭრებოდეს. აქ აღწერილი მრავალი მეთოდი გამოიყენება რადარისა და აუდიო დამუშავებისთვის.
დავიწყებ რამდენიმე პრინციპით, რომელთა თქმასაც ყოველთვის ვიწყებთ პოტენციურ მომხმარებელს, ან ადამიანს, რომელსაც სურს დაიწყოს ოპტიკური ამოცნობის კეთება:

  • პრობლემის გადაჭრისას ყოველთვის გადადით უმარტივესიდან. ბევრად უფრო ადვილია ადამიანს ნარინჯისფერი ეტიკეტის დაკიდება, ვიდრე მიჰყვე ადამიანს, ხაზს უსვამს მას კასკადებში. ბევრად უფრო ადვილია უფრო მაღალი გარჩევადობის კამერის გადაღება, ვიდრე სუპერ გარჩევადობის ალგორითმის შემუშავება.
  • ოპტიკური ამოცნობის მეთოდებში პრობლემის მკაცრი განცხადება უფრო მნიშვნელოვანია, ვიდრე სისტემური პროგრამირების პრობლემებში: ერთ დამატებით სიტყვას TK-ში შეუძლია დაამატოს სამუშაოს 50%.
  • ამოცნობის პრობლემებში უნივერსალური გადაწყვეტილებები არ არსებობს. თქვენ არ შეგიძლიათ გააკეთოთ ალგორითმი, რომელიც უბრალოდ "აცნობს ნებისმიერ წარწერას". ქუჩაში ნიშანი და ტექსტის ფურცელი ფუნდამენტურად განსხვავებული ობიექტებია. ალბათ შესაძლებელია ზოგადი ალგორითმის შედგენა (კარგი მაგალითი Google-ისგან), მაგრამ ამას დიდი გუნდისგან დიდი შრომა დასჭირდება და შედგება ათობით სხვადასხვა ქვეპროგრამისგან.
  • OpenCV არის ბიბლია, რომელსაც აქვს მრავალი მეთოდი და რომლითაც შეგიძლიათ გადაჭრათ თითქმის ნებისმიერი პრობლემის მოცულობის 50%, მაგრამ OpenCV მხოლოდ მცირე ნაწილია იმისა, რისი გაკეთებაც შესაძლებელია რეალურად. ერთ კვლევაში დასკვნებში ეწერა: „პრობლემა OpenCV მეთოდებით არ გვარდება, შესაბამისად, გადაუჭრელია“. შეეცადეთ თავიდან აიცილოთ ეს, არ დაიზაროთ და ფხიზლად შეაფასოთ მიმდინარე დავალება ყოველ ჯერზე ნულიდან, OpenCV შაბლონების გამოყენების გარეშე.
ძალიან რთულია რაიმე სახის უნივერსალური რჩევის მიცემა, ან იმის თქმა, თუ როგორ უნდა შექმნათ რაიმე სახის სტრუქტურა, რომლის ირგვლივ შეგიძლიათ შექმნათ გადაწყვეტა თვითნებური კომპიუტერული ხედვის პრობლემებისთვის. ამ სტატიის მიზანია სტრუქტურირება, თუ რა შეიძლება იყოს გამოყენებული. შევეცდები არსებული მეთოდები დავყო სამ ჯგუფად. პირველი ჯგუფი არის წინასწარ გაფილტვრა და გამოსახულების მომზადება. მეორე ჯგუფი არის ფილტრაციის შედეგების ლოგიკური დამუშავება. მესამე ჯგუფი არის გადაწყვეტილების მიღების ალგორითმები, რომლებიც დაფუძნებულია ლოგიკურ დამუშავებაზე. ჯგუფებს შორის საზღვრები ძალიან თვითნებურია. პრობლემის გადასაჭრელად, ყოველთვის არ არის საჭირო ყველა ჯგუფის მეთოდების გამოყენება; ზოგჯერ საკმარისია ორი, ზოგჯერ კი ერთი.

აქ წარმოდგენილი მეთოდების სია არ არის სრული. მე ვთავაზობ კომენტარებში დავამატო კრიტიკული მეთოდები, რომლებიც არ დავწერე და თითოეულს მივაწერო 2-3 თანმხლები სიტყვა.

ნაწილი 1. გაფილტვრა

ამ ჯგუფში მე განვათავსე მეთოდები, რომლებიც საშუალებას გაძლევთ აირჩიოთ სურათების ინტერესის სფეროები მათი ანალიზის გარეშე. ამ მეთოდების უმეტესობა მიმართავს რაიმე სახის ერთგვაროვან ტრანსფორმაციას გამოსახულების ყველა წერტილზე. ფილტრაციის დონეზე გამოსახულების ანალიზი არ ხდება, მაგრამ ის წერტილები, რომლებიც გაფილტრულია, შეიძლება ჩაითვალოს განსაკუთრებული მახასიათებლების მქონე ზონებად.
ბარიერის ბინარიზაცია, ჰისტოგრამის არეალის შერჩევა
უმარტივესი ტრანსფორმაცია არის გამოსახულების ბინარიზაცია ზღურბლით. RGB და ნაცრისფერი ფერის გამოსახულებებისთვის, ბარიერი არის ფერის მნიშვნელობა. არსებობს იდეალური პრობლემები, რომლებშიც ასეთი ტრანსფორმაცია საკმარისია. დავუშვათ, რომ გსურთ ავტომატურად აირჩიოთ ნივთები თეთრ ფურცელზე:




ზღვრის არჩევანი, რომლითაც ხდება ბინარიზაცია, დიდწილად განსაზღვრავს თავად ბინარიზაციის პროცესს. ამ შემთხვევაში, გამოსახულება ორობითი იყო საშუალო ფერის მიხედვით. როგორც წესი, ბინარიზაცია ხდება ალგორითმით, რომელიც ადაპტაციურად ირჩევს ზღურბლს. ასეთი ალგორითმი შეიძლება იყოს მოლოდინის ან რეჟიმის არჩევანი. და თქვენ შეგიძლიათ აირჩიოთ ჰისტოგრამის უდიდესი პიკი.

ჰისტოგრამებთან მუშაობისას ჰისტოგრამებთან მუშაობისას ბინარიზაციას შეუძლია ძალიან საინტერესო შედეგების მოტანა, მათ შორის სიტუაციის ჩათვლით, თუ გამოსახულებას განვიხილავთ არა RGB-ში, არამედ HSV-ში. მაგალითად, სეგმენტირებული ფერები. ამ პრინციპით შესაძლებელია როგორც ეტიკეტის დეტექტორის, ასევე ადამიანის კანის დეტექტორის აგება.
კლასიკური ფილტრაცია: Fourier, LPF, HPF
კლასიკური ფილტრაციის მეთოდები რადარიდან და სიგნალის დამუშავებიდან შეიძლება წარმატებით იქნას გამოყენებული შაბლონის ამოცნობის სხვადასხვა ამოცანებში. რადარში ტრადიციული მეთოდი, რომელიც თითქმის არასოდეს გამოიყენება სურათებში მისი სუფთა სახით, არის ფურიეს ტრანსფორმაცია (უფრო კონკრეტულად, FFT). იმ რამდენიმე გამონაკლისიდან, სადაც გამოიყენება 1D ფურიეს ტრანსფორმაცია, არის გამოსახულების შეკუმშვა. გამოსახულების ანალიზისთვის, ერთგანზომილებიანი ტრანსფორმაცია, როგორც წესი, არ არის საკმარისი, თქვენ უნდა გამოიყენოთ ბევრად უფრო რესურსზე ინტენსიური ორგანზომილებიანი ტრანსფორმაცია.

რამდენიმე ადამიანი რეალურად ითვლის მას, ჩვეულებრივ, ბევრად უფრო სწრაფი და მარტივია ინტერესის რეგიონის კონვოლუციის გამოყენება მზა ფილტრით, რომელიც გამკაცრებულია მაღალ (HPF) ან დაბალ (LPF) სიხშირეებზე. ასეთი მეთოდი, რა თქმა უნდა, არ იძლევა სპექტრის ანალიზს, მაგრამ კონკრეტული ვიდეო დამუშავების ამოცანაში, როგორც წესი, საჭიროა არა ანალიზი, არამედ შედეგი.


ფილტრების უმარტივესი მაგალითები, რომლებიც ხაზს უსვამენ დაბალ სიხშირეებს (Gaussian filter) და მაღალ სიხშირეებს (Gabor filter).
თითოეული სურათის წერტილისთვის ირჩევა ფანჯარა და მრავლდება იმავე ზომის ფილტრით. ასეთი კონვოლუციის შედეგი არის წერტილის ახალი მნიშვნელობა. LPF და HPF დანერგვისას მიიღება ამ ტიპის სურათები:



ტალღები
მაგრამ რა მოხდება, თუ გამოვიყენებთ რაიმე თვითნებურ დამახასიათებელ ფუნქციას სიგნალთან კონვოლუციისთვის? შემდეგ მას დაერქმევა "Wavelet Transform". ტალღების ეს განმარტება არ არის სწორი, მაგრამ ტრადიციულად, ბევრ გუნდში, ტალღის ანალიზი არის გამოსახულებაზე თვითნებური ნიმუშის ძიება ამ ნიმუშის მოდელთან კონვოლუციის გამოყენებით. არსებობს კლასიკური ფუნქციების ერთობლიობა, რომლებიც გამოიყენება ტალღის ანალიზში. მათ შორისაა Haar wavelet, Morlet wavelet, მექსიკური ქუდის wavelet და ა.შ. Haar primitives, რომლის შესახებაც იყო ჩემი რამდენიმე წინა სტატია ( , ), ეხება ორგანზომილებიანი სივრცის ასეთ ფუნქციებს.


ზემოთ მოცემულია კლასიკური ტალღების 4 მაგალითი. 3D Haar wavelet, 2D Meyer wavelet, Mexican Hat wavelet, Daubechies wavelet. ტალღების გაფართოებული ინტერპრეტაციის გამოყენების კარგი მაგალითია თვალში ბზინვის პოვნის პრობლემა, რისთვისაც თავად ბზინვარება არის ტალღოვანი:

კლასიკური ტალღები ჩვეულებრივ გამოიყენება , ან მათი კლასიფიკაციისთვის (აღწერილია ქვემოთ).
კორელაცია
ჩემი მხრიდან ტალღების ასეთი თავისუფალი ინტერპრეტაციის შემდეგ, ღირს მათ საფუძვლად არსებული ფაქტობრივი კორელაციის აღნიშვნა. სურათების ფილტრაციისას, ეს შეუცვლელი ინსტრუმენტია. კლასიკური აპლიკაცია არის ვიდეო ნაკადის კორელაცია ოფსეტების ან ოპტიკური ნაკადების მოსაძებნად. უმარტივესი ცვლის დეტექტორი ასევე, გარკვეული გაგებით, არის სხვაობის კორელატორი. იქ, სადაც სურათები არ არის დაკავშირებული, იყო მოძრაობა.

ფუნქციის ფილტრაცია
ფილტრების საინტერესო კლასი არის ფილტრაციის ფუნქციები. ეს არის წმინდა მათემატიკური ფილტრები, რომლებიც საშუალებას გაძლევთ ამოიცნოთ მარტივი მათემატიკური ფუნქცია გამოსახულებაში (ხაზი, პარაბოლა, წრე). აგებულია აკუმულაციური გამოსახულება, რომელშიც თავდაპირველი გამოსახულების თითოეული წერტილისთვის არის დახატული ფუნქციების ნაკრები, რომელიც ქმნის მას. ყველაზე კლასიკური ტრანსფორმაცია არის Hough ტრანსფორმაცია ხაზებისთვის. ამ გარდაქმნისას ყოველი წერტილისთვის (x;y) დგება y=ax+b წრფის (a;b) სიმრავლე, რომლებისთვისაც ტოლობა მართალია. მიიღეთ ლამაზი სურათები:


(პირველი პლიუსი მათთვის, ვინც პირველად იპოვის ნახატზე დაჭერას და ასეთ განმარტებას და ახსნის, მეორე პლუსი ვინც პირველმა იტყვის რა არის აქ ნაჩვენები)
Hough ტრანსფორმაცია საშუალებას გაძლევთ იპოვოთ ნებისმიერი პარამეტრიზირებადი ფუნქცია. მაგალითად წრეები. არსებობს შეცვლილი ტრანსფორმაცია, რომელიც საშუალებას გაძლევთ მოძებნოთ ნებისმიერი. ეს ტრანსფორმაცია საშინლად უყვართ მათემატიკოსებს. მაგრამ სურათების დამუშავებისას, ის, სამწუხაროდ, ყოველთვის არ მუშაობს. ძალიან ნელი სიჩქარე, ძალიან მაღალი მგრძნობელობა ბინარიზაციის ხარისხის მიმართ. იდეალურ სიტუაციებშიც კი მერჩივნა სხვა მეთოდებით გამკლავება.
ხაზებისთვის ჰაუს ტრანსფორმაციის ანალოგი არის რადონის ტრანსფორმაცია. ის გამოითვლება FFT-ის საშუალებით, რომელიც იძლევა შესრულების მატებას იმ სიტუაციაში, სადაც ბევრი ქულაა. გარდა ამისა, ის შეიძლება გამოყენებულ იქნას არაბინარიზებულ სურათზე.
კონტურის ფილტრაცია
ფილტრების ცალკე კლასი არის საზღვრების და კონტურის ფილტრაცია. ბილიკები ძალიან სასარგებლოა, როდესაც ჩვენ გვინდა გადავიდეთ სურათთან მუშაობიდან ამ გამოსახულების ობიექტებთან მუშაობაზე. როდესაც ობიექტი საკმაოდ რთულია, მაგრამ კარგად გამორჩეული, მაშინ ხშირად მასთან მუშაობის ერთადერთი გზა მისი კონტურების შერჩევაა. არსებობს მთელი რიგი ალგორითმები, რომლებიც წყვეტს კონტურის ფილტრაციის პრობლემას:

ყველაზე ხშირად გამოიყენება კენი, რომელიც კარგად მუშაობს და რომლის დანერგვაც არის OpenCV-ში (სობელიც არის, მაგრამ უარესად ეძებს კონტურებს).



სხვა ფილტრები
ზემოთ არის ფილტრები, რომელთა მოდიფიკაცია ხელს უწყობს ამოცანების 80-90% გადაჭრას. მაგრამ მათ გარდა, უფრო იშვიათი ფილტრები გამოიყენება ადგილობრივ ამოცანებში. ასეთი ფილტრები ათობით არის, ყველა მათგანს არ ჩამოვთვლი. საინტერესოა განმეორებითი ფილტრები (მაგალითად), აგრეთვე რიჯლეტისა და მრუდის გარდაქმნები, რომლებიც წარმოადგენენ ტალღების კლასიკური ფილტრაციისა და ანალიზის შენადნობას რადონის ტრანსფორმაციის ველში. Beamlet-ის ტრანსფორმაცია მშვენივრად მუშაობს ვეილეტის ტრანსფორმაციისა და ლოგიკური ანალიზის საზღვარზე, რაც საშუალებას გაძლევთ ხაზი გაუსვათ კონტურებს:

მაგრამ ეს ტრანსფორმაციები ძალიან სპეციფიკურია და მორგებულია იშვიათი ამოცანებისთვის.

ნაწილი 2. ფილტრაციის შედეგების ლოგიკური დამუშავება

ფილტრაცია იძლევა დამუშავებისთვის შესაფერის მონაცემებს. მაგრამ ხშირად თქვენ არ შეგიძლიათ უბრალოდ აიღოთ და გამოიყენოთ ეს მონაცემები დამუშავების გარეშე. ამ განყოფილებაში იქნება რამდენიმე კლასიკური მეთოდი, რომელიც საშუალებას მოგცემთ გადახვიდეთ სურათიდან ობიექტების თვისებებზე, ან თავად ობიექტებზე.
Მორფოლოგია
გაფილტვრიდან ლოგიკაზე გადასვლა, ჩემი აზრით, არის მათემატიკური მორფოლოგიის მეთოდები ( , ). სინამდვილეში, ეს არის ორობითი გამოსახულებების გაზრდისა და ეროზიის უმარტივესი ოპერაციები. ეს მეთოდები საშუალებას გაძლევთ ამოიღოთ ხმაური ორობითი სურათიდან არსებული ელემენტების გაზრდით ან შემცირებით. მათემატიკური მორფოლოგიიდან გამომდინარე, არსებობს კონტურის ალგორითმები, მაგრამ ჩვეულებრივ ისინი იყენებენ რაიმე სახის ჰიბრიდულ ალგორითმებს ან ალგორითმებს ერთად.
კონტურის ანალიზი
ფილტრაციის განყოფილებაში უკვე ნახსენებია საზღვრების მიღების ალგორითმები. შედეგად მიღებული საზღვრები საკმაოდ მარტივად გარდაიქმნება კონტურებად. Canny ალგორითმისთვის ეს ხდება ავტომატურად, სხვა ალგორითმებისთვის საჭიროა დამატებითი ბინარიზაცია. შეგიძლიათ მიიღოთ კონტური ბინარული ალგორითმისთვის, მაგალითად, ხოჭოს ალგორითმით.
კონტური ობიექტის უნიკალური მახასიათებელია. ხშირად ეს საშუალებას გაძლევთ ამოიცნოთ ობიექტი კონტურის გასწვრივ. არსებობს ძლიერი მათემატიკური აპარატი, რომელიც ამის საშუალებას გაძლევთ. აპარატს ეწოდება კონტურის ანალიზი ( , ).

მართალი გითხრათ, მე არასოდეს მოვახერხე კონტურული ანალიზის გამოყენება რეალურ პრობლემებში. ძალიან იდეალური პირობებია საჭირო. ან საზღვარი არ არის, ან ძალიან ბევრი ხმაურია. მაგრამ, თუ იდეალურ პირობებში რაღაცის ამოცნობა გჭირდებათ, მაშინ კონტურის ანალიზი შესანიშნავი ვარიანტია. მუშაობს ძალიან სწრაფად, ლამაზი მათემატიკა და გასაგები ლოგიკა.
სინგულარული წერტილები
საკვანძო წერტილები არის ობიექტის უნიკალური მახასიათებლები, რომლებიც საშუალებას აძლევს ობიექტს დაუკავშირდეს საკუთარ თავს ან მსგავსი ობიექტების კლასებს. ასეთი პუნქტების არჩევის ათობით გზა არსებობს. ზოგიერთი მეთოდი ხაზს უსვამს სპეციალურ წერტილებს მეზობელ ჩარჩოებში, ზოგი დიდი ხნის შემდეგ და როდესაც განათება იცვლება, ზოგი საშუალებას გაძლევთ იპოვოთ სპეციალური წერტილები, რომლებიც ასე რჩება მაშინაც კი, როდესაც ობიექტი ბრუნავს. დავიწყოთ იმ მეთოდებით, რომლებიც საშუალებას გვაძლევს ვიპოვოთ სპეციალური ქულები, რომლებიც არც თუ ისე სტაბილურია, მაგრამ სწრაფად გამოითვლება და შემდეგ მივდივართ მზარდ სირთულისკენ:
პირველი კლასი. სინგულარული წერტილები, რომლებიც სტაბილურია წამის განმავლობაში.ასეთი წერტილები გამოიყენება ობიექტის მეზობელ ვიდეო კადრებს შორის წარმართვისთვის ან მეზობელი კამერების სურათების გადასაყრელად. ეს წერტილები მოიცავს გამოსახულების ლოკალურ მაქსიმუმებს, გამოსახულების კუთხეებს (საუკეთესო დეტექტორებს შორის, ალბათ, ჰარის დეტექტორს), წერტილებს, რომლებზეც მიიღწევა დისპერსიის მაქსიმუმები, გარკვეული გრადიენტები და ა.შ.
Მეორე კლასი. ცალკეული წერტილები, რომლებიც სტაბილურია განათების შეცვლისა და ობიექტის მცირე მოძრაობების დროს.ასეთი პუნქტები ძირითადად ემსახურება საგნების ტიპების ვარჯიშს და შემდგომ კლასიფიკაციას. მაგალითად, ფეხით მოსიარულეთა კლასიფიკატორი ან სახის კლასიფიკატორი სწორედ ასეთ წერტილებზე აგებული სისტემის პროდუქტია. ზოგიერთი ადრე ნახსენები ტალღები შეიძლება იყოს საფუძველი ასეთი წერტილებისთვის. მაგალითად, Haar primitives, glare ძიება, ძიება სხვა სპეციფიკური მახასიათებლები. ეს წერტილები მოიცავს წერტილებს, რომლებიც ნაპოვნია მიმართულების გრადიენტების ჰისტოგრამების მეთოდით (HOG).
მესამე კლასი. სტაბილური წერტილები.მე ვიცი მხოლოდ ორი მეთოდის შესახებ, რომლებიც იძლევა სრულ სტაბილურობას და მათი ცვლილებების შესახებ. ეს და . ისინი საშუალებას გაძლევთ იპოვოთ ძირითადი პუნქტები მაშინაც კი, როდესაც თქვენ ატრიალებთ სურათს. ასეთი ქულების გაანგარიშებას სხვა მეთოდებთან შედარებით უფრო მეტი დრო სჭირდება, მაგრამ საკმაოდ შეზღუდული დროით. სამწუხაროდ, ეს მეთოდები დაპატენტებულია. თუმცა, რუსეთში შეუძლებელია ალგორითმების დაპატენტება, ამიტომ გამოიყენეთ იგი შიდა ბაზრისთვის.

ნაწილი 3. ტრენინგი

სიუჟეტის მესამე ნაწილი დაეთმობა მეთოდებს, რომლებიც არ მუშაობს უშუალოდ სურათთან, მაგრამ რაც გადაწყვეტილების მიღების საშუალებას გაძლევს. ძირითადად, ეს არის მანქანური სწავლისა და გადაწყვეტილების მიღების სხვადასხვა მეთოდი. ახლახან Yandyks-მა გამოაქვეყნა Habr-ზე ამ თემაზე, ძალიან კარგი არჩევანია. აი ეს არის ტექსტურ ვერსიაში. ამ საკითხის სერიოზული შესწავლისთვის, გირჩევთ, გადახედოთ მათ. აქ შევეცდები გამოვავლინო რამდენიმე ძირითადი მეთოდი, რომლებიც სპეციალურად გამოიყენება ნიმუშის ამოცნობაში.
სიტუაციების 80%-ში ამოცნობის პრობლემაში სწავლის არსი შემდეგია:
არსებობს სატესტო ნიმუში, რომელზედაც არის რამდენიმე კლასის ობიექტები. დაე ეს იყოს ადამიანის ყოფნა/არყოფნა ფოტოზე. თითოეული სურათისთვის არის ფუნქციების ნაკრები, რომლებიც ხაზგასმულია ზოგიერთი მახასიათებლის მიერ, იქნება ეს Haar, HOG, SURF ან რაიმე ტალღოვანი. სასწავლო ალგორითმმა უნდა ააგოს ისეთი მოდელი, რომლის მიხედვითაც შეძლებს ახალი სურათის გაანალიზებას და გადაწყვიტოს რომელი ობიექტია გამოსახულებაში.
როგორ კეთდება? თითოეული ტესტის სურათი არის წერტილი ფუნქციების სივრცეში. მისი კოორდინატები არის გამოსახულების თითოეული მახასიათებლის წონა. დაე, ჩვენი ნიშნები იყოს: „თვალების არსებობა“, „ცხვირის არსებობა“, „ორი ხელის არსებობა“, „ყურების არსებობა“ და ა.შ. რომლებიც ვარჯიშობენ ადამიანის მსგავსი სხეულის ნაწილებზე. ასეთ სივრცეში მყოფი ადამიანისთვის სწორი წერტილი იქნება . მაიმუნისთვის, ცხენისთვის წერტილი. კლასიფიკატორი მომზადებულია მაგალითების ნიმუშზე. მაგრამ ყველა ფოტოზე არ იყო ხელები, სხვებს თვალები არ ჰქონდათ, ხოლო მესამეში მაიმუნს ადამიანის ცხვირი ჰქონდა კლასიფიკატორის შეცდომის გამო. სწავლებადი ადამიანის კლასიფიკატორი ავტომატურად ყოფს ფუნქციების სივრცეს ისე, რომ იტყვის: თუ პირველი ფუნქცია დევს 0.5 დიაპაზონში. არსებითად, კლასიფიკატორის დანიშნულებაა ფუნქციების სივრცეში დახატოს კლასიფიკაციის ობიექტებისთვის დამახასიათებელი არეები. ასე გამოიყურება ერთ-ერთი კლასიფიკატორის (AdaBoost) პასუხის თანმიმდევრული მიახლოება ორგანზომილებიან სივრცეში:


ბევრი კლასიფიკატორია. თითოეული მათგანი უკეთესად მუშაობს თავის ზოგიერთ ამოცანაში. კონკრეტული ამოცანისთვის კლასიფიკატორის არჩევის ამოცანა დიდწილად ხელოვნებაა. აქ არის რამდენიმე ლამაზი სურათი ამ თემაზე.
მარტივი საქმე, ერთგანზომილებიანი გამოყოფა
ავიღოთ კლასიფიკაციის უმარტივესი შემთხვევის მაგალითი, როდესაც ფუნქციების სივრცე ერთგანზომილებიანია და 2 კლასი უნდა გამოვყოთ. სიტუაცია უფრო ხშირად ხდება, ვიდრე შეიძლება ჩანდეს: მაგალითად, როდესაც საჭიროა ორი სიგნალის გარჩევა, ან ნიმუშის შედარება ნიმუშთან. ვთქვათ, გვაქვს სასწავლო ნიმუში. ამ შემთხვევაში მიიღება გამოსახულება, სადაც X ღერძი იქნება მსგავსების საზომი, ხოლო Y ღერძი იქნება მოვლენების რაოდენობა ასეთი საზომით. როდესაც სასურველი ობიექტი თავის მსგავსია, მიიღება მარცხენა გაუსიანი. როცა მსგავსი არ არის - მართალია. მნიშვნელობა X=0.4 გამოყოფს ნიმუშებს ისე, რომ მცდარი გადაწყვეტილება მინიმუმამდე დაიყვანოს რაიმე არასწორი გადაწყვეტილების მიღების ალბათობაზე. სწორედ ასეთი გამყოფის ძიებაა კლასიფიკაციის ამოცანა.


პატარა შენიშვნა. კრიტერიუმი, რომელიც ამცირებს შეცდომებს, ყოველთვის არ იქნება ოპტიმალური. შემდეგი გრაფიკი არის ირისის ამომცნობი სისტემის რეალური გრაფიკი. ასეთი სისტემისთვის კრიტერიუმი ისეა შერჩეული, რომ მინიმუმამდე დაიყვანოს ობიექტში აუტსაიდერის ყალბი დაშვების ალბათობა. ასეთ ალბათობას ეწოდება "პირველი სახის შეცდომა", "ცრუ განგაშის ალბათობა", "ცრუ დადებითი". ინგლისურ ლიტერატურაში „False Access Rate“.
) AdaBusta არის ერთ-ერთი ყველაზე გავრცელებული კლასიფიკატორი. მაგალითად, მასზე აგებულია ჰაარის კასკადი. ჩვეულებრივ გამოიყენება, როდესაც საჭიროა ორობითი კლასიფიკაცია, მაგრამ არაფერი უშლის ხელს უფრო მეტი კლასის სწავლებას.
SVM ( , , , ) ერთ-ერთი ყველაზე ძლიერი კლასიფიკატორი მრავალი განხორციელებით. პრინციპში, სასწავლო ამოცანებზე, რომლებიც მე წავაწყდი, ის მუშაობდა ადაბუსტას მსგავსად. ის საკმაოდ სწრაფად ითვლება, მაგრამ მისი ვარჯიში უფრო რთულია ვიდრე ადაბუსტას და საჭიროებს სწორი ბირთვის არჩევას.

ასევე არსებობს ნერვული ქსელები და რეგრესია. მაგრამ მათი მოკლედ კლასიფიკაციისთვის და იმის საჩვენებლად, თუ როგორ განსხვავდებიან ისინი, საჭიროა ამაზე ბევრად დიდი სტატია.
________________________________________________
იმედი მაქვს, შევძელი გამოყენებული მეთოდების სწრაფი მიმოხილვა მათემატიკასა და აღწერაში ჩაძირვის გარეშე. იქნებ ეს ვინმეს დაეხმარება. თუმცა, რა თქმა უნდა, სტატია არასრულია და არ არის სიტყვა სტერეო გამოსახულებებთან მუშაობის შესახებ, ან კალმანის ფილტრით LSM-ზე, ან ადაპტირებულ ბაიესიან მიდგომაზე.
თუ მოგწონთ სტატია, მაშინ ვეცდები მეორე ნაწილი გავაკეთო მაგალითების შერჩევით, თუ როგორ გვარდება ImageRecognition არსებული პრობლემები.

Და ბოლოს

რა წავიკითხო?
1) ერთხელ ძალიან მომეწონა ბ.იანას წიგნი "ციფრული გამოსახულების დამუშავება", რომელიც დაწერილია მარტივად და გარკვევით, მაგრამ ამავდროულად თითქმის ყველა მათემატიკაა მოცემული. კარგია არსებული მეთოდების გასაცნობად.
2) ჟანრის კლასიკაა R Gonzalez, R. Woods "Digital Image Processing". რატომღაც უფრო გამიჭირდა, ვიდრე პირველი. გაცილებით ნაკლები მათემატიკა, მაგრამ მეტი მეთოდი და სურათი.
3) „გამოსახულების დამუშავება და ანალიზი მანქანათმხედველობის პრობლემებში“ - დაწერილი ფიზტექის ერთ-ერთ განყოფილებაში ნასწავლი კურსის საფუძველზე. ბევრი მეთოდი და მათი დეტალური აღწერა. მაგრამ, ჩემი აზრით, წიგნს ორი დიდი მინუსი აქვს: წიგნი ძლიერად არის ორიენტირებული პროგრამულ პაკეტზე, რომელიც მოყვება, წიგნში ძალიან ხშირად მარტივი მეთოდის აღწერა გადაიქცევა მათემატიკურ ჯუნგლებში, საიდანაც ძნელია ამოღება. მეთოდის სტრუქტურული დიაგრამა. მაგრამ ავტორებმა შექმნეს მოსახერხებელი საიტი, სადაც თითქმის მთელი შინაარსია წარმოდგენილი - wiki.technicalvision.ru ტეგების დამატება