គំនិតថ្មីបំផុតនៃការទទួលស្គាល់គំរូ។ ករណីសាមញ្ញ ការបំបែកមួយវិមាត្រ

ជាទូទៅវិធីសាស្រ្តបីនៃការទទួលស្គាល់គំរូអាចត្រូវបានសម្គាល់: វិធីសាស្ត្ររាប់បញ្ចូល។ ក្នុងករណីនេះ ការប្រៀបធៀបត្រូវបានធ្វើឡើងជាមួយនឹងមូលដ្ឋានទិន្នន័យ ដែលសម្រាប់ប្រភេទនីមួយៗនៃវត្ថុនីមួយៗ ការកែប្រែដែលអាចកើតមាននៃការបង្ហាញត្រូវបានបង្ហាញ។ ឧទាហរណ៍ សម្រាប់ការសម្គាល់រូបភាពអុបទិក អ្នកអាចអនុវត្តវិធីសាស្រ្តនៃការរាប់បញ្ចូលប្រភេទនៃវត្ថុនៅមុំផ្សេងៗគ្នា មាត្រដ្ឋាន ការផ្លាស់ទីលំនៅ ការខូចទ្រង់ទ្រាយ។ ករណីនៃការទទួលស្គាល់រូបភាពសំឡេង រៀងគ្នា ការប្រៀបធៀបជាមួយគំរូល្បីមួយចំនួន (ឧទាហរណ៍ ពាក្យដែលនិយាយដោយមនុស្សជាច្រើន)។

វិធីសាស្រ្តទីពីរគឺការវិភាគស៊ីជម្រៅអំពីលក្ខណៈនៃរូបភាព។ នៅក្នុងករណីនៃការទទួលស្គាល់អុបទិក នេះអាចជាការកំណត់នៃលក្ខណៈធរណីមាត្រផ្សេងៗ។ សំណាក​សំឡេង​នៅ​ក្នុង​ករណី​នេះ​ត្រូវ​បាន​ទទួលរង​នូវ​ប្រេកង់ ការវិភាគ​ទំហំ​។ល។

វិធីសាស្រ្តបន្ទាប់គឺការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) ។ វិធីសាស្រ្តនេះតម្រូវឱ្យមានឧទាហរណ៍មួយចំនួនធំនៃភារកិច្ចទទួលស្គាល់ក្នុងអំឡុងពេលបណ្តុះបណ្តាល ឬរចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទពិសេសដែលគិតគូរពីភាពជាក់លាក់នៃកិច្ចការនេះ។ ទោះជាយ៉ាងណាក៏ដោយ វាត្រូវបានសម្គាល់ដោយប្រសិទ្ធភាព និងផលិតភាពខ្ពស់ជាងមុន។

4. ប្រវត្តិនៃការទទួលស្គាល់លំនាំ

ចូរយើងពិចារណាដោយសង្ខេបអំពីទម្រង់គណិតវិទ្យានៃការទទួលស្គាល់គំរូ។ វត្ថុមួយនៅក្នុងការទទួលស្គាល់លំនាំត្រូវបានពិពណ៌នាដោយសំណុំនៃលក្ខណៈមូលដ្ឋាន (លក្ខណៈពិសេស លក្ខណៈសម្បត្តិ) ។ លក្ខណៈសំខាន់ៗអាចមានលក្ខណៈខុសគ្នា៖ ពួកគេអាចយកចេញពីសំណុំតាមលំដាប់នៃប្រភេទបន្ទាត់ពិត ឬពីសំណុំដាច់ពីគ្នា (ដែលទោះជាយ៉ាងណាក៏អាចត្រូវបានផ្តល់ដោយរចនាសម្ព័ន្ធផងដែរ)។ ការយល់ដឹងអំពីវត្ថុនេះគឺស្របទាំងតម្រូវការសម្រាប់ការអនុវត្តជាក់ស្តែងនៃការទទួលស្គាល់គំរូ និងជាមួយនឹងការយល់ដឹងរបស់យើងអំពីយន្តការនៃការយល់ឃើញរបស់មនុស្សចំពោះវត្ថុមួយ។ ជាការពិតណាស់ យើងជឿថា នៅពេលដែលមនុស្សម្នាក់សង្កេត (វាស់) វត្ថុមួយ ព័ត៌មានអំពីវាកើតឡើងតាមរយៈឧបករណ៍ចាប់សញ្ញាចំនួនកំណត់ (បណ្តាញវិភាគ) ទៅកាន់ខួរក្បាល ហើយឧបករណ៍ចាប់សញ្ញានីមួយៗអាចត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងលក្ខណៈដែលត្រូវគ្នានៃវត្ថុ។ បន្ថែមពីលើលក្ខណៈពិសេសដែលត្រូវនឹងការវាស់វែងរបស់យើងនៃវត្ថុនោះ វាក៏មានលក្ខណៈពិសេសដែលបានជ្រើសរើស ឬក្រុមនៃលក្ខណៈពិសេសផងដែរ ដែលយើងហៅថាលក្ខណៈចាត់ថ្នាក់ ហើយការស្វែងរកតម្លៃរបស់វាសម្រាប់វ៉ិចទ័រ X ដែលបានផ្តល់គឺជាកិច្ចការដែលធម្មជាតិ និងប្រព័ន្ធទទួលស្គាល់សិប្បនិម្មិតអនុវត្ត។

វាច្បាស់ណាស់ថាដើម្បីបង្កើតតម្លៃនៃលក្ខណៈពិសេសទាំងនេះវាចាំបាច់ដើម្បីឱ្យមានព័ត៌មានអំពីរបៀបដែលលក្ខណៈពិសេសដែលគេស្គាល់ទាក់ទងនឹងការចាត់ថ្នាក់។ ព័ត៌មានអំពីទំនាក់ទំនងនេះត្រូវបានផ្តល់ឱ្យក្នុងទម្រង់នៃបុព្វបទ នោះគឺជាសំណុំនៃការពិពណ៌នាអំពីវត្ថុដែលមានតម្លៃដែលគេស្គាល់នៃលក្ខណៈចាត់ថ្នាក់។ ហើយយោងទៅតាមព័ត៌មានមុននេះ វាត្រូវបានទាមទារដើម្បីបង្កើតច្បាប់នៃការសម្រេចចិត្តដែលនឹងកំណត់ការពិពណ៌នាតាមអំពើចិត្តនៃវត្ថុនៃតម្លៃនៃលក្ខណៈនៃការចាត់ថ្នាក់របស់វា។

ការយល់ដឹងអំពីបញ្ហានៃការទទួលស្គាល់គំរូនេះត្រូវបានបង្កើតឡើងនៅក្នុងវិទ្យាសាស្ត្រតាំងពីទសវត្សរ៍ទី 50 នៃសតវត្សទីចុងក្រោយ។ ហើយ​បន្ទាប់​មក​គេ​សង្កេត​ឃើញ​ថា​ការ​ផលិត​បែប​នេះ​មិន​មែន​ជា​រឿង​ថ្មី​ទេ។ វិធីសាស្រ្តដែលបង្ហាញឱ្យឃើញយ៉ាងល្អនៃការវិភាគទិន្នន័យស្ថិតិ ដែលត្រូវបានប្រើយ៉ាងសកម្មសម្រាប់កិច្ចការជាក់ស្តែងជាច្រើន ដូចជាឧទាហរណ៍ ការវិនិច្ឆ័យបច្ចេកទេស ត្រូវប្រឈមមុខនឹងការបង្កើតបែបនោះ ហើយមានរួចហើយ។ ដូច្នេះ ជំហានដំបូងនៃការទទួលស្គាល់គំរូបានឆ្លងកាត់ក្រោមសញ្ញានៃវិធីសាស្រ្តស្ថិតិ ដែលកំណត់បញ្ហាចម្បង។

វិធីសាស្រ្តស្ថិតិគឺផ្អែកលើគំនិតដែលថាលំហដំបូងនៃវត្ថុគឺជាលំហប្រូបាប៊ីលីស្ត ហើយលក្ខណៈពិសេស (លក្ខណៈ) នៃវត្ថុគឺជាអថេរចៃដន្យដែលបានផ្តល់ឱ្យនៅលើវា។ បន្ទាប់មក ភារកិច្ចរបស់អ្នកវិទ្យាសាស្ត្រទិន្នន័យគឺត្រូវដាក់ចេញនូវសម្មតិកម្មស្ថិតិអំពីការចែកចាយនៃលក្ខណៈពិសេស ឬជាជាងអំពីការពឹងផ្អែកនៃការបែងចែកលក្ខណៈនៅលើអ្វីដែលនៅសល់ពីការពិចារណាមួយចំនួន។ សម្មតិកម្មស្ថិតិ ជាក្បួនគឺជាសំណុំនៃមុខងារចែកចាយលក្ខណៈដែលបានបញ្ជាក់ដោយប៉ារ៉ាម៉ែត្រ។ សម្មតិកម្មស្ថិតិធម្មតា និងបុរាណគឺជាសម្មតិកម្មនៃភាពធម្មតានៃការចែកចាយនេះ (មានសម្មតិកម្មបែបនេះជាច្រើននៅក្នុងស្ថិតិ)។ បន្ទាប់ពីបង្កើតសម្មតិកម្ម វានៅតែត្រូវសាកល្បងសម្មតិកម្មនេះលើទិន្នន័យមុននេះ។ ការត្រួតពិនិត្យនេះមាននៅក្នុងការជ្រើសរើសការចែកចាយមួយចំនួនពីសំណុំនៃការចែកចាយដែលបានផ្តល់ឱ្យដំបូង (ប៉ារ៉ាម៉ែត្រសម្មតិកម្មការចែកចាយ) និងការវាយតម្លៃភាពអាចជឿជាក់បាន (ចន្លោះពេលទំនុកចិត្ត) នៃជម្រើសនេះ។ តាមពិត មុខងារចែកចាយនេះគឺជាចំលើយចំពោះបញ្ហា មានតែវត្ថុប៉ុណ្ណោះដែលត្រូវបានចាត់ថ្នាក់មិនមែនដោយឡែកទេ ប៉ុន្តែជាមួយនឹងប្រូបាប៊ីលីតេមួយចំនួននៃកម្មសិទ្ធិរបស់ថ្នាក់។ អ្នកស្ថិតិក៏បានបង្កើតយុត្តិកម្ម asymptotic សម្រាប់វិធីសាស្រ្តបែបនេះ។ យុត្តិកម្មបែបនេះត្រូវបានធ្វើឡើងតាមគ្រោងការណ៍ខាងក្រោម៖ មុខងារគុណភាពជាក់លាក់នៃជម្រើសនៃការចែកចាយ (ចន្លោះពេលទំនុកចិត្ត) ត្រូវបានបង្កើតឡើង ហើយវាត្រូវបានបង្ហាញថាជាមួយនឹងការកើនឡើងនៃចំនួនគំរូ ជម្រើសរបស់យើងជាមួយនឹងប្រូបាប៊ីលីតេដែលមានទំនោរទៅ 1 បានក្លាយជាត្រឹមត្រូវនៅក្នុង អារម្មណ៍នៃមុខងារនេះ (ចន្លោះពេលទំនុកចិត្តមានទំនោរទៅ 0) ។ សម្លឹងទៅមុខ យើងអាចនិយាយបានថា ទិដ្ឋភាពស្ថិតិនៃបញ្ហាការទទួលស្គាល់បានប្រែទៅជាមានផ្លែផ្កាមិនត្រឹមតែនៅក្នុងលក្ខខណ្ឌនៃក្បួនដោះស្រាយដែលបានអភិវឌ្ឍទេ (ដែលរួមមានវិធីសាស្រ្តនៃការវិភាគចង្កោម និងការបែងចែក ការតំរែតំរង់ដែលមិនមែនជាប៉ារ៉ាម៉ែត្រ។ ដើម្បីបង្កើតទ្រឹស្តីស្ថិតិស៊ីជម្រៅនៃការទទួលស្គាល់។

ទោះជាយ៉ាងណាក៏ដោយ មានអំណះអំណាងដ៏ខ្លាំងមួយក្នុងការពេញចិត្តចំពោះការពិតដែលថាបញ្ហានៃការទទួលស្គាល់គំរូមិនត្រូវបានកាត់បន្ថយទៅជាស្ថិតិទេ។ ជាគោលការណ៍បញ្ហាណាមួយអាចត្រូវបានពិចារណាតាមទស្សនៈស្ថិតិ ហើយលទ្ធផលនៃដំណោះស្រាយរបស់វាអាចត្រូវបានបកស្រាយតាមស្ថិតិ។ ដើម្បីធ្វើដូចនេះវាគ្រាន់តែជាការចាំបាច់ក្នុងការសន្មតថាចន្លោះនៃវត្ថុនៃបញ្ហាគឺប្រហែល។ ប៉ុន្តែតាមទស្សនៈនៃឧបករណ៍និយម លក្ខណៈវិនិច្ឆ័យសម្រាប់ភាពជោគជ័យនៃការបកស្រាយស្ថិតិនៃវិធីសាស្រ្តទទួលស្គាល់ជាក់លាក់មួយអាចគ្រាន់តែជាអត្ថិភាពនៃយុត្តិកម្មសម្រាប់វិធីសាស្រ្តនេះនៅក្នុងភាសានៃស្ថិតិដែលជាសាខានៃគណិតវិទ្យា។ យុត្តិកម្មនៅទីនេះមានន័យថាការអភិវឌ្ឍន៍តម្រូវការមូលដ្ឋានសម្រាប់បញ្ហាដែលធានានូវភាពជោគជ័យក្នុងការអនុវត្តវិធីសាស្ត្រនេះ។ ទោះបីជាយ៉ាងណាក៏ដោយ នៅពេលនេះ សម្រាប់វិធីសាស្រ្តទទួលស្គាល់ភាគច្រើន រួមទាំងវិធីសាស្ត្រដែលកើតឡើងដោយផ្ទាល់នៅក្នុងក្របខ័ណ្ឌនៃវិធីសាស្រ្តស្ថិតិនោះ យុត្តិកម្មដ៏គួរឱ្យពេញចិត្តបែបនេះមិនត្រូវបានរកឃើញទេ។ លើសពីនេះទៀត ក្បួនដោះស្រាយស្ថិតិដែលប្រើជាទូទៅបំផុតនៅពេលនេះ ដូចជាការរើសអើងលីនេអ៊ែររបស់ Fisher, Parzen window, EM algorithm, អ្នកជិតខាងដែលនៅជិតបំផុត ដែលមិននិយាយអំពីបណ្តាញជំនឿ Bayesian មានលក្ខណៈ heuristic បញ្ចេញសំឡេងខ្លាំង ហើយអាចមានការបកស្រាយខុសពីស្ថិតិ។ ហើយជាចុងក្រោយ ចំពោះចំណុចទាំងអស់ខាងលើ វាគួរតែត្រូវបានបន្ថែមថា បន្ថែមពីលើឥរិយាបទ asymptotic នៃវិធីសាស្រ្តទទួលស្គាល់ ដែលជាបញ្ហាចម្បងនៃស្ថិតិ ការអនុវត្តនៃការទទួលស្គាល់បានលើកឡើងនូវសំណួរអំពីភាពស្មុគស្មាញនៃការគណនា និងរចនាសម្ព័ន្ធនៃវិធីសាស្រ្តដែលហួសពី គ្រោងការណ៍នៃទ្រឹស្តីប្រូបាប៊ីលីតេតែម្នាក់ឯង។

សរុបមក ផ្ទុយទៅនឹងសេចក្តីប្រាថ្នារបស់អ្នកស្ថិតិដើម្បីពិចារណាការទទួលស្គាល់គំរូជាផ្នែកនៃស្ថិតិ គំនិតខុសគ្នាទាំងស្រុងចូលទៅក្នុងការអនុវត្ត និងមនោគមវិជ្ជានៃការទទួលស្គាល់។ មួយក្នុងចំណោមពួកគេត្រូវបានបង្កឡើងដោយការស្រាវជ្រាវនៅក្នុងវិស័យនៃការទទួលស្គាល់លំនាំដែលមើលឃើញនិងត្រូវបានផ្អែកលើការស្រដៀងគ្នាដូចខាងក្រោម។

ដូចដែលបានកត់សម្គាល់រួចមកហើយនៅក្នុងជីវិតប្រចាំថ្ងៃមនុស្សតែងតែដោះស្រាយបញ្ហា (ជាញឹកញាប់ដោយមិនដឹងខ្លួន) បញ្ហានៃការទទួលស្គាល់ស្ថានភាពផ្សេងៗ auditory និងរូបភាពដែលមើលឃើញ។ សមត្ថភាពបែបនេះសម្រាប់កុំព្យូទ័រគឺល្អបំផុត គឺជាបញ្ហានៃអនាគត។ ពីនេះ អ្នកត្រួសត្រាយមួយចំនួននៃការទទួលស្គាល់គំរូបានសន្និដ្ឋានថា ដំណោះស្រាយនៃបញ្ហាទាំងនេះនៅលើកុំព្យូទ័រគួរតែក្លែងធ្វើដំណើរការនៃការគិតរបស់មនុស្ស។ ការប៉ុនប៉ងដ៏ល្បីល្បាញបំផុតដើម្បីចូលទៅជិតបញ្ហាពីផ្នែកនេះគឺការសិក្សាដ៏ល្បីល្បាញរបស់ F. Rosenblatt លើ perceptrons ។

នៅពាក់កណ្តាលទសវត្សរ៍ទី 50 វាហាក់ដូចជាអ្នកជំនាញខាងសរសៃប្រសាទបានយល់ពីគោលការណ៍រាងកាយនៃខួរក្បាល (នៅក្នុងសៀវភៅ "គំនិតថ្មីនៃស្តេច" ដែលជាអ្នកទ្រឹស្តីរូបវិទូជនជាតិអង់គ្លេសដ៏ល្បីល្បាញ R. Penrose បានសួរសំណួរអំពីគំរូបណ្តាញសរសៃប្រសាទនៃខួរក្បាលដោយបញ្ជាក់យ៉ាងច្បាស់លាស់។ តួនាទីសំខាន់នៃឥទ្ធិពលមេកានិចកង់ទិចក្នុងដំណើរការរបស់វា ទោះបីជាយ៉ាងណាក៏ដោយ គំរូនេះត្រូវបានចោទសួរតាំងពីដំបូងមក។ ដោយផ្អែកលើរបកគំហើញទាំងនេះ F. Rosenblatt បានបង្កើតគំរូសម្រាប់រៀនស្គាល់គំរូដែលមើលឃើញ ដែលគាត់ហៅថា perceptron។ ការយល់ដឹងរបស់ Rosenblatt គឺជាមុខងារខាងក្រោម (រូបភាពទី 1)៖

រូបទី 1. គ្រោងការណ៍នៃ Perceptron

នៅឯការបញ្ចូល perceptron ទទួលបានវ៉ិចទ័រវត្ថុដែលនៅក្នុងស្នាដៃរបស់ Rosenblatt គឺជាវ៉ិចទ័រគោលពីរដែលបង្ហាញថាភីកសែលអេក្រង់មួយណាត្រូវបានងងឹតដោយរូបភាព ហើយមួយណាមិនមែនទេ។ លើសពីនេះ សញ្ញានីមួយៗត្រូវបានផ្តល់អាហារដល់ការបញ្ចូលនៃណឺរ៉ូន ដែលជាសកម្មភាពនៃការគុណសាមញ្ញដោយទម្ងន់ជាក់លាក់នៃណឺរ៉ូន។ លទ្ធផលត្រូវបានផ្តល់អាហារដល់ណឺរ៉ូនចុងក្រោយ ដែលបន្ថែមពួកវា និងប្រៀបធៀបចំនួនសរុបជាមួយនឹងកម្រិតជាក់លាក់មួយ។ អាស្រ័យលើលទ្ធផលនៃការប្រៀបធៀប វត្ថុបញ្ចូល X ត្រូវបានទទួលស្គាល់ថាចាំបាច់ឬអត់។ បន្ទាប់មក ភារកិច្ចនៃការរៀនទទួលស្គាល់លំនាំគឺជ្រើសរើសទម្ងន់នៃណឺរ៉ូន និងតម្លៃកម្រិត ដើម្បីឱ្យ perceptron ផ្តល់ចម្លើយត្រឹមត្រូវលើរូបភាពដែលមើលឃើញពីមុន។ Rosenblatt ជឿថាមុខងារលទ្ធផលនឹងល្អក្នុងការទទួលស្គាល់រូបភាពដែលចង់បាន ទោះបីជាវត្ថុបញ្ចូលមិនស្ថិតក្នុងចំណោមគំរូមុនក៏ដោយ។ ពីការពិចារណាបែប bionic គាត់ក៏បានបង្កើតនូវវិធីសាស្រ្តសម្រាប់ការជ្រើសរើសទម្ងន់ និងកម្រិតមួយដែលយើងនឹងមិនរស់នៅ។ ចូរនិយាយថាវិធីសាស្រ្តរបស់គាត់បានជោគជ័យនៅក្នុងបញ្ហានៃការទទួលស្គាល់មួយចំនួន ហើយបានផ្តល់នូវការស្រាវជ្រាវទាំងមូលលើក្បួនដោះស្រាយការរៀនដោយផ្អែកលើបណ្តាញសរសៃប្រសាទ ដែល perceptron គឺជាករណីពិសេសមួយ។

លើសពីនេះ ភាពទូទៅផ្សេងៗនៃ perceptron ត្រូវបានបង្កើតឡើង មុខងារនៃណឺរ៉ូនមានភាពស្មុគស្មាញ៖ ឥឡូវនេះ ណឺរ៉ូនមិនត្រឹមតែអាចគុណលេខបញ្ចូល ឬបន្ថែមពួកវា ហើយប្រៀបធៀបលទ្ធផលជាមួយនឹងកម្រិតកំណត់ប៉ុណ្ណោះទេ ប៉ុន្តែអនុវត្តមុខងារស្មុគស្មាញបន្ថែមទៀតចំពោះពួកគេ។ រូបភាពទី 2 បង្ហាញពីផលវិបាកនៃសរសៃប្រសាទទាំងនេះ៖

អង្ករ។ 2 ដ្យាក្រាមនៃបណ្តាញសរសៃប្រសាទ។

លើសពីនេះទៀត topology នៃបណ្តាញសរសៃប្រសាទអាចមានភាពស្មុគស្មាញជាងការពិចារណាដោយ Rosenblatt ឧទាហរណ៍នេះ:

អង្ករ។ 3. ដ្យាក្រាមនៃបណ្តាញសរសៃប្រសាទរបស់ Rosenblatt ។

ភាពស្មុគស្មាញបាននាំឱ្យមានការកើនឡើងនៃចំនួនប៉ារ៉ាម៉ែត្រដែលអាចលៃតម្រូវបានក្នុងអំឡុងពេលហ្វឹកហាត់ប៉ុន្តែក្នុងពេលតែមួយបានបង្កើនសមត្ថភាពក្នុងការលៃតម្រូវទៅនឹងគំរូស្មុគស្មាញបំផុត។ ការស្រាវជ្រាវនៅក្នុងតំបន់នេះឥឡូវនេះកំពុងដំណើរការលើផ្នែកពីរដែលទាក់ទងយ៉ាងជិតស្និទ្ធ - ទាំងប្រព័ន្ធបណ្តាញផ្សេងៗ និងវិធីសាស្ត្រកែតម្រូវផ្សេងៗកំពុងត្រូវបានសិក្សា។

បណ្តាញសរសៃប្រសាទបច្ចុប្បន្នមិនត្រឹមតែជាឧបករណ៍សម្រាប់ដោះស្រាយបញ្ហាការទទួលស្គាល់គំរូប៉ុណ្ណោះទេ ប៉ុន្តែត្រូវបានប្រើប្រាស់ក្នុងការស្រាវជ្រាវលើអង្គចងចាំដែលពាក់ព័ន្ធ និងការបង្រួមរូបភាព។ ទោះបីជាបន្ទាត់នៃការស្រាវជ្រាវនេះត្រួតលើគ្នាយ៉ាងខ្លាំងជាមួយនឹងបញ្ហានៃការទទួលស្គាល់គំរូក៏ដោយ វាគឺជាផ្នែកដាច់ដោយឡែកនៃ cybernetics ។ សម្រាប់អ្នកទទួលស្គាល់នៅពេលនេះ បណ្តាញប្រសាទគឺគ្មានអ្វីក្រៅពីសំណុំផែនទីដែលបានកំណត់តាមលក្ខណៈជាក់លាក់ជាក់លាក់នោះទេ ដែលក្នុងន័យនេះមិនមានអត្ថប្រយោជន៍សំខាន់ណាមួយលើគំរូសិក្សាស្រដៀងគ្នាជាច្រើនទៀតដែលនឹងត្រូវបានរាយបញ្ជីដោយសង្ខេបខាងក្រោម។

នៅក្នុងការតភ្ជាប់ជាមួយនឹងការវាយតម្លៃនៃតួនាទីនៃបណ្តាញសរសៃប្រសាទសម្រាប់ការទទួលស្គាល់ត្រឹមត្រូវ (នោះគឺមិនមែនសម្រាប់ bionics ដែលពួកគេមានសារៈសំខាន់បំផុតឥឡូវនេះ) ខ្ញុំចង់កត់សម្គាល់ដូចខាងក្រោម: បណ្តាញសរសៃប្រសាទដែលជាវត្ថុស្មុគស្មាញបំផុតសម្រាប់គណិតវិទ្យា។ ការវិភាគ ជាមួយនឹងការប្រើប្រាស់ត្រឹមត្រូវរបស់ពួកគេ អនុញ្ញាតឱ្យយើងរកឃើញច្បាប់ដែលមិនមែនជារឿងតូចតាចនៅក្នុងទិន្នន័យ។ ការលំបាករបស់ពួកគេសម្រាប់ការវិភាគនៅក្នុងករណីទូទៅត្រូវបានពន្យល់ដោយរចនាសម្ព័ន្ធស្មុគ្រស្មាញរបស់ពួកគេ ហើយជាលទ្ធផល លទ្ធភាពដែលមិនអាចខ្វះបានសម្រាប់ការធ្វើឱ្យមានភាពទៀងទាត់ជាច្រើនប្រភេទ។ ប៉ុន្តែគុណសម្បត្តិទាំងនេះ ដូចដែលកើតមានជាញឹកញាប់ គឺជាប្រភពនៃកំហុសដែលអាចកើតមាន លទ្ធភាពនៃការបណ្តុះបណ្តាលឡើងវិញ។ ដូចដែលនឹងត្រូវបានពិភាក្សានៅពេលក្រោយ ទិដ្ឋភាពពីរយ៉ាងនៃការរំពឹងទុកនៃគំរូសិក្សាណាមួយគឺជាគោលការណ៍មួយនៃការរៀនម៉ាស៊ីន។

ទិសដៅដ៏ពេញនិយមមួយទៀតក្នុងការទទួលស្គាល់គឺច្បាប់ឡូជីខល និងដើមឈើការសម្រេចចិត្ត។ នៅក្នុងការប្រៀបធៀបជាមួយនឹងវិធីសាស្រ្តនៃការទទួលស្គាល់ខាងលើ វិធីសាស្រ្តទាំងនេះភាគច្រើនប្រើយ៉ាងសកម្មនូវគំនិតនៃការបញ្ចេញចំណេះដឹងរបស់យើងអំពីប្រធានបទក្នុងទម្រង់នៃរចនាសម្ព័ន្ធប្រហែលជាធម្មជាតិបំផុត (នៅលើកម្រិតដឹងខ្លួន) - ក្បួនឡូជីខល។ ក្បួនឡូជីខលបឋមមានន័យថាសេចក្តីថ្លែងការណ៍ដូចជា "ប្រសិនបើលក្ខណៈពិសេសដែលមិនបានចាត់ថ្នាក់ស្ថិតនៅក្នុងសមាមាត្រ X នោះធាតុដែលបានចាត់ថ្នាក់គឺនៅក្នុងសមាមាត្រ Y" ។ ឧទាហរណ៏នៃច្បាប់បែបនេះក្នុងការធ្វើរោគវិនិច្ឆ័យវេជ្ជសាស្រ្តមានដូចខាងក្រោម: ប្រសិនបើអ្នកជំងឺមានអាយុលើសពី 60 ឆ្នាំហើយគាត់ធ្លាប់មានគាំងបេះដូងពីមុនមកនោះកុំធ្វើការវះកាត់ - ហានិភ័យនៃលទ្ធផលអវិជ្ជមានគឺខ្ពស់។

ដើម្បីស្វែងរកក្បួនឡូជីខលនៅក្នុងទិន្នន័យ 2 យ៉ាងគឺចាំបាច់: ដើម្បីកំណត់រង្វាស់នៃ "ព័ត៌មាន" នៃច្បាប់ និងចន្លោះនៃច្បាប់។ ហើយភារកិច្ចនៃការស្វែងរកច្បាប់បន្ទាប់ពីនោះប្រែទៅជាភារកិច្ចនៃការរាប់បញ្ចូលពេញលេញឬដោយផ្នែកនៅក្នុងចន្លោះនៃច្បាប់ដើម្បីស្វែងរកព័ត៌មានច្រើនបំផុត។ និយមន័យនៃខ្លឹមសារព័ត៌មានអាចត្រូវបានណែនាំតាមវិធីផ្សេងៗគ្នា ហើយយើងនឹងមិនពឹងផ្អែកលើរឿងនេះទេ ដោយពិចារណាថានេះក៏ជាប៉ារ៉ាម៉ែត្រមួយចំនួននៃគំរូផងដែរ។ ចន្លោះស្វែងរកត្រូវបានកំណត់តាមវិធីស្តង់ដារ។

បន្ទាប់ពីបានរកឃើញច្បាប់ដែលមានព័ត៌មានគ្រប់គ្រាន់ ដំណាក់កាលនៃ "ការផ្គុំ" ក្បួនទៅក្នុងចំណាត់ថ្នាក់ចុងក្រោយចាប់ផ្តើម។ ដោយមិនពិភាក្សាស៊ីជម្រៅអំពីបញ្ហាដែលកើតឡើងនៅទីនេះ (ហើយវាមានចំនួនច្រើនសន្ធឹកសន្ធាប់) យើងរាយបញ្ជីវិធីសាស្រ្តសំខាន់ចំនួន 2 នៃ "ការជួបប្រជុំគ្នា" ។ ប្រភេទទីមួយគឺបញ្ជីលីនេអ៊ែរ។ ប្រភេទទីពីរគឺការបោះឆ្នោតដោយថ្លឹងថ្លែង នៅពេលដែលទម្ងន់ជាក់លាក់មួយត្រូវបានផ្តល់ទៅឱ្យច្បាប់នីមួយៗ ហើយអ្នកចាត់ថ្នាក់សំដៅលើវត្ថុទៅថ្នាក់ដែលច្បាប់ចំនួនច្រើនបំផុតបានបោះឆ្នោត។

ជាការពិត ដំណាក់កាលបង្កើតច្បាប់ និងដំណាក់កាល "ការជួបប្រជុំគ្នា" ត្រូវបានអនុវត្តរួមគ្នា ហើយនៅពេលបង្កើតការបោះឆ្នោតដែលមានទម្ងន់ ឬបញ្ជី ការស្វែងរកច្បាប់លើផ្នែកខ្លះនៃទិន្នន័យករណីត្រូវបានហៅម្តងហើយម្តងទៀត ដើម្បីធានាឱ្យមានភាពសមស្របរវាងទិន្នន័យ និង ម៉ូដែល។

វិធីសាស្រ្តធ្វើម្តងទៀត។នៅក្នុងវិធីសាស្រ្តនេះ ការប្រៀបធៀបត្រូវបានធ្វើឡើងជាមួយនឹងមូលដ្ឋានទិន្នន័យជាក់លាក់ ដែលសម្រាប់វត្ថុនីមួយៗមានជម្រើសផ្សេងគ្នាសម្រាប់ការកែប្រែការបង្ហាញ។ ជាឧទាហរណ៍ សម្រាប់ការសម្គាល់រូបភាពអុបទិក អ្នកអាចអនុវត្តវិធីធ្វើឡើងវិញនៅមុំផ្សេងគ្នា ឬមាត្រដ្ឋាន អុហ្វសិត ការខូចទ្រង់ទ្រាយជាដើម។ សម្រាប់អក្សរ អ្នកអាចសរសេរឡើងវិញលើពុម្ពអក្សរ ឬលក្ខណៈសម្បត្តិរបស់វា។ នៅក្នុងករណីនៃការទទួលស្គាល់លំនាំសំឡេង មានការប្រៀបធៀបជាមួយនឹងគំរូដែលគេស្គាល់មួយចំនួន (ពាក្យដែលនិយាយដោយមនុស្សជាច្រើន)។ លើសពីនេះទៀតការវិភាគស៊ីជម្រៅអំពីលក្ខណៈនៃរូបភាពត្រូវបានអនុវត្ត។ នៅក្នុងករណីនៃការទទួលស្គាល់អុបទិកនេះអាចជានិយមន័យនៃលក្ខណៈធរណីមាត្រ។ សំណាក​សំឡេង​នៅ​ក្នុង​ករណី​នេះ​ត្រូវ​បាន​ធ្វើ​ការ​វិភាគ​ប្រេកង់ និង​ទំហំ។

វិធីសាស្រ្តបន្ទាប់គឺ ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត(INS) ។ វាទាមទារនូវឧទាហរណ៍មួយចំនួនធំនៃភារកិច្ចទទួលស្គាល់ ឬរចនាសម្ព័ន្ធបណ្តាញសរសៃប្រសាទពិសេសដែលគិតគូរពីភាពជាក់លាក់នៃកិច្ចការនេះ។ ប៉ុន្តែទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រនេះត្រូវបានកំណត់ដោយប្រសិទ្ធភាព និងផលិតភាពខ្ពស់។

វិធីសាស្រ្តផ្អែកលើការប៉ាន់ប្រមាណនៃដង់ស៊ីតេចែកចាយនៃតម្លៃលក្ខណៈពិសេស. ខ្ចីពីទ្រឹស្ដីបុរាណនៃការសម្រេចចិត្តស្ថិតិ ដែលវត្ថុនៃការសិក្សាត្រូវបានចាត់ទុកថាជាការសម្រេចបាននៃអថេរចៃដន្យពហុវិមាត្រដែលបានចែកចាយក្នុងចន្លោះលក្ខណៈដោយយោងទៅតាមច្បាប់មួយចំនួន។ ពួកវាផ្អែកលើគ្រោងការណ៍នៃការសម្រេចចិត្តរបស់ Bayesian ដែលអំពាវនាវដល់ប្រូបាប៊ីលីតេដំបូងនៃវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់មួយ និងដង់ស៊ីតេនៃការចែកចាយមុខងារតាមលក្ខខណ្ឌ។

ក្រុមនៃវិធីសាស្រ្តដោយផ្អែកលើការប៉ាន់ប្រមាណនៃដង់ស៊ីតេចែកចាយនៃតម្លៃលក្ខណៈពិសេសគឺទាក់ទងដោយផ្ទាល់ទៅនឹងវិធីសាស្រ្តនៃការវិភាគរើសអើង។ វិធីសាស្រ្ត Bayesian ក្នុងការធ្វើសេចក្តីសម្រេច គឺជាវិធីសាស្រ្តមួយក្នុងចំនោមវិធីសាស្រ្តប៉ារ៉ាម៉ែត្រដែលបានអភិវឌ្ឍបំផុតនៅក្នុងស្ថិតិទំនើប ដែលការបញ្ចេញមតិវិភាគនៃច្បាប់ចែកចាយ (ច្បាប់ធម្មតា) ត្រូវបានគេចាត់ទុកថាត្រូវបានគេស្គាល់ ហើយមានតែប៉ារ៉ាម៉ែត្រមួយចំនួនតូចប៉ុណ្ណោះ (វ៉ិចទ័រមធ្យម និងម៉ាទ្រីសដែលប្រែប្រួល។ ) ចាំបាច់ត្រូវប៉ាន់ស្មាន។ ការលំបាកចម្បងក្នុងការអនុវត្តវិធីសាស្រ្តនេះត្រូវបានចាត់ទុកថាជាតម្រូវការក្នុងការចងចាំសំណុំបណ្តុះបណ្តាលទាំងមូលដើម្បីគណនាការប៉ាន់ប្រមាណដង់ស៊ីតេនិងភាពប្រែប្រួលខ្ពស់ចំពោះសំណុំបណ្តុះបណ្តាល។

វិធីសាស្រ្តផ្អែកលើការសន្មត់អំពីថ្នាក់នៃមុខងារនៃការសម្រេចចិត្ត។នៅក្នុងក្រុមនេះ ប្រភេទនៃមុខងារការសម្រេចចិត្តត្រូវបានចាត់ទុកថាត្រូវបានគេស្គាល់ ហើយមុខងារគុណភាពរបស់វាត្រូវបានផ្តល់ឱ្យ។ ដោយផ្អែកលើមុខងារនេះ ការប៉ាន់ស្មានដ៏ល្អប្រសើរចំពោះមុខងារនៃការសម្រេចចិត្តត្រូវបានរកឃើញពីលំដាប់បណ្តុះបណ្តាល។ មុខងារនៃការគ្រប់គ្រងគុណភាពនៃការសម្រេចចិត្តជាធម្មតាត្រូវបានភ្ជាប់ជាមួយនឹងកំហុសមួយ។ អត្ថប្រយោជន៍ចម្បងនៃវិធីសាស្រ្តគឺភាពច្បាស់លាស់នៃរូបមន្តគណិតវិទ្យានៃបញ្ហាការទទួលស្គាល់។ លទ្ធភាពនៃការទាញយកចំណេះដឹងថ្មីអំពីធម្មជាតិនៃវត្ថុ ជាពិសេសចំណេះដឹងអំពីយន្តការនៃអន្តរកម្មនៃគុណលក្ខណៈ ត្រូវបានកំណត់ជាមូលដ្ឋាននៅទីនេះដោយរចនាសម្ព័ន្ធអន្តរកម្មដែលបានផ្តល់ឱ្យ ជួសជុលនៅក្នុងទម្រង់នៃមុខងារការសម្រេចចិត្តដែលបានជ្រើសរើស។

វិធីសាស្រ្តប្រៀបធៀបគំរូ។នេះគឺជាវិធីសាស្ត្រទទួលស្គាល់ផ្នែកបន្ថែមដែលងាយស្រួលបំផុតក្នុងការអនុវត្ត។ វាអនុវត្តនៅពេលដែលថ្នាក់ដែលអាចស្គាល់បានត្រូវបានបង្ហាញជាថ្នាក់ធរណីមាត្របង្រួម។ បន្ទាប់មកចំណុចកណ្តាលនៃក្រុមធរណីមាត្រ (ឬវត្ថុដែលនៅជិតកណ្តាលបំផុត) ត្រូវបានជ្រើសរើសជាចំណុចគំរូ។

ដើម្បីចាត់ថ្នាក់វត្ថុដែលមិនអាចកំណត់បាន គំរូដែលនៅជិតបំផុតត្រូវបានរកឃើញ ហើយវត្ថុនោះជាកម្មសិទ្ធិរបស់ថ្នាក់ដូចគ្នាជាមួយវា។ ជាក់ស្តែង គ្មានរូបភាពទូទៅត្រូវបានបង្កើតឡើងនៅក្នុងវិធីសាស្រ្តនេះទេ។ ប្រភេទផ្សេងៗនៃចម្ងាយអាចត្រូវបានប្រើជារង្វាស់។

វិធីសាស្រ្ត k អ្នកជិតខាង។វិធីសាស្រ្តស្ថិតនៅក្នុងការពិតដែលថានៅពេលចាត់ថ្នាក់វត្ថុដែលមិនស្គាល់ លេខដែលបានផ្តល់ឱ្យ (k) នៃលំហលក្ខណៈធរណីមាត្រដែលនៅជិតបំផុតនៃអ្នកជិតខាងដែលនៅជិតបំផុតដែលស្គាល់រួចហើយជាកម្មសិទ្ធិរបស់ថ្នាក់ត្រូវបានរកឃើញ។ ការសម្រេចចិត្តប្រគល់វត្ថុមិនស្គាល់មួយត្រូវបានធ្វើឡើងដោយការវិភាគព័ត៌មានអំពីអ្នកជិតខាងដែលនៅជិតបំផុត។ តម្រូវការកាត់បន្ថយចំនួនវត្ថុនៅក្នុងគំរូបណ្តុះបណ្តាល (គំរូរោគវិនិច្ឆ័យ) គឺជាគុណវិបត្តិនៃវិធីសាស្ត្រនេះ ព្រោះវាកាត់បន្ថយភាពតំណាងនៃគំរូបណ្តុះបណ្តាល។

ដោយផ្អែកលើការពិតដែលថាក្បួនដោះស្រាយការទទួលស្គាល់ផ្សេងគ្នាមានឥរិយាបទខុសគ្នានៅលើគំរូដូចគ្នា សំណួរកើតឡើងនៃច្បាប់នៃការសម្រេចចិត្តសំយោគដែលនឹងប្រើភាពខ្លាំងនៃក្បួនដោះស្រាយទាំងអស់។ ចំពោះបញ្ហានេះ មានវិធីសាស្រ្តសំយោគ ឬសំណុំនៃច្បាប់នៃការសម្រេចចិត្តដែលរួមបញ្ចូលគ្នានូវទិដ្ឋភាពវិជ្ជមានបំផុតនៃវិធីសាស្រ្តនីមួយៗ។

នៅក្នុងសេចក្តីសន្និដ្ឋាននៃការពិនិត្យឡើងវិញនៃវិធីសាស្ត្រទទួលស្គាល់ យើងបង្ហាញខ្លឹមសារនៃចំណុចខាងលើនៅក្នុងតារាងសង្ខេប ដោយបន្ថែមវិធីសាស្រ្តផ្សេងទៀតមួយចំនួនដែលប្រើក្នុងការអនុវត្ត។

តារាងទី 1. តារាងចំណាត់ថ្នាក់នៃវិធីសាស្រ្តនៃការទទួលស្គាល់ ការប្រៀបធៀបនៃផ្នែកនៃការអនុវត្ត និងដែនកំណត់របស់ពួកគេ។

ចំណាត់ថ្នាក់នៃវិធីសាស្រ្តទទួលស្គាល់

តំបន់ដាក់ពាក្យ

ដែនកំណត់ (គុណវិបត្តិ)

វិធីសាស្រ្តទទួលស្គាល់ខ្លាំង

វិធីសាស្រ្តផ្អែកលើការប៉ាន់ស្មានដង់ស៊ីតេ

បញ្ហាជាមួយនឹងការចែកចាយដែលគេស្គាល់ (ធម្មតា) តម្រូវការក្នុងការប្រមូលស្ថិតិធំ

តម្រូវការក្នុងការរាប់បញ្ចូលសំណុំបណ្ដុះបណ្ដាលទាំងមូលកំឡុងពេលទទួលស្គាល់ ភាពប្រែប្រួលខ្ពស់ចំពោះភាពមិនតំណាងនៃឈុតបណ្ដុះបណ្ដាល និងវត្ថុបុរាណ

វិធីសាស្រ្តផ្អែកលើការសន្មត់

ថ្នាក់គួរត្រូវបានបែងចែកយ៉ាងល្អ

ទម្រង់នៃមុខងារនៃការសម្រេចចិត្តត្រូវតែដឹងជាមុន។ ភាពមិនអាចទៅរួចនៃការគិតគូរអំពីចំណេះដឹងថ្មីអំពីទំនាក់ទំនងរវាងលក្ខណៈពិសេស

វិធីសាស្ត្រប៊ូលីន

បញ្ហានៃទំហំតូច

នៅពេលជ្រើសរើសច្បាប់នៃការសម្រេចចិត្តឡូជីខល ការរាប់បញ្ចូលពេញលេញគឺចាំបាច់។ អាំងតង់ស៊ីតេពលកម្មខ្ពស់។

វិធីសាស្រ្តភាសាវិទ្យា

ភារកិច្ចនៃការកំណត់វេយ្យាករណ៍សម្រាប់សំណុំជាក់លាក់នៃសេចក្តីថ្លែងការណ៍ (ការពិពណ៌នាអំពីវត្ថុ) គឺពិបាកក្នុងការកំណត់ជាផ្លូវការ។ បញ្ហាទ្រឹស្តីដែលមិនអាចដោះស្រាយបាន។

វិធីសាស្រ្តបន្ថែមនៃការទទួលស្គាល់

វិធីសាស្រ្តប្រៀបធៀបគំរូ

បញ្ហានៃទំហំតូចនៃទំហំមុខងារ

ការពឹងផ្អែកខ្ពស់នៃលទ្ធផលចំណាត់ថ្នាក់លើម៉ែត្រ។ មិនស្គាល់ម៉ែត្រដ៏ប្រសើរបំផុត។

k វិធីសាស្រ្តអ្នកជិតខាងដែលនៅជិតបំផុត។

ការពឹងផ្អែកខ្ពស់នៃលទ្ធផលចំណាត់ថ្នាក់លើម៉ែត្រ។ តម្រូវការសម្រាប់ការរាប់បញ្ចូលពេញលេញនៃគំរូបណ្តុះបណ្តាលក្នុងអំឡុងពេលទទួលស្គាល់។ ភាពស្មុគស្មាញនៃការគណនា

ក្បួនដោះស្រាយការគណនាថ្នាក់ (ABO)

បញ្ហានៃវិមាត្រតូចនៅក្នុងលក្ខខណ្ឌនៃចំនួនថ្នាក់និងលក្ខណៈពិសេស

ការពឹងផ្អែកលើលទ្ធផលនៃការចាត់ថ្នាក់លើម៉ែត្រ។ តម្រូវការសម្រាប់ការរាប់បញ្ចូលពេញលេញនៃគំរូបណ្តុះបណ្តាលក្នុងអំឡុងពេលទទួលស្គាល់។ ភាពស្មុគស្មាញបច្ចេកទេសខ្ពស់នៃវិធីសាស្រ្ត

វិធាននៃការសម្រេចចិត្តរួម (CRC) គឺជាវិធីសាស្ត្រសំយោគ។

បញ្ហានៃវិមាត្រតូចនៅក្នុងលក្ខខណ្ឌនៃចំនួនថ្នាក់និងលក្ខណៈពិសេស

ភាពស្មុគស្មាញបច្ចេកទេសខ្ពស់នៃវិធីសាស្រ្ត ចំនួនដែលមិនអាចដោះស្រាយបាននៃបញ្ហាទ្រឹស្តី ទាំងក្នុងការកំណត់ផ្នែកនៃសមត្ថកិច្ចនៃវិធីសាស្រ្តជាក់លាក់ និងវិធីសាស្រ្តជាក់លាក់ដោយខ្លួនឯង

ថ្ងៃអាទិត្យ ទី២៩ ខែមីនា ឆ្នាំ២០១៥

បច្ចុប្បន្ននេះ មានកិច្ចការជាច្រើនដែលតម្រូវឱ្យធ្វើការសម្រេចចិត្ត អាស្រ័យលើវត្តមានរបស់វត្ថុក្នុងរូបភាព ឬដើម្បីចាត់ថ្នាក់វា។ សមត្ថភាពក្នុងការ "ទទួលស្គាល់" ត្រូវបានចាត់ទុកថាជាទ្រព្យសម្បត្តិសំខាន់នៃជីវសាស្រ្តខណៈពេលដែលប្រព័ន្ធកុំព្យូទ័រមិនមានកម្មសិទ្ធិពេញលេញនោះទេ។

ពិចារណាធាតុទូទៅនៃគំរូចំណាត់ថ្នាក់។

ថ្នាក់- សំណុំនៃវត្ថុដែលមានលក្ខណៈសម្បត្តិរួម។ សម្រាប់វត្ថុនៃថ្នាក់ដូចគ្នា វត្តមាននៃ "ភាពស្រដៀងគ្នា" ត្រូវបានសន្មត់។ សម្រាប់​កិច្ចការ​ទទួល​ស្គាល់ ចំនួន​ថ្នាក់​តាម​ចិត្ត​អាច​ត្រូវ​បាន​កំណត់​គឺ​ច្រើន​ជាង 1។ ចំនួន​ថ្នាក់​ត្រូវ​បាន​តាង​ដោយ​លេខ S ។ ថ្នាក់​នីមួយៗ​មាន​ស្លាក​ថ្នាក់​កំណត់​អត្តសញ្ញាណ​រៀង​ខ្លួន។

ចំណាត់ថ្នាក់- ដំណើរ​ការ​នៃ​ការ​កំណត់​ថ្នាក់​ស្លាក​ទៅ​វត្ថុ​នេះ​បើ​យោង​តាម​ការ​ពិពណ៌នា​មួយ​ចំនួន​នៃ​លក្ខណៈ​សម្បត្តិ​របស់​វត្ថុ​ទាំង​នេះ​។ ឧបករណ៍ចាត់ថ្នាក់គឺជាឧបករណ៍ដែលទទួលសំណុំនៃលក្ខណៈពិសេសរបស់វត្ថុជាការបញ្ចូល និងបង្កើតស្លាកថ្នាក់ជាលទ្ធផល។

ការផ្ទៀងផ្ទាត់- ដំណើរការនៃការផ្គូផ្គងវត្ថុវត្ថុមួយជាមួយនឹងគំរូវត្ថុតែមួយ ឬការពិពណ៌នាថ្នាក់។

នៅក្រោម វិធីយើងនឹងយល់ពីឈ្មោះនៃតំបន់នៅក្នុងលំហនៃគុណលក្ខណៈ ដែលវត្ថុ ឬបាតុភូតជាច្រើននៃពិភពសម្ភារៈត្រូវបានបង្ហាញ។ សញ្ញា- ការពិពណ៌នាបរិមាណនៃទ្រព្យសម្បត្តិជាក់លាក់នៃវត្ថុ ឬបាតុភូតដែលកំពុងសិក្សា។

ចន្លោះលក្ខណៈពិសេសនេះគឺជាទំហំ N-dimensional ដែលបានកំណត់សម្រាប់ភារកិច្ចទទួលស្គាល់ដែលបានផ្តល់ឱ្យ ដែល N គឺជាចំនួនថេរនៃលក្ខណៈវាស់វែងសម្រាប់វត្ថុណាមួយ។ វ៉ិចទ័រ​ពី​ទំហំ​លក្ខណៈ x ដែល​ត្រូវ​គ្នា​នឹង​វត្ថុ​នៃ​បញ្ហា​ការ​ទទួល​ស្គាល់​គឺ​ជា​វ៉ិចទ័រ​វិមាត្រ N ដែល​មាន​សមាសភាគ (x_1,x_2,…,x_N) ដែល​ជា​តម្លៃ​នៃ​លក្ខណៈ​ពិសេស​សម្រាប់​វត្ថុ​ដែល​បាន​ផ្ដល់។

ម្យ៉ាងវិញទៀត ការទទួលស្គាល់លំនាំអាចត្រូវបានកំណត់ថាជាការចាត់ចែងទិន្នន័យដំបូងទៅថ្នាក់ជាក់លាក់មួយ ដោយទាញយកលក្ខណៈសំខាន់ៗ ឬលក្ខណៈសម្បត្តិដែលកំណត់លក្ខណៈទិន្នន័យនេះពីទំហំទូទៅនៃព័ត៌មានលម្អិតដែលមិនពាក់ព័ន្ធ។

ឧទាហរណ៍នៃបញ្ហាចំណាត់ថ្នាក់គឺ៖

  • ការទទួលស្គាល់តួអក្សរ;
  • ការទទួលស្គាល់ការនិយាយ;
  • បង្កើតការធ្វើរោគវិនិច្ឆ័យវេជ្ជសាស្រ្ត;
  • ការព្យាករណ៍​អាកាសធាតុ;
  • ការទទួលស្គាល់មុខ
  • ការចាត់ថ្នាក់នៃឯកសារជាដើម។

ភាគច្រើនជាញឹកញាប់ សម្ភារៈប្រភពគឺជារូបភាពដែលទទួលបានពីកាមេរ៉ា។ ភារកិច្ចអាចត្រូវបានបង្កើតជាការទទួលបានលក្ខណៈពិសេសវ៉ិចទ័រសម្រាប់ថ្នាក់នីមួយៗនៅក្នុងរូបភាពដែលបានពិចារណា។ ដំណើរការអាចត្រូវបានមើលថាជាដំណើរការសរសេរកូដដែលមានក្នុងការកំណត់តម្លៃទៅលក្ខណៈពិសេសនីមួយៗពីទំហំមុខងារសម្រាប់ថ្នាក់នីមួយៗ។

ប្រសិនបើយើងពិចារណា 2 ថ្នាក់នៃវត្ថុ: មនុស្សពេញវ័យនិងកុមារ។ ជាលក្ខណៈពិសេស អ្នកអាចជ្រើសរើសកម្ពស់ និងទម្ងន់បាន។ ដូចរូបខាងក្រោម ថ្នាក់ទាំងពីរនេះបង្កើតជាសំណុំមិនប្រសព្វគ្នាពីរ ដែលអាចត្រូវបានពន្យល់ដោយលក្ខណៈពិសេសដែលបានជ្រើសរើស។ ទោះយ៉ាងណាក៏ដោយ វាមិនតែងតែអាចជ្រើសរើសប៉ារ៉ាម៉ែត្រដែលបានវាស់វែងត្រឹមត្រូវជាលក្ខណៈនៃថ្នាក់នោះទេ។ ជាឧទាហរណ៍ ប៉ារ៉ាម៉ែត្រដែលបានជ្រើសរើសមិនស័ក្តិសមសម្រាប់ការបង្កើតថ្នាក់ដែលមិនត្រួតស៊ីគ្នានៃអ្នកលេងបាល់ទាត់ និងអ្នកលេងបាល់បោះនោះទេ។

កិច្ចការទី 2 នៃការទទួលស្គាល់គឺការជ្រើសរើសលក្ខណៈពិសេស ឬលក្ខណៈសម្បត្តិពីរូបភាពដើម។ ភារកិច្ចនេះអាចត្រូវបានកំណត់គុណលក្ខណៈដំណើរការមុន។ ប្រសិនបើយើងពិចារណាលើភារកិច្ចនៃការទទួលស្គាល់ការនិយាយ យើងអាចបែងចែកលក្ខណៈដូចជាស្រៈ និងព្យញ្ជនៈ។ គុណលក្ខណៈត្រូវតែជាលក្ខណៈលក្ខណៈនៃថ្នាក់ជាក់លាក់មួយ ខណៈពេលដែលវាជារឿងធម្មតាសម្រាប់ថ្នាក់នេះ។ សញ្ញាដែលកំណត់លក្ខណៈខុសគ្នារវាង - សញ្ញាអន្តរថ្នាក់។ លក្ខណៈពិសេសទូទៅសម្រាប់ថ្នាក់ទាំងអស់មិនផ្ទុកព័ត៌មានដែលមានប្រយោជន៍ និងមិនត្រូវបានចាត់ទុកថាជាលក្ខណៈពិសេសនៅក្នុងបញ្ហានៃការទទួលស្គាល់នោះទេ។ ជម្រើសនៃលក្ខណៈពិសេសគឺជាកិច្ចការសំខាន់មួយដែលត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងការសាងសង់ប្រព័ន្ធទទួលស្គាល់។

បន្ទាប់ពីលក្ខណៈពិសេសត្រូវបានកំណត់វាចាំបាច់ដើម្បីកំណត់នីតិវិធីការសម្រេចចិត្តដ៏ល្អប្រសើរសម្រាប់ការចាត់ថ្នាក់។ ពិចារណាប្រព័ន្ធទទួលស្គាល់លំនាំដែលបានរចនាឡើងដើម្បីទទួលស្គាល់ថ្នាក់ M ផ្សេងៗ តំណាងថា m_1,m_2,…,m 3. បន្ទាប់មកយើងអាចសន្មត់ថាទំហំរូបភាពមានតំបន់ M ដែលនីមួយៗមានចំណុចដែលត្រូវគ្នានឹងរូបភាពពីថ្នាក់មួយ។ បន្ទាប់មកបញ្ហានៃការទទួលស្គាល់អាចត្រូវបានចាត់ទុកថាជាការសាងសង់ព្រំដែនបំបែកថ្នាក់ M ដោយផ្អែកលើវ៉ិចទ័ររង្វាស់ដែលបានទទួលយក។

ដំណោះស្រាយនៃបញ្ហានៃការដំណើរការរូបភាពជាមុន ការទាញយកលក្ខណៈពិសេស និងបញ្ហានៃការទទួលបានដំណោះស្រាយដ៏ល្អប្រសើរ និងការចាត់ថ្នាក់ជាធម្មតាត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងតម្រូវការដើម្បីវាយតម្លៃប៉ារ៉ាម៉ែត្រមួយចំនួន។ នេះនាំឱ្យមានបញ្ហានៃការប៉ាន់ប្រមាណប៉ារ៉ាម៉ែត្រ។ លើសពីនេះ វាច្បាស់ណាស់ថាការទាញយកលក្ខណៈពិសេសអាចប្រើព័ត៌មានបន្ថែមដោយផ្អែកលើលក្ខណៈនៃថ្នាក់។

ការប្រៀបធៀបវត្ថុអាចត្រូវបានធ្វើឡើងនៅលើមូលដ្ឋាននៃការតំណាងរបស់ពួកគេនៅក្នុងទម្រង់នៃវ៉ិចទ័រវាស់វែង។ វាងាយស្រួលតំណាងឱ្យទិន្នន័យវាស់វែងជាចំនួនពិត។ បន្ទាប់មកភាពស្រដៀងគ្នានៃវ៉ិចទ័រលក្ខណៈនៃវត្ថុពីរអាចត្រូវបានពិពណ៌នាដោយប្រើចម្ងាយ Euclidean ។

ដែល d គឺជាវិមាត្រនៃវ៉ិចទ័រលក្ខណៈ។

មាន 3 ក្រុមនៃវិធីសាស្រ្តសម្គាល់គំរូ:

  • ការប្រៀបធៀបគំរូ. ក្រុមនេះរួមបញ្ចូលការចាត់ថ្នាក់តាមមធ្យោបាយជិតបំផុត ចំណាត់ថ្នាក់តាមចម្ងាយទៅអ្នកជិតខាងដែលនៅជិតបំផុត។ វិធីសាស្ត្រទទួលស្គាល់រចនាសម្ព័ន្ធក៏អាចរួមបញ្ចូលក្នុងក្រុមប្រៀបធៀបគំរូផងដែរ។
  • វិធីសាស្រ្តស្ថិតិ. ដូចដែលឈ្មោះបង្កប់ន័យ វិធីសាស្ត្រស្ថិតិប្រើព័ត៌មានស្ថិតិមួយចំនួននៅពេលដោះស្រាយបញ្ហាការទទួលស្គាល់។ វិធីសាស្ត្រកំណត់ពីកម្មសិទ្ធិរបស់វត្ថុទៅថ្នាក់ជាក់លាក់មួយដោយផ្អែកលើប្រូបាប៊ីលីតេ។ ក្នុងករណីខ្លះ វាកើតឡើងដើម្បីកំណត់ប្រូបាប៊ីលីតេក្រោយនៃវត្ថុដែលជាកម្មសិទ្ធិរបស់ថ្នាក់ជាក់លាក់មួយ ផ្តល់ថាលក្ខណៈនៃវត្ថុនេះបានយកសមស្រប។ តម្លៃ។ ឧទាហរណ៍មួយគឺវិធីសាស្រ្តនៃការសម្រេចចិត្តរបស់ Bayesian ។
  • បណ្តាញសរសៃប្រសាទ. ថ្នាក់ដាច់ដោយឡែកនៃវិធីសាស្រ្តទទួលស្គាល់។ លក្ខណៈពិសេសប្លែកពីអ្នកដទៃគឺសមត្ថភាពក្នុងការរៀន។

ការចាត់ថ្នាក់តាមមធ្យោបាយជិតបំផុត។

នៅក្នុងវិធីសាស្រ្តបុរាណនៃការទទួលស្គាល់លំនាំដែលក្នុងនោះវត្ថុមិនស្គាល់សម្រាប់ការចាត់ថ្នាក់ត្រូវបានតំណាងជាវ៉ិចទ័រនៃលក្ខណៈបឋម។ ប្រព័ន្ធទទួលស្គាល់ផ្អែកលើលក្ខណៈពិសេសអាចត្រូវបានបង្កើតឡើងតាមវិធីផ្សេងៗ។ វ៉ិចទ័រទាំងនេះអាចដឹងដល់ប្រព័ន្ធជាមុន ដែលជាលទ្ធផលនៃការបណ្តុះបណ្តាល ឬព្យាករណ៍ក្នុងពេលវេលាជាក់ស្តែងដោយផ្អែកលើគំរូមួយចំនួន។

ក្បួនដោះស្រាយការចាត់ថ្នាក់សាមញ្ញមានទិន្នន័យយោងថ្នាក់ជាក្រុមដោយប្រើវ៉ិចទ័ររំពឹងថ្នាក់ (មធ្យម)។

ដែល x(i,j) គឺជាលក្ខណៈយោង j-th នៃថ្នាក់ i, n_j គឺជាចំនួនវ៉ិចទ័រយោងនៃថ្នាក់ i ។

បន្ទាប់មក វត្ថុដែលមិនស្គាល់នឹងជាកម្មសិទ្ធិរបស់ថ្នាក់ i ប្រសិនបើវានៅជិតវ៉ិចទ័ររំពឹងទុកនៃថ្នាក់ i ជាងវ៉ិចទ័ររំពឹងទុកនៃថ្នាក់ផ្សេងទៀត។ វិធីសាស្រ្តនេះគឺសមរម្យសម្រាប់បញ្ហាដែលចំណុចនៃថ្នាក់នីមួយៗមានទីតាំងនៅបង្រួម និងឆ្ងាយពីចំណុចនៃថ្នាក់ផ្សេងទៀត។

ការលំបាកនឹងកើតឡើងប្រសិនបើថ្នាក់មានរចនាសម្ព័ន្ធស្មុគស្មាញបន្តិចឧទាហរណ៍ដូចក្នុងរូប។ ក្នុង​ករណី​នេះ ថ្នាក់​ទី 2 ត្រូវ​បាន​បែង​ចែក​ជា​ពីរ​ផ្នែក​ដែល​មិន​ត្រួត​គ្នា ដែល​ត្រូវ​បាន​ពិពណ៌នា​មិន​ល្អ​ដោយ​តម្លៃ​មធ្យម​មួយ​។ ផងដែរ ថ្នាក់ទី 3 គឺវែងពេក គំរូនៃថ្នាក់ទី 3 ដែលមានតម្លៃធំនៃកូអរដោណេ x_2 គឺខិតទៅជិតតម្លៃមធ្យមនៃថ្នាក់ទី 1 ជាងថ្នាក់ទី 3 ។

បញ្ហាដែលបានពិពណ៌នានៅក្នុងករណីខ្លះអាចត្រូវបានដោះស្រាយដោយការផ្លាស់ប្តូរការគណនាចម្ងាយ។

យើងនឹងពិចារណាពីលក្ខណៈនៃ "ការខ្ចាត់ខ្ចាយ" នៃតម្លៃថ្នាក់ - σ_i តាមទិសដៅកូអរដោនេនីមួយៗ i ។ គម្លាតស្តង់ដារគឺស្មើនឹងឫសការ៉េនៃវ៉ារ្យង់។ ចម្ងាយ Euclidean ដែលបានធ្វើមាត្រដ្ឋានរវាងវ៉ិចទ័រ x និងវ៉ិចទ័ររំពឹងទុក x_c គឺ

រូបមន្តចម្ងាយនេះនឹងកាត់បន្ថយចំនួនកំហុសក្នុងចំណាត់ថ្នាក់ ប៉ុន្តែតាមពិត បញ្ហាភាគច្រើនមិនអាចតំណាងដោយថ្នាក់សាមញ្ញបែបនេះទេ។

ការចាត់ថ្នាក់តាមចម្ងាយទៅអ្នកជិតខាងដែលនៅជិតបំផុត។

វិធីសាស្រ្តមួយផ្សេងទៀតក្នុងការចាត់ថ្នាក់គឺត្រូវកំណត់វ៉ិចទ័រ x ដែលមិនស្គាល់ទៅថ្នាក់ដែលវ៉ិចទ័រនេះនៅជិតបំផុតទៅនឹងគំរូដាច់ដោយឡែកមួយ។ ច្បាប់នេះត្រូវបានគេហៅថាច្បាប់អ្នកជិតខាងដែលនៅជិតបំផុត។ ការចាត់ថ្នាក់អ្នកជិតខាងដែលនៅជិតបំផុតអាចមានប្រសិទ្ធភាពជាង សូម្បីតែនៅពេលដែលថ្នាក់ស្មុគស្មាញ ឬនៅពេលដែលថ្នាក់ជាន់គ្នាក៏ដោយ។

វិធីសាស្រ្តនេះមិនតម្រូវឱ្យមានការសន្មត់អំពីគំរូចែកចាយនៃវ៉ិចទ័រលក្ខណៈនៅក្នុងលំហទេ។ ក្បួនដោះស្រាយប្រើតែព័ត៌មានអំពីគំរូឯកសារយោងដែលគេស្គាល់ប៉ុណ្ណោះ។ វិធីសាស្រ្តដំណោះស្រាយគឺផ្អែកលើការគណនាចម្ងាយ x ទៅនឹងគំរូនីមួយៗក្នុងមូលដ្ឋានទិន្នន័យ និងស្វែងរកចម្ងាយអប្បបរមា។ អត្ថប្រយោជន៍នៃវិធីសាស្រ្តនេះគឺជាក់ស្តែង:

  • នៅពេលណាមួយ អ្នកអាចបន្ថែមគំរូថ្មីទៅក្នុងមូលដ្ឋានទិន្នន័យ។
  • រចនាសម្ព័ន្ធទិន្នន័យដើមឈើ និងក្រឡាចត្រង្គកាត់បន្ថយចំនួនចម្ងាយដែលបានគណនា។

លើសពីនេះ ដំណោះស្រាយនឹងកាន់តែប្រសើរ ប្រសិនបើអ្នករកមើលនៅក្នុងមូលដ្ឋានទិន្នន័យ មិនមែនសម្រាប់អ្នកជិតខាងដែលនៅជិតបំផុតនោះទេ ប៉ុន្តែសម្រាប់ k ។ បន្ទាប់មក សម្រាប់ k > 1 វាផ្តល់នូវគំរូដ៏ល្អបំផុតនៃការចែកចាយវ៉ិចទ័រនៅក្នុងលំហ d-dimensional ។ ទោះជាយ៉ាងណាក៏ដោយការប្រើប្រាស់ប្រកបដោយប្រសិទ្ធភាពនៃតម្លៃ k អាស្រ័យលើថាតើមានគ្រប់គ្រាន់នៅក្នុងតំបន់នីមួយៗនៃលំហ។ ប្រសិនបើមានច្រើនជាងពីរថ្នាក់ នោះវាពិបាកជាងក្នុងការសម្រេចចិត្តត្រឹមត្រូវ។

អក្សរសិល្ប៍

  • M. Castrillon, ។ O. Deniz, . D. Hernández និង J. Lorenzo, “ការប្រៀបធៀបនៃឧបករណ៍ចាប់សញ្ញាមុខ និងផ្ទៃមុខដោយផ្អែកលើក្របខ័ណ្ឌការរកឃើញវត្ថុទូទៅ Viola-Jones” International Journal of Computer Vision លេខ 22 ទំព័រ។ ៤៨១-៤៩៤ ឆ្នាំ ២០១១។
  • Y.-Q. Wang, "ការវិភាគនៃក្បួនដោះស្រាយ Viola-Jones Face Detection Algorithm," IPOL Journal, 2013 ។
  • L. Shapiro និង D. Stockman, ចក្ខុវិស័យកុំព្យូទ័រ, Binom ។ មន្ទីរពិសោធន៍ចំណេះដឹង ឆ្នាំ ២០០៦។
  • Z. N. G. វិធីសាស្រ្តទទួលស្គាល់ និងកម្មវិធីរបស់ពួកគេ វិទ្យុសូវៀត ឆ្នាំ ១៩៧២។
  • J. Tu, R. Gonzalez, Mathematical Principles of Pattern Recognition, Moscow: “Mir” Moscow, 1974 ។
  • Khan, H. Abdullah និង M. Shamian Bin Zainal "ក្បួនដោះស្រាយការរកឃើញភ្នែក និងមាត់ប្រកបដោយប្រសិទ្ធភាព ដោយប្រើការរួមបញ្ចូលគ្នានៃ viola jones និងការរកឃើញភីកសែលពណ៌ស្បែក" International Journal of Engineering and Applied Sciences, no. Vol. លេខ 3 លេខ 4 ឆ្នាំ 2013 ។
  • V. Gaede និង O. Gunther, "Multidimensional Access Methods," ACM Computing Surveys, ទំព័រ។ 170-231, 1998 ។
  • ការបង្រៀន

អស់រយៈពេលជាយូរមកហើយខ្ញុំចង់សរសេរអត្ថបទទូទៅមួយដែលមានមូលដ្ឋានគ្រឹះនៃការទទួលស្គាល់រូបភាព ប្រភេទនៃការណែនាំអំពីវិធីសាស្ត្រមូលដ្ឋាន ដោយប្រាប់ពីពេលដែលត្រូវអនុវត្តវា កិច្ចការអ្វីដែលពួកគេដោះស្រាយ អ្វីដែលត្រូវធ្វើនៅពេលល្ងាចនៅលើជង្គង់របស់អ្នក និង អ្វី​ដែល​ល្អ​ជាង​កុំ​គិត​ដោយ​មិន​មាន​ក្រុម​មនុស្ស​ក្នុង​វ័យ ២០​ឆ្នាំ។

ខ្ញុំបានសរសេរអត្ថបទមួយចំនួនលើ Optical Recognition អស់រយៈពេលជាយូរមកហើយ ដូច្នេះពីរបីដងក្នុងមួយខែ មនុស្សផ្សេងគ្នាសរសេរមកខ្ញុំជាមួយនឹងសំណួរលើប្រធានបទនេះ។ ពេលខ្លះអ្នកទទួលបានអារម្មណ៍ថាអ្នករស់នៅជាមួយពួកគេនៅក្នុងពិភពលោកផ្សេងៗគ្នា។ ម៉្យាងវិញទៀត អ្នកយល់ថាមនុស្សម្នាក់ទំនងជាមានជំនាញវិជ្ជាជីវៈនៅក្នុងប្រធានបទដែលពាក់ព័ន្ធ ប៉ុន្តែដឹងតិចតួចបំផុតអំពីវិធីសាស្ត្រសម្គាល់អុបទិក។ ហើយអ្វីដែលគួរឱ្យរំខានបំផុតនោះគឺគាត់ព្យាយាមអនុវត្តវិធីសាស្រ្តពីផ្នែកនៃចំណេះដឹងដែលនៅជិតនោះដែលជាឡូជីខលប៉ុន្តែមិនដំណើរការទាំងស្រុងក្នុងការទទួលស្គាល់រូបភាពប៉ុន្តែមិនយល់ពីរឿងនេះទេហើយអាក់អន់ចិត្តខ្លាំងណាស់ប្រសិនបើគាត់ចាប់ផ្តើមប្រាប់គាត់ពីអ្វីមួយ។ មូលដ្ឋានណាស់។ ហើយ​ការ​ពិចារណា​ថា​ការ​ប្រាប់​ពី​មូលដ្ឋាន​គឺ​មាន​ពេល​ច្រើន​ដែល​ច្រើន​តែ​មិន​នៅ​ទីនោះ វា​កាន់តែ​សោកសៅ​ទៅ​ទៀត។

អត្ថបទនេះត្រូវបានរចនាឡើងដើម្បីឱ្យមនុស្សម្នាក់ដែលមិនធ្លាប់ដោះស្រាយជាមួយវិធីសាស្ត្រសម្គាល់រូបភាពក្នុងរយៈពេល 10-15 នាទី បង្កើតរូបភាពមូលដ្ឋានជាក់លាក់នៃពិភពលោកដែលត្រូវនឹងប្រធានបទក្នុងក្បាលរបស់គាត់ ហើយយល់ថាគាត់គួរជីកក្នុងទិសដៅណា។ វិធីសាស្រ្តជាច្រើនដែលបានពិពណ៌នានៅទីនេះគឺអាចអនុវត្តបានចំពោះរ៉ាដា និងដំណើរការអូឌីយ៉ូ។
ខ្ញុំនឹងចាប់ផ្តើមជាមួយនឹងគោលការណ៍មួយចំនួនដែលយើងតែងតែចាប់ផ្តើមប្រាប់អតិថិជនសក្តានុពល ឬអ្នកដែលចង់ចាប់ផ្តើមធ្វើ Optical Recognition៖

  • នៅពេលដោះស្រាយបញ្ហា តែងតែចេញពីភាពសាមញ្ញបំផុត។ ការ​ព្យួរ​ស្លាក​ពណ៌​ទឹកក្រូច​លើ​មនុស្ស​គឺ​ងាយស្រួល​ជាង​ការ​ដើរ​តាម​មនុស្ស​ដោយ​បន្លិច​គាត់​ជា​ល្បាក់។ វាងាយស្រួលជាងក្នុងការយកកាមេរ៉ាដែលមានគុណភាពបង្ហាញខ្ពស់ជាជាងបង្កើតក្បួនដោះស្រាយកម្រិតខ្ពស់។
  • សេចក្តីថ្លែងការណ៍អំពីបញ្ហាដ៏តឹងរឹងនៅក្នុងវិធីសាស្រ្តទទួលស្គាល់អុបទិកគឺជាលំដាប់នៃទំហំដែលមានសារៈសំខាន់ជាងនៅក្នុងបញ្ហានៃការសរសេរកម្មវិធីប្រព័ន្ធ៖ ពាក្យបន្ថែមមួយនៅក្នុង TK អាចបន្ថែម 50% នៃការងារ។
  • នៅក្នុងបញ្ហានៃការទទួលស្គាល់ មិនមានដំណោះស្រាយជាសកលទេ។ អ្នកមិនអាចបង្កើតក្បួនដោះស្រាយដែលនឹង "ទទួលស្គាល់សិលាចារឹកណាមួយ" ដោយសាមញ្ញនោះទេ។ ផ្លាកសញ្ញានៅតាមផ្លូវ និងសន្លឹកអត្ថបទគឺជាវត្ថុផ្សេងគ្នាជាមូលដ្ឋាន។ វាប្រហែលជាអាចបង្កើតក្បួនដោះស្រាយទូទៅមួយ (ឧទាហរណ៍ល្អពី Google) ប៉ុន្តែវានឹងត្រូវការការងារច្រើនពីក្រុមធំ និងមានទម្រង់ការរងផ្សេងៗគ្នារាប់សិប។
  • OpenCV គឺជាព្រះគម្ពីរដែលមានវិធីសាស្រ្តជាច្រើន ហើយដែលអ្នកអាចដោះស្រាយបាន 50% នៃបរិមាណនៃបញ្ហាស្ទើរតែទាំងអស់ ប៉ុន្តែ OpenCV គ្រាន់តែជាផ្នែកតូចមួយនៃអ្វីដែលអាចធ្វើបាននៅក្នុងការពិតប៉ុណ្ណោះ។ នៅក្នុងការសិក្សាមួយវាត្រូវបានសរសេរនៅក្នុងការសន្និដ្ឋានថា "បញ្ហាមិនត្រូវបានដោះស្រាយដោយវិធីសាស្រ្ត OpenCV ដូច្នេះវាមិនអាចដោះស្រាយបាន" ។ ព្យាយាមជៀសវាងបញ្ហានេះ កុំខ្ជិល និងវាយតម្លៃការងារបច្ចុប្បន្នដោយសន្តិវិធីរាល់ពេល ដោយមិនប្រើគំរូ OpenCV ។
វាពិបាកណាស់ក្នុងការផ្តល់ដំបូន្មានជាសកលមួយចំនួន ឬប្រាប់ពីរបៀបបង្កើតរចនាសម្ព័ន្ធមួយចំនួនដែលអ្នកអាចបង្កើតដំណោះស្រាយចំពោះបញ្ហាចក្ខុវិស័យកុំព្យូទ័រតាមអំពើចិត្ត។ គោលបំណងនៃអត្ថបទនេះគឺដើម្បីរៀបចំរចនាសម្ព័ន្ធអ្វីដែលអាចប្រើបាន។ ខ្ញុំនឹងព្យាយាមបំបែកវិធីសាស្រ្តដែលមានស្រាប់ជាបីក្រុម។ ក្រុមទីមួយគឺការត្រងជាមុន និងការរៀបចំរូបភាព។ ក្រុមទីពីរគឺជាដំណើរការឡូជីខលនៃលទ្ធផលត្រង។ ក្រុមទីបីគឺក្បួនដោះស្រាយការសម្រេចចិត្តដោយផ្អែកលើដំណើរការឡូជីខល។ ព្រំដែនរវាងក្រុមគឺបំពានណាស់។ ដើម្បីដោះស្រាយបញ្ហា វាគឺនៅឆ្ងាយពីការចាំបាច់ជានិច្ចក្នុងការអនុវត្តវិធីសាស្រ្តពីគ្រប់ក្រុមទាំងអស់ ជួនកាលពីរគឺគ្រប់គ្រាន់ ហើយជួនកាលសូម្បីតែមួយផងដែរ។

បញ្ជីវិធីសាស្រ្តដែលបង្ហាញនៅទីនេះមិនទាន់ពេញលេញទេ។ ខ្ញុំស្នើឱ្យបន្ថែមក្នុងមតិយោបល់ វិធីសាស្ត្រសំខាន់ៗ ដែលខ្ញុំមិនបានសរសេរ ហើយសន្មតថា 2-3 ពាក្យដែលភ្ជាប់មកជាមួយនីមួយៗ។

ផ្នែកទី 1. ការត្រង

នៅក្នុងក្រុមនេះ ខ្ញុំបានដាក់វិធីសាស្រ្តដែលអនុញ្ញាតឱ្យអ្នកជ្រើសរើសផ្នែកដែលចាប់អារម្មណ៍លើរូបភាពដោយមិនចាំបាច់ធ្វើការវិភាគ។ វិធីសាស្រ្តទាំងនេះភាគច្រើនអនុវត្តប្រភេទនៃការផ្លាស់ប្តូរឯកសណ្ឋានមួយចំនួនចំពោះចំណុចទាំងអស់នៅក្នុងរូបភាព។ នៅកម្រិតត្រង រូបភាពមិនត្រូវបានវិភាគទេ ប៉ុន្តែចំណុចដែលត្រូវបានត្រងអាចចាត់ទុកថាជាតំបន់ដែលមានលក្ខណៈពិសេស។
កម្រិត binarization ការជ្រើសរើសតំបន់អ៊ីស្តូក្រាម
ការបំប្លែងដ៏សាមញ្ញបំផុតគឺ binarization នៃរូបភាពតាមកម្រិត។ សម្រាប់រូបភាព RGB និងពណ៌ប្រផេះ កម្រិតពន្លឺគឺជាតម្លៃពណ៌។ មានបញ្ហាដ៏ល្អដែលការផ្លាស់ប្តូរបែបនេះគឺគ្រប់គ្រាន់។ ឧបមាថាអ្នកចង់ជ្រើសរើសធាតុដោយស្វ័យប្រវត្តិនៅលើសន្លឹកក្រដាសពណ៌ស៖




ជម្រើសនៃកម្រិតដែលការធ្វើ binarization កើតឡើងភាគច្រើនកំណត់ដំណើរការនៃ binarization ខ្លួនវាផ្ទាល់។ ក្នុងករណីនេះ រូបភាពត្រូវបានបែងចែកដោយពណ៌មធ្យម។ ជាធម្មតា binarization ត្រូវបានធ្វើដោយ algorithm ដែលសម្របខ្លួនជ្រើសរើសកម្រិត។ ក្បួនដោះស្រាយបែបនេះអាចជាជម្រើសនៃការរំពឹងទុកឬរបៀប។ ហើយអ្នកអាចជ្រើសរើសកំពូលធំបំផុតនៃអ៊ីស្តូក្រាម។

Binarization អាចផ្តល់លទ្ធផលគួរឱ្យចាប់អារម្មណ៍នៅពេលធ្វើការជាមួយអ៊ីស្តូក្រាម រួមទាំងស្ថានភាពប្រសិនបើយើងពិចារណារូបភាពមិននៅក្នុង RGB ប៉ុន្តែនៅក្នុង HSV ។ ឧទាហរណ៍ បែងចែកពណ៌ដែលចាប់អារម្មណ៍។ តាមគោលការណ៍នេះ គេអាចបង្កើតទាំងឧបករណ៍ចាប់ស្លាក និងឧបករណ៍ចាប់ស្បែកមនុស្ស។
តម្រងបុរាណ៖ Fourier, LPF, HPF
វិធីសាស្ត្រចម្រោះបុរាណពីរ៉ាដា និងដំណើរការសញ្ញាអាចត្រូវបានអនុវត្តដោយជោគជ័យក្នុងកិច្ចការសម្គាល់លំនាំផ្សេងៗ។ វិធីសាស្រ្តប្រពៃណីនៅក្នុងរ៉ាដាដែលស្ទើរតែមិនដែលប្រើក្នុងរូបភាពក្នុងទម្រង់ដ៏បរិសុទ្ធរបស់វាគឺ Fourier transform (ជាពិសេសជាងនេះទៅទៀត FFT)។ ការលើកលែងមួយក្នុងចំណោមករណីលើកលែងមួយចំនួនដែលការបំប្លែង 1D Fourier ត្រូវបានប្រើគឺការបង្ហាប់រូបភាព។ សម្រាប់ការវិភាគរូបភាព ការបំប្លែងមួយវិមាត្រជាធម្មតាមិនគ្រប់គ្រាន់ទេ អ្នកត្រូវប្រើការបំប្លែងពីរវិមាត្រដែលពឹងផ្អែកលើធនធានច្រើន។

មានមនុស្សតិចណាស់ដែលគណនាវា ជាធម្មតាវាលឿន និងងាយស្រួលជាងក្នុងការប្រើប្រាស់ការប្រមូលផ្តុំនៃតំបន់ដែលចាប់អារម្មណ៍ជាមួយនឹងតម្រងដែលត្រៀមរួចជាស្រេចដែលបានធ្វើឱ្យច្បាស់ទៅជាប្រេកង់ខ្ពស់ (HPF) ឬទាប (LPF) ។ វិធីសាស្រ្តបែបនេះ ពិតណាស់មិនអនុញ្ញាតឱ្យមានការវិភាគវិសាលគមនោះទេ ប៉ុន្តែនៅក្នុងកិច្ចការដំណើរការវីដេអូជាក់លាក់ ជាធម្មតាវាមិនមែនជាការវិភាគដែលត្រូវការទេ ប៉ុន្តែជាលទ្ធផល។


ឧទាហរណ៍សាមញ្ញបំផុតនៃតម្រងដែលសង្កត់ធ្ងន់លើប្រេកង់ទាប (តម្រង Gaussian) និងប្រេកង់ខ្ពស់ (តម្រង Gabor) ។
សម្រាប់ចំណុចរូបភាពនីមួយៗ បង្អួចមួយត្រូវបានជ្រើសរើស ហើយគុណនឹងតម្រងដែលមានទំហំដូចគ្នា។ លទ្ធផល​នៃ​ការ​បំប្លែង​បែប​នេះ​គឺ​ជា​តម្លៃ​ថ្មី​នៃ​ចំណុច។ នៅពេលអនុវត្ត LPF និង HPF រូបភាពនៃប្រភេទនេះត្រូវបានទទួល៖



រលក
ប៉ុន្តែចុះយ៉ាងណាបើយើងប្រើមុខងារលក្ខណៈតាមអំពើចិត្តមួយចំនួនសម្រាប់ convolution ជាមួយសញ្ញា? បន្ទាប់មកវានឹងត្រូវបានគេហៅថា "Wavelet Transform" ។ និយមន័យនៃ wavelet នេះមិនត្រឹមត្រូវទេ ប៉ុន្តែជាប្រពៃណី នៅក្នុងក្រុមជាច្រើន ការវិភាគ wavelet គឺជាការស្វែងរកគំរូតាមអំពើចិត្តនៅក្នុងរូបភាពដោយប្រើ convolution ជាមួយគំរូនៃគំរូនេះ។ មានសំណុំនៃមុខងារបុរាណដែលប្រើក្នុងការវិភាគរលក។ ទាំងនេះរួមបញ្ចូលទាំងរលក Haar, រលក Morlet, រលកមួកម៉ិកស៊ិក ជាដើម។ Haar primitives ដែល​មាន​អត្ថបទ​មុន​របស់​ខ្ញុំ​ជា​ច្រើន ( , ) យោង​ទៅ​មុខងារ​បែប​នេះ​សម្រាប់​ចន្លោះ​ពីរ​វិមាត្រ។


ខាងលើគឺជាឧទាហរណ៍ 4 នៃរលកបុរាណ។ រលក 3D Haar, រលក 2D Meyer, រលកមួកម៉ិកស៊ិក, រលក Daubechies ។ ឧទាហរណ៏ដ៏ល្អនៃការប្រើប្រាស់ការបកស្រាយបន្ថែមនៃ wavelets គឺជាបញ្ហានៃការស្វែងរកពន្លឺនៅក្នុងភ្នែក ដែល glint ខ្លួនវាគឺជា wavelet:

វេយ្យាករណ៍បុរាណត្រូវបានប្រើប្រាស់ជាធម្មតាសម្រាប់ ឬសម្រាប់ការចាត់ថ្នាក់របស់ពួកគេ (ត្រូវបានពិពណ៌នាខាងក្រោម)។
ទំនាក់ទំនង
បន្ទាប់ពីការបកស្រាយដោយឥតគិតថ្លៃនៃ wavelets នៅលើផ្នែករបស់ខ្ញុំ វាគឺមានតំលៃនិយាយអំពីការជាប់ទាក់ទងគ្នាពិតប្រាកដដែលស្ថិតនៅក្រោមពួកវា។ នៅពេលត្រងរូបភាព នេះគឺជាឧបករណ៍ដែលមិនអាចខ្វះបាន។ កម្មវិធីបុរាណគឺជាការទាក់ទងគ្នានៃការស្ទ្រីមវីដេអូ ដើម្បីស្វែងរកអុហ្វសិត ឬស្ទ្រីមអុបទិក។ ឧបករណ៍ចាប់ការផ្លាស់ប្តូរដ៏សាមញ្ញបំផុតក៏ជាឧបករណ៍ទាក់ទងភាពខុសគ្នាផងដែរ។ កន្លែងដែលរូបភាពមិនទាក់ទងគ្នា មានចលនា។

មុខងារតម្រង
ថ្នាក់គួរឱ្យចាប់អារម្មណ៍នៃតម្រងគឺមុខងារតម្រង។ ទាំងនេះគឺជាតម្រងគណិតវិទ្យាសុទ្ធសាធ ដែលអនុញ្ញាតឱ្យអ្នករកឃើញមុខងារគណិតវិទ្យាសាមញ្ញក្នុងរូបភាព (បន្ទាត់ ប៉ារ៉ាបូឡា រង្វង់)។ រូបភាពប្រមូលផ្តុំត្រូវបានបង្កើតឡើង ដែលក្នុងនោះសម្រាប់ចំណុចនីមួយៗនៃរូបភាពដើម សំណុំមុខងារដែលបង្កើតវាត្រូវបានគូរ។ ការបំប្លែងបែបបុរាណបំផុតគឺការបំប្លែង Hough សម្រាប់បន្ទាត់។ នៅក្នុងការផ្លាស់ប្តូរនេះ សម្រាប់ចំណុចនីមួយៗ (x;y) សំណុំនៃចំណុច (a;b) នៃបន្ទាត់ y=ax+b ត្រូវបានគូរ ដែលសមភាពគឺពិត។ ទទួលបានរូបភាពស្អាតៗ៖


(បូកទីមួយសម្រាប់អ្នកដែលជាអ្នកដំបូងដែលស្វែងរកការចាប់នៅក្នុងរូបភាព និងនិយមន័យបែបនេះ ហើយពន្យល់វា បូកទីពីរសម្រាប់អ្នកដែលជាអ្នកដំបូងដែលនិយាយអ្វីដែលត្រូវបានបង្ហាញនៅទីនេះ)
ការបំប្លែង Hough អនុញ្ញាតឱ្យអ្នកស្វែងរកមុខងារដែលអាចកំណត់បានណាមួយ។ ឧទាហរណ៍រង្វង់។ មានការបំប្លែងដែលបានកែប្រែដែលអនុញ្ញាតឱ្យអ្នកស្វែងរក . ការ​ផ្លាស់​ប្តូរ​នេះ​គឺ​ពេញ​ចិត្ត​អ្នក​គណិត​វិទូ​ជា​ខ្លាំង។ ប៉ុន្តែនៅពេលដំណើរការរូបភាព វាជាអកុសលមិនតែងតែដំណើរការទេ។ ល្បឿនយឺតខ្លាំង ភាពប្រែប្រួលខ្ពស់ចំពោះគុណភាពនៃ binarization ។ សូម្បីតែក្នុងស្ថានភាពល្អក៏ដោយ ខ្ញុំចូលចិត្តប្រើវិធីផ្សេង។
សមភាគីនៃការផ្លាស់ប្តូរ Hough សម្រាប់បន្ទាត់គឺ Radon transform ។ វាត្រូវបានគណនាតាមរយៈ FFT ដែលផ្តល់នូវការកើនឡើងនៃការអនុវត្តនៅក្នុងស្ថានភាពដែលមានពិន្ទុច្រើន។ លើសពីនេះ វា​អាច​ត្រូវ​បាន​អនុវត្ត​ចំពោះ​រូបភាព​ដែល​មិន​មែន​ជា​គោលពីរ។
តម្រងវណ្ឌវង្ក
ថ្នាក់​តម្រង​ដាច់ដោយឡែក​គឺ​តម្រង​ព្រំដែន និង​វណ្ឌវង្ក។ ផ្លូវ​មាន​ប្រយោជន៍​ខ្លាំង​ណាស់​នៅ​ពេល​យើង​ចង់​ផ្លាស់ទី​ពី​ការ​ធ្វើ​ការ​ជាមួយ​រូបភាព​ទៅ​ធ្វើ​ការ​ជាមួយ​វត្ថុ​ក្នុង​រូបភាព​នោះ។ នៅពេលដែលវត្ថុមួយមានភាពស្មុគ្រស្មាញ ប៉ុន្តែត្រូវបានសម្គាល់យ៉ាងល្អ នោះជាញឹកញាប់វិធីតែមួយគត់ដើម្បីធ្វើការជាមួយវាគឺជ្រើសរើសវណ្ឌវង្ករបស់វា។ មានក្បួនដោះស្រាយមួយចំនួនដែលដោះស្រាយបញ្ហានៃការត្រងវណ្ឌវង្កៈ

ភាគច្រើនគេប្រើគឺ Kenny ដែលដំណើរការបានល្អ ហើយការអនុវត្តគឺនៅក្នុង OpenCV (Sobel ក៏នៅទីនោះដែរ ប៉ុន្តែគាត់ស្វែងរកវណ្ឌវង្កកាន់តែអាក្រក់)។



តម្រងផ្សេងទៀត។
ខាងលើគឺជាតម្រង ការកែប្រែដែលជួយដោះស្រាយបញ្ហា 80-90% នៃកិច្ចការ។ ប៉ុន្តែក្រៅពីពួកវា មានតម្រងដ៏កម្រដែលប្រើក្នុងកិច្ចការក្នុងស្រុក។ មានតម្រងបែបនេះរាប់សិប ខ្ញុំនឹងមិនរាយបញ្ជីពួកវាទាំងអស់ទេ។ ការចាប់អារម្មណ៍គឺតម្រងដដែលៗ (ឧទាហរណ៍) ក៏ដូចជាការបំប្លែង ridgelet និង curvlet ដែលជាយ៉ាន់ស្ព័រនៃតម្រងរលកបុរាណ និងការវិភាគនៅក្នុងវាលបំលែងរ៉ាដុន។ Beamlet transform ដំណើរការយ៉ាងស្រស់ស្អាតនៅលើព្រំដែននៃ wavelet transform និងការវិភាគឡូជីខល ដែលអនុញ្ញាតឱ្យអ្នករំលេចវណ្ឌវង្កៈ

ប៉ុន្តែការបំប្លែងទាំងនេះមានលក្ខណៈជាក់លាក់ និងត្រូវបានកែសម្រួលសម្រាប់កិច្ចការដ៏កម្រ។

ផ្នែកទី 2. ដំណើរការឡូជីខលនៃលទ្ធផលត្រង

តម្រងផ្តល់សំណុំទិន្នន័យដែលសមរម្យសម្រាប់ដំណើរការ។ ប៉ុន្តែជារឿយៗអ្នកមិនអាចគ្រាន់តែយក និងប្រើប្រាស់ទិន្នន័យនេះដោយមិនដំណើរការវាបានទេ។ នៅក្នុងផ្នែកនេះ នឹងមានវិធីសាស្រ្តបុរាណជាច្រើនដែលអនុញ្ញាតឱ្យអ្នកទៅពីរូបភាពទៅលក្ខណៈសម្បត្តិរបស់វត្ថុ ឬទៅវត្ថុខ្លួនឯង។
សរីរវិទ្យា
ការផ្លាស់ប្តូរពីការត្រងទៅជាតក្កវិជ្ជា តាមគំនិតរបស់ខ្ញុំ គឺជាវិធីសាស្រ្តនៃរូបវិទ្យាគណិតវិទ្យា ( , )។ តាមការពិត ទាំងនេះគឺជាប្រតិបត្តិការសាមញ្ញបំផុតនៃការបង្កើន និងលុបរូបភាពប្រព័ន្ធគោលពីរ។ វិធីសាស្រ្តទាំងនេះអនុញ្ញាតឱ្យអ្នកដកសំលេងរំខានចេញពីរូបភាពគោលពីរដោយបង្កើនឬបន្ថយធាតុដែលមាន។ ដោយផ្អែកលើ morphology គណិតវិទ្យា មានក្បួនដោះស្រាយ contouring ប៉ុន្តែជាធម្មតាពួកគេប្រើប្រភេទនៃ hybrid algorithms ឬ algorithms ក្នុងការភ្ជាប់គ្នា។
ការវិភាគវណ្ឌវង្ក
នៅក្នុងផ្នែកស្តីពីការត្រង ក្បួនដោះស្រាយសម្រាប់ការទទួលបានព្រំដែនត្រូវបានលើកឡើងរួចហើយ។ ព្រំដែនលទ្ធផលត្រូវបានបំប្លែងយ៉ាងសាមញ្ញទៅជាវណ្ឌវង្ក។ សម្រាប់ក្បួនដោះស្រាយ Canny វាកើតឡើងដោយស្វ័យប្រវត្តិ សម្រាប់ក្បួនដោះស្រាយផ្សេងទៀត ការធ្វើ Binarization បន្ថែមគឺត្រូវបានទាមទារ។ អ្នកអាចទទួលបានវណ្ឌវង្កសម្រាប់ក្បួនដោះស្រាយប្រព័ន្ធគោលពីរ ជាឧទាហរណ៍ ជាមួយនឹងក្បួនដោះស្រាយ beetle ។
វណ្ឌវង្កគឺជាលក្ខណៈតែមួយគត់នៃវត្ថុមួយ។ ជាញឹកញាប់ វាអនុញ្ញាតឱ្យអ្នកកំណត់អត្តសញ្ញាណវត្ថុតាមវណ្ឌវង្ក។ មានឧបករណ៍គណិតវិទ្យាដ៏មានឥទ្ធិពលដែលអនុញ្ញាតឱ្យអ្នកធ្វើកិច្ចការនេះ។ ឧបករណ៍នេះត្រូវបានគេហៅថាការវិភាគវណ្ឌវង្ក ( , ) ។

និយាយឱ្យត្រង់ទៅ ខ្ញុំមិនដែលគ្រប់គ្រងដើម្បីអនុវត្តការវិភាគវណ្ឌវង្កនៅក្នុងបញ្ហាពិតនោះទេ។ លក្ខខណ្ឌល្អពេកត្រូវបានទាមទារ។ ទាំង​គ្មាន​ព្រំដែន ឬ​មាន​សំឡេង​ខ្លាំង​ពេក។ ប៉ុន្តែប្រសិនបើអ្នកត្រូវការទទួលស្គាល់អ្វីមួយនៅក្រោមលក្ខខណ្ឌដ៏ល្អនោះ ការវិភាគវណ្ឌវង្កគឺជាជម្រើសដ៏ល្អ។ វាដំណើរការលឿនណាស់ គណិតវិទ្យាដ៏ស្រស់ស្អាត និងតក្កវិជ្ជាដែលអាចយល់បាន។
ចំណុចឯកវចនៈ
ចំណុចគន្លឹះគឺជាលក្ខណៈតែមួយគត់នៃវត្ថុដែលអនុញ្ញាតឱ្យវត្ថុត្រូវបានភ្ជាប់ជាមួយខ្លួនវា ឬជាមួយថ្នាក់វត្ថុស្រដៀងគ្នា។ មានវិធីរាប់សិបដើម្បីជ្រើសរើសចំណុចបែបនេះ។ វិធីសាស្រ្តមួយចំនួនគូសបញ្ជាក់ចំណុចពិសេសនៅក្នុងស៊ុមជិតខាង ខ្លះបន្ទាប់ពីរយៈពេលយូរ ហើយនៅពេលដែលមានការផ្លាស់ប្តូរពន្លឺ ខ្លះអនុញ្ញាតឱ្យអ្នកស្វែងរកចំណុចពិសេសដែលនៅដដែល សូម្បីតែនៅពេលវត្ថុបង្វិលក៏ដោយ។ ចូរចាប់ផ្តើមជាមួយនឹងវិធីសាស្រ្តដែលអនុញ្ញាតឱ្យយើងស្វែងរកចំណុចពិសេសដែលមិនមានស្ថេរភាពប៉ុន្តែត្រូវបានគណនាយ៉ាងឆាប់រហ័សហើយបន្ទាប់មកយើងនឹងចូលទៅក្នុងភាពស្មុគស្មាញកាន់តែខ្លាំងឡើង:
ថ្នាក់ដំបូង។ ចំណុចឯកវចនៈដែលមានស្ថេរភាពសម្រាប់វិនាទី។ចំណុចបែបនេះត្រូវបានប្រើដើម្បីណែនាំវត្ថុមួយរវាងស៊ុមវីដេអូដែលនៅជាប់គ្នា ឬបង្រួមរូបភាពពីកាមេរ៉ាជិតខាង។ ចំណុចទាំងនេះរួមមាន អតិបរមាក្នុងតំបន់នៃរូបភាព ជ្រុងក្នុងរូបភាព (ឧបករណ៍ចាប់សញ្ញាល្អបំផុត ប្រហែលជាឧបករណ៍ចាប់ Haris) ចំណុចដែលឈានដល់ការបែកខ្ញែកអតិបរមា ជម្រាលជាក់លាក់។ល។
ថ្នាក់ទីពីរ។ ចំនុចឯកវចនៈដែលមានស្ថេរភាពនៅពេលផ្លាស់ប្តូរពន្លឺនិងចលនាតូចៗនៃវត្ថុ។ចំណុចបែបនេះបម្រើជាចម្បងសម្រាប់ការបណ្តុះបណ្តាល និងការចាត់ថ្នាក់ជាបន្តបន្ទាប់នៃប្រភេទវត្ថុ។ ជាឧទាហរណ៍ អ្នកចាត់ថ្នាក់អ្នកថ្មើរជើង ឬអ្នកចាត់ថ្នាក់មុខគឺជាផលិតផលនៃប្រព័ន្ធដែលបង្កើតឡើងនៅលើចំណុចបែបនេះ។ រលកសញ្ញាមួយចំនួនដែលបានរៀបរាប់ពីមុនអាចជាមូលដ្ឋានសម្រាប់ចំណុចបែបនេះ។ ឧទាហរណ៍ Haar primitives ការស្វែងរកពន្លឺ ស្វែងរកលក្ខណៈជាក់លាក់ផ្សេងទៀត។ ចំណុចទាំងនេះរួមមានចំណុចដែលបានរកឃើញដោយវិធីសាស្ត្រអ៊ីស្តូក្រាមនៃជម្រាលទិសដៅ (HOG) ។
ថ្នាក់ទីបី។ ពិន្ទុមានស្ថេរភាព។ខ្ញុំដឹងតែអំពីវិធីសាស្រ្តពីរដែលផ្តល់ស្ថេរភាពពេញលេញ និងអំពីការកែប្រែរបស់ពួកគេ។ នេះ និង។ ពួកគេអនុញ្ញាតឱ្យអ្នកស្វែងរកចំណុចសំខាន់ៗសូម្បីតែនៅពេលអ្នកបង្វិលរូបភាពក៏ដោយ។ ការគណនានៃចំណុចបែបនេះត្រូវចំណាយពេលយូរជាងវិធីសាស្ត្រផ្សេងទៀត ប៉ុន្តែសម្រាប់ពេលវេលាមានកំណត់។ ជាអកុសលវិធីសាស្រ្តទាំងនេះត្រូវបានប៉ាតង់។ ទោះបីជានៅក្នុងប្រទេសរុស្ស៊ីវាមិនអាចទៅរួចទេក្នុងការធ្វើប៉ាតង់ក្បួនដោះស្រាយដូច្នេះប្រើវាសម្រាប់ទីផ្សារក្នុងស្រុក។

ផ្នែកទី 3. ការបណ្តុះបណ្តាល

ផ្នែកទីបីនៃរឿងនឹងត្រូវបានឧទ្ទិសដល់វិធីសាស្រ្តដែលមិនដំណើរការដោយផ្ទាល់ជាមួយរូបភាពប៉ុន្តែដែលអនុញ្ញាតឱ្យអ្នកធ្វើការសម្រេចចិត្ត។ ជាទូទៅ ទាំងនេះគឺជាវិធីសាស្រ្តផ្សេងៗនៃការរៀនម៉ាស៊ីន និងការសម្រេចចិត្ត។ ថ្មីៗនេះ Yandyks បានបង្ហោះនៅលើ Habr លើប្រធានបទនេះមានជម្រើសល្អណាស់។ នៅទីនេះវាមាននៅក្នុងកំណែអត្ថបទ។ សម្រាប់​ការ​សិក្សា​យ៉ាង​ហ្មត់ចត់​លើ​មុខវិជ្ជា​នេះ ខ្ញុំ​សូម​ណែនាំ​យ៉ាង​មុតមាំ​ឱ្យ​អ្នក​មើល​ទៅ​ពួកគេ។ នៅទីនេះខ្ញុំនឹងព្យាយាមកំណត់វិធីសាស្រ្តមូលដ្ឋានមួយចំនួនដែលប្រើជាពិសេសក្នុងការទទួលស្គាល់លំនាំ។
នៅក្នុង 80% នៃស្ថានភាព ខ្លឹមសារនៃការរៀននៅក្នុងបញ្ហានៃការទទួលស្គាល់មានដូចខាងក្រោម៖
មាន​គំរូ​សាកល្បង​ដែល​មាន​ថ្នាក់​ជាច្រើន​នៃ​វត្ថុ។ សូមឱ្យវាមានវត្តមាន / អវត្តមានរបស់មនុស្សនៅក្នុងរូបថត។ សម្រាប់រូបភាពនីមួយៗ មានសំណុំនៃលក្ខណៈពិសេសដែលត្រូវបានបន្លិចដោយលក្ខណៈពិសេសមួយចំនួន ថាតើវាជា Haar, HOG, SURF ឬ wavelet មួយចំនួន។ ក្បួនដោះស្រាយការរៀនត្រូវតែបង្កើតគំរូបែបនេះ ដោយយោងទៅតាមវានឹងអាចវិភាគរូបភាពថ្មី និងសម្រេចចិត្តថាតើវត្ថុណាមួយនៅក្នុងរូបភាព។
តើវារួចរាល់ដោយរបៀបណា? រូបភាពសាកល្បងនីមួយៗគឺជាចំណុចមួយនៅក្នុងចន្លោះមុខងារ។ កូអរដោណេរបស់វាគឺជាទម្ងន់នៃលក្ខណៈពិសេសនីមួយៗនៅក្នុងរូបភាព។ សូមឱ្យសញ្ញារបស់យើងមានៈ "វត្តមាននៃភ្នែក", "វត្តមាននៃច្រមុះ", "វត្តមាននៃដៃពីរ", "វត្តមាននៃត្រចៀក" ជាដើម។ យើងនឹងបែងចែកសញ្ញាទាំងអស់នេះជាមួយនឹងឧបករណ៍រាវរកដែលយើងមាន។ ដែលត្រូវបានបណ្តុះបណ្តាលលើផ្នែករាងកាយស្រដៀងនឹងមនុស្ស។ សម្រាប់​មនុស្ស​ម្នាក់​ក្នុង​ចន្លោះ​បែប​នេះ ចំណុច​ត្រឹម​ត្រូវ​នឹង​មាន។ សម្រាប់ស្វា ចំណុចសម្រាប់សេះ។ អ្នកចាត់ថ្នាក់ត្រូវបានបណ្តុះបណ្តាលលើគំរូនៃឧទាហរណ៍។ ប៉ុន្តែ​មិនមែន​រូបថត​ទាំងអស់​បង្ហាញ​ដៃ​ទេ ខ្លះ​ទៀត​គ្មាន​ភ្នែក ហើយ​នៅ​ទី​៣ ស្វា​មាន​ច្រមុះ​មនុស្ស​ដោយសារ​កំហុស​អ្នក​ចាត់ថ្នាក់​។ ឧបករណ៍ចាត់ថ្នាក់របស់មនុស្សដែលអាចបណ្តុះបណ្តាលបានបំបែកដោយស្វ័យប្រវត្តិនូវចន្លោះលក្ខណៈពិសេសតាមរបៀបដូចជា៖ ប្រសិនបើមុខងារទីមួយស្ថិតនៅក្នុងចន្លោះ 0.5 នៅក្នុងខ្លឹមសារ គោលបំណងរបស់អ្នកចាត់ថ្នាក់គឺដើម្បីគូរក្នុងចន្លោះលក្ខណៈនៃតំបន់លក្ខណៈនៃវត្ថុនៃការចាត់ថ្នាក់។ នេះជារបៀបដែលការប៉ាន់ស្មានបន្តបន្ទាប់គ្នាទៅនឹងចំលើយសម្រាប់អ្នកចាត់ថ្នាក់មួយ (AdaBoost) ក្នុងចន្លោះពីរវិមាត្រនឹងមើលទៅដូច៖


មានអ្នកចាត់ថ្នាក់ជាច្រើន។ ពួកគេម្នាក់ៗធ្វើការបានប្រសើរជាងក្នុងកិច្ចការមួយចំនួនរបស់វា។ ភារកិច្ចជ្រើសរើសអ្នកចាត់ថ្នាក់សម្រាប់ភារកិច្ចជាក់លាក់មួយគឺភាគច្រើនជាសិល្បៈ។ នេះគឺជារូបភាពស្អាតៗមួយចំនួនលើប្រធានបទ។
ករណីសាមញ្ញ ការបំបែកមួយវិមាត្រ
សូមលើកឧទាហរណ៍នៃករណីសាមញ្ញបំផុតនៃការចាត់ថ្នាក់ នៅពេលដែលទំហំមុខងារមានវិមាត្រមួយ ហើយយើងត្រូវបែងចែក 2 ថ្នាក់។ ស្ថានភាពកើតឡើងញឹកញាប់ជាងវាហាក់ដូចជា៖ ឧទាហរណ៍ នៅពេលដែលអ្នកត្រូវបែងចែកសញ្ញាពីរ ឬប្រៀបធៀបគំរូជាមួយគំរូមួយ។ ចូរនិយាយថាយើងមានគំរូបណ្តុះបណ្តាល។ ក្នុងករណីនេះ រូបភាពមួយត្រូវបានទទួល ដែលអ័ក្ស X នឹងជារង្វាស់នៃភាពស្រដៀងគ្នា ហើយអ័ក្ស Y នឹងជាចំនួនព្រឹត្តិការណ៍ដែលមានរង្វាស់បែបនេះ។ នៅពេលដែលវត្ថុដែលចង់បានគឺស្រដៀងនឹងខ្លួនវា ហ្គោសៀនខាងឆ្វេងត្រូវបានទទួល។ នៅពេលដែលមិនស្រដៀងគ្នា - ត្រឹមត្រូវ។ តម្លៃ X=0.4 បំបែកគំរូ ដូច្នេះការសម្រេចចិត្តខុស កាត់បន្ថយប្រូបាប៊ីលីតេនៃការសម្រេចចិត្តខុសណាមួយ។ វា​គឺ​ជា​ការ​ស្វែង​រក​ការ​បំបែក​បែប​នេះ​ដែល​ជា​ភារកិច្ច​នៃ​ការ​ចាត់​ថ្នាក់​។


ចំណាំតិចតួច។ លក្ខណៈវិនិច្ឆ័យដែលកាត់បន្ថយកំហុសនឹងមិនតែងតែល្អបំផុតនោះទេ។ ក្រាហ្វខាងក្រោមគឺជាក្រាហ្វនៃប្រព័ន្ធទទួលស្គាល់អាយរីសពិតប្រាកដ។ សម្រាប់ប្រព័ន្ធបែបនេះ លក្ខណៈវិនិច្ឆ័យត្រូវបានជ្រើសរើសក្នុងវិធីមួយ ដើម្បីកាត់បន្ថយប្រូបាប៊ីលីតេនៃការទទួលយកមិនពិតរបស់អ្នកខាងក្រៅទៅកាន់វត្ថុ។ ប្រូបាប៊ីលីតេបែបនេះត្រូវបានគេហៅថា "កំហុសនៃប្រភេទទីមួយ", "ប្រូបាប៊ីលីតេនៃការជូនដំណឹងមិនពិត", "វិជ្ជមានមិនពិត" ។ នៅក្នុងអក្សរសិល្ប៍អង់គ្លេស "អត្រាចូលប្រើមិនពិត" ។
) AdaBusta គឺជាអ្នកចាត់ថ្នាក់ទូទៅបំផុតមួយ។ ឧទាហរណ៍ ល្បាក់ Haar ត្រូវបានសាងសង់នៅលើវា។ ជាធម្មតាត្រូវបានប្រើប្រាស់នៅពេលដែលត្រូវការចំណាត់ថ្នាក់ប្រព័ន្ធគោលពីរ ប៉ុន្តែគ្មានអ្វីរារាំងការបង្រៀនសម្រាប់ថ្នាក់បន្ថែមទៀតទេ។
SVM ( , , , ) មួយក្នុងចំនោមអ្នកចាត់ថ្នាក់ដ៏មានឥទ្ធិពលបំផុតជាមួយនឹងការអនុវត្តជាច្រើន។ ជាគោលការណ៍ លើកិច្ចការសិក្សាដែលខ្ញុំបានជួបប្រទះ វាដំណើរការស្រដៀងនឹង adabusta ដែរ។ វា​ត្រូវ​បាន​គេ​ចាត់​ទុក​ថា​លឿន​ណាស់ ប៉ុន្តែ​ការ​ហ្វឹក​ហាត់​របស់​វា​ពិបាក​ជាង​ Adabusta ហើយ​ទាមទារ​ឱ្យ​មាន​ជម្រើស​នៃ​ខឺណែល​ត្រឹមត្រូវ។

វាក៏មានបណ្តាញសរសៃប្រសាទនិងតំរែតំរង់ផងដែរ។ ប៉ុន្តែដើម្បីចាត់ថ្នាក់ពួកវាដោយសង្ខេប និងបង្ហាញពីរបៀបដែលវាខុសគ្នា អត្ថបទដែលមានទំហំធំជាងនេះគឺចាំបាច់។
________________________________________________
ខ្ញុំសង្ឃឹមថាខ្ញុំអាចផ្តល់នូវទិដ្ឋភាពទូទៅរហ័សនៃវិធីសាស្រ្តដែលបានប្រើដោយមិនចាំបាច់ចូលទៅក្នុងគណិតវិទ្យា និងការពិពណ៌នា។ ប្រហែលជាវានឹងជួយនរណាម្នាក់។ ទោះបីជាការពិត អត្ថបទនេះគឺមិនពេញលេញ ហើយមិនមានពាក្យអំពីការធ្វើការជាមួយរូបភាពស្តេរ៉េអូ ឬអំពី LSM ជាមួយតម្រង Kalman ឬអំពីវិធីសាស្រ្ត Bayesian ដែលអាចសម្របបាន។
ប្រសិនបើអ្នកចូលចិត្តអត្ថបទនោះ ខ្ញុំនឹងព្យាយាមបង្កើតផ្នែកទីពីរជាមួយនឹងជម្រើសនៃឧទាហរណ៍អំពីរបៀបដោះស្រាយបញ្ហា ImageRecognition ដែលមានស្រាប់ត្រូវបានដោះស្រាយ។

ជា​ចុងក្រោយ

តើត្រូវអានអ្វី?
1) ពេលមួយខ្ញុំពិតជាចូលចិត្តសៀវភៅ "ដំណើរការរូបភាពឌីជីថល" របស់ B. Yana ដែលសរសេរយ៉ាងសាមញ្ញ និងច្បាស់លាស់ ប៉ុន្តែក្នុងពេលតែមួយ គណិតវិទ្យាស្ទើរតែទាំងអស់ត្រូវបានផ្តល់ឱ្យ។ ល្អសម្រាប់ការស្គាល់វិធីសាស្រ្តដែលមានស្រាប់។
2) បុរាណនៃប្រភេទគឺ R Gonzalez, R. Woods "ដំណើរការរូបភាពឌីជីថល" ។ សម្រាប់ហេតុផលខ្លះ វាពិបាកសម្រាប់ខ្ញុំជាងលើកទីមួយទៅទៀត។ គណិតវិទ្យាតិច ប៉ុន្តែវិធីសាស្រ្ត និងរូបភាពច្រើន។
3) "ដំណើរការរូបភាព និងការវិភាគក្នុងបញ្ហាចក្ខុវិស័យម៉ាស៊ីន" - សរសេរនៅលើមូលដ្ឋាននៃវគ្គសិក្សាដែលបង្រៀននៅនាយកដ្ឋានមួយនៃ PhysTech ។ វិធីសាស្រ្តជាច្រើន និងការពិពណ៌នាលម្អិតរបស់ពួកគេ។ ប៉ុន្តែតាមគំនិតរបស់ខ្ញុំ សៀវភៅនេះមានគុណវិបត្តិធំៗពីរ៖ សៀវភៅផ្តោតខ្លាំងលើកញ្ចប់កម្មវិធីដែលភ្ជាប់មកជាមួយវា ជាញឹកញាប់ផងដែរ ការពិពណ៌នាអំពីវិធីសាស្រ្តសាមញ្ញប្រែទៅជាព្រៃគណិតវិទ្យា ដែលវាពិបាកក្នុងការបង្កើត។ ដ្យាក្រាមរចនាសម្ព័ន្ធនៃវិធីសាស្រ្ត។ ប៉ុន្តែអ្នកនិពន្ធបានបង្កើតគេហទំព័រដ៏ងាយស្រួលមួយដែលមាតិកាស្ទើរតែទាំងអស់ត្រូវបានបង្ហាញ - wiki.technicalvision.ru បន្ថែមស្លាក