पैटर्न मान्यता के नवीनतम विचार। सरल मामला, एक आयामी अलगाव

सामान्य तौर पर, पैटर्न मान्यता के तीन तरीकों को प्रतिष्ठित किया जा सकता है: गणना विधि। इस मामले में, डेटाबेस के साथ तुलना की जाती है, जहां प्रत्येक प्रकार की वस्तु के लिए प्रदर्शन के सभी संभावित संशोधन प्रस्तुत किए जाते हैं। उदाहरण के लिए, ऑप्टिकल छवि पहचान के लिए, आप विभिन्न कोणों, तराजू, विस्थापन, विकृति आदि पर किसी वस्तु के प्रकार की गणना करने की विधि को लागू कर सकते हैं। अक्षरों के लिए, आपको फ़ॉन्ट, फ़ॉन्ट गुणों आदि पर पुनरावृति करने की आवश्यकता है। ध्वनि छवि पहचान का मामला, क्रमशः, कुछ प्रसिद्ध पैटर्न के साथ तुलना (उदाहरण के लिए, कई लोगों द्वारा बोला गया शब्द)।

दूसरा दृष्टिकोण छवि की विशेषताओं का गहन विश्लेषण है। ऑप्टिकल पहचान के मामले में, यह विभिन्न ज्यामितीय विशेषताओं का निर्धारण हो सकता है। इस मामले में ध्वनि का नमूना आवृत्ति, आयाम विश्लेषण आदि के अधीन है।

अगली विधि कृत्रिम तंत्रिका नेटवर्क (एएनएन) का उपयोग है। इस पद्धति के लिए या तो प्रशिक्षण के दौरान मान्यता कार्य के बड़ी संख्या में उदाहरणों की आवश्यकता होती है, या एक विशेष तंत्रिका नेटवर्क संरचना जो इस कार्य की बारीकियों को ध्यान में रखती है। हालांकि, यह उच्च दक्षता और उत्पादकता द्वारा प्रतिष्ठित है।

4. पैटर्न मान्यता का इतिहास

आइए हम पैटर्न मान्यता की गणितीय औपचारिकता पर संक्षेप में विचार करें। पैटर्न मान्यता में एक वस्तु का वर्णन बुनियादी विशेषताओं (सुविधाओं, गुणों) के एक सेट द्वारा किया जाता है। मुख्य विशेषताएं एक अलग प्रकृति की हो सकती हैं: उन्हें वास्तविक लाइन प्रकार के एक क्रमबद्ध सेट से, या एक असतत सेट से लिया जा सकता है (हालांकि, एक संरचना के साथ भी संपन्न किया जा सकता है)। वस्तु की यह समझ पैटर्न मान्यता के व्यावहारिक अनुप्रयोगों की आवश्यकता और किसी वस्तु की मानवीय धारणा के तंत्र की हमारी समझ के अनुरूप है। वास्तव में, हम मानते हैं कि जब किसी व्यक्ति द्वारा किसी वस्तु का अवलोकन (मापा) जाता है, तो उसके बारे में जानकारी मस्तिष्क तक सीमित संख्या में सेंसर (विश्लेषण किए गए चैनल) के माध्यम से आती है, और प्रत्येक सेंसर वस्तु की संबंधित विशेषता से जुड़ा हो सकता है। वस्तु के हमारे माप के अनुरूप सुविधाओं के अलावा, एक चयनित विशेषता, या सुविधाओं का एक समूह भी है, जिसे हम वर्गीकरण सुविधाओं को कहते हैं, और किसी दिए गए वेक्टर एक्स के लिए उनके मूल्यों का पता लगाना एक ऐसा कार्य है जो प्राकृतिक है और कृत्रिम पहचान प्रणाली प्रदर्शन करते हैं।

यह स्पष्ट है कि इन विशेषताओं के मूल्यों को स्थापित करने के लिए, यह जानकारी होना आवश्यक है कि ज्ञात विशेषताएँ वर्गीकरण वाले से कैसे संबंधित हैं। इस संबंध के बारे में जानकारी उदाहरणों के रूप में दी गई है, अर्थात्, वर्गीकरण सुविधाओं के ज्ञात मूल्यों के साथ वस्तुओं के विवरण का एक सेट। और इस मिसाल की जानकारी के अनुसार, एक निर्णय नियम का निर्माण करना आवश्यक है जो वस्तु के मनमाने विवरण को उसके वर्गीकरण सुविधाओं के मूल्य के रूप में निर्धारित करेगा।

पैटर्न मान्यता की समस्या की यह समझ पिछली शताब्दी के 50 के दशक से विज्ञान में स्थापित की गई है। और फिर यह देखा गया कि ऐसा उत्पादन बिल्कुल भी नया नहीं है। सांख्यिकीय डेटा विश्लेषण के अच्छी तरह से सिद्ध तरीके, जो कई व्यावहारिक कार्यों के लिए सक्रिय रूप से उपयोग किए गए थे, जैसे कि, उदाहरण के लिए, तकनीकी निदान, इस तरह के एक सूत्रीकरण के साथ सामना किया गया था और पहले से मौजूद था। इसलिए, पैटर्न मान्यता के पहले चरण सांख्यिकीय दृष्टिकोण के संकेत के तहत पारित हुए, जिसने मुख्य समस्या को निर्धारित किया।

सांख्यिकीय दृष्टिकोण इस विचार पर आधारित है कि वस्तुओं का प्रारंभिक स्थान एक संभाव्य स्थान है, और वस्तुओं की विशेषताएं (विशेषताएं) उस पर दिए गए यादृच्छिक चर हैं। तब डेटा वैज्ञानिक का कार्य सुविधाओं के वितरण के बारे में एक सांख्यिकीय परिकल्पना को सामने रखना था, या कुछ विचारों से, बाकी पर सुविधाओं को वर्गीकृत करने की निर्भरता के बारे में था। सांख्यिकीय परिकल्पना, एक नियम के रूप में, विशेषता वितरण कार्यों का एक पैरामीट्रिक रूप से निर्दिष्ट सेट था। एक विशिष्ट और शास्त्रीय सांख्यिकीय परिकल्पना इस वितरण की सामान्यता की परिकल्पना है (सांख्यिकी में ऐसी परिकल्पनाओं की कई किस्में हैं)। परिकल्पना तैयार करने के बाद, इस परिकल्पना का परीक्षण मिसाल के आंकड़ों पर करना बाकी था। इस जांच में वितरण के शुरू में दिए गए सेट (वितरण परिकल्पना पैरामीटर) से कुछ वितरण को चुनना और इस पसंद की विश्वसनीयता (विश्वास अंतराल) का आकलन करना शामिल था। वास्तव में, यह वितरण कार्य समस्या का उत्तर था, केवल वस्तु को विशिष्ट रूप से नहीं, बल्कि वर्गों से संबंधित होने की कुछ संभावनाओं के साथ वर्गीकृत किया गया था। सांख्यिकीविदों ने इस तरह के तरीकों के लिए एक स्पर्शोन्मुख औचित्य भी विकसित किया है। इस तरह के औचित्य निम्नलिखित योजना के अनुसार किए गए थे: वितरण की पसंद (विश्वास अंतराल) का एक निश्चित गुणवत्ता कार्यात्मक स्थापित किया गया था और यह दिखाया गया था कि उदाहरणों की संख्या में वृद्धि के साथ, 1 की संभावना के साथ हमारी पसंद सही हो गई। इस कार्यात्मक की भावना (आत्मविश्वास अंतराल 0 की ओर झुकाव)। आगे देखते हुए, हम कह सकते हैं कि मान्यता समस्या का सांख्यिकीय दृष्टिकोण न केवल विकसित एल्गोरिदम (जिसमें क्लस्टर और विभेदक विश्लेषण, गैर-पैरामीट्रिक प्रतिगमन, आदि के तरीके शामिल हैं) के संदर्भ में बहुत उपयोगी निकला, बल्कि बाद में वापनिक का नेतृत्व भी किया। मान्यता का एक गहरा सांख्यिकीय सिद्धांत बनाने के लिए।

फिर भी, इस तथ्य के पक्ष में एक मजबूत तर्क है कि पैटर्न मान्यता की समस्याएं आंकड़ों तक सीमित नहीं हैं। ऐसी कोई भी समस्या, सिद्धांत रूप में, सांख्यिकीय दृष्टिकोण से विचार की जा सकती है, और इसके समाधान के परिणामों की सांख्यिकीय रूप से व्याख्या की जा सकती है। ऐसा करने के लिए, केवल यह मान लेना आवश्यक है कि समस्या की वस्तुओं का स्थान संभाव्य है। लेकिन यंत्रवाद के दृष्टिकोण से, एक निश्चित मान्यता पद्धति की सांख्यिकीय व्याख्या की सफलता के लिए मानदंड केवल गणित की एक शाखा के रूप में सांख्यिकी की भाषा में इस पद्धति की पुष्टि का अस्तित्व हो सकता है। यहाँ औचित्य का अर्थ उस समस्या के लिए बुनियादी आवश्यकताओं का विकास है जो इस पद्धति को लागू करने में सफलता सुनिश्चित करती है। हालाँकि, फिलहाल, अधिकांश मान्यता विधियों के लिए, जिनमें वे शामिल हैं जो सीधे सांख्यिकीय दृष्टिकोण के ढांचे के भीतर उत्पन्न हुई हैं, ऐसे संतोषजनक औचित्य नहीं पाए गए हैं। इसके अलावा, इस समय सबसे अधिक उपयोग किए जाने वाले सांख्यिकीय एल्गोरिदम, जैसे फिशर के रैखिक विभेदक, पारजेन विंडो, ईएम एल्गोरिदम, निकटतम पड़ोसी, बेयसियन विश्वास नेटवर्क का उल्लेख नहीं करते हैं, एक दृढ़ता से स्पष्ट अनुमानी प्रकृति है और सांख्यिकीय लोगों से अलग व्याख्याएं हो सकती हैं। और अंत में, उपरोक्त सभी में, यह जोड़ा जाना चाहिए कि मान्यता विधियों के स्पर्शोन्मुख व्यवहार के अलावा, जो कि आंकड़ों का मुख्य मुद्दा है, मान्यता का अभ्यास उन तरीकों की कम्प्यूटेशनल और संरचनात्मक जटिलता पर सवाल उठाता है जो बहुत आगे जाते हैं अकेले संभाव्यता सिद्धांत की रूपरेखा।

कुल मिलाकर, सांख्यिकीविदों द्वारा पैटर्न मान्यता को आंकड़ों के एक खंड के रूप में मानने की आकांक्षाओं के विपरीत, मान्यता के अभ्यास और विचारधारा में पूरी तरह से अलग विचार दर्ज किए गए। उनमें से एक दृश्य पैटर्न मान्यता के क्षेत्र में अनुसंधान के कारण हुआ था और निम्नलिखित सादृश्य पर आधारित है।

जैसा कि पहले ही उल्लेख किया गया है, रोजमर्रा की जिंदगी में लोग विभिन्न स्थितियों, श्रवण और दृश्य छवियों को पहचानने की समस्याओं को लगातार (अक्सर अनजाने में) हल करते हैं। कंप्यूटर के लिए ऐसी क्षमता, भविष्य की बात है। इससे, पैटर्न मान्यता के कुछ अग्रदूतों ने निष्कर्ष निकाला कि कंप्यूटर पर इन समस्याओं का समाधान, सामान्य शब्दों में, मानव सोच की प्रक्रियाओं का अनुकरण करना चाहिए। इस तरफ से समस्या को हल करने का सबसे प्रसिद्ध प्रयास परसेप्ट्रोन पर एफ. रोसेनब्लैट का प्रसिद्ध अध्ययन था।

50 के दशक के मध्य तक, ऐसा लग रहा था कि न्यूरोफिज़ियोलॉजिस्ट ने मस्तिष्क के भौतिक सिद्धांतों को समझ लिया था (पुस्तक "द न्यू माइंड ऑफ़ द किंग" में, प्रसिद्ध ब्रिटिश सैद्धांतिक भौतिक विज्ञानी आर। पेनरोज़ दिलचस्प रूप से मस्तिष्क के तंत्रिका नेटवर्क मॉडल पर सवाल उठाते हैं, यह पुष्टि करते हैं इसके कामकाज में क्वांटम यांत्रिक प्रभावों की आवश्यक भूमिका; हालाँकि, इस मॉडल पर शुरू से ही सवाल उठाया गया था। इन खोजों के आधार पर, एफ। रोसेनब्लैट ने दृश्य पैटर्न को पहचानने के लिए सीखने के लिए एक मॉडल विकसित किया, जिसे उन्होंने परसेप्ट्रॉन कहा। रोसेनब्लैट का परसेप्ट्रॉन निम्नलिखित कार्य है (चित्र 1):

अंजीर 1. Perceptron की योजनाबद्ध

इनपुट पर, परसेप्ट्रॉन को एक ऑब्जेक्ट वेक्टर प्राप्त होता है, जो रोसेनब्लैट के कार्यों में एक बाइनरी वेक्टर था जो दिखाता है कि कौन सा स्क्रीन पिक्सल छवि द्वारा ब्लैक आउट किया गया है और कौन सा नहीं है। इसके अलावा, प्रत्येक संकेत न्यूरॉन के इनपुट को खिलाया जाता है, जिसकी क्रिया न्यूरॉन के एक निश्चित वजन से एक साधारण गुणा है। परिणाम अंतिम न्यूरॉन को खिलाया जाता है, जो उन्हें जोड़ता है और एक निश्चित सीमा के साथ कुल राशि की तुलना करता है। तुलना के परिणामों के आधार पर, इनपुट ऑब्जेक्ट X को आवश्यक माना जाता है या नहीं। तब पैटर्न पहचान सीखने का कार्य न्यूरॉन्स के वजन और थ्रेशोल्ड मान का चयन करना था ताकि परसेप्ट्रोन पूर्ववर्ती दृश्य छवियों पर सही उत्तर दे सके। रोसेनब्लैट का मानना था कि परिणामी फ़ंक्शन वांछित दृश्य छवि को पहचानने में अच्छा होगा, भले ही इनपुट ऑब्जेक्ट उदाहरणों में से न हो। बायोनिक विचारों से, वह वजन और एक सीमा चुनने की एक विधि के साथ भी आए, जिस पर हम ध्यान नहीं देंगे। मान लीजिए कि उनका दृष्टिकोण कई मान्यता समस्याओं में सफल रहा और तंत्रिका नेटवर्क पर आधारित सीखने के एल्गोरिदम पर अनुसंधान के एक पूरे क्षेत्र को जन्म दिया, जिसमें से परसेप्ट्रॉन एक विशेष मामला है।

इसके अलावा, परसेप्ट्रोन के विभिन्न सामान्यीकरणों का आविष्कार किया गया था, न्यूरॉन्स का कार्य जटिल था: अब न्यूरॉन्स न केवल इनपुट संख्याओं को गुणा कर सकते हैं या उन्हें जोड़ सकते हैं और थ्रेसहोल्ड के साथ परिणाम की तुलना कर सकते हैं, बल्कि उन पर अधिक जटिल कार्य लागू कर सकते हैं। चित्र 2 इन न्यूरॉन जटिलताओं में से एक को दर्शाता है:

चावल। 2 तंत्रिका नेटवर्क का आरेख।

इसके अलावा, तंत्रिका नेटवर्क की टोपोलॉजी रोसेनब्लैट द्वारा मानी जाने वाली तुलना में बहुत अधिक जटिल हो सकती है, उदाहरण के लिए, यह:

चावल। 3. रोसेनब्लैट के तंत्रिका नेटवर्क का आरेख।

जटिलताओं के कारण प्रशिक्षण के दौरान समायोज्य मापदंडों की संख्या में वृद्धि हुई, लेकिन साथ ही साथ बहुत जटिल पैटर्न में ट्यून करने की क्षमता में वृद्धि हुई। इस क्षेत्र में अनुसंधान अब दो निकट से संबंधित क्षेत्रों में चल रहा है - विभिन्न नेटवर्क टोपोलॉजी और विभिन्न ट्यूनिंग विधियों दोनों का अध्ययन किया जा रहा है।

तंत्रिका नेटवर्क वर्तमान में न केवल पैटर्न पहचान समस्याओं को हल करने के लिए एक उपकरण है, बल्कि सहयोगी स्मृति और छवि संपीड़न पर शोध में उपयोग किया गया है। यद्यपि अनुसंधान की यह पंक्ति पैटर्न मान्यता की समस्याओं के साथ दृढ़ता से ओवरलैप करती है, यह साइबरनेटिक्स का एक अलग खंड है। इस समय पहचानकर्ता के लिए, तंत्रिका नेटवर्क मैपिंग के एक बहुत ही विशिष्ट, पैरामीट्रिक रूप से परिभाषित सेट से ज्यादा कुछ नहीं हैं, जो इस अर्थ में कई अन्य समान शिक्षण मॉडल पर कोई महत्वपूर्ण लाभ नहीं है जिन्हें संक्षेप में नीचे सूचीबद्ध किया जाएगा।

उचित मान्यता के लिए तंत्रिका नेटवर्क की भूमिका के इस आकलन के संबंध में (अर्थात, बायोनिक्स के लिए नहीं, जिसके लिए वे अब सर्वोपरि हैं), मैं निम्नलिखित पर ध्यान देना चाहूंगा: तंत्रिका नेटवर्क, गणितीय के लिए एक अत्यंत जटिल वस्तु होने के नाते विश्लेषण, उनके उचित उपयोग के साथ, हमें डेटा में बहुत ही गैर-तुच्छ कानूनों को खोजने की अनुमति देता है। विश्लेषण के लिए उनकी कठिनाई, सामान्य मामले में, उनकी जटिल संरचना द्वारा समझाया गया है और परिणामस्वरूप, विभिन्न प्रकार की नियमितताओं को सामान्य बनाने के लिए व्यावहारिक रूप से अटूट संभावनाएं हैं। लेकिन ये फायदे, जैसा कि अक्सर होता है, संभावित त्रुटियों का एक स्रोत है, फिर से प्रशिक्षण की संभावना। जैसा कि बाद में चर्चा की जाएगी, किसी भी लर्निंग मॉडल की संभावनाओं के बारे में ऐसा दोहरा दृष्टिकोण मशीन लर्निंग के सिद्धांतों में से एक है।

मान्यता में एक और लोकप्रिय दिशा तार्किक नियम और निर्णय वृक्ष हैं। उपर्युक्त मान्यता विधियों की तुलना में, ये विधियां संभवतः सबसे प्राकृतिक (सचेत स्तर पर) संरचनाओं - तार्किक नियमों के रूप में विषय क्षेत्र के बारे में हमारे ज्ञान को व्यक्त करने के विचार का सबसे अधिक सक्रिय रूप से उपयोग करती हैं। एक प्राथमिक तार्किक नियम का अर्थ है "यदि अवर्गीकृत विशेषताएँ अनुपात X में हैं, तो वर्गीकृत विशेषताएँ Y के अनुपात में हैं" जैसे कथन का अर्थ है। चिकित्सा निदान में इस तरह के नियम का एक उदाहरण निम्नलिखित है: यदि रोगी की आयु 60 वर्ष से अधिक है और उसे पहले दिल का दौरा पड़ा है, तो ऑपरेशन न करें - नकारात्मक परिणाम का जोखिम अधिक है।

डेटा में तार्किक नियमों की खोज करने के लिए, 2 चीजों की आवश्यकता होती है: नियम की "सूचनात्मकता" और नियमों के स्थान का माप निर्धारित करने के लिए। और उसके बाद नियमों को खोजने का कार्य उनमें से सबसे अधिक जानकारीपूर्ण खोजने के लिए नियमों के स्थान में पूर्ण या आंशिक गणना के कार्य में बदल जाता है। सूचना सामग्री की परिभाषा को विभिन्न तरीकों से पेश किया जा सकता है, और हम इस पर ध्यान नहीं देंगे, यह देखते हुए कि यह मॉडल का कुछ पैरामीटर भी है। खोज स्थान को मानक तरीके से परिभाषित किया गया है।

पर्याप्त जानकारीपूर्ण नियमों को खोजने के बाद, अंतिम क्लासिफायर में नियमों को "संयोजन" करने का चरण शुरू होता है। यहां उत्पन्न होने वाली समस्याओं पर गहराई से चर्चा किए बिना (और उनमें से काफी संख्या में हैं), हम "विधानसभा" के 2 मुख्य तरीकों को सूचीबद्ध करते हैं। पहला प्रकार एक रैखिक सूची है। दूसरा प्रकार भारित मतदान है, जब प्रत्येक नियम को एक निश्चित भार सौंपा जाता है, और क्लासिफायर उस वस्तु को संदर्भित करता है जिसके लिए सबसे बड़ी संख्या में नियमों ने मतदान किया।

वास्तव में, नियम निर्माण चरण और "विधानसभा" चरण एक साथ किए जाते हैं और, एक भारित वोट या सूची बनाते समय, डेटा के बीच बेहतर फिट सुनिश्चित करने के लिए केस डेटा के कुछ हिस्सों पर नियमों की खोज बार-बार की जाती है और आदर्श।

पुनरावृत्ति विधि।इस पद्धति में, एक निश्चित डेटाबेस के साथ तुलना की जाती है, जहां प्रत्येक ऑब्जेक्ट के लिए डिस्प्ले को संशोधित करने के लिए अलग-अलग विकल्प होते हैं। उदाहरण के लिए, ऑप्टिकल इमेज रिकग्निशन के लिए, आप विभिन्न कोणों या पैमानों, ऑफ़सेट, विकृति आदि पर पुनरावृत्ति विधि लागू कर सकते हैं। अक्षरों के लिए, आप फ़ॉन्ट या उसके गुणों पर पुनरावृति कर सकते हैं। ध्वनि पैटर्न पहचान के मामले में, कुछ ज्ञात पैटर्न (कई लोगों द्वारा बोला गया शब्द) के साथ तुलना की जाती है। इसके अलावा, छवि की विशेषताओं का गहन विश्लेषण किया जाता है। ऑप्टिकल पहचान के मामले में, यह ज्यामितीय विशेषताओं की परिभाषा हो सकती है। इस मामले में ध्वनि का नमूना आवृत्ति और आयाम विश्लेषण के अधीन है।

अगली विधि है कृत्रिम तंत्रिका नेटवर्क का उपयोग(आईएनएस)। इसके लिए या तो मान्यता कार्य के उदाहरणों की एक बड़ी संख्या की आवश्यकता होती है, या एक विशेष तंत्रिका नेटवर्क संरचना जो इस कार्य की बारीकियों को ध्यान में रखती है। लेकिन, फिर भी, इस पद्धति को उच्च दक्षता और उत्पादकता की विशेषता है।

फ़ीचर मानों के वितरण घनत्व के अनुमानों के आधार पर तरीके. सांख्यिकीय निर्णयों के शास्त्रीय सिद्धांत से उधार लिया गया, जिसमें अध्ययन की वस्तुओं को कुछ कानून के अनुसार फीचर स्पेस में वितरित एक बहुआयामी यादृच्छिक चर की प्राप्ति के रूप में माना जाता है। वे बायेसियन निर्णय लेने की योजना पर आधारित हैं, जो एक विशेष वर्ग और सशर्त सुविधा वितरण घनत्व से संबंधित वस्तुओं की प्रारंभिक संभावनाओं की अपील करता है।

सुविधा मूल्यों के वितरण घनत्व के आकलन के आधार पर विधियों का समूह सीधे भेदभावपूर्ण विश्लेषण के तरीकों से संबंधित है। निर्णय लेने के लिए बायेसियन दृष्टिकोण आधुनिक आँकड़ों में सबसे विकसित पैरामीट्रिक विधियों में से एक है, जिसके लिए वितरण कानून (सामान्य कानून) की विश्लेषणात्मक अभिव्यक्ति को ज्ञात माना जाता है और केवल कुछ ही पैरामीटर (मतलब वैक्टर और कॉन्वर्सिस मैट्रिसेस) ) का अनुमान लगाया जाना चाहिए। इस पद्धति को लागू करने में मुख्य कठिनाइयों को घनत्व अनुमानों और प्रशिक्षण नमूने के प्रति उच्च संवेदनशीलता की गणना करने के लिए संपूर्ण प्रशिक्षण नमूने को याद रखने की आवश्यकता माना जाता है।

निर्णय कार्यों के वर्ग के बारे में मान्यताओं पर आधारित तरीके।इस समूह में निर्णय फलन के प्रकार को ज्ञात माना जाता है और उसकी गुणवत्ता क्रियात्मकता दी जाती है। इस कार्यात्मक के आधार पर, प्रशिक्षण अनुक्रम से निर्णय समारोह के लिए इष्टतम सन्निकटन पाया जाता है। निर्णय नियम गुणवत्ता कार्यात्मक आमतौर पर एक त्रुटि से जुड़ा होता है। विधि का मुख्य लाभ मान्यता समस्या के गणितीय सूत्रीकरण की स्पष्टता है। किसी वस्तु की प्रकृति के बारे में नया ज्ञान निकालने की संभावना, विशेष रूप से, विशेषताओं की बातचीत के तंत्र के बारे में ज्ञान, निर्णय कार्यों के चुने हुए रूप में तय की गई बातचीत की संरचना द्वारा यहां मौलिक रूप से सीमित है।

प्रोटोटाइप तुलना विधि।व्यवहार में यह सबसे आसान विस्तारणीय मान्यता पद्धति है। यह तब लागू होता है जब पहचानने योग्य वर्गों को कॉम्पैक्ट ज्यामितीय वर्गों के रूप में दिखाया जाता है। फिर ज्यामितीय समूहन के केंद्र (या केंद्र के निकटतम वस्तु) को प्रोटोटाइप बिंदु के रूप में चुना जाता है।

एक अनिश्चित वस्तु को वर्गीकृत करने के लिए, उसके निकटतम प्रोटोटाइप पाया जाता है, और वस्तु उसी वर्ग से संबंधित होती है। जाहिर है, इस पद्धति में कोई सामान्यीकृत छवि नहीं बनती है। माप के रूप में विभिन्न प्रकार की दूरियों का उपयोग किया जा सकता है।

k निकटतम पड़ोसियों की विधि।विधि इस तथ्य में निहित है कि किसी अज्ञात वस्तु को वर्गीकृत करते समय, एक वर्ग से संबंधित पहले से ज्ञात अन्य निकटतम पड़ोसियों की ज्यामितीय रूप से निकटतम सुविधा स्थान की एक दी गई संख्या (के) पाई जाती है। किसी अज्ञात वस्तु को आवंटित करने का निर्णय उसके निकटतम पड़ोसियों के बारे में जानकारी का विश्लेषण करके किया जाता है। प्रशिक्षण नमूने (नैदानिक मिसाल) में वस्तुओं की संख्या को कम करने की आवश्यकता इस पद्धति का नुकसान है, क्योंकि इससे प्रशिक्षण नमूने की प्रतिनिधित्व क्षमता कम हो जाती है।

इस तथ्य के आधार पर कि अलग-अलग मान्यता एल्गोरिदम एक ही नमूने पर अलग-अलग व्यवहार करते हैं, सवाल एक सिंथेटिक निर्णय नियम का उठता है जो सभी एल्गोरिदम की ताकत का उपयोग करेगा। इसके लिए, एक सिंथेटिक विधि या निर्णय नियमों के सेट हैं जो प्रत्येक विधि के सबसे सकारात्मक पहलुओं को जोड़ते हैं।

मान्यता विधियों की समीक्षा के निष्कर्ष में, हम उपरोक्त के सार को एक सारांश तालिका में प्रस्तुत करते हैं, व्यवहार में उपयोग की जाने वाली कुछ अन्य विधियों को जोड़ते हैं।

तालिका 1. मान्यता विधियों की वर्गीकरण तालिका, उनके आवेदन के क्षेत्रों और सीमाओं की तुलना

मान्यता विधियों का वर्गीकरण	आवेदन क्षेत्र	सीमाएं (नुकसान)
गहन पहचान के तरीके	घनत्व अनुमानों के आधार पर तरीके	ज्ञात वितरण (सामान्य) के साथ समस्याएं, बड़े आंकड़े एकत्र करने की आवश्यकता	मान्यता के दौरान पूरे प्रशिक्षण सेट की गणना करने की आवश्यकता, प्रशिक्षण सेट और कलाकृतियों की गैर-प्रतिनिधित्व के प्रति उच्च संवेदनशीलता
धारणा आधारित तरीके	कक्षाएं अच्छी तरह से वियोज्य होनी चाहिए	निर्णय समारोह के रूप को पहले से जाना जाना चाहिए। सुविधाओं के बीच संबंधों के बारे में नए ज्ञान को ध्यान में रखना असंभव है
बूलियन तरीके	छोटे आयाम की समस्या	तार्किक निर्णय नियमों का चयन करते समय, एक पूर्ण गणना आवश्यक है। उच्च श्रम तीव्रता
भाषाई तरीके		बयानों के एक निश्चित सेट (वस्तुओं का विवरण) के लिए व्याकरण का निर्धारण करने का कार्य औपचारिक रूप देना मुश्किल है। अनसुलझे सैद्धांतिक समस्याएं
मान्यता के विस्तार के तरीके	प्रोटोटाइप तुलना विधि	फीचर स्पेस के छोटे आयाम की समस्याएं	मीट्रिक पर वर्गीकरण परिणामों की उच्च निर्भरता। अज्ञात इष्टतम मीट्रिक
k निकटतम पड़ोसी विधि		मीट्रिक पर वर्गीकरण परिणामों की उच्च निर्भरता। मान्यता के दौरान प्रशिक्षण नमूने की पूरी गणना की आवश्यकता। अभिकलनात्मक जटिलता
ग्रेड गणना एल्गोरिदम (एबीओ)	वर्गों और विशेषताओं की संख्या के संदर्भ में छोटे आयाम की समस्याएं	मीट्रिक पर वर्गीकरण परिणामों की निर्भरता। मान्यता के दौरान प्रशिक्षण नमूने की पूरी गणना की आवश्यकता। विधि की उच्च तकनीकी जटिलता
सामूहिक निर्णय नियम (सीआरसी) एक सिंथेटिक विधि है।	वर्गों और विशेषताओं की संख्या के संदर्भ में छोटे आयाम की समस्याएं	विधि की बहुत उच्च तकनीकी जटिलता, सैद्धांतिक समस्याओं की अनसुलझी संख्या, दोनों विशेष तरीकों की क्षमता के क्षेत्रों को निर्धारित करने में, और विशेष तरीकों में स्वयं

सूर्य, 29 मार्च 2015

वर्तमान में, ऐसे कई कार्य हैं जिनमें छवि में किसी वस्तु की उपस्थिति के आधार पर या इसे वर्गीकृत करने के लिए कुछ निर्णय लेने की आवश्यकता होती है। "पहचानने" की क्षमता को जैविक प्राणियों की मुख्य संपत्ति माना जाता है, जबकि कंप्यूटर सिस्टम में यह संपत्ति पूरी तरह से नहीं होती है।

वर्गीकरण मॉडल के सामान्य तत्वों पर विचार करें।

कक्षा- वस्तुओं का एक समूह जिसमें सामान्य गुण होते हैं। एक ही वर्ग की वस्तुओं के लिए, "समानता" की उपस्थिति मान ली जाती है। मान्यता कार्य के लिए कक्षाओं की एक मनमानी संख्या को परिभाषित किया जा सकता है, 1 से अधिक। कक्षाओं की संख्या संख्या एस द्वारा दर्शायी जाती है। प्रत्येक वर्ग का अपना स्वयं का पहचान वर्ग लेबल होता है।

वर्गीकरण- इन वस्तुओं के गुणों के कुछ विवरण के अनुसार वस्तुओं को वर्ग लेबल निर्दिष्ट करने की प्रक्रिया। क्लासिफायरियर एक ऐसा उपकरण है जो इनपुट के रूप में किसी वस्तु की विशेषताओं का एक सेट प्राप्त करता है और परिणामस्वरूप एक क्लास लेबल तैयार करता है।

सत्यापन- किसी ऑब्जेक्ट इंस्टेंस को एकल ऑब्जेक्ट मॉडल या क्लास विवरण के साथ मिलान करने की प्रक्रिया।

नीचे मार्गहम गुणों के स्थान में उस क्षेत्र के नाम को समझेंगे, जिसमें भौतिक संसार की कई वस्तुएं या घटनाएं प्रदर्शित होती हैं। संकेत- अध्ययन के तहत वस्तु या घटना की किसी विशेष संपत्ति का मात्रात्मक विवरण।

सुविधा स्थानयह किसी दिए गए मान्यता कार्य के लिए परिभाषित एक एन-आयामी स्थान है, जहां एन किसी भी ऑब्जेक्ट के लिए मापी गई विशेषताओं की एक निश्चित संख्या है। फीचर स्पेस x से वेक्टर मान्यता समस्या की वस्तु के अनुरूप एक एन-आयामी वेक्टर है जिसमें घटक (x_1,x_2,…,x_N) हैं, जो दिए गए ऑब्जेक्ट के लिए फीचर मान हैं।

दूसरे शब्दों में, पैटर्न मान्यता को एक निश्चित वर्ग के लिए प्रारंभिक डेटा के असाइनमेंट के रूप में परिभाषित किया जा सकता है, जो आवश्यक विशेषताओं या गुणों को निकालकर इस डेटा को अप्रासंगिक विवरणों के सामान्य द्रव्यमान से चिह्नित करता है।

वर्गीकरण समस्याओं के उदाहरण हैं:

चरित्र पहचान;
वाक् पहचान;
एक चिकित्सा निदान की स्थापना;
मौसम पूर्वानुमान;
चेहरा पहचान
दस्तावेजों का वर्गीकरण, आदि।

अक्सर, स्रोत सामग्री कैमरे से प्राप्त छवि होती है। माना छवि में प्रत्येक वर्ग के लिए फीचर वैक्टर प्राप्त करने के रूप में कार्य तैयार किया जा सकता है। प्रक्रिया को एक कोडिंग प्रक्रिया के रूप में देखा जा सकता है, जिसमें प्रत्येक वर्ग के लिए फीचर स्पेस से प्रत्येक फीचर को एक मान निर्दिष्ट करना शामिल है।

यदि हम वस्तुओं के 2 वर्गों पर विचार करते हैं: वयस्क और बच्चे। सुविधाओं के रूप में, आप ऊंचाई और वजन चुन सकते हैं। जैसा कि चित्र में दिखाया गया है, ये दो वर्ग दो गैर-अंतर्विभाजक सेट बनाते हैं, जिन्हें चुनी गई विशेषताओं द्वारा समझाया जा सकता है। हालांकि, कक्षाओं की विशेषताओं के रूप में सही मापा पैरामीटर चुनना हमेशा संभव नहीं होता है। उदाहरण के लिए, चयनित पैरामीटर फ़ुटबॉल खिलाड़ियों और बास्केटबॉल खिलाड़ियों के गैर-अतिव्यापी वर्ग बनाने के लिए उपयुक्त नहीं हैं।

पहचान का दूसरा कार्य मूल छवियों से विशिष्ट विशेषताओं या गुणों का चयन है। इस कार्य को प्रीप्रोसेसिंग के लिए जिम्मेदार ठहराया जा सकता है। यदि हम वाक् पहचान के कार्य पर विचार करें, तो हम स्वर और व्यंजन जैसी विशेषताओं को अलग कर सकते हैं। विशेषता इस वर्ग के लिए सामान्य होने के साथ-साथ किसी विशेष वर्ग की एक विशिष्ट संपत्ति होनी चाहिए। संकेत जो अंतर के बीच अंतर को दर्शाते हैं - इंटरक्लास संकेत। सभी वर्गों के लिए सामान्य सुविधाओं में उपयोगी जानकारी नहीं होती है और उन्हें पहचान समस्या में सुविधाओं के रूप में नहीं माना जाता है। सुविधाओं का चुनाव एक मान्यता प्रणाली के निर्माण से जुड़े महत्वपूर्ण कार्यों में से एक है।

सुविधाओं को निर्धारित करने के बाद, वर्गीकरण के लिए इष्टतम निर्णय प्रक्रिया निर्धारित करना आवश्यक है। विभिन्न एम वर्गों को पहचानने के लिए डिज़ाइन की गई एक पैटर्न पहचान प्रणाली पर विचार करें, जिसे m_1,m_2,…,m . के रूप में दर्शाया गया है 3. तब हम मान सकते हैं कि छवि स्थान में एम क्षेत्र होते हैं, प्रत्येक में एक वर्ग की छवि के अनुरूप बिंदु होते हैं। तब मान्यता समस्या को स्वीकृत माप वैक्टर के आधार पर एम वर्गों को अलग करने वाली सीमाओं के निर्माण के रूप में माना जा सकता है।

छवि प्रीप्रोसेसिंग, फीचर निष्कर्षण और इष्टतम समाधान और वर्गीकरण प्राप्त करने की समस्या का समाधान आमतौर पर कई मापदंडों के मूल्यांकन की आवश्यकता से जुड़ा होता है। यह पैरामीटर अनुमान की समस्या की ओर जाता है। इसके अलावा, यह स्पष्ट है कि सुविधा निष्कर्षण कक्षाओं की प्रकृति के आधार पर अतिरिक्त जानकारी का उपयोग कर सकता है।

वस्तुओं की तुलना मापन सदिशों के रूप में उनके निरूपण के आधार पर की जा सकती है। माप डेटा को वास्तविक संख्याओं के रूप में प्रस्तुत करना सुविधाजनक है। फिर यूक्लिडियन दूरी का उपयोग करके दो वस्तुओं के फीचर वैक्टर की समानता का वर्णन किया जा सकता है।

जहां d फीचर वेक्टर का आयाम है।

पैटर्न पहचान विधियों के 3 समूह हैं:

नमूना तुलना. इस समूह में निकटतम माध्य से वर्गीकरण, निकटतम पड़ोसी से दूरी के आधार पर वर्गीकरण शामिल है। नमूना तुलना समूह में संरचनात्मक पहचान विधियों को भी शामिल किया जा सकता है।
सांख्यकी पद्धतियाँ. जैसा कि नाम से ही स्पष्ट है, सांख्यिकीय विधियाँ किसी मान्यता समस्या को हल करते समय कुछ सांख्यिकीय जानकारी का उपयोग करती हैं। यह विधि संभाव्यता के आधार पर किसी वस्तु के विशिष्ट वर्ग से संबंधित होने का निर्धारण करती है। कुछ मामलों में, यह एक निश्चित वर्ग से संबंधित वस्तु की पश्चगामी संभावना को निर्धारित करने के लिए नीचे आता है, बशर्ते कि इस वस्तु की विशेषताओं ने उपयुक्त लिया हो मूल्य। एक उदाहरण बायेसियन निर्णय नियम विधि है।
तंत्रिका जाल. मान्यता विधियों का एक अलग वर्ग। दूसरों से एक विशिष्ट विशेषता सीखने की क्षमता है।

निकटतम माध्य से वर्गीकरण

पैटर्न मान्यता के शास्त्रीय दृष्टिकोण में, जिसमें वर्गीकरण के लिए एक अज्ञात वस्तु को प्राथमिक विशेषताओं के वेक्टर के रूप में दर्शाया जाता है। एक फीचर-आधारित पहचान प्रणाली को विभिन्न तरीकों से विकसित किया जा सकता है। प्रशिक्षण के परिणामस्वरूप इन वैक्टरों को सिस्टम के लिए पहले से जाना जा सकता है या कुछ मॉडलों के आधार पर वास्तविक समय में भविष्यवाणी की जा सकती है।

एक साधारण वर्गीकरण एल्गोरिथ्म में वर्ग अपेक्षा वेक्टर (माध्य) का उपयोग करके वर्ग संदर्भ डेटा को समूहीकृत करना शामिल है।

जहाँ x(i,j) कक्षा I की j-वें संदर्भ विशेषता है, n_j कक्षा i के संदर्भ वैक्टर की संख्या है।

तब अज्ञात वस्तु कक्षा I से संबंधित होगी यदि यह अन्य वर्गों के अपेक्षा वैक्टर की तुलना में कक्षा I के अपेक्षा वेक्टर के बहुत करीब है। यह विधि उन समस्याओं के लिए उपयुक्त है जिनमें प्रत्येक वर्ग के बिंदु सघन रूप से और अन्य वर्गों के बिंदुओं से दूर स्थित होते हैं।

यदि कक्षाओं में थोड़ी अधिक जटिल संरचना होती है, उदाहरण के लिए, जैसा कि चित्र में दिखाया गया है, तो कठिनाइयाँ उत्पन्न होंगी। इस मामले में, वर्ग 2 को दो गैर-अतिव्यापी वर्गों में विभाजित किया गया है, जिन्हें एक औसत मूल्य द्वारा खराब तरीके से वर्णित किया गया है। साथ ही, कक्षा 3 बहुत लंबी है, x_2 निर्देशांक के बड़े मान वाले तृतीय श्रेणी के नमूने तृतीय श्रेणी की तुलना में प्रथम श्रेणी के औसत मान के करीब हैं।

कुछ मामलों में वर्णित समस्या को दूरी की गणना को बदलकर हल किया जा सकता है।

हम वर्ग मूल्यों के "बिखरने" की विशेषता को ध्यान में रखेंगे - σ_i, प्रत्येक समन्वय दिशा के साथ i। मानक विचलन विचरण के वर्गमूल के बराबर होता है। वेक्टर x और अपेक्षा वेक्टर x_c के बीच स्केल की गई यूक्लिडियन दूरी है

यह दूरी सूत्र वर्गीकरण त्रुटियों की संख्या को कम करेगा, लेकिन वास्तव में, अधिकांश समस्याओं को इतने सरल वर्ग द्वारा नहीं दर्शाया जा सकता है।

निकटतम पड़ोसी से दूरी के आधार पर वर्गीकरण

वर्गीकरण के लिए एक अन्य दृष्टिकोण एक अज्ञात फीचर वेक्टर x को उस वर्ग को निर्दिष्ट करना है जिसमें यह वेक्टर एक अलग नमूने के सबसे करीब है। इस नियम को निकटतम पड़ोसी नियम कहा जाता है। निकटतम पड़ोसी वर्गीकरण तब भी अधिक कुशल हो सकता है जब कक्षाएं जटिल हों या जब कक्षाएं ओवरलैप हों।

इस दृष्टिकोण को अंतरिक्ष में फीचर वैक्टर के वितरण मॉडल के बारे में धारणाओं की आवश्यकता नहीं है। एल्गोरिथम केवल ज्ञात संदर्भ नमूनों के बारे में जानकारी का उपयोग करता है। समाधान विधि डेटाबेस में प्रत्येक नमूने के लिए x दूरी की गणना करने और न्यूनतम दूरी खोजने पर आधारित है। इस दृष्टिकोण के फायदे स्पष्ट हैं:

आप किसी भी समय डेटाबेस में नए नमूने जोड़ सकते हैं;
पेड़ और ग्रिड डेटा संरचनाएं गणना की गई दूरी की संख्या को कम करती हैं।

इसके अलावा, समाधान बेहतर होगा यदि आप डेटाबेस में एक निकटतम पड़ोसी के लिए नहीं, बल्कि k के लिए देखें। फिर, k > 1 के लिए, यह d-आयामी अंतरिक्ष में वैक्टर के वितरण का सबसे अच्छा नमूना प्रदान करता है। हालांकि, k मानों का कुशल उपयोग इस बात पर निर्भर करता है कि अंतरिक्ष के प्रत्येक क्षेत्र में पर्याप्त है या नहीं। यदि दो से अधिक वर्ग हों तो सही निर्णय लेना अधिक कठिन होता है।

साहित्य

एम कैस्ट्रिलन, . ओ डेनिस,। डी. हर्नांडेज़ और जे. लोरेंजो, "वियोला-जोन्स जनरल ऑब्जेक्ट डिटेक्शन फ्रेमवर्क पर आधारित चेहरे और चेहरे की विशेषता डिटेक्टरों की तुलना," इंटरनेशनल जर्नल ऑफ़ कंप्यूटर विज़न, संख्या 22, पीपी। 481-494, 2011।
वाई-क्यू। वांग, "वियोला-जोन्स फेस डिटेक्शन एल्गोरिथम का एक विश्लेषण," आईपीओएल जर्नल, 2013।
एल. शापिरो और डी. स्टॉकमैन, कंप्यूटर विजन, बिनोम। नॉलेज लैब, 2006।
Z. N. G., मान्यता के तरीके और उनका अनुप्रयोग, सोवियत रेडियो, 1972।
जे. तू, आर. गोंजालेज, पैटर्न रिकग्निशन के गणितीय सिद्धांत, मॉस्को: "मीर" मॉस्को, 1974।
खान, एच। अब्दुल्ला और एम। शामियन बिन ज़ैनल, "वियोला जोन्स और त्वचा रंग पिक्सेल पहचान के संयोजन का उपयोग करके कुशल आंखें और मुंह का पता लगाने वाला एल्गोरिदम" इंटरनेशनल जर्नल ऑफ इंजीनियरिंग एंड एप्लाइड साइंसेज, वॉल्यूम। 3 नंबर 4, 2013।
वी. गेडे और ओ. गुंथर, "बहुआयामी एक्सेस मेथड्स," एसीएम कंप्यूटिंग सर्वे, पीपी। 170-231, 1998।

ट्यूटोरियल

लंबे समय से मैं एक सामान्य लेख लिखना चाहता था जिसमें इमेज रिकग्निशन की मूल बातें हों, बुनियादी तरीकों पर एक तरह की गाइड, यह बताना कि उन्हें कब लागू करना है, वे कौन से कार्य हल करते हैं, शाम को आपके घुटने पर क्या किया जा सकता है, और 20 में लोगों की टीम के बिना क्या नहीं सोचना बेहतर है।

मैं लंबे समय से ऑप्टिकल रिकॉग्निशन पर कुछ लेख लिख रहा हूं, इसलिए महीने में एक दो बार विभिन्न लोग मुझे इस विषय पर प्रश्नों के साथ लिखते हैं। कभी-कभी आपको ऐसा महसूस होता है कि आप उनके साथ अलग-अलग दुनिया में रहते हैं। एक ओर, आप समझते हैं कि एक व्यक्ति संबंधित विषय में एक पेशेवर होने की सबसे अधिक संभावना है, लेकिन ऑप्टिकल पहचान विधियों के बारे में बहुत कम जानता है। और सबसे कष्टप्रद बात यह है कि वह ज्ञान के एक नजदीकी क्षेत्र से एक विधि लागू करने की कोशिश करता है, जो तार्किक है, लेकिन छवि पहचान में पूरी तरह से काम नहीं करता है, लेकिन यह समझ में नहीं आता है और अगर वह उसे कुछ बताना शुरू कर देता है तो वह बहुत नाराज होता है बहुत मूल बातें। और यह देखते हुए कि मूल बातें कहने में बहुत समय लगता है, जो अक्सर नहीं होता है, यह और भी दुखद हो जाता है।

यह लेख इसलिए बनाया गया है ताकि एक व्यक्ति जिसने कभी भी छवि पहचान के तरीकों से निपटा नहीं है, वह 10-15 मिनट के भीतर, विषय के अनुरूप दुनिया की एक निश्चित मूल तस्वीर बना सकता है, और समझ सकता है कि उसे किस दिशा में खुदाई करनी चाहिए। यहां वर्णित कई विधियां रडार और ऑडियो प्रोसेसिंग पर लागू होती हैं।
मैं कुछ सिद्धांतों के साथ शुरू करूंगा जो हम हमेशा एक संभावित ग्राहक, या एक व्यक्ति को बताना शुरू करते हैं जो ऑप्टिकल पहचान करना शुरू करना चाहता है:

किसी समस्या को हल करते समय, हमेशा सरलतम से जाएं। किसी व्यक्ति पर नारंगी लेबल लटकाना किसी व्यक्ति का अनुसरण करने की तुलना में उसे कैस्केड में हाइलाइट करना बहुत आसान है। सुपर-रिज़ॉल्यूशन एल्गोरिथम विकसित करने की तुलना में उच्च रिज़ॉल्यूशन वाला कैमरा लेना बहुत आसान है।
ऑप्टिकल रिकग्निशन मेथड में एक सख्त समस्या स्टेटमेंट सिस्टम प्रोग्रामिंग समस्याओं की तुलना में परिमाण के आदेश अधिक महत्वपूर्ण है: टीके में एक अतिरिक्त शब्द काम का 50% जोड़ सकता है।
मान्यता समस्याओं में, कोई सार्वभौमिक समाधान नहीं हैं। आप एक एल्गोरिथम नहीं बना सकते जो केवल "किसी भी शिलालेख को पहचान लेगा।" सड़क पर एक चिन्ह और पाठ की एक शीट मौलिक रूप से अलग-अलग वस्तुएं हैं। एक सामान्य एल्गोरिथम (Google से एक अच्छा उदाहरण) बनाना संभव है, लेकिन इसके लिए एक बड़ी टीम से बहुत काम की आवश्यकता होगी और इसमें दर्जनों विभिन्न सबरूटीन शामिल होंगे।
ओपनसीवी बाइबिल है, जिसमें कई विधियां हैं, और जिसके साथ आप लगभग किसी भी समस्या की मात्रा का 50% हल कर सकते हैं, लेकिन ओपनसीवी वास्तविकता में क्या किया जा सकता है इसका एक छोटा सा हिस्सा है। एक अध्ययन में, यह निष्कर्ष में लिखा गया था: "ओपनसीवी विधियों द्वारा समस्या का समाधान नहीं किया जाता है, इसलिए, यह असंभव है।" इससे बचने की कोशिश करें, आलसी न हों और ओपनसीवी टेम्प्लेट का उपयोग किए बिना, हर बार खरोंच से वर्तमान कार्य का गंभीरता से मूल्यांकन करें।

किसी प्रकार की सार्वभौमिक सलाह देना, या यह बताना बहुत कठिन है कि किसी प्रकार की संरचना कैसे बनाई जाए जिसके चारों ओर आप मनमानी कंप्यूटर दृष्टि समस्याओं का समाधान बना सकें। इस लेख का उद्देश्य यह संरचना करना है कि क्या उपयोग किया जा सकता है। मैं मौजूदा तरीकों को तीन समूहों में तोड़ने की कोशिश करूंगा। पहला समूह पूर्व-फ़िल्टरिंग और छवि तैयारी है। दूसरा समूह फ़िल्टरिंग परिणामों का तार्किक प्रसंस्करण है। तीसरा समूह तार्किक प्रसंस्करण पर आधारित निर्णय लेने वाला एल्गोरिदम है। समूहों के बीच की सीमाएँ बहुत मनमानी हैं। किसी समस्या को हल करने के लिए, सभी समूहों के तरीकों को लागू करना हमेशा आवश्यक नहीं होता है; कभी-कभी दो पर्याप्त होते हैं, और कभी-कभी एक भी।

यहां प्रस्तुत विधियों की सूची पूर्ण नहीं है। मैं टिप्पणियों में उन महत्वपूर्ण तरीकों को जोड़ने का प्रस्ताव करता हूं जिन्हें मैंने नहीं लिखा था और प्रत्येक के लिए 2-3 शब्दों का श्रेय दिया था।

भाग 1. छनन

इस समूह में, मैंने ऐसी विधियाँ रखी हैं जो आपको छवियों का विश्लेषण किए बिना रुचि के क्षेत्रों का चयन करने की अनुमति देती हैं। इनमें से अधिकांश विधियाँ छवि के सभी बिंदुओं पर किसी न किसी प्रकार का एक समान परिवर्तन लागू करती हैं। फ़िल्टरिंग स्तर पर, छवि का विश्लेषण नहीं किया जाता है, लेकिन फ़िल्टर किए गए बिंदुओं को विशेष विशेषताओं वाले क्षेत्रों के रूप में माना जा सकता है।

थ्रेसहोल्ड बिनराइज़ेशन, हिस्टोग्राम क्षेत्र चयन

सबसे सरल परिवर्तन थ्रेशोल्ड द्वारा छवि का द्विअर्थीकरण है। RGB और ग्रेस्केल छवियों के लिए, थ्रेशोल्ड रंग मान है। ऐसी आदर्श समस्याएं हैं जिनमें ऐसा परिवर्तन पर्याप्त है। मान लीजिए कि आप कागज की एक सफेद शीट पर स्वचालित रूप से आइटम का चयन करना चाहते हैं:

थ्रेशोल्ड का चुनाव जिसके द्वारा बिनाराइजेशन होता है, काफी हद तक बिनाराइजेशन की प्रक्रिया को ही निर्धारित करता है। इस मामले में, छवि को औसत रंग से द्विभाजित किया गया था। आम तौर पर, बाइनरीकरण एक एल्गोरिदम के साथ किया जाता है जो अनुकूल रूप से थ्रेसहोल्ड का चयन करता है। ऐसा एल्गोरिथम अपेक्षा या विधा का चुनाव हो सकता है। और आप हिस्टोग्राम की सबसे बड़ी चोटी चुन सकते हैं।

हिस्टोग्राम के साथ काम करते समय बिनाराइजेशन बहुत दिलचस्प परिणाम दे सकता है, जिसमें स्थिति भी शामिल है अगर हम आरजीबी में नहीं, बल्कि एचएसवी में एक छवि पर विचार करते हैं। उदाहरण के लिए, रुचि के रंगों को विभाजित करें। इस सिद्धांत पर, लेबल डिटेक्टर और मानव त्वचा डिटेक्टर दोनों का निर्माण संभव है।

शास्त्रीय फ़िल्टरिंग: फूरियर, एलपीएफ, एचपीएफ

रडार और सिग्नल प्रोसेसिंग से शास्त्रीय फ़िल्टरिंग विधियों को विभिन्न पैटर्न पहचान कार्यों में सफलतापूर्वक लागू किया जा सकता है। रडार में पारंपरिक विधि, जो लगभग कभी भी अपने शुद्ध रूप में छवियों में उपयोग नहीं की जाती है, फूरियर ट्रांसफॉर्म (अधिक विशेष रूप से, एफएफटी) है। कुछ अपवादों में से एक जहां 1D फूरियर रूपांतरण का उपयोग किया जाता है वह छवि संपीड़न है। छवि विश्लेषण के लिए, एक-आयामी परिवर्तन आमतौर पर पर्याप्त नहीं होता है, आपको बहुत अधिक संसाधन-गहन द्वि-आयामी परिवर्तन का उपयोग करने की आवश्यकता होती है।

कुछ लोग वास्तव में इसकी गणना करते हैं, आमतौर पर उच्च (एचपीएफ) या निम्न (एलपीएफ) आवृत्तियों के लिए तैयार किए गए फ़िल्टर के साथ रुचि के क्षेत्र के दृढ़ संकल्प का उपयोग करना बहुत तेज़ और आसान होता है। इस तरह की एक विधि, निश्चित रूप से, स्पेक्ट्रम विश्लेषण की अनुमति नहीं देती है, लेकिन एक विशिष्ट वीडियो प्रसंस्करण कार्य में, यह आमतौर पर एक विश्लेषण की आवश्यकता नहीं होती है, बल्कि एक परिणाम होता है।

फिल्टर के सबसे सरल उदाहरण जो कम आवृत्तियों (गॉसियन फिल्टर) और उच्च आवृत्तियों (गैबोर फिल्टर) पर जोर देते हैं।
प्रत्येक छवि बिंदु के लिए, एक विंडो का चयन किया जाता है और उसी आकार के फ़िल्टर से गुणा किया जाता है। इस तरह के एक संकल्प का परिणाम बिंदु का नया मूल्य है। एलपीएफ और एचपीएफ को लागू करते समय, इस प्रकार की छवियां प्राप्त की जाती हैं:

तरंगिकाएँ

लेकिन क्या होगा अगर हम सिग्नल के साथ कनवल्शन के लिए कुछ मनमाना विशेषता फ़ंक्शन का उपयोग करते हैं? तब इसे "वेवलेट ट्रांसफॉर्म" कहा जाएगा। वेवलेट्स की यह परिभाषा सही नहीं है, लेकिन परंपरागत रूप से, कई टीमों में, वेवलेट विश्लेषण इस पैटर्न के एक मॉडल के साथ कनवल्शन का उपयोग करके एक छवि में एक मनमाना पैटर्न की खोज है। वेवलेट विश्लेषण में प्रयुक्त शास्त्रीय कार्यों का एक सेट है। इनमें हार वेवलेट, मोरलेट वेवलेट, मैक्सिकन हैट वेवलेट आदि शामिल हैं। हार प्रिमिटिव, जिसके बारे में मेरे पिछले कई लेख ( , ) थे, द्वि-आयामी स्थान के लिए ऐसे कार्यों का उल्लेख करते हैं।

ऊपर शास्त्रीय तरंगों के 4 उदाहरण हैं। 3डी हार वेवलेट, 2डी मेयर वेवलेट, मैक्सिकन हैट वेवलेट, डौबेचीज वेवलेट। तरंगिकाओं की विस्तारित व्याख्या का उपयोग करने का एक अच्छा उदाहरण आंख में एक चमक खोजने की समस्या है, जिसके लिए चमक स्वयं एक तरंगिका है:

शास्त्रीय तरंगिकाओं का उपयोग आमतौर पर , या उनके वर्गीकरण के लिए किया जाता है (नीचे वर्णित किया जाना है)।

सह - संबंध

मेरी ओर से तरंगों की इतनी मुक्त व्याख्या के बाद, उनके अंतर्निहित वास्तविक सहसंबंध का उल्लेख करना उचित है। छवियों को फ़िल्टर करते समय, यह एक अनिवार्य उपकरण है। ऑफ़सेट या ऑप्टिकल स्ट्रीम खोजने के लिए एक क्लासिक एप्लिकेशन वीडियो स्ट्रीम सहसंबंध है। सरलतम पारी संसूचक भी, एक अर्थ में, एक अंतर सहसंयोजक है। जहां छवियां सहसंबंधित नहीं होतीं, वहां गति होती थी।

फंक्शन फ़िल्टरिंग

फ़िल्टर का एक दिलचस्प वर्ग फ़िल्टरिंग फ़ंक्शन है। ये विशुद्ध रूप से गणितीय फिल्टर हैं जो आपको एक छवि (लाइन, परवलय, सर्कल) में एक साधारण गणितीय फ़ंक्शन का पता लगाने की अनुमति देते हैं। एक संचयी छवि बनाई जाती है, जिसमें मूल छवि के प्रत्येक बिंदु के लिए इसे उत्पन्न करने वाले कार्यों का एक सेट तैयार किया जाता है। सबसे शास्त्रीय परिवर्तन लाइनों के लिए हफ़ परिवर्तन है। इस परिवर्तन में, प्रत्येक बिंदु (x;y) के लिए, रेखा y=ax+b के बिंदुओं (a;b) का एक सेट तैयार किया जाता है, जिसके लिए समानता सत्य है। सुंदर चित्र प्राप्त करें:

(पहला प्लस उस व्यक्ति के लिए जो तस्वीर और ऐसी परिभाषा में सबसे पहले पकड़ लेता है और इसे समझाता है, दूसरा प्लस उस व्यक्ति के लिए जो यहां दिखाया गया है)
हफ़ ट्रांसफ़ॉर्म आपको किसी भी पैरामीटर करने योग्य फ़ंक्शन को खोजने की अनुमति देता है। उदाहरण के लिए मंडलियां। एक संशोधित परिवर्तन है जो आपको किसी भी . यह परिवर्तन गणितज्ञों को बहुत प्रिय है। लेकिन छवियों को संसाधित करते समय, दुर्भाग्य से, यह हमेशा काम नहीं करता है। बहुत धीमी गति, बिनाराइजेशन की गुणवत्ता के प्रति बहुत अधिक संवेदनशीलता। आदर्श परिस्थितियों में भी, मैंने अन्य तरीकों से प्राप्त करना पसंद किया।
लाइनों के लिए हफ़ ट्रांसफ़ॉर्म का प्रतिरूप रेडॉन ट्रांसफ़ॉर्म है। इसकी गणना एफएफटी के माध्यम से की जाती है, जो ऐसी स्थिति में प्रदर्शन लाभ देता है जहां बहुत सारे अंक होते हैं। इसके अलावा, इसे एक गैर-बिनाराइज़्ड छवि पर लागू किया जा सकता है।

कंटूर फ़िल्टरिंग

फ़िल्टर का एक अलग वर्ग सीमा और समोच्च फ़िल्टरिंग है। पथ बहुत उपयोगी होते हैं जब हम किसी छवि के साथ काम करने से उस छवि में वस्तुओं के साथ काम करने के लिए आगे बढ़ना चाहते हैं। जब कोई वस्तु काफी जटिल होती है, लेकिन अच्छी तरह से प्रतिष्ठित होती है, तो अक्सर उसके साथ काम करने का एकमात्र तरीका उसकी आकृति का चयन करना होता है। कई एल्गोरिदम हैं जो समोच्च फ़िल्टरिंग की समस्या को हल करते हैं:

सबसे अधिक इस्तेमाल किया जाने वाला केनी है, जो अच्छी तरह से काम करता है और जिसका कार्यान्वयन ओपनसीवी में है (सोबेल भी है, लेकिन वह कंट्रोवर्सी को बदतर देखता है)।

अन्य फिल्टर

ऊपर फिल्टर हैं, जिनमें से संशोधन 80-90% कार्यों को हल करने में मदद करते हैं। लेकिन उनके अलावा, स्थानीय कार्यों में उपयोग किए जाने वाले अधिक दुर्लभ फ़िल्टर हैं। ऐसे दर्जनों फिल्टर हैं, मैं उन सभी को सूचीबद्ध नहीं करूंगा। रुचि के पुनरावृत्त फ़िल्टर (उदाहरण के लिए), साथ ही रिजलेट और कर्वलेट ट्रांसफ़ॉर्म हैं, जो रेडॉन ट्रांसफ़ॉर्म फ़ील्ड में शास्त्रीय तरंगिका फ़िल्टरिंग और विश्लेषण का एक मिश्र धातु हैं। बीमलेट ट्रांसफॉर्म वेवलेट ट्रांसफॉर्म और लॉजिकल एनालिसिस की सीमा पर खूबसूरती से काम करता है, जिससे आप कंट्रोवर्सी को हाइलाइट कर सकते हैं:

लेकिन ये परिवर्तन बहुत विशिष्ट हैं और दुर्लभ कार्यों के लिए तैयार किए गए हैं।

भाग 2. फ़िल्टरिंग परिणामों का तार्किक प्रसंस्करण

फ़िल्टरिंग प्रसंस्करण के लिए उपयुक्त डेटा का एक सेट देता है। लेकिन अक्सर आप इस डेटा को प्रोसेस किए बिना केवल ले और उपयोग नहीं कर सकते। इस खंड में, कई क्लासिक विधियाँ होंगी जो आपको छवि से वस्तुओं के गुणों या स्वयं वस्तुओं तक जाने की अनुमति देती हैं।

आकृति विज्ञान

मेरी राय में, फ़िल्टरिंग से तर्क में संक्रमण, गणितीय आकारिकी ( , ) के तरीके हैं। वास्तव में, ये बाइनरी इमेज को बढ़ाने और मिटाने का सबसे सरल ऑपरेशन है। ये विधियां आपको उपलब्ध तत्वों को बढ़ाकर या घटाकर बाइनरी छवि से शोर को दूर करने की अनुमति देती हैं। गणितीय आकृति विज्ञान के आधार पर, समोच्च एल्गोरिदम हैं, लेकिन आमतौर पर वे संयोजन के रूप में किसी प्रकार के हाइब्रिड एल्गोरिदम या एल्गोरिदम का उपयोग करते हैं।

समोच्च विश्लेषण

फ़िल्टरिंग अनुभाग में, सीमाओं को प्राप्त करने के लिए एल्गोरिदम का उल्लेख पहले ही किया जा चुका है। परिणामी सीमाएँ काफी सरलता से आकृति में परिवर्तित हो जाती हैं। कैनी एल्गोरिदम के लिए यह स्वचालित रूप से होता है, अन्य एल्गोरिदम के लिए अतिरिक्त बिनराइजेशन की आवश्यकता होती है। आप एक बाइनरी एल्गोरिदम के लिए एक समोच्च प्राप्त कर सकते हैं, उदाहरण के लिए, बीटल एल्गोरिदम के साथ।
समोच्च एक वस्तु की एक अनूठी विशेषता है। अक्सर यह आपको समोच्च के साथ वस्तु की पहचान करने की अनुमति देता है। एक शक्तिशाली गणितीय उपकरण है जो आपको ऐसा करने की अनुमति देता है। उपकरण को समोच्च विश्लेषण ( , ) कहा जाता है।

सच कहूं तो, मैं वास्तविक समस्याओं में समोच्च विश्लेषण को लागू करने में कभी कामयाब नहीं हुआ। बहुत आदर्श परिस्थितियों की आवश्यकता है। या तो कोई सरहद नहीं है, या बहुत ज्यादा शोर है। लेकिन, अगर आपको आदर्श परिस्थितियों में कुछ पहचानने की जरूरत है, तो समोच्च विश्लेषण एक बढ़िया विकल्प है। यह बहुत तेज, सुंदर गणित और समझने योग्य तर्क पर काम करता है।

एकवचन बिंदु

मुख्य बिंदु किसी वस्तु की अनूठी विशेषताएँ हैं जो वस्तु को स्वयं या समान वस्तु वर्गों के साथ संबद्ध करने की अनुमति देती हैं। ऐसे बिंदुओं को चुनने के दर्जनों तरीके हैं। कुछ विधियाँ पड़ोसी फ़्रेमों में विशेष बिंदुओं को हाइलाइट करती हैं, कुछ लंबे समय के बाद और जब प्रकाश में परिवर्तन होता है, तो कुछ आपको ऐसे विशेष बिंदु खोजने की अनुमति देते हैं जो वस्तु के घूमने पर भी बने रहते हैं। आइए उन तरीकों से शुरू करें जो हमें विशेष बिंदुओं को खोजने की अनुमति देते हैं जो इतने स्थिर नहीं हैं, लेकिन जल्दी से गणना की जाती हैं, और फिर हम बढ़ती जटिलता में जाएंगे:
प्रथम श्रेणी। एकवचन बिंदु जो सेकंड के लिए स्थिर होते हैं।इस तरह के बिंदुओं का उपयोग आसन्न वीडियो फ्रेम के बीच किसी वस्तु को निर्देशित करने या पड़ोसी कैमरों से छवियों को एकाग्र करने के लिए किया जाता है। इन बिंदुओं में छवि का स्थानीय मैक्सिमा, छवि में कोने (सबसे अच्छा डिटेक्टर, शायद, हारिस डिटेक्टर), वे बिंदु जहां पर फैलाव मैक्सिमा तक पहुंच जाता है, कुछ ग्रेडिएंट आदि शामिल हैं।
द्रितीय श्रेणी। प्रकाश और वस्तु के छोटे आंदोलनों को बदलते समय एकवचन बिंदु स्थिर होते हैं।ऐसे बिंदु मुख्य रूप से वस्तु प्रकारों के प्रशिक्षण और बाद के वर्गीकरण के लिए काम करते हैं। उदाहरण के लिए, एक पैदल यात्री क्लासिफायरियर या फेस क्लासिफायरियर ऐसे बिंदुओं पर निर्मित सिस्टम का उत्पाद है। पहले उल्लिखित कुछ तरंगिकाएं ऐसे बिंदुओं का आधार हो सकती हैं। उदाहरण के लिए, हार प्रिमिटिव, चकाचौंध खोज, अन्य विशिष्ट विशेषताओं की खोज। इन बिंदुओं में डायरेक्शनल ग्रेडिएंट (HOG) के हिस्टोग्राम की विधि द्वारा पाए गए बिंदु शामिल हैं।
तीसरे वर्ग। स्थिर अंक।मैं केवल दो विधियों के बारे में जानता हूं जो पूर्ण स्थिरता प्रदान करते हैं और उनके संशोधनों के बारे में। यह और। जब आप छवि को घुमाते हैं तब भी वे आपको मुख्य बिंदु खोजने की अनुमति देते हैं। ऐसे बिंदुओं की गणना में अन्य तरीकों की तुलना में अधिक समय लगता है, लेकिन सीमित समय के लिए। दुर्भाग्य से, इन विधियों का पेटेंट कराया गया है। हालांकि, रूस में एल्गोरिदम को पेटेंट करना असंभव है, इसलिए इसे घरेलू बाजार के लिए उपयोग करें।

भाग 3. प्रशिक्षण

कहानी का तीसरा भाग उन तरीकों के लिए समर्पित होगा जो सीधे छवि के साथ काम नहीं करते हैं, लेकिन जो आपको निर्णय लेने की अनुमति देते हैं। मूल रूप से, ये मशीन लर्निंग और निर्णय लेने के विभिन्न तरीके हैं। हाल ही में, Yandyks ने इस विषय पर Habr पर पोस्ट किया, एक बहुत अच्छा चयन है। यहाँ यह पाठ संस्करण में है। विषय के गंभीर अध्ययन के लिए, मैं दृढ़ता से अनुशंसा करता हूं कि आप उन्हें देखें। यहां मैं विशेष रूप से पैटर्न पहचान में उपयोग की जाने वाली कई बुनियादी विधियों की पहचान करने का प्रयास करूंगा।
80% स्थितियों में, मान्यता समस्या में सीखने का सार इस प्रकार है:
एक परीक्षण नमूना है जिस पर वस्तुओं के कई वर्ग हैं। इसे फोटो में किसी व्यक्ति की उपस्थिति / अनुपस्थिति होने दें। प्रत्येक छवि के लिए, सुविधाओं का एक सेट होता है जिसे किसी विशेषता द्वारा हाइलाइट किया गया है, चाहे वह हार, एचओजी, सर्फ, या कुछ तरंगिका हो। लर्निंग एल्गोरिदम को एक ऐसा मॉडल बनाना चाहिए, जिसके अनुसार वह नई इमेज का विश्लेषण कर सके और यह तय कर सके कि इमेज में कौन सी वस्तु है।
यह कैसे किया है? प्रत्येक परीक्षण चित्र फीचर स्पेस में एक बिंदु है। इसके निर्देशांक छवि में प्रत्येक विशेषता का भार हैं। हमारे संकेत हो: "आंखों की उपस्थिति", "नाक की उपस्थिति", "दो हाथों की उपस्थिति", "कान की उपस्थिति", आदि। हम इन सभी संकेतों को डिटेक्टरों के साथ आवंटित करेंगे जो हमारे पास हैं, जो मानव के समान शरीर के अंगों पर प्रशिक्षित होते हैं। ऐसे स्थान में किसी व्यक्ति के लिए सही बिंदु होगा। बंदर के लिए, घोड़े के लिए बिंदी। क्लासिफायरियर को उदाहरणों के नमूने पर प्रशिक्षित किया जाता है। लेकिन सभी तस्वीरों में हाथ नहीं दिखा, दूसरों की आंखें नहीं थीं, और तीसरे में क्लासिफायर त्रुटि के कारण बंदर की मानव नाक थी। प्रशिक्षित मानव क्लासिफायर स्वचालित रूप से फीचर स्पेस को इस तरह से विभाजित करता है जैसे कि: यदि पहली सुविधा 0.5 की सीमा में है संक्षेप में, क्लासिफायरियर का उद्देश्य फीचर स्पेस में वर्गीकरण की वस्तुओं की विशेषता वाले क्षेत्रों को आकर्षित करना है। द्वि-आयामी अंतरिक्ष में किसी एक क्लासिफायर (AdaBoost) के उत्तर का क्रमिक सन्निकटन इस प्रकार दिखाई देगा:

कई क्लासिफायर हैं। उनमें से प्रत्येक अपने कुछ कार्यों में बेहतर काम करता है। किसी विशिष्ट कार्य के लिए क्लासिफायरियर का चयन करने का कार्य काफी हद तक एक कला है। यहाँ विषय पर कुछ अच्छी तस्वीरें हैं।

सरल मामला, एक आयामी अलगाव

आइए वर्गीकरण के सबसे सरल मामले का एक उदाहरण लेते हैं, जब फीचर स्पेस एक-आयामी होता है, और हमें 2 वर्गों को अलग करने की आवश्यकता होती है। स्थिति जितनी बार लग सकती है उससे कहीं अधिक बार होती है: उदाहरण के लिए, जब आपको दो संकेतों को अलग करने की आवश्यकता होती है, या एक नमूने के साथ एक पैटर्न की तुलना करने की आवश्यकता होती है। मान लीजिए कि हमारे पास एक प्रशिक्षण नमूना है। इस मामले में, एक छवि प्राप्त की जाती है, जहां एक्स-अक्ष समानता का एक उपाय होगा, और वाई-अक्ष इस तरह के माप के साथ घटनाओं की संख्या होगी। जब वांछित वस्तु स्वयं के समान होती है, तो एक बायां गाऊसी प्राप्त होता है। जब समान नहीं - ठीक है। मान X=0.4 नमूनों को अलग करता है ताकि एक गलत निर्णय किसी भी गलत निर्णय लेने की संभावना को कम कर दे। ऐसे विभाजक की खोज ही वर्गीकरण का कार्य है।

छोटा नोट। त्रुटि को कम करने वाला मानदंड हमेशा इष्टतम नहीं होगा। निम्नलिखित ग्राफ एक वास्तविक आईरिस पहचान प्रणाली का ग्राफ है। ऐसी प्रणाली के लिए, मानदंड को इस तरह से चुना जाता है कि किसी बाहरी व्यक्ति के वस्तु में गलत प्रवेश की संभावना को कम किया जा सके। इस तरह की संभावना को "पहली तरह की त्रुटि", "झूठे अलार्म की संभावना", "झूठी सकारात्मक" कहा जाता है। अंग्रेजी साहित्य में "झूठी पहुंच दर"।
) AdaBusta सबसे आम क्लासिफायर में से एक है। उदाहरण के लिए, इस पर हार झरना बनाया गया है। आमतौर पर इसका उपयोग तब किया जाता है जब बाइनरी वर्गीकरण की आवश्यकता होती है, लेकिन कुछ भी अधिक कक्षाओं के लिए शिक्षण को रोकता नहीं है।
SVM ( , , , ) कई कार्यान्वयन के साथ सबसे शक्तिशाली क्लासिफायर में से एक। सिद्धांत रूप में, मैंने जिन सीखने के कार्यों का सामना किया, उन्होंने एडबस्टा के समान ही काम किया। इसे काफी तेज माना जाता है, लेकिन इसका प्रशिक्षण एडबस्टा की तुलना में अधिक कठिन है और इसके लिए सही कोर के चुनाव की आवश्यकता होती है।

तंत्रिका नेटवर्क और प्रतिगमन भी हैं। लेकिन उन्हें संक्षेप में वर्गीकृत करने और यह दिखाने के लिए कि वे कैसे भिन्न हैं, इससे कहीं अधिक बड़े लेख की आवश्यकता है।
________________________________________________
मुझे आशा है कि मैं गणित और विवरण में गोता लगाए बिना उपयोग की जाने वाली विधियों का त्वरित अवलोकन देने में सक्षम था। शायद यह किसी की मदद करेगा। हालांकि, निश्चित रूप से, लेख अधूरा है और स्टीरियो छवियों के साथ काम करने के बारे में, या कलमन फिल्टर के साथ एलएसएम के बारे में, या अनुकूली बायेसियन दृष्टिकोण के बारे में एक शब्द नहीं है।
यदि आप लेख को पसंद करते हैं, तो मैं दूसरे भाग को उदाहरणों के चयन के साथ बनाने की कोशिश करूंगा कि मौजूदा ImageRecognition समस्याओं का समाधान कैसे किया जाता है।

और अंत में

क्या पढ़ना है?
1) एक बार बी. याना की पुस्तक "डिजिटल इमेज प्रोसेसिंग" मुझे बहुत अच्छी लगी, जो सरल और स्पष्ट रूप से लिखी गई है, लेकिन साथ ही लगभग सभी गणित दिए गए हैं। मौजूदा तरीकों से परिचित होने के लिए अच्छा है।
2) शैली का क्लासिक आर गोंजालेज, आर। वुड्स "डिजिटल इमेज प्रोसेसिंग" है। किसी कारण से, यह मेरे लिए पहले वाले की तुलना में अधिक कठिन था। बहुत कम गणित, लेकिन अधिक तरीके और चित्र।
3) "इमेज प्रोसेसिंग एंड एनालिसिस इन मशीन विजन प्रॉब्लम्स" - फिजटेक के किसी एक विभाग में पढ़ाए जाने वाले कोर्स के आधार पर लिखा गया है। बहुत सारी विधियाँ और उनका विस्तृत विवरण। लेकिन मेरी राय में, पुस्तक के दो बड़े नुकसान हैं: पुस्तक दृढ़ता से उस सॉफ़्टवेयर पैकेज पर केंद्रित है जो उससे जुड़ा हुआ है, पुस्तक में भी अक्सर एक सरल विधि का वर्णन गणितीय जंगल में बदल जाता है, जिससे इसे लेना मुश्किल होता है। विधि के संरचनात्मक आरेख से बाहर। लेकिन लेखकों ने एक सुविधाजनक साइट बनाई है, जहां लगभग सभी सामग्री प्रस्तुत की जाती है - wiki.technicalvision.ru टैग जोड़ें

छात्र के लिए पोर्टल। आत्म प्रशिक्षण