भाषण पहचान इंजन। स्वचालित वाक् पहचान प्रणाली

कितना अच्छा हुआ करता था! हेल्प डेस्क पर कॉल करके, लड़की ऑपरेटर से बात करना और यहां तक कि उसके साथ अपॉइंटमेंट भी लेना संभव था। अब, तार के दूसरे छोर पर, एक सुखद, लेकिन निर्जीव महिला आवाज सुनाई देती है, ऐसी और ऐसी जानकारी प्राप्त करने के लिए 1 डायल करने की पेशकश, 2 - उसके साथ संवाद करने के लिए, 3 - मेनू से बाहर निकलने के लिए, आदि। तेजी से, सूचना तक पहुंच प्रणाली द्वारा नियंत्रित होती है, न कि व्यक्ति द्वारा। इसका अपना तर्क है: नीरस, निर्बाध काम एक व्यक्ति द्वारा नहीं, बल्कि एक मशीन द्वारा किया जाता है। और उपयोगकर्ता के लिए, जानकारी प्राप्त करने की प्रक्रिया को सरल बनाया गया है: उसने संख्याओं के एक निश्चित सेट को कॉल किया - उसे आवश्यक जानकारी प्राप्त हुई।

ऐसी प्रणाली कैसे काम करती है? आइए इसे जानने की कोशिश करते हैं।

वाक् पहचान कार्यक्रम के दो मुख्य प्रकार हैं:

डिक्टेशन सॉफ्टवेयर - टेक्स्ट और नंबर दर्ज करें।

आइए तुरंत आरक्षण करें कि हम टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट सिस्टम पर विचार नहीं करेंगे, यानी टेक्स्ट को मौखिक भाषण में अनुवाद करना और इसके विपरीत। हम खुद को कमांड, या वॉयस नेविगेटर की स्वचालित पहचान की प्रणालियों तक सीमित रखेंगे।

एसएआरआर - यह क्या है?

स्वचालित वाक् पहचान (सीएपीपी) वाक् प्रसंस्करण प्रक्रिया का एक तत्व है, जिसका उद्देश्य उपयोगकर्ता और मशीन के बीच एक सुविधाजनक संवाद प्रदान करना है। व्यापक अर्थों में, हम उन प्रणालियों के बारे में बात कर रहे हैं जो एक भाषण ध्वनिक संकेत का ध्वन्यात्मक डिकोडिंग करते हैं, जब एक स्वतंत्र शैली में भाषण संदेशों का उच्चारण करते हैं, एक मनमाना वक्ता, समस्या अभिविन्यास और शब्दकोश की मात्रा पर प्रतिबंध को ध्यान में रखे बिना। एक संकीर्ण अर्थ में, सीएपीपी अपने शास्त्रीय अर्थों में प्राकृतिक-ध्वनि वाले भाषण की मान्यता के लिए आवश्यकताओं पर कुछ प्रतिबंध लगाकर विशेष समस्याओं के समाधान की सुविधा प्रदान करते हैं। इस प्रकार, सीएपीपी किस्मों की श्रेणी साधारण स्टैंड-अलोन उपकरणों और बच्चों के खिलौनों से है जो अलग-अलग बोले गए शब्दों, संख्याओं, शहरों, नामों आदि को पहचानने या संश्लेषित करने में सक्षम हैं, सुपर-कॉम्प्लेक्स प्राकृतिक-ध्वनि वाक् पहचान प्रणाली और इसके संश्लेषण के लिए उपयोग के लिए, उदाहरण के लिए, एक सहायक सहायक (आईबीएम वॉयसटाइप सिंपली स्पीकिंग गोल्ड) के रूप में।

एक मशीन और एक व्यक्ति के बीच किसी भी अनुकूल इंटरफेस का मुख्य घटक होने के नाते, सीएपीपी को विभिन्न अनुप्रयोगों में बनाया जा सकता है, उदाहरण के लिए, आवाज नियंत्रण प्रणाली, सूचना संसाधनों तक आवाज पहुंच, कंप्यूटर का उपयोग करके भाषा सीखना, अक्षम लोगों की सहायता, पहुंच आवाज सत्यापन प्रणाली/पहचान के माध्यम से कुछ।

सीएपीपी रिकॉर्ड किए गए ऑडियो और वीडियो डेटा के लिए खोज और सॉर्टिंग टूल के रूप में बहुत उपयोगी है। जानकारी दर्ज करते समय वाक् पहचान का भी उपयोग किया जाता है, जो विशेष रूप से तब उपयोगी होता है जब किसी व्यक्ति की आंखें या हाथ व्यस्त होते हैं। CARR तनावपूर्ण वातावरण में काम करने वाले लोगों (अस्पतालों में डॉक्टर, कारखाने के कर्मचारी, ड्राइवर) को आवश्यक जानकारी प्राप्त करने या दर्ज करने के लिए कंप्यूटर का उपयोग करने की अनुमति देता है।

आमतौर पर, CAPP का उपयोग टेलीफोनी एप्लिकेशन, एम्बेडेड सिस्टम (डायलर सिस्टम, PDA ऑपरेशन, ड्राइविंग, आदि), मल्टीमीडिया एप्लिकेशन (भाषा शिक्षण प्रणाली) जैसे सिस्टम में किया जाता है।

आवाज कुंजियाँ

ध्वनि संकेतों को कभी-कभी स्वचालित वाक् पहचान प्रणाली के रूप में संदर्भित किया जाता है। आमतौर पर ये सूचना तक अधिकृत पहुंच या वस्तुओं तक भौतिक पहुंच के बायोमेट्रिक सिस्टम होते हैं। दो प्रकार की ऐसी प्रणालियों को प्रतिष्ठित किया जाना चाहिए: सत्यापन प्रणाली और पहचान प्रणाली। सत्यापन के दौरान, उपयोगकर्ता पहले अपना कोड प्रस्तुत करता है, अर्थात खुद को किसी न किसी तरह से घोषित करता है, और फिर जोर से एक पासवर्ड या कुछ मनमाना वाक्यांश कहता है। सिस्टम जांचता है कि क्या दी गई आवाज उन मानकों से मेल खाती है जिन्हें प्रस्तुत कोड के अनुसार कंप्यूटर की मेमोरी से बुलाया गया था।

पहचान करते समय, उपयोगकर्ता के बारे में कोई पूर्व बयान नहीं दिया जाता है। इस मामले में, सभी मानकों के साथ इस आवाज की तुलना की जाती है और फिर यह विशेष रूप से निर्धारित किया जाता है कि आवाज से पहचाना जाने वाला व्यक्ति कौन है। आज, ऐसी प्रणालियों को लागू करने के लिए कई दृष्टिकोण और विधियां हैं, और वे सभी, एक नियम के रूप में, एक दूसरे से भिन्न हैं - कितने डेवलपर्स, उनकी कई किस्में। वाक् पहचान प्रणाली के बारे में भी यही कहा जा सकता है। इसलिए, केवल विशेष परीक्षण डेटाबेस की सहायता से भाषण द्वारा विशिष्ट भाषण मान्यता और व्यक्तित्व पहचान प्रणाली की विशेषताओं का न्याय करना संभव है।

इतिहास का हिस्सा

संयुक्त राज्य अमेरिका, 1960 के दशक के अंत में: "तीन," लोकप्रिय विज्ञान कार्यक्रम 21 वीं सदी के मेजबान वाल्टर क्रोनकाइट ने भाषण मान्यता में नवीनतम विकास के प्रदर्शन के दौरान कहा। कंप्यूटर ने इस शब्द को "चार" के रूप में पहचाना। "बेवकूफ," वाल्टर ने बड़बड़ाया। "वह शब्द शब्दकोश में नहीं है," कंप्यूटर ने उत्तर दिया।

हालाँकि वाक् पहचान के क्षेत्र में पहला विकास 1920 के दशक का है, लेकिन पहली प्रणाली 1952 में बेल लेबोरेटरीज (आज ल्यूसेंट टेक्नोलॉजीज का हिस्सा) द्वारा बनाई गई थी। और पहली वाणिज्यिक प्रणाली बाद में भी बनाई गई थी: 1960 में, आईबीएम ने ऐसी प्रणाली के विकास की घोषणा की, लेकिन कार्यक्रम कभी भी बाजार में प्रवेश नहीं किया।

फिर, 1970 के दशक में, संयुक्त राज्य अमेरिका में ईस्टर्न एयरलाइंस ने एक स्पीकर-निर्भर बैगेज डिस्पैच सिस्टम स्थापित किया: ऑपरेटर ने गंतव्य का नाम दिया - और बैगेज को रास्ते में भेज दिया गया। हालाँकि, त्रुटियों की संख्या के कारण, सिस्टम ने कभी भी परीक्षण अवधि को पार नहीं किया।

उसके बाद, इस क्षेत्र में विकास, यदि कोई हो, काफी धीमी गति से किया गया। 1980 के दशक में भी, वाक् पहचान प्रणाली का उपयोग करने वाले कुछ वास्तविक व्यावसायिक अनुप्रयोग थे।

आज दर्जनों नहीं, बल्कि वैज्ञानिक और शैक्षणिक संस्थानों के साथ-साथ बड़े निगमों में सैकड़ों शोध दल इस दिशा में काम कर रहे हैं। इसका अंदाजा ICASSP, EuroSpeech, ICPHS, आदि जैसे भाषण प्रौद्योगिकियों के क्षेत्र में वैज्ञानिकों और विशेषज्ञों के ऐसे अंतरराष्ट्रीय मंचों द्वारा लगाया जा सकता है। काम के परिणाम, जैसा कि हम आलंकारिक रूप से कहते हैं, "पूरी दुनिया पर गिर गया", शायद ही हो सकता है अधिक अनुमान लगाया जाना।

कई वर्षों से, आवाज नेविगेटर, या कमांड मान्यता प्रणाली, गतिविधि के विभिन्न क्षेत्रों में सफलतापूर्वक उपयोग की जाती रही हैं। उदाहरण के लिए, अल्काटेल द्वारा वेटिकन को आपूर्ति किए गए ओमनीटच कॉल सेंटर का उपयोग उन सेवा कार्यक्रमों के लिए किया गया था जो मसीह की 2000 वीं वर्षगांठ के उत्सव के हिस्से के रूप में हुए थे। तीर्थयात्री, जिसने कॉल सेंटर को फोन किया था, ने अपना प्रश्न बताया, और स्वचालित वाक् पहचान प्रणाली ने उसे "सुना"। यदि सिस्टम यह निर्धारित करता है कि एक प्रश्न बार-बार आने वाले विषय के बारे में पूछा गया था, जैसे कि ईवेंट शेड्यूल या होटल के पते, तो एक पूर्व-दर्ज प्रविष्टि शामिल की गई थी। यदि प्रश्न को स्पष्ट करना आवश्यक था, तो एक भाषण मेनू की पेशकश की गई थी, जिसमें एक आइटम को आवाज से इंगित करना था। यदि मान्यता प्रणाली ने निर्धारित किया कि पूछे गए प्रश्न का कोई पूर्व-रिकॉर्डेड उत्तर नहीं था, तो तीर्थयात्री मानव संचालक से जुड़ा था।

स्वीडन में, हाल ही में फिलिप्स स्पीच रिकग्निशन सॉफ्टवेयर का उपयोग करके एक स्वचालित टेलीफोन पूछताछ सेवा खोली गई थी। Autosvar सेवा के संचालन के पहले महीने के दौरान, जो बिना किसी आधिकारिक घोषणा के काम करना शुरू कर दिया, 200,000 ग्राहकों ने इसकी सेवाओं का उपयोग किया। एक व्यक्ति को एक निश्चित संख्या डायल करनी चाहिए और स्वचालित सचिव के उत्तर के बाद, सूचना निर्देशिका के उस अनुभाग को नाम दें जो उसे रूचि देता है।

नई सेवा मुख्य रूप से निजी ग्राहकों के लिए है, जो सेवाओं की काफी कम लागत के कारण इसे पसंद करेंगे। ऑटोस्वर सेवा यूरोप में अपनी तरह की पहली सेवा है (अमेरिका में, एटी एंड टी में इसी तरह की सेवा का परीक्षण पिछले साल दिसंबर में शुरू हुआ)।

अमेरिका में इस तकनीक के उपयोग के कुछ उदाहरण यहां दिए गए हैं।

Realtors अक्सर न्यूपोर्ट वायरलेस की सेवाओं की ओर रुख करते हैं। जब एक रियाल्टार सड़क पर उतरता है और एक घर के पास बिक्री के लिए साइन देखता है, तो वह न्यूपोर्ट वायरलेस को कॉल करता है और ऐसी और ऐसी सड़क पर स्थित ऐसे और ऐसे नंबर वाले घर के बारे में जानकारी मांगता है। सुखद महिला स्वर में उत्तर देने वाली मशीन उसे घर के फुटेज, निर्माण की तारीख और मालिकों के बारे में बताती है। यह सारी जानकारी न्यूपोर्ट वायरलेस डेटाबेस में है। Realtors केवल क्लाइंट को एक संदेश जारी कर सकते हैं। सदस्यता शुल्क लगभग $ 30 प्रति माह है।

एमट्रैक की वर्चुअल एजेंट जूली अक्टूबर 2001 से रेल यात्रियों की सेवा कर रही है। वह फोन द्वारा ट्रेन के शेड्यूल, उनके आगमन और प्रस्थान के बारे में सूचित करती है और टिकट बुकिंग भी करती है। जूली स्पीचवर्क्स सॉफ्टवेयर और इंटरवॉइस हार्डवेयर का एक उत्पाद है। इसने पहले ही यात्रियों की संतुष्टि में 45% की वृद्धि कर दी है; 50 में से 13 क्लाइंट जूली से अपनी जरूरत की सारी जानकारी हासिल करते हैं। एमट्रैक टोन-आधारित रेफरल सिस्टम का उपयोग करता था, लेकिन तब संतुष्टि दर कम थी, 50 में से केवल 9 ग्राहकों के साथ।

एमट्रैक ने स्वीकार किया कि जूली ने 12-18 महीनों में अपनी कीमत ($4 मिलियन) वापस कर दी। उसने कर्मचारियों की एक पूरी टीम को काम पर रखने की अनुमति नहीं दी। और ब्रिटिश एयरवेज नून्स कम्युनिकेशंस की तकनीक का उपयोग करके सालाना 1.5 मिलियन डॉलर बचा रहा है जो हेल्प डेस्क को भी स्वचालित करता है।

हाल ही में, सोनी कंप्यूटर एंटरटेनमेंट अमेरिका ने पहला वीडियो गेम सोकॉम पेश किया, जिसमें खिलाड़ी हथगोले सेनानियों को तैनात करने के लिए मौखिक आदेश दे सकते हैं। $60 का खेल स्कैनसॉफ्ट तकनीक का उपयोग करता है। पिछले साल, इनमें से 450,000 गेम बेचे गए, जिससे सोकॉम कंपनी की बिक्री में निर्विवाद नेता बन गया।

इन्फिनिटी और जगुआर जैसी महंगी कारों में, नियंत्रण कक्ष के मौखिक नियंत्रण का उपयोग कई वर्षों से किया गया है: रेडियो, तापमान शासन और नेविगेशन प्रणाली कार के मालिक की आवाज को समझते हैं और निर्विवाद रूप से मालिक की बात मानते हैं। लेकिन अब वॉयस रिकग्निशन तकनीक मध्यम वर्ग की कारों पर लागू होने लगी है। इसलिए, 2003 से, Honda Accord के पास IBM से एक अंतर्निहित ध्वनि पहचानकर्ता है। इसे ViaVoice कहा जाता है और यह 2,000 डॉलर के नेविगेशन सिस्टम का हिस्सा है। आपूर्तिकर्ता के अनुसार, Honda Accord के खरीदारों में से पांचवां हिस्सा वॉयस नेविगेशन के साथ एक मॉडल का विकल्प चुनते हैं।

चिकित्सा में भी आवाज पहचानने की तकनीक ने अपना स्थान बना लिया है। डॉक्टर की आवाज के आज्ञाकारी पेट की जांच के लिए उपकरण पहले ही विकसित किए जा चुके हैं। सच है, ये उपकरण, विशेषज्ञों के अनुसार, अभी भी अपूर्ण हैं: उनके पास डॉक्टर के आदेशों की धीमी प्रतिक्रिया है। लेकिन अभी भी आगे। मेम्फिस में, वीए मेडिकल सेंटर ने ड्रैगन सॉफ्टवेयर में $277,000 का निवेश किया, जो डॉक्टरों और नर्सों को कंप्यूटर डेटाबेस में जानकारी को निर्देशित करने की अनुमति देता है। संभवत: जल्द ही मेडिकल रिकॉर्ड में डॉक्टर की लिखावट बनाने के लिए कष्ट नहीं उठाना पड़ेगा।

पहले से ही सैकड़ों बड़ी कंपनियाँ अपने उत्पादों या सेवाओं में ध्वनि पहचान तकनीक का उपयोग करती हैं; इनमें AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines, और Verizo शामिल हैं। विशेषज्ञों के अनुसार, 2002 में वॉयस टेक्नोलॉजी का बाजार लगभग 695 मिलियन डॉलर तक पहुंच गया, जो 2001 की तुलना में 10% अधिक है।

यूनाइटेड एयरवेज ने 1999 में एक स्वचालित पूछताछ सेवा शुरू की। स्वचालित फोन कॉल प्रोसेसिंग सिस्टम निवेश बैंक चार्ल्स श्वाब एंड कंपनी, रिटेल चेन सियर्स, सुपरमार्केट चेन रोबक जैसी कंपनियों द्वारा संचालित होते हैं। यूएस वायरलेस कैरियर (एटी एंड टी वायरलेस और स्प्रिंट पीसीएस) इसी तरह के कार्यक्रमों का उपयोग कर रहे हैं और एक साल से अधिक समय से वॉयस डायलिंग सेवाएं प्रदान कर रहे हैं। और यद्यपि अमेरिका अब इस प्रकार के कॉल सेंटरों की संख्या में अग्रणी है, हाल ही में यूरोप में वाक् पहचान प्रणाली के लाभों को महसूस किया जाने लगा है। उदाहरण के लिए, स्विस रेलवे सेवा पहले से ही अपने जर्मन-भाषी यात्रियों को यूनाइटेड एयरवेज द्वारा दी जाने वाली सेवाओं के समान सेवाएं प्रदान करती है।

विश्लेषक पूर्वानुमान

आज, वाक् पहचान तकनीकों को दुनिया में सबसे आशाजनक में से एक माना जाता है। इस प्रकार, अमेरिकी शोध कंपनी Cahners In-Stat के पूर्वानुमानों के अनुसार, 2005 तक वाक् पहचान सॉफ्टवेयर का विश्व बाजार 200 मिलियन से बढ़कर 2.7 बिलियन डॉलर हो जाएगा। Datamonitor के अनुसार, वॉयस टेक्नोलॉजी मार्केट की मात्रा एक से बढ़ेगी प्रति वर्ष औसतन 43%: 2000 में 650 मिलियन डॉलर से 2006 में 5.6 बिलियन डॉलर (चित्र 1)। सीएनएन मीडिया कॉरपोरेशन के साथ सहयोग करने वाले विशेषज्ञों ने इस साल भाषण मान्यता को आठ सबसे आशाजनक तकनीकों में से एक के रूप में स्थान दिया। और आईडीसी के विश्लेषकों का कहना है कि 2005 तक, वाक् पहचान बाजार से अन्य सभी भाषण प्रौद्योगिकियों को पूरी तरह से विस्थापित कर देगी (चित्र 2)।

मुख्य कठिनाइयाँ

सीएपीपी के विकास में जो मुख्य समस्या उत्पन्न होती है, वह एक ही शब्द का अलग-अलग लोगों द्वारा और एक ही व्यक्ति द्वारा अलग-अलग स्थितियों में भिन्न उच्चारण है। यह एक व्यक्ति को परेशान नहीं करेगा, लेकिन एक कंप्यूटर कर सकता है। इसके अलावा, आने वाला संकेत परिवेशीय शोर, प्रतिबिंब, प्रतिध्वनि और चैनल शोर जैसे कई कारकों से प्रभावित होता है। यह इस तथ्य से जटिल है कि शोर और विकृति का पहले से पता नहीं होता है, यानी काम शुरू होने से पहले सिस्टम को उनके साथ समायोजित नहीं किया जा सकता है।

हालांकि, विभिन्न सीएपीपी पर आधी सदी से अधिक के काम का फल मिला है। लगभग कोई भी आधुनिक प्रणाली कई मोड में काम कर सकती है। सबसे पहले, यह उद्घोषक पर निर्भर या स्वतंत्र हो सकता है। एक स्पीकर-आश्रित प्रणाली को किसी विशेष उपयोगकर्ता के लिए विशेष प्रशिक्षण की आवश्यकता होती है ताकि वह जो कह रहा है उसे सटीक रूप से पहचान सके। सिस्टम को प्रशिक्षित करने के लिए, उपयोगकर्ता को कुछ विशिष्ट शब्द या वाक्यांश कहने की आवश्यकता होती है, जो सिस्टम विश्लेषण करेगा और परिणामों को याद रखेगा। यह मोड आमतौर पर श्रुतलेख प्रणालियों में उपयोग किया जाता है जब एक उपयोगकर्ता सिस्टम के साथ काम कर रहा होता है।

स्पीकर-स्वतंत्र प्रणाली का उपयोग किसी भी उपयोगकर्ता द्वारा प्रशिक्षण प्रक्रिया के बिना किया जा सकता है। आमतौर पर इस मोड का उपयोग किया जाता है जहां सीखने की प्रक्रिया संभव नहीं होती है, जैसे कि टेलीफोनी अनुप्रयोगों में। जाहिर है, स्पीकर-निर्भर सिस्टम की मान्यता सटीकता स्पीकर-स्वतंत्र की तुलना में अधिक है। हालांकि, एक स्पीकर-स्वतंत्र प्रणाली का उपयोग करना अधिक सुविधाजनक है, उदाहरण के लिए, यह असीमित श्रेणी के उपयोगकर्ताओं के साथ काम कर सकता है और प्रशिक्षण की आवश्यकता नहीं है।

दूसरे, सिस्टम को उन में विभाजित किया जाता है जो केवल पृथक आदेशों के साथ काम करते हैं और जो सुसंगत भाषण को पहचान सकते हैं। अलग-अलग बोले गए शब्दों की पहचान की तुलना में वाक् पहचान एक बहुत अधिक जटिल कार्य है। उदाहरण के लिए, 1000 शब्दों के शब्दकोश के साथ अलग-अलग शब्द पहचान से वाक् पहचान में जाने पर, त्रुटि दर 3.1 से बढ़कर 8.7 हो जाती है, और भाषण प्रसंस्करण में तीन गुना लंबा समय लगता है।

पृथक कमांड उच्चारण मोड सबसे सरल और कम से कम संसाधन गहन है। इस मोड में काम करते समय, प्रत्येक शब्द के बाद, उपयोगकर्ता रुक जाता है, अर्थात शब्दों की सीमाओं को स्पष्ट रूप से चिह्नित करता है। सिस्टम को किसी शब्द की शुरुआत और अंत को एक वाक्यांश में ही खोजने की आवश्यकता नहीं है। सिस्टम तब मान्यता प्राप्त शब्द की तुलना शब्दकोश में पैटर्न के साथ करता है, और सिस्टम द्वारा सबसे अधिक संभावित मॉडल को स्वीकार किया जाता है। इस प्रकार की मान्यता सामान्य डीटीएमएफ विधियों के बजाय टेलीफोनी में व्यापक रूप से उपयोग की जाती है।

भाषण में अतिरिक्त विविधताएं मनमानी स्वर, तनाव, वाक्यांशों की गैर-सख्त संरचना, विराम, दोहराव आदि के कारण भी उत्पन्न होती हैं।

शब्दों के निरंतर और अलग उच्चारण के जंक्शन पर, एक खोजशब्द खोज मोड उत्पन्न हुआ। इस मोड में, सीएपीपी सामान्य भाषण धारा में एक पूर्व निर्धारित शब्द या शब्दों का समूह ढूंढता है। इसका उपयोग कहां किया जा सकता है? उदाहरण के लिए, सुनने वाले उपकरणों में जो कुछ शब्दों के वाक् या इलेक्ट्रॉनिक संदर्भ में दिखाई देने पर चालू और रिकॉर्डिंग शुरू करते हैं। एक मनमाना रूप में अनुरोध प्राप्त करने के बाद, सिस्टम शब्दार्थ शब्दों का चयन करता है और उन्हें पहचानकर आवश्यक जानकारी प्रदान करता है।

प्रयुक्त शब्दकोश का आकार सीएपीपी का एक महत्वपूर्ण घटक है। जाहिर है, शब्दकोश जितना बड़ा होगा, सिस्टम में गलती होने की संभावना उतनी ही अधिक होगी। कई आधुनिक प्रणालियों में, शब्दकोशों को आवश्यकतानुसार नए शब्दों के साथ पूरक करना संभव है, या नए शब्दकोशों को लोड करना संभव है। अलग-अलग कमांड उच्चारण वाले स्पीकर-स्वतंत्र सिस्टम के लिए विशिष्ट त्रुटि दर 100-शब्द शब्दकोश के लिए लगभग 1%, 600-शब्द शब्दकोश के लिए 3% और 8000-शब्द शब्दकोश के लिए 10% है।

आधुनिक सीएपीपी बाजार के ऑफर

और आज बाजार का प्रतिनिधित्व विभिन्न कंपनियों के सीएपीपी द्वारा किया जाता है। आइए उनमें से कुछ पर विचार करें।

अकुलाबी

मान्यता सटीकता 97%।

स्पीकर स्वतंत्र प्रणाली। उम्र, आवाज, लिंग और उच्चारण के आधार पर होने वाले भाषण के सभी रूपों को ध्यान में रखने के लिए सिस्टम के डेवलपर्स ने कई भाषाओं के लिए विभिन्न डेटाबेस का विश्लेषण किया। मालिकाना एल्गोरिदम उपकरण सुविधाओं (हेडफ़ोन, माइक्रोफ़ोन) और चैनल विशेषताओं की परवाह किए बिना वाक् पहचान प्रदान करते हैं।

सिस्टम अतिरिक्त शब्दकोश बनाने की क्षमता का समर्थन करता है जो उच्चारण और उच्चारण की ख़ासियत को ध्यान में रखते हैं। यह विशेष रूप से तब उपयोगी होता है जब सिस्टम का उपयोग ऐसे लोग करते हैं जिनका उच्चारण सामान्य से बहुत अलग होता है।

सिस्टम सबसे आम भाषाओं जैसे ब्रिटिश और अमेरिकी अंग्रेजी, फ्रेंच, जर्मन, इतालवी, उत्तरी अमेरिकी स्पेनिश का समर्थन करता है। इनमें से किसी भी भाषा के लिए एक शब्दकोश को कॉन्फ़िगर किया जा सकता है, लेकिन एक ही शब्दकोश के हिस्से के रूप में एक ही समय में कई भाषाओं का उपयोग करना संभव नहीं है।

उत्पाद विंडोज एनटी/2000, लिनक्स और सन स्पार्क सोलारिस पर उपलब्ध है।

बाबियर एसडीके संस्करण 3.0

स्पीकर-स्वतंत्र प्रणाली जिसे किसी विशिष्ट उपयोगकर्ता के लिए प्रशिक्षण की आवश्यकता नहीं होती है। उपयोगकर्ता के लिए अनुकूलन ऑपरेशन के दौरान होता है और सर्वोत्तम मान्यता परिणाम प्रदान करता है। आवाज गतिविधि के लिए स्वचालित समायोजन आपको बहुत शोर वाले वातावरण में भाषण को पहचानने की अनुमति देता है, जैसे कि कार में। सिस्टम उन शब्दों को निर्धारित नहीं करता है जो शब्दकोश में सूचीबद्ध नहीं हैं। कीवर्ड खोजना संभव है। सिस्टम को एक छोटे शब्दकोश (आदेशों का पृथक उच्चारण) और एक बड़े शब्दकोश (भाषण) दोनों के साथ काम करने के लिए कॉन्फ़िगर किया जा सकता है।

सिस्टम निम्नलिखित भाषाओं का समर्थन करता है: ब्रिटिश और अमेरिकी अंग्रेजी, स्पेनिश जर्मन, फ्रेंच, डेनिश, स्वीडिश, तुर्की, ग्रीक, आइसलैंडिक और अरबी।

सिस्टम विंडोज 98 (एसई)/एनटी 4.0/2000/सीई, मैक ओएस एक्स और लिनक्स पर चलता है।

Loquendo ASR

टेलीफोनी में उपयोग के लिए अनुकूलित स्पीकर स्वतंत्र प्रणाली। व्यक्तिगत शब्दों और भाषण को पहचानना, कीवर्ड की खोज करना (500 शब्दों तक का शब्दकोश) संभव है। शब्दकोश की बड़ी मात्रा और सिस्टम के लचीलेपन के कारण आपको उपयोगकर्ता के अनुकूल एप्लिकेशन बनाने की अनुमति देता है।

सबसे आम यूरोपीय भाषाओं (इतालवी, स्पेनिश, ब्रिटिश और अमेरिकी अंग्रेजी, फ्रेंच, जर्मन, ग्रीक, स्वीडिश, आदि) सहित 12 भाषाओं का समर्थन करता है।

टेक्स्ट-टू-स्पीच सिस्टम और Loquendo VoiceXML इंटरप्रेटर के साथ Loquendo स्पीच सूट में शामिल है, जो कई आवाजों और भाषाओं का समर्थन करता है।

सिस्टम MS Windows NT/2000, UNIX और Linux के आधार पर काम करता है।

लुमेनवोक्स

एक स्पीकर-स्वतंत्र प्रणाली जिसे प्रशिक्षण की आवश्यकता नहीं होती है, लेकिन एक विशिष्ट उपयोगकर्ता के अनुकूलन के बाद, मान्यता परिणाम बहुत बेहतर हो जाते हैं: मान्यता सटीकता 90% से अधिक हो जाती है।

विभिन्न ऑडियो फ़ाइल स्वरूपों का समर्थन करता है: (यू-लॉ 8 kHz, PCM 8 kHz, PCM 16 kHz)। हार्डवेयर संसाधनों के लिए इसकी सख्त आवश्यकताएं नहीं हैं। विंडोज एनटी/2000/एक्सपी और लिनक्स के आधार पर काम करता है।

सिस्टम आवश्यकताएँ (Windows आधारित):

सर्विस पैक 6a, Windows 2000 या Windows XP Pro के साथ Windows NT 4.0;

न्यूनतम मेमोरी साइज 512 एमबी है।

सिस्टम आवश्यकताएँ (Red Hat Linux पर आधारित):

रेड हैट लिनक्स 7.2;

इंटेल पेंटियम III 800 मेगाहर्ट्ज या उच्चतर;

मेमोरी साइज 256 एमबी;

डिस्क का आकार 17 एमबी (अपघटन के बाद)।

अति सूक्ष्म अंतर

निर्माताओं के अनुसार, सिस्टम को मेमोरी और अन्य सिस्टम संसाधनों की कम से कम खपत के लिए अनुकूलित किया गया है। मान्यता सटीकता 96% तक है, और यह शोर वाले वातावरण में भी उच्च बनी हुई है।

प्रत्येक उपयोगकर्ता के लिए सिस्टम के स्व-शिक्षण और इसके समायोजन की संभावना है।

विंडोज 2000 और लिनक्स पर चलता है।

आत्मा

भाषा कोई भी हो सकती है (शब्दकोश क्लाइंट की विशिष्ट आवश्यकताओं के लिए संकलित किया गया है और इसमें वे शब्द और भाषा शामिल है जिसे क्लाइंट सिस्टम सेटिंग्स के लिए आवश्यकताओं में निर्दिष्ट करता है। शब्दकोश में विभिन्न भाषाओं के शब्द शामिल हो सकते हैं, अर्थात बिना सेटिंग्स को बदलते हुए, सिस्टम शब्दों को पहचान सकता है, उदाहरण के लिए, चीनी और फिनिश दोनों में, यदि वे पहले शब्दकोश में दर्ज किए गए थे)। इस प्रकार, यह प्रणाली किसी भी भाषा के साथ काम कर सकती है, जबकि अन्य सिस्टम - केवल उनमें से एक निश्चित सेट के साथ।

यह एक स्वचालित वाक् पहचान प्रणाली है जो बहुत शोर वाले वातावरण में भी उच्च गुणवत्ता की पहचान प्रदान करती है। सिस्टम को दो मोड में से एक में काम करने के लिए आसानी से कॉन्फ़िगर किया जा सकता है: निश्चित संख्या में कमांड के साथ वाक्यांशों की पहचान (व्यक्तिगत कमांड का उच्चारण, पिन-कोड मोड) और मनमाने ढंग से कमांड के साथ वाक्यांशों की पहचान (कमांड का निरंतर उच्चारण, "सुसंगत भाषण मोड")। कीवर्ड खोजना संभव है। यह समाधान योज्य गैर-स्थिर शोर की स्थितियों में काम करता है। आवश्यक सिग्नल-टू-शोर अनुपात "पिन-कोड मोड" में 0 dB तक और कनेक्टेड स्पीच मोड में +15 dB तक है।

मान्यता देरी - 0.2 एस। ध्वनिक चैनल पैरामीटर: 300-3500 हर्ट्ज के भीतर बैंडविड्थ। ध्वनिक वातावरण में अनुकूलन कम से कम 3 एस की कुल लंबाई के साथ शोर के टुकड़ों द्वारा किया जाता है।

"पिन कोड मोड" के लिए:

शब्दकोश - 50 आदेश;

सही पहचान की प्रायिकता - SNR = 0…6 dB पर 95-99%;

आवश्यक ध्वनिक स्थितियां: एसएनआर (सिग्नल टू नॉइज़ रेशियो) के साथ एडिटिव ब्रॉडबैंड स्टैटिक नॉइज़> = 15 डीबी।

कनेक्टेड स्पीच रिकग्निशन मोड के लिए:

शब्दकोश - 12 शब्द / संख्याएं;

शब्दों की एक श्रृंखला की सही पहचान की संभावना 98-99% है।

विशिष्टता: मनमाना शोर के लिए अनुकूलन।

SPIRIT से स्वचालित वाक् पहचान प्रणाली MS Windows या असेंबली कोड के तहत एक PC अनुप्रयोग के रूप में उपलब्ध है। ग्राहकों के अनुरोध पर, समाधान को किसी भी डीएसपी या आरआईएससी प्लेटफॉर्म पर पोर्ट किया जा सकता है।

वॉयसवेयर

सिस्टम स्पीकर-आश्रित और स्पीकर-स्वतंत्र मोड दोनों में काम कर सकता है, इसलिए किसी विशेष उपयोगकर्ता के साथ काम करने के लिए सिस्टम के विशेष प्रशिक्षण की आवश्यकता नहीं है।

शोर वातावरण में भी उच्च पहचान सटीकता और वास्तविक समय संचालन प्रदान करता है।

सिस्टम कनेक्टेड स्पीच और संख्याओं की अनुक्रमिक सूची को पहचानता है।

शब्द जो शब्दकोश में सूचीबद्ध नहीं हैं और बाहरी शोर उसके द्वारा नहीं माना जाता है, और ऐसे शब्द जिनका कोई मतलब नहीं है, जैसे कि "ए", "वेल", आदि को छोड़ दिया जाता है।

शब्दकोश में नए शब्द जोड़े जा सकते हैं।

सिस्टम स्वचालित रूप से उपयोगकर्ता के स्वर, उच्चारण और अन्य भाषण सुविधाओं को समायोजित करता है।

VoiceWare यूएस अंग्रेजी और कोरियाई का समर्थन करता है; चीनी और जापानी विकास के अधीन हैं।

सिस्टम विंडोज 95/98/एनटी 4.0, यूनिक्स और लिनक्स पर चलता है।

के लिए भाषण को पहचानेंऔर इसका अनुवाद करें ऑडियो या वीडियो से टेक्स्ट तक, ब्राउज़र के लिए प्रोग्राम और एक्सटेंशन (प्लगइन्स) हैं। हालाँकि, यह सब क्यों, अगर ऑनलाइन सेवाएँ हैं? कंप्यूटर पर प्रोग्राम इंस्टॉल होने चाहिए, इसके अलावा, अधिकांश वाक् पहचान कार्यक्रम मुफ्त से दूर हैं।

ब्राउज़र में स्थापित बड़ी संख्या में प्लग-इन इसके काम और इंटरनेट पर सर्फिंग की गति को बहुत धीमा कर देते हैं। और जिन सेवाओं पर आज चर्चा की जाएगी वे पूरी तरह से निःशुल्क हैं और स्थापना की आवश्यकता नहीं है - आप अंदर गए, इसका इस्तेमाल किया और चले गए!

इस लेख में, हम देखेंगे दो ऑनलाइन वाक्-से-पाठ अनुवाद सेवाएं. वे दोनों एक समान सिद्धांत पर काम करते हैं: आप रिकॉर्डिंग शुरू करते हैं (सेवा का उपयोग करते समय ब्राउज़र को माइक्रोफ़ोन तक पहुंचने की अनुमति दें), माइक्रोफ़ोन में बोलें (डिक्टेट करें), और आउटपुट पर आपको टेक्स्ट मिलता है जिसे आपके किसी भी दस्तावेज़ में कॉपी किया जा सकता है। कंप्यूटर।

स्पीचपैड.रू

रूसी भाषा की ऑनलाइन वाक् पहचान सेवा। इसमें रूसी में काम करने के लिए विस्तृत निर्देश हैं।

7 भाषाओं के लिए समर्थन (रूसी, यूक्रेनी, अंग्रेजी, जर्मन, फ्रेंच, स्पेनिश, इतालवी)
किसी ऑडियो या वीडियो फ़ाइल को ट्रांसक्राइब करने के लिए डाउनलोड करें (YouTube वीडियो समर्थित हैं)
दूसरी भाषा में एक साथ अनुवाद
विराम चिह्न और लाइन फीड के आवाज इनपुट के लिए समर्थन
बटन बार (केस चेंज, न्यूलाइन, कोट्स, ब्रैकेट्स, आदि)
रिकॉर्ड के इतिहास के साथ एक व्यक्तिगत खाते की उपलब्धता (पंजीकरण के बाद उपलब्ध विकल्प)
साइटों के पाठ क्षेत्र में आवाज द्वारा पाठ दर्ज करने के लिए Google क्रोम के लिए प्लग-इन की उपस्थिति (जिसे "वॉयस टेक्स्ट इनपुट - स्पीचपैड.आरयू" कहा जाता है)

डिक्टेशन.io

दूसरी ऑनलाइन वाक्-से-पाठ अनुवाद सेवा। एक विदेशी सेवा, जो इस बीच, रूसी भाषा के साथ बढ़िया काम करती है, जो बेहद आश्चर्यजनक है। वाक् पहचान की गुणवत्ता स्पीचपैड से नीच नहीं है, लेकिन बाद में उस पर और अधिक।

सेवा की मुख्य कार्यक्षमता:

30 भाषाओं के लिए समर्थन, जिनमें हंगेरियन, तुर्की, अरबी, चीनी, मलय आदि भी हैं।
विराम चिह्नों, लाइन ब्रेक आदि के उच्चारण की स्वतः पहचान।
किसी भी साइट के पृष्ठों के साथ एकीकृत करने की क्षमता
Google क्रोम के लिए एक प्लगइन की उपस्थिति (जिसे "वॉयस रिकॉग्निशन" कहा जाता है)

वाक् पहचान में, सबसे महत्वपूर्ण बात ठीक है अनुवाद गुणवत्तापाठ के लिए भाषण। सुखद "बन्स" और अवसर - एक अच्छे प्लस से ज्यादा कुछ नहीं। तो इस संबंध में दोनों सेवाएं क्या दावा कर सकती हैं?

सेवाओं का तुलनात्मक परीक्षण

परीक्षण के लिए, हम दो मुश्किल-से-पहचानने वाले अंशों का चयन करेंगे जिनमें ऐसे शब्द और वाक्यांश शामिल हैं जो आज के भाषण में शायद ही कभी उपयोग किए जाते हैं। शुरू करने के लिए, हम एन नेक्रासोव की कविता "किसान बच्चे" का एक अंश पढ़ते हैं।

नीचे है भाषण से पाठ अनुवाद परिणामप्रत्येक सेवा (त्रुटियों को लाल रंग में चिह्नित किया गया है):

जैसा कि आप देख सकते हैं, दोनों सेवाओं ने लगभग समान त्रुटियों के साथ वाक् पहचान का मुकाबला किया। परिणाम काफी अच्छा है!

अब, परीक्षण के लिए, आइए लाल सेना के सैनिक सुखोव (फिल्म "व्हाइट सन ऑफ द डेजर्ट") के पत्र का एक अंश लें:

उत्कृष्ट परिणाम!

जैसा कि आप देख सकते हैं, दोनों सेवाएं वाक् पहचान के साथ पर्याप्त रूप से सामना करती हैं - कोई भी चुनें! ऐसा लगता है कि वे भी एक ही इंजन का उपयोग करते हैं - परीक्षण के परिणामों के अनुसार उनके पास भी समान त्रुटियां थीं)। लेकिन अगर आपको ऑडियो / वीडियो फ़ाइल अपलोड करने और इसे टेक्स्ट (ट्रांसक्रिप्शन) में अनुवाद करने या किसी अन्य भाषा में वॉयस टेक्स्ट का एक साथ अनुवाद करने जैसी अतिरिक्त सुविधाओं की आवश्यकता है, तो स्पीचपैड सबसे अच्छा विकल्प होगा!

वैसे, उन्होंने नेक्रासोव की कविता के एक अंश का अंग्रेजी में एक साथ अनुवाद कैसे किया:

खैर, यह प्रोजेक्ट के लेखक द्वारा स्वयं रिकॉर्ड किए गए स्पीचपैड के साथ काम करने के लिए एक छोटा वीडियो निर्देश है:

दोस्तों क्या आपको यह सेवा पसंद आई? क्या आप बेहतर एनालॉग्स जानते हैं? टिप्पणियों में अपने इंप्रेशन साझा करें।

ट्यूटोरियल

इस लेख में, मैं स्पीच रिकग्निशन जैसे सॉफ्टवेयर विकास के ऐसे दिलचस्प क्षेत्र की मूल बातों की समीक्षा करना चाहता हूं। स्वाभाविक रूप से, मैं इस विषय का विशेषज्ञ नहीं हूं, इसलिए मेरी कहानी अशुद्धियों, त्रुटियों और निराशाओं से भरी होगी। फिर भी, मेरे "काम" का मुख्य लक्ष्य, जैसा कि नाम से ही स्पष्ट है, समस्या का पेशेवर विश्लेषण नहीं है, बल्कि बुनियादी अवधारणाओं, समस्याओं और उनके समाधानों का विवरण है। सामान्य तौर पर, मैं उन सभी से पूछता हूं जो कटौती के तहत स्वागत करना चाहते हैं!

प्रस्ताव

आइए इस तथ्य से शुरू करें कि हमारा भाषण ध्वनियों का एक क्रम है। ध्वनि, बदले में, विभिन्न आवृत्तियों के ध्वनि कंपन (तरंगों) का एक सुपरपोजिशन (सुपरपोजिशन) है। एक तरंग, जैसा कि हम भौतिकी से जानते हैं, दो विशेषताओं की विशेषता है - आयाम और आवृत्ति।

इस तरह, यांत्रिक कंपन आधुनिक कंप्यूटरों पर प्रसंस्करण के लिए उपयुक्त संख्याओं के समूह में परिवर्तित हो जाते हैं।

यह इस प्रकार है कि भाषण मान्यता का कार्य संख्यात्मक मूल्यों (डिजिटल सिग्नल) और कुछ शब्दकोश (रूसी भाषा, उदाहरण के लिए) के शब्दों के "मिलान" के लिए कम हो जाता है।

आइए देखें कि वास्तव में, इस "मानचित्रण" को कैसे लागू किया जा सकता है।

इनपुट डेटा

मान लें कि हमारे पास ऑडियो डेटा के साथ कुछ फ़ाइल/स्ट्रीम है। सबसे पहले, हमें यह समझने की जरूरत है कि यह कैसे काम करता है और इसे कैसे पढ़ना है। आइए सबसे सरल विकल्प देखें - एक WAV फ़ाइल।

प्रारूप का तात्पर्य फ़ाइल में दो ब्लॉकों की उपस्थिति से है। ऑडियो स्ट्रीम के बारे में जानकारी के साथ पहला ब्लॉक हेडर है: बिटरेट, आवृत्ति, चैनलों की संख्या, फ़ाइल की लंबाई, आदि। दूसरे ब्लॉक में "कच्चा" डेटा होता है - वही डिजिटल सिग्नल, आयाम मानों का एक सेट।

इस मामले में डेटा पढ़ने का तर्क काफी सरल है। हम हेडर पढ़ते हैं, कुछ प्रतिबंधों की जांच करते हैं (उदाहरण के लिए संपीड़न की कमी), डेटा को विशेष रूप से आवंटित सरणी में सहेजते हैं।

मान्यता

विशुद्ध रूप से सैद्धांतिक रूप से, अब हम उस नमूने की तुलना (तत्व से तत्व) कर सकते हैं जो हमारे पास किसी अन्य के साथ है, जिसका पाठ हम पहले से जानते हैं। यही है, भाषण को "पहचानने" का प्रयास करें ... लेकिन ऐसा न करना बेहतर है :)

आवाज के समय (शब्द का उच्चारण करने वाला व्यक्ति), उच्चारण की मात्रा और गति में बदलाव के लिए हमारा दृष्टिकोण स्थिर (अच्छी तरह से, कम से कम थोड़ा) होना चाहिए। स्वाभाविक रूप से, यह दो ऑडियो संकेतों की तत्व-दर-तत्व तुलना द्वारा प्राप्त नहीं किया जा सकता है।

इसलिए, हम थोड़ा अलग तरीके से जाएंगे।

फ्रेम्स

सबसे पहले, आइए अपने डेटा को छोटे समय अंतराल - फ्रेम में विभाजित करें। इसके अलावा, फ्रेम को एक के बाद एक सख्ती से नहीं जाना चाहिए, लेकिन "ओवरलैप"। वे। एक फ्रेम का अंत दूसरे की शुरुआत के साथ प्रतिच्छेद करना चाहिए।

फ़्रेम विशिष्ट सिग्नल मानों की तुलना में डेटा विश्लेषण की अधिक उपयुक्त इकाई हैं, क्योंकि विशिष्ट बिंदुओं की तुलना में एक निश्चित अंतराल पर तरंगों का विश्लेषण करना अधिक सुविधाजनक है। फ्रेम "ओवरलैपिंग" की व्यवस्था फ्रेम के विश्लेषण के परिणामों को सुचारू करना संभव बनाती है, फ्रेम के विचार को मूल फ़ंक्शन (सिग्नल वैल्यू) के साथ चलने वाली "विंडो" में बदल देती है।

यह अनुभवजन्य रूप से स्थापित किया गया है कि इष्टतम फ्रेम लंबाई 10ms, "ओवरलैप" - 50% के अंतराल के अनुरूप होनी चाहिए। यह देखते हुए कि औसत शब्द लंबाई (कम से कम मेरे प्रयोगों में) 500ms है, ऐसा कदम हमें लगभग 500 / (10 * 0.5) = 100 फ्रेम प्रति शब्द देगा।

शब्द तोड़ना

भाषण मान्यता में हल किया जाने वाला पहला कार्य इस भाषण को अलग-अलग शब्दों में विभाजित करना है। सादगी के लिए, मान लें कि हमारे मामले में भाषण में कुछ विराम (मौन के अंतराल) होते हैं, जिन्हें शब्दों के "विभाजक" के रूप में माना जा सकता है।

इस मामले में, हमें कुछ मूल्य खोजने की जरूरत है, एक सीमा - मान जिसके ऊपर एक शब्द है, जिसके नीचे मौन हैं। यहां कई विकल्प हो सकते हैं:

एक स्थिर पर सेट (काम करता है अगर मूल संकेत हमेशा एक ही स्थिति में, उसी तरह उत्पन्न होता है);
मौन के अनुरूप मूल्यों के सेट को स्पष्ट रूप से उजागर करके क्लस्टर सिग्नल मान (यह तभी काम करेगा जब मौन मूल सिग्नल के एक महत्वपूर्ण हिस्से पर कब्जा कर ले);
एन्ट्रापी का विश्लेषण;

जैसा कि आपने अनुमान लगाया होगा, अब हम अंतिम बिंदु के बारे में बात करेंगे :) आइए इस तथ्य से शुरू करें कि एन्ट्रापी विकार का एक उपाय है, "किसी भी अनुभव की अनिश्चितता का एक उपाय" (सी)। हमारे मामले में, एन्ट्रॉपी का मतलब है कि किसी दिए गए फ्रेम के भीतर हमारा सिग्नल कितना "उतार-चढ़ाव" करता है।

मान लीजिए कि हमारा संकेत सामान्यीकृत है और इसके सभी मूल्य सीमा में हैं [-1;1];
फ़्रेम सिग्नल मानों का एक हिस्टोग्राम (वितरण घनत्व) बनाएं:

एन्ट्रापी की गणना इस प्रकार करें

;

और इसलिए, हमें एन्ट्रापी का मान मिला। लेकिन यह फ्रेम की एक और विशेषता है, और ध्वनि को मौन से अलग करने के लिए, हमें अभी भी इसकी तुलना किसी चीज़ से करने की आवश्यकता है। कुछ लेखों में, अधिकतम और न्यूनतम मूल्यों (सभी फ़्रेमों के बीच) के बीच औसत के बराबर एन्ट्रापी थ्रेशोल्ड लेने की सिफारिश की जाती है। हालाँकि, मेरे मामले में, इस दृष्टिकोण ने कोई अच्छा परिणाम नहीं दिया।
सौभाग्य से, एन्ट्रापी (मानों के माध्य वर्ग के विपरीत) एक अपेक्षाकृत स्वतंत्र मात्रा है। इसने मुझे स्थिरांक (0.1) के रूप में इसकी दहलीज का मान लेने की अनुमति दी।

फिर भी, समस्याएं यहीं समाप्त नहीं होती हैं: (एन्ट्रॉपी एक शब्द के बीच में (स्वर पर) शिथिल हो सकती है, या यह थोड़ा शोर के कारण अचानक कूद सकता है। पहली समस्या से निपटने के लिए, हमें परिचय देना होगा "शब्दों के बीच न्यूनतम दूरी" और "गोंद" की अवधारणा, पास के लेटा हुआ फ्रेम सेट, जो सबसिडेंस के कारण अलग हो गए हैं। दूसरी समस्या "न्यूनतम शब्द लंबाई" का उपयोग करके हल की जाती है और उन सभी उम्मीदवारों को काट दिया जाता है जो चयन पास नहीं करते थे (और उपयोग नहीं किए गए थे) पहले पैराग्राफ में)।

यदि, सिद्धांत रूप में, भाषण "स्पष्ट" नहीं है, तो कोई फ्रेम के मूल सेट को एक निश्चित तरीके से तैयार किए गए अनुक्रमों में तोड़ने का प्रयास कर सकता है, जिनमें से प्रत्येक को एक मान्यता प्रक्रिया के अधीन किया जाएगा। लेकिन यह पूरी तरह से अलग कहानी है :)

और इसलिए, हमारे पास एक निश्चित शब्द के अनुरूप फ्रेम का एक सेट है। हम कम से कम प्रतिरोध का रास्ता अपना सकते हैं और फ्रेम की संख्यात्मक विशेषता के रूप में इसके सभी मूल्यों (रूट मीन स्क्वायर) के माध्य वर्ग का उपयोग कर सकते हैं। हालांकि, इस तरह के एक मीट्रिक में आगे के विश्लेषण के लिए उपयुक्त बहुत कम जानकारी होती है।

यह वह जगह है जहां मेल-फ़्रीक्वेंसी सेस्ट्रल गुणांक खेल में आते हैं। विकिपीडिया के अनुसार (जैसा कि आप जानते हैं, झूठ नहीं है), एमएफसीसी सिग्नल स्पेक्ट्रम की ऊर्जा का एक प्रकार का प्रतिनिधित्व है। इसका उपयोग करने के फायदे इस प्रकार हैं:

सिग्नल के स्पेक्ट्रम का उपयोग किया जाता है (अर्थात, ऑर्थोगोनल [सह] साइनसॉइडल फ़ंक्शंस के आधार पर विस्तार), जो आगे के विश्लेषण में सिग्नल की तरंग "प्रकृति" को ध्यान में रखना संभव बनाता है;
स्पेक्ट्रम को एक विशेष मेल-स्केल पर प्रक्षेपित किया जाता है, जिससे आप मानवीय धारणा के लिए सबसे महत्वपूर्ण आवृत्तियों को उजागर कर सकते हैं;
परिकलित गुणांकों की संख्या किसी भी मान (उदाहरण के लिए, 12) तक सीमित हो सकती है, जो आपको फ़्रेम को "संपीड़ित" करने की अनुमति देती है और, परिणामस्वरूप, संसाधित की जा रही जानकारी की मात्रा;

आइए एक निश्चित फ्रेम के लिए एमएफसीसी गुणांक की गणना की प्रक्रिया को देखें।

आइए एक वेक्टर के रूप में हमारे फ्रेम का प्रतिनिधित्व करते हैं, जहां एन फ्रेम का आकार है।

फूरियर विस्तार

सबसे पहले, हम असतत फूरियर ट्रांसफॉर्म (अधिमानतः इसका "तेज" एफएफटी कार्यान्वयन) का उपयोग करके सिग्नल स्पेक्ट्रम की गणना करते हैं।

अर्थात्, परिणाम निम्न रूप का एक सदिश होगा:

यह समझना महत्वपूर्ण है कि एक्स-अक्ष पर इस परिवर्तन के बाद हमारे पास सिग्नल की आवृत्ति (एचजेड) होती है, और वाई-अक्ष पर हमारे पास परिमाण होता है (जटिल मूल्यों से दूर जाने के तरीके के रूप में):

मेल फिल्टर की गणना

आइए शुरू करते हैं कि मेल क्या है। विकिपीडिया के अनुसार, मेल औसत लोगों द्वारा व्यक्तिपरक धारणा के आधार पर "पिच की मनोवैज्ञानिक इकाई" है। यह मुख्य रूप से ध्वनि की आवृत्ति (साथ ही मात्रा और समय पर) पर निर्भर करता है। दूसरे शब्दों में, यह मान, यह दर्शाता है कि एक निश्चित आवृत्ति की ध्वनि हमारे लिए कितनी "महत्वपूर्ण" है।

आप निम्न सूत्र का उपयोग करके आवृत्ति को चाक में बदल सकते हैं (इसे "सूत्र -1" के रूप में याद रखें):

रिवर्स ट्रांसफॉर्मेशन इस तरह दिखता है (इसे "फॉर्मूला -2" के रूप में याद रखें):

प्लॉट मेल / आवृत्ति:

लेकिन वापस हमारे काम पर। मान लें कि हमारे पास 256 तत्वों के आकार वाला एक फ्रेम है। हम जानते हैं (ऑडियो प्रारूप डेटा से) कि किसी दिए गए फ्रेम में ऑडियो आवृत्ति 16000 हर्ट्ज है। आइए मान लें कि मानव भाषण हर्ट्ज से सीमा में है। आइए हम मांगे गए मेल-गुणांक M = 10 (अनुशंसित मान) की संख्या निर्धारित करें।

ऊपर प्राप्त स्पेक्ट्रम को मेल-स्केल पर विघटित करने के लिए, हमें फिल्टर का "कंघी" बनाने की आवश्यकता है। वास्तव में, प्रत्येक मेल फ़िल्टर एक त्रिकोणीय विंडो फ़ंक्शन है जो आपको एक निश्चित आवृत्ति सीमा पर ऊर्जा की मात्रा को योग करने की अनुमति देता है और इस तरह मेल गुणांक प्राप्त करता है। मेल गुणांक की संख्या और विश्लेषण की गई आवृत्ति रेंज को जानने के बाद, हम ऐसे फिल्टर का एक सेट बना सकते हैं:

ध्यान दें कि मेल गुणांक संख्या जितनी अधिक होगी, फ़िल्टर का आधार उतना ही व्यापक होगा। यह इस तथ्य के कारण है कि फिल्टर द्वारा संसाधित श्रेणियों में हमारे लिए ब्याज की आवृत्ति रेंज का विभाजन चाक पैमाने पर होता है।

लेकिन हम फिर से पछताते हैं। और इसलिए हमारे मामले के लिए, हमारे लिए ब्याज की आवृत्तियों की सीमा है । चाक पैमाने पर सूत्र-1 के अनुसार यह परास बन जाता है।

एम [मैं] =

कृपया ध्यान दें कि डॉट्स चाक स्केल पर समान रूप से दूरी पर हैं। आइए फॉर्मूला -2 का उपयोग करके स्केल को वापस हर्ट्ज में बदलें:

एच [मैं] =

जैसा कि आप देख सकते हैं, अब पैमाना धीरे-धीरे फैलने लगा, जिससे निम्न और उच्च आवृत्तियों पर "महत्व" के विकास की गतिशीलता को समतल किया गया।

अब हमें अपने फ्रेम के स्पेक्ट्रम पर परिणामी पैमाने को ओवरले करना होगा। जैसा कि हमें याद है, एक्स-अक्ष पर हमारे पास आवृत्ति होती है। स्पेक्ट्रम की लंबाई 256 - तत्व है, जबकि यह 16000 हर्ट्ज फिट बैठता है। एक साधारण अनुपात को हल करके, आप निम्न सूत्र प्राप्त कर सकते हैं:

f(i) = तल ((फ्रेम आकार+1) * h(i) / नमूना दर)

जो हमारे मामले में बराबर है

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

बस इतना ही! हमारे स्पेक्ट्रम के एक्स-अक्ष पर संदर्भ बिंदुओं को जानने के बाद, निम्न सूत्र का उपयोग करके हमें आवश्यक फ़िल्टर बनाना आसान है:

फिल्टर लगाना, स्पेक्ट्रम ऊर्जा का लघुगणक

फिल्टर के आवेदन में स्पेक्ट्रम के मूल्यों के साथ इसके मूल्यों के जोड़ीदार गुणन होते हैं। इस ऑपरेशन का परिणाम मेल गुणांक है। चूंकि हमारे पास एम फिल्टर हैं, इसलिए गुणांक की संख्या समान होगी।

हालांकि, हमें मेल फिल्टर को स्पेक्ट्रम के मूल्यों पर नहीं, बल्कि उसकी ऊर्जा पर लागू करने की आवश्यकता है। फिर परिणामों का लघुगणक लें। ऐसा माना जाता है कि इससे गुणांकों की शोर के प्रति संवेदनशीलता कम हो जाती है।

कोज्या परिवर्तन

असतत कोसाइन ट्रांसफ़ॉर्म (DCT) का उपयोग उन "सेप्स्ट्रल" गुणांकों को प्राप्त करने के लिए किया जाता है। इसका अर्थ पहले गुणांक के महत्व को बढ़ाकर और बाद के महत्व को कम करके प्राप्त परिणामों को "संपीड़ित" करना है।

इस मामले में, DCTII का उपयोग बिना किसी गुणा (स्केल फ़ैक्टर) के किया जाता है।

अब प्रत्येक फ्रेम के लिए हमारे पास M mfcc गुणांक का एक सेट है जिसका उपयोग आगे के विश्लेषण के लिए किया जा सकता है।

अतिव्यापी विधियों के लिए कोड के उदाहरण मिल सकते हैं।

मान्यता एल्गोरिथ्म

यहाँ, प्रिय पाठक, मुख्य निराशा आपका इंतजार कर रही है। इंटरनेट पर, मैंने बहुत सारे अत्यधिक बुद्धिमान (और ऐसा नहीं) विवादों को देखा, जिसके बारे में मान्यता पद्धति बेहतर है। कोई हिडन मार्कोव मॉडल के लिए खड़ा है, कोई तंत्रिका नेटवर्क के लिए, किसी के विचारों को समझना मूल रूप से असंभव है :)

किसी भी मामले में, एचएमएम को बहुत अधिक वरीयता दी जाती है, और यह उनका कार्यान्वयन है कि मैं अपने कोड में जोड़ने जा रहा हूं ... भविष्य में :)

फिलहाल, मैं बहुत कम प्रभावी, लेकिन कई बार सरल तरीके से रुकने का प्रस्ताव करता हूं।

और इसलिए, याद रखें कि हमारा काम किसी शब्दकोष से किसी शब्द को पहचानना है। सादगी के लिए, हम पहले दस अंकों के नामों को पहचानेंगे: "एक", "दो", "तीन", "चार", "पांच", "छः", "सात", "आठ", "नौ", "दस"।

अब आइए एक आईफोन / एंड्रॉइड उठाएं और एल सहयोगियों के माध्यम से रिकॉर्ड के लिए इन शब्दों को निर्देशित करने के अनुरोध के साथ जाएं। इसके बाद, आइए प्रत्येक शब्द L को संबंधित रिकॉर्ड के mfcc-गुणांक के सेट के लिए (कुछ स्थानीय डेटाबेस या एक साधारण फ़ाइल में) असाइन करें।

हम इस पत्राचार को "मॉडल" कहेंगे, और प्रक्रिया ही - मशीन लर्निंग! वास्तव में, डेटाबेस में नए नमूने जोड़ने से मशीन लर्निंग के साथ बेहद कमजोर संबंध है ... लेकिन यह शब्द बहुत ही चलन में है :)

अब हमारा काम एमएफसीसी-गुणांक (पहचानने योग्य शब्द) के कुछ सेट के लिए "निकटतम" मॉडल का चयन करने के लिए कम हो गया है। पहली नज़र में, समस्या को काफी सरलता से हल किया जा सकता है:

प्रत्येक मॉडल के लिए, हम पहचाने गए एमएफसीसी-वेक्टर और मॉडल वैक्टर के बीच औसत (यूक्लिडियन) दूरी पाते हैं;
हम सही मॉडल के रूप में चुनते हैं, जिसकी औसत दूरी सबसे छोटी होगी;

हालाँकि, एक ही शब्द का उच्चारण आंद्रेई मालाखोव और उनके कुछ एस्टोनियाई सहयोगियों द्वारा किया जा सकता है। दूसरे शब्दों में, एक ही शब्द के लिए mfcc वेक्टर का आकार भिन्न हो सकता है।

सौभाग्य से, डायनेमिक टाइम वारपिंग एल्गोरिथम के रूप में विभिन्न लंबाई के अनुक्रमों की तुलना करने की समस्या को पहले ही हल कर लिया गया है। इस गतिशील प्रोग्रामिंग एल्गोरिथ्म को बुर्जुआ विकी और रूढ़िवादी हब्रे दोनों में खूबसूरती से वर्णित किया गया है।

इसमें जो परिवर्तन किया जाना चाहिए, वह केवल दूरी का पता लगाने का तरीका है। हमें याद रखना चाहिए कि मॉडल का mfcc वेक्टर वास्तव में फ्रेम से प्राप्त आयाम M के mfcc "सबवेक्टर" का एक क्रम है। तो, DTW एल्गोरिथ्म को आयाम M के इन्हीं "सबवेक्टर" के अनुक्रमों के बीच की दूरी का पता लगाना चाहिए। यानी, फ्रेम के mfcc "सबवेक्टर" के बीच की दूरी (यूक्लिडियन) को दूरी मैट्रिक्स के मूल्यों के रूप में उपयोग किया जाना चाहिए।

प्रयोगों

मुझे बड़े "प्रशिक्षण" नमूने पर इस दृष्टिकोण के काम का परीक्षण करने का अवसर नहीं मिला। गैर-सिंथेटिक स्थितियों में प्रत्येक शब्द के लिए 3 उदाहरणों के नमूने पर परीक्षण के परिणाम, इसे हल्के ढंग से रखने के लिए, सर्वोत्तम परिणाम नहीं - सही पहचान का 65%।

हालाँकि, मेरा लक्ष्य वाक् पहचान के लिए सबसे सरल अनुप्रयोग बनाना था। तो कहने के लिए "अवधारणा का प्रमाण" :) टैग जोड़ें

9. ध्वन्यात्मक स्थिति। मजबूत और कमजोर स्वर।

10. स्वर स्वरों के स्थितीय विकल्प। स्वर स्वरों की मात्रात्मक और गुणात्मक कमी।

11. व्यंजन स्वरों के स्थितीय विकल्प। बहरेपन/आवाज द्वारा और कठोरता/कोमलता द्वारा आत्मसात और प्रसार।

12. ध्वनि के ऐतिहासिक विकल्प।

13. कम स्वर स्वरों का पतन और इस घटना के परिणाम।

14. पुरानी रूसी भाषा में नाक की आवाज़ के इतिहास से जुड़े विकल्प।

15. पश्च जीभों का तालुकरण।

17. ध्वन्यात्मक प्रतिलेखन। ध्वन्यात्मक प्रतिलेखन

18. शब्दांश। पाठ्यक्रम। सिलेबल्स के प्रकार।

19. ध्वन्यात्मक शब्द। तनाव

20. भाषण हरा। आवाज़ का उतार-चढ़ाव

21. जोर। इंटोनेशन निर्माण

21. वाक्यांश। आवाज़ का उतार-चढ़ाव

22. ऑर्थोपी की अवधारणा

23. रूसी साहित्यिक उच्चारण के बुनियादी नियम।

24. तनाव में स्वरों का उच्चारण। अस्थिर स्वरों का उच्चारण।

25. व्यक्तिगत व्यंजन का उच्चारण।

26. व्यंजन के समूहों का उच्चारण।

27. कुछ व्याकरणिक रूपों का उच्चारण।

28. कुछ संक्षिप्ताक्षरों का उच्चारण। विदेशी शब्दों के उच्चारण की विशेषताएं।

29. रूसी में तनाव में महारत हासिल करने के कठिन मामले।

30. रूसी साहित्यिक उच्चारण का विकास।

31. व्याकरण कोडिंग

32. सिमेंटिक कोडिंग। दो-तर्क (अस्थायी संकेत): कार्य-कारण।

33. सिमेंटिक कोडिंग। दो-तर्क (अस्थायी संकेत): परिणाम, परिणाम, उद्देश्य।

34. सिमेंटिक कोडिंग। दो-तर्क (अस्थायी संकेत): परिवर्तन, परिवर्तन

35. सिमेंटिक कोडिंग। दो-तर्क (अस्थायी संकेत): बातचीत, समूहीकरण, समानता, जुड़ाव

36. सिमेंटिक कोडिंग। दो-तर्क (अस्थायी संकेत): अलगाव, प्रभाव, स्थिति, प्रवेश।

37. सिमेंटिक कोडिंग। दो तर्क (अस्थायी संकेत): अनुपालन, नियंत्रण, अधीनता, निर्भरता।

38. सिमेंटिक कोडिंग। एक-तर्क (स्थायी संकेत): संपत्ति, आवश्यकता, संभावना, संभावना, हाँ, नहीं।

39. सिमेंटिक कोडिंग। एक-तर्क (निरंतर संकेत): सत्य, असत्य।

सिमेंटिक कोड। उसके लक्ष्य। प्रयोजन। निर्माण सिद्धांत। अवसर।

सिमेंटिक कोड का उद्देश्य। शब्द "अर्थ"।

सिमेंटिक कोड का उद्देश्य। मूलपाठ। जानकारी। सूचना के विकास में हाइपरटेक्स्ट।

43. शब्दार्थ कोडिंग में व्याकरण और शब्दार्थ विश्लेषण।

44. शब्दार्थ कोडिंग के लिए संगतता और साहचर्य शब्दकोश का रूसी शब्दार्थ शब्दकोश।

सिमेंटिक कोड का उद्देश्य। सिस्टम आइसोमोर्फिज्म।

सिमेंटिक कोड का उद्देश्य। आवश्यक और पर्याप्त का सिद्धांत।

सिमेंटिक कोड का उद्देश्य। कक्षाओं और उपवर्गों की कनेक्टिविटी

48. सिमेंटिक कोड का उद्देश्य। पदानुक्रम / गैर-पदानुक्रम का सिद्धांत।

49. सिमेंटिक कोड का उद्देश्य। प्रणालीगत रूपक।

50. स्थितिजन्य (स्थितिजन्य) शब्दार्थ कोड।

51. सिमेंटिक कोडिंग। संरेखण-व्याख्यात्मक कोड। मैट्रिक्स कोड।

52. भाषण इंटरफेस के मुख्य कार्य और प्रमुख अवधारणाएं।

53. वाक् पहचान और संश्लेषण की समस्या की ऐतिहासिक समीक्षा।

54. स्वचालित भाषण संश्लेषण की प्रणाली। भाषण इंटरफ़ेस के व्यावहारिक अनुप्रयोग।

55. स्वचालित वाक् पहचान प्रणाली। भाषण इंटरफ़ेस के व्यावहारिक अनुप्रयोग।

56. भाषण इंटरफेस की भाषाई नींव। भाषण प्रणालियों के कार्यान्वयन में भाषाविज्ञान का उपयोग।

57. भाषण संकेत की संरचना। विश्लेषण और संश्लेषण। भाषण संकेत की वर्णक्रमीय-लौकिक विशेषताएं।

58. भाषण संकेत की सूचना और मॉडुलन संरचना।

59. भाषण संकेत को संश्लेषित करने के तरीके। भाषण संकेतों का वर्णन करने के लिए सामान्यीकृत गणितीय मॉडल।

60. भाषण संकेत को संश्लेषित करने के तरीके। मुखर पथ का ज्यामितीय मॉडल।

61. भाषण संकेत को संश्लेषित करने के तरीके। फॉर्मेंट मॉडल।

62. एक भाषण संकेत के संश्लेषण के लिए संकलन के तरीके।

63. भाषण संकेत विश्लेषण के तरीके।

64. भाषण संकेत के डिजिटल फ़िल्टरिंग की विधि। एफएफटी एल्गोरिदम का उपयोग करके वर्णक्रमीय विश्लेषण। डिजिटल फ़िल्टरिंग विधि

एफएफटी एल्गोरिदम का उपयोग करके स्पेक्ट्रम विश्लेषण

65. रैखिक भविष्यवाणी पर आधारित वर्णक्रमीय विश्लेषण। भाषण संकेत का प्रारूप-पैरामीट्रिक विवरण। रैखिक भविष्यवाणी के आधार पर वर्णक्रमीय विश्लेषण

भाषण संकेत का प्रारूप-पैरामीट्रिक विवरण

66. सेस्ट्रल गुणांक की विधि। भाषण धारणा की विशेषताएं। किसी व्यक्ति द्वारा भाषण की ग्रहणशील धारणा के गुण। सेस्ट्रल गुणांक विधि

67. भाषण संकेतों की ग्रहणशील धारणा के गुण। भाषण संकेत की श्रवण (ध्वन्यात्मक) विशेषताओं की प्रकृति। भाषण संकेतों की ग्रहणशील धारणा के गुण

भाषण संकेत की श्रवण (ध्वन्यात्मक) विशेषताओं की प्रकृति

68. भाषण के न्यूनतम सार्थक तत्वों की धारणा के गुण

69. पाठ में भाषण का संश्लेषण। पाठ द्वारा वाक् सिंथेसाइज़र की संरचना।

टेक्स्ट-टू-स्पीच संरचना मुख्य अवधारणाएं:

70. भाषाई प्रोसेसर। टेक्स्ट प्रीप्रोसेसिंग। पाठ का वाक्यांश प्रसंस्करण।

टेक्स्ट प्रीप्रोसेसिंग

वाक्यांश-दर-वाक्यांश पाठ प्रसंस्करण

71. परीक्षण की वर्ड प्रोसेसिंग। भाषाई प्रोसेसर के काम का एक उदाहरण। शब्द संसाधन

भाषाई प्रोसेसर के काम का एक उदाहरण

72. प्रोसोडिक प्रोसेसर

73. ध्वन्यात्मक प्रोसेसर। आर्टिक्यूलेटरी-फोनेटिक प्रोसेसर। फॉर्मेंट फोनेटिक प्रोसेसर।

74. एलोफोन फोनेटिक प्रोसेसर। ध्वनिक प्रोसेसर।

75. भाषण चातुर्य की ज्यामिति का अनुमान। वाक् संश्लेषण के संकलन विधियों पर आधारित ध्वनिक प्रोसेसर।

76. स्वचालित वाक् पहचान प्रणाली का वर्गीकरण। स्वचालित भाषण मान्यता के तरीके।

77. वाक् पहचान विधियों का वर्गीकरण।

78. गतिशील प्रोग्रामिंग की विधि।

79. छिपे हुए मार्कोव मॉडल की विधि।

स्वचालित वाक् पहचान प्रणाली (SAPP) को उन प्रणालियों के रूप में समझा जाता है जो इनपुट भाषण (भाषण संकेत) को एक मान्यता प्राप्त संदेश में परिवर्तित करती हैं। इस मामले में, मान्यता प्राप्त संदेश को इस संदेश के पाठ के रूप में प्रस्तुत किया जा सकता है, और

सिस्टम की प्रतिक्रिया बनाने के लिए इसके आगे की प्रक्रिया के लिए सुविधाजनक रूप में तुरंत परिवर्तित किया गया। प्रारंभ में, स्वचालित वाक् पहचान प्रणाली को पाठ को वाक् में परिवर्तित करने का काम सौंपा जाता है। इसलिए, अंग्रेजी साहित्य में, इन प्रणालियों को स्पीच टू टेक्स्ट सिस्टम कहा जाता है। अक्सर, स्वचालित वाक् पहचान प्रणाली को केवल वाक् पहचान प्रणाली (SPR) के रूप में भी संदर्भित किया जाता है।

स्वचालित वाक् पहचान प्रणाली का एक सरलीकृत ब्लॉक आरेख अंजीर में दिखाया गया है।

भाषण संकेत विश्लेषण मॉडल के तहतउस ब्लॉक को समझें जिसका कार्य इनपुट सिग्नल का विश्लेषण करना है, सबसे पहले, इसे भाषण सिग्नल के रूप में वर्गीकृत करने के लिए, और दूसरा, प्राप्त सिग्नल में घटकों को हाइलाइट करने के लिए जो मुख्य हैं

प्राप्त संदेश की मान्यता। इन घटकों में भाषण का वर्णन करने वाले पैरामीटर शामिल हैं, जो भाषण संश्लेषण की प्रक्रिया में बनते हैं। निर्दिष्ट मापदंडों का सेट चयनित मान्यता पद्धति पर निर्भर करता है।

वाक् पहचान और निर्णय लेने का मॉडलएक ब्लॉक है जिसके भीतर पहले ब्लॉक से प्राप्त मापदंडों के अनुक्रम के विश्लेषण के आधार पर एक मान्यता प्राप्त संदेश बनता है। उदाहरण के लिए, यदि भाषण विवरण के एक फॉर्मेंट मॉडल का उपयोग किया जाता है, तो पहले ब्लॉक में प्राप्त आवृत्तियों के आधार पर, इनपुट संदेश बनाने वाले मान्यता प्राप्त स्वरों के अनुक्रम का निर्माण करने के लिए फॉर्मेंट का उपयोग किया जाता है। इस मामले में, इनपुट संदेश सही ढंग से पहचाना जाता है या नहीं, इस पर निर्णय लिया जाता है। निर्णय लेते समय, विशेष रूप से, निम्नलिखित निर्णय संभव हैं: संदेश सही ढंग से पहचाना जाता है (यह उस पाठ द्वारा पुष्टि की जाती है जो प्राकृतिक भाषा के मानदंडों से मेल खाती है) या

संदेश को गलत तरीके से पहचाना या पहचाना नहीं गया है (ऐसा निर्णय तब किया जाता है जब मान्यता प्राप्त संदेश में स्पष्ट त्रुटियां होती हैं जिन्हें स्वचालित रूप से ठीक करना मुश्किल होता है या यहां तक कि पूर्ण बकवास भी)।

एपीपीएस पर लगाए गए प्रतिबंधों के रूप में उनकी विशेषता वाले निम्नलिखित पैरामीटर का हवाला दिया जा सकता है:

पहचानने योग्य भाषण का प्रकार (भाषण आदेशों की शैली में विराम के साथ शब्द-दर-शब्द उच्चारण; "श्रवण" की शैली में विराम के बिना स्पष्ट उच्चारण; सहज भाषण);

शब्दकोश की मात्रा (100, 200, आदि शब्दों तक सीमित; असीमित);

स्पीकर पर निर्भरता की डिग्री (स्पीकर-निर्भर; स्पीकर-स्वतंत्र);

वाक्यात्मक प्रतिबंध (व्यक्तिगत शब्द; विशिष्ट वाक्यांश; कृत्रिम भाषा; प्राकृतिक भाषा);

भाषण संकेत प्राप्त करने की शर्तें (माइक्रोफ़ोन से संपर्क करें; 1 मीटर से अधिक की दूरी पर माइक्रोफ़ोन रिमोट);

सीआरआर (कमजोर या मजबूत हस्तक्षेप) के उपयोग के लिए शर्तें;

मान्यता विश्वसनीयता।

भाषण इंटरफ़ेस के व्यावहारिक अनुप्रयोग

वाक् इंटरफ़ेस के व्यावहारिक उपयोग के उदाहरणों पर विचार करने के लिए आगे बढ़ने से पहले, आइए इसकी तुलना कंप्यूटर के साथ उपयोगकर्ता इंटरैक्शन के वर्तमान सबसे सामान्य माध्यमों से करें: कीबोर्ड और डिस्प्ले। भाषण इंटरफ़ेस के कम से कम तीन मूलभूत अंतरों पर ध्यान दिया जाना चाहिए:

1) की-बोर्ड और डिस्प्ले का एक स्पष्ट दोष यह है कि एक व्यक्ति को कंप्यूटर के साथ संचार करने के लिए विशेष प्रशिक्षण से गुजरना पड़ता है। साथ ही, भाषण किसी के लिए भी एक स्वाभाविक इंटरफ़ेस है, यहां तक कि एक अप्रस्तुत व्यक्ति के लिए भी। भाषण किसी व्यक्ति और कंप्यूटर के बीच मनोवैज्ञानिक दूरी को नाटकीय रूप से कम कर देता है। यदि एक भाषण इंटरफ़ेस प्रकट होता है, तो कंप्यूटर उपयोगकर्ताओं का चक्र असीमित हो सकता है;

2) भाषण स्वयं किसी भी तरह से कंप्यूटर से यांत्रिक रूप से बंधा नहीं है और संचार प्रणालियों के माध्यम से इसके साथ जोड़ा जा सकता है, उदाहरण के लिए, एक टेलीफोन। भाषण इंटरफ़ेस एक व्यक्ति और कंप्यूटर के बीच की भौतिक दूरी को छोटा करता है। यह संभावित कंप्यूटर उपयोगकर्ताओं के दायरे का और विस्तार करता है और वाक् इंटरफ़ेस को जन सूचना सेवा प्रणालियों के निर्माण के लिए एक आदर्श उपकरण बनाता है;

3) आप कंप्यूटर को पूरी तरह से अंधेरे में, अपनी आँखें बंद करके, जब आपके हाथ नियंत्रण लीवर में व्यस्त हों, अपने हाथ बंधे हुए हों, और अन्य चरम स्थितियों में संभाल सकते हैं। यह संपत्ति सूचना प्राप्त करते समय संचार की दक्षता और गतिशीलता, हाथों की रिहाई और धारणा के दृश्य चैनल को उतारने की सुविधा देती है। यह अत्यंत महत्वपूर्ण है, उदाहरण के लिए, एक बड़ी शक्ति प्रणाली के नियंत्रक या एक विमान पायलट और एक कार चालक के लिए। इसके अलावा, दृष्टिबाधित लोगों के लिए कंप्यूटर सिस्टम अधिक सुलभ होते जा रहे हैं।

वर्तमान में, भाषण कंप्यूटर प्रौद्योगिकियां पहले से ही काफी व्यापक हैं और कई दिशाओं में विकसित हो रही हैं, जिनमें से मुख्य अंजीर में दिखाए गए हैं।

बधिरों और सुनने में कठिन के लिए फोन कैप्शनर

अपनी स्क्रीन को एक शानदार फ़ोन हेडर में बदलें। यह पूरी तरह से स्वचालित है, कोई भी मानव श्रवण-टाइपिस्ट आपकी बातचीत को टाइप नहीं कर रहा है। दादा-दादी को फोन पर परिवार और दोस्तों को सुनने में कठिनाई होती है? उनके लिए स्पीचलॉगर चालू करें और फोन पर चीखना बंद करें। बस अपने फोन के ऑडियो आउटपुट को अपने कंप्यूटर के ऑडियो इनपुट से कनेक्ट करें और स्पीचलॉगर चलाएं। यह आमने-सामने बातचीत में भी उपयोगी है।

स्वचालित प्रतिलेखन

क्या आपने साक्षात्कार रिकॉर्ड किया? Google के स्वचालित भाषण से, स्पीचलॉगर द्वारा आपके ब्राउज़र में लाए गए पाठ में इसे फिर से लिखकर कुछ समय बचाएं। रिकॉर्ड किए गए इंटरव्यू को अपने कंप्यूटर के माइक्रोफ़ोन (या लाइन) में चलाएं और स्पीचलॉगर को ट्रांसक्रिप्शन करने दें। स्पीचलॉगर टेक्स्ट के ट्रांसक्रिप्शन को दिनांक, समय और आपकी टिप्पणियों के साथ सहेजता है। यह आपको टेक्स्ट संपादित करने की भी अनुमति देता है। उसी पद्धति का उपयोग करके टेलीफोन वार्तालापों को ट्रांसक्रिप्ट किया जा सकता है। जैसा कि नीचे बताया गया है, आप सीधे अपने कंप्यूटर से ऑडियो फ़ाइलें भी रिकॉर्ड कर सकते हैं।

स्वचालित दुभाषिया और अनुवादक

विदेशी मेहमानों के साथ बैठक? एक स्पीचलॉगर और माइक्रोफ़ोन के साथ एक लैपटॉप (या दो) लाओ। प्रत्येक पक्ष एक दूसरे के बोले गए शब्दों को वास्तविक समय में उनकी अपनी भाषा में अनुवादित होते हुए देखेगा। यह सुनिश्चित करने के लिए कि आप दूसरे पक्ष को पूरी तरह से समझते हैं, एक विदेशी भाषा में फोन कॉल करना भी सहायक होता है। अपने फोन के ऑडियो आउटपुट को अपने कंप्यूटर के लाइन-इन से कनेक्ट करें और स्पीचलॉगर शुरू करें।

विदेशी भाषाएं सीखें और अपने उच्चारण कौशल में सुधार करें

स्पीचलॉगर एक बेहतरीन भाषा सीखने का उपकरण है और इसे कई तरह से इस्तेमाल किया जा सकता है। आप अपनी मूल भाषा बोलकर और सॉफ़्टवेयर को इसका अनुवाद करने देकर शब्दावली सीखने के लिए इसका उपयोग कर सकते हैं। आप विदेशी भाषा बोलकर सही उच्चारण सीख सकते हैं और अभ्यास कर सकते हैं और देख सकते हैं कि स्पीचलॉगर समझता है या नहीं। यदि पाठ काले रंग में लिखा गया है, तो इसका मतलब है कि आपने इसे अच्छी तरह से उच्चारण किया है।

मूवी उपशीर्षक पीढ़ी

स्पीचलॉगर स्वचालित रूप से मूवी या अन्य ध्वनि फ़ाइलों को रिकॉर्ड कर सकता है। फिर फ़ाइल लें और अंतरराष्ट्रीय उपशीर्षक बनाने के लिए स्वचालित रूप से किसी भी भाषा में इसका अनुवाद करें।

टाइप करने के बजाय डिक्टेट करें

एक पत्र लिख रहा हूं? दस्तावेज़ीकरण? सूचियाँ? सारांश? आपको जो कुछ भी टाइप करने की आवश्यकता है, उसे इसके बजाय स्पीचलॉगर को निर्देशित करने का प्रयास करें। स्पीचलॉगर इसे स्वचालित रूप से आपके लिए सहेज लेगा और आपको इसे एक दस्तावेज़ में निर्यात करने देगा।

मज़ाकिया खेल :)

क्या आप चीनी वक्ता की नकल कर सकते हैं? फ्रेंच? रूसी के बारे में क्या? एक विदेशी भाषा की नकल करने की कोशिश करें और देखें कि आपने हाल ही में स्पीचलॉगर के साथ क्या कहा। आपने अभी जो कहा है उसे समझने के लिए स्पीचलॉगर के युगपत अनुवाद का उपयोग करें। आश्चर्यजनक परिणाम प्राप्त करें - यह बहुत मज़ेदार है!

छात्र के लिए पोर्टल। आत्म प्रशिक्षण