ម៉ាស៊ីនសម្គាល់ការនិយាយ។ ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ

ធ្លាប់ល្អប៉ុណ្ណា! តាមរយៈការហៅទៅកាន់ផ្នែកជំនួយ វាអាចនិយាយជាមួយប្រតិបត្តិករស្រី ហើយថែមទាំងធ្វើការណាត់ជួបជាមួយនាងទៀតផង។ ឥឡូវនេះ នៅចុងម្ខាងទៀតនៃខ្សែ សំឡេងស្រីដ៏រីករាយ ប៉ុន្តែគ្មានជីវិតត្រូវបានឮ ដោយផ្តល់ជូនដើម្បីចុចលេខ 1 ដើម្បីទទួលបានព័ត៌មានបែបនេះ និង 2 - ដើម្បីទំនាក់ទំនងជាមួយនោះ 3 - ដើម្បីចេញពីម៉ឺនុយ។ល។ កាន់តែខ្លាំងឡើង ការចូលប្រើប្រាស់ព័ត៌មានត្រូវបានគ្រប់គ្រងដោយប្រព័ន្ធ មិនមែនដោយបុគ្គលនោះទេ។ នេះមានតក្កវិជ្ជាផ្ទាល់ខ្លួន៖ ការងារឯកកោ និងមិនចាប់អារម្មណ៍ មិនមែនធ្វើដោយមនុស្សទេ ប៉ុន្តែដោយម៉ាស៊ីន។ ហើយសម្រាប់អ្នកប្រើប្រាស់នីតិវិធីសម្រាប់ការទទួលបានព័ត៌មានគឺសាមញ្ញ: គាត់បានហៅលេខជាក់លាក់មួយ - គាត់បានទទួលព័ត៌មានចាំបាច់។

តើប្រព័ន្ធបែបនេះដំណើរការយ៉ាងដូចម្តេច? ចូរយើងព្យាយាមស្វែងយល់។

ប្រភេទសំខាន់ពីរនៃកម្មវិធីទទួលស្គាល់ការនិយាយគឺ៖

កម្មវិធីសរសេរតាមលំដាប់ - បញ្ចូលអត្ថបទ និងលេខ។

ចូរធ្វើការកក់ទុកភ្លាមៗថាយើងនឹងមិនពិចារណាលើប្រព័ន្ធ Text-to-speech និងការនិយាយទៅអត្ថបទនោះទេ ពោលគឺការបកប្រែអត្ថបទទៅជាការនិយាយផ្ទាល់មាត់ និងផ្ទុយមកវិញ។ យើងនឹងដាក់កម្រិតខ្លួនយើងចំពោះប្រព័ន្ធនៃការទទួលស្គាល់ដោយស្វ័យប្រវត្តិនូវពាក្យបញ្ជា ឬឧបករណ៍រុករកសំឡេង។

SARR - តើវាជាអ្វី?

ការទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ (CAPP) គឺជាធាតុមួយនៃដំណើរការដំណើរការការនិយាយ គោលបំណងគឺដើម្បីផ្តល់នូវការសន្ទនាដ៏ងាយស្រួលរវាងអ្នកប្រើប្រាស់ និងម៉ាស៊ីន។ ក្នុងន័យទូលំទូលាយ យើងកំពុងនិយាយអំពីប្រព័ន្ធដែលអនុវត្តការឌិកូដសូរសព្ទនៃសញ្ញាសូរស័ព្ទនៃការនិយាយនៅពេលបញ្ចេញសារសុន្ទរកថាក្នុងរចនាប័ទ្មសេរី ជាអ្នកនិយាយតាមអំពើចិត្ត ដោយមិនគិតពីការតំរង់ទិសបញ្ហា និងការរឹតបន្តឹងលើកម្រិតសំឡេងនៃវចនានុក្រម។ ក្នុងន័យតូចចង្អៀត CAPPs ជួយសម្រួលដល់ដំណោះស្រាយនៃបញ្ហាជាក់លាក់ដោយការដាក់កម្រិតមួយចំនួនលើតម្រូវការសម្រាប់ការទទួលស្គាល់សុន្ទរកថាដែលមានសំឡេងធម្មជាតិក្នុងន័យបុរាណរបស់វា។ ដូច្នេះ ជួរនៃពូជ CAPP មានចាប់ពីឧបករណ៍ឯករាជ្យសាមញ្ញ និងប្រដាប់ប្រដាក្មេងលេងដែលអាចស្គាល់ ឬសំយោគពាក្យដែលនិយាយដោយឡែកពីគ្នា លេខ ទីក្រុង ឈ្មោះ ជាដើម រហូតដល់ប្រព័ន្ធទទួលស្គាល់សំឡេងធម្មជាតិដ៏ស្មុគស្មាញ និងការសំយោគរបស់វា សម្រាប់ការប្រើប្រាស់ ជាឧទាហរណ៍ ជាជំនួយការ (IBM VoiceType Simply Speaking Gold)។

ជាធាតុផ្សំសំខាន់នៃចំណុចប្រទាក់មិត្តភាពរវាងម៉ាស៊ីន និងមនុស្សម្នាក់ CAPP អាចត្រូវបានបង្កើតឡើងនៅក្នុងកម្មវិធីផ្សេងៗ ឧទាហរណ៍នៅក្នុងប្រព័ន្ធគ្រប់គ្រងសំឡេង ការចូលប្រើសំឡេងទៅកាន់ធនធានព័ត៌មាន ការរៀនភាសាដោយប្រើកុំព្យូទ័រ ជំនួយដល់ជនពិការ ការចូលប្រើប្រាស់។ អ្វីមួយតាមរយៈប្រព័ន្ធផ្ទៀងផ្ទាត់សំឡេង / ការកំណត់អត្តសញ្ញាណ។

CAPP មានប្រយោជន៍ខ្លាំងណាស់ជាឧបករណ៍ស្វែងរក និងតម្រៀបសម្រាប់ទិន្នន័យសំឡេង និងវីដេអូដែលបានថតទុក។ ការទទួលស្គាល់ការនិយាយក៏ត្រូវបានគេប្រើផងដែរនៅពេលបញ្ចូលព័ត៌មាន ដែលមានប្រយោជន៍ជាពិសេសនៅពេលភ្នែក ឬដៃរបស់បុគ្គលម្នាក់រវល់។ CARR អនុញ្ញាតឱ្យមនុស្សដែលធ្វើការក្នុងបរិយាកាសស្ត្រេស (វេជ្ជបណ្ឌិតក្នុងមន្ទីរពេទ្យ កម្មកររោងចក្រ អ្នកបើកបរ) ប្រើប្រាស់កុំព្យូទ័រដើម្បីទទួលបាន ឬបញ្ចូលព័ត៌មានចាំបាច់។

ជាធម្មតា CAPP ត្រូវបានប្រើនៅក្នុងប្រព័ន្ធដូចជាកម្មវិធីទូរស័ព្ទ ប្រព័ន្ធបង្កប់ (ប្រព័ន្ធហៅទូរសព្ទ ប្រតិបត្តិការ PDA ការបើកបរ។ល។) កម្មវិធីពហុព័ត៌មាន (ប្រព័ន្ធបង្រៀនភាសា)។

គ្រាប់ចុចសំឡេង

សញ្ញាសំឡេង ជួនកាលត្រូវបានគេហៅថាជាប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ។ ជាធម្មតាទាំងនេះគឺជាប្រព័ន្ធជីវមាត្រនៃការចូលប្រើប្រាស់ព័ត៌មានដែលមានការអនុញ្ញាត ឬសិទ្ធិចូលប្រើប្រាស់ជាក់ស្តែងចំពោះវត្ថុ។ ប្រព័ន្ធពីរប្រភេទគួរតែត្រូវបានសម្គាល់: ប្រព័ន្ធផ្ទៀងផ្ទាត់ និងប្រព័ន្ធកំណត់អត្តសញ្ញាណ។ ក្នុងអំឡុងពេលផ្ទៀងផ្ទាត់ អ្នកប្រើប្រាស់បង្ហាញលេខកូដរបស់គាត់ជាមុន ពោលគឺប្រកាសខ្លួនឯងតាមមធ្យោបាយមួយ ឬមធ្យោបាយផ្សេងទៀត ហើយបន្ទាប់មកនិយាយខ្លាំងៗនូវពាក្យសម្ងាត់ ឬឃ្លាដែលបំពានមួយចំនួន។ ប្រព័ន្ធពិនិត្យមើលថាតើសំឡេងដែលបានផ្តល់ឱ្យត្រូវគ្នានឹងស្តង់ដារដែលត្រូវបានហៅចេញពីអង្គចងចាំរបស់កុំព្យូទ័រយោងទៅតាមលេខកូដដែលបានបង្ហាញ។

នៅពេលកំណត់អត្តសញ្ញាណ គ្មានសេចក្តីថ្លែងការណ៍ជាមុនអំពីអ្នកប្រើប្រាស់ត្រូវបានធ្វើឡើងទេ។ ក្នុងករណីនេះការប្រៀបធៀបនៃសំឡេងនេះជាមួយនឹងស្តង់ដារទាំងអស់ត្រូវបានអនុវត្ត ហើយបន្ទាប់មកវាត្រូវបានកំណត់យ៉ាងជាក់លាក់ថាតើបុគ្គលដែលកំណត់ដោយសំឡេងនោះជានរណា។ សព្វថ្ងៃនេះមានវិធីសាស្រ្តនិងវិធីសាស្រ្តជាច្រើនសម្រាប់ការអនុវត្តប្រព័ន្ធបែបនេះហើយពួកគេទាំងអស់ជាក្បួនខុសគ្នាពីគ្នាទៅវិញទៅមក - តើមានអ្នកអភិវឌ្ឍន៍ប៉ុន្មាននាក់ដូច្នេះពូជរបស់ពួកគេ។ ដូចគ្នានេះដែរអាចត្រូវបាននិយាយអំពីប្រព័ន្ធទទួលស្គាល់ការនិយាយ។ ដូច្នេះ វាគ្រាន់តែអាចធ្វើការវិនិច្ឆ័យពីលក្ខណៈនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយជាក់លាក់ និងប្រព័ន្ធទទួលស្គាល់បុគ្គលិកលក្ខណៈដោយប្រើមូលដ្ឋានទិន្នន័យសាកល្បងពិសេសប៉ុណ្ណោះ។

ប្រវត្តិសាស្រ្តបន្តិច

សហរដ្ឋអាមេរិក ចុងទសវត្សរ៍ឆ្នាំ 1960៖ "បី" លោក Walter Cronkite ដែលជាម្ចាស់ផ្ទះកម្មវិធីវិទ្យាសាស្រ្តដ៏ពេញនិយម 21st Century ក្នុងអំឡុងពេលនៃការបង្ហាញអំពីការអភិវឌ្ឍន៍ចុងក្រោយបង្អស់ក្នុងការទទួលស្គាល់ការនិយាយ។ កុំព្យូទ័របានទទួលស្គាល់ពាក្យនេះថាជា "បួន" ។ "មនុស្សល្ងង់" Walter បាននិយាយ។ កុំព្យូទ័រឆ្លើយថា "ពាក្យនោះមិននៅក្នុងវចនានុក្រមទេ"។

ទោះបីជាការវិវឌ្ឍន៍ដំបូងក្នុងវិស័យទទួលស្គាល់ការនិយាយមានតាំងពីទសវត្សរ៍ឆ្នាំ 1920 ក៏ដោយ ក៏ប្រព័ន្ធដំបូងត្រូវបានបង្កើតឡើងតែនៅក្នុងឆ្នាំ 1952 ដោយ Bell Laboratories (សព្វថ្ងៃជាផ្នែកនៃ Lucent Technologies)។ ហើយប្រព័ន្ធពាណិជ្ជកម្មដំបូងត្រូវបានបង្កើតឡើងសូម្បីតែក្រោយមក: នៅឆ្នាំ 1960 ក្រុមហ៊ុន IBM បានប្រកាសពីការអភិវឌ្ឍន៍ប្រព័ន្ធបែបនេះ ប៉ុន្តែកម្មវិធីមិនដែលចូលក្នុងទីផ្សារទេ។

បន្ទាប់មកនៅក្នុងទសវត្សរ៍ឆ្នាំ 1970 ក្រុមហ៊ុនអាកាសចរណ៍ភាគខាងកើតនៅសហរដ្ឋអាមេរិកបានដំឡើងប្រព័ន្ធបញ្ជូនឥវ៉ាន់ដែលពឹងផ្អែកលើអ្នកនិយាយ៖ ប្រតិបត្តិករបានដាក់ឈ្មោះគោលដៅ ហើយឥវ៉ាន់ត្រូវបានបញ្ជូនតាមផ្លូវរបស់វា។ ទោះយ៉ាងណាក៏ដោយ ដោយសារតែចំនួននៃកំហុសដែលបានធ្វើឡើង ប្រព័ន្ធនេះមិនដែលឆ្លងកាត់រយៈពេលសាកល្បងទេ។

បន្ទាប់មកការអភិវឌ្ឍនៅក្នុងតំបន់នេះបើមានគឺត្រូវបានអនុវត្តជាការយឺតយ៉ាវ។ សូម្បីតែនៅក្នុងទសវត្សរ៍ឆ្នាំ 1980 មានកម្មវិធីពាណិជ្ជកម្មពិតប្រាកដមួយចំនួនដែលប្រើប្រាស់ប្រព័ន្ធទទួលស្គាល់ការនិយាយ។

សព្វថ្ងៃនេះ មិនមែនមនុស្សរាប់សិបនាក់ទេ ប៉ុន្តែក្រុមស្រាវជ្រាវរាប់រយនៅក្នុងស្ថាប័នវិទ្យាសាស្ត្រ និងអប់រំ ក៏ដូចជានៅក្នុងសាជីវកម្មធំៗ កំពុងធ្វើការក្នុងទិសដៅនេះ។ នេះអាចត្រូវបានវិនិច្ឆ័យដោយវេទិកាអន្តរជាតិនៃអ្នកវិទ្យាសាស្ត្រ និងអ្នកឯកទេសក្នុងវិស័យបច្ចេកវិទ្យាការនិយាយដូចជា ICASSP, EuroSpeech, ICPHS ជាដើម។ លទ្ធផលនៃការងារនេះ ដូចដែលយើងនិយាយក្នុងន័យធៀប "ធ្លាក់លើពិភពលោកទាំងមូល" ស្ទើរតែមិនអាច ត្រូវបានប៉ាន់ស្មានលើស។

អស់រយៈពេលជាច្រើនឆ្នាំមកនេះ ឧបករណ៍រុករកសំឡេង ឬប្រព័ន្ធទទួលស្គាល់ពាក្យបញ្ជាត្រូវបានប្រើប្រាស់ដោយជោគជ័យក្នុងវិស័យផ្សេងៗនៃសកម្មភាព។ ជាឧទាហរណ៍ មជ្ឈមណ្ឌលហៅទូរសព្ទ OmniTouch ដែលផ្គត់ផ្គង់ដល់បុរីវ៉ាទីកង់ដោយ Alcatel ត្រូវបានប្រើដើម្បីបម្រើព្រឹត្តិការណ៍នានាដែលបានកើតឡើងជាផ្នែកមួយនៃការប្រារព្ធខួបលើកទី 2000 នៃព្រះគ្រីស្ទ។ អ្នកធ្វើធម្មយាត្រាដែលបានទូរស័ព្ទទៅមជ្ឈមណ្ឌលហៅទូរស័ព្ទបាននិយាយសំណួររបស់គាត់ហើយប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ "ស្តាប់" គាត់។ ប្រសិនបើប្រព័ន្ធកំណត់ថាសំណួរមួយត្រូវបានសួរអំពីប្រធានបទដែលកើតឡើងញឹកញាប់ ដូចជាកាលវិភាគព្រឹត្តិការណ៍ ឬអាសយដ្ឋានសណ្ឋាគារ នោះធាតុដែលបានកត់ត្រាទុកជាមុនត្រូវបានរួមបញ្ចូល។ ប្រសិនបើចាំបាច់ត្រូវបញ្ជាក់ពីសំណួរនោះ ម៉ឺនុយសុន្ទរកថាត្រូវបានផ្តល់ជូន ដែលក្នុងនោះធាតុមួយត្រូវបង្ហាញដោយសំឡេង។ ប្រសិនបើប្រព័ន្ធទទួលស្គាល់បានកំណត់ថាមិនមានចម្លើយដែលបានកត់ត្រាទុកជាមុនចំពោះសំណួរដែលបានសួរនោះ អ្នកធ្វើធម្មយាត្រាត្រូវបានភ្ជាប់ទៅកាន់ប្រតិបត្តិកររបស់មនុស្ស។

នៅប្រទេសស៊ុយអែត សេវាកម្មសាកសួរតាមទូរសព្ទដោយស្វ័យប្រវត្តិត្រូវបានបើកនាពេលថ្មីៗនេះ ដោយប្រើកម្មវិធីសម្គាល់ការនិយាយរបស់ Philips ។ ក្នុងអំឡុងខែដំបូងនៃប្រតិបត្តិការនៃសេវាកម្ម Autosvar ដែលបានចាប់ផ្តើមដំណើរការដោយគ្មានការប្រកាសជាផ្លូវការ អតិថិជន 200,000 នាក់បានប្រើប្រាស់សេវាកម្មរបស់ខ្លួន។ មនុស្សម្នាក់ត្រូវតែចុចលេខជាក់លាក់មួយ ហើយបន្ទាប់ពីចម្លើយរបស់លេខាដោយស្វ័យប្រវត្តិ សូមដាក់ឈ្មោះផ្នែកនៃបញ្ជីព័ត៌មានដែលគាត់ចាប់អារម្មណ៍។

សេវាកម្មថ្មីនេះត្រូវបានបម្រុងទុកជាចម្បងសម្រាប់អតិថិជនឯកជន ដែលនឹងចូលចិត្តវា ដោយសារតម្លៃសេវាកម្មទាបជាងយ៉ាងខ្លាំង។ សេវាកម្ម Autosvar គឺជាប្រភេទដំបូងគេនៅអឺរ៉ុប (នៅសហរដ្ឋអាមេរិក ការសាកល្បងសេវាកម្មស្រដៀងគ្នានៅ AT&T បានចាប់ផ្តើមនៅក្នុងខែធ្នូឆ្នាំមុន)។

នេះគឺជាឧទាហរណ៍មួយចំនួននៃការប្រើប្រាស់បច្ចេកវិទ្យានេះនៅក្នុងសហរដ្ឋអាមេរិក។

ភ្នាក់ងារអចលនទ្រព្យតែងតែងាកទៅរកសេវាកម្មរបស់ Newport Wireless ។ នៅពេលដែលឈ្មួញម្នាក់បើកឡានតាមផ្លូវ ហើយឃើញផ្លាកសញ្ញាលក់នៅជិតផ្ទះ គាត់បានទូរស័ព្ទទៅ Newport Wireless ហើយសួររកព័ត៌មានអំពីផ្ទះដែលមានលេខបែបនេះ និងនៅតាមផ្លូវបែបនេះ។ ម៉ាស៊ីនឆ្លើយដោយសំឡេងស្ត្រីរីករាយប្រាប់គាត់អំពីរូបភាពផ្ទះ ថ្ងៃខែឆ្នាំសាងសង់ និងម្ចាស់។ ព័ត៌មានទាំងអស់នេះគឺនៅក្នុងមូលដ្ឋានទិន្នន័យ Newport Wireless ។ ភ្នាក់ងារអចលនទ្រព្យអាចចេញសារទៅកាន់អតិថិជនតែប៉ុណ្ណោះ។ តម្លៃនៃការជាវគឺប្រហែល 30 ដុល្លារក្នុងមួយខែ។

Julie ដែលជាភ្នាក់ងារនិម្មិតរបស់ Amtrak បានបម្រើអ្នកដំណើរតាមរថភ្លើងតាំងពីខែតុលា ឆ្នាំ 2001។ នាងជូនដំណឹងតាមទូរស័ព្ទអំពីកាលវិភាគរថភ្លើង ការមកដល់ និងការចាកចេញរបស់ពួកគេ ព្រមទាំងធ្វើការកក់សំបុត្រផងដែរ។ Julie គឺជាផលិតផលរបស់ SpeechWorks Software និង Intervoice Hardware ។ វាបានបង្កើនការពេញចិត្តរបស់អ្នកដំណើររួចទៅហើយ 45%; អតិថិជន 13 នាក់ក្នុងចំណោម 50 នាក់ទទួលបានព័ត៌មានទាំងអស់ដែលពួកគេត្រូវការពី Julie ។ Amtrak ធ្លាប់ប្រើប្រព័ន្ធបញ្ជូនតាមសម្លេង ប៉ុន្តែអត្រាពេញចិត្តគឺទាបជាងនៅពេលនោះ ដោយមានអតិថិជនតែ 9 នាក់ក្នុងចំណោម 50 ប៉ុណ្ណោះ។

Amtrak សារភាពថា Julie បានសងថ្លៃរបស់នាងវិញ (4 លានដុល្លារ) ក្នុងរយៈពេល 12-18 ខែ។ នាងបានអនុញ្ញាតឱ្យមិនជួលបុគ្គលិកទាំងមូល។ ហើយក្រុមហ៊ុនអាកាសចរណ៍ British Airways កំពុងសន្សំប្រាក់ចំនួន 1.5 លានដុល្លារក្នុងមួយឆ្នាំ ដោយប្រើបច្ចេកវិទ្យាពី Nuance Communications ដែលជួយឱ្យតុជំនួយដោយស្វ័យប្រវត្តិផងដែរ។

ថ្មីៗនេះ ក្រុមហ៊ុន Sony Computer Entertainment America បានណែនាំហ្គេម Socom ដែលជាវីដេអូហ្គេមដំបូងដែលអ្នកលេងអាចបញ្ជាដោយពាក្យសំដីទៅកាន់ Deploy grenades fighters ។ ហ្គេម $60 ប្រើបច្ចេកវិទ្យា ScanSoft ។ កាលពីឆ្នាំមុន ហ្គេមទាំងនេះចំនួន 450,000 ត្រូវបានលក់ ដែលធ្វើឱ្យ Socom ក្លាយជាអ្នកដឹកនាំគ្មានជម្លោះក្នុងការលក់របស់ក្រុមហ៊ុន។

នៅក្នុងរថយន្តថ្លៃៗដូចជា Infinity និង Jaguar ការគ្រប់គ្រងដោយពាក្យសំដីរបស់ផ្ទាំងបញ្ជាត្រូវបានប្រើប្រាស់អស់ជាច្រើនឆ្នាំ៖ វិទ្យុ របបសីតុណ្ហភាព និងប្រព័ន្ធរុករកយល់ពីសំឡេងរបស់ម្ចាស់រថយន្ត ហើយស្តាប់បង្គាប់ម្ចាស់ដោយមិនដឹងខ្លួន។ ប៉ុន្តែឥឡូវនេះ បច្ចេកវិទ្យាសម្គាល់សំឡេងកំពុងចាប់ផ្តើមអនុវត្តចំពោះរថយន្តថ្នាក់កណ្តាល។ ដូច្នេះចាប់តាំងពីឆ្នាំ 2003 មក ក្រុមហ៊ុន Honda Accord មានឧបករណ៍សម្គាល់សំឡេងដែលភ្ជាប់មកជាមួយពីក្រុមហ៊ុន IBM ។ វាត្រូវបានគេហៅថា ViaVoice និងជាផ្នែកមួយនៃប្រព័ន្ធរុករកតម្លៃ 2,000 ដុល្លារ។ យោងតាមអ្នកផ្គត់ផ្គង់ មួយភាគប្រាំនៃអ្នកទិញ Honda Accord ជ្រើសរើសម៉ូដែលមួយដែលមានការរុករកជាសំឡេង។

សូម្បីតែនៅក្នុងឱសថក៏ដោយ បច្ចេកវិទ្យាសម្គាល់សំឡេងបានរកឃើញកន្លែងរបស់វា។ ឧបករណ៍សម្រាប់ពិនិត្យក្រពះស្តាប់តាមសំឡេងវេជ្ជបណ្ឌិតត្រូវបានបង្កើតរួចហើយ។ ពិត ឧបករណ៍ទាំងនេះយោងទៅតាមអ្នកជំនាញនៅតែមិនល្អឥតខ្ចោះ៖ ពួកគេមានការឆ្លើយតបយឺតទៅនឹងការបញ្ជារបស់វេជ្ជបណ្ឌិត។ ប៉ុន្តែនៅតែទៅមុខ។ នៅទីក្រុង Memphis មជ្ឈមណ្ឌលវេជ្ជសាស្ត្រ VA បានវិនិយោគ 277,000 ដុល្លារនៅក្នុងកម្មវិធី Dragon ដែលអនុញ្ញាតឱ្យវេជ្ជបណ្ឌិត និងគិលានុបដ្ឋាយិកាកំណត់ព័ត៌មានទៅក្នុងមូលដ្ឋានទិន្នន័យកុំព្យូទ័រ។ ប្រហែលជាមិនយូរប៉ុន្មាន វានឹងមិនចាំបាច់ក្នុងការរងទុក្ខក្នុងការសរសេរដោយដៃរបស់វេជ្ជបណ្ឌិតនៅក្នុងកំណត់ត្រាវេជ្ជសាស្ត្រនោះទេ។

ក្រុមហ៊ុនធំៗរាប់រយបានប្រើប្រាស់បច្ចេកវិទ្យាទទួលស្គាល់សំឡេងនៅក្នុងផលិតផល ឬសេវាកម្មរបស់ពួកគេរួចហើយ។ ទាំងនេះរួមមាន AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines និង Verizo ។ យោងតាមអ្នកជំនាញ ទីផ្សារសម្រាប់បច្ចេកវិទ្យាសំឡេងក្នុងឆ្នាំ 2002 បានឈានដល់ប្រហែល 695 លានដុល្លារ ដែលខ្ពស់ជាងឆ្នាំ 2001 10% ។

United Airways បានណែនាំសេវាកម្មស៊ើបអង្កេតដោយស្វ័យប្រវត្តិត្រឡប់មកវិញក្នុងឆ្នាំ 1999 ។ ប្រព័ន្ធដំណើរការការហៅទូរសព្ទដោយស្វ័យប្រវត្តិត្រូវបានដំណើរការដោយក្រុមហ៊ុនដូចជាធនាគារវិនិយោគ Charles Schwab & Co, បណ្តាញលក់រាយ Sears, បណ្តាញផ្សារទំនើប Roebuck ។ ក្រុមហ៊ុនផ្តល់សេវាទូរស័ព្ទឥតខ្សែរបស់សហរដ្ឋអាមេរិក (AT&T Wireless និង Sprint PCS) បាននិងកំពុងប្រើប្រាស់កម្មវិធីស្រដៀងគ្នានេះ និងផ្តល់សេវាកម្មហៅទូរស័ព្ទជាសំឡេងអស់រយៈពេលជាងមួយឆ្នាំហើយ។ ហើយទោះបីជាអាមេរិកឥឡូវនេះជាប្រទេសនាំមុខគេក្នុងចំនួនមជ្ឈមណ្ឌលហៅទូរសព្ទប្រភេទនេះក៏ដោយ ក៏ថ្មីៗនេះអត្ថប្រយោជន៍នៃប្រព័ន្ធទទួលស្គាល់ការនិយាយបានចាប់ផ្តើមដឹងនៅក្នុងទ្វីបអឺរ៉ុប។ ជាឧទាហរណ៍ សេវាផ្លូវដែកស្វីសផ្តល់ជូនអ្នកដំណើរដែលនិយាយភាសាអាឡឺម៉ង់រួចហើយជាមួយនឹងសេវាកម្មដែលស្រដៀងនឹងក្រុមហ៊ុន United Airways ផ្តល់ជូន។

ការព្យាករណ៍របស់អ្នកវិភាគ

សព្វថ្ងៃនេះ បច្ចេកវិជ្ជាសម្គាល់ការនិយាយត្រូវបានចាត់ទុកថាជាបច្ចេកវិទ្យាដ៏ជោគជ័យបំផុតនៅក្នុងពិភពលោក។ ដូច្នេះ បើយោងតាមការព្យាករណ៍របស់ក្រុមហ៊ុនស្រាវជ្រាវអាមេរិក Cahners In-Stat ទីផ្សារពិភពលោកសម្រាប់កម្មវិធីសម្គាល់ការនិយាយនៅឆ្នាំ 2005 នឹងកើនឡើងពី 200 លានទៅ 2.7 ពាន់លានដុល្លារ។ បើយោងតាមទិន្នន័យទិន្នន័យ បរិមាណនៃទីផ្សារបច្ចេកវិទ្យាសំឡេងនឹងកើនឡើងដោយ ជាមធ្យម 43% ក្នុងមួយឆ្នាំ៖ ពី 650 លានដុល្លារក្នុងឆ្នាំ 2000 ដល់ 5.6 ពាន់លានដុល្លារក្នុងឆ្នាំ 2006 (រូបភាព 1) ។ អ្នកជំនាញសហការជាមួយសាជីវកម្មប្រព័ន្ធផ្សព្វផ្សាយ CNN បានចាត់ថ្នាក់ការទទួលស្គាល់ការនិយាយជាបច្ចេកវិទ្យាដែលមានជោគជ័យបំផុតទាំងប្រាំបីនៅឆ្នាំនេះ។ ហើយអ្នកវិភាគមកពី IDC និយាយថានៅឆ្នាំ 2005 ការទទួលស្គាល់ការនិយាយនឹងផ្លាស់ប្តូរទាំងស្រុងនូវបច្ចេកវិទ្យានិយាយផ្សេងទៀតពីទីផ្សារ (រូបភាពទី 2) ។

ការលំបាកចម្បង

បញ្ហាចម្បងដែលកើតឡើងក្នុងការអភិវឌ្ឍន៍ CAPP គឺការបញ្ចេញសំឡេងខុសៗគ្នានៃពាក្យដូចគ្នាទាំងដោយមនុស្សផ្សេងគ្នា និងដោយមនុស្សដូចគ្នាក្នុងស្ថានភាពផ្សេងៗគ្នា។ នេះនឹងមិនរំខានមនុស្សម្នាក់ទេប៉ុន្តែកុំព្យូទ័រអាច។ លើសពីនេះ សញ្ញាចូលត្រូវបានប៉ះពាល់ដោយកត្តាជាច្រើនដូចជា សំលេងរំខានជុំវិញ ការឆ្លុះបញ្ចាំង អេកូ និងសំលេងរំខានឆានែល។ វាមានភាពស្មុគស្មាញដោយការពិតដែលថាសំលេងរំខាននិងការបង្ខូចទ្រង់ទ្រាយមិនត្រូវបានគេដឹងជាមុនទេនោះមានន័យថាប្រព័ន្ធមិនអាចកែតម្រូវបានមុនពេលការងារចាប់ផ្តើម។

ទោះជាយ៉ាងណាក៏ដោយ ជាងពាក់កណ្តាលសតវត្សនៃការងារលើ CAPPs ផ្សេងៗបានទទួលផ្លែផ្កា។ ប្រព័ន្ធទំនើបស្ទើរតែទាំងអស់អាចដំណើរការក្នុងរបៀបជាច្រើន។ ទីមួយ វាអាចអាស្រ័យ ឬឯករាជ្យពីអ្នកប្រកាស។ ប្រព័ន្ធដែលពឹងផ្អែកលើវាគ្មិនទាមទារការបណ្តុះបណ្តាលពិសេសសម្រាប់អ្នកប្រើប្រាស់ជាក់លាក់ ដើម្បីសម្គាល់បានត្រឹមត្រូវនូវអ្វីដែលគាត់កំពុងនិយាយ។ ដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធ អ្នកប្រើប្រាស់ត្រូវនិយាយពាក្យ ឬឃ្លាជាក់លាក់មួយចំនួន ដែលប្រព័ន្ធនឹងវិភាគ និងចងចាំលទ្ធផល។ របៀបនេះជាធម្មតាត្រូវបានប្រើនៅក្នុងប្រព័ន្ធសរសេរតាមអាន នៅពេលអ្នកប្រើប្រាស់ម្នាក់កំពុងធ្វើការជាមួយប្រព័ន្ធ។

ប្រព័ន្ធឯករាជ្យនៃវាគ្មិនអាចត្រូវបានប្រើប្រាស់ដោយអ្នកប្រើប្រាស់ណាម្នាក់ដោយគ្មាននីតិវិធីបណ្តុះបណ្តាល។ របៀបនេះជាធម្មតាត្រូវបានប្រើប្រាស់នៅកន្លែងដែលដំណើរការសិក្សាមិនអាចធ្វើទៅបាន ដូចជានៅក្នុងកម្មវិធីទូរស័ព្ទជាដើម។ ជាក់ស្តែង ភាពត្រឹមត្រូវនៃការទទួលស្គាល់នៃប្រព័ន្ធដែលពឹងផ្អែកលើវាគ្មិនគឺខ្ពស់ជាងប្រព័ន្ធដែលពឹងផ្អែកលើវាគ្មិន។ ទោះយ៉ាងណាក៏ដោយ ប្រព័ន្ធឯករាជ្យនៃវាគ្មិនមានភាពងាយស្រួលក្នុងការប្រើប្រាស់ ជាឧទាហរណ៍ វាអាចធ្វើការជាមួយអ្នកប្រើប្រាស់គ្មានដែនកំណត់ ហើយមិនត្រូវការការបណ្តុះបណ្តាលទេ។

ទីពីរ ប្រព័ន្ធត្រូវបានបែងចែកទៅជាប្រព័ន្ធដែលធ្វើការតែជាមួយពាក្យបញ្ជាដាច់ដោយឡែកនិងអ្នកដែលអាចទទួលស្គាល់ការនិយាយស៊ីសង្វាក់។ ការទទួលស្គាល់ការនិយាយគឺជាកិច្ចការដ៏ស្មុគស្មាញជាងការទទួលស្គាល់ពាក្យសំដីដាច់ដោយឡែក។ ឧទាហរណ៍ នៅពេលផ្លាស់ប្តូរពីការស្គាល់ពាក្យដាច់ពីគេទៅការទទួលស្គាល់ការនិយាយដោយប្រើវចនានុក្រម 1000 ពាក្យ អត្រាកំហុសកើនឡើងពី 3.1 ដល់ 8.7 ហើយដំណើរការការនិយាយត្រូវចំណាយពេលបីដង។

របៀបបញ្ចេញសំឡេងពាក្យបញ្ជាដាច់ដោយឡែកគឺសាមញ្ញបំផុត និងប្រើធនធានតិចបំផុត។ នៅពេលធ្វើការនៅក្នុងរបៀបនេះ បន្ទាប់ពីពាក្យនីមួយៗ អ្នកប្រើប្រាស់ផ្អាក ពោលគឺកំណត់យ៉ាងច្បាស់នូវព្រំដែននៃពាក្យ។ ប្រព័ន្ធមិនចាំបាច់ស្វែងរកការចាប់ផ្តើម និងបញ្ចប់នៃពាក្យក្នុងឃ្លាដោយខ្លួនវាទេ។ បន្ទាប់មកប្រព័ន្ធនឹងប្រៀបធៀបពាក្យដែលបានទទួលស្គាល់ជាមួយនឹងលំនាំនៅក្នុងវចនានុក្រម ហើយគំរូដែលទំនងបំផុតត្រូវបានទទួលយកដោយប្រព័ន្ធ។ ប្រភេទនៃការទទួលស្គាល់នេះត្រូវបានគេប្រើយ៉ាងទូលំទូលាយនៅក្នុងទូរស័ព្ទជំនួសឱ្យវិធីសាស្ត្រ DTMF ធម្មតា។

បំរែបំរួលបន្ថែមនៃការនិយាយក៏កើតឡើងផងដែរដោយសារតែការបញ្ចេញសំឡេងតាមអំពើចិត្ត ភាពតានតឹង រចនាសម្ព័ន្ធមិនតឹងរឹងនៃឃ្លា ការផ្អាក ការនិយាយដដែលៗ។ល។

នៅចំណុចប្រសព្វនៃការបញ្ចេញសំឡេងជាបន្ត និងដាច់ដោយឡែកនៃពាក្យ របៀបស្វែងរកពាក្យគន្លឹះបានកើតឡើង។ នៅក្នុងរបៀបនេះ CAPP ស្វែងរកពាក្យ ឬក្រុមពាក្យដែលបានកំណត់ទុកជាមុននៅក្នុងស្ទ្រីមសុន្ទរកថាទូទៅ។ តើវាអាចប្រើបាននៅឯណា? ឧទាហរណ៍ នៅក្នុងឧបករណ៍ស្តាប់ដែលបើក និងចាប់ផ្តើមថតនៅពេលដែលពាក្យមួយចំនួនលេចឡើងនៅក្នុងការនិយាយ ឬនៅក្នុងឯកសារយោងអេឡិចត្រូនិក។ ដោយបានទទួលសំណើក្នុងទម្រង់បំពាន ប្រព័ន្ធជ្រើសរើសពាក្យដែលមានន័យ និងទទួលស្គាល់ពួកវា ផ្តល់ព័ត៌មានចាំបាច់។

ទំហំនៃវចនានុក្រមដែលបានប្រើគឺជាធាតុផ្សំដ៏សំខាន់នៃ CAPP ។ ជាក់ស្តែង វចនានុក្រមកាន់តែធំ ប្រូបាប៊ីលីតេកាន់តែខ្ពស់ដែលប្រព័ន្ធនឹងធ្វើខុស។ នៅក្នុងប្រព័ន្ធទំនើបជាច្រើន វាអាចទៅរួចក្នុងការបន្ថែមវចនានុក្រមជាមួយនឹងពាក្យថ្មីតាមតម្រូវការ ឬផ្ទុកវចនានុក្រមថ្មី។ អត្រាកំហុសធម្មតាសម្រាប់ប្រព័ន្ធឯករាជ្យអ្នកនិយាយដែលមានការបញ្ចេញសំឡេងពាក្យបញ្ជាដាច់ដោយឡែកគឺប្រហែល 1% សម្រាប់វចនានុក្រម 100 ពាក្យ 3% សម្រាប់វចនានុក្រម 600 ពាក្យ និង 10% សម្រាប់វចនានុក្រម 8000 ពាក្យ។

ការផ្តល់ជូននៃទីផ្សារ CAPP ទំនើប

ហើយទីផ្សារសព្វថ្ងៃត្រូវបានតំណាងដោយ CAPP នៃក្រុមហ៊ុនផ្សេងៗ។ ចូរយើងពិចារណាពួកគេខ្លះ។

អាខូឡាប

ភាពត្រឹមត្រូវនៃការទទួលស្គាល់ 97% ។

ប្រព័ន្ធឯករាជ្យនៃវាគ្មិន។ អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបានវិភាគលើមូលដ្ឋានទិន្នន័យជាច្រើនសម្រាប់ភាសាជាច្រើន ដើម្បីគិតគូរពីការប្រែប្រួលទាំងអស់នៃការនិយាយដែលកើតឡើងអាស្រ័យលើអាយុ សំឡេង ភេទ និងការបញ្ចេញសំឡេង។ ក្បួនដោះស្រាយដែលមានកម្មសិទ្ធិផ្តល់នូវការទទួលស្គាល់ការនិយាយដោយមិនគិតពីលក្ខណៈឧបករណ៍ (កាស មីក្រូហ្វូន) និងលក្ខណៈឆានែល។

ប្រព័ន្ធនេះគាំទ្រសមត្ថភាពក្នុងការបង្កើតវចនានុក្រមបន្ថែម ដែលគិតគូរពីភាពប្លែកនៃការបញ្ចេញសំឡេង និងការសង្កត់សំឡេង។ វាមានប្រយោជន៍ជាពិសេសនៅពេលដែលប្រព័ន្ធត្រូវបានប្រើប្រាស់ដោយមនុស្សដែលការបញ្ចេញសំឡេងគឺខុសគ្នាខ្លាំងពីប្រព័ន្ធធម្មតា។

ប្រព័ន្ធនេះគាំទ្រភាសាសាមញ្ញបំផុតដូចជា អង់គ្លេស និងអាមេរិក អង់គ្លេស បារាំង អាឡឺម៉ង់ អ៊ីតាលី អាមេរិកខាងជើង អេស្ប៉ាញ។ វចនានុក្រមអាចត្រូវបានកំណត់រចនាសម្ព័ន្ធសម្រាប់ភាសាណាមួយក្នុងចំណោមភាសាទាំងនេះ ប៉ុន្តែវាមិនអាចប្រើច្រើនភាសាក្នុងពេលតែមួយជាផ្នែកនៃវចនានុក្រមមួយបានទេ។

ផលិតផលនេះមាននៅលើ Windows NT/2000, Linux និង Sun SPARC Solaris។

Babear SDK កំណែ 3.0

ប្រព័ន្ធបំពងសំឡេង-ឯករាជ្យ ដែលមិនតម្រូវឱ្យមានការបណ្តុះបណ្តាលសម្រាប់អ្នកប្រើប្រាស់ជាក់លាក់។ ការសម្របខ្លួនទៅនឹងអ្នកប្រើប្រាស់កើតឡើងកំឡុងពេលប្រតិបត្តិការ និងផ្តល់នូវលទ្ធផលទទួលស្គាល់ល្អបំផុត។ ការកែតម្រូវដោយស្វ័យប្រវត្តិចំពោះសកម្មភាពសំឡេងអនុញ្ញាតឱ្យអ្នកសម្គាល់ការនិយាយនៅក្នុងបរិយាកាសដែលមានសំលេងរំខានខ្លាំង ដូចជានៅក្នុងឡានជាដើម។ ប្រព័ន្ធមិនកំណត់ពាក្យដែលមិនមានរាយក្នុងវចនានុក្រមទេ។ វាអាចទៅរួចក្នុងការស្វែងរកពាក្យគន្លឹះ។ ប្រព័ន្ធអាចត្រូវបានកំណត់រចនាសម្ព័ន្ធដើម្បីដំណើរការទាំងជាមួយវចនានុក្រមតូចមួយ (ការបញ្ចេញសំឡេងដាច់ដោយឡែកនៃពាក្យបញ្ជា) និងជាមួយវចនានុក្រមធំ (ការនិយាយ)។

ប្រព័ន្ធនេះគាំទ្រភាសាដូចខាងក្រោម៖ អង់គ្លេស និងអាមេរិកាំង អង់គ្លេស អេស្ប៉ាញ អាឡឺម៉ង់ បារាំង ដាណឺម៉ាក ស៊ុយអែត ទួរគី ក្រិក អ៊ីស្លង់ និងអារ៉ាប់។

ប្រព័ន្ធនេះដំណើរការលើ Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X និង Linux ។

Loquendo ASR

ប្រព័ន្ធបំពងសំឡេងឯករាជ្យត្រូវបានធ្វើឱ្យប្រសើរឡើងសម្រាប់ប្រើក្នុងទូរស័ព្ទ។ វាអាចទៅរួចក្នុងការស្គាល់ពាក្យនីមួយៗ និងការនិយាយ ស្វែងរកពាក្យគន្លឹះ (វចនានុក្រមរហូតដល់ 500 ពាក្យ)។ អនុញ្ញាតឱ្យអ្នកបង្កើតកម្មវិធីដែលងាយស្រួលប្រើ ដោយសារវចនានុក្រមមានបរិមាណច្រើន និងភាពបត់បែននៃប្រព័ន្ធ។

គាំទ្រ 12 ភាសា រួមទាំងភាសាអឺរ៉ុបទូទៅបំផុត (អ៊ីតាលី អេស្ប៉ាញ អង់គ្លេស និងអាមេរិកាំង អង់គ្លេស បារាំង អាឡឺម៉ង់ ក្រិក ស៊ុយអែត ។ល។)។

រួមបញ្ចូលនៅក្នុង Loquendo Speech Suite រួមជាមួយនឹងប្រព័ន្ធអត្ថបទទៅការនិយាយ និង Loquendo VoiceXML Interpreter ដែលគាំទ្រសំឡេង និងភាសាជាច្រើន។

ប្រព័ន្ធនេះដំណើរការលើមូលដ្ឋាននៃ MS Windows NT/2000, UNIX និង Linux ។

LumenVox

ប្រព័ន្ធឯករាជ្យរបស់វាគ្មិនដែលមិនត្រូវការការបណ្តុះបណ្តាល ប៉ុន្តែបន្ទាប់ពីការសម្របខ្លួនទៅនឹងអ្នកប្រើប្រាស់ជាក់លាក់ លទ្ធផលនៃការទទួលស្គាល់កាន់តែល្អប្រសើរ៖ ភាពត្រឹមត្រូវនៃការទទួលស្គាល់លើសពី 90% ។

គាំទ្រទ្រង់ទ្រាយឯកសារអូឌីយ៉ូផ្សេងៗ៖ (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz) ។ វាមិនមានតម្រូវការតឹងរឹងសម្រាប់ធនធានផ្នែករឹងទេ។ ធ្វើការនៅលើមូលដ្ឋាននៃ Windows NT/2000/XP និង Linux ។

តម្រូវការប្រព័ន្ធ (ផ្អែកលើវីនដូ)៖

Windows NT 4.0 ជាមួយ Service Pack 6a, Windows 2000 ឬ Windows XP Pro;

ទំហំអង្គចងចាំអប្បបរមាគឺ 512 មេកាបៃ។

តម្រូវការប្រព័ន្ធ (ផ្អែកលើ Red Hat Linux)៖

Red Hat Linux 7.2;

Intel Pentium III 800 MHz ឬខ្ពស់ជាងនេះ;

ទំហំអង្គចងចាំ 256 MB;

ទំហំថាស 17 មេកាបៃ (បន្ទាប់ពីការបង្ហាប់) ។

អាហារបំប៉ន

យោងតាមក្រុមហ៊ុនផលិត ប្រព័ន្ធនេះត្រូវបានធ្វើឱ្យប្រសើរសម្រាប់ការប្រើប្រាស់តិចបំផុតនៃអង្គចងចាំ និងធនធានប្រព័ន្ធផ្សេងទៀត។ ភាពត្រឹមត្រូវនៃការទទួលស្គាល់មានដល់ទៅ 96% ហើយវានៅតែខ្ពស់ ទោះបីជានៅក្នុងបរិយាកាសដែលមានសំឡេងរំខានក៏ដោយ។

មានលទ្ធភាពនៃការរៀនដោយខ្លួនឯងនៃប្រព័ន្ធ និងការកែតម្រូវរបស់វាសម្រាប់អ្នកប្រើប្រាស់ម្នាក់ៗ។

ដំណើរការលើ Windows 2000 និង Linux ។

វិញ្ញាណ

ភាសាអាចជាណាមួយ (វចនានុក្រមត្រូវបានចងក្រងសម្រាប់តម្រូវការជាក់លាក់របស់អតិថិជន ហើយរួមបញ្ចូលពាក្យទាំងនោះ និងជាភាសាដែលអតិថិជនបានបញ្ជាក់នៅក្នុងតម្រូវការសម្រាប់ការកំណត់ប្រព័ន្ធ។ វចនានុក្រមអាចរួមបញ្ចូលពាក្យពីភាសាផ្សេងៗគ្នា ពោលគឺដោយគ្មាន ការផ្លាស់ប្តូរការកំណត់ ប្រព័ន្ធអាចស្គាល់ពាក្យ ឧទាហរណ៍ ទាំងនៅក្នុងភាសាចិន និងភាសាហ្វាំងឡង់ ប្រសិនបើពួកវាត្រូវបានបញ្ចូលពីមុននៅក្នុងវចនានុក្រម)។ ដូច្នេះ ប្រព័ន្ធនេះអាចដំណើរការជាមួយភាសាណាមួយ ខណៈពេលដែលប្រព័ន្ធផ្សេងទៀត - តែជាមួយសំណុំជាក់លាក់នៃពួកវាប៉ុណ្ណោះ។

នេះគឺជាប្រព័ន្ធសម្គាល់ការនិយាយដោយស្វ័យប្រវត្តិដែលផ្តល់នូវការទទួលស្គាល់គុណភាពខ្ពស់សូម្បីតែនៅក្នុងបរិយាកាសដែលមានសំលេងរំខានខ្លាំងក៏ដោយ។ ប្រព័ន្ធអាចត្រូវបានកំណត់រចនាសម្ព័ន្ធយ៉ាងងាយស្រួលដើម្បីដំណើរការក្នុងទម្រង់មួយក្នុងចំណោមពីររបៀប៖ ការទទួលស្គាល់ឃ្លាជាមួយនឹងចំនួនពាក្យបញ្ជាថេរ (ការបញ្ចេញសំឡេងនៃពាក្យបញ្ជាបុគ្គល របៀបកូដ PIN) និងការទទួលស្គាល់ឃ្លាជាមួយនឹងចំនួនពាក្យបញ្ជាតាមអំពើចិត្ត (ការបញ្ចេញសំឡេងពាក្យបញ្ជាជាបន្តបន្ទាប់។ "របៀបនិយាយរួម") ។ វាអាចទៅរួចក្នុងការស្វែងរកពាក្យគន្លឹះ។ ដំណោះស្រាយនេះដំណើរការក្នុងលក្ខខណ្ឌនៃការបន្ថែមសំឡេងមិនស្ថិតស្ថេរ។ សមាមាត្រសញ្ញាទៅសំឡេងរំខានដែលត្រូវការគឺរហូតដល់ 0 dB នៅក្នុង "របៀបកូដ PIN" និងរហូតដល់ +15 dB នៅក្នុងរបៀបនិយាយដែលបានភ្ជាប់។

ការពន្យាពេលនៃការទទួលស្គាល់ - 0.2 វិ។ ប៉ារ៉ាម៉ែត្រឆានែលសូរស័ព្ទ៖ កម្រិតបញ្ជូនក្នុងរង្វង់ 300-3500 ហឺត។ ការសម្របខ្លួនទៅនឹងបរិយាកាសសូរស័ព្ទត្រូវបានអនុវត្តដោយបំណែកសំលេងរំខានដែលមានប្រវែងសរុបយ៉ាងហោចណាស់ 3 វិនាទី។

សម្រាប់ "របៀបកូដ PIN"៖

វចនានុក្រម - 50 ពាក្យបញ្ជា;

ប្រូបាប៊ីលីតេនៃការទទួលស្គាល់ត្រឹមត្រូវ - 95-99% នៅ SNR = 0…6 dB;

លក្ខខណ្ឌសូរស័ព្ទដែលត្រូវការ៖ បន្ថែមសំឡេងរំខានឋិតិវន្ត broadband ជាមួយ SNR (សមាមាត្រសញ្ញាទៅសំឡេង) >= 15 dB ។

សម្រាប់របៀបសម្គាល់ការនិយាយដែលភ្ជាប់៖

វចនានុក្រម - 12 ពាក្យ / លេខ;

ប្រូបាប៊ីលីតេនៃការទទួលស្គាល់ត្រឹមត្រូវនៃខ្សែសង្វាក់នៃពាក្យគឺ 98-99% ។

ភាពជាក់លាក់៖ ការសម្របខ្លួនទៅនឹងសំឡេងរំខាន។

ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិពី SPIRIT មានជាទម្រង់កម្មវិធីកុំព្យូទ័រក្រោម MS Windows ឬកូដជួបប្រជុំគ្នា។ តាមសំណើរបស់អតិថិជន ដំណោះស្រាយអាចត្រូវបានបញ្ជូនទៅកាន់វេទិកា DSP ឬ RISC ណាមួយ។

VoiceWare

ប្រព័ន្ធនេះអាចដំណើរការបានទាំងរបៀបពឹងផ្អែកលើវាគ្មិន និងរបៀបឯករាជ្យអ្នកនិយាយ ដូច្នេះការបណ្តុះបណ្តាលពិសេសនៃប្រព័ន្ធដើម្បីធ្វើការជាមួយអ្នកប្រើប្រាស់ជាក់លាក់មិនត្រូវបានទាមទារទេ។

ផ្តល់នូវភាពត្រឹមត្រូវនៃការទទួលស្គាល់ខ្ពស់ និងប្រតិបត្តិការក្នុងពេលជាក់ស្តែង សូម្បីតែនៅក្នុងបរិយាកាសដែលមានសំឡេងរំខានក៏ដោយ។

ប្រព័ន្ធទទួលស្គាល់ការនិយាយដែលបានតភ្ជាប់ និងបញ្ជីលេខជាបន្តបន្ទាប់។

ពាក្យដែលមិនបានរាយក្នុងវចនានុក្រម និងសំឡេងរំខានមិនត្រូវបានយល់ឃើញដោយនាងទេ ហើយពាក្យដែលមិនមានន័យដូចជា "a", "ល្អ" ជាដើម ត្រូវបានគេបោះចោល។

ពាក្យថ្មីអាចត្រូវបានបន្ថែមទៅវចនានុក្រម។

ប្រព័ន្ធនឹងកែតម្រូវដោយស្វ័យប្រវត្តិទៅនឹងសម្លេង ការបញ្ចេញសំឡេង និងលក្ខណៈនៃការនិយាយផ្សេងទៀតរបស់អ្នកប្រើប្រាស់។

VoiceWare គាំទ្រភាសាអង់គ្លេស និងកូរ៉េរបស់សហរដ្ឋអាមេរិក។ ចិន និងជប៉ុនកំពុងស្ថិតក្រោមការអភិវឌ្ឍន៍។

ប្រព័ន្ធនេះដំណើរការលើ Windows 95/98/NT 4.0, UNIX និង Linux ។

ដើម្បី ទទួលស្គាល់ការនិយាយហើយបកប្រែវា។ ពីអូឌីយ៉ូ ឬវីដេអូទៅជាអត្ថបទមានកម្មវិធី និងផ្នែកបន្ថែម (កម្មវិធីជំនួយ) សម្រាប់កម្មវិធីរុករក។ ទោះជាយ៉ាងណាក៏ដោយហេតុអ្វីបានជាទាំងអស់នេះប្រសិនបើមានសេវាកម្មអនឡាញ? កម្មវិធីត្រូវតែត្រូវបានដំឡើងនៅលើកុំព្យូទ័រ លើសពីនេះកម្មវិធីទទួលស្គាល់ការនិយាយភាគច្រើនគឺនៅឆ្ងាយពីឥតគិតថ្លៃ។

មួយចំនួនធំនៃកម្មវិធីជំនួយដែលបានដំឡើងនៅក្នុងកម្មវិធីរុករកថយចុះយ៉ាងខ្លាំងការងាររបស់វា និងល្បឿននៃការប្រើអ៊ីនធឺណិត។ ហើយសេវាកម្មដែលនឹងត្រូវបានពិភាក្សានៅថ្ងៃនេះគឺឥតគិតថ្លៃទាំងស្រុងហើយមិនត្រូវការការដំឡើងទេ - អ្នកបានចូលប្រើវាហើយចាកចេញ!

នៅក្នុងអត្ថបទនេះយើងនឹងពិនិត្យមើល សេវាបកប្រែការនិយាយទៅអត្ថបទតាមអ៊ីនធឺណិតចំនួនពីរ. ពួកគេទាំងពីរធ្វើការលើគោលការណ៍ស្រដៀងគ្នាមួយ៖ អ្នកចាប់ផ្តើមថត (អនុញ្ញាតឱ្យកម្មវិធីរុករកចូលប្រើមីក្រូហ្វូនពេលកំពុងប្រើប្រាស់សេវាកម្ម) និយាយទៅកាន់មីក្រូហ្វូន (តាមបញ្ជា) ហើយនៅលទ្ធផលអ្នកទទួលបានអត្ថបទដែលអាចចម្លងទៅឯកសារណាមួយនៅលើរបស់អ្នក។ កុំព្យូទ័រ។

Speechpad.ru

សេវាកម្មទទួលស្គាល់ការនិយាយតាមអ៊ីនធឺណិតជាភាសារុស្សី។ វាមានការណែនាំលម្អិតសម្រាប់ការងារជាភាសារុស្សី។

គាំទ្រសម្រាប់ 7 ភាសា (រុស្ស៊ី, អ៊ុយក្រែន, អង់គ្លេស, អាល្លឺម៉ង់, បារាំង, អេស្ប៉ាញ, អ៊ីតាលី)
ទាញយកដើម្បីចម្លងឯកសារអូឌីយ៉ូ ឬវីដេអូ (វីដេអូ YouTube ត្រូវបានគាំទ្រ)
ការបកប្រែដំណាលគ្នាទៅជាភាសាផ្សេង
ការគាំទ្រសម្រាប់ការបញ្ចូលសំឡេងនៃវណ្ណយុត្តិ និងការបញ្ចូលបន្ទាត់
របារប៊ូតុង (ការផ្លាស់ប្តូរករណី បន្ទាត់ថ្មី សម្រង់ តង្កៀប។ល។)
ភាពអាចរកបាននៃគណនីផ្ទាល់ខ្លួនជាមួយនឹងប្រវត្តិនៃកំណត់ត្រា (ជម្រើសមានបន្ទាប់ពីការចុះឈ្មោះ)
វត្តមាននៃកម្មវិធីជំនួយសម្រាប់ Google Chrome សម្រាប់បញ្ចូលអត្ថបទដោយសំឡេងនៅក្នុងវាលអត្ថបទនៃគេហទំព័រ (ហៅថា "ការបញ្ចូលអត្ថបទសំឡេង - Speechpad.ru")

Dictation.io

សេវាបកប្រែការនិយាយទៅអត្ថបទតាមអ៊ីនធឺណិតទីពីរ។ សេវាកម្មបរទេស ដែលទន្ទឹមនឹងនោះ ដំណើរការល្អជាមួយភាសារុស្សី ដែលគួរឱ្យភ្ញាក់ផ្អើលជាខ្លាំង។ គុណភាពនៃការទទួលស្គាល់ការនិយាយគឺមិនទាបជាង Speechpad នោះទេ ប៉ុន្តែមានបន្ថែមទៀតនៅពេលក្រោយ។

មុខងារសំខាន់នៃសេវាកម្ម៖

ការគាំទ្រសម្រាប់ 30 ភាសា, ក្នុងចំណោមនោះមានសូម្បីតែហុងគ្រី, ទួរគី, អារ៉ាប់, ចិន, ម៉ាឡេ, ល។
ការទទួលស្គាល់ដោយស្វ័យប្រវត្តិនៃការបញ្ចេញសំឡេងនៃសញ្ញាវណ្ណយុត្តិ ការបំបែកបន្ទាត់។ល។
សមត្ថភាពក្នុងការរួមបញ្ចូលជាមួយទំព័រនៃគេហទំព័រណាមួយ។
វត្តមាននៃកម្មវិធីជំនួយសម្រាប់ Google Chrome (ហៅថា "VoiceRecognition")

នៅក្នុងការទទួលស្គាល់ការនិយាយ អ្វីដែលសំខាន់បំផុតគឺជាក់លាក់ គុណភាពបកប្រែការនិយាយទៅកាន់អត្ថបទ។ "នំ" រីករាយនិងឱកាស - គ្មានអ្វីក្រៅពីការបូកដ៏ល្អទេ។ ដូច្នេះ តើសេវាកម្មទាំងពីរអាចមានអំនួតក្នុងរឿងនេះអ្វីខ្លះ?

ការធ្វើតេស្តប្រៀបធៀបសេវាកម្ម

សម្រាប់ការធ្វើតេស្ត យើងនឹងជ្រើសរើសបំណែកពិបាកសម្គាល់ចំនួនពីរដែលមានពាក្យ និងឃ្លាដែលកម្រប្រើក្នុងការនិយាយសព្វថ្ងៃ។ ដើម្បីចាប់ផ្តើមជាមួយយើងអានបំណែកនៃកំណាព្យ "កុមារកសិករ" ដោយ N. Nekrasov ។

ខាងក្រោម លទ្ធផលការបកប្រែអត្ថបទសេវាកម្មនីមួយៗ (កំហុសត្រូវបានសម្គាល់ជាពណ៌ក្រហម)៖

ដូចដែលអ្នកអាចឃើញ សេវាកម្មទាំងពីរបានដោះស្រាយជាមួយនឹងការទទួលស្គាល់ការនិយាយជាមួយនឹងកំហុសស្ទើរតែដូចគ្នា។ លទ្ធផលពិតជាល្អណាស់!

ឥឡូវនេះសម្រាប់ការសាកល្បង ចូរយើងដកស្រង់ចេញពីសំបុត្ររបស់ទាហានក្រហម Sukhov (ខ្សែភាពយន្ត "White Sun of the Desert"):

លទ្ធផលដ៏អស្ចារ្យ!

ដូចដែលអ្នកអាចឃើញ សេវាកម្មទាំងពីរអាចដោះស្រាយជាមួយនឹងការទទួលស្គាល់ការនិយាយបានគ្រប់គ្រាន់ - ជ្រើសរើសណាមួយ! វាហាក់ដូចជាថាពួកគេថែមទាំងប្រើម៉ាស៊ីនដូចគ្នា - ពួកគេមានកំហុសស្រដៀងគ្នាពេកយោងទៅតាមលទ្ធផលតេស្ត) ។ ប៉ុន្តែប្រសិនបើអ្នកត្រូវការមុខងារបន្ថែម ដូចជាការបង្ហោះឯកសារអូឌីយ៉ូ/វីដេអូ ហើយបកប្រែវាទៅជាអត្ថបទ (ប្រតិចារឹក) ឬការបកប្រែក្នុងពេលដំណាលគ្នានៃអត្ថបទដែលមានសំឡេងទៅជាភាសាផ្សេងទៀតនោះ Speechpad នឹងក្លាយជាជម្រើសដ៏ល្អបំផុត!

និយាយអញ្ចឹង នេះជារបៀបដែលគាត់បានធ្វើការបកប្រែក្នុងពេលដំណាលគ្នានៃបំណែកនៃកំណាព្យរបស់ Nekrasov ទៅជាភាសាអង់គ្លេស៖

ជាការប្រសើរណាស់ នេះជាការណែនាំជាវីដេអូខ្លីសម្រាប់ធ្វើការជាមួយ Speechpad ដែលថតដោយអ្នកនិពន្ធគម្រោងខ្លួនឯង៖

មិត្តៗ ចូលចិត្តសេវាកម្មនេះទេ? តើអ្នកស្គាល់ analogues ល្អជាងទេ? ចែករំលែកចំណាប់អារម្មណ៍របស់អ្នកនៅក្នុងមតិយោបល់។

ការបង្រៀន

នៅក្នុងអត្ថបទនេះ ខ្ញុំចង់ពិនិត្យឡើងវិញនូវមូលដ្ឋាននៃផ្នែកដ៏គួរឱ្យចាប់អារម្មណ៍នៃការអភិវឌ្ឍន៍កម្មវិធីដូចជាការទទួលស្គាល់ការនិយាយ។ ជាធម្មជាតិ ខ្ញុំមិនមែនជាអ្នកជំនាញក្នុងប្រធានបទនេះទេ ដូច្នេះរឿងរបស់ខ្ញុំនឹងពោរពេញទៅដោយភាពមិនត្រឹមត្រូវ កំហុស និងការខកចិត្ត។ ទោះជាយ៉ាងណាក៏ដោយ គោលដៅសំខាន់នៃ "ការងារ" របស់ខ្ញុំ ដូចឈ្មោះបង្កប់ន័យ មិនមែនជាការវិភាគប្រកបដោយវិជ្ជាជីវៈនៃបញ្ហានោះទេ ប៉ុន្តែជាការពិពណ៌នាអំពីគោលគំនិត បញ្ហា និងដំណោះស្រាយរបស់ពួកគេ។ ជាទូទៅខ្ញុំសួរអ្នកដែលមានចំណាប់អារម្មណ៍ស្វាគមន៍នៅក្រោមការកាត់!

អធិប្បាយ

ចូរចាប់ផ្តើមជាមួយនឹងការពិតដែលថាការនិយាយរបស់យើងគឺជាលំដាប់នៃសំឡេង។ នៅក្នុងវេន សំឡេងគឺជា superposition (superposition) នៃរំញ័រសំឡេង (រលក) នៃប្រេកង់ផ្សេងៗគ្នា។ រលកមួយ ដូចដែលយើងដឹងពីរូបវិទ្យា ត្រូវបានកំណត់ដោយគុណលក្ខណៈពីរ - ទំហំ និងប្រេកង់។

តាមរបៀបនេះ រំញ័រមេកានិចត្រូវបានបំប្លែងទៅជាសំណុំលេខដែលសមរម្យសម្រាប់ដំណើរការលើកុំព្យូទ័រទំនើប។

វាធ្វើតាមថាភារកិច្ចនៃការទទួលស្គាល់ការនិយាយត្រូវបានកាត់បន្ថយទៅជា "ការផ្គូផ្គង" សំណុំនៃតម្លៃលេខ (សញ្ញាឌីជីថល) និងពាក្យពីវចនានុក្រមមួយចំនួន (ឧទាហរណ៍ភាសារុស្ស៊ី) ។

សូមមើលពីរបៀបដែលការពិត "ការធ្វើផែនទី" នេះអាចត្រូវបានអនុវត្ត។

បញ្ចូលទិន្នន័យ

ឧបមាថាយើងមានឯកសារ/ស្ទ្រីមមួយចំនួនដែលមានទិន្នន័យអូឌីយ៉ូ។ ដំបូងយើងត្រូវយល់ពីរបៀបដែលវាដំណើរការនិងរបៀបអានវា។ សូមក្រឡេកមើលជម្រើសដ៏សាមញ្ញបំផុត - ឯកសារ WAV ។

ទ្រង់ទ្រាយបង្កប់ន័យវត្តមាននៃប្លុកពីរនៅក្នុងឯកសារ។ ប្លុកទីមួយគឺជាបឋមកថាដែលមានព័ត៌មានអំពីស្ទ្រីមអូឌីយ៉ូ៖ អត្រាប៊ីត ប្រេកង់ ចំនួនប៉ុស្តិ៍ ប្រវែងឯកសារ។ល។ ប្លុកទីពីរមានទិន្នន័យ "ឆៅ" - សញ្ញាឌីជីថលដូចគ្នា សំណុំនៃតម្លៃអំព្លីទីត។

តក្កវិជ្ជាសម្រាប់ការអានទិន្នន័យក្នុងករណីនេះគឺសាមញ្ញណាស់។ យើងអានបឋមកថាពិនិត្យមើលការរឹតបន្តឹងមួយចំនួន (ឧទាហរណ៍កង្វះការបង្ហាប់) រក្សាទុកទិន្នន័យទៅអារេដែលបានបម្រុងទុកពិសេស។

ការទទួលស្គាល់

តាមទ្រឹស្ដីសុទ្ធសាធ ឥឡូវនេះយើងអាចប្រៀបធៀប (ធាតុដោយធាតុ) គំរូដែលយើងមានជាមួយនឹងអត្ថបទមួយទៀតដែលយើងដឹងរួចហើយ។ នោះគឺព្យាយាម "ទទួលស្គាល់" សុន្ទរកថា ... ប៉ុន្តែវាជាការប្រសើរជាងកុំធ្វើបែបនេះ :)

វិធីសាស្រ្តរបស់យើងគួរតែមានស្ថេរភាព (ល្អ យ៉ាងហោចណាស់បន្តិច) ចំពោះការផ្លាស់ប្តូរនៃសម្លេង (អ្នកដែលបញ្ចេញពាក្យ) កម្រិតសំឡេង និងល្បឿននៃការបញ្ចេញសំឡេង។ តាមធម្មជាតិ វាមិនអាចត្រូវបានសម្រេចដោយការប្រៀបធៀបធាតុដោយធាតុនៃសញ្ញាសំឡេងពីរ។

ដូច្នេះយើងនឹងទៅតាមរបៀបខុសគ្នាបន្តិច។

ស៊ុម

ជាដំបូង ចូរយើងបំបែកទិន្នន័យរបស់យើងទៅជាចន្លោះពេលតូចៗ - ស៊ុម។ លើសពីនេះទៅទៀត ស៊ុមមិនគួរទៅយ៉ាងតឹងរ៉ឹងពីមួយទៅមួយ ប៉ុន្តែ "ត្រួតលើគ្នា" ។ ទាំងនោះ។ ចុងបញ្ចប់នៃស៊ុមមួយត្រូវតែប្រសព្វជាមួយការចាប់ផ្តើមនៃមួយទៀត។

ស៊ុមគឺជាឯកតានៃការវិភាគទិន្នន័យដែលសមស្របជាងតម្លៃសញ្ញាជាក់លាក់ ព្រោះវាងាយស្រួលជាងក្នុងការវិភាគរលកនៅចន្លោះពេលជាក់លាក់ជាងនៅចំណុចជាក់លាក់។ ការរៀបចំស៊ុម "ត្រួតលើគ្នា" អនុញ្ញាតឱ្យធ្វើឱ្យលទ្ធផលនៃការវិភាគនៃស៊ុមដោយរលូនដោយបង្វែរគំនិតនៃស៊ុមទៅជាប្រភេទនៃ "បង្អួច" ដែលផ្លាស់ទីតាមមុខងារដើម (តម្លៃសញ្ញា) ។

វាត្រូវបានបង្កើតឡើងជាក់ស្តែងដែលប្រវែងស៊ុមល្អបំផុតគួរតែត្រូវគ្នាទៅនឹងគម្លាត 10ms "ត្រួតលើគ្នា" - 50% ។ ដោយពិចារណាថាប្រវែងពាក្យជាមធ្យម (យ៉ាងហោចណាស់នៅក្នុងការពិសោធន៍របស់ខ្ញុំ) គឺ 500ms ជំហានបែបនេះនឹងផ្តល់ឱ្យយើងប្រហែល 500 / (10 * 0.5) = 100 ស៊ុមក្នុងមួយពាក្យ។

ការបំបែកពាក្យ

ភារកិច្ចដំបូងដែលត្រូវដោះស្រាយនៅក្នុងការទទួលស្គាល់ការនិយាយគឺការបែងចែកសុន្ទរកថានេះទៅជាពាក្យដាច់ដោយឡែក។ សម្រាប់ភាពសាមញ្ញ ចូរសន្មតថានៅក្នុងករណីរបស់យើង ការនិយាយមានការផ្អាកមួយចំនួន (ចន្លោះពេលនៃភាពស្ងៀមស្ងាត់) ដែលអាចត្រូវបានចាត់ទុកថាជា "អ្នកបំបែក" នៃពាក្យ។

ក្នុងករណីនេះ យើងត្រូវស្វែងរកតម្លៃមួយចំនួន ជាកម្រិតមួយ - តម្លៃខាងលើដែលជាពាក្យ ខាងក្រោមដែលជាភាពស្ងៀមស្ងាត់។ វាអាចមានជម្រើសជាច្រើននៅទីនេះ៖

កំណត់ទៅថេរ (ដំណើរការប្រសិនបើសញ្ញាដើមត្រូវបានបង្កើតជានិច្ចនៅក្រោមលក្ខខណ្ឌដូចគ្នាក្នុងវិធីដូចគ្នា);
តម្លៃសញ្ញាចង្កោមដោយការរំលេចយ៉ាងច្បាស់នូវសំណុំតម្លៃដែលត្រូវនឹងភាពស្ងៀមស្ងាត់ (វានឹងដំណើរការលុះត្រាតែភាពស្ងៀមស្ងាត់កាន់កាប់ផ្នែកសំខាន់នៃសញ្ញាដើម);
វិភាគ entropy;

ដូចដែលអ្នកប្រហែលជាបានទាយ ឥឡូវនេះយើងនឹងនិយាយអំពីចំណុចចុងក្រោយ :) ចូរចាប់ផ្តើមជាមួយនឹងការពិតដែលថា entropy គឺជារង្វាស់នៃភាពមិនប្រក្រតី "រង្វាស់នៃភាពមិនច្បាស់លាស់នៃបទពិសោធន៍ណាមួយ" (c) ។ ក្នុងករណីរបស់យើង entropy មានន័យថាចំនួនសញ្ញារបស់យើង "ប្រែប្រួល" នៅក្នុងស៊ុមដែលបានផ្តល់ឱ្យ។

ឧបមាថាសញ្ញារបស់យើងត្រូវបានធ្វើឱ្យធម្មតាហើយតម្លៃរបស់វាទាំងអស់ស្ថិតនៅក្នុងជួរ [-1;1];
បង្កើតអ៊ីស្តូក្រាម (ដង់ស៊ីតេចែកចាយ) នៃតម្លៃសញ្ញាស៊ុម៖

គណនា entropy ជា

;

ដូច្នេះហើយ យើងទទួលបានតម្លៃនៃ entropy ។ ប៉ុន្តែនេះគ្រាន់តែជាលក្ខណៈមួយទៀតនៃស៊ុមប៉ុណ្ណោះ ហើយដើម្បីបំបែកសំឡេងចេញពីភាពស្ងៀមស្ងាត់ យើងនៅតែត្រូវប្រៀបធៀបវាជាមួយនឹងអ្វីមួយ។ នៅក្នុងអត្ថបទមួយចំនួន វាត្រូវបានណែនាំឱ្យយកកម្រិត entropy ស្មើនឹងមធ្យមរវាងតម្លៃអតិបរមា និងអប្បបរមារបស់វា (ក្នុងចំណោមស៊ុមទាំងអស់)។ ទោះយ៉ាងណាក៏ដោយក្នុងករណីរបស់ខ្ញុំវិធីសាស្រ្តនេះមិនបានផ្តល់លទ្ធផលល្អទេ។
ជាសំណាងល្អ entropy (មិនដូចការ៉េមធ្យមនៃតម្លៃ) គឺជាបរិមាណឯករាជ្យ។ ដែលអនុញ្ញាតឱ្យខ្ញុំយកតម្លៃនៃកម្រិតរបស់វាក្នុងទម្រង់ជាថេរ (0.1)។

ទោះយ៉ាងណាក៏ដោយ បញ្ហាមិនបញ្ចប់ត្រឹមនេះទេ៖ (Entropy អាចស្រក់នៅកណ្តាលពាក្យ (ស្រៈ) ឬវាអាចលោតឡើងភ្លាមៗដោយសារតែសំលេងរំខានតិចតួច។ ដើម្បីដោះស្រាយបញ្ហាដំបូង យើងត្រូវណែនាំ គោលគំនិតនៃ "ចម្ងាយអប្បរមារវាងពាក្យ" និង "កាវ" សំណុំស៊ុមដែលនៅជាប់នឹងគ្នាត្រូវបានបំបែកដោយសារការដួលរលំ។ បញ្ហាទីពីរត្រូវបានដោះស្រាយដោយប្រើ "ប្រវែងពាក្យអប្បបរមា" និងកាត់ផ្តាច់បេក្ខជនទាំងអស់ដែលមិនឆ្លងកាត់ការជ្រើសរើស (និងមិនត្រូវបានប្រើ ក្នុងកថាខណ្ឌទី១)។

ប្រសិនបើជាគោលការណ៍ ការនិយាយមិនមែនជា "ការបញ្ជាក់ច្បាស់លាស់" នោះ គេអាចព្យាយាមបំបែកសំណុំដើមនៃស៊ុមទៅជាការបន្តបន្ទាប់គ្នាដែលបានរៀបចំតាមរបៀបជាក់លាក់មួយ ដែលនីមួយៗនឹងត្រូវទទួលរងនូវនីតិវិធីទទួលស្គាល់។ ប៉ុន្តែនោះជារឿងខុសគ្នាទាំងស្រុង :)

ដូច្នេះហើយ យើងមានសំណុំនៃស៊ុមដែលត្រូវគ្នាទៅនឹងពាក្យជាក់លាក់មួយ។ យើងអាចយកផ្លូវនៃការតស៊ូតិចបំផុត ហើយប្រើឫសមធ្យមការ៉េនៃតម្លៃទាំងអស់របស់វា (Root Mean Square) ជាលក្ខណៈលេខនៃស៊ុម។ ទោះយ៉ាងណាក៏ដោយ ឧបករណ៍វាស់ស្ទង់បែបនេះមានព័ត៌មានតិចតួចបំផុតដែលសមរម្យសម្រាប់ការវិភាគបន្ថែម។

នេះគឺជាកន្លែងដែលមេគុណប្រេកង់ Mel-frequency cepstral ចូលមកលេង។ យោងតាមវិគីភីឌា (ដែលអ្នកដឹងមិនកុហកទេ) MFCC គឺជាប្រភេទនៃតំណាងនៃថាមពលនៃវិសាលគមសញ្ញា។ អត្ថប្រយោជន៍នៃការប្រើប្រាស់វាមានដូចខាងក្រោម៖

វិសាលគមនៃសញ្ញាត្រូវបានប្រើ (នោះគឺការពង្រីកនៅក្នុងលក្ខខណ្ឌនៃមូលដ្ឋាននៃមុខងារ orthogonal [co] sinusoidal) ដែលធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីយកទៅក្នុងគណនីរលក "ធម្មជាតិ" នៃសញ្ញានៅក្នុងការវិភាគបន្ថែមទៀត;
វិសាលគមត្រូវបានព្យាករលើមាត្រដ្ឋានមេលពិសេស ដែលអនុញ្ញាតឱ្យអ្នករំលេចប្រេកង់សំខាន់ៗបំផុតសម្រាប់ការយល់ឃើញរបស់មនុស្ស។
ចំនួននៃមេគុណដែលបានគណនាអាចត្រូវបានកំណត់ចំពោះតម្លៃណាមួយ (ឧទាហរណ៍ 12) ដែលអនុញ្ញាតឱ្យអ្នក "បង្ហាប់" ស៊ុម ហើយជាលទ្ធផល បរិមាណនៃព័ត៌មានដែលកំពុងដំណើរការ។

សូមក្រឡេកមើលដំណើរការនៃការគណនាមេគុណ MFCC សម្រាប់ស៊ុមជាក់លាក់មួយ។

ចូរតំណាងឱ្យស៊ុមរបស់យើងជាវ៉ិចទ័រ ដែល N ជាទំហំនៃស៊ុម។

ការពង្រីក Fourier

ជាដំបូង យើងគណនាវិសាលគមសញ្ញាដោយប្រើការបំប្លែង Fourier ដាច់ដោយឡែក (និយមការអនុវត្ត FFT "លឿន" របស់វា)។

នោះគឺជាលទ្ធផលនឹងជាវ៉ិចទ័រនៃទម្រង់ខាងក្រោម៖

វាជាការសំខាន់ក្នុងការយល់ថាបន្ទាប់ពីការបំលែងនេះនៅលើអ័ក្ស x យើងមានប្រេកង់ (hz) នៃសញ្ញាហើយនៅលើអ័ក្ស y យើងមានរ៉ិចទ័រ (ជាវិធីមួយដើម្បីគេចចេញពីតម្លៃស្មុគស្មាញ):

ការគណនាតម្រង mel

ចូរចាប់ផ្តើមជាមួយនឹងអ្វីដែលជា mel ។ ជាថ្មីម្តងទៀតយោងទៅតាមវិគីភីឌា មែលគឺជា "ឯកតាផ្លូវចិត្តនៃទីលាន" ដោយផ្អែកលើការយល់ឃើញជាប្រធានបទដោយមនុស្សជាមធ្យម។ វាអាស្រ័យជាចម្បងទៅលើភាពញឹកញាប់នៃសំឡេង (ក៏ដូចជាកម្រិតសំឡេង និង timbre)។ ម្យ៉ាងវិញទៀត តម្លៃនេះដែលបង្ហាញពីចំនួនសំឡេងនៃប្រេកង់ជាក់លាក់មួយគឺ "សំខាន់" សម្រាប់យើង។

អ្នកអាចបំប្លែងប្រេកង់ទៅជាដីសដោយប្រើរូបមន្តខាងក្រោម (ចងចាំវាជា "រូបមន្ត-1"):

ការផ្លាស់ប្តូរបញ្ច្រាសមើលទៅដូចនេះ (ចងចាំវាជា "រូបមន្ត-2"):

គ្រោង mel / ប្រេកង់៖

ប៉ុន្តែត្រលប់ទៅភារកិច្ចរបស់យើង។ ឧបមាថាយើងមានស៊ុមដែលមានទំហំ 256 ធាតុ។ យើងដឹង (ពីទិន្នន័យទ្រង់ទ្រាយអូឌីយ៉ូ) ថាប្រេកង់អូឌីយ៉ូនៅក្នុងស៊ុមដែលបានផ្តល់ឱ្យគឺ 16000hz ។ ចូរសន្មតថាការនិយាយរបស់មនុស្សស្ថិតនៅក្នុងជួរចាប់ពី hz ។ អនុញ្ញាតឱ្យយើងកំណត់ចំនួនមេគុណមេគុណដែលស្វែងរក M = 10 (តម្លៃដែលបានណែនាំ) ។

ដើម្បីបំបែកវិសាលគមដែលទទួលបានខាងលើនៅលើមាត្រដ្ឋាន mel យើងត្រូវបង្កើត "សិតសក់" នៃតម្រង។ នៅក្នុងខ្លឹមសារ តម្រង mel នីមួយៗគឺជាមុខងារបង្អួចរាងត្រីកោណ ដែលអនុញ្ញាតឱ្យអ្នកបូកសរុបបរិមាណថាមពលលើជួរប្រេកង់ជាក់លាក់មួយ ហើយដោយហេតុនេះទទួលបានមេគុណ mel ។ ដោយដឹងពីចំនួនមេគុណ mel និងជួរប្រេកង់ដែលបានវិភាគ យើងអាចបង្កើតសំណុំនៃតម្រងបែបនេះ៖

ចំណាំថាលេខមេគុណមេគុណកាន់តែខ្ពស់ មូលដ្ឋាននៃតម្រងកាន់តែធំ។ នេះគឺដោយសារតែការពិតដែលថាការបែងចែកជួរប្រេកង់នៃការចាប់អារម្មណ៍ចំពោះយើងទៅក្នុងជួរដែលដំណើរការដោយតម្រងកើតឡើងនៅលើមាត្រដ្ឋានដីស។

ប៉ុន្តែយើងវង្វេងម្ដងទៀត។ ដូច្នេះហើយ សម្រាប់ករណីរបស់យើង ជួរនៃភាពញឹកញាប់នៃការចាប់អារម្មណ៍ចំពោះយើងគឺ . យោងតាមរូបមន្ត-1 នៅលើមាត្រដ្ឋានដីស ជួរនេះប្រែទៅជា។

m[i] =

សូមចំណាំថាចំនុចទាំងនោះត្រូវបានដាក់ស្មើៗគ្នានៅលើមាត្រដ្ឋានដីស។ ចូរបំប្លែងមាត្រដ្ឋានទៅជាហឺត ដោយប្រើរូបមន្ត-២៖

h[i] =

ដូចដែលអ្នកអាចឃើញឥឡូវនេះមាត្រដ្ឋានបានចាប់ផ្តើមលាតសន្ធឹងបន្តិចម្តង ៗ ដោយហេតុនេះកម្រិតថាមវន្តនៃកំណើននៃ "សារៈសំខាន់" នៅប្រេកង់ទាបនិងខ្ពស់។

ឥឡូវនេះយើងត្រូវលាបលើមាត្រដ្ឋានលទ្ធផលនៅលើវិសាលគមនៃស៊ុមរបស់យើង។ ដូចដែលយើងចងចាំនៅលើអ័ក្ស X យើងមានប្រេកង់។ ប្រវែងនៃវិសាលគមគឺ 256 - ធាតុខណៈពេលដែលវាសមនឹង 16000hz ។ ដោយការដោះស្រាយសមាមាត្រសាមញ្ញ អ្នកអាចទទួលបានរូបមន្តដូចខាងក្រោម៖

f(i) = floor((frameSize+1) * h(i) / sampleRate)

ដែលនៅក្នុងករណីរបស់យើងគឺស្មើនឹង

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

អស់ហើយ! ដោយដឹងពីចំណុចយោងនៅលើអ័ក្ស X នៃវិសាលគមរបស់យើង វាងាយស្រួលក្នុងការបង្កើតតម្រងដែលយើងត្រូវការដោយប្រើរូបមន្តខាងក្រោម៖

ការអនុវត្តតម្រង លោការីតនៃថាមពលវិសាលគម

កម្មវិធីនៃតម្រងមាននៅក្នុងការគុណជាគូនៃតម្លៃរបស់វាជាមួយនឹងតម្លៃនៃវិសាលគម។ លទ្ធផលនៃប្រតិបត្តិការនេះគឺមេគុណ mel ។ ដោយសារយើងមានតម្រង M វានឹងមានចំនួនមេគុណដូចគ្នា។

ទោះយ៉ាងណាក៏ដោយ យើងត្រូវអនុវត្តតម្រង mel មិនមែនទៅនឹងតម្លៃនៃវិសាលគមនោះទេ ប៉ុន្តែចំពោះថាមពលរបស់វា។ បន្ទាប់មកយកលោការីតនៃលទ្ធផល។ វាត្រូវបានគេជឿថានេះកាត់បន្ថយភាពប្រែប្រួលនៃមេគុណទៅនឹងសំលេងរំខាន។

ការបំប្លែងកូស៊ីនុស

Discrete Cosine Transform (DCT) ត្រូវបានប្រើដើម្បីទទួលបានមេគុណ "cepstral" ទាំងនោះ។ អត្ថន័យរបស់វាគឺ "បង្រួម" លទ្ធផលដែលទទួលបានដោយការបង្កើនសារៈសំខាន់នៃមេគុណទីមួយ និងបន្ថយសារៈសំខាន់នៃមេគុណក្រោយ។

ក្នុងករណីនេះ DCTII ត្រូវបានប្រើដោយមិនមានគុណនឹង (កត្តាមាត្រដ្ឋាន)។

ឥឡូវនេះសម្រាប់ស៊ុមនីមួយៗ យើងមានសំណុំនៃមេគុណ M mfcc ដែលអាចត្រូវបានប្រើសម្រាប់ការវិភាគបន្ថែម។

ឧទាហរណ៍នៃកូដសម្រាប់វិធីសាស្រ្តលើសអាចត្រូវបានរកឃើញ។

ក្បួនដោះស្រាយការទទួលស្គាល់

នៅទីនេះ អ្នកអានជាទីគោរព ការខកចិត្តចម្បងកំពុងរង់ចាំអ្នក។ នៅលើអ៊ីនធឺណិត ខ្ញុំបានឃើញជម្លោះដ៏ឆ្លាតវៃខ្ពស់ (ហើយមិនមែនដូច្នេះទេ) ជាច្រើនអំពីវិធីទទួលស្គាល់មួយណាដែលល្អជាង។ មាននរណាម្នាក់ក្រោកឈរឡើងសម្រាប់ Hidden Markov Models នរណាម្នាក់សម្រាប់បណ្តាញសរសៃប្រសាទ គំនិតរបស់នរណាម្នាក់គឺមិនអាចយល់បានជាមូលដ្ឋាន :)

ក្នុងករណីណាក៏ដោយ ចំណង់ចំណូលចិត្តជាច្រើនត្រូវបានផ្តល់ទៅឱ្យ HMM ហើយវាគឺជាការអនុវត្តរបស់ពួកគេ ដែលខ្ញុំនឹងបន្ថែមទៅលេខកូដរបស់ខ្ញុំ ... នាពេលអនាគត :)

នៅពេលនេះ ខ្ញុំស្នើឱ្យឈប់នៅវិធីដែលមានប្រសិទ្ធភាពតិច ប៉ុន្តែច្រើនដង វិធីសាស្ត្រសាមញ្ញជាង។

ដូច្នេះហើយ សូមចាំថា ភារកិច្ចរបស់យើងគឺត្រូវទទួលស្គាល់ពាក្យពីវចនានុក្រមមួយចំនួន។ សម្រាប់ភាពសាមញ្ញ យើងនឹងស្គាល់ឈ្មោះនៃខ្ទង់ដប់ដំបូង: "មួយ", "ពីរ", "បី", "បួន", "ប្រាំ", "ប្រាំមួយ", "ប្រាំមួយ", "ប្រាំបី", "ប្រាំបួន", ។ "ដប់" ។

ឥឡូវនេះ ចូរយើងយកទូរស័ព្ទ iPhone / Android ហើយឆ្លងកាត់សហសេវិក L ជាមួយនឹងសំណើដើម្បីសរសេរពាក្យទាំងនេះសម្រាប់កំណត់ត្រា។ បន្ទាប់មក យើងកំណត់ (នៅក្នុងមូលដ្ឋានទិន្នន័យ ឬឯកសារសាមញ្ញមួយចំនួន) ទៅពាក្យ L នីមួយៗនៃសំណុំនៃមេគុណ mfcc នៃកំណត់ត្រាដែលត្រូវគ្នា។

យើងនឹងហៅការឆ្លើយឆ្លងនេះថា "គំរូ" ហើយដំណើរការដោយខ្លួនឯង - ការរៀនម៉ាស៊ីន! តាមពិត ការបន្ថែមគំរូថ្មីទៅក្នុងមូលដ្ឋានទិន្នន័យ មានទំនាក់ទំនងខ្សោយខ្លាំងជាមួយការរៀនម៉ាស៊ីន... ប៉ុន្តែពាក្យនេះគឺទាន់សម័យពេកហើយ :)

ឥឡូវនេះភារកិច្ចរបស់យើងត្រូវបានកាត់បន្ថយទៅការជ្រើសរើសគំរូ "ជិតបំផុត" សម្រាប់សំណុំមួយចំនួននៃ mfcc-coefficients (ពាក្យដែលអាចស្គាល់បាន) ។ នៅ glance ដំបូង, បញ្ហាអាចត្រូវបានដោះស្រាយយ៉ាងសាមញ្ញ:

សម្រាប់ម៉ូដែលនីមួយៗ យើងរកឃើញចម្ងាយមធ្យម (Euclidean) រវាង mfcc-vector ដែលបានកំណត់ និងវ៉ិចទ័រគំរូ។
យើងជ្រើសរើសជាគំរូត្រឹមត្រូវ ចម្ងាយជាមធ្យមដែលនឹងតូចបំផុត;

ទោះយ៉ាងណាក៏ដោយ ពាក្យដូចគ្នាអាចត្រូវបានបញ្ចេញទាំងដោយ Andrei Malakhov និងដោយសហសេវិកអេស្តូនីមួយចំនួន។ នៅក្នុងពាក្យផ្សេងទៀតទំហំនៃវ៉ិចទ័រ mfcc សម្រាប់ពាក្យដូចគ្នាអាចខុសគ្នា។

ជាសំណាងល្អ បញ្ហានៃការប្រៀបធៀបលំដាប់នៃប្រវែងខុសៗគ្នាត្រូវបានដោះស្រាយរួចជាស្រេចក្នុងទម្រង់នៃ ថាមវន្ត Time Warping algorithm។ ក្បួនដោះស្រាយការសរសេរកម្មវិធីថាមវន្តនេះត្រូវបានពិពណ៌នាយ៉ាងស្រស់ស្អាតទាំងនៅក្នុង bourgeois Wiki និងនៅក្នុង Orthodox Habré។

ការផ្លាស់ប្តូរតែមួយគត់ដែលគួរតែត្រូវបានធ្វើឡើងចំពោះវាគឺវិធីដែលចម្ងាយត្រូវបានរកឃើញ។ យើងត្រូវតែចងចាំថាវ៉ិចទ័រ mfcc របស់ម៉ូដែលគឺពិតជាលំដាប់នៃ mfcc "subectors" នៃវិមាត្រ M ដែលទទួលបានពីស៊ុម។ ដូច្នេះ ក្បួនដោះស្រាយ DTW គួរតែស្វែងរកចំងាយរវាងលំដាប់នៃ "subvectors" ដូចគ្នាទាំងនេះនៃវិមាត្រ M. ពោលគឺ ចម្ងាយ (Euclidean) រវាង mfcc "subvectors" នៃ frames គួរតែត្រូវបានប្រើជាតម្លៃនៃម៉ាទ្រីសចម្ងាយ។

ការពិសោធន៍

ខ្ញុំមិនមានឱកាសដើម្បីសាកល្បងការងារនៃវិធីសាស្រ្តនេះលើគំរូ "ការបណ្តុះបណ្តាល" ដ៏ធំនោះទេ។ លទ្ធផលនៃការធ្វើតេស្តលើគំរូនៃ 3 ករណីសម្រាប់ពាក្យនីមួយៗនៅក្នុងលក្ខខណ្ឌមិនសំយោគត្រូវបានបង្ហាញដើម្បីដាក់វាឱ្យស្រាលមិនមែនជាលទ្ធផលល្អបំផុត - 65% នៃការទទួលស្គាល់ត្រឹមត្រូវ។

ទោះយ៉ាងណាក៏ដោយ គោលដៅរបស់ខ្ញុំគឺបង្កើតកម្មវិធីសាមញ្ញបំផុតសម្រាប់ការទទួលស្គាល់ការនិយាយ។ ដូច្នេះដើម្បីនិយាយថា "ភស្តុតាងនៃគំនិត" :) បន្ថែមស្លាក

9. មុខតំណែង phonological ។ សូរស័ព្ទខ្លាំង និងខ្សោយ។

10. ការផ្លាស់ប្តូរទីតាំងនៃសូរសព្ទស្រៈ។ ការកាត់បន្ថយបរិមាណ និងគុណភាពនៃសូរសព្ទស្រៈ។

11. ការផ្លាស់ប្តូរទីតាំងនៃសូរសព្ទព្យញ្ជនៈ។ assimilation និង dissimilation ដោយថ្លង់/សំលេង និងដោយរឹង/ទន់។

12. ការផ្លាស់ប្តូរប្រវត្តិសាស្រ្តនៃ phonemes ។

13. ការដួលរលំនៃសូរសព្ទស្រៈកាត់បន្ថយ និងផលវិបាកនៃបាតុភូតនេះ។

14. ជម្មើសជំនួសដែលទាក់ទងនឹងប្រវត្តិនៃសម្លេងច្រមុះនៅក្នុងភាសារុស្ស៊ីចាស់។

15. Palatalization នៃអណ្តាតក្រោយ។

17. ការចម្លងតាមសូរសព្ទ។ ការចម្លងតាមសូរស័ព្ទ

18. ព្យាង្គ។ កម្មវិធីសិក្សា។ ប្រភេទនៃព្យាង្គ។

19. ពាក្យសូរសព្ទ។ ភាពតានតឹង

20. ការនិយាយវាយដំ។ សំនៀង

21. ការសង្កត់ធ្ងន់។ សំណង់សំឡេង

21. ឃ្លា។ សំនៀង

22. គំនិតនៃ orthoepy

23. ច្បាប់ជាមូលដ្ឋាននៃការបញ្ចេញសំឡេងអក្សរសាស្ត្ររុស្ស៊ី។

24. ការបញ្ចេញសំឡេងស្រៈក្រោមភាពតានតឹង។ ការបញ្ចេញសំឡេងស្រៈដែលមិនមានភាពតានតឹង។

25. ការបញ្ចេញសំឡេងនៃព្យញ្ជនៈបុគ្គល។

26. ការបញ្ចេញសំឡេងនៃក្រុមនៃព្យញ្ជនៈ។

27. ការបញ្ចេញសំឡេងនៃទម្រង់វេយ្យាករណ៍មួយចំនួន។

28. ការបញ្ចេញសំឡេងនៃអក្សរកាត់មួយចំនួន។ លក្ខណៈពិសេសនៃការបញ្ចេញសំឡេងនៃពាក្យបរទេស។

29. ករណីលំបាកនៃការស្ត្រេសស្ត្រេសជាភាសារុស្សី។

30. ការអភិវឌ្ឍន៍ការបញ្ចេញសំឡេងអក្សរសាស្ត្ររុស្ស៊ី។

31. ការសរសេរកូដវេយ្យាករណ៍

32. ការសរសេរកូដ semantic ។ វិវាទពីរ (សញ្ញាបណ្ដោះអាសន្ន) : បុព្វហេតុ ។

33. ការសរសេរកូដ semantic ។ អាគុយម៉ង់ពីរ (សញ្ញាបណ្តោះអាសន្ន): លទ្ធផល, លទ្ធផល, គោលបំណង។

34. ការសរសេរកូដ semantic ។ អំណះអំណាងពីរ (សញ្ញាបណ្តោះអាសន្ន) : ការផ្លាស់ប្តូរ, ការផ្លាស់ប្តូរ

35. ការសរសេរកូដ semantic ។ អាគុយម៉ង់ពីរ (សញ្ញាបណ្តោះអាសន្ន): អន្តរកម្ម, ក្រុម, ភាពសាមញ្ញ, សមាគម

36. ការសរសេរកូដ semantic ។ អំណះអំណាងពីរ (សញ្ញាបណ្តោះអាសន្ន) : ការបំបែក, ឥទ្ធិពល, លក្ខខណ្ឌ, ការចូល។

37. ការសរសេរកូដ semantic ។ អំណះអំណាងពីរ (សញ្ញាបណ្តោះអាសន្ន) : ការអនុលោមតាម, ការត្រួតពិនិត្យ, ការអនុលោមភាព, ការពឹងផ្អែក។

38. ការសរសេរកូដ semantic ។ អាគុយម៉ង់មួយ (សញ្ញាអចិន្រ្តៃយ៍): ទ្រព្យសម្បត្តិ, ភាពចាំបាច់, លទ្ធភាព, ប្រូបាប៊ីលីតេ, បាទ, ទេ។

39. ការសរសេរកូដ semantic ។ អំណះអំណាងមួយ (សញ្ញាថេរ) : សេចក្តីពិត, មិនពិត។

កូដ semantic ។ គោលដៅរបស់គាត់។ គោលបំណង។ គោលការណ៍សាងសង់។ ឱកាស។

គោលបំណងនៃកូដ semantic ។ ពាក្យ "អត្ថន័យ" ។

គោលបំណងនៃកូដ semantic ។ អត្ថបទ។ ព័ត៌មាន។ Hypertext ក្នុងការអភិវឌ្ឍន៍ព័ត៌មាន។

43. ការវិភាគវេយ្យាករណ៍ និងអត្ថន័យក្នុងការសរសេរកូដ semantic ។

44. វចនានុក្រម semantic រុស្ស៊ីនៃភាពឆបគ្នា និងវចនានុក្រមសមាគមសម្រាប់ការសរសេរកូដ semantic ។

គោលបំណងនៃកូដ semantic ។ ប្រព័ន្ធ isomorphism ។

គោលបំណងនៃកូដ semantic ។ គោលការណ៍ចាំបាច់ និងគ្រប់គ្រាន់។

គោលបំណងនៃកូដ semantic ។ ការតភ្ជាប់នៃថ្នាក់ និងថ្នាក់រង

48. គោលបំណងនៃកូដ semantic ។ គោលការណ៍នៃឋានានុក្រម / មិនឋានានុក្រម។

49. គោលបំណងនៃកូដ semantic ។ ពាក្យប្រៀបធៀបជាប្រព័ន្ធ។

50. Situational (situational) semantic code.

51. ការសរសេរកូដ semantic ។ តម្រឹម - កូដបកស្រាយ។ កូដម៉ាទ្រីស។

52. ភារកិច្ចចម្បង និងគោលគំនិតសំខាន់ៗនៃចំណុចប្រទាក់ការនិយាយ។

53. ការពិនិត្យឡើងវិញជាប្រវត្តិសាស្ត្រនៃបញ្ហានៃការទទួលស្គាល់ការនិយាយនិងការសំយោគ។

54. ប្រព័ន្ធនៃការសំយោគការនិយាយដោយស្វ័យប្រវត្តិ។ កម្មវិធីជាក់ស្តែងនៃចំណុចប្រទាក់ការនិយាយ។

55. ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ។ កម្មវិធីជាក់ស្តែងនៃចំណុចប្រទាក់ការនិយាយ។

56. មូលដ្ឋានគ្រឹះភាសានៃចំណុចប្រទាក់ការនិយាយ។ ការប្រើប្រាស់ភាសាវិទ្យាក្នុងការអនុវត្តប្រព័ន្ធការនិយាយ។

57. រចនាសម្ព័ន្ធនៃសញ្ញានៃការនិយាយ។ ការវិភាគនិងសំយោគ។ Spectral-temporal លក្ខណៈនៃសញ្ញាសុន្ទរកថា។

58. ព័ត៌មាននិងរចនាសម្ព័ន្ធម៉ូឌុលនៃសញ្ញាសុន្ទរកថា។

59. វិធីសាស្រ្តសម្រាប់ការសំយោគសញ្ញាសុន្ទរកថា។ គំរូគណិតវិទ្យាទូទៅសម្រាប់ការពិពណ៌នាអំពីសញ្ញានៃការនិយាយ។

60. វិធីសាស្រ្តសម្រាប់ការសំយោគសញ្ញាសុន្ទរកថា។ គំរូធរណីមាត្រនៃផ្លូវសំលេង។

61. វិធីសាស្រ្តសម្រាប់ការសំយោគសញ្ញាសុន្ទរកថា។ គំរូទម្រង់។

62. វិធីសាស្រ្តចងក្រងសម្រាប់ការសំយោគសញ្ញាសុន្ទរកថា។

63. វិធីសាស្រ្តនៃការវិភាគសញ្ញានៃការនិយាយ។

64. វិធីសាស្រ្តនៃការត្រងឌីជីថលនៃសញ្ញានិយាយ។ ការវិភាគវិសាលគមដោយប្រើក្បួនដោះស្រាយ FFT ។ វិធីសាស្រ្តតម្រងឌីជីថល

ការវិភាគវិសាលគមដោយប្រើក្បួនដោះស្រាយ FFT

65. ការវិភាគវិសាលគមផ្អែកលើការព្យាករណ៍លីនេអ៊ែរ។ ការពិពណ៌នាទម្រង់ - ប៉ារ៉ាម៉ែត្រនៃសញ្ញានិយាយ។ ការវិភាគវិសាលគមផ្អែកលើការព្យាករណ៍លីនេអ៊ែរ

ការពិពណ៌នាទម្រង់ - ប៉ារ៉ាម៉ែត្រនៃសញ្ញានិយាយ

66. វិធីសាស្រ្តនៃមេគុណ cepstral ។ លក្ខណៈពិសេសនៃការយល់ឃើញនៃការនិយាយ។ លក្ខណៈសម្បត្តិនៃការយល់ឃើញនៃការនិយាយដោយមនុស្សម្នាក់។ វិធីសាស្ត្រមេគុណ Cepstral

67. លក្ខណៈសម្បត្តិនៃការទទួលការយល់ឃើញនៃសញ្ញានៃការនិយាយ។ លក្ខណៈនៃសូរសព្ទ (សូរសព្ទ) លក្ខណៈនៃសញ្ញានិយាយ។ លក្ខណៈសម្បត្តិនៃការយល់ឃើញនៃសញ្ញានៃការនិយាយ

លក្ខណៈនៃសូរសព្ទ (សូរសព្ទ) លក្ខណៈនៃសញ្ញានិយាយ

68. លក្ខណៈសម្បត្តិនៃការយល់ឃើញនៃធាតុដែលមានអត្ថន័យតិចតួចបំផុតនៃការនិយាយ

69. ការសំយោគការនិយាយនៅក្នុងអត្ថបទ។ រចនាសម្ព័ន្ធរបស់ឧបករណ៍សំយោគការនិយាយតាមអត្ថបទ។

រចនាសម្ព័ន្ធអត្ថបទទៅការនិយាយ គោលគំនិតសំខាន់ៗ៖

70. ដំណើរការភាសា។ ដំណើរការអត្ថបទជាមុន។ ដំណើរការប្រយោគនៃអត្ថបទ។

កំពុងដំណើរការអត្ថបទជាមុន

ដំណើរការអត្ថបទតាមឃ្លា

71. ដំណើរការពាក្យនៃការធ្វើតេស្ត។ ឧទាហរណ៍នៃការងាររបស់ខួរក្បាលភាសា។ ដំណើរការពាក្យ

ឧទាហរណ៍នៃការងាររបស់ខួរក្បាលភាសា

72. ដំណើរការ Prosodic

73. ដំណើរការសូរសព្ទ។ ខួរក្បាល articulatory-phonetic ។ ដំណើរការសូរស័ព្ទទម្រង់។

74. ដំណើរការសូរស័ព្ទ Allophone ។ ដំណើរការសូរស័ព្ទ។

75. ប្រមាណនៃធរណីមាត្រនៃឧបាយកលនៃការនិយាយ។ ដំណើរការសូរស័ព្ទផ្អែកលើវិធីសាស្រ្តចងក្រងនៃការសំយោគការនិយាយ។

76. ចំណាត់ថ្នាក់នៃប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ។ វិធីសាស្រ្តនៃការទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ។

77. ចំណាត់ថ្នាក់នៃវិធីសាស្រ្តទទួលស្គាល់ការនិយាយ។

78. វិធីសាស្រ្តនៃការសរសេរកម្មវិធីថាមវន្ត។

79. វិធីសាស្រ្តនៃម៉ូដែល Markov លាក់។

ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ (SAPP) ត្រូវបានយល់ថាជាប្រព័ន្ធដែលបំប្លែងការនិយាយបញ្ចូល (សញ្ញាការនិយាយ) ទៅជាសារដែលទទួលស្គាល់។ ក្នុងករណីនេះ សារដែលបានទទួលស្គាល់អាចត្រូវបានបង្ហាញទាំងនៅក្នុងទម្រង់នៃអត្ថបទនៃសារនេះ និង

បានបំប្លែងភ្លាមៗទៅជាទម្រង់ដែលងាយស្រួលសម្រាប់ដំណើរការបន្ថែមរបស់វា ដើម្បីបង្កើតជាការឆ្លើយតបនៃប្រព័ន្ធ។ ដំបូង ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិមានភារកិច្ចបំប្លែងអត្ថបទទៅជាការនិយាយ។ ដូច្នេះហើយ នៅក្នុងអក្សរសិល្ប៍អង់គ្លេស ប្រព័ន្ធទាំងនេះត្រូវបានគេហៅថា Speech To Text System។ ជាញឹកញយ ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិក៏ត្រូវបានសំដៅយ៉ាងសាមញ្ញថាជាប្រព័ន្ធទទួលស្គាល់ការនិយាយ (SPR)។

ដ្យាក្រាមប្លុកសាមញ្ញនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិត្រូវបានបង្ហាញនៅក្នុងរូបភព។

នៅក្រោមគំរូការវិភាគសញ្ញានៃការនិយាយស្វែងយល់ពីប្លុកដែលភារកិច្ចគឺដើម្បីវិភាគសញ្ញាបញ្ចូល ជាដំបូងដើម្បីចាត់ថ្នាក់វាជាសញ្ញានិយាយ និងទីពីរដើម្បីបន្លិចសមាសធាតុនៅក្នុងសញ្ញាដែលបានទទួលដែលជាសញ្ញាសំខាន់សម្រាប់

ការទទួលស្គាល់សារដែលបានទទួល។ សមាសធាតុទាំងនេះរួមមានប៉ារ៉ាម៉ែត្រដែលពិពណ៌នាអំពីការនិយាយ ស្រដៀងទៅនឹងអ្វីដែលត្រូវបានបង្កើតឡើងនៅក្នុងដំណើរការនៃការសំយោគការនិយាយ។ សំណុំនៃប៉ារ៉ាម៉ែត្រដែលបានបញ្ជាក់អាស្រ័យលើវិធីសាស្ត្រទទួលស្គាល់ដែលបានជ្រើសរើស។

គំរូនៃការទទួលស្គាល់ការនិយាយ និងការសម្រេចចិត្តគឺជាប្លុកដែលសារទទួលស្គាល់ត្រូវបានបង្កើតឡើងដោយផ្អែកលើការវិភាគនៃលំដាប់នៃប៉ារ៉ាម៉ែត្រដែលទទួលបានពីប្លុកទីមួយ។ ឧទាហរណ៍ ប្រសិនបើគំរូទម្រង់នៃការពិពណ៌នាការនិយាយត្រូវបានប្រើប្រាស់ បន្ទាប់មកផ្អែកលើប្រេកង់ដែលទទួលបានក្នុងប្លុកទីមួយ ទម្រង់បែបបទត្រូវបានប្រើដើម្បីបង្កើតលំដាប់នៃសូរសព្ទដែលបានទទួលស្គាល់ដែលបង្កើតជាសារបញ្ចូល។ ក្នុងករណីនេះ ការសម្រេចចិត្តត្រូវបានធ្វើឡើងថាតើសារបញ្ចូលត្រូវបានទទួលស្គាល់ត្រឹមត្រូវដែរឬទេ។ នៅពេលធ្វើការសម្រេចចិត្ត ជាពិសេសការសម្រេចចិត្តខាងក្រោមគឺអាចធ្វើទៅបាន៖ សារត្រូវបានទទួលស្គាល់ត្រឹមត្រូវ (នេះត្រូវបានបញ្ជាក់ដោយអត្ថបទដែលត្រូវនឹងបទដ្ឋាននៃភាសាធម្មជាតិ) ឬ

សារមិនត្រូវបានទទួលស្គាល់ ឬទទួលស្គាល់មិនត្រឹមត្រូវទេ (ការសម្រេចចិត្តបែបនេះត្រូវបានធ្វើឡើងប្រសិនបើសារដែលបានទទួលស្គាល់មានកំហុសជាក់ស្តែង ដែលពិបាកក្នុងការកែតម្រូវដោយស្វ័យប្រវត្តិ ឬសូម្បីតែមិនសមហេតុសមផលពេញលេញ)។

ប៉ារ៉ាម៉ែត្រខាងក្រោមដែលកំណត់លក្ខណៈពួកវាអាចត្រូវបានលើកឡើងថាជាការរឹតបន្តឹងដែលដាក់លើ APPS៖

ប្រភេទនៃការនិយាយដែលអាចស្គាល់បាន (ការបញ្ចេញសំឡេងដោយពាក្យមួយៗជាមួយនឹងការផ្អាកនៅក្នុងរចនាប័ទ្មនៃពាក្យបញ្ជាការនិយាយ ការបញ្ចេញសំឡេងច្បាស់លាស់ដោយគ្មានការផ្អាកនៅក្នុងរចនាប័ទ្មនៃ "ការសរសេរតាមអាន" ការនិយាយដោយឯកឯង);

បរិមាណវចនានុក្រម (កំណត់ត្រឹម ១០០, ២០០, ល. ពាក្យ គ្មានដែនកំណត់);

កម្រិតនៃការពឹងផ្អែកលើវាគ្មិន (វាគ្មិនអាស្រ័យលើអ្នកនិយាយ - ឯករាជ្យ);

ការរឹតបន្តឹងវាក្យសម្ព័ន្ធ (ពាក្យបុគ្គល ឃ្លាធម្មតា ភាសាសិប្បនិម្មិត ភាសាធម្មជាតិ);

លក្ខខណ្ឌសម្រាប់ការទទួលសញ្ញានិយាយ (ទំនាក់ទំនងមីក្រូហ្វូន មីក្រូហ្វូនពីចម្ងាយនៅចម្ងាយលើសពី 1 ម៉ែត្រ);

លក្ខខណ្ឌសម្រាប់ការប្រើប្រាស់ CRR (ការជ្រៀតជ្រែកខ្សោយឬខ្លាំង);

ភាពជឿជាក់នៃការទទួលស្គាល់។

កម្មវិធីជាក់ស្តែងនៃចំណុចប្រទាក់ការនិយាយ

មុននឹងបន្តពិចារណាឧទាហរណ៍នៃការប្រើប្រាស់ជាក់ស្តែងនៃចំណុចប្រទាក់ការនិយាយ ចូរយើងប្រៀបធៀបវាជាមួយនឹងមធ្យោបាយសាមញ្ញបំផុតនៃអន្តរកម្មអ្នកប្រើប្រាស់ជាមួយកុំព្យូទ័រ៖ ក្តារចុច និងការបង្ហាញ។ យ៉ាងហោចណាស់ភាពខុសគ្នាជាមូលដ្ឋានចំនួនបីនៃចំណុចប្រទាក់ការនិយាយគួរតែត្រូវបានកត់សម្គាល់:

1) គុណវិបត្តិយ៉ាងច្បាស់នៃក្តារចុចនិងការបង្ហាញគឺថាមនុស្សម្នាក់ត្រូវឆ្លងកាត់ការបណ្តុះបណ្តាលពិសេសដើម្បីទំនាក់ទំនងជាមួយកុំព្យូទ័រ។ ទន្ទឹមនឹងនេះ ការនិយាយគឺជាចំណុចប្រទាក់ធម្មជាតិសម្រាប់នរណាម្នាក់ សូម្បីតែមនុស្សដែលមិនបានត្រៀមខ្លួនក៏ដោយ។ ការនិយាយកាត់បន្ថយចម្ងាយផ្លូវចិត្តរវាងមនុស្សម្នាក់ និងកុំព្យូទ័រយ៉ាងខ្លាំង។ ប្រសិនបើចំណុចប្រទាក់ការនិយាយលេចឡើងនោះរង្វង់នៃអ្នកប្រើប្រាស់កុំព្យូទ័រអាចក្លាយជាគ្មានដែនកំណត់។

2) ការនិយាយខ្លួនឯងមិនត្រូវបានចងភ្ជាប់ដោយមេកានិចទៅនឹងកុំព្យូទ័រតាមមធ្យោបាយណាមួយឡើយ ហើយអាចភ្ជាប់ជាមួយវាតាមរយៈប្រព័ន្ធទំនាក់ទំនង ឧទាហរណ៍ ទូរស័ព្ទ។ ចំណុចប្រទាក់ការនិយាយកាត់បន្ថយចម្ងាយរាងកាយរវាងមនុស្សម្នាក់ និងកុំព្យូទ័រ។ នេះពង្រីកបន្ថែមទៀតនូវរង្វង់អ្នកប្រើប្រាស់កុំព្យូទ័រដែលមានសក្តានុពល និងធ្វើឱ្យចំណុចប្រទាក់ការនិយាយជាឧបករណ៍ដ៏ល្អសម្រាប់បង្កើតប្រព័ន្ធសេវាកម្មព័ត៌មានដ៏ធំ។

3) អ្នកអាចគ្រប់គ្រងកុំព្យូទ័រនៅក្នុងភាពងងឹតទាំងស្រុង ដោយបិទភ្នែករបស់អ្នក នៅពេលដែលដៃរបស់អ្នករវល់ជាមួយនឹងដងថ្លឹងបញ្ជា ដោយដៃរបស់អ្នកចងជាប់ និងក្នុងស្ថានភាពធ្ងន់ធ្ងរផ្សេងទៀត។ ទ្រព្យសម្បត្តិនេះផ្តល់នូវប្រសិទ្ធភាព និងភាពចល័តនៃការទំនាក់ទំនង ការដោះលែងដៃ និងការបញ្ចោញបណ្តាញនៃការយល់ឃើញនៅពេលទទួលព័ត៌មាន។ នេះមានសារៈសំខាន់ខ្លាំងណាស់ ឧទាហរណ៍សម្រាប់ឧបករណ៍បញ្ជានៃប្រព័ន្ធថាមពលធំ ឬអ្នកបើកបរយន្តហោះ និងអ្នកបើកបររថយន្ត។ លើសពីនេះ ប្រព័ន្ធកុំព្យូទ័រកាន់តែអាចចូលប្រើបានសម្រាប់អ្នកដែលមានពិការភ្នែក។

នាពេលបច្ចុប្បន្ននេះ បច្ចេកវិទ្យាកុំព្យូទ័រនិយាយគឺរីករាលដាលរួចទៅហើយ ហើយកំពុងអភិវឌ្ឍក្នុងទិសដៅជាច្រើន ដែលចំណុចសំខាន់ត្រូវបានបង្ហាញនៅក្នុងរូបភព។

ចំណងជើងទូរសព្ទសម្រាប់មនុស្សថ្លង់ និងពិបាកស្តាប់

ប្រែក្លាយអេក្រង់របស់អ្នកទៅជាបឋមកថាទូរស័ព្ទដ៏អស្ចារ្យ។ វាជាស្វ័យប្រវត្តិពេញលេញ ដោយគ្មានអ្នកវាយអក្សរដែលមានការស្តាប់ដោយមនុស្សវាយអក្សរសន្ទនារបស់អ្នកឡើយ។ រកឃើញជីតាពិបាកស្តាប់គ្រួសារ និងមិត្តភ័ក្តិតាមទូរសព្ទមែនទេ? បើក Speechlogger សម្រាប់ពួកគេ ហើយឈប់ស្រែកតាមទូរស័ព្ទ។ គ្រាន់តែភ្ជាប់លទ្ធផលអូឌីយ៉ូរបស់ទូរសព្ទអ្នកទៅនឹងការបញ្ចូលសំឡេងរបស់កុំព្យូទ័រអ្នក ហើយដំណើរការ Speechlogger។ វាក៏មានប្រយោជន៍ផងដែរក្នុងការធ្វើអន្តរកម្មទល់មុខគ្នា។

ប្រតិចារិកដោយស្វ័យប្រវត្តិ

តើអ្នកបានថតបទសម្ភាសន៍ទេ? សន្សំពេលវេលាខ្លះដោយការសរសេរវាឡើងវិញ ពីសុន្ទរកថាស្វ័យប្រវត្តិរបស់ Google ទៅអត្ថបទដែលនាំមកក្នុងកម្មវិធីរុករកតាមអ៊ីនធឺណិតរបស់អ្នកដោយ Speechlogger ។ ចាក់បទសម្ភាសន៍ដែលបានថតទុកទៅក្នុងមីក្រូហ្វូន (ឬបន្ទាត់) នៃកុំព្យូទ័ររបស់អ្នក ហើយឱ្យអ្នកសរសេរពាក្យសំភាសន៍ធ្វើប្រតិចារឹក។ Speechlogger រក្សាទុកការចម្លងនៃអត្ថបទ រួមជាមួយនឹងកាលបរិច្ឆេទ ពេលវេលា និងមតិរបស់អ្នក។ វាក៏អនុញ្ញាតឱ្យអ្នកកែសម្រួលអត្ថបទផងដែរ។ ការសន្ទនាតាមទូរស័ព្ទអាចត្រូវបានចម្លងដោយប្រើវិធីដូចគ្នា។ អ្នកក៏អាចថតឯកសារអូឌីយ៉ូដោយផ្ទាល់ពីកុំព្យូទ័ររបស់អ្នកផងដែរ ដូចដែលបានពិពណ៌នាខាងក្រោម។

អ្នកបកប្រែដោយស្វ័យប្រវត្តិ និងអ្នកបកប្រែ

ជួបជាមួយភ្ញៀវបរទេស? នាំយកកុំព្យូទ័រយួរដៃមួយ (ឬពីរ) ជាមួយនឹងឧបករណ៍កត់ត្រាសំឡេង និងមីក្រូហ្វូន។ ភាគីនីមួយៗនឹងឃើញពាក្យនិយាយរបស់ភាគីម្ខាងទៀតបកប្រែទៅជាភាសារបស់ពួកគេក្នុងពេលជាក់ស្តែង។ វាក៏មានប្រយោជន៍ផងដែរក្នុងការហៅទូរសព្ទជាភាសាបរទេស ដើម្បីប្រាកដថាអ្នកយល់ច្បាស់ពីផ្នែកម្ខាងទៀត។ ភ្ជាប់លទ្ធផលអូឌីយ៉ូរបស់ទូរសព្ទអ្នកទៅបន្ទាត់ចូលកុំព្យូទ័ររបស់អ្នក ហើយចាប់ផ្ដើម Speechlogger។

រៀនភាសាបរទេស និងបង្កើនជំនាញបញ្ចេញសំឡេងរបស់អ្នក។

Speechlogger គឺជាឧបករណ៍រៀនភាសាដ៏អស្ចារ្យ ហើយអាចប្រើប្រាស់បានតាមវិធីជាច្រើន។ អ្នកអាចប្រើវាដើម្បីរៀនវាក្យសព្ទដោយនិយាយភាសាកំណើតរបស់អ្នក ហើយឱ្យកម្មវិធីបកប្រែវា។ អ្នកអាចរៀន និងអនុវត្តការបញ្ចេញសំឡេងត្រឹមត្រូវដោយនិយាយភាសាបរទេស ហើយមើលថាតើ Speechlogger យល់ឬអត់។ ប្រសិនបើអត្ថបទត្រូវបានចម្លងជាពុម្ពអក្សរខ្មៅ វាមានន័យថាអ្នកបានបញ្ចេញសំឡេងបានល្អហើយ។

ការបង្កើតចំណងជើងរងភាពយន្ត

Speechlogger អាចថតភាពយន្ត ឬឯកសារសំឡេងផ្សេងទៀតដោយស្វ័យប្រវត្តិ។ បន្ទាប់មកយកឯកសារហើយបកប្រែដោយស្វ័យប្រវត្តិទៅជាភាសាណាមួយដើម្បីបង្កើតចំណងជើងរងអន្តរជាតិ។

សរសេរជាជាងការវាយអក្សរ

សរសេរសំបុត្រ? ឯកសារ? បញ្ជី? សង្ខេប? អ្វីក៏ដោយដែលអ្នកត្រូវការវាយ ព្យាយាមសរសេរវាទៅជា Speechlogger ជំនួសវិញ។ Speechlogger នឹងរក្សាទុកវាដោយស្វ័យប្រវត្តិសម្រាប់អ្នក ហើយអនុញ្ញាតឱ្យអ្នកនាំចេញវាទៅជាឯកសារមួយ។

ល្បែងកំប្លែង :)

តើអ្នកអាចយកតម្រាប់អ្នកនិយាយចិនបានទេ? បារាំង? ចុះរុស្ស៊ីវិញ? ព្យាយាមធ្វើត្រាប់តាមភាសាបរទេស ហើយមើលអ្វីដែលអ្នកទើបតែបាននិយាយជាមួយ Speechlogger ។ ប្រើការបកប្រែក្នុងពេលដំណាលគ្នារបស់ Speechlogger ដើម្បីយល់ពីអ្វីដែលអ្នកទើបតែបាននិយាយ។ ទទួលបានលទ្ធផលដ៏អស្ចារ្យ - សប្បាយណាស់!

វិបផតថលសម្រាប់សិស្ស។ ការបណ្តុះបណ្តាលខ្លួនឯង