ឧបករណ៍សំយោគការនិយាយដ៏ល្អបំផុតតាមអ៊ីនធឺណិត។ SpeakIt! ផ្នែកបន្ថែមរបស់ Chrome៖ ឧបករណ៍សំយោគការនិយាយនៅក្នុងកម្មវិធីរុករកសម្រាប់អ្នកដែលខ្ជិលអាន

វាបន្ថែមគ្រឿងទេសមួយចំនួន ហើយប្រសិនបើខ្ញុំចាប់ផ្តើមពិសោធន៍ជាមួយម៉ាស៊ីនផ្សេងទៀត ខ្ញុំទទួលបាន hashtag #ReturnDashka នៅក្នុងមតិយោបល់។ វាត្រជាក់ណាស់ក្នុងការមើលទាំងអស់នេះ ប៉ុន្តែដំណើរការនេះមិននៅស្ងៀមទេ ហើយក្រុមហ៊ុនជាច្រើនបានបង្កើតបច្ចេកវិទ្យាផ្ទាល់ខ្លួនរបស់ពួកគេ។ ជាឧទាហរណ៍ ខ្ញុំចូលចិត្តសំឡេង ដែលពេលខ្លះខ្ញុំក៏សម្រុកចូលទៅក្នុងវីដេអូផងដែរ។

ថ្មីៗនេះខ្ញុំបានឆ្លងកាត់ភាពស្មុគស្មាញនៃបច្ចេកវិទ្យាការនិយាយ Yandex រួមទាំងការទទួលស្គាល់ការនិយាយ និងការសំយោគ ការធ្វើឱ្យសំឡេង និងការជ្រើសរើសវត្ថុន័យក្នុងអត្ថបទនិយាយ។ បច្ចេកវិទ្យានៃការនិយាយបានរៀនស្គាល់ការធ្វើឱ្យសកម្មជាសំឡេង ដោយមានជំនួយរបស់វា អ្នកអាចកត់ត្រាសារ SMS និងទុកកំណត់ត្រាដោយសំឡេងដោយមិនប្រើក្តារចុច ចូលទៅកាន់ផ្នែកខាងក្រោយដោយផ្ទាល់ដែលត្រូវបានប្រើដោយជោគជ័យនៅក្នុងកម្មវិធីទូរស័ព្ទ Yandex ។ ជាឧទាហរណ៍ SpeechKit Mobile SDK អនុញ្ញាតឱ្យអ្នកបង្កប់ការទទួលស្គាល់ការនិយាយ និងការសំយោគ ក៏ដូចជាការធ្វើឱ្យសកម្មសំឡេង Yandex ទៅក្នុងកម្មវិធីទូរស័ព្ទសម្រាប់ iOS, Android (បច្ចុប្បន្នជាភាសារុស្សី អង់គ្លេស ទួរគី និងអ៊ុយក្រែន) ឬ Windows Phone (រុស្ស៊ី)។ ការគ្រប់គ្រងដោយសំឡេងនឹងធ្វើឱ្យកម្មវិធីរបស់អ្នកកាន់តែងាយស្រួលប្រើ ជាពិសេសប្រសិនបើអ្នកប្រើពេញដៃ។ ដោយមិនប៉ះអេក្រង់ គាត់នឹងអាចហៅមុខងារដែលចង់បានដោយប្រើឃ្លាមួយ។

ខ្ញុំតែងតែត្រូវបានទាក់ទាញចំពោះបច្ចេកវិទ្យាសំយោគការនិយាយ ដែលអនុញ្ញាតឱ្យអ្នកបកប្រែអត្ថបទទៅជាការនិយាយ។ ខ្ញុំបានគូសវាសអត្ថបទយ៉ាងរហ័ស បញ្ចេញសំឡេងវា (Milena TTS [រុស្ស៊ី]) ហើយរុញវាទៅក្នុងវីដេអូ លើប្រធានបទណាមួយ។ វានឹងគួរឱ្យចាប់អារម្មណ៍ជាពិសេសសម្រាប់អ្នកប្រើប្រាស់ដែលមានបញ្ហាជាមួយនឹងការនិយាយ ឬអ្នកដែលដោយសារហេតុផលមួយចំនួនមានការខ្មាស់អៀនចំពោះសំឡេងរបស់ពួកគេ។

សំឡេងពី Yandex ហាក់ដូចជាប្លែក ពិរោះ និងងាយយល់ដោយត្រចៀកមនុស្ស ជាពិសេសសំឡេងបុរសរបស់ zahar និង ermil ។ សម្លេងស្រីរបស់ Jane, oksana, alyss និង omazh បានធ្វើឱ្យខ្ញុំភ័យខ្លាចយ៉ាងខ្លាំង ហើយតាមគំនិតរបស់ខ្ញុំ មិនឈានដល់កម្ពស់របស់ SuperDazhki ទេ។ ដូច្នេះតើអ្នកឮសំឡេងថ្មីនៅលើកុំព្យូទ័រធម្មតាដោយរបៀបណា? ដើម្បីធ្វើដូច្នេះ ខ្ញុំត្រូវរូតរះអ៊ីនធឺណិត ហើយដំណោះស្រាយត្រូវបានរកឃើញក្នុងទម្រង់ជាស្គ្រីប។

1. ដំបូងយើងត្រូវនៅលើទំព័រហើយចុចលើប៊ូតុង "បន្ទប់អ្នកអភិវឌ្ឍន៍" ។

ភ្លាមៗអ្នកចូលទៅក្នុងគណនីផ្ទាល់ខ្លួនរបស់អ្នកហើយចុចប៊ូតុង "យកសោ" ។ បន្ទាប់មកចុចលើប៊ូតុង "SpeechKit Cloud"។

បំពេញវាលទាំងអស់ដែលមានសញ្ញាផ្កាយពណ៌ក្រហម ហើយចុចប៊ូតុង "ដាក់ស្នើ" ។

សោនឹងត្រូវបានទទួលភ្លាមៗ បន្ទាប់ពីនោះវាត្រូវតែចម្លង។

ឥឡូវនេះ សូមចូលទៅកាន់មួយនេះ ដែលយើងនឹងឃើញប៉ារ៉ាម៉ែត្រសំណួរផ្សេងៗ វាគ្មិន (សំឡេងនៃការនិយាយសំយោគ) ទម្រង់ឆ្លើយតប និងឧទាហរណ៍ URL ។ អក្សរចិននេះនឹងហាក់ដូចជាស្មុគស្មាញពេកសម្រាប់អ្នកប្រើប្រាស់ធម្មតា ដូច្នេះសូមសម្រួលសកម្មភាពរបស់យើង (ឬផ្ទុយទៅវិញស្មុគស្មាញ) ដោយរៀបចំស្គ្រីបសាមញ្ញមួយ។

2. ទាញយកកម្មវិធី Notepad ++ ទៅកាន់កុំព្យូទ័ររបស់អ្នក (). យើងដំឡើង។

3. បង្កើតឯកសារ index.html ។ អ្នកណាដែលមិនចង់បង្កើតដោយដៃ សូមទាញយកនេះ។

ប្តូរឈ្មោះឯកសារ៖ index.html ។ ប្រភេទឯកសារ៖ ឯកសារទាំងអស់។ ការអ៊ិនកូដ៖ UTF-8 ។ ចុចប៊ូតុង "រក្សាទុក" ។ វាមានសារៈសំខាន់ក្នុងការរក្សាទុកឯកសារ index.html នៅក្នុង root នៃដ្រាយប្រព័ន្ធ ឬនៅក្នុងថតណាមួយនៅលើដ្រាយប្រព័ន្ធ។

ឥឡូវនេះឯកសារដែលបានរក្សាទុកត្រូវកែសម្រួល។ បើកឯកសារជាមួយ Notepad ++ ។

តាមពិត នេះជាស្គ្រីបដែលយើងរង់ចាំជាយូរមកហើយ ()។ កែសម្រួលឯកសាររបស់អ្នកឱ្យបានត្រឹមត្រូវ៖ បិទភ្ជាប់សោរបស់អ្នកនៅកន្លែងដែលត្រឹមត្រូវ ផ្លាស់ប្តូរសំឡេង រក្សាទុក និងប្រើប្រាស់។

នៅពេលអនាគតចុចពីរដងលើឯកសារ index.html ហើយនៅក្នុងកម្មវិធីរុករកយើងទទួលបានដូចខាងក្រោម។

វានៅសល់ដើម្បីសរសេរកំណាព្យនៅក្នុងបង្អួចធំមួយហើយ zahar (ឬតួអក្សរដែលបានជ្រើសរើសផ្សេងទៀត) នឹងអានវាឱ្យអ្នក។ ខ្ញុំមិនប្រកែកថាវាអាចទៅរួចទេដែលខ្ញុំដាក់វានៅលើធ្នើនៅទីនេះ ហើយគ្មាននរណាម្នាក់ត្រូវការវានៅថ្ងៃស្អែកទេ ខ្ញុំគ្រាន់តែចាប់អារម្មណ៍លើដំណើរការសំយោគការនិយាយពី Yandex នៅលើកុំព្យូទ័ររបស់ខ្ញុំ ដែលខ្ញុំបានចែករំលែកជាមួយអ្នក។

ជួយគម្រោងក្នុងការអភិវឌ្ឍន៍របស់វា៖
កាត Sberbank: 676280139020834994
Yandex.Money: 410012054992141
Webmoney៖ កាបូប WMR R429054927097
កាបូប WMZ Z401294377967

បច្ចេកវិទ្យាទទួលស្គាល់ការនិយាយ

Yandex Speechkit Autopoet ។

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

ទំព័រ ឬនៅលើគេហទំព័រធនធានពិសេស

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់កម្មវិធីរុករកថា "តោះទៅ Gogol, 25" ឬនិយាយសំណួរស្វែងរកនៅក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានកិច្ចការច្រាសមកវិញដែរ៖ ដើម្បីបង្វែរអត្ថបទដែលកុំព្យូទ័រមាននៅក្នុងការចោលទៅជាសំឡេង។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ជាឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នកស្វែងយល់ពីរបៀបដែលពាក្យ និងឃ្លាបរទេសត្រូវបានបញ្ចេញនៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុមមួយ និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើតសំឡេងត្រឹមត្រូវនៃសុន្ទរកថាដែលបានសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុងករណីនៃការទទួលស្គាល់លំនាំ វាជាការចាំបាច់ក្នុងការបង្កើតការឆ្លើយឆ្លងរវាងសំឡេងដែលមានលក្ខណៈជាក់លាក់ និងសូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើគំរូសូរស័ព្ទដឹងពីរបៀបបញ្ចេញសំឡេងសូរសព្ទឱ្យបានត្រឹមត្រូវ ឬផ្តល់សំឡេងត្រឹមត្រូវដល់ប្រយោគសួរចម្លើយដោយរបៀបណា? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ mobile version of SpeechKit នោះគេហទំព័រដែលឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

",contentType":"text/html","amp":"

ប្រសិនបើសំណុំនៃអត្ថបទដែលត្រូវបញ្ចេញគឺមានទំហំតូច ហើយការបញ្ចេញមតិដូចគ្នាកើតឡើងនៅក្នុងពួកគេ ដូចជាឧទាហរណ៍ នៅក្នុងការប្រកាសអំពីការចាកចេញ និងការមកដល់នៃរថភ្លើងនៅស្ថានីយ៍ - វាគ្រប់គ្រាន់ក្នុងការអញ្ជើញអ្នកប្រកាស កត់ត្រាពាក្យចាំបាច់ និង ឃ្លានៅក្នុងស្ទូឌីយ៉ូ ហើយបន្ទាប់មកប្រមូលសារណាមួយ។ ទោះយ៉ាងណាក៏ដោយ ជាមួយនឹងអត្ថបទបំពាន វិធីសាស្រ្តនេះមិនដំណើរការទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ទីមួយ ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា ពោលគឺទៅជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់ ការចម្លងតាមសូរសព្ទត្រូវបានចងក្រង។

ដើម្បីស្វែងយល់ពីរបៀបអានពាក្យមួយ និងកន្លែងដែលត្រូវដាក់ភាពតានតឹងនៅក្នុងវា មនុស្សយន្តដំបូងបានងាកទៅរកវចនានុក្រមសរសេរដោយដៃបុរាណដែលត្រូវបានបង្កើតឡើងនៅក្នុងប្រព័ន្ធ។ ប្រសិនបើពាក្យដែលចង់បានមិនមាននៅក្នុងវចនានុក្រមទេ កុំព្យូទ័របង្កើតប្រតិចារិកដោយខ្លួនឯង - ផ្អែកលើច្បាប់ដែលបានខ្ចីពីសៀវភៅយោងសិក្សា។ ជាចុងក្រោយ ប្រសិនបើច្បាប់ធម្មតាមិនគ្រប់គ្រាន់ទេ ហើយរឿងនេះកើតឡើង ដោយសារតែភាសារស់នៅណាមួយកំពុងផ្លាស់ប្តូរជានិច្ច វាប្រើច្បាប់ស្ថិតិ។ ប្រសិនបើពាក្យមួយត្រូវបានជួបប្រទះនៅក្នុង corpus នៃអត្ថបទបណ្តុះបណ្តាល ប្រព័ន្ធនឹងចងចាំព្យាង្គណាមួយដែលអ្នកនិយាយជាធម្មតាសង្កត់ធ្ងន់នៅក្នុងវា។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលដែលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែល phoneme នីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះគឺជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យ - នៅក្នុងឃ្លាមួយ; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសំឡេងសំខាន់របស់វា។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងគឺអាចស្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គនៃឧបករណ៍និយាយនៅក្នុងមនុស្សម្នាក់ៗ។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការនិយាយអ្វីមួយទៅកាន់អ្នក វាប្រើម៉ាស៊ីនបង្កើតរលកសំឡេង - vocoder ។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសម្លេងនូវពណ៌ដែលអាចស្គាល់បាន។

""អត្ថបទបន្ទាន់":"

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

"),"proposedBody":("ប្រភព":"

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ដំបូង ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា នោះគឺជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់ ការចម្លងតាមសូរសព្ទត្រូវបានចងក្រង។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែលសូរសព្ទនីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យគឺនៅក្នុងឃ្លា; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសំឡេងសំខាន់របស់វា។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងគឺអាចសម្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គនៃឧបករណ៍និយាយនៅក្នុងមនុស្សម្នាក់ៗ។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការនិយាយអ្វីមួយទៅកាន់អ្នក វាប្រើម៉ាស៊ីនបង្កើតរលកសំឡេងហៅថា vocoder ។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសំឡេងនូវពណ៌ដែលអាចស្គាល់បាន។

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,commentsCount":55, modificationDate": "ថ្ងៃអង្គារ ទី 03 ខែមេសា ឆ្នាំ 2018 ម៉ោង 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("ប្រភព":"

នៅពេលអ្នកនិយាយទៅកាន់កម្មវិធីរុករក "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកឱ្យខ្លាំងៗ បច្ចេកវិទ្យាសម្គាល់ការនិយាយបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ វាក៏មានភារកិច្ចបញ្ច្រាសផងដែរ៖ ដើម្បីប្រែក្លាយអត្ថបទទៅជាសំឡេង។ ពេលខ្លះវាគ្រប់គ្រាន់ហើយក្នុងការអញ្ជើញអ្នកប្រកាស ហើយគ្រាន់តែសរសេរពាក្យ និងឃ្លាចាំបាច់ ប៉ុន្តែវានឹងមិនដំណើរការជាមួយអត្ថបទដែលបំពាននោះទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

","contentType":"text/html"),"proposedPreview":("ប្រភព":"

","contentType":"text/html"),"titleImage":("h32":("height":32,path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019670"orm" height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"), "major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.nets/yandex. 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/"","full4:https:" /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288) ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201968","minor28": 288,"height":160),"orig":("height":246,path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touchPath":"full288", http://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width"),"width":44249,"he ":("កំពស់":246,"ផ្លូវ":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get - យ៉ាប logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","44""Width":,4 https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file572w260" " , "width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("កំពស់":246,"ផ្លូវ " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14759675126/ " w288":("កំពស់":156,"ផ្លូវ":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288"wisth":"full" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("កំពស់":162,"path":"/get-yablogs/47421/file5_14757/file5_14757 201967/w300","width":292,fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("កំពស់":246 "path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147547512014 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/majorPava":"fullhttps://major620":"full mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex technologies","slug": " technologii-yandeksa","url":"/blog/company? ?tag=tekhnologii-yandeksa"),("displayName":"តើវាដំណើរការយ៉ាងដូចម្តេច?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /company","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " , "urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb1776f4 " , "urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":/"/blog/api ជាវ/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEdit"PostPage":"/blog/company/57f7/ddd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f7/edit"21ccb "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","author":("id":"24151397","uid ": ("value":"24151397","lite":false,hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" name":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","empty":false)),"address":" [អ៊ីមែលការពារ] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("កំពស់":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475970120m/ "major288":("height":156,path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"fullPath"https://fullPath" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201960th"or"d"or" 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475757/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":"44246,"he ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,height":246),"touch900":("height":246,path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("កំពស់":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967")",w10w" " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("កម្ពស់":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","https": / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("កម្ពស់":156,"path":"/get-yablogs/47421/file_14719751 width ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("កំពស់":160,"ផ្លូវ":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160":"160":"w30" "path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147597512013 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("កម្ពស់":246,"path":"/get-yablogs/47421/file_1475751201967":("height":246,"path":"/get-yablogs/47421/file_1475751201967":w900", "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_14759627120 "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

SpeechKit Cloud គឺជាកម្មវិធីដែលផ្តល់ឱ្យអ្នកអភិវឌ្ឍន៍ចូលទៅកាន់ការទទួលស្គាល់ការនិយាយ និងបច្ចេកវិទ្យាសំយោគ Yandex ។ ការរួមបញ្ចូលត្រូវបានអនុវត្តដោយប្រើម៉ូឌុល Yandex TTS ដែលអាចរកបានតាមរយៈទីផ្សារបន្ថែមនៃប្រព័ន្ធ MajorDoMo ។

ដំណើរការដំឡើង និងកំណត់រចនាសម្ព័ន្ធគឺសាមញ្ញណាស់ ហើយត្រូវបានអនុវត្តក្នុងជំហានមួយចំនួន។

1. ចូលទៅកាន់ផ្ទាំងបញ្ជា

2. ចូលទៅកាន់ទីផ្សារបន្ថែម

3. ចូលទៅកាន់ផ្នែក "អន្តរកម្ម"

4. បន្ថែមម៉ូឌុលទៅប្រព័ន្ធ MajorDomo - ផ្ទាំងបញ្ជា - ទីផ្សារកម្មវិធីបន្ថែម - អន្តរកម្ម - Yandex TTS - បន្ថែម៖

5. ប្រព័ន្ធនឹងជូនដំណឹងដល់យើងអំពីការដំឡើងជោគជ័យ ហើយប្តូរទិសទៅទំព័រ "ទីផ្សារបន្ថែម"៖

6. ដើម្បីកំណត់រចនាសម្ព័ន្ធម៉ូឌុលបន្ថែមទៀត អ្នកត្រូវការ Yandex Api Key ដែលអាចទទួលបានដោយឥតគិតថ្លៃនៅក្នុងការិយាល័យរបស់អ្នកអភិវឌ្ឍន៍ដោយប្រើគណនី Yandex ដែលមានស្រាប់៖

7. កំណត់ឈ្មោះទៅកូនសោដែលបានបង្កើត ហើយចុច SpeechKit Cloud៖

8. បំពេញក្នុងវាលដែលត្រូវការជាមួយទិន្នន័យ ហើយចុចប៊ូតុង "ដាក់ស្នើ"៖

9. ប្រសិនបើអ្វីៗគ្រប់យ៉ាងត្រូវបានធ្វើបានត្រឹមត្រូវ នោះសោ API ដែលបានបង្កើតនឹងបង្ហាញក្នុងបញ្ជីនៅខាងស្តាំ ដែលត្រូវតែចម្លងទៅក្ដារតម្បៀតខ្ទាស់៖

10. បើកការកំណត់នៃម៉ូឌុល Yantex TTS (MajorDoMo - ផ្ទាំងបញ្ជា - កម្មវិធី - Yandex TTS) បិទភ្ជាប់គន្លឹះដែលបានចម្លងក្នុងជំហានមុនទៅក្នុងវាល API-key ជ្រើសរើសសំឡេង អារម្មណ៍ ហើយត្រូវប្រាកដថាម៉ូឌុល ត្រូវបានធ្វើឱ្យសកម្ម៖

11. ការដំឡើងរួចរាល់!

យកចិត្តទុកដាក់!ការសាកល្បង Yandex Api Key ត្រូវបានបង្កើតសម្រាប់រយៈពេល 1 ខែ បន្ទាប់ពីនោះប្រព័ន្ធនឹងឈប់បញ្ចេញឃ្លាថ្មី (មិនដាក់ក្នុងឃ្លាំងសម្ងាត់)។ ដើម្បីទទួលបានសោអចិន្ត្រៃយ៍ អ្នកត្រូវតែផ្ញើសំបុត្រទៅ Yandex ជាមួយនឹងសំណើដើម្បីបំប្លែងសោទៅជាអចិន្ត្រៃយ៍។

នៅក្នុងសន្និសិទមួយផ្សេងទៀតឆ្នាំ 2013 យើងបានបង្ហាញបណ្ណាល័យ Yandex SpeechKit ថ្មីរបស់យើងដល់អ្នកអភិវឌ្ឍន៍។ នេះគឺជា API ទទួលស្គាល់ការនិយាយជាសាធារណៈ ដែលអ្នកអភិវឌ្ឍន៍ Android និង iOS អាចប្រើប្រាស់បាន។ អ្នកអាចទាញយក SpeechKit ក៏ដូចជាអានឯកសារផងដែរ។

Yandex SpeechKit អនុញ្ញាតឱ្យអ្នកចូលទៅកាន់ផ្នែកខាងក្រោយដោយផ្ទាល់ដែលត្រូវបានប្រើដោយជោគជ័យនៅក្នុងកម្មវិធីទូរស័ព្ទ Yandex ។ យើងបានបង្កើតប្រព័ន្ធនេះជាយូរមកហើយ ហើយឥឡូវនេះយើងទទួលស្គាល់បានត្រឹមត្រូវ 94% នៃពាក្យក្នុង Navigator និង Mobile Maps ព្រមទាំង 84% នៃពាក្យក្នុង Mobile Browser។ ក្នុងករណីនេះ ការទទួលស្គាល់ត្រូវចំណាយពេលលើសពីមួយវិនាទី។ នេះគឺជាគុណភាពដ៏សក្តិសមរួចទៅហើយ ហើយយើងកំពុងធ្វើការយ៉ាងសកម្មដើម្បីកែលម្អវា។

វាអាចត្រូវបានប្រកែកថាក្នុងពេលអនាគតដ៏ខ្លីខាងមុខ ចំណុចប្រទាក់សំឡេងនឹងមិនមានភាពខុសប្លែកគ្នាក្នុងភាពជឿជាក់ពីវិធីសាស្ត្របញ្ចូលបែបបុរាណនោះទេ។ រឿងលម្អិតអំពីរបៀបដែលយើងគ្រប់គ្រងដើម្បីសម្រេចបានលទ្ធផលបែបនេះ និងរបៀបដែលប្រព័ន្ធរបស់យើងដំណើរការ គឺស្ថិតនៅក្រោមការកាត់ផ្តាច់។

ការទទួលស្គាល់ការនិយាយគឺជាកិច្ចការដ៏គួរឱ្យចាប់អារម្មណ៍ និងស្មុគស្មាញបំផុតមួយនៃបញ្ញាសិប្បនិម្មិត។ សមិទ្ធិផលនៃវិស័យផ្សេងៗគ្នាត្រូវបានចូលរួមនៅទីនេះ៖ ពីភាសាវិទ្យាក្នុងការគណនារហូតដល់ដំណើរការសញ្ញាឌីជីថល។ ដើម្បីយល់ពីរបៀបដែលម៉ាស៊ីនដែលយល់ពីការនិយាយគួរតែត្រូវបានរៀបចំ ចូរយើងយល់ពីអ្វីដែលយើងកំពុងដោះស្រាយជាមុនសិន។

I. មូលដ្ឋាន

ការនិយាយដែលបន្លឺឡើងសម្រាប់យើង ជាដំបូងនៃការទាំងអស់ គឺជាសញ្ញាឌីជីថល។ ហើយប្រសិនបើយើងក្រឡេកមើលការកត់ត្រានៃសញ្ញានេះ យើងនឹងមិនឃើញពាក្យ ឬសូរសព្ទដែលបានបង្ហាញយ៉ាងច្បាស់នៅទីនោះទេ - "ព្រឹត្តិការណ៍និយាយ" ផ្សេងគ្នាហូរចូលគ្នាយ៉ាងរលូនដោយមិនបង្កើតព្រំដែនច្បាស់លាស់។ ឃ្លាដូចគ្នា ដែលនិយាយដោយមនុស្សផ្សេងគ្នា ឬក្នុងបរិយាកាសផ្សេងគ្នា នឹងមើលទៅខុសគ្នានៅកម្រិតសញ្ញា។ ក្នុងពេលជាមួយគ្នានេះ មនុស្សខ្លះទទួលស្គាល់ការនិយាយរបស់គ្នាទៅវិញទៅមក៖ ដូច្នេះហើយ មានភាពខុសប្លែកគ្នា ដែលវាអាចធ្វើទៅបានដើម្បីស្តារឡើងវិញពីសញ្ញាអ្វីដែលជាការពិតត្រូវបាននិយាយ។ ការស្វែងរកបំរែបំរួលបែបនេះគឺជាភារកិច្ចនៃគំរូសូរស័ព្ទ។

ឧបមាថាការនិយាយរបស់មនុស្សមានសូរសព្ទ (នេះគឺជាការធ្វើឱ្យសាមញ្ញសរុប ប៉ុន្តែនៅក្នុងការប៉ាន់ស្មានដំបូងវាត្រឹមត្រូវ)។ ចូរកំណត់សូរសព្ទជាឯកតាន័យអប្បរមានៃភាសា ពោលគឺសំឡេង ការជំនួសដែលអាចនាំឱ្យមានការផ្លាស់ប្តូរអត្ថន័យនៃពាក្យ ឬឃ្លា។ ចូរយកផ្នែកតូចមួយនៃសញ្ញា និយាយថា 25 មិល្លីវិនាទី។ ចូរហៅផ្នែកនេះថា "ស៊ុម" ។ តើសូរសព្ទអ្វីត្រូវបានប្រកាសនៅក្នុងស៊ុមនេះ? វាពិបាកក្នុងការឆ្លើយសំណួរនេះយ៉ាងច្បាស់ - សូរស័ព្ទជាច្រើនគឺស្រដៀងគ្នាខ្លាំងណាស់។ ប៉ុន្តែប្រសិនបើវាមិនអាចទៅរួចទេក្នុងការផ្តល់ចម្លើយដែលមិនច្បាស់លាស់ នោះគេអាចជជែកវែកញែកក្នុងន័យនៃ "ប្រូបាប៊ីលីតេ"៖ សម្រាប់សញ្ញាដែលបានផ្តល់ឱ្យ សូរសព្ទខ្លះទំនងជាច្រើន ខ្លះទៀតតិច ហើយអ្នកផ្សេងទៀតអាចត្រូវបានដកចេញពីការពិចារណាទាំងអស់គ្នា។ តាមពិត គំរូសូរស័ព្ទ គឺជាមុខងារមួយដែលយកផ្នែកតូចមួយនៃសញ្ញាសូរស័ព្ទ (ស៊ុម) ជាការបញ្ចូល និងបង្កើតការចែកចាយប្រូបាប៊ីលីតេនៃសូរស័ព្ទផ្សេងៗនៅក្នុងស៊ុមនេះ។ ដូច្នេះ គំរូសូរស័ព្ទផ្តល់ឱ្យយើងនូវឱកាសដើម្បីស្ថាបនាឡើងវិញដោយសំឡេងដូចអ្វីដែលបាននិយាយ - ជាមួយនឹងកម្រិតនៃភាពជាក់លាក់ខុសៗគ្នា។

ទិដ្ឋភាពសំខាន់មួយទៀតនៃសូរស័ព្ទគឺប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូររវាងសូរស័ព្ទផ្សេងៗគ្នា។ យើងដឹងតាមបទពិសោធន៍ថា បន្សំនៃសូរសព្ទមួយចំនួនងាយស្រួលក្នុងការបញ្ចេញសំឡេង និងកើតឡើងញឹកញាប់ ខណៈពេលដែលអ្នកផ្សេងទៀតពិបាកបញ្ចេញសំឡេង និងមិនសូវត្រូវបានគេប្រើក្នុងការអនុវត្ត។ យើងអាចធ្វើជាទូទៅព័ត៌មាននេះ ហើយយកវាទៅក្នុងគណនីនៅពេលវាយតម្លៃ "ភាពអាចជឿទុកចិត្ត" នៃលំដាប់ជាក់លាក់នៃ phonemes។

ឥឡូវនេះយើងមានឧបករណ៍ទាំងអស់ដើម្បីសាងសង់មួយនៃ "កម្មករ" សំខាន់នៃការទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ - គំរូ Markov ដែលលាក់ (HMM, Hidden Markov Model) ។ ដើម្បីធ្វើដូច្នេះ ចូរយើងស្រមៃមួយរយៈថា យើងកំពុងដោះស្រាយមិនមែនជាបញ្ហានៃការទទួលស្គាល់ការនិយាយនោះទេ ប៉ុន្តែផ្ទុយស្រឡះទៅវិញ - ការបំប្លែងអត្ថបទទៅជាការនិយាយ។ ចូរនិយាយថាយើងចង់ទទួលបានការបញ្ចេញសំឡេងនៃពាក្យ "Yandex" ។ សូមឱ្យពាក្យ "Yandex" មានសំណុំនៃ phonemes និយាយថា [d][a][n][d][e][k][s] ។ ចូរយើងបង្កើតម៉ាស៊ីនរដ្ឋសម្រាប់ពាក្យ "Yandex" ដែលទូរស័ព្ទនីមួយៗត្រូវបានតំណាងដោយរដ្ឋដាច់ដោយឡែកមួយ។ រាល់ពេលដែលយើងស្ថិតនៅក្នុងរដ្ឋមួយក្នុងចំណោមរដ្ឋទាំងនេះ ហើយ "បញ្ចេញ" លក្ខណៈសំឡេងនៃសូរស័ព្ទនេះ (យើងដឹងពីរបៀបដែលសូរស័ព្ទនីមួយៗត្រូវបានបញ្ចេញដោយអរគុណចំពោះគំរូសូរស័ព្ទ) ។ ប៉ុន្តែសូរសព្ទខ្លះមានរយៈពេលយូរ (ដូចជា [a] នៅក្នុងពាក្យ "Yandex") ខ្លះទៀតត្រូវបានលេបយ៉ាងសកម្ម។ នេះគឺជាកន្លែងដែលព័ត៌មានអំពីប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូររវាង phonemes មានប្រយោជន៍។ ដោយបានបង្កើតសំឡេងដែលត្រូវគ្នានឹងស្ថានភាពបច្ចុប្បន្ន យើងធ្វើការសម្រេចចិត្តបែបប្រូបាប៊ីលីតេ៖ ដើម្បីស្ថិតក្នុងស្ថានភាពដដែល ឬបន្តទៅបន្ទាប់ (ហើយតាមសូរស័ព្ទបន្ទាប់)។

ជាផ្លូវការបន្ថែមទៀត HMM អាចត្រូវបានតំណាងដូចខាងក្រោម។ ដំបូងយើងណែនាំគំនិតនៃការបំភាយឧស្ម័ន។ ដូចដែលយើងចងចាំពីឧទាហរណ៍មុន រដ្ឋ HMM នីមួយៗ "បង្កើត" លក្ខណៈសំឡេងនៃរដ្ឋពិសេសនេះ (ឧទាហរណ៍ phonemes) ។ នៅលើស៊ុមនីមួយៗ សំឡេងត្រូវបាន "លេងចេញ" ពីការចែកចាយប្រូបាប៊ីលីតេដែលត្រូវគ្នាទៅនឹង phoneme ដែលបានផ្តល់ឱ្យ។ ទីពីរ ការផ្លាស់ប្តូរអាចធ្វើទៅបានរវាងរដ្ឋ ដែលគោរពតាមគំរូប្រូបាប៊ីលីស្តេដែលបានកំណត់ទុកជាមុនផងដែរ។ ឧទាហរណ៍ ប្រូបាប៊ីលីតេដែល phoneme [a] នឹង “stretch” គឺខ្ពស់ ដែលមិនអាចនិយាយបានអំពី phoneme [e]។ ម៉ាទ្រីសបំភាយ និងម៉ាទ្រីសផ្លាស់ប្តូរកំណត់តែមួយគត់នូវគំរូ Markov ដែលលាក់។

មិនអីទេ យើងបានឃើញពីរបៀបដែល Hidden Markov Model អាចត្រូវបានប្រើដើម្បីបង្កើតការនិយាយ ប៉ុន្តែតើអ្នកអនុវត្តវាយ៉ាងដូចម្តេចចំពោះបញ្ហាបញ្ច្រាសនៃការទទួលស្គាល់ការនិយាយ? ក្បួនដោះស្រាយ Viterbi មកជួយសង្គ្រោះ។ យើងមានសំណុំនៃការសង្កេតបាន (តាមពិតជាសំឡេង) និងគំរូប្រូបាប៊ីលីតេដែលទាក់ទងនឹងស្ថានភាពដែលលាក់កំបាំង (phonemes) និងការសង្កេត។ ក្បួនដោះស្រាយ Viterbi អនុញ្ញាតឱ្យអ្នកស្ដារឡើងវិញនូវលំដាប់ដែលទំនងបំផុតនៃរដ្ឋដែលលាក់។

សូមឲ្យមានតែពាក្យពីរនៅក្នុងវចនានុក្រមទទួលស្គាល់របស់យើង៖ “បាទ” ([d] [a]) និង “ទេ” ([n”] [e] [t]) ដូច្នេះហើយ យើងមានគំរូ Markov ដែលលាក់ពីរ។ ចូរនិយាយថាយើងមានការថតសំឡេងរបស់អ្នកប្រើដោយនិយាយថា "បាទ" ឬ "ទេ" ។ ក្បួនដោះស្រាយ Viterbi នឹងអនុញ្ញាតឱ្យយើងទទួលបានចម្លើយចំពោះសំណួរថាតើសម្មតិកម្មទទួលស្គាល់មួយណាទំនងជាង។

ឥឡូវនេះភារកិច្ចរបស់យើងគឺដើម្បីស្តារលំដាប់ដែលទំនងបំផុតនៃរដ្ឋនៃគំរូ Markov ដែលបានលាក់ដែល "បង្កើត" (ច្បាស់ជាងនេះទៅទៀតអាចបង្កើត) ការថតសំឡេងដែលបានបង្ហាញដល់យើង។ ប្រសិនបើអ្នកប្រើនិយាយថា "បាទ / ចាស" នោះលំដាប់ដែលត្រូវគ្នានៃរដ្ឋនៅលើស៊ុម 10 អាចជាឧទាហរណ៍ [d][d][d][d][a][a][a][a][a] [a] ឬ [e][a][a][a][a][a][a][a][a][a]។ ដូចគ្នានេះដែរ ការបញ្ចេញសំឡេងផ្សេងគ្នាសម្រាប់ "ទេ" គឺអាចធ្វើទៅបាន - ឧទាហរណ៍ [n "] [n"] [n"] [e] [e] [e] [e] [t] [t] [t] និង [n] " ] [n "] [e] [e] [e] [e] [e] [e] [e] [t] [t] ។ ឥឡូវនេះ យើងនឹងរកឃើញ "ល្អបំផុត" នោះគឺជាវិធីដែលទំនងបំផុតនៃការបញ្ចេញសំឡេងនីមួយៗ។ ពាក្យ។ នៅលើស៊ុមនីមួយៗ យើងនឹងសួរគំរូសូរស័ព្ទរបស់យើងថាតើវាទំនងយ៉ាងណាដែលសូរស័ព្ទជាក់លាក់មួយមានសំឡេងនៅទីនេះ (ឧទាហរណ៍ [d] និង [a]); លើសពីនេះ យើងនឹងពិចារណាអំពីប្រូបាប៊ីលីតេនៃការផ្លាស់ប្តូរ ([d] ->[d], [d]->[a], [a]->[a]) ដូច្នេះហើយ យើងទទួលបានវិធីដែលទំនងបំផុតក្នុងការប្រកាសសម្មតិកម្មនីមួយៗ លើសពីនេះ សម្រាប់ពួកវានីមួយៗ យើងទទួលបានរង្វាស់នៃ តើវាទំនងយ៉ាងណាដែលពាក្យពិសេសនេះត្រូវបានប្រកាស (យើងអាចពិចារណារង្វាស់នេះជាប្រវែងនៃផ្លូវខ្លីបំផុតតាមរយៈក្រាហ្វដែលត្រូវគ្នា)។

ក្បួនដោះស្រាយ Viterbi គឺសាមញ្ញណាស់ក្នុងការអនុវត្ត (កម្មវិធីថាមវន្តត្រូវបានប្រើប្រាស់) ហើយដំណើរការតាមពេលវេលាសមាមាត្រទៅនឹងផលិតផលនៃចំនួនរដ្ឋ HMM និងចំនួនស៊ុម។ ទោះយ៉ាងណាក៏ដោយ វាមិនតែងតែគ្រប់គ្រាន់សម្រាប់ពួកយើងដើម្បីដឹងពីផ្លូវដែលទំនងបំផុតនោះទេ។ ឧទាហរណ៍ នៅពេលបណ្តុះបណ្តាលគំរូសូរស័ព្ទ មនុស្សម្នាក់ត្រូវប៉ាន់ប្រមាណនូវប្រូបាប៊ីលីតេនៃរដ្ឋនីមួយៗនៅលើស៊ុមនីមួយៗ។ ចំពោះបញ្ហានេះ ក្បួនដោះស្រាយឆ្ពោះទៅមុខ-ថយក្រោយត្រូវបានប្រើ។

ទោះជាយ៉ាងណាក៏ដោយ គំរូសូរស័ព្ទគឺគ្រាន់តែជាផ្នែកមួយនៃប្រព័ន្ធប៉ុណ្ណោះ។ ចុះបើវចនានុក្រមទទួលស្គាល់មិនមានពាក្យពីរ ដូចក្នុងឧទាហរណ៍ដែលបានពិភាក្សាខាងលើ ប៉ុន្តែមានរាប់រយរាប់ពាន់ ឬរាប់លាន? ពួកគេជាច្រើននឹងមានភាពស្រដៀងគ្នាខ្លាំងនៅក្នុងការបញ្ចេញសំឡេង ឬសូម្បីតែស្របគ្នា។ ក្នុងពេលជាមួយគ្នានេះ នៅក្នុងវត្តមាននៃបរិបទ តួនាទីនៃសូរស័ព្ទបានធ្លាក់ចុះ៖ ពាក្យអសុរោះ សំលេងរំខាន ឬមិនច្បាស់លាស់អាចត្រូវបានស្ដារឡើងវិញ "តាមន័យ" ។ ជាថ្មីម្តងទៀត គំរូប្រូបាបត្រូវបានប្រើដើម្បីកំណត់បរិបទ។ ឧទាហរណ៍ អ្នកនិយាយភាសារុស្សីម្នាក់យល់ថា ភាពធម្មជាតិ (ក្នុងករណីរបស់យើង ប្រូបាប៊ីលីតេ) នៃប្រយោគ "ម៉ាក់លាងស៊ុម" គឺខ្ពស់ជាង "ម៉ាក់លាងស៊ីក្លូ" ឬ "ម៉ាក់លាងស៊ុម" ។ នោះគឺវត្តមាននៃបរិបទថេរ "soap mom ... " កំណត់ការចែកចាយប្រូបាប៊ីលីតេសម្រាប់ពាក្យបន្ទាប់ ដែលឆ្លុះបញ្ចាំងទាំងអត្ថន័យ និងរូបវិទ្យា។ គំរូភាសាប្រភេទនេះត្រូវបានគេហៅថាគំរូភាសា n-gram (ត្រីកោណក្នុងឧទាហរណ៍ខាងលើ); ជាការពិតណាស់ មានវិធីស្មុគ្រស្មាញ និងមានឥទ្ធិពលច្រើនទៀតក្នុងការធ្វើគំរូភាសា។

II. តើអ្វីនៅក្រោមក្រណាត់របស់ Yandex ASR?

ឥឡូវនេះនៅពេលដែលយើងស្រមៃមើលរចនាសម្ព័ន្ធទូទៅនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយ យើងនឹងពណ៌នាលម្អិតបន្ថែមទៀតអំពីព័ត៌មានលម្អិតនៃបច្ចេកវិទ្យា Yandex - ល្អបំផុតយោងទៅតាមទិន្នន័យរបស់យើង ប្រព័ន្ធទទួលស្គាល់ការនិយាយរបស់រុស្ស៊ី។
នៅក្នុងឧទាហរណ៍នៃប្រដាប់ក្មេងលេងខាងលើ យើងបានធ្វើឱ្យមានភាពសាមញ្ញមួយចំនួនដោយចេតនា ហើយបានលុបចោលព័ត៌មានលម្អិតសំខាន់ៗមួយចំនួន។ ជាពិសេស យើងបានប្រកែកថា មូលដ្ឋាននៃ "ប្លុកអគារ" នៃការនិយាយគឺជាសូរសព្ទ។ តាមការពិត សូរសព្ទមានទំហំធំពេក។ ដើម្បីធ្វើគំរូឱ្យបានគ្រប់គ្រាន់នៃការបញ្ចេញសំឡេងនៃសូរសព្ទតែមួយ រដ្ឋបីដាច់ដោយឡែកពីគ្នាត្រូវបានប្រើ - ការចាប់ផ្តើម កណ្តាល និងចុងបញ្ចប់នៃសូរសព្ទ។ ពួកគេរួមគ្នាបង្កើត HMM ដូចបានបង្ហាញខាងលើ។ លើសពីនេះទៀត phonemes គឺអាស្រ័យលើទីតាំង និងអាស្រ័យលើបរិបទ៖ ជាផ្លូវការ សូរសព្ទ "ដូចគ្នា" ស្តាប់ទៅខុសគ្នាយ៉ាងខ្លាំង អាស្រ័យលើផ្នែកណាមួយនៃពាក្យដែលវាស្ថិតនៅ និងទូរស័ព្ទណាដែលវានៅជាប់។ ទោះជាយ៉ាងណាក៏ដោយ ការរាប់បញ្ចូលសាមញ្ញនៃបំរែបំរួលដែលអាចធ្វើបានទាំងអស់នៃសូរសព្ទអាស្រ័យលើបរិបទនឹងត្រលប់មកវិញនូវបន្សំមួយចំនួនធំ ដែលភាគច្រើនមិនដែលកើតឡើងក្នុងជីវិតពិត។ ដើម្បីធ្វើឱ្យចំនួននៃព្រឹត្តិការណ៍សូរស័ព្ទត្រូវបានចាត់ទុកថាសមហេតុផល សូរស័ព្ទដែលពឹងផ្អែកលើបរិបទជិតស្និទ្ធត្រូវបានរួមបញ្ចូលនៅដំណាក់កាលដំបូងក្នុងការបណ្តុះបណ្តាល និងពិចារណារួមគ្នា។
ដូច្នេះ ទីមួយ យើងបានធ្វើឱ្យសូរសព្ទអាស្រ័យលើបរិបទ ហើយទីពីរ យើងបែងចែកពួកវានីមួយៗជាបីផ្នែក។ វត្ថុទាំងនេះ - "ផ្នែកនៃសូរសព្ទ" - ឥឡូវនេះបង្កើតជាអក្ខរក្រមសូរសព្ទរបស់យើង។ ពួកគេក៏ត្រូវបានគេហៅថា senons ។ រដ្ឋនីមួយៗនៃ HMM របស់យើងគឺ senone ។ ម៉ូដែលរបស់យើងប្រើ 48 phonemes និងប្រហែល 4000 senones ។

ដូច្នេះ គំរូសូរស័ព្ទរបស់យើងនៅតែយកសំឡេងជាការបញ្ចូល ហើយនៅទិន្នផលវាផ្តល់នូវការចែកចាយប្រូបាប៊ីលីតេលើសេនូន។ ឥឡូវនេះសូមក្រឡេកមើលអ្វីដែលពិតជាត្រូវបានបញ្ចូល។ ដូចដែលយើងបាននិយាយ សំឡេងត្រូវបានកាត់ជាផ្នែកនៃ 25 ms ("ស៊ុម") ។ តាមក្បួនមួយជំហានកាត់គឺ 10 ms ដូច្នេះស៊ុមដែលនៅជាប់គ្នាត្រួតលើគ្នាដោយផ្នែក។ វាច្បាស់ណាស់ថាសំឡេង "ឆៅ" - ទំហំនៃលំយោលតាមពេលវេលា - មិនមែនជាទម្រង់ដែលផ្តល់ព័ត៌មានបំផុតនៃការតំណាងសញ្ញាសូរស័ព្ទនោះទេ។ វិសាលគមនៃសញ្ញានេះគឺប្រសើរជាងមុន។ នៅក្នុងការអនុវត្តជាក់ស្តែង វិសាលគមលោការីត និងខ្នាតមាត្រដ្ឋាន ជាធម្មតាត្រូវបានប្រើប្រាស់ ដែលត្រូវនឹងច្បាប់នៃការយល់ឃើញរបស់មនុស្ស (ការបំប្លែងពីមេល)។ តម្លៃដែលទទួលបានត្រូវបានទទួលរងនូវការបំលែងកូស៊ីនុសដាច់ដោយឡែក (DCT) ហើយលទ្ធផលគឺ MFCC - Mel Frequency Cepstral Coefficients ។ (ពាក្យ Cepstral ត្រូវបានទទួលដោយការរៀបចំអក្សរឡើងវិញនៅក្នុង Spectral ដែលឆ្លុះបញ្ចាំងពីវត្តមានរបស់ DCT បន្ថែម)។ MFCC គឺជាវ៉ិចទ័រនៃ 13 (ជាធម្មតា) ចំនួនពិត។ ពួកវាអាចត្រូវបានប្រើជាការបញ្ចូលទៅក្នុងគំរូសូរស័ព្ទ "ឆៅ" ប៉ុន្តែជារឿយៗត្រូវបានទទួលរងនូវការបំប្លែងបន្ថែមជាច្រើន។

ការបណ្តុះបណ្តាលគំរូសូរស័ព្ទ គឺជាដំណើរការស្មុគស្មាញ និងពហុដំណាក់កាល។ សម្រាប់ការបណ្តុះបណ្តាល ក្បួនដោះស្រាយនៃគ្រួសាររំពឹង-អតិបរមា ត្រូវបានប្រើ ដូចជាក្បួនដោះស្រាយ Baum-Welsh ជាដើម។ ខ្លឹមសារនៃក្បួនដោះស្រាយប្រភេទនេះគឺការឆ្លាស់គ្នានៃជំហានពីរ៖ នៅជំហានរំពឹងទុក គំរូដែលមានស្រាប់ត្រូវបានប្រើដើម្បីគណនាការរំពឹងទុកនៃអនុគមន៍លទ្ធភាព ដែលនៅជំហានអតិបរមា ប៉ារ៉ាម៉ែត្រគំរូត្រូវបានផ្លាស់ប្តូរក្នុងវិធីមួយដើម្បីពង្រីកអតិបរមា។ ការប៉ាន់ស្មាននេះ។ នៅដំណាក់កាលដំបូងនៃវគ្គបណ្តុះបណ្តាល គំរូសូរស័ព្ទសាមញ្ញត្រូវបានប្រើប្រាស់៖ លក្ខណៈ MFCC សាមញ្ញត្រូវបានផ្តល់ជាធាតុបញ្ចូល សូរស័ព្ទត្រូវបានពិចារណាក្រៅបរិបទ និងល្បាយនៃ Gaussians ដែលមានម៉ាទ្រីសអង្កត់ទ្រូង (Diagonal GMMs - Gaussian Mixture Models) ត្រូវបានប្រើដើម្បីយកគំរូតាម ប្រូបាប៊ីលីតេនៃការបំភាយឧស្ម័ននៅក្នុង HMM ។ លទ្ធផលនៃគំរូសូរស័ព្ទពីមុននីមួយៗ គឺជាចំណុចចាប់ផ្តើមសម្រាប់ការបណ្តុះបណ្តាលគំរូស្មុគ្រស្មាញជាងមុន ជាមួយនឹងមុខងារចែកចាយប្រូបាប៊ីលីតេនៃការបំភាយ ការបញ្ចូល ទិន្នផល ឬការបញ្ចេញដ៏ស្មុគស្មាញ។ មានវិធីជាច្រើនដើម្បីកែលម្អគំរូសូរស័ព្ទ ប៉ុន្តែឥទ្ធិពលដ៏សំខាន់បំផុតគឺការផ្លាស់ប្តូរពីគំរូ GMM ទៅ DNN (បណ្តាញសរសៃប្រសាទជ្រៅ) ដែលស្ទើរតែបង្កើនគុណភាពនៃការទទួលស្គាល់ទ្វេដង។ បណ្តាញសរសៃប្រសាទមិនមានដែនកំណត់ជាច្រើននៃល្បាយ Gaussian និងមានសមត្ថភាពទូទៅប្រសើរជាងមុន។ លើសពីនេះ ម៉ូដែលសូរស័ព្ទដែលមានមូលដ្ឋានលើបណ្តាញសរសៃប្រសាទមានភាពធន់នឹងសំឡេងរំខាន និងមានដំណើរការប្រសើរជាងមុន។

បណ្តាញសរសៃប្រសាទសម្រាប់ការធ្វើគំរូសូរស័ព្ទត្រូវបានបណ្តុះបណ្តាលក្នុងដំណាក់កាលជាច្រើន។ ដើម្បីចាប់ផ្តើមបណ្តាញសរសៃប្រសាទ ជង់នៃម៉ាស៊ីន Boltzmann ដែលមានកម្រិត (RBM) ត្រូវបានប្រើ។ RBM គឺជាបណ្តាញសរសៃប្រសាទ stochastic ដែលបណ្តុះបណ្តាលដោយគ្មានគ្រូ។ ទោះបីជាទម្ងន់ដែលនាងបានរៀនមិនអាចប្រើដោយផ្ទាល់ដើម្បីបែងចែករវាងថ្នាក់នៃព្រឹត្តិការណ៍សូរស័ព្ទក៏ដោយ ពួកវាតំណាងឱ្យរចនាសម្ព័ន្ធនៃការនិយាយយ៉ាងលម្អិត។ អ្នកអាចគិតថា RBM ជាអ្នកទាញយកលក្ខណៈពិសេសមួយ - គំរូបង្កើតលទ្ធផលគឺជាចំណុចចាប់ផ្តើមដ៏ល្អសម្រាប់ការកសាងគំរូរើសអើង។ គំរូនៃការរើសអើងត្រូវបានបណ្តុះបណ្តាលដោយប្រើក្បួនដោះស្រាយការផ្សព្វផ្សាយខាងក្រោយបែបបុរាណ ខណៈពេលដែលអនុវត្តបច្ចេកទេសមួយចំនួនដែលធ្វើអោយប្រសើរឡើងនូវការបញ្ចូលគ្នា និងការពារការហួសកម្រិត។ ជាលទ្ធផលនៅឯការបញ្ចូលនៃបណ្តាញសរសៃប្រសាទមានស៊ុមជាច្រើននៃ MFCC-features (ស៊ុមកណ្តាលត្រូវបានចាត់ថ្នាក់ នៅសល់បង្កើតជាបរិបទ) នៅទិន្នផលមានណឺរ៉ូនប្រហែល 4000 ដែលត្រូវគ្នានឹង senons ផ្សេងៗគ្នា។ បណ្តាញសរសៃប្រសាទនេះត្រូវបានប្រើជាគំរូសូរស័ព្ទនៅក្នុងប្រព័ន្ធផលិតកម្ម។

ចូរយើងពិនិត្យមើលឱ្យកាន់តែច្បាស់អំពីដំណើរការឌិកូដ។ ចំពោះបញ្ហានៃការទទួលស្គាល់ការនិយាយដោយឯកឯងជាមួយនឹងវាក្យសព្ទធំ វិធីសាស្រ្តដែលបានពិពណ៌នានៅក្នុងផ្នែកទីមួយគឺមិនអាចអនុវត្តបានទេ។ អ្វីដែលត្រូវការគឺរចនាសម្ព័ន្ធទិន្នន័យដែលភ្ជាប់គ្នានូវប្រយោគទាំងអស់ដែលប្រព័ន្ធអាចទទួលស្គាល់។ រចនាសម្ព័នសមស្របគឺជាឧបករណ៍បំប្លែងរដ្ឋដែលមានទម្ងន់កំណត់ (WFST) - តាមពិតគ្រាន់តែជាម៉ាស៊ីនរដ្ឋកំណត់ដែលមានកាសែតទិន្នផល និងទម្ងន់នៅលើគែម។ នៅឯធាតុបញ្ចូលនៃ automaton នេះមាន senons, នៅទិន្នផលមានពាក្យ។ ដំណើរការឌិកូដដំណើរការទៅនឹងការជ្រើសរើសផ្លូវដែលល្អបំផុតនៅក្នុង automaton នេះនិងផ្តល់នូវលំដាប់លទ្ធផលនៃពាក្យដែលត្រូវនឹងផ្លូវនេះ។ ក្នុងករណីនេះតម្លៃនៃការឆ្លងកាត់តាមបណ្តោយធ្នូនីមួយៗមានធាតុផ្សំពីរ។ សមាសធាតុទីមួយត្រូវបានគេដឹងជាមុនហើយត្រូវបានគណនានៅដំណាក់កាលដំឡើង automaton ។ វារួមបញ្ចូលថ្លៃដើមនៃការបញ្ចេញសំឡេង ការផ្លាស់ប្តូរទៅរដ្ឋដែលបានផ្តល់ឱ្យ ការវាយតម្លៃលទ្ធភាពដោយគំរូភាសា។ សមាសភាគទីពីរត្រូវបានគណនាដោយឡែកពីគ្នាសម្រាប់ស៊ុមជាក់លាក់មួយ: វាគឺជាទម្ងន់សូរស័ព្ទនៃ senon ដែលត្រូវគ្នាទៅនឹងនិមិត្តសញ្ញាបញ្ចូលនៃធ្នូដែលបានពិចារណា។ ការឌិកូដកើតឡើងក្នុងពេលវេលាជាក់ស្តែង ដូច្នេះមិនមែនគ្រប់ផ្លូវដែលអាចធ្វើបានត្រូវបានរុករកទេ៖ សរីរវិទ្យាពិសេសកំណត់ការកំណត់សម្មតិកម្មទៅអ្នកដែលទំនងបំផុត។

ជាការពិតណាស់ផ្នែកដែលគួរឱ្យចាប់អារម្មណ៍បំផុតពីទស្សនៈបច្ចេកទេសគឺការសាងសង់ម៉ាស៊ីនស្វ័យប្រវត្តិបែបនេះ។ កិច្ចការនេះត្រូវបានដោះស្រាយក្រៅបណ្តាញ។ ដើម្បីផ្លាស់ទីពី HMMs សាមញ្ញសម្រាប់ phoneme ដែលប្រកាន់យកបរិបទនីមួយៗទៅជា automata លីនេអ៊ែរសម្រាប់ពាក្យនីមួយៗ យើងត្រូវប្រើវចនានុក្រមបញ្ចេញសំឡេង។ ការបង្កើតវចនានុក្រមបែបនេះមិនអាចធ្វើទៅបានដោយដៃទេ ហើយវិធីសាស្ត្ររៀនម៉ាស៊ីនត្រូវបានប្រើនៅទីនេះ (ហើយភារកិច្ចខ្លួនឯងត្រូវបានគេហៅថា Grapheme-To-Phoneme ឬ G2P នៅក្នុងសហគមន៍វិទ្យាសាស្ត្រ)។ នៅក្នុងវេន ពាក្យ "ចូលរួម" ជាមួយគ្នាទៅជាគំរូភាសា តំណាងឱ្យម៉ាស៊ីនរដ្ឋកំណត់ផងដែរ។ ប្រតិបត្តិការកណ្តាលនៅទីនេះគឺសមាសភាព WFST ប៉ុន្តែបច្ចេកទេសផ្សេងៗសម្រាប់ការបង្កើនប្រសិទ្ធភាព WFST សម្រាប់ទំហំ និងប្រសិទ្ធភាពនៃការជង់អង្គចងចាំក៏សំខាន់ផងដែរ។

លទ្ធផលនៃដំណើរការឌិកូដគឺជាបញ្ជីសម្មតិកម្មដែលអាចត្រូវបានដំណើរការបន្ថែមទៀត។ ជាឧទាហរណ៍ គំរូភាសាដែលមានឥទ្ធិពលជាងនេះ អាចត្រូវបានប្រើដើម្បីដាក់ចំណាត់ថ្នាក់ឡើងវិញនូវសម្មតិកម្មដែលទំនងបំផុត។ បញ្ជីលទ្ធផលត្រូវបានប្រគល់ជូនអ្នកប្រើប្រាស់វិញ ដោយតម្រៀបតាមតម្លៃនៃទំនុកចិត្ត - កម្រិតនៃទំនុកចិត្តរបស់យើងដែលការទទួលស្គាល់ត្រឹមត្រូវ។ ជាញឹកញាប់មានសម្មតិកម្មមួយនៅសល់ ក្នុងករណីនេះកម្មវិធីអតិថិជនភ្លាមៗបន្តប្រតិបត្តិពាក្យបញ្ជាសំឡេង។

សរុបសេចក្តី អនុញ្ញាតឱ្យយើងប៉ះលើសំណួរនៃរង្វាស់គុណភាពនៃប្រព័ន្ធទទួលស្គាល់ការនិយាយ។ ម៉ែត្រដែលពេញនិយមបំផុតគឺអត្រាកំហុសពាក្យ (និងភាពត្រឹមត្រូវនៃពាក្យបញ្ច្រាសរបស់វា) ។ ជាសំខាន់ វាឆ្លុះបញ្ចាំងពីសមាមាត្រនៃពាក្យដែលទទួលស្គាល់ខុស។ ដើម្បីគណនាអត្រាកំហុសនៃពាក្យសម្រាប់ប្រព័ន្ធទទួលស្គាល់ការនិយាយ សំណួរជាសំឡេងដែលដាក់ស្លាកដោយដៃត្រូវបានប្រើដែលត្រូវនឹងប្រធានបទនៃកម្មវិធីដោយប្រើការសម្គាល់ការនិយាយ។

ពេលខ្លះយើងត្រូវអានអត្ថបទដែលបានបោះពុម្ពដោយសំឡេង។ ភាគច្រើនជាញឹកញាប់ កម្មវិធីបែបនេះត្រូវបានប្រើប្រាស់ដោយអ្នកដែលរៀនភាសាបរទេសដើម្បីកំណត់សំឡេងត្រឹមត្រូវ និងភាពតានតឹង ក៏ដូចជាសម្រាប់ការអានសៀវភៅ និងសម្រាប់មិត្តភ័ក្តិលេងសើច និងលេងសើចផងដែរ។ ដើម្បីប្រើការបញ្ចេញសំឡេងនៃអត្ថបទ មិនចាំបាច់ទាញយកកម្មវិធីទៅកុំព្យូទ័ររបស់អ្នកទេ ព្រោះវាមានចំនួនគ្រប់គ្រាន់នៅក្នុងកំណែអនឡាញ (មិនដូច)។ អត្ថបទនេះនឹងពិនិត្យមើលឧបករណ៍សំយោគការនិយាយរបស់មនុស្សដ៏ល្អបំផុតដែលអ្នកអាចប្រើនៅលើអ៊ីនធឺណិត។

Translate.google.com គឺជាសេវាកម្មបកប្រែអត្ថបទ និងសំយោគដោយឥតគិតថ្លៃ។

Google Translate គឺជាសេវាកម្មដ៏ពេញនិយម និងល្អបំផុតមួយដែលផ្តល់នូវសេវាកម្មផ្សេងៗគ្នាជាច្រើន។ ជាឧទាហរណ៍ អ្នកបកប្រែដ៏ល្បីមានមុខងារបញ្ចេញសំឡេងលើអត្ថបទដែលបានបញ្ចូល និងជាភាសាដែលគាំទ្រទាំងអស់។ គុណភាពសំឡេងមានកម្រិតទាបបន្តិចនៅក្នុងកន្លែង ប៉ុន្តែជាទូទៅអាចទទួលយកបាន។ ប្រសិនបើអ្នកកំពុងបកប្រែអត្ថបទដែលបានបោះពុម្ពទៅជាការនិយាយសម្រាប់ការរៀនភាសា នោះឧបករណ៍សំយោគ Google Translate គឺល្អឥតខ្ចោះសម្រាប់អ្នក។ អ្វីដែលសំខាន់បំផុតអំពីសេវានេះគឺថាវាសាមញ្ញនិងអាចចូលប្រើបានសម្រាប់អ្នកប្រើគ្រប់គ្នានៅលើអ៊ីនធឺណិត។

របៀបសំយោគអត្ថបទនៅក្នុង Translate.google.com

ដើម្បីប្រើប្រាស់សេវាកម្មពី Google៖

ចូលទៅកាន់ https://translate.google.com ;
ជ្រើសរើសភាសាដែលចង់បានដោយចុចប៊ូតុង "កំណត់ភាសា";
បន្ទាប់មកបញ្ចូលអត្ថបទនៅក្នុងបង្អួចដែលអ្នកបានជ្រើសរើសភាសា។
ឥឡូវនេះចុចលើរូបតំណាង gramophone នៅផ្នែកខាងក្រោមនៃបង្អួច ហើយអ្នកអាចឮការលេងអត្ថបទជាសំឡេងស្រី។

គុណវិបត្តិរបស់វាគឺអសមត្ថភាពក្នុងការទាញយកការសំយោគការនិយាយដែលបានផលិតឡើងវិញនៅក្នុងឯកសារទៅកាន់កុំព្យូទ័ររបស់អ្នក។ វាក៏មិនមានការកំណត់សំឡេង ឬការជ្រើសរើសសិល្បករផងដែរ។

Acapela - កម្មវិធីអត្ថបទទៅការនិយាយឥតគិតថ្លៃ

Acapela គឺជាឧបករណ៍សំយោគការនិយាយតាមអ៊ីនធឺណិតដ៏ពេញនិយមបំផុតមួយ។ សេវាកម្មនេះគាំទ្រជាង 30 ភាសា ក៏ដូចជាអ្នកសំដែងមួយចំនួនធំដែលត្រូវជ្រើសរើស ទាំងបុរស និងស្ត្រី។ សម្រាប់ភាសាអង់គ្លេស មានឈើចំនួន 20 យ៉ាងសម្រាប់ជ្រើសរើស ដូចជា នារី ប្រុស ក្មេងជំទង់ ក្មេង ប្រុសគ្រើម ស្រីទន់ ។ល។ កម្មវិធីនេះអាចប្ដូរតាមបំណងបានខ្ពស់ និងងាយស្រួលប្រើ។ គេហទំព័រនេះមានកម្មវិធីសម្រាប់ប្រើប្រាស់ក្រៅបណ្តាញ។ អ្នកមានឱកាសសាកល្បងកំណែសាកល្បងរបស់ឧបករណ៍សំយោគការនិយាយដោយចុចលើធាតុដែលត្រូវគ្នានៅក្នុងរបារម៉ឺនុយ។

របៀបប្រើ Acapela

ដើម្បីរៀបចំការសំយោគការនិយាយតាមអ៊ីនធឺណិត សូមប្រើប្លុកនៅផ្នែកខាងឆ្វេងនៃទំព័រ http://www.acapela-group.com/voices/demo/ ។

ដូច្នេះតើវាដំណើរការយ៉ាងដូចម្តេច៖

នៅក្នុងជួរទីមួយ ជ្រើសរើសភាសានៃអត្ថបទនិយាយ។
បន្ទាត់ទីពីរមិនចាំបាច់ទេប្រសិនបើអ្នកជ្រើសរើសភាសារុស្សីព្រោះមានជម្រើសតែមួយគត់ - Alyona ។
នៅជួរទីបី បញ្ចូលអត្ថបទរបស់អ្នកដែលអ្នកចង់បញ្ចេញសំឡេង។ អ្នកអាចបញ្ចូលរហូតដល់ 300 តួអក្សរ។
បន្ទាប់មក យល់ព្រមនឹងលក្ខខណ្ឌនៃសេវាកម្មដោយធីកប្រអប់ "ខ្ញុំយល់ព្រមជាមួយលក្ខខណ្ឌ"។
ហើយចុចប៊ូតុង "សូមទទួលយកលក្ខខណ្ឌ" ខាងក្រោម។

ការបញ្ចេញសំឡេងតាមរយៈសេវាកម្មនេះមានគុណភាពជាមធ្យម។ សំនៀងគឺត្រឹមត្រូវស្ទើរតែគ្រប់ពាក្យ។ ផលិតផលមានសម្រាប់គ្រប់វេទិកា។

Next.2yxa.mobi - សេវាកម្មអនឡាញសម្រាប់ការអានអត្ថបទ

សេវាកម្មអនឡាញ Next.2yxa.mobi គឺជាឧបករណ៍សំយោគដ៏សាមញ្ញ និងមានតម្លៃសមរម្យសម្រាប់ការផលិតអត្ថបទដែលបានវាយឡើងវិញ។ គេហទំព័រនេះត្រូវបានបង្កើតឡើងសម្រាប់ឧបករណ៍ចល័ត ដូច្នេះតាមរយៈការបញ្ចូលវាតាមរយៈកម្មវិធីរុករកតាមអ៊ីនធឺណិត យើងនឹងមានឧបករណ៍សំយោគអត្ថបទដែលស្រាល និងរហ័ស។ ក្នុងន័យនេះ គេហទំព័រមានដែនកំណត់មួយចំនួនក្នុងការងាររបស់ខ្លួន។ ឧទាហរណ៍ ប្រសិនបើអ្នកត្រូវការ "អាន" អត្ថបទដែលបានទាញយកនោះ ទំហំឯកសារមិនគួរលើសពី 100 kb ទេ។ អ្នកអាចវាយអត្ថបទ និងបញ្ចេញសំឡេងភ្លាមៗ។

សម្រាប់នេះអ្នកត្រូវការ:

Vocalizer - ឧបករណ៍សំយោគសំឡេងសម្រាប់ការចាក់សារឡើងវិញតាមអ៊ីនធឺណិត

មួយទៀតក្នុងចំណោមឧបករណ៍សំយោគការនិយាយដ៏ល្អបំផុតសម្រាប់ការសាកល្បងការបញ្ចេញសំឡេងតាមអ៊ីនធឺណិតដែលបង្កើតឡើងដោយអ្នកអភិវឌ្ឍន៍បរទេសគឺ Vocalizer ។ វាមាននៅ http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html ។ នេះគឺជាសេវាកម្មសាមញ្ញ និងអាចយល់បាន។ ម៉ឺនុយ និងចំណុចប្រទាក់គឺជាភាសាអង់គ្លេសទាំងស្រុង ប៉ុន្តែវានឹងងាយស្រួលក្នុងការដោះស្រាយវាចេញ។ យើងអាចប្រើប្រាស់សេវាកម្មអនឡាញជាកំណែសាកល្បង។ ប្រព័ន្ធផ្តល់ឱ្យអ្នកនូវជម្រើសសំឡេង 100 ផ្សេងគ្នា និង 47 ភាសា។

របៀបប្រើ Vocalizer

ការសំយោគការនិយាយតាមអ៊ីនធឺណិតជាមួយកម្មវិធីនេះគឺសាមញ្ញណាស់។ សម្រាប់ការនេះ:

នៅក្នុងធាតុ "ភាសា / គ្រាមភាសា" ជ្រើសរើសភាសា។
នៅក្នុង "យេនឌ័រ" ជ្រើសរើសសំលេងប្រុសឬស្រីសម្តែង (ប្រុស - ប្រុស - ស្រី - ស្រី);
ខាងក្រោមនៅក្នុងប្លុកធំ បញ្ចូលអត្ថបទសម្រាប់ការបញ្ចេញសំឡេង ហើយចុចប៊ូតុងពណ៌ខៀវនៅចំហៀងដើម្បីលេង។

វិបផតថលសម្រាប់សិស្ស។ ការបណ្តុះបណ្តាលខ្លួនឯង

I. មូលដ្ឋាន

II. តើអ្វីនៅក្រោមក្រណាត់របស់ Yandex ASR?

Translate.google.com គឺជាសេវាកម្មបកប្រែអត្ថបទ និងសំយោគដោយឥតគិតថ្លៃ។

របៀបសំយោគអត្ថបទនៅក្នុង Translate.google.com

Acapela - កម្មវិធីអត្ថបទទៅការនិយាយឥតគិតថ្លៃ

របៀបប្រើ Acapela

Next.2yxa.mobi - សេវាកម្មអនឡាញសម្រាប់ការអានអត្ថបទ

Vocalizer - ឧបករណ៍សំយោគសំឡេងសម្រាប់ការចាក់សារឡើងវិញតាមអ៊ីនធឺណិត

របៀបប្រើ Vocalizer

អត្ថបទ​ដែល​ទាក់ទង

អត្ថបទដែលទាក់ទង