ការកែសម្រួលសំឡេងអន្តរកម្មនៃអត្ថបទដោយប្រើបច្ចេកវិទ្យានិយាយថ្មីពី Yandex ។ ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

ថ្ងៃនេះកម្មវិធី Dictation របស់យើងសម្រាប់ការសរសេរអន្តរកម្ម និងការកែសម្រួលអត្ថបទដោយសំឡេងបានបង្ហាញខ្លួននៅក្នុង AppStore និង Google Play ។ របស់គាត់។ ភារកិច្ចចម្បង- បង្ហាញលក្ខណៈពិសេសថ្មីមួយចំនួននៃស្មុគស្មាញ បច្ចេកវិទ្យានៃការនិយាយ Yandex. វាគឺអំពីអ្វីដែលគួរឱ្យចាប់អារម្មណ៍ និងប្លែកពីគេអំពីការទទួលស្គាល់ការនិយាយ និងការសំយោគបច្ចេកវិជ្ជារបស់យើង ដែលខ្ញុំចង់និយាយនៅក្នុងការប្រកាសនេះ។

ពាក្យពីរបីដើម្បីឱ្យអ្នកយល់ពីអ្វីដែលនឹងត្រូវបានពិភាក្សា។ Yandex បានផ្តល់ API ទូរស័ព្ទឥតគិតថ្លៃជាយូរមកហើយដែលអាចត្រូវបានប្រើសម្រាប់ការទទួលស្គាល់អាសយដ្ឋាននិងសំណួរស្វែងរកសំឡេង។ ក្នុងអំឡុងឆ្នាំនេះ យើងអាចនាំយកគុណភាពរបស់វាដល់កម្រិតដូចគ្នា ដែលសំណើ និងការកត់សម្គាល់បែបនេះត្រូវបានយល់ដោយមនុស្សផ្ទាល់។ ហើយឥឡូវនេះយើងធ្វើ ជំហានបន្ទាប់- គំរូសម្រាប់ការទទួលស្គាល់ ការ​និយាយ​ដោយ​សេរីលើប្រធានបទណាមួយ។

លើសពីនេះទៀតការសំយោគការនិយាយរបស់យើងគាំទ្រដល់អារម្មណ៍នៅក្នុងសម្លេង។ ហើយតាមដែលយើងដឹង នេះគឺជាការសំយោគការនិយាយដំបូងគេបង្អស់ដែលអាចរកបានសម្រាប់ពាណិជ្ជកម្មជាមួយនឹងសមត្ថភាពនេះ។

អានអំពីអ្វីៗទាំងអស់នេះ ក៏ដូចជាលក្ខណៈពិសេសមួយចំនួនផ្សេងទៀតនៃ SpeechKit៖ ការធ្វើឱ្យសកម្មសំឡេង ការដាក់វណ្ណយុត្តិដោយស្វ័យប្រវត្តិ និងការទទួលស្គាល់វត្ថុន័យន័យក្នុងអត្ថបទ - អានខាងក្រោម។

Omnivorous ASR និងគុណភាពនៃការទទួលស្គាល់

ប្រព័ន្ធទទួលស្គាល់ការនិយាយនៅក្នុង SpeechKit ដំណើរការជាមួយ ប្រភេទផ្សេងគ្នាអត្ថបទ និង ឆ្នាំមុនយើងកំពុងធ្វើការលើការពង្រីកវិសាលភាពរបស់វា។ ដើម្បីធ្វើដូច្នេះ យើងបានបង្កើតគំរូភាសាថ្មី ដែលរហូតមកដល់ពេលនេះ ភាសាធំបំផុតសម្រាប់ការទទួលស្គាល់ អត្ថបទខ្លីៗលើប្រធានបទណាមួយ។

ក្នុងមួយ ឆ្នាំមុនសមាមាត្រដែលទាក់ទងនៃពាក្យដែលទទួលស្គាល់ខុស (អត្រាកំហុសពាក្យ) ថយចុះ 30% ។ ឧទាហរណ៍ ថ្ងៃនេះ SpeechKit ទទួលស្គាល់ 95% នៃអាសយដ្ឋានយ៉ាងត្រឹមត្រូវ និង វត្ថុភូមិសាស្ត្រចូលមកជិតមនុស្សម្នាក់ដែលយល់ 96-98% នៃពាក្យដែលគេឮ។ ភាពពេញលេញនៃការទទួលស្គាល់គំរូថ្មីសម្រាប់ការសរសេរតាមអាន អត្ថបទផ្សេងៗឥឡូវនេះ 82% ។ ជាមួយនឹងកម្រិតនេះ អ្នកអាចបង្កើតដំណោះស្រាយពេញលេញមួយសម្រាប់អ្នកប្រើប្រាស់ចុងក្រោយ ដែលជាអ្វីដែលយើងចង់បង្ហាញនៅលើឧទាហរណ៍នៃ Dictation ។

ដំបូង SpeechKit ដំណើរការសម្រាប់តែសំណួរស្វែងរកប៉ុណ្ណោះ៖ ប្រធានបទទូទៅនិងការរុករកភូមិសាស្ត្រ។ ទោះបីជាពេលនោះ យើងគ្រោងនឹងបង្កើតមិនត្រឹមតែឧបករណ៍បញ្ចូលបន្ថែម ក្តារចុច "សំឡេង" ប៉ុណ្ណោះទេ ប៉ុន្តែជាចំណុចប្រទាក់សកលដែលនឹងជំនួសទាំងស្រុងនូវអន្តរកម្មជាមួយប្រព័ន្ធជាមួយនឹងការសន្ទនាផ្ទាល់។

ដើម្បីធ្វើដូច្នេះបាន វាចាំបាច់ក្នុងការរៀនទទួលស្គាល់ការនិយាយណាមួយ អត្ថបទលើប្រធានបទដែលបំពាន។ ហើយយើងបានចាប់ផ្តើមធ្វើការលើគំរូភាសាដាច់ដោយឡែកសម្រាប់វា ដែលមានទំហំធំជាងការរុករកតាមភូមិសាស្ត្រ និងគំរូស្វែងរកទូទៅដែលមានស្រាប់ជាច្រើនដង។

ទំហំនៃគំរូនេះកំណត់លក្ខខណ្ឌថ្មីទាក់ទងនឹងធនធានកុំព្យូទ័រ។ សម្រាប់ស៊ុមនីមួយៗ ជម្រើសនៃការទទួលស្គាល់រាប់ពាន់ត្រូវបានពិចារណា - ហើយកាន់តែច្រើនយើងជោគជ័យ គុណភាពកាន់តែខ្ពស់។ ហើយប្រព័ន្ធគួរតែដំណើរការនៅក្នុងចរន្តមួយ ក្នុងពេលវេលាជាក់ស្តែង ដូច្នេះការគណនាទាំងអស់ត្រូវតែធ្វើឱ្យប្រសើរជាលក្ខណៈថាមវន្ត។ យើងបានពិសោធន៍ ព្យាយាម រកមើលវិធីសាស្រ្តមួយ៖ យើងសម្រេចបាននូវការបង្កើនល្បឿន ជាឧទាហរណ៍ តាមរយៈការផ្លាស់ប្តូរបណ្ណាល័យពិជគណិតលីនេអ៊ែរ។

ប៉ុន្តែអ្វីដែលសំខាន់បំផុត និងពិបាកបំផុតនោះគឺការប្រមូលទិន្នន័យត្រឹមត្រូវគ្រប់គ្រាន់ដែលសមរម្យសម្រាប់ការបង្រៀនការនិយាយស្ទ្រីម។ បច្ចុប្បន្ននេះ ប្រហែល 500 ម៉ោងនៃការនិយាយចម្លងដោយដៃត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលគំរូសូរស័ព្ទ។ វាមិនដូចនោះទេ។ មូលដ្ឋានធំ- សម្រាប់ការប្រៀបធៀបរូបរាងកាយវិទ្យាសាស្ត្រដ៏ពេញនិយម Switchboard ដែលត្រូវបានគេប្រើជាញឹកញាប់នៅក្នុង គោលបំណងស្រាវជ្រាវមានប្រហែល 300 ម៉ោងនៃការផ្សាយបន្តផ្ទាល់ ការសន្ទនាដោយឯកឯង។ ជាការពិតណាស់ការកើនឡើងនៃមូលដ្ឋានរួមចំណែកដល់ការកើនឡើងនៃគុណភាពនៃគំរូដែលបានបណ្តុះបណ្តាលប៉ុន្តែយើងផ្តោតលើ ការបណ្តុះបណ្តាលត្រឹមត្រូវ។ទិន្នន័យ និងការធ្វើប្រតិចារឹកគំរូយ៉ាងត្រឹមត្រូវ ដែលអនុញ្ញាតឱ្យយើងបណ្តុះបណ្តាលប្រកបដោយគុណភាពដែលអាចទទួលយកបាននៅលើមូលដ្ឋានតូចមួយ។

ពាក្យពីរបីអំពីរបៀបដែលម៉ូឌុលទទួលស្គាល់ដំណើរការ (យើងបាននិយាយអំពីរឿងនេះយ៉ាងលម្អិតកាលពីពេលមុន)។ ស្ទ្រីមសុន្ទរកថាដែលបានកត់ត្រាត្រូវបានកាត់ចូលទៅក្នុងស៊ុមនៃ 20 ms វិសាលគមសញ្ញាត្រូវបានធ្វើមាត្រដ្ឋានហើយបន្ទាប់ពីការផ្លាស់ប្តូរជាបន្តបន្ទាប់ MFCCs ត្រូវបានទទួលសម្រាប់ស៊ុមនីមួយៗ។

មេគុណត្រូវបានបញ្ចូលទៅក្នុងគំរូសូរស័ព្ទ ដែលគណនាការចែកចាយប្រូបាប៊ីលីតេសម្រាប់ប្រហែល 4000 សេនុងក្នុងស៊ុមនីមួយៗ។ Senon គឺជាការចាប់ផ្តើម កណ្តាល ឬចុងបញ្ចប់នៃសូរសព្ទ។

គំរូសូរស័ព្ទ SpeechKit ត្រូវបានបង្កើតឡើងនៅលើការរួមបញ្ចូលគ្នានៃម៉ូដែល Markov ដែលលាក់ និងបណ្តាញសរសៃប្រសាទដ៏ស៊ីជម្រៅ (feedforward DNN) ។ នេះគឺជាដំណោះស្រាយដែលបានបញ្ជាក់រួចហើយ ហើយនៅក្នុងអត្ថបទចុងក្រោយ យើងបាននិយាយអំពីរបៀបដែលការបោះបង់ចោលនូវល្បាយ Gaussian ក្នុងការពេញចិត្តនឹង DNN ផ្តល់នូវគុណភាពកើនឡើងស្ទើរតែពីរដង។

បន្ទាប់មកមកជាលើកដំបូង គំរូភាសា៖ WFSTs ជាច្រើន - ឧបករណ៍បំប្លែងចុងក្រោយដែលមានទម្ងន់ - បង្វែរសេណូនទៅជាសូរសព្ទអាស្រ័យលើបរិបទ ហើយពាក្យទាំងមូលត្រូវបានបង្កើតឡើងពីពួកវាដោយមានជំនួយពីវចនានុក្រមបញ្ចេញសំឡេង ហើយសម្មតិកម្មរាប់រយត្រូវបានទទួលសម្រាប់ពាក្យនីមួយៗ។

ដំណើរការចុងក្រោយកើតឡើងនៅក្នុងគំរូភាសាទីពីរ។ ភ្ជាប់ទៅវាគឺ RNN ដែលជាបណ្តាញសរសៃប្រសាទកើតឡើងដដែលៗ ហើយគំរូនេះចាត់ថ្នាក់សម្មតិកម្មដែលបានទទួល ដោយជួយជ្រើសរើសជម្រើសដែលអាចទុកចិត្តបំផុត។ បណ្តាញប្រភេទដែលកើតឡើងដដែលៗមានប្រសិទ្ធភាពជាពិសេសសម្រាប់គំរូភាសា។ កំណត់បរិបទនៃពាក្យនីមួយៗ វាអាចគិតគូរពីឥទ្ធិពលនៃពាក្យដែលនៅជិតបំផុត ដូចជានៅក្នុងបណ្តាញសរសៃប្រសាទបញ្ជូនបន្ត (និយាយសម្រាប់គំរូត្រីកោណ ទាំងនេះគឺជាពាក្យពីរមុន) ប៉ុន្តែក៏មានពាក្យដែលនៅឆ្ងាយទៀតផងដែរ។ ដូចជា "ចងចាំ" ពួកគេ។

ការទទួលស្គាល់អត្ថបទដែលបានភ្ជាប់រយៈពេលយូរមាននៅក្នុង SpeechKit Cloud និង SpeechKit Mobile SDK - ដើម្បីប្រើគំរូភាសាថ្មី អ្នកត្រូវជ្រើសរើសប្រធានបទ "កំណត់ចំណាំ" នៅក្នុងប៉ារ៉ាម៉ែត្រសំណួរ។

ការធ្វើឱ្យសកម្មសំឡេង

សមាសភាគសំខាន់ទីពីរនៃចំណុចប្រទាក់សំឡេងគឺប្រព័ន្ធធ្វើឱ្យសកម្មសំឡេងដែលបង្កឱ្យមានសកម្មភាពដែលចង់បានក្នុងការឆ្លើយតបទៅនឹងឃ្លាគន្លឹះ។ បើគ្មានវាទេ វានឹងមិនអាច "ស្រាយដៃ" របស់អ្នកប្រើប្រាស់បានពេញលេញនោះទេ។ យើងបានបង្កើតម៉ូឌុលធ្វើឱ្យសំឡេងផ្ទាល់របស់យើងសម្រាប់ SpeechKit ។ បច្ចេកវិទ្យាគឺមានភាពបត់បែនខ្លាំង - អ្នកអភិវឌ្ឍន៍ដែលប្រើបណ្ណាល័យ SpeechKit អាចជ្រើសរើសឃ្លាគន្លឹះណាមួយសម្រាប់កម្មវិធីរបស់គាត់។

ខុសពីឧទាហរណ៍ ដំណោះស្រាយរបស់ Google - អ្នកអភិវឌ្ឍន៍ប្រើពួកវាដើម្បីទទួលស្គាល់ ឃ្លា"OK Google" ជ្រៅ ប​ណ្តា​ញ​ញាណ. DNN ផ្តល់ឱ្យ គុណភាព​ខ្ពស់ប៉ុន្តែប្រព័ន្ធធ្វើឱ្យសកម្មត្រូវបានកំណត់ចំពោះពាក្យបញ្ជាតែមួយ ហើយសម្រាប់ការរៀនវាចាំបាច់ ចំនួនទឹកប្រាក់ដ៏អស្ចារ្យទិន្នន័យ។ ជាឧទាហរណ៍ គំរូសម្រាប់ទទួលស្គាល់ឃ្លាដែលធ្លាប់ស្គាល់ត្រូវបានបណ្តុះបណ្តាលលើឧទាហរណ៍នៃសំឡេងអ្នកប្រើប្រាស់ច្រើនជាង 40,000 ដែលចូលប្រើស្មាតហ្វូនរបស់ពួកគេជាមួយ Google Now ។

ជាមួយនឹងវិធីសាស្រ្តរបស់យើង ម៉ូឌុលធ្វើឱ្យសកម្មសំឡេងគឺតាមពិត ប្រព័ន្ធទទួលស្គាល់ខ្នាតតូច។ វាដំណើរការតែក្នុងស្ថានភាពធ្ងន់ធ្ងរប៉ុណ្ណោះ។ ទីមួយ ការទទួលស្គាល់ពាក្យបញ្ជាគួរតែកើតឡើងនៅលើឧបករណ៍ខ្លួនវា ដោយមិនចាំបាច់ទាក់ទងម៉ាស៊ីនមេ។ ហើយថាមពលកុំព្យូទ័ររបស់ស្មាតហ្វូនមានកម្រិតខ្លាំងណាស់។ ការប្រើប្រាស់ថាមពលក៏សំខាន់ផងដែរ - ប្រសិនបើម៉ូឌុលទទួលស្គាល់ធម្មតាត្រូវបានបើកសម្រាប់តែពេលជាក់លាក់មួយដើម្បីដំណើរការសំណើជាក់លាក់មួយ នោះម៉ូឌុលធ្វើឱ្យសកម្មដំណើរការឥតឈប់ឈរនៅក្នុងរបៀបរង់ចាំ។ ហើយក្នុងពេលតែមួយមិនគួរដាំថ្មទេ។

ទោះយ៉ាងណាក៏ដោយ មានការព្រងើយកន្តើយមួយ - ប្រព័ន្ធធ្វើឱ្យសកម្មត្រូវការវចនានុក្រមតូចមួយ ព្រោះវាគ្រប់គ្រាន់សម្រាប់វាក្នុងការយល់ឃ្លាសំខាន់ៗមួយចំនួន ហើយការនិយាយដែលនៅសល់អាចត្រូវបានគេមិនអើពើ។ ដូច្នេះ គំរូភាសាធ្វើឱ្យសកម្មគឺមានលក្ខណៈតូចចង្អៀតជាង។ រដ្ឋ WFST ភាគច្រើនត្រូវគ្នាទៅនឹងផ្នែកជាក់លាក់នៃពាក្យបញ្ជារបស់យើង - ឧទាហរណ៍ "ការចាប់ផ្តើមនៃសូរសព្ទទីបួន" ។ ក៏មានរដ្ឋ "សំរាម" ដែលពិពណ៌នាអំពីភាពស្ងៀមស្ងាត់។ សំលេងរំខានខាងក្រៅនិងការនិយាយផ្សេងទៀតទាំងអស់ក្រៅពី ពាក្យគន្លឹះ. ប្រសិនបើគំរូការទទួលស្គាល់ពេញលេញនៅក្នុង SpeechKit មានរាប់សិបលានរដ្ឋ ហើយប្រើរហូតដល់ 10 ជីហ្គាបៃ បន្ទាប់មកសម្រាប់ការធ្វើឱ្យសកម្មសំឡេងត្រូវបានកំណត់ត្រឹមរាប់រយរដ្ឋ ហើយសមនឹងរាប់សិបគីឡូបៃ។

ដូច្នេះ គំរូសម្រាប់ការទទួលស្គាល់ឃ្លាគន្លឹះថ្មីត្រូវបានបង្កើតឡើងដោយគ្មានការលំបាក ដែលអនុញ្ញាតឱ្យអ្នកធ្វើមាត្រដ្ឋានប្រព័ន្ធបានយ៉ាងឆាប់រហ័ស។ មានលក្ខខណ្ឌមួយ - ពាក្យបញ្ជាត្រូវតែវែងគ្រប់គ្រាន់ (និយម - ច្រើនជាងមួយពាក្យ) ហើយកម្រកើតឡើងនៅក្នុង សុន្ទរកថាប្រចាំថ្ងៃដើម្បីជៀសវាងភាពវិជ្ជមានមិនពិត។ “សូម” មិន​ល្អ​សម្រាប់​ការ​បើក​សំឡេង​ទេ ប៉ុន្តែ “ស្តាប់​ការ​បញ្ជា​របស់​ខ្ញុំ” គឺ​ល្អ​។

រួមជាមួយនឹងគំរូភាសាដែលមានកម្រិត និងសូរស័ព្ទ "ពន្លឺ" ការទទួលស្គាល់ពាក្យបញ្ជាគឺស្ថិតនៅក្នុងថាមពលនៃស្មាតហ្វូនណាមួយ។ វានៅសល់ដើម្បីដោះស្រាយជាមួយនឹងការប្រើប្រាស់ថាមពល។ ប្រព័ន្ធនេះមានឧបករណ៍ចាប់សកម្មភាពសំឡេងដែលភ្ជាប់មកជាមួយ ដែលត្រួតពិនិត្យរូបរាងនៃសំឡេងរបស់មនុស្សនៅក្នុងស្ទ្រីមអូឌីយ៉ូចូល។ សំឡេងផ្សេងទៀតមិនត្រូវបានអើពើ ដូច្នេះនៅក្នុងផ្ទៃខាងក្រោយ ការប្រើប្រាស់ថាមពលនៃម៉ូឌុលធ្វើឱ្យសកម្មត្រូវបានកំណត់ត្រឹមតែមីក្រូហ្វូនប៉ុណ្ណោះ។

ការសំយោគការនិយាយ

សមាសធាតុសំខាន់ទីបីនៃបច្ចេកវិទ្យាការនិយាយគឺការសំយោគការនិយាយ (អត្ថបទទៅការនិយាយ) ។ TTS-solution SpeechKit អនុញ្ញាតឱ្យអ្នកបញ្ចេញអត្ថបទណាមួយជាសំឡេងប្រុស ឬស្រី ហើយថែមទាំងសួរ អារម្មណ៍ត្រឹមត្រូវ។. គ្មានម៉ាស៊ីនសំឡេងដែលគេស្គាល់នៅលើទីផ្សារមានសមត្ថភាពនេះទេ។

មានមូលដ្ឋានគ្រឹះជាច្រើន។ បច្ចេកវិទ្យាផ្សេងគ្នាការសំយោគការនិយាយ និងភាគច្រើន ប្រព័ន្ធទំនើបការសំយោគ concatenative ត្រូវបានប្រើដោយវិធីសាស្រ្ត "ការជ្រើសរើសឯកតា" ។ គំរូសំឡេងដែលបានថតទុកមុនត្រូវបានកាត់ជាជាក់លាក់ ធាតុផ្សំ(ឧទាហរណ៍ សូរសព្ទអាស្រ័យលើបរិបទ) ដែលមូលដ្ឋានសុន្ទរកថាត្រូវបានផ្សំឡើង។ បន្ទាប់មកណាមួយ។ ពាក្យត្រឹមត្រូវ។ប្រមូលផ្តុំពីឯកតានីមួយៗ។ វាប្រែចេញជាការក្លែងបន្លំសំឡេងរបស់មនុស្សដ៏គួរឱ្យជឿ ប៉ុន្តែវាពិបាកក្នុងការយល់ឃើញវា - ការលោតរបស់ timbre, intonation ខុសពីធម្មជាតិ និងការផ្លាស់ប្តូរដ៏មុតស្រួចលេចឡើងនៅចំនុចប្រសព្វនៃគ្រឿងនីមួយៗ។ នេះ​ជា​ការ​កត់​សម្គាល់​ជា​ពិសេស​នៅ​ពេល​ដែល​បញ្ចេញ​សំឡេង​ជា​អក្សរ​ដែល​ភ្ជាប់​វែង។ គុណភាពនៃប្រព័ន្ធបែបនេះអាចត្រូវបានធ្វើឱ្យប្រសើរឡើងដោយការបង្កើនកម្រិតសំឡេងនៃមូលដ្ឋានសុន្ទរកថាប៉ុន្តែនេះគឺវែងនិង ការងារដែលមានការយកចិត្តទុកដាក់ទាមទារឱ្យមានការចូលរួមពីអ្នកប្រកាសដែលមានជំនាញវិជ្ជាជីវៈ និងអត់ធ្មត់ខ្លាំង។ ហើយភាពពេញលេញនៃមូលដ្ឋាននៅតែជាឧបសគ្គនៃប្រព័ន្ធ។

នៅក្នុង SpeechKit យើងបានសម្រេចចិត្តប្រើការសំយោគការនិយាយតាមស្ថិតិ (parametric) ដោយផ្អែកលើគំរូ Markov ដែលលាក់។ ដំណើរការគឺស្រដៀងទៅនឹងការទទួលស្គាល់ មានតែវាកើតឡើងនៅក្នុង ទិសដៅបញ្ច្រាស. ប្រភពអត្ថបទត្រូវបានបញ្ជូនទៅម៉ូឌុល G2P (graphem-to-phoneme) ដែលវាត្រូវបានបំប្លែងទៅជាលំដាប់នៃសូរសព្ទ។

បន្ទាប់មកពួកគេចូលទៅក្នុងគំរូសូរស័ព្ទ ដែលបង្កើតវ៉ិចទ័រដែលពិពណ៌នាអំពីលក្ខណៈវិសាលគមនៃសូរស័ព្ទនីមួយៗ។ លេខទាំងនេះត្រូវបានបញ្ជូនទៅកាន់ vocoder ដែលសំយោគសំឡេង។

សម្លេងនៃសម្លេងបែបនេះគឺ "កុំព្យូទ័រ" ប៉ុន្តែវាមានសម្លេងធម្មជាតិនិងរលូន។ ទន្ទឹមនឹងនេះភាពរលូននៃការនិយាយមិនអាស្រ័យលើកម្រិតសំឡេងនិងប្រវែងទេ។ អត្ថបទដែលអាចអានបាន។ហើយ​សំឡេង​គឺ​ងាយ​ស្រួល​ក្នុង​ការ​សម្រួល។ វាគ្រប់គ្រាន់ហើយក្នុងការបញ្ជាក់គន្លឹះមួយនៅក្នុងប៉ារ៉ាម៉ែត្រសំណើ ហើយម៉ូឌុលសំយោគនឹងចេញការបោះឆ្នោតជាមួយនឹងពាក្យដែលត្រូវគ្នា។ ពណ៌អារម្មណ៍. ជាការពិតណាស់ គ្មានប្រព័ន្ធជ្រើសរើសឯកតាណាអាចធ្វើដូចនេះបានទេ។

ដើម្បីឱ្យគំរូសំឡេងអាចបង្កើតក្បួនដោះស្រាយដែលត្រូវគ្នានឹងអារម្មណ៍ផ្សេងៗ វាបានយក វិធីត្រឹមត្រូវ។បណ្តុះបណ្តាលនាង។ ដូច្នេះហើយ ក្នុងអំឡុងពេលថត សហសេវិករបស់យើង Evgenia ដែលសំឡេងអាចស្តាប់បាននៅក្នុង SpeechKit បាននិយាយជាជួររបស់នាងជាសំឡេងអព្យាក្រឹត រីករាយ ហើយផ្ទុយទៅវិញ មានការរំខាន។ នៅក្នុងវគ្គបណ្តុះបណ្តាល ប្រព័ន្ធកំណត់អត្តសញ្ញាណ និងពណ៌នាអំពីប៉ារ៉ាម៉ែត្រ និងលក្ខណៈនៃសំឡេងដែលត្រូវគ្នានឹងរដ្ឋនីមួយៗ។

មិនមែនការកែប្រែសំឡេងទាំងអស់ត្រូវបានបង្កើតឡើងនៅលើការរៀននោះទេ។ ឧទាហរណ៍ SpeechKit ក៏អនុញ្ញាតឱ្យអ្នកពណ៌សម្លេងសំយោគជាមួយនឹងប៉ារ៉ាម៉ែត្រ "ស្រវឹង" និង "ឈឺ" ។ អ្នកអភិវឌ្ឍន៍របស់យើងមានអារម្មណ៍សោកស្ដាយចំពោះ Zhenya ហើយនាងមិនចាំបាច់ស្រវឹងមុនពេលថត ឬរត់ក្នុងអាកាសធាតុត្រជាក់ដើម្បីផ្តាសាយល្អ។

សម្រាប់សំឡេងស្រវឹង ការនិយាយត្រូវបានបន្ថយក្នុងវិធីពិសេសមួយ - សូរសព្ទនីមួយៗស្តាប់ទៅយឺតជាងពីរដង ដែលផ្តល់នូវឥទ្ធិពលលក្ខណៈ។ ហើយសម្រាប់អ្នកជំងឺ កម្រិតនៃភាពឯកកោកើនឡើង - តាមពិតទៅអ្វីដែលកើតឡើងចំពោះខ្សែសំលេងរបស់មនុស្សដែលមានជំងឺរលាកបំពង់កត្រូវបានយកគំរូតាម។ ភាពឯកោនៃសូរសព្ទផ្សេងគ្នាគឺអាស្រ័យលើថាតើខ្យល់ឆ្លងកាត់បំពង់សំលេងរបស់មនុស្សដោយសេរី ឬថាតើសំឡេងរំញ័រនៅក្នុងវិធីរបស់វា។ ខ្សែសំលេង. នៅក្នុងរបៀប "ជំងឺ" phoneme នីមួយៗទំនងជាមិនសូវត្រូវបានបញ្ចេញទេ ដែលធ្វើឱ្យសម្លេងស្អក ដាំ។

វិធីសាស្រ្តស្ថិតិក៏អនុញ្ញាតឱ្យមានការពង្រីកប្រព័ន្ធយ៉ាងឆាប់រហ័សផងដែរ។ នៅក្នុងគំរូជ្រើសរើសឯកតា ដើម្បីបន្ថែមសំឡេងថ្មី អ្នកត្រូវបង្កើតមូលដ្ឋានសុន្ទរកថាដាច់ដោយឡែក។ អ្នកប្រកាសត្រូវតែកត់ត្រាសុន្ទរកថាជាច្រើនម៉ោង ខណៈពេលដែលរក្សាសំឡេងដដែលដោយគ្មានកំហុស។ នៅក្នុង SpeechKit ដើម្បីបង្កើតសំឡេងថ្មី វាគ្រប់គ្រាន់ក្នុងការកត់ត្រាយ៉ាងហោចណាស់ពីរម៉ោងនៃការនិយាយ - ប្រហែល 1800 ប្រយោគពិសេសដែលមានតុល្យភាពតាមសូរសព្ទ។

ភាពឯកោនៃវត្ថុន័យវិទ្យា

វាមានសារៈសំខាន់មិនត្រឹមតែក្នុងការបកប្រែពាក្យដែលមនុស្សម្នាក់និយាយទៅជាអក្សរប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងបំពេញវាដោយអត្ថន័យទៀតផង។ បច្ចេកវិទ្យាទីបួន ទម្រង់មានកំណត់មាននៅក្នុង SpeechKit Cloud មិនប៉ះពាល់ដល់ការងារដោយផ្ទាល់ជាមួយសំឡេងទេ - វាចាប់ផ្តើមដំណើរការបន្ទាប់ពីពាក្យដែលបាននិយាយត្រូវបានទទួលស្គាល់។ ប៉ុន្តែបើគ្មានវាទេ បច្ចេកវិជ្ជាការនិយាយមិនអាចធ្វើបានទេ - នេះគឺជាជម្រើសនៃវត្ថុន័យធៀបនៅក្នុងការនិយាយធម្មជាតិ ដែលលទ្ធផលផ្តល់ឱ្យមិនត្រឹមតែទទួលស្គាល់ប៉ុណ្ណោះទេ ប៉ុន្តែត្រូវបានសម្គាល់អត្ថបទរួចហើយ។

ឥឡូវនេះ SpeechKit អនុវត្តការជ្រើសរើសកាលបរិច្ឆេទ និងពេលវេលា ឈ្មោះពេញ អាសយដ្ឋាន។ ប្រព័ន្ធកូនកាត់រួមបញ្ចូលគ្នានូវវេយ្យាករណ៍ដោយគ្មានបរិបទ វចនានុក្រម ពាក្យគន្លឹះនិងទិន្នន័យស្ថិតិនៃការស្វែងរក និងសេវាកម្ម Yandex ផ្សេងៗ ក៏ដូចជាក្បួនដោះស្រាយ ការរៀនម៉ាស៊ីន. ឧទាហរណ៍ នៅក្នុងឃ្លា "តោះទៅផ្លូវ Leo Tolstoy" ពាក្យ "ផ្លូវ" ជួយប្រព័ន្ធកំណត់បរិបទ បន្ទាប់ពីនោះវត្ថុដែលត្រូវគ្នាមានទីតាំងនៅក្នុងមូលដ្ឋានទិន្នន័យ Yandex.Maps ។

នៅក្នុង Dictation យើងបានបង្កើតឡើងនៅលើបច្ចេកវិទ្យានេះនូវមុខងារកែសម្រួលអត្ថបទដោយសំឡេង។ វិធីសាស្រ្តក្នុងការទាញយកអង្គភាពគឺជាមូលដ្ឋានថ្មី ហើយការសង្កត់ធ្ងន់គឺនៅលើភាពសាមញ្ញនៃការកំណត់រចនាសម្ព័ន្ធ - អ្នកមិនចាំបាច់ដឹងពីការសរសេរកម្មវិធីដើម្បីរៀបចំប្រព័ន្ធនោះទេ។

ការបញ្ចូលប្រព័ន្ធគឺជាបញ្ជី ប្រភេទផ្សេងគ្នាវត្ថុ និងឧទាហរណ៍នៃឃ្លាពីការនិយាយផ្ទាល់ ដែលពិពណ៌នាអំពីពួកគេ។ លើសពីនេះ គំរូត្រូវបានបង្កើតឡើងពីឧទាហរណ៍ទាំងនេះ ដោយប្រើវិធីសាស្ត្រជីកយករ៉ែលំនាំ។ ពួកគេយកទៅក្នុងគណនី ទម្រង់ដំបូងឫស, បំរែបំរួល morphological នៃពាក្យ។ ជំហាន​បន្ទាប់ឧទាហរណ៍នៃការប្រើប្រាស់វត្ថុដែលបានជ្រើសរើសនៅក្នុង បន្សំផ្សេងគ្នាដើម្បីជួយប្រព័ន្ធយល់ពីបរិបទ។ ដោយផ្អែកលើឧទាហរណ៍ទាំងនេះ គំរូ Markov ដែលលាក់ត្រូវបានបង្កើតឡើង ដែលវត្ថុដែលបានជ្រើសរើសនៅក្នុងការចម្លងរបស់អ្នកប្រើក្លាយជាស្ថានភាពដែលអាចសង្កេតបាន ហើយវត្ថុដែលត្រូវគ្នានឹងពួកវាពីវាលប្រធានបទជាមួយនឹងតម្លៃដែលគេស្គាល់រួចហើយក្លាយជាស្ថានភាពលាក់។

ឧទាហរណ៍ មានឃ្លាពីរ៖ "បញ្ចូល 'សួស្តីមិត្ត' នៅដើមដំបូង" និង "បិទភ្ជាប់ពីក្តារតម្បៀតខ្ទាស់"។ ប្រព័ន្ធកំណត់ថាក្នុងករណីដំបូងបន្ទាប់ពី "បិទភ្ជាប់" (សកម្មភាពកែសម្រួល) មានអត្ថបទបំពានហើយទីពីរ - វត្ថុដែលស្គាល់វា ("ក្តារតម្បៀតខ្ទាស់") ហើយមានប្រតិកម្មខុសគ្នាចំពោះពាក្យបញ្ជាទាំងនេះ។ អេ ប្រព័ន្ធប្រពៃណីនេះនឹងតម្រូវឱ្យសរសេរច្បាប់ ឬវេយ្យាករណ៍ដោយដៃ និងក្នុង បច្ចេកវិទ្យា​ថ្មីការវិភាគបរិបទ Yandex កើតឡើងដោយស្វ័យប្រវត្តិ។

សញ្ញាវណ្ណយុត្តិ

នៅពេលសរសេរអ្វីមួយ អ្នករំពឹងថានឹងឃើញសញ្ញាវណ្ណយុត្តិនៅក្នុងអត្ថបទលទ្ធផល។ ហើយពួកវាគួរតែលេចឡើងដោយស្វ័យប្រវត្តិ ដូច្នេះអ្នកមិនចាំបាច់និយាយទៅកាន់ចំណុចប្រទាក់រចនាប័ទ្មតេឡេក្រាមទេ៖ “មិត្តសម្លាញ់ - សញ្ញាក្បៀស - តើអ្នកសុខសប្បាយជាទេ - សញ្ញា​សួរ"។ ដូច្នេះ SpeechKit ត្រូវបានបំពេញបន្ថែមដោយប្រព័ន្ធវណ្ណយុត្តិដោយស្វ័យប្រវត្តិ។

តួនាទីនៃសញ្ញាវណ្ណយុត្តិក្នុងការនិយាយគឺត្រូវបានលេងដោយការផ្អាកដោយសំឡេង។ ដូច្នេះដំបូង យើងបានព្យាយាមបង្កើតគំរូសូរស័ព្ទ និងភាសាពេញលេញសម្រាប់ការទទួលស្គាល់របស់ពួកគេ។ សញ្ញាវណ្ណយុត្តិនីមួយៗត្រូវបានផ្តល់ជាសូរសព្ទ ហើយតាមទស្សនៈនៃប្រព័ន្ធ "ពាក្យ" ថ្មីបានលេចឡើងនៅក្នុងសុន្ទរកថាដែលបានទទួលស្គាល់ រួមមានសូរសព្ទ "វណ្ណយុត្តិ" ទាំងស្រុង - ដែលជាកន្លែងដែលមានការផ្អាក ឬសំឡេងត្រូវបានផ្លាស់ប្តូរតាមរបៀបជាក់លាក់មួយ។

ការលំបាកយ៉ាងខ្លាំងបានកើតឡើងជាមួយនឹងទិន្នន័យសម្រាប់ការបណ្តុះបណ្តាល - នៅក្នុងសាជីវកម្មភាគច្រើនមានអត្ថបទធម្មតារួចហើយ ដែលសញ្ញាវណ្ណយុត្តិត្រូវបានលុបចោល។ ដូចគ្នានេះផងដែរ ស្ទើរតែគ្មានវណ្ណយុត្តិនៅក្នុងអត្ថបទនៃសំណួរស្វែងរក។ យើងបានងាកទៅ Ekho Moskvy ដែលចម្លងការផ្សាយទាំងអស់ដោយដៃ ហើយពួកគេបានអនុញ្ញាតឱ្យយើងប្រើប័ណ្ណសាររបស់ពួកគេ។ វាច្បាស់ភ្លាមៗថាការចម្លងទាំងនេះមិនសមស្របនឹងគោលបំណងរបស់យើងទេ ពួកវាត្រូវបានធ្វើឡើងនៅជិតនឹងអត្ថបទ ប៉ុន្តែមិនមែនជាពាក្យសំដីទេ ដូច្នេះហើយវាមិនស័ក្តិសមសម្រាប់ការរៀនតាមម៉ាស៊ីនទេ។ ការប៉ុនប៉ងបន្ទាប់ត្រូវបានធ្វើឡើងជាមួយនឹងសៀវភៅជាសំឡេង ប៉ុន្តែក្នុងករណីរបស់ពួកគេ ផ្ទុយទៅវិញ គុណភាពគឺខ្ពស់ពេក។ សំឡេង​ដែល​បាន​ដាក់​យ៉ាង​ល្អ ការ​សូត្រ​អត្ថបទ​យ៉ាង​ច្បាស់​គឺ​នៅ​ឆ្ងាយ​ពេក ជីវិត​ពិតហើយលទ្ធផលនៃការបណ្តុះបណ្តាលលើទិន្នន័យបែបនេះមិនអាចត្រូវបានអនុវត្តនៅក្នុងការសរសេរដោយឯកឯងនោះទេ។

បញ្ហាទីពីរគឺថាវិធីសាស្រ្តដែលបានជ្រើសរើសមានឥទ្ធិពលអវិជ្ជមានលើ គុណភាពទូទៅការទទួលស្គាល់។ សម្រាប់ពាក្យនីមួយៗ គំរូភាសាពិចារណាពាក្យដែលនៅជិតខាងជាច្រើនដើម្បីកំណត់បរិបទឱ្យបានត្រឹមត្រូវ ហើយពាក្យ "វណ្ណយុត្តិ" បន្ថែមបានបង្រួមវាដោយជៀសមិនរួច។ ការពិសោធន៍ជាច្រើនខែមិនបាននាំទៅរកអ្វីនោះទេ។

ខ្ញុំត្រូវចាប់ផ្តើមជាមួយ បន្ទះថ្មស្អាត- យើងបានសម្រេចចិត្តដាក់សញ្ញាវណ្ណយុត្តិរួចហើយនៅដំណាក់កាលក្រោយដំណើរការ។ យើងបានចាប់ផ្តើមជាមួយនឹងវិធីសាស្រ្តដ៏សាមញ្ញបំផុតមួយ ដែលខុសពីធម្មតា បានបង្ហាញលទ្ធផលដែលអាចទទួលយកបាននៅទីបញ្ចប់។ ការផ្អាករវាងពាក្យទទួលបានសញ្ញាមួយ៖ ចន្លោះ, សញ្ញា, សញ្ញាក្បៀស, សញ្ញាសួរ, ចំណុចឧទាន, ពោះវៀនធំ។ ដើម្បីទស្សន៍ទាយស្លាកណាមួយដែលត្រូវនឹងការផ្អាកជាក់លាក់មួយ វិធីសាស្ត្រវាលចៃដន្យតាមលក្ខខណ្ឌ (CRF) ត្រូវបានប្រើ។ ដើម្បីកំណត់បរិបទ ពាក្យបីមុន និងពីរបន្តបន្ទាប់ត្រូវយកមកពិចារណា ហើយច្បាប់សាមញ្ញទាំងនេះអនុញ្ញាតឱ្យអ្នកដាក់សញ្ញាដោយភាពត្រឹមត្រូវខ្ពស់។ ប៉ុន្តែយើងបន្តធ្វើការពិសោធន៍ជាមួយនឹងគំរូពេញលេញដែលនឹងអាចបកស្រាយបានត្រឹមត្រូវនូវការបញ្ចេញសំឡេងរបស់មនុស្សនៅក្នុងលក្ខខណ្ឌនៃសញ្ញាវណ្ណយុត្តិ សូម្បីតែនៅដំណាក់កាលនៃការទទួលស្គាល់សំឡេងក៏ដោយ។

គំរោង​អនាគត

សព្វថ្ងៃនេះ SpeechKit ត្រូវបានប្រើយ៉ាងសកម្មដើម្បីដោះស្រាយបញ្ហា "ប្រយុទ្ធ" នៅក្នុងសេវាកម្មដ៏ធំសម្រាប់អ្នកប្រើប្រាស់ចុងក្រោយ។ ចំណុចសំខាន់បន្ទាប់គឺត្រូវរៀនទទួលស្គាល់សុន្ទរកថាដោយឯកឯងក្នុងការផ្សាយផ្ទាល់ ដើម្បីឱ្យអ្នកអាចចម្លងបទសម្ភាសន៍ក្នុងពេលជាក់ស្តែង ឬកត់ត្រាដោយស្វ័យប្រវត្តិលើការបង្រៀន ដោយទទួលបានអត្ថបទដែលបានសម្គាល់រួចហើយជាមួយនឹងខ្លឹមសារសង្ខេប និងការពិតសំខាន់ៗ។ នេះ​ជា​កិច្ចការ​ដ៏​ធំ និង​ពឹងផ្អែក​ខ្លាំង​លើ​វិទ្យាសាស្ត្រ​ដែល​គ្មាន​នរណា​ម្នាក់​ក្នុង​ពិភពលោក​អាច​ដោះស្រាយ​បាន​នៅឡើយ​ទេ ហើយ​យើង​មិន​ចូលចិត្ត​អ្នក​ដទៃ​ទេ!

សម្រាប់ការអភិវឌ្ឍន៍ SpeechKit គឺមានសារៈសំខាន់ណាស់។ មតិកែលម្អ. ដាក់

គឺជាសេវាកម្មទទួលស្គាល់ការនិយាយ និងសំយោគនៃវេទិកា Yandex.Cloud ដែលផ្តល់ឱ្យអ្នកអភិវឌ្ឍន៍នូវការចូលប្រើបច្ចេកវិទ្យាការនិយាយ Yandex ។ នៅក្នុងអត្ថបទនេះយើងនឹងនិយាយអំពីការសំយោគការនិយាយ។

បច្ចេកវិទ្យាសំយោគការនិយាយអនុញ្ញាតឱ្យអ្នកបកប្រែអត្ថបទទៅជាការនិយាយ (ឯកសារសំឡេង)។ ភារកិច្ចគឺពាក់ព័ន្ធសម្រាប់ការបញ្ចេញព័ត៌មានដែលធ្វើបច្ចុប្បន្នភាពថាមវន្ត ឬផ្លាស់ប្តូរទិន្នន័យយ៉ាងឆាប់រហ័ស ដូចជាសមតុល្យនៃទំនិញនៅក្នុងឃ្លាំង ឈុតរោងកុនជាដើម។ បច្ចេកវិទ្យាសំយោគការនិយាយរបស់ Yandex គឺផ្អែកលើ Hidden Markov Models (HMMs) ។ តាមរយៈការប្រើប្រាស់វិធីសាស្រ្តស្ថិតិក្នុងការធ្វើគំរូសូរស័ព្ទ វាគឺអាចធ្វើទៅបានដើម្បីសម្រេចបាននូវសំឡេងរលោងធម្មជាតិ។ បច្ចេកវិទ្យាអនុញ្ញាតឱ្យអ្នកបង្កើតសំឡេងថ្មីយ៉ាងឆាប់រហ័ស និងសំយោគអារម្មណ៍ផ្សេងៗ។

ការសំយោគការនិយាយ Yandex អនុញ្ញាតឱ្យអ្នកជ្រើសរើស:

  • បុរសឬ សំឡេងស្ត្រីសម្រាប់ការបញ្ចេញសំឡេង;
  • អារម្មណ៍: ចិត្តល្អ, ខឹង, សំឡេងអព្យាក្រឹត។

ឯកសារសម្រាប់ការទទួលស្គាល់ការនិយាយ និងសំយោគរបស់ Yandex SpeechKit មាននៅ https://cloud.yandex.ru/docs/speechkit/

ការប្រើប្រាស់សមាសភាគ

ដោយចាប់ផ្តើមជាមួយ Oktell 2.12 សមាសធាតុសំយោគការនិយាយបានបង្ហាញខ្លួននៅក្នុងសេវាកម្ម និងស្គ្រីប IVR ។ សមាសភាគបញ្ចេញសំឡេងឃ្លាដែលបានបញ្ជាក់ (សំយោគការនិយាយ) ដោយប្រើសេវាកម្ម Yandex SpeechKit ។ អនុញ្ញាត​ឱ្យ​អ្នក​ចាក់​ឯកសារ​ជា​បន្ទាត់​ភ្លាមៗ ឬ​បង្កើត​ឯកសារ​សម្រាប់​ប្រើ​ពេល​ក្រោយ។ អ្នកអាចបើកឃ្លាំងសម្ងាត់នៅក្នុងសមាសភាគ ដោយហេតុនេះរក្សាទុកឯកសារដែលបានបង្កើតទាំងអស់ទៅថត \Oktell\Server\LocalStorage\SynthesisCache ។ ដោយសារសំណើនីមួយៗចំពោះសេវាកម្ម Yandex ត្រូវបានបង់ ឃ្លាំងសម្ងាត់ដែលបានរួមបញ្ចូលអនុញ្ញាតឱ្យអ្នកសន្សំប្រាក់របស់អ្នក។

ឯកសារបច្ចេកទេសសម្រាប់ធាតុផ្សំ៖

ដើម្បីប្រើប្រព័ន្ធសំយោគការនិយាយ Yandex SpeechKit សូមធ្វើដូចខាងក្រោម៖

  • អនុវត្តតាមជំហាន 1-5 នៃការណែនាំដើម្បីអនុញ្ញាតក្នុង API ដើម្បីទទួលបានលេខសម្គាល់ថត
  • ចូលទៅគណនី Yandex ឬ Yandex.Connect របស់អ្នក។
  • ទទួលបានសញ្ញាសម្ងាត់ OAuth នៅក្នុងសេវាកម្ម Yandex.OAuth ។ ដើម្បីធ្វើដូចនេះធ្វើតាមតំណចុច អនុញ្ញាតហើយចម្លងសញ្ញាសម្ងាត់ OAuth លទ្ធផល។

ជំហានទី 2ទៅ រដ្ឋបាល / ការកំណត់​ទូទៅ / ការទទួលស្គាល់ការនិយាយ Yandex SpeechKit Cloud. បញ្ចូលតម្លៃដែលទទួលបាន និមិត្តសញ្ញា OAuthនិង លេខសម្គាល់ថតទៅវាលសមស្រប

ជំហានទី 3. ពិចារណាឧទាហរណ៍នៃការប្រើការសំយោគការនិយាយនៅក្នុងសេណារីយ៉ូ IVR ។

សមាស​ភាគ " ការសំយោគការនិយាយ"។ និយាយការស្វាគមន៍ទៅកាន់អ្នកហៅចូល ហើយរក្សាទុកការជ្រើសរើសរបស់អ្នកហៅទៅអថេរមួយ។

  • របៀប - លេង។ នៅក្នុងរបៀបនេះ សមាសភាគនឹងចាក់ឯកសារដែលបានបង្កើតភ្លាមៗទៅក្នុងបន្ទាត់បច្ចុប្បន្ន។
  • អត្ថបទ - ខ្សែអក្សរ " សួស្តី! សូមស្វាគមន៍មកកាន់ក្រុមហ៊ុនប្រព័ន្ធទូរស័ព្ទ! ដើម្បីភ្ជាប់ទំនាក់ទំនងជាមួយអ្នកគ្រប់គ្រង សូមចុច 1. ដើម្បីភ្ជាប់ជាមួយនិយោជិត ការ​គាំទ្រ​ផ្នែក​បច្ចេកទេសចុច 2 ។"។ អត្ថបទដែលបានបញ្ចូលនឹងត្រូវបានផ្ទេរទៅម៉ាស៊ីនមេ Yandex សម្រាប់ការបញ្ចេញសំឡេង។
  • សំឡេង - Zahar ។ ការកំណត់គឺទទួលខុសត្រូវចំពោះសំឡេងដែលបានសំយោគ៖ ហ្សាហារ - សំឡេងបុរស ជេន - ស្រី។ វាអាចធ្វើទៅបានដើម្បីបញ្ជាក់តម្លៃផ្សេងគ្នាប្រសិនបើវាត្រូវបានគាំទ្រដោយសេវាកម្ម Yandex SpeechKit ។
  • Emote - លំនាំដើម។ ការកំណត់គឺទទួលខុសត្រូវចំពោះពណ៌នៃសម្លេងដែលបានប្រើ។ ជម្រើសដែលអាចធ្វើបាន: ល្អ, អព្យាក្រឹត, អាក្រក់, ចម្រុះ។
  • ឃ្លាំងសម្ងាត់ - ប្រើ។ ប្រសិនបើអ្នកប្រើឃ្លាំងសម្ងាត់នោះ ប្រព័ន្ធនឹងព្យាយាមស្វែងរកឯកសារដែលមានអត្ថបទបញ្ចេញសំឡេងក្នុងចំណោមឯកសារដែលបានបង្កើតមុននេះ (មានទីតាំងក្នុងថត \\ Oktell\Server\LocalStorage\SynthesisCache)។ វាត្រូវបានណែនាំឱ្យបើកវាជានិច្ច ដើម្បីសន្សំប្រាក់។
  • ពេលវេលាឆ្លើយតប, s - 5. ពេលវេលាអតិបរមាដើម្បីរង់ចាំការឆ្លើយតបពីម៉ាស៊ីនមេ Yandex ។
  • បំបែកតួអក្សរ - ខ្សែអក្សរ " 1, 2 "។ ប្រសិនបើអតិថិជនចុចតួអក្សរបំបែកដែលបានបញ្ជាក់ សមាសធាតុនឹងរក្សាទុកពួកវាទៅក្នុងសតិបណ្ដោះអាសន្ន ហើយបន្តទៅប្លុកបន្ទាប់។
  • សតិបណ្ដោះអាសន្នសម្រាប់ DTMF - អថេរ បញ្ចូល(ខ្សែអក្សរ) ។ អថេរដែលតួអក្សរបំបែកដែលបានបញ្ចូលត្រូវបានរក្សាទុក។
  • Clear Buffer - បាទ។ បង្ហាញថាសតិបណ្ដោះអាសន្ននឹងត្រូវបានសម្អាតជាមុនសិន។

សមាស​ភាគ " ម៉ឺនុយ"។ បញ្ជូនអតិថិជនទៅកាន់ក្រុមប្រតិបត្តិករដែលបានជ្រើសរើស។

  • អាគុយម៉ង់ - អថេរ បញ្ចូល
  • តម្លៃ -
1 - ទៅសមាសភាគ "ប្តូរ 1" 2 ផ្សេងទៀត - ទៅសមាសភាគ "ប្តូរ 2"

ការដំឡើងផ្លូវបន្ថែមទៀតមិនត្រូវបានពិចារណាទេ។

ដើម្បីប្រើការសំយោគការនិយាយសម្រាប់ការកំណត់ជាមុន អ្នកត្រូវតែបង្កើតឯកសារដោយប្រើសមាសភាគ "ការសំយោគការនិយាយ" ហើយរក្សាទុកផ្លូវទៅកាន់ឯកសារនេះក្នុងអថេរ (ក្នុងលក្ខណៈដែលត្រូវគ្នា)។ បន្ទាប់មក បញ្ជាក់ឯកសារនេះនៅក្នុងសមាសភាគ "កំណត់ការចាក់សារថ្មី" ។

វាបន្ថែមគ្រឿងទេសខ្លះ ហើយប្រសិនបើខ្ញុំចាប់ផ្តើមពិសោធន៍ជាមួយម៉ាស៊ីនផ្សេងទៀត ខ្ញុំទទួលបាន hashtag #ReturnDashka នៅក្នុងមតិយោបល់។ វាត្រជាក់ណាស់ក្នុងការមើលទាំងអស់នេះ ប៉ុន្តែដំណើរការនេះមិននៅស្ងៀមទេ ហើយក្រុមហ៊ុនជាច្រើនបានបង្កើតបច្ចេកវិទ្យាផ្ទាល់ខ្លួនរបស់ពួកគេ។ ជាឧទាហរណ៍ ខ្ញុំចូលចិត្តសំឡេង ដែលពេលខ្លះខ្ញុំក៏សម្រុកចូលទៅក្នុងវីដេអូផងដែរ។

ថ្មីៗនេះខ្ញុំបានឆ្លងកាត់ភាពស្មុគស្មាញនៃបច្ចេកវិទ្យាការនិយាយ Yandex រួមទាំងការទទួលស្គាល់ការនិយាយ និងការសំយោគ ការធ្វើឱ្យសំឡេង និងការជ្រើសរើសវត្ថុន័យក្នុងអត្ថបទនិយាយ។ បច្ចេកវិទ្យានៃការនិយាយបានរៀនស្គាល់ការធ្វើឱ្យសកម្មជាសំឡេង ដោយមានជំនួយរបស់វា អ្នកអាចកត់ត្រាសារ SMS និងទុកកំណត់ត្រាដោយសំឡេងដោយមិនប្រើក្តារចុច ចូលទៅកាន់ផ្នែកខាងក្រោយដោយផ្ទាល់ដែលត្រូវបានប្រើដោយជោគជ័យនៅក្នុងកម្មវិធីទូរស័ព្ទ Yandex ។ ឧទាហរណ៍ SpeechKit Mobile SDK អនុញ្ញាតឱ្យអ្នកបង្កប់ការទទួលស្គាល់ការនិយាយ និងការសំយោគ ក៏ដូចជាការធ្វើឱ្យសកម្មសំឡេង Yandex នៅក្នុង កម្មវិធីទូរស័ព្ទសម្រាប់ iOS, Android (បើក ពេលនេះរុស្ស៊ី អង់គ្លេស ទួរគី និង ភាសាអ៊ុយក្រែន) ឬ ទូរស័ព្ទវីនដូ(ភាសារុស្សី)។ ការគ្រប់គ្រងដោយសំឡេងនឹងធ្វើឱ្យកម្មវិធីរបស់អ្នកកាន់តែងាយស្រួលប្រើ ជាពិសេសប្រសិនបើអ្នកប្រើពេញដៃ។ ដោយមិនប៉ះអេក្រង់ គាត់នឹងអាចហៅមុខងារដែលចង់បានដោយប្រើឃ្លាមួយ។

ខ្ញុំតែងតែត្រូវបានទាក់ទាញចំពោះបច្ចេកវិទ្យាសំយោគការនិយាយ ដែលអនុញ្ញាតឱ្យអ្នកបកប្រែអត្ថបទទៅជាការនិយាយ។ ខ្ញុំបានគូសវាសអត្ថបទយ៉ាងរហ័ស បញ្ចេញសំឡេងវា (Milena TTS [រុស្ស៊ី]) ហើយរុញវាទៅក្នុងវីដេអូ លើប្រធានបទណាមួយ។ វានឹងគួរឱ្យចាប់អារម្មណ៍ជាពិសេសសម្រាប់អ្នកប្រើប្រាស់ដែលមានបញ្ហាជាមួយនឹងការនិយាយ ឬអ្នកដែលដោយសារហេតុផលមួយចំនួនមានការខ្មាស់អៀនចំពោះសំឡេងរបស់ពួកគេ។

សំឡេងពី Yandex ហាក់ដូចជាប្លែក ស្រស់ស្អាត និងងាយយល់ ត្រចៀករបស់មនុស្សជាពិសេស សំឡេងបុរស zahar និង ermil ។ សម្លេងស្រីរបស់ Jane, oksana, alyss និង omazh បានធ្វើឱ្យខ្ញុំភ័យខ្លាចយ៉ាងខ្លាំង ហើយតាមគំនិតរបស់ខ្ញុំ មិនឈានដល់កម្ពស់របស់ SuperDazhki ទេ។ ដូច្នេះតើអ្នកឮសំឡេងថ្មីនៅលើកុំព្យូទ័រធម្មតាដោយរបៀបណា? ដើម្បី​ធ្វើ​ដូច្នេះ ខ្ញុំ​ត្រូវ​រូតរះ​អ៊ីនធឺណិត ហើយ​ដំណោះស្រាយ​ត្រូវ​បាន​រក​ឃើញ​ក្នុង​ទម្រង់​ជា​ស្គ្រីប។

1. ដំបូងយើងត្រូវនៅលើទំព័រហើយចុចលើប៊ូតុង "បន្ទប់អ្នកអភិវឌ្ឍន៍" ។


អ្នកចូលភ្លាមៗ តំបន់ផ្ទាល់ខ្លួនហើយចុចប៊ូតុង "ទទួលបានគន្លឹះ" ។ បន្ទាប់មកចុចលើប៊ូតុង "SpeechKit Cloud"។


បំពេញវាលទាំងអស់ដែលមានសញ្ញាផ្កាយពណ៌ក្រហម ហើយចុចប៊ូតុង "ដាក់ស្នើ" ។


សោនឹងត្រូវបានទទួលភ្លាមៗ បន្ទាប់ពីនោះវាត្រូវតែចម្លង។


ឥឡូវនេះ សូមចូលទៅកាន់មួយនេះ ដែលយើងនឹងឃើញប៉ារ៉ាម៉ែត្រសំណួរផ្សេងៗ វាគ្មិន (សំឡេងនៃការនិយាយសំយោគ) ទម្រង់ឆ្លើយតប និងឧទាហរណ៍ URL ។ អក្សរចិននេះហាក់ដូចជាស្មុគស្មាញពេកសម្រាប់អ្នកប្រើប្រាស់ធម្មតា ដូច្នេះសូមសម្រួលសកម្មភាពរបស់យើង (ឬផ្ទុយទៅវិញស្មុគស្មាញ) ដោយរៀបចំស្គ្រីបសាមញ្ញមួយ។

2. ទាញយកកម្មវិធី Notepad ++ ទៅកាន់កុំព្យូទ័ររបស់អ្នក (). យើងដំឡើង។

3. បង្កើតឯកសារ index.html ។ អ្នក​ណា​ដែល​មិន​ចង់​បង្កើត​ដោយ​ដៃ សូម​ទាញ​យក​នេះ។


ប្តូរឈ្មោះឯកសារ៖ index.html ។ ប្រភេទឯកសារ៖ ឯកសារទាំងអស់។ ការអ៊ិនកូដ៖ UTF-8 ។ ចុចប៊ូតុង "រក្សាទុក" ។ វាមានសារៈសំខាន់ណាស់ក្នុងការរក្សាទុកឯកសារ index.html នៅក្នុង root នៃដ្រាយប្រព័ន្ធ ឬនៅក្នុងថតណាមួយនៅលើដ្រាយប្រព័ន្ធ។


ឥឡូវនេះឯកសារដែលបានរក្សាទុកត្រូវកែសម្រួល។ បើកឯកសារជាមួយ Notepad ++ ។


តាមពិត នេះ​ជា​ស្គ្រីប​ដែល​យើង​រង់ចាំ​ជាយូរ​មក​ហើយ ()។ កែសម្រួលឯកសាររបស់អ្នកឱ្យបានត្រឹមត្រូវ៖ បិទភ្ជាប់ កន្លែង​ដែល​ត្រឹមត្រូវសោរបស់អ្នក ផ្លាស់ប្តូរសំឡេងរបស់អ្នក រក្សាទុក និងប្រើប្រាស់។

នៅពេលអនាគតចុចពីរដងលើឯកសារ index.html ហើយនៅក្នុងកម្មវិធីរុករកយើងទទួលបានដូចខាងក្រោម។


វានៅសល់ដើម្បីសរសេរកំណាព្យនៅក្នុងបង្អួចធំមួយហើយ zahar (ឬតួអក្សរដែលបានជ្រើសរើសផ្សេងទៀត) នឹងអានវាឱ្យអ្នក។ ខ្ញុំមិនប្រកែកថាវាអាចទៅរួចទេដែលខ្ញុំដាក់វានៅលើធ្នើនៅទីនេះ ហើយគ្មាននរណាម្នាក់ត្រូវការវានៅថ្ងៃស្អែកទេ ខ្ញុំគ្រាន់តែចាប់អារម្មណ៍លើដំណើរការនៃការសំយោគការនិយាយពី Yandex នៅលើកុំព្យូទ័ររបស់ខ្ញុំ ដែលខ្ញុំបានចែករំលែកជាមួយអ្នក។

ជួយគម្រោងក្នុងការអភិវឌ្ឍន៍របស់វា៖
កាត Sberbank: 676280139020834994
Yandex.Money: 410012054992141
Webmoney៖ កាបូប WMR R429054927097
កាបូប WMZ Z401294377967

បច្ចេកវិទ្យាទទួលស្គាល់ការនិយាយ

Yandex Speechkit Autopoet ។

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

ទំព័រ ឬនៅលើគេហទំព័រធនធានពិសេស

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់ Navigator "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកនៅក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយនឹងបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានដែរ។ បញ្ហាបញ្ច្រាស៖ ប្រែក្លាយអត្ថបទដែលមាននៅលើកុំព្យូទ័រទៅជាសំឡេង។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នករៀនពីរបៀបបញ្ចេញសំឡេង ពាក្យបរទេសនិងឃ្លានៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុម និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើត សំឡេងត្រឹមត្រូវ។ការនិយាយសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុង​ករណី​នៃ​ការ​ទទួល​ស្គាល់​លំនាំ វា​ជា​ការ​ចាំបាច់​ក្នុង​ការ​បង្កើត​ការ​ឆ្លើយឆ្លង​រវាង​សំឡេង​ដែល​មាន​លក្ខណៈ​ជាក់លាក់ និង​សូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើ​គំរូ​សូរស័ព្ទ​ដឹង​ពី​របៀប​បញ្ចេញ​សំឡេង​សូរសព្ទ​ឱ្យ​បាន​ត្រឹមត្រូវ ឬ​បញ្ចេញ​សំឡេង​ត្រឹមត្រូវ។ ប្រយោគសួរចម្លើយ? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ កំណែចល័ត SpeechKit ដែលជាគេហទំព័រឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

",contentType":"text/html","amp":"

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់ Navigator "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយនឹងបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានកិច្ចការច្រាសមកវិញដែរ៖ ដើម្បីបង្វែរអត្ថបទដែលកុំព្យូទ័រមានក្នុងការប្រើប្រាស់ទៅជាសំឡេង។

ប្រសិនបើសំណុំនៃអត្ថបទដែលត្រូវបញ្ចេញគឺមានទំហំតូច ហើយការបញ្ចេញមតិដូចគ្នាកើតឡើងនៅក្នុងពួកគេ ដូចជាឧទាហរណ៍ នៅក្នុងការប្រកាសអំពីការចាកចេញ និងការមកដល់នៃរថភ្លើងនៅស្ថានីយ៍ - វាគ្រប់គ្រាន់ក្នុងការអញ្ជើញអ្នកប្រកាស កត់ត្រាពាក្យចាំបាច់ និង ឃ្លានៅក្នុងស្ទូឌីយ៉ូ ហើយបន្ទាប់មកប្រមូលសារណាមួយ។ ទោះយ៉ាងណាក៏ដោយ ជាមួយនឹងអត្ថបទបំពាន វិធីសាស្រ្តនេះមិនដំណើរការទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ជាឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នកស្វែងយល់ពីរបៀបដែលពាក្យ និងឃ្លាបរទេសត្រូវបានបញ្ចេញនៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ទីមួយ ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា ពោលគឺទៅជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់វាត្រូវបានចងក្រង ការចម្លងតាមសូរស័ព្ទ.

ដើម្បីស្វែងយល់ពីរបៀបអានពាក្យមួយ និងកន្លែងដែលត្រូវដាក់ភាពតានតឹងនៅក្នុងវា មនុស្សយន្តដំបូងបានងាកទៅរកវចនានុក្រមសរសេរដោយដៃបុរាណដែលត្រូវបានបង្កើតឡើងនៅក្នុងប្រព័ន្ធ។ ប្រសិនបើពាក្យដែលចង់បានមិនមាននៅក្នុងវចនានុក្រមទេ កុំព្យូទ័របង្កើតប្រតិចារិកដោយខ្លួនឯង - ផ្អែកលើច្បាប់ដែលបានខ្ចីពីសៀវភៅយោងសិក្សា។ ទីបំផុតប្រសិនបើ ច្បាប់ទម្លាប់មិនគ្រប់គ្រាន់ទេ ហើយរឿងនេះកើតឡើងដោយសារតែភាសារស់នៅណាមួយកំពុងផ្លាស់ប្តូរជានិច្ច វាប្រើច្បាប់ស្ថិតិ។ ប្រសិនបើពាក្យកើតឡើងនៅក្នុងសាកសព អត្ថបទបណ្តុះបណ្តាលប្រព័ន្ធនឹងចងចាំព្យាង្គណាមួយដែលជាធម្មតាត្រូវបានសង្កត់ដោយអ្នកនិយាយ។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែលសូរសព្ទនីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យ - នៅក្នុងឃ្លាមួយ; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសញ្ញារបស់វា។ សំឡេងសំខាន់.

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុមមួយ និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើតសំឡេងត្រឹមត្រូវនៃសុន្ទរកថាដែលបានសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុង​ករណី​នៃ​ការ​ទទួល​ស្គាល់​លំនាំ វា​ជា​ការ​ចាំបាច់​ក្នុង​ការ​បង្កើត​ការ​ឆ្លើយឆ្លង​រវាង​សំឡេង​ដែល​មាន​លក្ខណៈ​ជាក់លាក់ និង​សូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើ​គំរូ​សូរស័ព្ទ​ដឹង​ពី​របៀប​បញ្ចេញ​សំឡេង​សូរសព្ទ​ឱ្យ​បាន​ត្រឹមត្រូវ ឬ​ផ្តល់​សំឡេង​ត្រឹមត្រូវ​ដល់​ប្រយោគ​សួរចម្លើយ​ដោយ​របៀប​ណា? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងអាចស្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គ។ ឧបករណ៍និយាយមនុស្សគ្រប់រូប។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការប្រាប់អ្នកពីអ្វីមួយ វាប្រើម៉ាស៊ីនភ្លើង រលកសំឡេង- សំឡេង។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសំឡេងនូវពណ៌ដែលអាចស្គាល់បាន។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ mobile version of SpeechKit នោះគេហទំព័រដែលឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

""អត្ថបទបន្ទាន់":"

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់ Navigator "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយនឹងបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានកិច្ចការច្រាសមកវិញដែរ៖ ដើម្បីបង្វែរអត្ថបទដែលកុំព្យូទ័រមានក្នុងការប្រើប្រាស់ទៅជាសំឡេង។

ប្រសិនបើសំណុំនៃអត្ថបទដែលត្រូវបញ្ចេញគឺមានទំហំតូច ហើយការបញ្ចេញមតិដូចគ្នាកើតឡើងនៅក្នុងពួកគេ ដូចជាឧទាហរណ៍ នៅក្នុងការប្រកាសអំពីការចាកចេញ និងការមកដល់នៃរថភ្លើងនៅស្ថានីយ៍ - វាគ្រប់គ្រាន់ក្នុងការអញ្ជើញអ្នកប្រកាស កត់ត្រាពាក្យចាំបាច់ និង ឃ្លានៅក្នុងស្ទូឌីយ៉ូ ហើយបន្ទាប់មកប្រមូលសារណាមួយ។ ទោះយ៉ាងណាក៏ដោយ ជាមួយនឹងអត្ថបទបំពាន វិធីសាស្រ្តនេះមិនដំណើរការទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ជាឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នកស្វែងយល់ពីរបៀបដែលពាក្យ និងឃ្លាបរទេសត្រូវបានបញ្ចេញនៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ទីមួយ ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា ពោលគឺទៅជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់ ការចម្លងតាមសូរសព្ទត្រូវបានចងក្រង។

ដើម្បីស្វែងយល់ពីរបៀបអានពាក្យមួយ និងកន្លែងដែលត្រូវដាក់ភាពតានតឹងនៅក្នុងវា មនុស្សយន្តដំបូងបានងាកទៅរកវចនានុក្រមសរសេរដោយដៃបុរាណដែលត្រូវបានបង្កើតឡើងនៅក្នុងប្រព័ន្ធ។ ប្រសិនបើពាក្យដែលចង់បានមិនមាននៅក្នុងវចនានុក្រមទេ កុំព្យូទ័របង្កើតប្រតិចារិកដោយខ្លួនឯង - ផ្អែកលើច្បាប់ដែលបានខ្ចីពីសៀវភៅយោងសិក្សា។ ជាចុងក្រោយ ប្រសិនបើច្បាប់ធម្មតាមិនគ្រប់គ្រាន់ទេ ហើយរឿងនេះកើតឡើង ដោយសារតែភាសារស់នៅណាមួយកំពុងផ្លាស់ប្តូរជានិច្ច វាប្រើច្បាប់ស្ថិតិ។ ប្រសិនបើពាក្យមួយត្រូវបានជួបប្រទះនៅក្នុង corpus នៃអត្ថបទបណ្តុះបណ្តាល ប្រព័ន្ធនឹងចងចាំព្យាង្គណាមួយដែលអ្នកនិយាយជាធម្មតាសង្កត់ធ្ងន់នៅក្នុងវា។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែលសូរសព្ទនីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យ - នៅក្នុងឃ្លាមួយ; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសំឡេងសំខាន់របស់វា។

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុមមួយ និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើតសំឡេងត្រឹមត្រូវនៃសុន្ទរកថាដែលបានសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុង​ករណី​នៃ​ការ​ទទួល​ស្គាល់​លំនាំ វា​ជា​ការ​ចាំបាច់​ក្នុង​ការ​បង្កើត​ការ​ឆ្លើយឆ្លង​រវាង​សំឡេង​ដែល​មាន​លក្ខណៈ​ជាក់លាក់ និង​សូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើ​គំរូ​សូរស័ព្ទ​ដឹង​ពី​របៀប​បញ្ចេញ​សំឡេង​សូរសព្ទ​ឱ្យ​បាន​ត្រឹមត្រូវ ឬ​ផ្តល់​សំឡេង​ត្រឹមត្រូវ​ដល់​ប្រយោគ​សួរចម្លើយ​ដោយ​របៀប​ណា? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងគឺអាចសម្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គនៃឧបករណ៍និយាយនៅក្នុងមនុស្សម្នាក់ៗ។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការនិយាយអ្វីមួយទៅកាន់អ្នក វាប្រើម៉ាស៊ីនបង្កើតរលកសំឡេង - vocoder ។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសំឡេងនូវពណ៌ដែលអាចស្គាល់បាន។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ mobile version of SpeechKit នោះគេហទំព័រដែលឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

"),"proposedBody":("ប្រភព":"

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់ Navigator "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយនឹងបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានកិច្ចការច្រាសមកវិញដែរ៖ ដើម្បីបង្វែរអត្ថបទដែលកុំព្យូទ័រមានក្នុងការប្រើប្រាស់ទៅជាសំឡេង។

ប្រសិនបើសំណុំនៃអត្ថបទដែលត្រូវបញ្ចេញគឺមានទំហំតូច ហើយការបញ្ចេញមតិដូចគ្នាកើតឡើងនៅក្នុងពួកគេ ដូចជាឧទាហរណ៍ នៅក្នុងការប្រកាសអំពីការចាកចេញ និងការមកដល់នៃរថភ្លើងនៅស្ថានីយ៍ - វាគ្រប់គ្រាន់ក្នុងការអញ្ជើញអ្នកប្រកាស កត់ត្រាពាក្យចាំបាច់ និង ឃ្លានៅក្នុងស្ទូឌីយ៉ូ ហើយបន្ទាប់មកប្រមូលសារណាមួយ។ ទោះយ៉ាងណាក៏ដោយ ជាមួយនឹងអត្ថបទបំពាន វិធីសាស្រ្តនេះមិនដំណើរការទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ជាឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នកស្វែងយល់ពីរបៀបដែលពាក្យ និងឃ្លាបរទេសត្រូវបានបញ្ចេញនៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ទីមួយ ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា ពោលគឺទៅជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់ ការចម្លងតាមសូរសព្ទត្រូវបានចងក្រង។

ដើម្បីស្វែងយល់ពីរបៀបអានពាក្យមួយ និងកន្លែងដែលត្រូវដាក់ភាពតានតឹងនៅក្នុងវា មនុស្សយន្តដំបូងបានងាកទៅរកវចនានុក្រមសរសេរដោយដៃបុរាណដែលត្រូវបានបង្កើតឡើងនៅក្នុងប្រព័ន្ធ។ ប្រសិនបើពាក្យដែលចង់បានមិនមាននៅក្នុងវចនានុក្រមទេ កុំព្យូទ័របង្កើតប្រតិចារិកដោយខ្លួនឯង - ផ្អែកលើច្បាប់ដែលបានខ្ចីពីសៀវភៅយោងសិក្សា។ ជាចុងក្រោយ ប្រសិនបើច្បាប់ធម្មតាមិនគ្រប់គ្រាន់ទេ ហើយរឿងនេះកើតឡើង ដោយសារតែភាសារស់នៅណាមួយកំពុងផ្លាស់ប្តូរជានិច្ច វាប្រើច្បាប់ស្ថិតិ។ ប្រសិនបើពាក្យមួយត្រូវបានជួបប្រទះនៅក្នុង corpus នៃអត្ថបទបណ្តុះបណ្តាល ប្រព័ន្ធនឹងចងចាំព្យាង្គណាមួយដែលអ្នកនិយាយជាធម្មតាសង្កត់ធ្ងន់នៅក្នុងវា។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែលសូរសព្ទនីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យគឺនៅក្នុងឃ្លា; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសំឡេងសំខាន់របស់វា។

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុមមួយ និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើតសំឡេងត្រឹមត្រូវនៃសុន្ទរកថាដែលបានសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុង​ករណី​នៃ​ការ​ទទួល​ស្គាល់​លំនាំ វា​ជា​ការ​ចាំបាច់​ក្នុង​ការ​បង្កើត​ការ​ឆ្លើយឆ្លង​រវាង​សំឡេង​ដែល​មាន​លក្ខណៈ​ជាក់លាក់ និង​សូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើ​គំរូ​សូរស័ព្ទ​ដឹង​ពី​របៀប​បញ្ចេញ​សំឡេង​សូរសព្ទ​ឱ្យ​បាន​ត្រឹមត្រូវ ឬ​ផ្តល់​សំឡេង​ត្រឹមត្រូវ​ដល់​ប្រយោគ​សួរចម្លើយ​ដោយ​របៀប​ណា? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងគឺអាចសម្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គនៃឧបករណ៍និយាយនៅក្នុងមនុស្សម្នាក់ៗ។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការនិយាយអ្វីមួយទៅកាន់អ្នក វាប្រើម៉ាស៊ីនបង្កើតរលកសំឡេងហៅថា vocoder ។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសំឡេងនូវពណ៌ដែលអាចស្គាល់បាន។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ mobile version of SpeechKit នោះគេហទំព័រដែលឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

អ្នកជាច្រើនប្រហែលជាបានគ្រប់គ្រងកុំព្យូទ័រ ឬស្មាតហ្វូនដោយប្រើសំឡេងរបស់អ្នក។ នៅពេលអ្នកនិយាយទៅកាន់ Navigator "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកក្នុងកម្មវិធី Yandex បច្ចេកវិទ្យាសម្គាល់ការនិយាយនឹងបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ ប៉ុន្តែក៏មានកិច្ចការច្រាសមកវិញដែរ៖ ដើម្បីបង្វែរអត្ថបទដែលកុំព្យូទ័រមានក្នុងការប្រើប្រាស់ទៅជាសំឡេង។

ប្រសិនបើសំណុំនៃអត្ថបទដែលត្រូវបញ្ចេញគឺមានទំហំតូច ហើយការបញ្ចេញមតិដូចគ្នាកើតឡើងនៅក្នុងពួកគេ ដូចជាឧទាហរណ៍ នៅក្នុងការប្រកាសអំពីការចាកចេញ និងការមកដល់នៃរថភ្លើងនៅស្ថានីយ៍ - វាគ្រប់គ្រាន់ក្នុងការអញ្ជើញអ្នកប្រកាស កត់ត្រាពាក្យចាំបាច់ និង ឃ្លានៅក្នុងស្ទូឌីយ៉ូ ហើយបន្ទាប់មកប្រមូលសារណាមួយ។ ទោះយ៉ាងណាក៏ដោយ ជាមួយនឹងអត្ថបទបំពាន វិធីសាស្រ្តនេះមិនដំណើរការទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

Yandex ប្រើបច្ចេកវិទ្យាសំយោគការនិយាយពីស្មុគស្មាញ Yandex Speechkit ទៅអត្ថបទជាសំឡេង។ ជាឧទាហរណ៍ វាអនុញ្ញាតឱ្យអ្នកស្វែងយល់ពីរបៀបដែលពាក្យ និងឃ្លាបរទេសត្រូវបានបញ្ចេញនៅក្នុងអ្នកបកប្រែ។ សូមអរគុណដល់ការសំយោគការនិយាយ Autopoet ក៏ទទួលបានសំលេងផ្ទាល់ខ្លួនរបស់គាត់ផងដែរ។

ការរៀបចំអត្ថបទ

ភារកិច្ចនៃការសំយោគការនិយាយត្រូវបានដោះស្រាយក្នុងដំណាក់កាលជាច្រើន។ ទីមួយ ក្បួនដោះស្រាយពិសេសរៀបចំអត្ថបទដើម្បីឱ្យវាងាយស្រួលសម្រាប់មនុស្សយន្តក្នុងការអានវា៖ វាសរសេរលេខទាំងអស់ជាពាក្យ ពង្រីកអក្សរកាត់។ បន្ទាប់មកអត្ថបទត្រូវបានបែងចែកទៅជាឃ្លា ពោលគឺទៅជាឃ្លាដែលមានសំឡេងបន្ត - សម្រាប់នេះ កុំព្យូទ័រផ្តោតលើសញ្ញាវណ្ណយុត្តិ និងសំណង់ដែលមានស្ថេរភាព។ សម្រាប់ពាក្យទាំងអស់ ការចម្លងតាមសូរសព្ទត្រូវបានចងក្រង។

ដើម្បីស្វែងយល់ពីរបៀបអានពាក្យមួយ និងកន្លែងដែលត្រូវដាក់ភាពតានតឹងនៅក្នុងវា មនុស្សយន្តដំបូងបានងាកទៅរកវចនានុក្រមសរសេរដោយដៃបុរាណដែលត្រូវបានបង្កើតឡើងនៅក្នុងប្រព័ន្ធ។ ប្រសិនបើពាក្យដែលចង់បានមិនមាននៅក្នុងវចនានុក្រមទេ កុំព្យូទ័របង្កើតប្រតិចារិកដោយខ្លួនឯង - ផ្អែកលើច្បាប់ដែលបានខ្ចីពីសៀវភៅយោងសិក្សា។ ជាចុងក្រោយ ប្រសិនបើច្បាប់ធម្មតាមិនគ្រប់គ្រាន់ទេ ហើយរឿងនេះកើតឡើង ដោយសារតែភាសារស់នៅណាមួយកំពុងផ្លាស់ប្តូរជានិច្ច វាប្រើច្បាប់ស្ថិតិ។ ប្រសិនបើពាក្យមួយត្រូវបានជួបប្រទះនៅក្នុង corpus នៃអត្ថបទបណ្តុះបណ្តាល ប្រព័ន្ធនឹងចងចាំព្យាង្គណាមួយដែលអ្នកនិយាយជាធម្មតាសង្កត់ធ្ងន់នៅក្នុងវា។

ការបញ្ចេញសំឡេង និងការបញ្ចេញសំឡេង

នៅពេលប្រតិចារិករួចរាល់ កុំព្យូទ័រនឹងគណនារយៈពេលដែលសូរសព្ទនីមួយៗនឹងបន្លឺឡើង នោះគឺថាតើវាមានស៊ុមប៉ុន្មាន - នេះជារបៀបដែលបំណែក 25 មីលីវិនាទីត្រូវបានហៅ។ បន្ទាប់មកស៊ុមនីមួយៗត្រូវបានពិពណ៌នាដោយយោងទៅតាមសំណុំនៃប៉ារ៉ាម៉ែត្រ: អ្វីដែល phoneme វាគឺជាផ្នែកមួយនិងកន្លែងដែលវាកាន់កាប់នៅក្នុងវា; តើសូរសព្ទនេះជាកម្មសិទ្ធិរបស់ព្យាង្គអ្វី; ប្រសិនបើវាជាស្រៈ តើវាត្រូវបានសង្កត់ធ្ងន់; តើកន្លែងណាដែលវាកាន់កាប់នៅក្នុងព្យាង្គ; ព្យាង្គ - នៅក្នុងពាក្យមួយ; ពាក្យ - នៅក្នុងឃ្លាមួយ; តើសញ្ញាវណ្ណយុត្តិមានអ្វីខ្លះមុន និងក្រោយឃ្លានេះ; អ្វីដែលឃ្លាកាន់កាប់នៅក្នុងប្រយោគ; ទីបំផុត តើសញ្ញាអ្វីនៅចុងបញ្ចប់នៃប្រយោគ និងអ្វីដែលជាសំឡេងសំខាន់របស់វា។

ម្យ៉ាងវិញទៀត ទិន្នន័យជាច្រើនត្រូវបានប្រើដើម្បីសំយោគរាល់ 25 មីលីវិនាទីនៃការនិយាយ។ ព័ត៌មានអំពីបរិយាកាសភ្លាមៗធានាឱ្យមានការផ្លាស់ប្តូរដោយរលូនពីស៊ុមមួយទៅស៊ុមមួយ និងពីព្យាង្គទៅព្យាង្គ ហើយទិន្នន័យអំពីឃ្លា និងប្រយោគទាំងមូលគឺចាំបាច់ដើម្បីបង្កើតសំឡេងត្រឹមត្រូវនៃសុន្ទរកថាដែលបានសំយោគ។

ដើម្បីអានអត្ថបទដែលបានរៀបចំ គំរូសូរស័ព្ទត្រូវបានប្រើ។ វាខុសពីគំរូសូរស័ព្ទដែលប្រើក្នុងការសម្គាល់ការនិយាយ។ ក្នុង​ករណី​នៃ​ការ​ទទួល​ស្គាល់​លំនាំ វា​ជា​ការ​ចាំបាច់​ក្នុង​ការ​បង្កើត​ការ​ឆ្លើយឆ្លង​រវាង​សំឡេង​ដែល​មាន​លក្ខណៈ​ជាក់លាក់ និង​សូរសព្ទ។ នៅក្នុងករណីនៃការសំយោគ, គំរូសូរស័ព្ទ, ផ្ទុយទៅវិញ, គួរតែចងក្រងការពិពណ៌នានៃសំឡេងយោងទៅតាមការពិពណ៌នានៃស៊ុម។

តើ​គំរូ​សូរស័ព្ទ​ដឹង​ពី​របៀប​បញ្ចេញ​សំឡេង​សូរសព្ទ​ឱ្យ​បាន​ត្រឹមត្រូវ ឬ​ផ្តល់​សំឡេង​ត្រឹមត្រូវ​ដល់​ប្រយោគ​សួរចម្លើយ​ដោយ​របៀប​ណា? នាងរៀនពីអត្ថបទ និងឯកសារសំឡេង។ ឧទាហរណ៍ អ្នកអាចបង្ហោះសៀវភៅជាសំឡេង និងអត្ថបទដែលត្រូវគ្នារបស់វាទៅវា។ ទិន្នន័យកាន់តែច្រើនដែលគំរូរៀនពី ការបញ្ចេញសំឡេង និងសំឡេងរបស់វាកាន់តែប្រសើរ។

ទីបំផុតអំពីសំឡេងខ្លួនឯង។ សំឡេងរបស់យើងគឺអាចសម្គាល់បាន ជាដំបូងដោយ timbre ដែលអាស្រ័យលើលក្ខណៈរចនាសម្ព័ន្ធនៃសរីរាង្គនៃឧបករណ៍និយាយនៅក្នុងមនុស្សម្នាក់ៗ។ Timbre នៃសំឡេងរបស់អ្នកអាចត្រូវបានយកគំរូតាម នោះគឺជាលក្ខណៈរបស់វាអាចត្រូវបានពិពណ៌នា - សម្រាប់រឿងនេះ វាគ្រប់គ្រាន់ក្នុងការអានអត្ថបទតូចមួយនៅក្នុងស្ទូឌីយោ។ បន្ទាប់ពីនោះ ទិន្នន័យសំនៀងរបស់អ្នកអាចប្រើក្នុងការសំយោគការនិយាយជាភាសាណាមួយ សូម្បីតែមួយដែលអ្នកមិនស្គាល់ក៏ដោយ។ នៅពេលដែលមនុស្សយន្តត្រូវការនិយាយអ្វីមួយទៅកាន់អ្នក វាប្រើម៉ាស៊ីនបង្កើតរលកសំឡេង - vocoder ។ វាត្រូវបានផ្ទុកដោយព័ត៌មានអំពីលក្ខណៈប្រេកង់នៃឃ្លាដែលទទួលបានពីគំរូសូរស័ព្ទ ក៏ដូចជាទិន្នន័យនៅលើ timbre ដែលផ្តល់ឱ្យសំឡេងនូវពណ៌ដែលអាចស្គាល់បាន។

អ្នកអាចស្វែងយល់បន្ថែមអំពីបច្ចេកវិទ្យាពី Yandex SpeechKit complex នៅលើទំព័រនេះ ឬនៅលើធនធានពិសេស។ ប្រសិនបើអ្នកជាអ្នកអភិវឌ្ឍន៍ ហើយចង់សាកល្បង cloud ឬ mobile version of SpeechKit នោះគេហទំព័រដែលឧទ្ទិសដល់បច្ចេកវិទ្យា Yandex នឹងជួយអ្នក។

","contentType":"text/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"minor","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,commentsCount":55, modificationDate": "ថ្ងៃអង្គារ ទី 03 ខែមេសា ឆ្នាំ 2018 ម៉ោង 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("ប្រភព":"

នៅពេលអ្នកនិយាយទៅកាន់កម្មវិធីរុករក "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកឱ្យខ្លាំងៗ បច្ចេកវិទ្យាសម្គាល់ការនិយាយបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ វាក៏មានភារកិច្ចបញ្ច្រាសផងដែរ៖ ដើម្បីប្រែក្លាយអត្ថបទទៅជាសំឡេង។ ពេលខ្លះវាគ្រប់គ្រាន់ហើយក្នុងការអញ្ជើញអ្នកប្រកាស ហើយគ្រាន់តែសរសេរពាក្យ និងឃ្លាចាំបាច់ ប៉ុន្តែវានឹងមិនដំណើរការជាមួយអត្ថបទដែលបំពាននោះទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

","contentType":"text/html"),"proposedPreview":("ប្រភព":"

នៅពេលអ្នកនិយាយទៅកាន់កម្មវិធីរុករក "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកឱ្យខ្លាំងៗ បច្ចេកវិទ្យាសម្គាល់ការនិយាយបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ វាក៏មានភារកិច្ចបញ្ច្រាសផងដែរ៖ ដើម្បីប្រែក្លាយអត្ថបទទៅជាសំឡេង។ ពេលខ្លះវាគ្រប់គ្រាន់ហើយក្នុងការអញ្ជើញអ្នកប្រកាស ហើយគ្រាន់តែសរសេរពាក្យ និងឃ្លាចាំបាច់ ប៉ុន្តែវានឹងមិនដំណើរការជាមួយអត្ថបទដែលបំពាននោះទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

នៅពេលអ្នកនិយាយទៅកាន់កម្មវិធីរុករក "Let's go to Gogol, 25" ឬនិយាយសំណួរស្វែងរកឱ្យខ្លាំងៗ បច្ចេកវិទ្យាសម្គាល់ការនិយាយបំប្លែងសំឡេងរបស់អ្នកទៅជាពាក្យបញ្ជាអត្ថបទ។ វាក៏មានភារកិច្ចបញ្ច្រាសផងដែរ៖ ដើម្បីប្រែក្លាយអត្ថបទទៅជាសំឡេង។ ពេលខ្លះវាគ្រប់គ្រាន់ហើយក្នុងការអញ្ជើញអ្នកប្រកាស ហើយគ្រាន់តែសរសេរពាក្យ និងឃ្លាចាំបាច់ ប៉ុន្តែវានឹងមិនដំណើរការជាមួយអត្ថបទដែលបំពាននោះទេ។ នេះគឺជាកន្លែងដែលការសំយោគការនិយាយមានប្រយោជន៍។

","contentType":"text/html"),"titleImage":("h32":("height":32,path":"/get-yablogs/47421/file_1475751201967/h32","width": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("height":246,"path":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019670"orm" height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"), "major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.nets/yandex. 47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_1475751201967/"","full4:https:" /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"height":246),"minor288) ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201968","minor28": 288,"height":160),"orig":("height":246,path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_1475751201967/touchPath":"full288", http://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width"),"width":44249,"he ":("កំពស់":246,"ផ្លូវ":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get - យ៉ាប logs/47421/file_1475751201967/touch900")","w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","44""Width":,4 https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("height":246,"path":"/get-yablogs/47421/file572w260" " , "width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("កំពស់":246,"ផ្លូវ " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14759675126/ " w288":("កំពស់":156,"ផ្លូវ":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net / get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1475751201967/w288"wisth":"full" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("កំពស់":162,"path":"/get-yablogs/47421/file5_14757/file5_14757 201967/w300","width":292,fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("កំពស់":246 "path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147547512014 "),"w900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/majorPava":"fullhttps://major620":"full mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),"tags":[("displayName":"Yandex technologies","slug": " technologii-yandeksa","url":"/blog/company? ?tag=tekhnologii-yandeksa"),("displayName":"តើវាដំណើរការយ៉ាងដូចម្តេច?","slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ blog /company","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put " , "urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb1776f4 " , "urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":/"/blog/api ជាវ/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f7/ddd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company/57f7/edit"21ccb "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabotaet -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","author":("id":"24151397","uid ": ("value":"24151397","lite":false,hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" name":"Sveta Chi styakova","avatar":("default":"24700/24151397-15660497","empty":false)),"address":" [អ៊ីមែលការពារ] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-middle","isYandexStaff true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("height":32,"path":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("កំពស់":246," path":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475970120m/ "major288":("height":156,path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("path":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"fullPath"https://fullPath" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201960th"or"d"or" 444,"height":246),"minor288":("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475757/orig", "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":"44246,"he ":("path":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","width":444,height":246),"touch900":("height":246,path":"/get-yablogs/47421/file_1475751201967/touch900","width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("កំពស់":246,"path":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967")",w10w" " height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("កម្ពស់":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","https": / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"),"w288":("កម្ពស់":156,"path":"/get-yablogs/47421/file_14719751 width ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("កំពស់":160,"ផ្លូវ":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160":"160":"w30" "path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147597512013 "),"w444":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("កម្ពស់":246,"path":"/get-yablogs/47421/file_1475751201967":("height":246,"path":"/get-yablogs/47421/file_1475751201967":w900", "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_14759627120 "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">

ពេលខ្លះយើងត្រូវអានអត្ថបទដែលបានបោះពុម្ពដោយសំឡេង។ ភាគច្រើនជាញឹកញាប់កម្មវិធីបែបនេះត្រូវបានប្រើប្រាស់ដោយអ្នកដែលបង្រៀន ភាសាបរទេសដើម្បីកំណត់សំឡេងត្រឹមត្រូវ និងស្ត្រេស សម្រាប់ការអានសៀវភៅ និងសម្រាប់តែភាពសប្បាយរីករាយ និងគូរមិត្តភក្តិ។ ដើម្បីប្រើការបញ្ចេញសំឡេងនៃអត្ថបទ មិនចាំបាច់ទាញយកកម្មវិធីទៅកុំព្យូទ័ររបស់អ្នកទេ ព្រោះវាមានចំនួនគ្រប់គ្រាន់នៅក្នុង កំណែអនឡាញ(មិន​ដូច )។ អត្ថបទនេះនឹងគ្របដណ្តប់ synths ល្អបំផុតសុន្ទរកថារបស់មនុស្ស ដែលអ្នកអាចប្រើតាមអ៊ីនធឺណិត។

Translate.google.com គឺជាសេវាកម្មបកប្រែអត្ថបទ និងសំយោគដោយឥតគិតថ្លៃ។

ការបកប្រែ Google គឺជាផ្នែកមួយនៃការពេញនិយមបំផុតនិង សេវាកម្មល្អបំផុតដែលផ្តល់សេវាកម្មយ៉ាងទូលំទូលាយ។ ឧទាហរណ៍ មនុស្សគ្រប់រូប អ្នកបកប្រែដ៏ល្បីល្បាញមានមុខងារបញ្ចេញសំឡេងអត្ថបទដែលបានបញ្ចូល និងជាភាសាដែលគាំទ្រទាំងអស់។ គុណភាពសំឡេងមានកម្រិតទាបបន្តិចនៅក្នុងកន្លែង ប៉ុន្តែជាទូទៅអាចទទួលយកបាន។ ប្រសិនបើអ្នកកំពុងបកប្រែអត្ថបទដែលបានបោះពុម្ពទៅជាការនិយាយសម្រាប់ការរៀនភាសា បន្ទាប់មកអ្នកសំយោគ ហ្គូហ្គល​បកប្រែនឹងសមនឹងអ្នកយ៉ាងល្អឥតខ្ចោះ។ អ្វី​ដែល​សំខាន់​បំផុត​អំពី​សេវា​នេះ​គឺ​ថា​វា​សាមញ្ញ​និង​អាច​ចូល​ប្រើ​បាន​សម្រាប់​អ្នក​ប្រើ​គ្រប់​គ្នា​នៅ​លើ​អ៊ីនធឺណិត។


របៀបសំយោគអត្ថបទនៅក្នុង Translate.google.com

ដើម្បីប្រើប្រាស់សេវាកម្មពី Google៖

  1. ចូលទៅកាន់ https://translate.google.com ;
  2. ជ្រើសរើស ភាសាដែលត្រូវការដោយចុចប៊ូតុង "រកឃើញភាសា";
  3. បន្ទាប់មកបញ្ចូលអត្ថបទនៅក្នុងបង្អួចដែលអ្នកបានជ្រើសរើសភាសា។
  4. ឥឡូវនេះចុចលើរូបតំណាង gramophone នៅផ្នែកខាងក្រោមនៃបង្អួច ហើយអ្នកអាចឮការចាក់សារថ្មីនៃអត្ថបទជាសំឡេងស្រី។

គុណវិបត្តិរបស់វាគឺអសមត្ថភាពក្នុងការទាញយកការសំយោគការនិយាយដែលបានផលិតឡើងវិញនៅក្នុងឯកសារទៅកាន់កុំព្យូទ័ររបស់អ្នក។ វាក៏មិនមានការកំណត់សំឡេង ឬការជ្រើសរើសសិល្បករផងដែរ។

Acapela - កម្មវិធីអត្ថបទទៅការនិយាយឥតគិតថ្លៃ

Acapela គឺ​ជា​ឧបករណ៍​សំយោគ​ការ​និយាយ​តាម​អ៊ីនធឺណិត​ដ៏​ពេញ​និយម​បំផុត​មួយ​។ សេវាកម្មនេះគាំទ្រច្រើនជាង 30 ភាសា ក៏ដូចជា មួយ​ចំនួន​ធំ​នៃអ្នកសំដែងសម្រាប់ជ្រើសរើស ទាំងបុរស និងស្ត្រី។ សម្រាប់ភាសាអង់គ្លេស មានឈើចំនួន 20 យ៉ាងសម្រាប់ជ្រើសរើស ដូចជា នារី ប្រុស ក្មេងជំទង់ ក្មេង ប្រុសគ្រើម ស្រីទន់ ។ល។ កម្មវិធីនេះអាចប្ដូរតាមបំណងបានខ្ពស់ និងងាយស្រួលប្រើ។ គេហទំព័រនេះមានកម្មវិធីសម្រាប់ប្រើប្រាស់ក្រៅបណ្តាញ។ អ្នកមានឱកាសសាកល្បងកំណែសាកល្បងរបស់ឧបករណ៍សំយោគការនិយាយដោយចុចលើធាតុដែលត្រូវគ្នានៅក្នុងរបារម៉ឺនុយ។


របៀបប្រើ Acapela

ដើម្បីរៀបចំការសំយោគ ការនិយាយផ្ទាល់មាត់តាមអ៊ីនធឺណិត ប្រើប្លុកនៅផ្នែកខាងឆ្វេងនៃទំព័រ http://www.acapela-group.com/voices/demo/ ។

ដូច្នេះតើវាដំណើរការយ៉ាងដូចម្តេច៖

  1. នៅក្នុងជួរទីមួយ ជ្រើសរើសភាសានៃអត្ថបទនិយាយ។
  2. បន្ទាត់ទីពីរមិនចាំបាច់ទេប្រសិនបើអ្នកជ្រើសរើសភាសារុស្សីព្រោះមានជម្រើសតែមួយគត់ - Alyona ។
  3. នៅជួរទីបី បញ្ចូលអត្ថបទរបស់អ្នកដែលអ្នកចង់បញ្ចេញសំឡេង។ អ្នកអាចបញ្ចូលរហូតដល់ 300 តួអក្សរ។
  4. បន្ទាប់មក យល់ព្រមនឹងលក្ខខណ្ឌនៃសេវាកម្មដោយធីកប្រអប់ "ខ្ញុំយល់ព្រមជាមួយលក្ខខណ្ឌ"។
  5. ហើយចុចប៊ូតុង "សូមទទួលយកលក្ខខណ្ឌ" ខាងក្រោម។

ការបញ្ចេញសំឡេងតាមរយៈសេវាកម្មនេះមានគុណភាពជាមធ្យម។ សំនៀងគឺត្រឹមត្រូវស្ទើរតែគ្រប់ពាក្យ។ ផលិតផលមានសម្រាប់គ្រប់វេទិកា។

Next.2yxa.mobi - សេវាកម្មអនឡាញសម្រាប់ការអានអត្ថបទ

សេវាកម្មអនឡាញ Next.2yxa.mobi គឺជាឧបករណ៍សំយោគដ៏សាមញ្ញ និងមានតម្លៃសមរម្យសម្រាប់ការផលិតអត្ថបទដែលបានវាយឡើងវិញ។ គេហទំព័រនេះត្រូវបានបង្កើតឡើងសម្រាប់ ឧបករណ៍ចល័តដូច្នេះ តាមរយៈការបញ្ចូលវាតាមរយៈកម្មវិធីរុករកតាមអ៊ីនធឺណិត យើងនឹងមានឧបករណ៍សំយោគអត្ថបទដែលស្រាល និងរហ័ស។ ក្នុងន័យនេះ គេហទំព័រមានដែនកំណត់មួយចំនួនក្នុងការងាររបស់ខ្លួន។ ឧទាហរណ៍ ប្រសិនបើអ្នកត្រូវការ "អាន" អត្ថបទដែលបានទាញយកនោះ ទំហំឯកសារមិនគួរលើសពី 100 kb ទេ។ អ្នកអាចវាយអត្ថបទ និងបញ្ចេញសំឡេងភ្លាមៗ។

សម្រាប់នេះអ្នកត្រូវការ:


Vocalizer - ឧបករណ៍សំយោគសំឡេងសម្រាប់ការចាក់សារឡើងវិញតាមអ៊ីនធឺណិត

មួយទៀតក្នុងចំណោមឧបករណ៍សំយោគការនិយាយដ៏ល្អបំផុតសម្រាប់ការសាកល្បងការបញ្ចេញសំឡេងតាមអ៊ីនធឺណិតដែលបង្កើតឡើងដោយអ្នកអភិវឌ្ឍន៍បរទេសគឺ Vocalizer ។ វាមាននៅ http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html ។ នេះគឺជាសេវាកម្មសាមញ្ញ និងអាចយល់បាន។ ម៉ឺនុយ និងចំណុចប្រទាក់គឺទាំងស្រុងជាភាសាអង់គ្លេស ប៉ុន្តែវានឹងមានភាពងាយស្រួលក្នុងការដោះស្រាយវា។ សេវាកម្មអនឡាញយើងអាចប្រើជា Demo-version។ ប្រព័ន្ធផ្តល់ឱ្យអ្នកនូវជម្រើសសំឡេង 100 ផ្សេងគ្នា និង 47 ភាសា។


របៀបប្រើ Vocalizer

ការសំយោគការនិយាយតាមអ៊ីនធឺណិតជាមួយកម្មវិធីនេះគឺសាមញ្ញណាស់។ សម្រាប់​ការ​នេះ:

  1. នៅក្នុងធាតុ "ភាសា / គ្រាមភាសា" ជ្រើសរើសភាសា។
  2. នៅក្នុង "យេនឌ័រ" ជ្រើសរើសសំលេងប្រុសឬស្រីសម្តែង (ប្រុស - ប្រុស - ស្រី - ស្រី);
  3. ខាងក្រោមនៅក្នុងប្លុកធំ បញ្ចូលអត្ថបទសម្រាប់ការបញ្ចេញសំឡេង ហើយចុចប៊ូតុងពណ៌ខៀវនៅចំហៀងដើម្បីលេង។