ტექსტის ინტერაქტიული ხმის რედაქტირება Yandex-ის ახალი მეტყველების ტექნოლოგიების გამოყენებით. გამოთქმა და ინტონაცია

დღეს ჩვენი Dictation აპლიკაცია ინტერაქტიული წერისა და ტექსტის ხმით რედაქტირებისთვის გამოჩნდა AppStore-სა და Google Play-ში. მისი მთავარი ამოცანა- აჩვენეთ კომპლექსის ზოგიერთი ახალი მახასიათებელი მეტყველების ტექნოლოგიები Yandex. საუბარია იმაზე, თუ რა არის საინტერესო და უნიკალური ჩვენს მეტყველების ამოცნობისა და სინთეზის ტექნოლოგიებში, რაზეც მინდა ვისაუბრო ამ პოსტში.

ორიოდე სიტყვა ისე, რომ გაიგოთ რაზე იქნება საუბარი. Yandex-მა დიდი ხანია უზრუნველყო უფასო მობილური API, რომელიც შეიძლება გამოყენებულ იქნას, მაგალითად, მისამართის ამოცნობისა და ხმოვანი ძიებისთვის. ამ ერთი წლის განმავლობაში ჩვენ შევძელით მისი ხარისხი თითქმის იმ დონემდე მიგვეყვანა, რაზეც ასეთი მოთხოვნები და შენიშვნები ესმით თავად ადამიანებს. ახლა კი ვაკეთებთ შემდეგი ნაბიჯი- მოდელი აღიარებისთვის თავისუფალი სიტყვანებისმიერ თემაზე.

გარდა ამისა, ჩვენი მეტყველების სინთეზი მხარს უჭერს ხმაში არსებულ ემოციებს. და, რამდენადაც ჩვენ ვიცით, ეს არის პირველი კომერციულად ხელმისაწვდომი მეტყველების სინთეზი ამ შესაძლებლობით.

ამ ყველაფრის შესახებ, ისევე როგორც SpeechKit-ის ზოგიერთი სხვა მახასიათებლის შესახებ: ხმის გააქტიურების, ავტომატური პუნქტუაციისა და ტექსტში სემანტიკური ობიექტების ამოცნობის შესახებ - წაიკითხეთ ქვემოთ.

Omnivorous ASR და ამოცნობის ხარისხი

SpeechKit-ში მეტყველების ამოცნობის სისტემა მუშაობს განსხვავებული ტიპებიტექსტი და Გასულ წელსჩვენ ვმუშაობდით მისი ფარგლების გაფართოებაზე. ამისათვის ჩვენ შევქმენით ახალი ენის მოდელი, ჯერჯერობით ყველაზე დიდი, ამოცნობისთვის მოკლე ტექსტებინებისმიერ თემაზე.

უკან გასულ წელსშეცდომით აღიარებული სიტყვების ფარდობითი პროპორცია (Word Error Rate) შემცირდა 30%-ით. მაგალითად, დღეს SpeechKit სწორად ცნობს მისამართების 95%-ს და გეოგრაფიული ობიექტები, უახლოვდება ადამიანს, რომელსაც ესმის მოსმენილი სიტყვების 96-98%. კარნახის ახალი მოდელის ამოცნობის სისრულე სხვადასხვა ტექსტებიახლა არის 82%. ამ დონის საშუალებით თქვენ შეგიძლიათ შექმნათ სრული გადაწყვეტა საბოლოო მომხმარებლებისთვის, რაც გვინდოდა გვეჩვენებინა დიქტატის მაგალითზე.

თავდაპირველად, SpeechKit მუშაობდა მხოლოდ საძიებო მოთხოვნებისთვის: ზოგადი თემებიდა გეონავიგაცია. მიუხედავად იმისა, რომ მაშინაც ჩვენ ვგეგმავდით არა მხოლოდ დამატებითი შეყვანის ხელსაწყოს, „ხმოვანი“ კლავიატურის, არამედ უნივერსალური ინტერფეისის შექმნას, რომელიც მთლიანად ჩაანაცვლებდა სისტემასთან ნებისმიერ ინტერაქციას პირდაპირი საუბრით.

ამისათვის საჭირო იყო ისწავლოს ნებისმიერი სიტყვის, ტექსტის ამოცნობა თვითნებურ თემაზე. ჩვენ დავიწყეთ ამისთვის ცალკე ენის მოდელზე მუშაობა, რომელიც რამდენჯერმე აღემატებოდა არსებულ გეო-ნავიგაციის და ზოგადი საძიებო მოდელებს.

მოდელის ამ ზომამ ახალი პირობები შექმნა გამოთვლითი რესურსების თვალსაზრისით. თითოეული ჩარჩოსთვის განიხილება ამოცნობის რამდენიმე ათასი ვარიანტი - და რაც უფრო მეტ წარმატებას მივაღწევთ, მით უფრო მაღალია ხარისხი. და სისტემა უნდა მუშაობდეს ნაკადში, რეალურ დროში, ამიტომ ყველა გამოთვლა დინამიურად უნდა იყოს ოპტიმიზირებული. ჩვენ ვცადეთ, ვცადეთ, ვეძებდით მიდგომას: მივაღწიეთ აჩქარებას, მაგალითად, ხაზოვანი ალგებრის ბიბლიოთეკის შეცვლით.

მაგრამ ყველაზე მნიშვნელოვანი და ყველაზე რთული იყო საკმარისი სწორი მონაცემების შეგროვება, რომელიც შესაფერისი იყო ნაკადის მეტყველების სწავლებისთვის. ამჟამად აკუსტიკური მოდელის მოსამზადებლად გამოიყენება ხელით გადაწერილი მეტყველების დაახლოებით 500 საათი. ეს ასე არ არის დიდი ბაზა- შედარებისთვის, პოპულარული სამეცნიერო ორგანო Switchboard, რომელიც ხშირად გამოიყენება კვლევის მიზნები, შეიცავს დაახლოებით 300 საათს ცოცხალ, სპონტანურ საუბრებს. რა თქმა უნდა, ბაზის ზრდა ხელს უწყობს გაწვრთნილი მოდელის ხარისხის ამაღლებას, მაგრამ ჩვენ აქცენტს ვაკეთებთ სათანადო ვარჯიშიმონაცემები და ზუსტად მოდელირებული ტრანსკრიფციები, რაც საშუალებას გვაძლევს ვივარჯიშოთ მისაღები ხარისხით შედარებით მცირე ბაზაზე.

ორიოდე სიტყვა იმის შესახებ, თუ როგორ მუშაობს ამოცნობის მოდული (ამაზე დეტალურად ვისაუბრეთ რამდენიმე ხნის წინ). ჩაწერილი მეტყველების ნაკადი იჭრება ჩარჩოებში 20 ms, სიგნალის სპექტრი მასშტაბირებულია და ტრანსფორმაციების სერიის შემდეგ, MFCC მიიღება თითოეული ჩარჩოსთვის.

კოეფიციენტები იკვებება აკუსტიკური მოდელში, რომელიც ითვლის ალბათობის განაწილებას დაახლოებით 4000 სენონისთვის თითოეულ კადრში. სენონი არის ფონემის დასაწყისი, შუა ან დასასრული.

SpeechKit აკუსტიკური მოდელი აგებულია ფარული მარკოვის მოდელებისა და ღრმა მიმავალი ნერვული ქსელის (feedforward DNN) კომბინაციაზე. ეს უკვე დადასტურებული გამოსავალია და ბოლო სტატიაში ვისაუბრეთ იმაზე, თუ როგორ მიატოვა გაუსის ნარევები DNN-ის სასარგებლოდ, ხარისხში თითქმის ორმაგი ნახტომი.

შემდეგ მოდის პირველი ენის მოდელი: რამდენიმე WFST - შეწონილი საბოლოო გადამყვანი - აქცევს სენონებს კონტექსტზე დამოკიდებულ ფონემებად და მათგან მთელი სიტყვები შენდება გამოთქმის ლექსიკონის დახმარებით და ასობით ჰიპოთეზა მიიღება თითოეული სიტყვისთვის.

საბოლოო დამუშავება ხდება მეორე ენის მოდელში. მასთან დაკავშირებულია RNN, განმეორებადი ნერვული ქსელი და ეს მოდელი აფასებს მიღებულ ჰიპოთეზებს, რაც ხელს უწყობს ყველაზე სარწმუნო ვარიანტის არჩევას. განმეორებითი ტიპის ქსელი განსაკუთრებით ეფექტურია ენის მოდელისთვის. თითოეული სიტყვის კონტექსტის განსაზღვრისას, მას შეუძლია გაითვალისწინოს არა მხოლოდ უახლოესი სიტყვების გავლენა, როგორც ნერვულ ქსელში (ვთქვათ, ტრიგრამის მოდელისთვის, ეს ორი წინა სიტყვაა), არამედ უფრო შორეულიც. თითქოს მათ „ახსოვს“.

ხანგრძლივი დაკავშირებული ტექსტის ამოცნობა ხელმისაწვდომია SpeechKit Cloud-ში და SpeechKit Mobile SDK-ში - ახალი ენის მოდელის გამოსაყენებლად, თქვენ უნდა აირჩიოთ თემა "შენიშვნები" შეკითხვის პარამეტრებში.

ხმის გააქტიურება

ხმოვანი ინტერფეისის მეორე ძირითადი კომპონენტია ხმის აქტივაციის სისტემა, რომელიც იწვევს სასურველ მოქმედებას საკვანძო ფრაზის საპასუხოდ. ამის გარეშე შეუძლებელი იქნება მომხმარებლის სრულად „ხელების გაშლა“. ჩვენ შევიმუშავეთ საკუთარი ხმის აქტივაციის მოდული SpeechKit-ისთვის. ტექნოლოგია ძალიან მოქნილია - დეველოპერს SpeechKit ბიბლიოთეკის გამოყენებით შეუძლია აირჩიოს ნებისმიერი საკვანძო ფრაზა თავისი აპლიკაციისთვის.

განსხვავებით, მაგალითად, Google-ის გადაწყვეტილებებისგან - მათი დეველოპერები იყენებენ მათ ამოცნობისთვის ჩამჭრელი ფრაზა"OK Google" ღრმა ნერვული ქსელი. DNN იძლევა მაღალი ხარისხი, მაგრამ აქტივაციის სისტემა შემოიფარგლება ერთი ბრძანებით და სწავლისთვის აუცილებელია დიდი თანხამონაცემები. მაგალითად, ნაცნობი ფრაზის ამოცნობის მოდელი გაწვრთნილი იქნა 40000-ზე მეტი მომხმარებლის ხმის მაგალითზე, რომლებმაც შედიოდნენ თავიანთ სმარტფონებზე Google Now-ით.

ჩვენი მიდგომით, ხმის აქტივაციის მოდული, ფაქტობრივად, არის მინიატურული ამოცნობის სისტემა. მუშაობს მხოლოდ რთულ პირობებში. პირველ რიგში, ბრძანების ამოცნობა უნდა მოხდეს თავად მოწყობილობაზე, სერვერთან დაკავშირების გარეშე. და სმარტფონის გამოთვლითი ძალა ძალიან შეზღუდულია. ენერგიის მოხმარება ასევე კრიტიკულია - თუ ჩვეულებრივი ამოცნობის მოდული ჩართულია მხოლოდ გარკვეული დროით კონკრეტული მოთხოვნის დასამუშავებლად, მაშინ აქტივაციის მოდული მუშაობს მუდმივად, ლოდინის რეჟიმში. და ამავე დროს არ უნდა დარგოთ ბატარეა.

თუმცა, არის ინდულგენცია - აქტივაციის სისტემას ძალიან მცირე ლექსიკონი სჭირდება, რადგან საკმარისია რამდენიმე საკვანძო ფრაზის გაგება, დანარჩენი მეტყველების კი უბრალოდ იგნორირება შეიძლება. ამიტომ, აქტივაციის ენის მოდელი გაცილებით კომპაქტურია. WFST მდგომარეობების უმეტესობა შეესაბამება ჩვენი ბრძანების გარკვეულ ნაწილს - მაგალითად, "მეოთხე ფონემის დასაწყისი". ასევე არის "ნაგვის" მდგომარეობები, რომლებიც აღწერენ სიჩუმეს, გარე ხმაურიდა ყველა სხვა მეტყველება გარდა საკვანძო ფრაზა. თუ SpeechKit-ში სრულფასოვანი ამოცნობის მოდელს აქვს ათობით მილიონი მდგომარეობა და იღებს 10 გიგაბაიტამდე, მაშინ ხმის გააქტიურებისთვის ის შემოიფარგლება ასობით მდგომარეობით და ჯდება რამდენიმე ათეულ კილობაიტში.

ამიტომ, ახალი საკვანძო ფრაზის ამოცნობის მოდელი აგებულია სირთულის გარეშე, რაც საშუალებას გაძლევთ სწრაფად გააფართოვოთ სისტემა. არსებობს ერთი პირობა - ბრძანება უნდა იყოს საკმარისად გრძელი (სასურველია - ერთზე მეტი სიტყვა) და იშვიათად მოხდეს ყოველდღიური მეტყველებაცრუ პოზიტივის თავიდან ასაცილებლად. „გთხოვთ“ არ არის კარგი ხმის გასააქტიურებლად, მაგრამ „მოუსმინეთ ჩემს ბრძანებას“ კარგია.

შეზღუდული ენის მოდელთან და „მსუბუქ“ აკუსტიკასთან ერთად, ბრძანებების ამოცნობა ნებისმიერი სმარტფონის ძალაშია. რჩება ენერგიის მოხმარებასთან გამკლავება. სისტემას აქვს ჩაშენებული ხმის აქტივობის დეტექტორი, რომელიც აკონტროლებს ადამიანის ხმის გამოჩენას შემომავალ აუდიო ნაკადში. სხვა ხმები იგნორირებულია, ამიტომ ფონზე აქტივაციის მოდულის ენერგიის მოხმარება შემოიფარგლება მხოლოდ მიკროფონით.

მეტყველების სინთეზი

მეტყველების ტექნოლოგიის მესამე ძირითადი კომპონენტია მეტყველების სინთეზი (ტექსტი-მეტყველება). TTS-გადაწყვეტა SpeechKit საშუალებას გაძლევთ გაახმოვანოთ ნებისმიერი ტექსტი მამრობითი ან ქალის ხმით და კიდევ იკითხოთ სწორი ემოცია. ბაზარზე არცერთ ცნობილ ხმის ძრავას არ აქვს ეს შესაძლებლობა.

არსებობს რამდენიმე ფუნდამენტური სხვადასხვა ტექნოლოგიებიმეტყველების სინთეზი და უმეტესად თანამედროვე სისტემებიკონკატენაციური სინთეზი გამოიყენება "ერთეულის შერჩევის" მეთოდით. წინასწარ ჩაწერილი ხმის ნიმუში იჭრება კონკრეტულად შემადგენელი ელემენტები(მაგალითად, კონტექსტზე დამოკიდებული ფონემები), საიდანაც შედგენილია მეტყველების საფუძველი. შემდეგ ნებისმიერი სწორი სიტყვებიაწყობილი ცალკეული ერთეულებიდან. გამოდის ადამიანის ხმის დამაჯერებელი იმიტაცია, მაგრამ მისი აღქმა ძნელია - ცალკეული ერთეულების შეერთებებზე ჩნდება ტემბრის ნახტომები, არაბუნებრივი ინტონაციები და მკვეთრი გადასვლები. ეს განსაკუთრებით შესამჩნევია გრძელი დაკავშირებული ტექსტის გახმოვანებისას. ასეთი სისტემის ხარისხი შეიძლება გაუმჯობესდეს მეტყველების ბაზის მოცულობის გაზრდით, მაგრამ ეს გრძელი და შრომატევადი სამუშაო, რომელიც მოითხოვს პროფესიონალი და ძალიან მომთმენი დიქტორის ჩართვას. და ბაზის სისრულე ყოველთვის რჩება სისტემის ბოსტნეულად.

SpeechKit-ში გადავწყვიტეთ გამოვიყენოთ სტატისტიკური (პარამეტრული) მეტყველების სინთეზი ფარული მარკოვის მოდელების საფუძველზე. პროცესი არსებითად მსგავსია ამოცნობის, მხოლოდ ის ხდება საპირისპირო მიმართულება. ორიგინალური ტექსტიგადაეცემა G2P (grapheme-to-phoneme) მოდულს, სადაც ის გარდაიქმნება ფონემების თანმიმდევრობაში.

შემდეგ ისინი შედიან აკუსტიკურ მოდელში, რომელიც წარმოქმნის ვექტორებს, რომლებიც აღწერს თითოეული ფონემის სპექტრულ მახასიათებლებს. ეს რიცხვები გადაეცემა ვოკოდერს, რომელიც ასინთეზებს ხმას.

ასეთი ხმის ტემბრი გარკვეულწილად "კომპიუტერულია", მაგრამ მას აქვს ბუნებრივი და გლუვი ინტონაციები. ამავდროულად, მეტყველების სიგლუვე არ არის დამოკიდებული მოცულობასა და სიგრძეზე. წასაკითხი ტექსტიდა ხმის რეგულირება ადვილია. საკმარისია მოთხოვნის პარამეტრებში ერთი გასაღების მითითება და სინთეზის მოდული გამოსცემს ხმას შესაბამისით. ემოციური შეღებვა. რა თქმა უნდა, ვერც ერთი ერთეულის შერჩევის სისტემა ამას ვერ გააკეთებს.

იმისათვის, რომ ხმის მოდელმა შეძლოს სხვადასხვა ემოციების შესაბამისი ალგორითმების აგება, დასჭირდა სწორი გზაგაწვრთნა იგი. ამიტომ, ჩაწერის დროს, ჩვენი კოლეგა ევგენია, რომლის ხმაც SpeechKit-ში ისმის, თავის რიგრიგობით წარმოთქვა თავისი სტრიქონები ნეიტრალური ხმით, მხიარული და პირიქით, გაღიზიანებული. ტრენინგის დროს სისტემამ გამოავლინა და აღწერა ხმის პარამეტრები და მახასიათებლები, რომლებიც შეესაბამება თითოეულ ამ მდგომარეობას.

ხმის ყველა ცვლილება არ არის აგებული სწავლაზე. მაგალითად, SpeechKit ასევე საშუალებას გაძლევთ გააფერადოთ სინთეზირებული ხმა "მთვრალი" და "ავადმყოფი" პარამეტრებით. ჩვენმა დეველოპერებმა შეაწუხეს ჟენია და მას არ მოუწია მთვრალი ჩაწერამდე ან სიცივეში სირბილი, რომ კარგად გაციებულიყო.

მთვრალი ხმისთვის მეტყველება შენელებულია განსაკუთრებულად - თითოეული ფონემა დაახლოებით ორჯერ ნელა ჟღერს, რაც დამახასიათებელ ეფექტს იძლევა. პაციენტს კი სონორიზმის ბარიერი აწევს – რეალურად მოდელირებულია ის, რაც ლარინგიტით დაავადებულის ხმის იოგებს ემართება. სხვადასხვა ფონემების ჟღერადობა დამოკიდებულია იმაზე, გადის თუ არა ჰაერი ადამიანის ვოკალურ ტრაქტში თავისუფლად, თუ არის თუ არა მის გზაზე ვიბრაციული ბგერები. ვოკალური თოკები. „დაავადების“ რეჟიმში ყოველი ფონემა ნაკლებად არის გაჟღერებული, რაც ხდის ხმას ხრინწს, დარგვას.

სტატისტიკური მეთოდიასევე იძლევა სისტემის სწრაფ გაფართოებას. ერთეულის შერჩევის მოდელში, ახალი ხმის დასამატებლად, თქვენ უნდა შექმნათ ცალკე სამეტყველო ბაზა. მომხსენებელმა უნდა ჩაიწეროს მეტყველების მრავალი საათი, ამავე დროს, უნაკლოდ შეინარჩუნოს იგივე ინტონაცია. SpeechKit-ში ახალი ხმის შესაქმნელად საკმარისია ჩაწეროთ მეტყველების მინიმუმ ორი საათი - დაახლოებით 1800 სპეციალური, ფონეტიკურად დაბალანსებული წინადადება.

სემანტიკური ობიექტების იზოლაცია

მნიშვნელოვანია არა მხოლოდ სიტყვების ასოებით თარგმნა, არამედ მათი მნიშვნელობით შევსება. მეოთხე ტექნოლოგია შეზღუდული ფორმახელმისაწვდომია SpeechKit Cloud-ში, პირდაპირ არ მოქმედებს ხმაზე მუშაობაზე - ის იწყებს მუშაობას სალაპარაკო სიტყვების ამოცნობის შემდეგ. მაგრამ ამის გარეშე, მეტყველების ტექნოლოგიების სრული დასტა შეუძლებელია - ეს არის სემანტიკური ობიექტების შერჩევა ბუნებრივ მეტყველებაში, რომელიც გამოსავალზე იძლევა არა მხოლოდ აღიარებულ, არამედ უკვე მონიშნულ ტექსტს.

ახლა SpeechKit ახორციელებს თარიღებისა და დროის, სრული სახელების, მისამართების შერჩევას. ჰიბრიდული სისტემა აერთიანებს კონტექსტის გარეშე გრამატიკებს, ლექსიკონებს საკვანძო სიტყვებიდა სტატისტიკური მონაცემები საძიებო და Yandex-ის სხვადასხვა სერვისების, ასევე ალგორითმების შესახებ მანქანათმცოდნეობა. მაგალითად, ფრაზაში „წავიდეთ ლეო ტოლსტოის ქუჩაზე“, სიტყვა „ქუჩა“ ეხმარება სისტემას კონტექსტის განსაზღვრაში, რის შემდეგაც შესაბამისი ობიექტი მდებარეობს Yandex.Maps მონაცემთა ბაზაში.

კარნახში ჩვენ ამ ტექნოლოგიაზე ავაშენეთ ტექსტის ხმით რედაქტირების ფუნქცია. ერთეულების ამოღების მიდგომა ფუნდამენტურად ახალია და აქცენტი კეთდება კონფიგურაციის სიმარტივეზე - თქვენ არ გჭირდებათ პროგრამირების ცოდნა სისტემის დასაყენებლად.

სისტემის შეყვანა არის სია განსხვავებული ტიპებიობიექტები და ფრაზების მაგალითები ცოცხალი მეტყველებიდან, რომლებიც აღწერს მათ. გარდა ამისა, შაბლონები იქმნება ამ მაგალითებიდან Pattern Mining მეთოდის გამოყენებით. ისინი ითვალისწინებენ საწყისი ფორმა, ფესვები, სიტყვების მორფოლოგიური ვარიაციები. შემდეგი ნაბიჯიშერჩეული ობიექტების გამოყენების მაგალითები სხვადასხვა კომბინაციებირათა დაეხმაროს სისტემას კონტექსტის გაგებაში. ამ მაგალითებზე დაყრდნობით აგებულია ფარული მარკოვის მოდელი, სადაც მომხმარებლის რეპლიკაში შერჩეული ობიექტები ხდება დაკვირვებადი მდგომარეობები, ხოლო მათ შესაბამისი ობიექტები საგნის ველიდან უკვე ცნობილი მნიშვნელობის მქონე ფარული მდგომარეობები ხდება.

მაგალითად, არსებობს ორი ფრაზა: „დასვით „გამარჯობა მეგობარო“ დასაწყისში“ და „ჩასვით ბუფერიდან“. სისტემა ადგენს, რომ პირველ შემთხვევაში „პასტის“ (რედაქტირების მოქმედების) შემდეგ არის თვითნებური ტექსტი, მეორეში კი მისთვის ცნობილი ობიექტი („გაცვლის ბუფერი“) და განსხვავებულად რეაგირებს ამ ბრძანებებზე. AT ტრადიციული სისტემაეს მოითხოვს წესების ან გრამატიკების ხელით დაწერას და ახალი ტექნოლოგია Yandex კონტექსტის ანალიზი ხდება ავტომატურად.

ავტოპუნქტუაცია

როდესაც რაიმეს კარნახობთ, თქვენ ველით, რომ დაინახავთ პუნქტუაციის ნიშნებს შედეგად ტექსტში. და ისინი ავტომატურად უნდა გამოჩნდნენ ისე, რომ არ დაგჭირდეთ ინტერფეისთან ტელეგრაფის სტილში საუბარი: „ძვირფასო მეგობარო - მძიმით - როგორ ხარ - კითხვის ნიშანი". ამიტომ SpeechKit-ს ავსებს ავტომატური პუნქტუაციის სისტემა.

მეტყველებაში სასვენი ნიშნების როლს ინტონაციური პაუზები ასრულებს. ამიტომ, თავდაპირველად შევეცადეთ აგვეშენებინა სრული აკუსტიკური და ენობრივი მოდელი მათი ამოცნობისთვის. თითოეულ სასვენ ნიშანს მიენიჭა ფონემა და სისტემის თვალსაზრისით, ახალი „სიტყვები“ გამოჩნდა აღიარებულ მეტყველებაში, რომელიც მთლიანად შედგებოდა ასეთი „სასვენი“ ფონემებისგან - სადაც იყო პაუზები ან გარკვეული გზით შეცვლილი ინტონაცია.

დიდი სირთულე წარმოიშვა ტრენინგის მონაცემებთან დაკავშირებით - კორპუსების უმეტესობაში არის უკვე ნორმალიზებული ტექსტები, რომლებშიც პუნქტუაციის ნიშნები გამოტოვებულია. ასევე, საძიებო მოთხოვნების ტექსტებში თითქმის არ არის პუნქტუაცია. ჩვენ მივმართეთ Eho Moskvy-ს, რომელმაც ხელით გადაიწერა ყველა მათი გადაცემა და მათ საშუალება მოგვცეს, გამოგვეყენებინა მათი არქივი. სწრაფად გაირკვა, რომ ეს ტრანსკრიფციები შეუფერებელი იყო ჩვენი მიზნებისთვის - ისინი შესრულდა ტექსტთან ახლოს, მაგრამ არა სიტყვასიტყვით და, შესაბამისად, არ იყო შესაფერისი მანქანური სწავლისთვის. შემდეგი მცდელობა აუდიო წიგნებით გაკეთდა, მაგრამ მათ შემთხვევაში, პირიქით, ხარისხი ძალიან მაღალი იყო. კარგად განლაგებული ხმები, ტექსტის ექსპრესიულად წარმოთქმა, ძალიან შორსაა ნამდვილი ცხოვრებადა ასეთ მონაცემებზე ტრენინგის შედეგები სპონტანური კარნახით ვერ გამოიყენებოდა.

მეორე პრობლემა ის იყო, რომ არჩეულმა მიდგომამ უარყოფითი გავლენა მოახდინა ზოგადი ხარისხიაღიარება. თითოეული სიტყვისთვის ენის მოდელი განიხილავს რამდენიმე მეზობელ სიტყვას კონტექსტის სწორად დასადგენად და დამატებით „პუნქტუაციური“ სიტყვები აუცილებლად ავიწროებდა მას. რამდენიმეთვიანმა ექსპერიმენტებმა ვერაფერი გამოიწვია.

მე უნდა დამეწყო სუფთა ფურცლიდან- გადავწყვიტეთ პუნქტუაციის ნიშნები დაგვეყენებინა უკვე დამუშავების შემდგომ ეტაპზე. დავიწყეთ ერთ-ერთი უმარტივესი მეთოდით, რომელმაც, რაც არ უნდა უცნაური იყოს, საბოლოოდ საკმაოდ მისაღები შედეგი აჩვენა. სიტყვებს შორის პაუზები იღებს ერთ-ერთ ნიშანს: ინტერვალი, წერტილი, მძიმე, კითხვის ნიშანი, Ძახილის ნიშანი, მსხვილი ნაწლავი. იმის პროგნოზირებისთვის, თუ რომელი ეტიკეტი შეესაბამება კონკრეტულ პაუზას, გამოიყენება პირობითი შემთხვევითი ველების (CRF) მეთოდი. კონტექსტის დასადგენად გათვალისწინებულია სამი წინა და ორი მომდევნო სიტყვა და ეს მარტივი წესები საშუალებას გაძლევთ მოათავსოთ ნიშნები საკმაოდ მაღალი სიზუსტით. მაგრამ ჩვენ ვაგრძელებთ ექსპერიმენტებს სრულფასოვან მოდელებზე, რომლებიც შეძლებენ ადამიანის ინტონაციების სწორად ინტერპრეტაციას პუნქტუაციის თვალსაზრისით ხმის ამოცნობის ეტაპზეც კი.

Მომავლის გეგმები

დღეს SpeechKit აქტიურად გამოიყენება საბოლოო მომხმარებლების მასობრივ სერვისებში "საბრძოლო" ამოცანების გადასაჭრელად. შემდეგი ეტაპია ისწავლოთ სპონტანური მეტყველების ამოცნობა პირდაპირ ეთერში, რათა შეძლოთ ინტერვიუს რეალურ დროში გადაწერა ან ავტომატურად გააკეთოთ შენიშვნები ლექციაზე, მიიღოთ უკვე მონიშნული ტექსტი ხაზგასმული აბსტრაქტებითა და ძირითადი ფაქტებით. ეს არის უზარმაზარი და ძალიან მეცნიერულად ინტენსიური ამოცანა, რომლის გადაჭრა ჯერ კიდევ ვერავინ მოახერხა მსოფლიოში - და ჩვენ არ მოგვწონს სხვები!

SpeechKit-ის განვითარებისთვის ძალიან მნიშვნელოვანია კავშირი. Დადება

არის Yandex.Cloud პლატფორმის მეტყველების ამოცნობისა და სინთეზის სერვისი, რომელიც უზრუნველყოფს დეველოპერებს Yandex მეტყველების ტექნოლოგიებზე წვდომას. ამ სტატიაში ვისაუბრებთ მეტყველების სინთეზზე.

მეტყველების სინთეზის ტექნოლოგია საშუალებას გაძლევთ თარგმნოთ ტექსტი მეტყველებად (ხმოვანი ფაილი). ამოცანა აქტუალურია დინამიურად განახლებული ინფორმაციის ან სწრაფად ცვალებადი მონაცემების გახმოვანებისთვის, როგორიცაა საქონლის ბალანსი საწყობში, კინოთეატრების რეპერტუარი და ა.შ. Yandex-ის მეტყველების სინთეზის ტექნოლოგია დაფუძნებულია დამალული მარკოვის მოდელებზე (HMM). აკუსტიკური მოდელირებისას სტატისტიკური მიდგომის გამოყენებით შესაძლებელია ბუნებრივი გლუვი ინტონაციების მიღწევა. ტექნოლოგია საშუალებას გაძლევთ სწრაფად შექმნათ ახალი ხმები და მოახდინოთ სხვადასხვა ემოციების სინთეზი.

Yandex მეტყველების სინთეზი საშუალებას გაძლევთ აირჩიოთ:

მამრობითი ან ქალის ხმახმის მოქმედებისთვის;
ემოციები: კეთილი, გაბრაზებული, ნეიტრალური ხმა.

Yandex SpeechKit მეტყველების ამოცნობისა და სინთეზის API-ს დოკუმენტაცია ხელმისაწვდომია https://cloud.yandex.ru/docs/speechkit/

კომპონენტის გამოყენება

Oktell 2.12-დან დაწყებული, მეტყველების სინთეზის კომპონენტი გამოჩნდა სერვისსა და IVR სკრიპტებში. კომპონენტი ახმოვანებს მითითებულ ფრაზას (ასინთეზებს მეტყველებას) Yandex SpeechKit სერვისის გამოყენებით. საშუალებას გაძლევთ დაუყონებლივ დაუკრათ ფაილი რიგში, ან შექმნათ ფაილი შემდგომი გამოყენებისთვის. თქვენ შეგიძლიათ ჩართოთ ქეში კომპონენტში, რითაც შეინახოთ ყველა გენერირებული ფაილი \Oktell\Server\LocalStorage\SynthesisCache საქაღალდეში. ვინაიდან Yandex სერვისისადმი თითოეული მოთხოვნა გადახდილია, თანდართული ქეში საშუალებას გაძლევთ დაზოგოთ თქვენი ფული.

ტექნიკური დოკუმენტაცია კომპონენტისთვის:

Yandex SpeechKit მეტყველების სინთეზის სისტემის გამოსაყენებლად, გააკეთეთ შემდეგი:

მიჰყევით ინსტრუქციების 1-5 ნაბიჯებს API-ში ავტორიზაციისთვის დირექტორიის ID-ის მისაღებად
შედით თქვენს Yandex ან Yandex.Connect ანგარიშში
მიიღეთ OAuth ჟეტონი Yandex.OAuth სერვისში. ამისათვის მიჰყევით ბმულს, დააწკაპუნეთ დაშვებადა დააკოპირეთ მიღებული OAuth ჟეტონი.

ნაბიჯი 2Წადი ადმინისტრაცია / Ძირითადი პარამეტრები / მეტყველების ამოცნობა Yandex SpeechKit Cloud. შეიყვანეთ მიღებული მნიშვნელობები OAuth ჟეტონიდა დირექტორია IDშესაბამის ველებზე

ნაბიჯი 3. განვიხილოთ მეტყველების სინთეზის გამოყენების მაგალითი IVR სცენარში.

Კომპონენტი " მეტყველების სინთეზი". ულოცავს აბონენტს და ინახავს აბონენტის არჩევანს ცვლადში.

რეჟიმი - თამაში. ამ რეჟიმში, კომპონენტი დაუყოვნებლივ უკრავს გენერირებულ ფაილს მიმდინარე ხაზში.
ტექსტი - სტრიქონი " გამარჯობა! კეთილი იყოს თქვენი მობრძანება სატელეფონო სისტემების კომპანიაში! მენეჯერებთან დასაკავშირებლად დააჭირეთ 1-ს. თანამშრომლებთან დასაკავშირებლად ტექნიკური მხარდაჭერადააჭირეთ 2.". შეყვანილი ტექსტი გადაეცემა Yandex სერვერს გახმოვანებისთვის.
ხმა - ზაჰარი. პარამეტრი პასუხისმგებელია სინთეზირებულ ხმაზე: ზაჰარი - მამაკაცის ხმა, ჯეინი - ქალი. შესაძლებელია სხვა მნიშვნელობის მითითება, თუ მას მხარს უჭერს Yandex SpeechKit სერვისი.
Emote - ნაგულისხმევი. პარამეტრი პასუხისმგებელია გამოყენებული ხმის შეღებვაზე. შესაძლო ვარიანტები: კარგი, ნეიტრალური, ბოროტი, შერეული.
ქეში - გამოყენება. თუ თქვენ იყენებთ ქეშს, სისტემა შეეცდება იპოვოთ ფაილი გახმოვანებული ტექსტით ადრე გენერირებულებს შორის (მდებარეობს \Oktell\Server\LocalStorage\SynthesisCache საქაღალდეში). რეკომენდირებულია ყოველთვის ჩართოთ ფულის დაზოგვის მიზნით.
პასუხის დრო ამოიწურა, s - 5. Yandex სერვერებიდან პასუხის მოლოდინის მაქსიმალური დრო.
დაარღვიე სიმბოლოები - სტრიქონი " 1, 2 თუ აბონენტი დააჭერს მითითებულ შესვენების სიმბოლოებს, კომპონენტი შეინახავს მათ ბუფერში და გადავა შემდეგ ბლოკზე.
ბუფერი DTMF-სთვის - ცვლადი შეყვანა(სტრიქონი). ცვლადი, რომელშიც ინახება შეყვანილი შესვენების სიმბოლო.
გასუფთავებული ბუფერი - დიახ. მიუთითებს, რომ ბუფერი ჯერ გასუფთავდება.

Კომპონენტი " მენიუაგზავნის აბონენტს ოპერატორების არჩეულ ჯგუფში.

არგუმენტი - ცვლადი შეყვანა
ღირებულებები -

1 - კომპონენტზე "გადართვა 1" 2, სხვა - კომპონენტზე "გადართვა 2"

შემდგომი მარშრუტის დაყენება არ განიხილება.

წინასწარ დაყენებისთვის მეტყველების სინთეზის გამოსაყენებლად, ჯერ უნდა შექმნათ ფაილი "მეტყველების სინთეზის" კომპონენტის გამოყენებით და შეინახოთ ამ ფაილის გზა ცვლადში (შესაბამის თვისებაში). შემდეგი, მიუთითეთ ეს ფაილი "Preset Playback" კომპონენტში.

ეს ამატებს გარკვეულ სანელებელს და თუ დავიწყებ ექსპერიმენტებს სხვა ძრავებზე, კომენტარებში ვიღებ ჰეშთეგს #ReturnDashka. ამ ყველაფრის ყურება მაგარია, მაგრამ პროცესი არ ჩერდება და ბევრი კომპანია ავითარებს საკუთარ ტექნოლოგიებს. მაგალითად, მე მომეწონა ხმა, რომელსაც ასევე ხანდახან ვხვდები ვიდეოში.

ახლახან შევხვდი Yandex მეტყველების ტექნოლოგიების კომპლექსს, მათ შორის მეტყველების ამოცნობას და სინთეზს, ხმის გააქტიურებას და სალაპარაკო ტექსტში სემანტიკური ობიექტების შერჩევას. მეტყველების ტექნოლოგიამ ისწავლა ხმის აქტივაციის ამოცნობა, მისი დახმარებით შეგიძლიათ ჩაწეროთ SMS შეტყობინებები და დატოვოთ ჩანაწერები ხმით, კლავიატურის გამოყენების გარეშე, პირდაპირ შეხვიდეთ უკანა მხარეს, რომელიც წარმატებით გამოიყენება Yandex მობილური აპლიკაციებში. მაგალითად, SpeechKit Mobile SDK საშუალებას გაძლევთ ჩართოთ მეტყველების ამოცნობა და სინთეზი, ასევე Yandex ხმის გააქტიურება მობილური აპლიკაცია iOS-ისთვის, Android-ისთვის (ჩართულია ამ მომენტშირუსული, ინგლისური, თურქული და უკრაინული ენები) ან Windows ტელეფონი(Რუსული ენა). ხმის კონტროლი თქვენს აპლიკაციას უფრო მოსახერხებელი გახდის მომხმარებლისთვის, განსაკუთრებით თუ მომხმარებლის ხელები სავსეა. ეკრანზე შეხების გარეშე ერთი ფრაზით შეძლებს სასურველი ფუნქციის გამოძახებას.

ყოველთვის მიზიდავდა მეტყველების სინთეზის ტექნოლოგია, რომელიც საშუალებას გაძლევთ თარგმნოთ ტექსტი მეტყველებაში. მე სწრაფად დავხატე ტექსტი, გავახმოვანე (Milena TTS [რუსული]) და ჩავყარე ვიდეოში, ნებისმიერ თემაზე. ეს განსაკუთრებით საინტერესო იქნება იმ მომხმარებლებისთვის, რომლებსაც აქვთ მეტყველების პრობლემა ან მათთვის, ვისაც რატომღაც უხერხულია ხმა.

Yandex-ის ხმები თავისებური, სასიამოვნო და ადვილად აღქმადი ჩანდა ადამიანის ყური, განსაკუთრებით მამაკაცის ხმებიზაჰარი და ერმილი. ჯეინის, ოქსანას, ალისისა და ომაჟის ქალის ხმებმა საშინლად შემაშინა და, ჩემი აზრით, სუპერდაჟკის სიმაღლეებს ვერ აღწევენ. ასე რომ, როგორ გესმით ახალი ხმები ტიპიური სახლის კომპიუტერზე? ამისთვის მომიწია ინტერნეტის ჩაძირვა და გამოსავალი სკრიპტის სახით იპოვეს.

1. ჯერ უნდა ვიყოთ გვერდზე და დავაჭიროთ ღილაკს „დეველოპერების ოთახი“.

მაშინვე შედიხარ პერსონალური ტერიტორიადა დააჭირეთ ღილაკს "გასაღების მიღება". შემდეგი, დააჭირეთ ღილაკს "SpeechKit Cloud".

შეავსეთ წითელი ვარსკვლავით მონიშნული ყველა ველი და დააჭირეთ ღილაკს „გაგზავნა“.

გასაღები მყისიერად მიიღება, რის შემდეგაც ის უნდა დააკოპიროთ.

ახლა მოდით გადავიდეთ ამ ერთზე, სადაც ვნახავთ შეკითხვის სხვადასხვა პარამეტრს, დინამიკს (სინთეზირებული მეტყველების ხმა), პასუხის ფორმატს და URL-ის მაგალითებს. ეს ჩინური ასო ჩვეულებრივი მომხმარებლისთვის ძალიან რთული მოგეჩვენებათ, ასე რომ, მოდით გავამარტივოთ ჩვენი მოქმედებები (ან პირიქით გავართულოთ) მარტივი სკრიპტის ორგანიზებით.

2. ჩამოტვირთეთ Notepad ++ პროგრამა თქვენს კომპიუტერში (). ვამონტაჟებთ.

3. შექმენით index.html ფაილი. ვისაც ხელით შექმნის სურვილი არ აქვს, გადმოწერეთ.

შეცვალეთ ფაილის სახელი: index.html. ფაილის ტიპი: ყველა ფაილი. კოდირება: UTF-8. დააჭირეთ ღილაკს "შენახვა". მნიშვნელოვანია შეინახოთ index.html ფაილი სისტემის დისკის ძირში ან სისტემის დისკის ნებისმიერ საქაღალდეში.

ახლა შენახული ფაილის რედაქტირებაა საჭირო. გახსენით ფაილი Notepad++-ით.

სინამდვილეში, აქ არის ჩვენი დიდი ხნის ნანატრი სცენარი (). სწორად შეცვალეთ თქვენი ფაილი: ჩასვით Სწორი ადგილითქვენი გასაღები, შეცვალეთ ხმა, შეინახეთ და გამოიყენეთ.

მომავალში ორჯერ დააწკაპუნეთ index.html ფაილზე და ბრაუზერში ვიღებთ შემდეგს.

რჩება ლექსის დაწერა დიდ ფანჯარაში და ზაჰარი (ან სხვა შერჩეული პერსონაჟი) წაგიკითხავთ მას. მე არ ვკამათობ იმაზე, რომ შესაძლებელია ის თაროებზე დავდო და ხვალ არავის სჭირდება, უბრალოდ მაინტერესებდა Yandex-ის მეტყველების სინთეზის პროცესი ჩემს კომპიუტერზე, რომელიც გაგიზიარეთ.

დაეხმარეთ პროექტს მის განვითარებაში:
სბერბანკის ბარათი: 676280139020834994
Yandex.Money: 410012054992141
Webmoney: WMR საფულე R429054927097
WMZ საფულე Z401294377967

მეტყველების ამოცნობის ტექნოლოგია

Yandex Speechkit Autopoet.

ტექსტის მომზადება

გამოთქმა და ინტონაცია

გვერდზე ან სპეციალურ რესურს საიტზე

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ ასევე არსებობს შებრუნებული პრობლემა: გადააქციეთ კომპიუტერზე ხელმისაწვდომი ტექსტი ხმად.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ ისწავლოთ გამოთქმა უცხო სიტყვებიდა ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

გამოთქმა და ინტონაცია

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოზე და მარცვლიდან მარცვალზე, ხოლო ფრაზისა და წინადადების შესახებ მონაცემები მთლიანობაში საჭიროა შესაქმნელად. სწორი ინტონაციასინთეზირებული მეტყველება.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა სწორად წარმოთქვას ფონემა ან მისცეს სწორი ინტონაცია კითხვითი წინადადება? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ ღრუბელი ან მობილური ვერსია SpeechKit, Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი დაგეხმარებათ.

","contentType":"ტექსტი/html","amp":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩამოსვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ გამომცემელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

მეტყველების სინთეზის ამოცანა წყდება რამდენიმე ეტაპად. პირველი, სპეციალური ალგორითმი ამზადებს ტექსტს ისე, რომ რობოტისთვის მოსახერხებელი იყოს მისი წაკითხვა: ის წერს ყველა რიცხვს სიტყვებით, აფართოებს აბრევიატურებს. შემდეგ ტექსტი იყოფა ფრაზებად, ანუ უწყვეტი ინტონაციით ფრაზებად - ამისთვის კომპიუტერი ყურადღებას ამახვილებს პუნქტუაციის ნიშნებზე და სტაბილურ კონსტრუქციებზე. ყველა სიტყვისთვის შედგენილია ფონეტიკური ტრანსკრიფცია.

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. საბოლოოდ, თუ ჩვეულებისამებრსაკმარისი არ არის - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა გვხვდება კორპუსში სასწავლო ტექსტები, სისტემა დაიმახსოვრებს რომელ შრიფტს უსვამდა ხაზს ჩვეულებრივ მომხსენებლებს.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ჰქვია 25 მილიწამიანი ფრაგმენტები. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; სილა - ერთი სიტყვით; სიტყვა - ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; დაბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის ის მთავარი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოზე და მარცვლიდან მარცვალზე, ხოლო ფრაზისა და წინადადების შესახებ მონაცემები მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრითაა, რაც დამოკიდებულია ორგანოების სტრუქტურულ მახასიათებლებზე. მეტყველების აპარატიᲧოველი ადამიანი. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როცა რობოტს რაღაცის თქმა სჭირდება, ის იყენებს გენერატორს ხმის ტალღები- ვოკოდიტორი. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

""instantArticle":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

ტექსტის მომზადება

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; სილა - ერთი სიტყვით; სიტყვა - ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოზე და მარცვლიდან მარცვალზე, ხოლო ფრაზისა და წინადადების შესახებ მონაცემები მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როცა რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს - ვოკოდერს. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

"),"proposedBody":("წყარო":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩასვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ მაუწყებელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

ტექსტის მომზადება

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; სილა - ერთი სიტყვით; სიტყვა არის ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოზე და მარცვლიდან მარცვალზე, ხოლო ფრაზისა და წინადადების შესახებ მონაცემები მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როდესაც რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს, რომელსაც ეწოდება ვოკოდერი. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

ტექსტის მომზადება

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოზე და მარცვლიდან მარცვალზე, ხოლო ფრაზისა და წინადადების შესახებ მონაცემები მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

","contentType":"ტექსტი/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"მცირე","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificationDate":"სამ აპრ 03 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("წყარო":"

როცა ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან ხმამაღლა ამბობთ საძიებო შეკითხვას, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. ასევე არსებობს საპირისპირო დავალება: ტექსტის ხმად გადაქცევა. ზოგჯერ საკმარისია მოიწვიოთ დიქტორი და უბრალოდ ჩაწეროთ საჭირო სიტყვები და ფრაზები, მაგრამ ეს არ გამოდგება თვითნებური ტექსტებით. სწორედ აქ გამოდგება მეტყველების სინთეზი.

","contentType":"ტექსტი/html"),"proposedPreview":("წყარო":"

","contentType":"ტექსტი/html"),"titleImage":("h32":("სიმაღლე":32,"გზა":"/get-yablogs/47421/file_1475751201967/h32","სიგანე": 58"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("სიმაღლე":246,"გზა":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967)" სიმაღლე":156"გზა":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("გზა":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.mds.-yandex.blogs. 47421/file_1475751201967/major300","სიგანე":300,"სიმაღლე":150),"major444":("გზა":"/get-yablogs/47421/file_1475751201967","http:"major44" /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"სიმაღლე":246),"minor28 ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201968":wid 288,"height":160),"orig":("სიმაღლე":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("გზა":"/get-yablogs/47421/file_1475751201967",http://touch28th" ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width,"4"height":4" ":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -იაბ logs/47421/file_1475751201967/touch900")","w1000":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w1000:"Pa4":"4thful" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("სიმაღლე":246"გზა":"/get-yablogs/47421/file571220157h12015 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("სიმაღლე":246," გზა " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_12026076),3300067575. " w288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net /get-yablogs/47421/file_1475751201967/w288"),"w288h160":("სიმაღლე":160"გზა":"/get-yablogs/47421/file_1475751201967/w288h"6"Pa","2881" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("სიმაღლე":162,"გზა":"/get-yablogs/47421/57514 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("სიმაღლე":24 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1471596720 "),"w900":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620",:"fullPath" mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)","tags":[("displayName":"Yandex ტექნოლოგიები","slug": "technologii-yandeksa","url":"/blog/კომპანია? ?tag=tekhnologii-yandeksa"),("displayName":"როგორ მუშაობს?","Slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ ბლოგი /კომპანია","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/im " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"cc7976200" ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribe"Url/pi": subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company:"/blog/company/510furt79"40ccuet74 "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabota -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","ავტორი":("id":"24151397","uid": ("მნიშვნელობა":"24151397", "lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" სახელი":"სვეტა ჩი styakova","avatar":("ნაგულისხმევი":"24700/24151397-15660497","ცარიელი":false)),"მისამართი":" [ელფოსტა დაცულია] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-andSmiddle","ffis true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("სიმაღლე":32"გზა":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("სიმაღლე":246," ბილიკი":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147159602) ,"major288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"), "major300":("გზა":"/get-yablogs/47421/file_1475751201967/major300","fullPathsavath":dex" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"სიმაღლე":246),":major90 ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967":jorma 444,"სიმაღლე":246),"minor288":("გზა":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475757/2019 "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width,"4"4"4"4"4"touch ":("გზა":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","სიგანე":444,"სიმაღლე":246),"touch900":("სიმაღლე":246"გზა":"/get-yablogs/47421/file_1475751201967/touch900","სიგანე": 444"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("სიმაღლე":246,"გზა":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019020"(h)06"06"(201967)06"06"06"06"06"06"06"06"06"06"06"06"06"06"01967"06"190000120120121/47421/47421/file_1475751201967/w1000" " სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w260h260","სიგანე":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("სიმაღლე":246"გზა":"/get-yablogs/47421/file_1475751201967/w260h260http:260h36" / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"), "w288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_14019875" სიგანე ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("სიმაღლე":160"გზა":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160":16"he30ight ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14715907520 "),"w444":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w900", "wi4th": "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_147159752" "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"სიმაღლე":150))))))">

ზოგჯერ ჩვენ გვჭირდება ამობეჭდილი ტექსტის ხმით წაკითხვა. ყველაზე ხშირად, ასეთ პროგრამებს იყენებენ ისინი, ვინც ასწავლის უცხო ენებისწორი ინტონაციისა და სტრესის დასადგენად, ასევე წიგნების კითხვისთვის და უბრალოდ მეგობრების გასართობად და ხატვისთვის. ტექსტის ხმოვანი მოქმედების გამოსაყენებლად, არ არის საჭირო კომპიუტერში პროგრამების ჩამოტვირთვა, რადგან მათში საკმარისი რაოდენობაა. ონლაინ ვერსია(განსხვავებით). ეს სტატია მოიცავს საუკეთესო სინთებიადამიანის მეტყველება, რომელიც შეგიძლიათ გამოიყენოთ ონლაინ.

Translate.google.com არის ტექსტის თარგმნისა და სინთეზის უფასო სერვისი.

Google translate არის ერთ-ერთი ყველაზე პოპულარული და საუკეთესო სერვისებირომელიც უზრუნველყოფს მომსახურების ფართო სპექტრს. მაგალითად, ყველას ცნობილი მთარგმნელიაქვს შეყვანილი ტექსტის გახმოვანების ფუნქცია და ყველა მხარდაჭერილ ენაზე. ხმის ხარისხი ადგილებზე ოდნავ დაბალია, მაგრამ ზოგადად მისაღებია. თუ თქვენ თარგმნით დაბეჭდილ ტექსტს მეტყველებაში ენის შესწავლისთვის, მაშინ სინთეზატორი Გუგლის თარგმანიიდეალურად მოგეწონებათ. ამ სერვისის შესახებ ყველაზე მნიშვნელოვანი ის არის, რომ ის არის მარტივი და ხელმისაწვდომი ყველა მომხმარებლისთვის ინტერნეტში.

როგორ მოვახდინოთ ტექსტის სინთეზი Translate.google.com-ში

Google-ის სერვისით გამოსაყენებლად:

გადადით https://translate.google.com ;
აირჩიეთ საჭირო ენაღილაკზე "ენის აღმოჩენა" დაწკაპუნებით;
შემდეგ შეიყვანეთ ტექსტი ფანჯარაში, სადაც აირჩიეთ ენა;
ახლა დააწკაპუნეთ გრამოფონის ხატულაზე ფანჯრის ბოლოში და თქვენ მოისმენთ ტექსტის დაკვრას ქალის ხმით.

მისი მინუსი არის რეპროდუცირებული მეტყველების სინთეზის ფაილში თქვენს კომპიუტერში ჩამოტვირთვის შეუძლებლობა. ასევე არ არის ხმის პარამეტრები ან შემსრულებლის შერჩევა.

Acapela - უფასო ტექსტის მეტყველების პროგრამა

Acapela არის ყველაზე პოპულარული და ერთ-ერთი საუკეთესო ონლაინ მეტყველების სინთეზატორი. სერვისი მხარს უჭერს 30-ზე მეტ ენას, ასევე დიდი რიცხვიშემსრულებლების არჩევანი, როგორც კაცი, ასევე ქალი. ინგლისურისთვის 20-მდე ტემბრია ასარჩევად - ქალი, მამრობითი, მოზარდი, ბავშვი, უხეში მამაკაცი, რბილი ქალი და ა.შ. პროგრამა უაღრესად კონფიგურირებადი და მარტივი გამოსაყენებელია. საიტს აქვს პროგრამა ოფლაინ გამოყენებისთვის. თქვენ გაქვთ შესაძლებლობა სცადოთ მეტყველების სინთეზატორის დემო ვერსია მენიუს ზოლში შესაბამის პუნქტზე დაწკაპუნებით.

როგორ გამოვიყენოთ აკაპელა

სინთეზის დასაყენებლად ზეპირი მეტყველებაონლაინ, გამოიყენეთ ბლოკი გვერდის მარცხენა მხარეს http://www.acapela-group.com/voices/demo/.

ასე რომ, როგორ მუშაობს:

პირველ სტრიქონში აირჩიეთ სალაპარაკო ტექსტის ენა.
მეორე ხაზი არ არის საჭირო, თუ რუსულს აირჩევთ, რადგან არსებობს მხოლოდ ერთი ვარიანტი - ალიონა.
მესამე სტრიქონში შეიყვანეთ ტექსტი, რომლის გახმოვანებაც გსურთ. შეგიძლიათ შეიყვანოთ 300-მდე სიმბოლო.
შემდეგი, დაეთანხმეთ სერვისის პირობებს ველის მონიშვნით „ვეთანხმები პირობებს“.
და დააწკაპუნეთ ქვემოთ მოცემულ ღილაკზე "გთხოვთ დაეთანხმოთ პირობებს".

ამ სერვისით მოქმედი ხმა საშუალო ხარისხისაა. ინტონაცია თითქმის ყველა სიტყვაში სწორია. პროდუქტი ხელმისაწვდომია ყველა პლატფორმისთვის.

Next.2yxa.mobi - ონლაინ სერვისი ტექსტის კითხვისთვის

Next.2yxa.mobi ონლაინ სერვისი არის მარტივი და ხელმისაწვდომი სინთეზატორი აკრეფილი ტექსტის რეპროდუცირებისთვის. საიტი შეიქმნა ამისთვის მობილური მოწყობილობები, ასე რომ ვებ ბრაუზერის საშუალებით შეყვანით გვექნება ტექსტის სინთეზის მსუბუქი და სწრაფი ინსტრუმენტი. ამ მხრივ, საიტს აქვს გარკვეული შეზღუდვები თავის მუშაობაში. მაგალითად, თუ თქვენ გჭირდებათ გადმოწერილი ტექსტის „წაკითხვა“, მაშინ ფაილის ზომა არ უნდა აღემატებოდეს 100 კბ-ს. შეგიძლიათ აკრიფოთ ტექსტი და დაუყოვნებლივ გაახმოვანოთ იგი.

ამისთვის გჭირდებათ:

Vocalizer - ხმის სინთეზატორი ონლაინ ტექსტის დაკვრისთვის

კიდევ ერთი საუკეთესო მეტყველების სინთეზატორებს შორის ხმის მოქმედების ტესტისთვის ონლაინ, შექმნილი უცხოელი დეველოპერების მიერ არის Vocalizer. ის ხელმისაწვდომია http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. ეს არის მარტივი და გასაგები სერვისი. მენიუ და ინტერფეისი მთლიანად ინგლისურ ენაზეა, მაგრამ ამის გარკვევა ძალიან ადვილი იქნება. ონლაინ სერვისიჩვენ შეგვიძლია გამოვიყენოთ როგორც დემო ვერსია. სისტემა გთავაზობთ 100 სხვადასხვა ხმის ვარიანტს და 47 ენას.

როგორ გამოვიყენოთ Vocalizer

ამ პროგრამით ონლაინ მეტყველების სინთეზირება ძალიან მარტივია. Ამისთვის:

"ენა / დიალექტი" პუნქტში აირჩიეთ ენა;
„გენდერში“ აირჩიეთ მამრობითი ან მდედრობითი სქესის გახმოვანება (მამაკაცი - მამრობითი, ქალი - ქალი);
ქვემოთ, დიდ ბლოკში, შეიყვანეთ ტექსტი გახმოვანებისთვის და დააჭირეთ გვერდით ლურჯ ღილაკს სათამაშოდ.

პორტალი სტუდენტისთვის. თვითმმართველობის მომზადება

Omnivorous ASR და ამოცნობის ხარისხი

ხმის გააქტიურება

მეტყველების სინთეზი

სემანტიკური ობიექტების იზოლაცია

ავტოპუნქტუაცია

Მომავლის გეგმები

კომპონენტის გამოყენება

Translate.google.com არის ტექსტის თარგმნისა და სინთეზის უფასო სერვისი.

როგორ მოვახდინოთ ტექსტის სინთეზი Translate.google.com-ში

Acapela - უფასო ტექსტის მეტყველების პროგრამა

როგორ გამოვიყენოთ აკაპელა

Next.2yxa.mobi - ონლაინ სერვისი ტექსტის კითხვისთვის

Vocalizer - ხმის სინთეზატორი ონლაინ ტექსტის დაკვრისთვის

როგორ გამოვიყენოთ Vocalizer

ᲓᲐᲙᲐᲕᲨᲘᲠᲔᲑᲣᲚᲘ ᲡᲢᲐᲢᲘᲔᲑᲘ