საუკეთესო მეტყველების სინთეზატორები ონლაინ. SpeakI! Chrome გაფართოება: ბრაუზერში მეტყველების სინთეზატორი მათთვის, ვისაც ძალიან ეზარება წასაკითხად

ეს ამატებს გარკვეულ სანელებელს და თუ დავიწყებ ექსპერიმენტებს სხვა ძრავებზე, კომენტარებში ვიღებ ჰეშთეგს #ReturnDashka. ამ ყველაფრის ყურება მაგარია, მაგრამ პროცესი არ ჩერდება და ბევრი კომპანია ავითარებს საკუთარ ტექნოლოგიებს. მაგალითად, მე მომეწონა ხმა, რომელსაც ასევე ხანდახან ვხვდები ვიდეოში.

ახლახან შევხვდი Yandex მეტყველების ტექნოლოგიების კომპლექსს, მათ შორის მეტყველების ამოცნობა და სინთეზი, ხმის გააქტიურება და სალაპარაკო ტექსტში სემანტიკური ობიექტების შერჩევა. მეტყველების ტექნოლოგიამ ისწავლა ხმის აქტივაციის ამოცნობა, მისი დახმარებით შეგიძლიათ ჩაწეროთ SMS შეტყობინებები და დატოვოთ ჩანაწერები ხმით, კლავიატურის გამოყენების გარეშე, პირდაპირ შეხვიდეთ უკანა მხარეს, რომელიც წარმატებით გამოიყენება Yandex მობილური აპლიკაციებში. მაგალითად, SpeechKit Mobile SDK საშუალებას გაძლევთ ჩართოთ მეტყველების ამოცნობა და სინთეზი, ისევე როგორც Yandex ხმის აქტივაცია, მობილური აპლიკაციაში iOS, Android (ამჟამად რუსული, ინგლისური, თურქული და უკრაინული) ან Windows Phone (რუსული). ხმის კონტროლი თქვენს აპლიკაციას უფრო მოსახერხებელი გახდის მომხმარებლისთვის, განსაკუთრებით თუ მომხმარებლის ხელები სავსეა. ეკრანზე შეხების გარეშე ერთი ფრაზით შეძლებს სასურველი ფუნქციის გამოძახებას.

ყოველთვის მიზიდავდა მეტყველების სინთეზის ტექნოლოგია, რომელიც საშუალებას გაძლევთ თარგმნოთ ტექსტი მეტყველებაში. მე სწრაფად დავხატე ტექსტი, გავახმოვანე (Milena TTS [რუსული]) და ჩავყარე ვიდეოში, ნებისმიერ თემაზე. ეს განსაკუთრებით საინტერესო იქნება იმ მომხმარებლებისთვის, რომლებსაც აქვთ მეტყველების პრობლემა ან მათთვის, ვისაც რატომღაც უხერხულია ხმა.

Yandex-ის ხმები თავისებური, სასიამოვნო და ადვილად აღქმადი ჩანდა ადამიანის ყურისთვის, განსაკუთრებით ზაჰარის და ერმილის მამრობითი ხმები. ჯეინის, ოქსანას, ალისისა და ომაჟის ქალის ხმებმა საშინლად შემაშინა და, ჩემი აზრით, სუპერდაჟკის სიმაღლეებს ვერ აღწევენ. ასე რომ, როგორ გესმით ახალი ხმები ტიპიური სახლის კომპიუტერზე? ამისთვის მომიწია ინტერნეტის ჩაძირვა და გამოსავალი სკრიპტის სახით იპოვეს.

1. ჯერ უნდა ვიყოთ გვერდზე და დავაჭიროთ ღილაკს „დეველოპერების ოთახი“.


დაუყოვნებლივ შედიხართ თქვენს პირად ანგარიშში და დააჭირეთ ღილაკს "გასაღების მიღება". შემდეგი, დააჭირეთ ღილაკს "SpeechKit Cloud".


შეავსეთ წითელი ვარსკვლავით მონიშნული ყველა ველი და დააჭირეთ ღილაკს „გაგზავნა“.


გასაღები მყისიერად მიიღება, რის შემდეგაც ის უნდა დაკოპირდეს.


ახლა მოდით გადავიდეთ ამ ერთზე, სადაც ვნახავთ შეკითხვის სხვადასხვა პარამეტრს, დინამიკს (სინთეზირებული მეტყველების ხმა), პასუხის ფორმატს და URL-ის მაგალითებს. ეს ჩინური ასო ჩვეულებრივი მომხმარებლისთვის ძალიან რთული მოგეჩვენებათ, ასე რომ, მოდით გავამარტივოთ ჩვენი მოქმედებები (ან პირიქით გავართულოთ) მარტივი სკრიპტის ორგანიზებით.

2. ჩამოტვირთეთ Notepad ++ პროგრამა თქვენს კომპიუტერში (). ვამონტაჟებთ.

3. შექმენით index.html ფაილი. ვისაც ხელით შექმნის სურვილი არ აქვს, გადმოწერეთ.


შეცვალეთ ფაილის სახელი: index.html. ფაილის ტიპი: ყველა ფაილი. კოდირება: UTF-8. დააჭირეთ ღილაკს "შენახვა". მნიშვნელოვანია შეინახოთ index.html ფაილი სისტემის დისკის ძირში ან სისტემის დისკის ნებისმიერ საქაღალდეში.


ახლა შენახული ფაილის რედაქტირებაა საჭირო. გახსენით ფაილი Notepad++-ით.


სინამდვილეში, აქ არის ჩვენი დიდი ხნის ნანატრი სცენარი (). სწორად შეცვალეთ თქვენი ფაილი: ჩასვით გასაღები სწორ ადგილას, შეცვალეთ ხმა, შეინახეთ და გამოიყენეთ.

მომავალში ორჯერ დააწკაპუნეთ index.html ფაილზე და ბრაუზერში ვიღებთ შემდეგს.


რჩება ლექსის დაწერა დიდ ფანჯარაში და ზაჰარი (ან სხვა შერჩეული პერსონაჟი) წაგიკითხავთ მას. მე არ ვკამათობ იმაზე, რომ შესაძლებელია ის თაროებზე დავდო და ხვალ არავის სჭირდება, უბრალოდ მაინტერესებდა Yandex-ის მეტყველების სინთეზის პროცესი ჩემს კომპიუტერზე, რომელიც გაგიზიარეთ.

დაეხმარეთ პროექტს მის განვითარებაში:
სბერბანკის ბარათი: 676280139020834994
Yandex.Money: 410012054992141
Webmoney: WMR საფულე R429054927097
WMZ საფულე Z401294377967

მეტყველების ამოცნობის ტექნოლოგია

Yandex Speechkit Autopoet.

ტექსტის მომზადება

გამოთქმა და ინტონაცია

გვერდზე ან სპეციალურ რესურს საიტზე

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

გამოთქმა და ინტონაცია

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოში და მარცვლიდან მარცვალზე, ხოლო მონაცემები ფრაზისა და წინადადების შესახებ მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

","contentType":"ტექსტი/html","amp":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩამოსვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ გამომცემელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

მეტყველების სინთეზის ამოცანა წყდება რამდენიმე ეტაპად. პირველი, სპეციალური ალგორითმი ამზადებს ტექსტს ისე, რომ რობოტისთვის მოსახერხებელი იყოს მისი წაკითხვა: ის წერს ყველა რიცხვს სიტყვებით, აფართოებს აბრევიატურებს. შემდეგ ტექსტი იყოფა ფრაზებად, ანუ უწყვეტი ინტონაციით ფრაზებად - ამისთვის კომპიუტერი ყურადღებას ამახვილებს პუნქტუაციის ნიშნებზე და სტაბილურ კონსტრუქციებზე. ყველა სიტყვისთვის შედგენილია ფონეტიკური ტრანსკრიფცია.

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფტს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; მარცვალი - ერთი სიტყვით; სიტყვა - ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოში და მარცვლიდან მარცვალზე, ხოლო მონაცემები ფრაზისა და წინადადების შესახებ მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როცა რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს - ვოკოდერს. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

""instantArticle":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩამოსვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ გამომცემელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

მეტყველების სინთეზის ამოცანა წყდება რამდენიმე ეტაპად. პირველი, სპეციალური ალგორითმი ამზადებს ტექსტს ისე, რომ რობოტისთვის მოსახერხებელი იყოს მისი წაკითხვა: ის წერს ყველა რიცხვს სიტყვებით, აფართოებს აბრევიატურებს. შემდეგ ტექსტი იყოფა ფრაზებად, ანუ უწყვეტი ინტონაციით ფრაზებად - ამისთვის კომპიუტერი ყურადღებას ამახვილებს პუნქტუაციის ნიშნებზე და სტაბილურ კონსტრუქციებზე. ყველა სიტყვისთვის შედგენილია ფონეტიკური ტრანსკრიფცია.

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფტს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; მარცვალი - ერთი სიტყვით; სიტყვა - ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოში და მარცვლიდან მარცვალზე, ხოლო მონაცემები ფრაზისა და წინადადების შესახებ მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როცა რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს - ვოკოდერს. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

"),"proposedBody":("წყარო":"

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩამოსვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ გამომცემელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

მეტყველების სინთეზის ამოცანა წყდება რამდენიმე ეტაპად. პირველი, სპეციალური ალგორითმი ამზადებს ტექსტს ისე, რომ რობოტისთვის მოსახერხებელი იყოს მისი წაკითხვა: ის წერს ყველა რიცხვს სიტყვებით, აფართოებს აბრევიატურებს. შემდეგ ტექსტი იყოფა ფრაზებად, ანუ უწყვეტი ინტონაციით ფრაზებად - ამისთვის კომპიუტერი ყურადღებას ამახვილებს პუნქტუაციის ნიშნებზე და სტაბილურ კონსტრუქციებზე. ყველა სიტყვისთვის შედგენილია ფონეტიკური ტრანსკრიფცია.

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; მარცვალი - ერთი სიტყვით; სიტყვა არის ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოში და მარცვლიდან მარცვალზე, ხოლო მონაცემები ფრაზისა და წინადადების შესახებ მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როდესაც რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს, რომელსაც ეწოდება ვოკოდერი. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

ბევრ თქვენგანს ალბათ მოახერხა კომპიუტერის ან სმარტფონის ხმით მართვა. როდესაც ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან უთხარით საძიებო შეკითხვას Yandex აპლიკაციაში, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. მაგრამ არსებობს ასევე შებრუნებული ამოცანა: გადააქციოს ტექსტი, რომელიც კომპიუტერს აქვს ხელთ არსებული.

თუ გასაჟღერებელი ტექსტების ნაკრები შედარებით მცირეა და მათში იგივე გამონათქვამები გვხვდება - როგორც, მაგალითად, სადგურზე მატარებლების გამგზავრებისა და ჩამოსვლის შესახებ განცხადებებში - საკმარისია მოიწვიოთ გამომცემელი, ჩაწეროთ საჭირო სიტყვები და ფრაზები სტუდიაში და შემდეგ შეაგროვეთ რომელი შეტყობინება. თუმცა, თვითნებური ტექსტებით, ეს მიდგომა არ მუშაობს. სწორედ აქ გამოდგება მეტყველების სინთეზი.

Yandex იყენებს მეტყველების სინთეზის ტექნოლოგიას Yandex Speechkit კომპლექსიდან ხმოვან ტექსტებამდე. მაგალითად, ის საშუალებას გაძლევთ გაიგოთ, თუ როგორ წარმოითქმის უცხო სიტყვები და ფრაზები Translator-ში. მეტყველების სინთეზის წყალობით ავტოპოეტმაც მიიღო საკუთარი ხმა.

ტექსტის მომზადება

მეტყველების სინთეზის ამოცანა წყდება რამდენიმე ეტაპად. პირველი, სპეციალური ალგორითმი ამზადებს ტექსტს ისე, რომ რობოტისთვის მოსახერხებელი იყოს მისი წაკითხვა: ის წერს ყველა რიცხვს სიტყვებით, აფართოებს აბრევიატურებს. შემდეგ ტექსტი იყოფა ფრაზებად, ანუ უწყვეტი ინტონაციით ფრაზებად - ამისთვის კომპიუტერი ყურადღებას ამახვილებს პუნქტუაციის ნიშნებზე და სტაბილურ კონსტრუქციებზე. ყველა სიტყვისთვის შედგენილია ფონეტიკური ტრანსკრიფცია.

იმის გასარკვევად, თუ როგორ უნდა წაიკითხოს სიტყვა და სად მოახდინოს მასში სტრესი, რობოტი ჯერ მიმართავს კლასიკურ, ხელით დაწერილ ლექსიკონებს, რომლებიც სისტემაშია ჩაშენებული. თუ სასურველი სიტყვა ლექსიკონში არ არის, კომპიუტერი თავად აშენებს ტრანსკრიფციას - აკადემიური საცნობარო წიგნებიდან ნასესხები წესების საფუძველზე. და ბოლოს, თუ ჩვეულებრივი წესები არ არის საკმარისი - და ეს ხდება, რადგან ნებისმიერი ცოცხალი ენა მუდმივად იცვლება - ის იყენებს სტატისტიკურ წესებს. თუ სიტყვა შეგხვდა სასწავლო ტექსტების კორპუსში, სისტემა დაიმახსოვრებს, რომელ შრიფტს ხაზს უსვამდნენ მასში მოსაუბრეები.

გამოთქმა და ინტონაცია

როდესაც ტრანსკრიფცია მზად არის, კომპიუტერი ითვლის, რამდენ ხანს გაჟღერდება თითოეული ფონემა, ანუ რამდენ კადრს შეიცავს - ასე ეძახიან 25 მილიწამის სიგრძის ფრაგმენტებს. შემდეგ თითოეული ჩარჩო აღწერილია პარამეტრების სიმრავლის მიხედვით: რომელი ფონემის ნაწილია და რა ადგილი უჭირავს მასში; რომელ შრიფტს ეკუთვნის ეს ფონემა; თუ ხმოვანია, არის თუ არა ხაზგასმული; რა ადგილი უჭირავს მას მარცვალში; მარცვალი - ერთი სიტყვით; სიტყვა - ფრაზაში; რა სასვენი ნიშნებია ამ ფრაზის წინ და შემდეგ; რა ადგილი უჭირავს ფრაზას წინადადებაში; და ბოლოს, რა ნიშანია წინადადების ბოლოს და რა არის მისი ძირითადი ინტონაცია.

სხვა სიტყვებით რომ ვთქვათ, ბევრი მონაცემი გამოიყენება მეტყველების ყოველ 25 მილიწამში სინთეზისთვის. ინფორმაცია უშუალო გარემოს შესახებ უზრუნველყოფს გლუვ გადასვლას ჩარჩოდან ჩარჩოში და მარცვლიდან მარცვალზე, ხოლო მონაცემები ფრაზისა და წინადადების შესახებ მთლიანობაში საჭიროა სინთეზირებული მეტყველების სწორი ინტონაციის შესაქმნელად.

მომზადებული ტექსტის წასაკითხად გამოიყენება აკუსტიკური მოდელი. ის განსხვავდება აკუსტიკური მოდელისგან, რომელიც გამოიყენება მეტყველების ამოცნობაში. ნიმუშის ამოცნობის შემთხვევაში აუცილებელია გარკვეული მახასიათებლებისა და ფონემების მქონე ბგერებს შორის შესაბამისობის დადგენა. სინთეზის შემთხვევაში, აკუსტიკური მოდელი, პირიქით, უნდა შეადგინოს ბგერების აღწერილობები ჩარჩოების აღწერილობების მიხედვით.

როგორ იცის აკუსტიკურმა მოდელმა ფონემის სწორად წარმოთქმა ან სწორი ინტონაციის მიცემა კითხვით წინადადებას? ის სწავლობს ტექსტებიდან და ხმოვანი ფაილებიდან. მაგალითად, შეგიძლიათ ატვირთოთ აუდიო წიგნი და მისი შესაბამისი ტექსტი. რაც უფრო მეტ მონაცემს სწავლობს მოდელი, მით უკეთესია მისი გამოთქმა და ინტონაცია.

და ბოლოს, თავად ხმის შესახებ. ჩვენი ხმის ამოცნობა, უპირველეს ყოვლისა, ტემბრით არის დამოკიდებული, რაც დამოკიდებულია თითოეულ ადამიანში მეტყველების აპარატის ორგანოების სტრუქტურულ მახასიათებლებზე. თქვენი ხმის ტემბრის მოდელირება შესაძლებელია, ანუ მისი მახასიათებლების აღწერა - ამისთვის საკმარისია სტუდიაში ტექსტების მცირე ნაწილის წაკითხვა. ამის შემდეგ, თქვენი ტონის მონაცემები შეიძლება გამოყენებულ იქნას მეტყველების სინთეზში ნებისმიერ ენაზე, თუნდაც ის, რაც თქვენ არ იცით. როცა რობოტს რაღაცის თქმა სჭირდება, ის იყენებს ხმის ტალღის გენერატორს - ვოკოდერს. ის დატვირთულია აკუსტიკური მოდელიდან მიღებული ფრაზის სიხშირის მახასიათებლების შესახებ, ასევე მონაცემებით ტემბრის შესახებ, რომელიც ხმას ცნობად ფერს აძლევს.

თქვენ შეგიძლიათ გაიგოთ მეტი ტექნოლოგიების შესახებ Yandex SpeechKit კომპლექსიდან ამ გვერდზე ან სპეციალურ რესურსზე. თუ თქვენ ხართ დეველოპერი და გსურთ შეამოწმოთ SpeechKit-ის ღრუბელი ან მობილური ვერსია, დაგეხმარებათ Yandex ტექნოლოგიებისადმი მიძღვნილი საიტი.

","contentType":"ტექსტი/html"),"authorId":"24151397","slug":"kak-eto-rabotaet-sintez-rechi","canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"მცირე","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificationDate":"სამ აპრ 03 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("წყარო":"

როცა ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან ხმამაღლა ამბობთ საძიებო შეკითხვას, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. ასევე არსებობს საპირისპირო დავალება: ტექსტის ხმად გადაქცევა. ზოგჯერ საკმარისია მოიწვიოთ დიქტორი და უბრალოდ ჩაწეროთ საჭირო სიტყვები და ფრაზები, მაგრამ ეს არ გამოდგება თვითნებური ტექსტებით. სწორედ აქ გამოდგება მეტყველების სინთეზი.

","contentType":"ტექსტი/html"),"proposedPreview":("წყარო":"

როცა ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან ხმამაღლა ამბობთ საძიებო შეკითხვას, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. ასევე არსებობს საპირისპირო დავალება: ტექსტის ხმად გადაქცევა. ზოგჯერ საკმარისია მოიწვიოთ დიქტორი და უბრალოდ ჩაწეროთ საჭირო სიტყვები და ფრაზები, მაგრამ ეს არ გამოდგება თვითნებური ტექსტებით. სწორედ აქ გამოდგება მეტყველების სინთეზი.

როცა ნავიგატორს ეუბნებით „წავიდეთ გოგოლთან, 25“ ან ხმამაღლა ამბობთ საძიებო შეკითხვას, მეტყველების ამოცნობის ტექნოლოგია თქვენს ხმას ტექსტურ ბრძანებად გარდაქმნის. ასევე არსებობს საპირისპირო დავალება: ტექსტის ხმად გადაქცევა. ზოგჯერ საკმარისია მოიწვიოთ დიქტორი და უბრალოდ ჩაწეროთ საჭირო სიტყვები და ფრაზები, მაგრამ ეს არ გამოდგება თვითნებური ტექსტებით. სწორედ აქ გამოდგება მეტყველების სინთეზი.

","contentType":"ტექსტი/html"),"titleImage":("h32":("სიმაღლე":32,"გზა":"/get-yablogs/47421/file_1475751201967/h32","სიგანე": 58"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("სიმაღლე":246,"გზა":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967)" სიმაღლე":156"გზა":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("გზა":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.mds.-yandex.blogs. 47421/file_1475751201967/major300","სიგანე":300,"სიმაღლე":150),"major444":("გზა":"/get-yablogs/47421/file_1475751201967","http:"major44" /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421/ file_1475751 201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444,"სიმაღლე":246),"minor28 ("path":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201968":wid 288,"height":160),"orig":("სიმაღლე":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("გზა":"/get-yablogs/47421/file_1475751201967",http://touch28th" ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),"touch444":("path":"/get-yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444","width,"4"height":4" ":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex.net/get -იაბ logs/47421/file_1475751201967/touch900")","w1000":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w1000:"Pa4":"4thful" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("სიმაღლე":246"გზა":"/get-yablogs/47421/file571220157h12015 " ,"width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h260"),"w260h360":("სიმაღლე":246," გზა " :"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_12026076),3300067575. " w288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds.yandex.net /get-yablogs/47421/file_1475751201967/w288"),"w288h160":("სიმაღლე":160"გზა":"/get-yablogs/47421/file_1475751201967/w288h"6"Pa","2881" : "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("სიმაღლე":162,"გზა":"/get-yablogs/47421/57514 201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w300"),"w444":("სიმაღლე":24 ,"path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1471596720 "),"w900":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w900")","major620":("path":"/get-yablogs/47421/file_1475751201967/major620",:"fullPath" mds .yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)","tags":[("displayName":"Yandex ტექნოლოგიები","slug": "technologii-yandeksa","url":"/blog/კომპანია? ?tag=tekhnologii-yandeksa"),("displayName":"როგორ მუშაობს?","Slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ ბლოგი /კომპანია","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/im " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"cc7976200" ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb 9760017cf4ccf/removePost","urlDraft":"/blog/company/kak-eto-rabotaet-sintez-rechi/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft" /blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribe"Url/pi": subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccb9760017cf4ccf","urlEditPostPage":"/blog/company:"/blog/company/510furt79"40ccuet74 "/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto -rabota -sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto-rabotaet-sintez-rechi","ავტორი":("id":"24151397","uid": ("მნიშვნელობა":"24151397", "lite":false,"hosted":false),"aliases":("13":"chistyakova"),"login":"amarantta","display_name": (" სახელი":"სვეტა ჩი styakova","avatar":("ნაგულისხმევი":"24700/24151397-15660497","ცარიელი":false)),"მისამართი":" [ელფოსტა დაცულია] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-andSmiddle","ffis true),"originalModificationDate":"2018-04-03T15:56:07.719Z","socialImage":("h32":("სიმაღლე":32"გზა":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("სიმაღლე":246," ბილიკი":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147159602) ,"major288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"), "major300":("გზა":"/get-yablogs/47421/file_1475751201967/major300","fullPathsavath":dex" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),"major444":("path":"/get-yablogs/47421/file_147575 1201967/major444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"სიმაღლე":246),":major90 ("path":"/get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967":jorma 444,"სიმაღლე":246),"minor288":("გზა":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get- yablogs/47421/file_1475751201967/minor288","width":288,"height":160),"orig":("height":246,"path":"/get-yablogs/47421/file_1475757/2019 "width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/ 47421/file_1475751201967/touch288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width,"4"4"4"4"4"touch ":("გზა":"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512 01967/touch444","სიგანე":444,"სიმაღლე":246),"touch900":("სიმაღლე":246"გზა":"/get-yablogs/47421/file_1475751201967/touch900","სიგანე": 444"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("სიმაღლე":246,"გზა":"/get- yablogs/47421/file_1475751201967/w1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14757512019020"(h)06"06"(201967)06"06"06"06"06"06"06"06"06"06"06"06"06"06"01967"06"190000120120121/47421/47421/file_1475751201967/w1000" " სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w260h260","სიგანე":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/ 47421 /file_1475751201967/w260h260"),"w260h360":("სიმაღლე":246"გზა":"/get-yablogs/47421/file_1475751201967/w260h260http:260h36" / avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260h360"), "w288":("სიმაღლე":156,"გზა":"/get-yablogs/47421/file_14019875" სიგანე ":282,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("სიმაღლე":160"გზა":" / get-yablogs/47421/file_14 75751201967/w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160":16"he30ight ,"path":"/get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_14715907520 "),"w444":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds. yandex.net/get-yablogs/47421/file_1475751201967/w444"),"w900":("სიმაღლე":246,"გზა":"/get-yablogs/47421/file_1475751201967/w900", "wi4,4": "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_147159752" "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"სიმაღლე":150))))))">

SpeechKit Cloud არის პროგრამა, რომელიც დეველოპერებს აძლევს Yandex მეტყველების ამოცნობისა და სინთეზის ტექნოლოგიებზე წვდომას. ინტეგრაცია ხორციელდება Yandex TTS მოდულის გამოყენებით, რომელიც ხელმისაწვდომია MajorDoMo სისტემის დამატებების ბაზრის მეშვეობით.

ინსტალაციისა და კონფიგურაციის პროცედურა ძალიან მარტივია და ხორციელდება რამდენიმე ეტაპად.

1. გადადით საკონტროლო პანელზე

2. გადადით Add-on Market-ზე

3. გადადით "ურთიერთქმედების" განყოფილებაში

4. დაამატეთ მოდული MajorDomo სისტემაში - მართვის პანელი - დანამატების ბაზარი - ინტერაქცია - Yandex TTS - დამატება:

5. სისტემა შეგვატყობინებს წარმატებული ინსტალაციის შესახებ და გადამისამართებს „დამატებების ბაზრის“ გვერდზე:

6. მოდულის შემდგომი კონფიგურაციისთვის გჭირდებათ Yandex Api Key, რომლის მიღებაც შესაძლებელია დეველოპერის ოფისში, არსებული Yandex ანგარიშის გამოყენებით:

7. მიანიჭეთ სახელი შექმნილ გასაღებს და დააწკაპუნეთ SpeechKit Cloud:

8. შეავსეთ საჭირო ველები მონაცემებით და დააჭირეთ ღილაკს „გაგზავნა“:

9. თუ ყველაფერი გაკეთდა სწორად, მაშინ გენერირებული API გასაღები გამოჩნდება სიაში მარჯვნივ, რომელიც უნდა დააკოპიროთ ბუფერში:

10. გახსენით Yantex TTS მოდულის პარამეტრები (MajorDoMo - Control Panel - Applications - Yandex TTS), ჩასვით წინა ეტაპზე კოპირებული გასაღები API კლავიშის ველში, აირჩიეთ ხმა, განწყობა და ასევე დარწმუნდით, რომ მოდული გააქტიურებულია:

11. დაყენება დასრულდა!

ყურადღება!სატესტო Yandex Api Key გენერირდება 1 თვის განმავლობაში, რის შემდეგაც სისტემა შეწყვეტს ახალი (არა ქეშირებული) ფრაზების გამოთქმას. მუდმივი გასაღების მისაღებად, თქვენ უნდა გაუგზავნოთ წერილი Yandex-ს გასაღების მუდმივში გადაქცევის მოთხოვნით.

2013 წლის კიდევ ერთ კონფერენციაზე ჩვენ დეველოპერებს წარვუდგინეთ ჩვენი ახალი Yandex SpeechKit ბიბლიოთეკა. ეს არის საჯარო მეტყველების ამოცნობის API, რომლის გამოყენება შეუძლიათ Android და iOS დეველოპერებს. შეგიძლიათ ჩამოტვირთოთ SpeechKit, ასევე წაიკითხოთ დოკუმენტაცია.

Yandex SpeechKit საშუალებას გაძლევთ უშუალოდ შეხვიდეთ უკანა ნაწილზე, რომელიც წარმატებით გამოიყენება Yandex მობილური აპლიკაციებში. ჩვენ დიდი ხანია ვავითარებთ ამ სისტემას და ახლა სწორად ვცნობთ ნავიგატორსა და მობილური რუქებში სიტყვების 94%-ს, ასევე მობილური ბრაუზერში სიტყვების 84%-ს. ამ შემთხვევაში, ამოცნობას წამზე ცოტა მეტი სჭირდება. ეს უკვე ძალიან ღირსეული ხარისხია და მის გასაუმჯობესებლად აქტიურად ვმუშაობთ.

შეიძლება ითქვას, რომ უახლოეს მომავალში ხმის ინტერფეისები პრაქტიკულად არ განსხვავდებიან საიმედოობით კლასიკური შეყვანის მეთოდებისგან. დეტალური სიუჟეტი იმის შესახებ, თუ როგორ მოვახერხეთ ასეთი შედეგების მიღწევა და როგორ მუშაობს ჩვენი სისტემა, არ არის შეწყვეტილი.

მეტყველების ამოცნობა ხელოვნური ინტელექტის ერთ-ერთი ყველაზე საინტერესო და რთული ამოცანაა. აქ ჩართულია ძალიან განსხვავებული სფეროების მიღწევები: გამოთვლითი ლინგვისტიკიდან ციფრული სიგნალის დამუშავებამდე. იმის გასაგებად, თუ როგორ უნდა იყოს მოწყობილი მანქანა, რომელსაც ესმის მეტყველება, ჯერ გავიგოთ, რასთან გვაქვს საქმე.

I. საფუძვლები
ჟღერადობა ჩვენთვის, პირველ რიგში, ციფრული სიგნალია. და თუ ამ სიგნალის ჩანაწერს დავაკვირდებით, იქ ვერ დავინახავთ სიტყვებს ან მკაფიოდ გამოხატულ ფონემებს - სხვადასხვა „მეტყველების მოვლენები“ შეუფერხებლად მიედინება ერთმანეთში მკაფიო საზღვრების ფორმირების გარეშე. ერთი და იგივე ფრაზა, რომელსაც სხვადასხვა ადამიანები ლაპარაკობენ ან სხვადასხვა გარემოში, განსხვავებულად გამოიყურება სიგნალის დონეზე. ამავდროულად, ადამიანები რატომღაც ცნობენ ერთმანეთის მეტყველებას: შესაბამისად, არსებობს ინვარიანტები, რომელთა მიხედვითაც შესაძლებელია სიგნალიდან აღდგეს ის, რაც, ფაქტობრივად, ითქვა. ასეთი ინვარიანტების ძიება აკუსტიკური მოდელირების ამოცანაა.

დავუშვათ, რომ ადამიანის მეტყველება შედგება ფონემებისგან (ეს უხეში გამარტივებაა, მაგრამ პირველი მიახლოებით სწორია). ფონემა განვსაზღვროთ, როგორც ენის მინიმალური სემანტიკური ერთეული, ანუ ბგერა, რომლის ჩანაცვლებამ შეიძლება გამოიწვიოს სიტყვის ან ფრაზის მნიშვნელობის შეცვლა. ავიღოთ სიგნალის მცირე ნაწილი, ვთქვათ 25 მილიწამი. დავარქვათ ამ განყოფილებას "ჩარჩო". რა ფონემა გამოითქვა ამ ჩარჩოში? ძნელია ამ კითხვაზე ცალსახად პასუხის გაცემა - ბევრი ფონემა ძალიან ჰგავს ერთმანეთს. მაგრამ თუ შეუძლებელია ცალსახა პასუხის გაცემა, მაშინ შეიძლება კამათი "ალბათობების" თვალსაზრისით: მოცემული სიგნალისთვის, ზოგიერთი ფონემა უფრო სავარაუდოა, სხვები ნაკლებად და სხვები შეიძლება საერთოდ გამოირიცხოს განხილვისგან. სინამდვილეში, აკუსტიკური მოდელი არის ფუნქცია, რომელიც იღებს აკუსტიკური სიგნალის (ჩარჩოს) მცირე მონაკვეთს, როგორც შეყვანის სახით და გამოსცემს ამ ჩარჩოში სხვადასხვა ფონემების ალბათობის განაწილებას. ამრიგად, აკუსტიკური მოდელი გვაძლევს შესაძლებლობას ხმით აღვადგინოთ ნათქვამი - დარწმუნებით სხვადასხვა ხარისხით.

აკუსტიკის კიდევ ერთი მნიშვნელოვანი ასპექტია სხვადასხვა ფონემებს შორის გადასვლის ალბათობა. გამოცდილებიდან ვიცით, რომ ფონემების ზოგიერთი კომბინაცია ადვილად წარმოითქმის და ხშირად გვხვდება, ზოგი კი უფრო რთული გამოთქმაა და ნაკლებად გამოიყენება პრაქტიკაში. ჩვენ შეგვიძლია განვაზოგადოთ ეს ინფორმაცია და გავითვალისწინოთ ფონემების კონკრეტული თანმიმდევრობის „სარწმუნოების“ შეფასებისას.

ახლა ჩვენ გვაქვს ყველა ინსტრუმენტი, რომ ავაშენოთ მეტყველების ავტომატური ამოცნობის ერთ-ერთი მთავარი "სამუშაო ცხენი" - ფარული მარკოვის მოდელი (HMM, Hidden Markov Model). ამისთვის ცოტა ხნით წარმოვიდგინოთ, რომ ვწყვეტთ არა მეტყველების ამოცნობის პრობლემას, არამედ სრულიად საპირისპიროს - ტექსტიდან მეტყველების გადაქცევას. ვთქვათ, გვინდა მივიღოთ სიტყვა „იანდექსის“ გამოთქმა. მოდით, სიტყვა "Yandex" შედგებოდეს ფონემების ნაკრებისგან, ვთქვათ, [d][a][n][d][e][k][s]. მოდით ავაშენოთ სახელმწიფო მანქანა სიტყვა "იანდექსისთვის", რომელშიც თითოეული ფონემა წარმოდგენილია ცალკეული მდგომარეობით. დროის ყოველ მომენტში ვართ ერთ-ერთ ასეთ მდგომარეობაში და „გამოვთქვამთ“ ამ ფონემისთვის დამახასიათებელ ბგერას (ვიცით, როგორ წარმოითქმის თითოეული ფონემა აკუსტიკური მოდელის წყალობით). მაგრამ ზოგიერთი ფონემა დიდხანს გრძელდება (როგორც [a] სიტყვაში "იანდექსი"), სხვები პრაქტიკულად ყლაპავენ. სწორედ აქ გამოდგება ინფორმაცია ფონემებს შორის გადასვლის ალბათობის შესახებ. ამჟამინდელი მდგომარეობის შესაბამისი ბგერის გამომუშავებით, ჩვენ ვიღებთ ალბათურ გადაწყვეტილებას: დავრჩეთ იმავე მდგომარეობაში ან გადავიდეთ შემდეგზე (და, შესაბამისად, შემდეგ ფონემაზე).

უფრო ფორმალურად, HMM შეიძლება წარმოდგენილი იყოს შემდეგნაირად. პირველ რიგში, ჩვენ წარმოგიდგენთ ემისიის კონცეფციას. როგორც წინა მაგალითიდან გვახსოვს, ყოველი HMM მდგომარეობა „წარმოქმნის“ ამ კონკრეტული მდგომარეობისთვის დამახასიათებელ ბგერას (ანუ ფონემებს). თითოეულ კადრზე ხმა "ითამაშება" მოცემული ფონემის შესაბამისი ალბათობის განაწილებიდან. მეორეც, შესაძლებელია გადასვლები სახელმწიფოებს შორის, რომლებიც ასევე ემორჩილებიან წინასწარ განსაზღვრულ ალბათურ შაბლონებს. მაგალითად, დიდია ალბათობა იმისა, რომ [a] ფონემა „გაიჭიმოს“, რასაც ვერ ვიტყვით ფონემაზე [e]. ემისიის მატრიცა და გარდამავალი მატრიცა ცალსახად განსაზღვრავს ფარული მარკოვის მოდელს.

კარგი, ჩვენ ვნახეთ, როგორ შეიძლება ფარული მარკოვის მოდელის გამოყენება მეტყველების გენერირებისთვის, მაგრამ როგორ გამოვიყენოთ იგი მეტყველების ამოცნობის შებრუნებულ პრობლემაზე? ვიტერბის ალგორითმი მოდის სამაშველოში. ჩვენ გვაქვს დაკვირვებადი (სინამდვილეში, ბგერა) და ალბათური მოდელი, რომელიც აკავშირებს ფარულ მდგომარეობებს (ფონემებს) და დაკვირვებადებს. ვიტერბის ალგორითმი საშუალებას გაძლევთ აღადგინოთ ფარული მდგომარეობების ყველაზე სავარაუდო თანმიმდევრობა.

მოდით იყოს მხოლოდ ორი სიტყვა ჩვენს ამომცნობ ლექსიკონში: "დიახ" ([d] [a]) და "არა" ([n "] [e] [t]). ამრიგად, ჩვენ გვაქვს ორი ფარული მარკოვის მოდელი. შემდეგი, ვთქვათ, გვაქვს მომხმარებლის ხმის ჩანაწერი, რომელიც ამბობს „დიახ“ ან „არა“. ვიტერბის ალგორითმი საშუალებას მოგვცემს მივიღოთ პასუხი კითხვაზე, რომელია ამოცნობის ჰიპოთეზა უფრო სავარაუდო.

ახლა ჩვენი ამოცანაა აღვადგინოთ ფარული მარკოვის მოდელის მდგომარეობების ყველაზე სავარაუდო თანმიმდევრობა, რომელმაც ჩვენთვის წარდგენილი აუდიოჩანაწერი „გამოიყვანა“ (უფრო ზუსტად, შეიძლება გენერირება). თუ მომხმარებელი ამბობს "დიახ", მაშინ მდგომარეობების შესაბამისი თანმიმდევრობა 10 ჩარჩოზე შეიძლება იყოს, მაგალითად, [d][d][d][d][a][a][a][a][a] [a] ან [e][a][a][a][a][a][a][a][a][a][a]. ანალოგიურად, შესაძლებელია "არა"-ის სხვადასხვა გამოთქმა - მაგალითად, [n "] [n"] [n"] [e] [e] [e] [e] [t] [t] [t] და [n] " ] [n "] [e] [e] [e] [e] [e] [e] [t] [t]. ახლა ჩვენ ვიპოვით "საუკეთესს", ანუ თითოეულის გამოთქმის ყველაზე სავარაუდო ხერხს. სიტყვა. თითოეულ კადრზე ჩვენ ვეკითხებით ჩვენს აკუსტიკურ მოდელს, რამდენად სავარაუდოა, რომ აქ ჟღერდეს კონკრეტული ფონემა (მაგალითად, [d] და [a]); გარდა ამისა, ჩვენ გავითვალისწინებთ გარდამავალ ალბათობას ([d]). ->[d], [d]->[ a], [a]->[a]). ამრიგად, ჩვენ ვიღებთ თითოეული ჰიპოთეზის წარმოთქმის ყველაზე სავარაუდო გზას; უფრო მეტიც, თითოეული მათგანისთვის ვიღებთ საზომს. რამდენად სავარაუდოა, რომ ეს კონკრეტული სიტყვა იყო წარმოთქმული (ეს ზომა შეგვიძლია მივიჩნიოთ, როგორც უმოკლესი გზის სიგრძე შესაბამის გრაფიკზე).

Viterbi ალგორითმი საკმაოდ მარტივია დასანერგად (გამოიყენება დინამიური პროგრამირება) და მუშაობს დროში პროპორციულად HMM მდგომარეობებისა და ფრეიმების რაოდენობის ნამრავლის პროპორციულად. თუმცა, ჩვენთვის ყოველთვის არ არის საკმარისი ვიცოდეთ ყველაზე სავარაუდო გზა; მაგალითად, აკუსტიკური მოდელის მომზადებისას საჭიროა თითოეულ ჩარჩოზე თითოეული მდგომარეობის ალბათობის შეფასება. ამისათვის გამოიყენება Forward-Backward ალგორითმი.

თუმცა, აკუსტიკური მოდელი სისტემის მხოლოდ ერთი ნაწილია. რა მოხდება, თუ ამოცნობის ლექსიკონი არ შედგება ორი სიტყვისგან, როგორც ზემოთ განხილულ მაგალითში, არამედ ასობით ათასი ან თუნდაც მილიონისგან? ბევრი მათგანი ძალიან ჰგავს გამოთქმაში ან თუნდაც ემთხვევა. ამავდროულად, კონტექსტის არსებობისას, აკუსტიკის როლი ეცემა: ბუნდოვანი, ხმაურიანი ან ორაზროვანი სიტყვები შეიძლება აღდგეს "მნიშვნელობით". ისევ და ისევ, ალბათური მოდელები გამოიყენება კონტექსტის გასათვალისწინებლად. მაგალითად, რუსული ენის მშობლიურ ენას ესმის, რომ წინადადების ბუნებრიობა (ჩვენს შემთხვევაში, ალბათობა) "დედამ გარეცხა ჩარჩო" უფრო მაღალია, ვიდრე "დედამ გარეცხა ციკლოტრონი" ან "დედამ გარეცხა ჩარჩო". ანუ, ფიქსირებული კონტექსტის არსებობა "საპნის დედა ..." ადგენს ალბათობის განაწილებას შემდეგი სიტყვისთვის, რომელიც ასახავს როგორც სემანტიკას, ასევე მორფოლოგიას. ამ ტიპის ენობრივ მოდელებს უწოდებენ n-gram ენის მოდელებს (ტრიგრამები ზემოთ მოცემულ მაგალითში); რა თქმა უნდა, არსებობს ენის მოდელირების ბევრად უფრო რთული და ძლიერი გზები.

II. რა არის Yandex ASR-ის ქუდის ქვეშ?
ახლა, როდესაც წარმოვიდგენთ მეტყველების ამოცნობის სისტემების ზოგად სტრუქტურას, უფრო დეტალურად აღვწერთ Yandex ტექნოლოგიის დეტალებს - ჩვენი მონაცემების მიხედვით, საუკეთესო რუსული მეტყველების ამოცნობის სისტემას.
ზემოთ მოყვანილ სათამაშო მაგალითებში ჩვენ განზრახ გავაკეთეთ რამდენიმე გამარტივება და გამოვტოვეთ რამდენიმე მნიშვნელოვანი დეტალი. კერძოდ, ჩვენ ვამტკიცებდით, რომ მეტყველების ძირითადი „სამშენებლო ბლოკი“ არის ფონემა. სინამდვილეში, ფონემა ძალიან დიდი ერთეულია; ერთი ფონემის გამოთქმის ადეკვატურად მოდელირებისთვის გამოიყენება სამი ცალკეული მდგომარეობა - ფონემის დასაწყისი, შუა და დასასრული. ისინი ერთად ქმნიან იმავე HMM-ს, როგორც ზემოთ იყო წარმოდგენილი. გარდა ამისა, ფონემები პოზიციაზე და კონტექსტზეა დამოკიდებული: ფორმალურად, „იგივე“ ფონემა მნიშვნელოვნად განსხვავებულად ჟღერს იმისდა მიხედვით, თუ რომელ სიტყვის ნაწილშია და რომელ ფონემებთან არის მიმდებარე. თუმცა, კონტექსტზე დამოკიდებული ფონემების ყველა შესაძლო ვარიანტის მარტივი ჩამოთვლა დააბრუნებს კომბინაციების ძალიან დიდ რაოდენობას, რომელთაგან ბევრი არასოდეს გვხვდება რეალურ ცხოვრებაში; იმისათვის, რომ აკუსტიკური მოვლენების რაოდენობა გონივრულად ჩაითვალოს, კონტექსტზე დამოკიდებული ფონემები გაერთიანებულია ტრენინგის დასაწყისში და განიხილება ერთად.
ამრიგად, ჩვენ, პირველ რიგში, ფონემები კონტექსტზე დამოკიდებული გავხადეთ და მეორეც, თითოეული მათგანი დავყავით სამ ნაწილად. ეს ობიექტები - "ფონემების ნაწილები" - ახლა ქმნიან ჩვენს ფონეტიკურ ანბანს. მათ ასევე უწოდებენ სენონებს. ჩვენი HMM-ის თითოეული მდგომარეობა არის სენოონი. ჩვენი მოდელი იყენებს 48 ფონემას და დაახლოებით 4000 სენონს.

ასე რომ, ჩვენი აკუსტიკური მოდელი კვლავ იღებს ხმას, როგორც შეყვანა, ხოლო გამოსავალზე იძლევა ალბათობის განაწილებას სენონებზე. ახლა მოდით შევხედოთ კონკრეტულად რა არის შეყვანილი. როგორც ვთქვით, ხმა იჭრება 25 ms სექციებად ("ჩარჩოები"). როგორც წესი, ჭრის ნაბიჯი არის 10 ms, ისე, რომ მიმდებარე ჩარჩოები ნაწილობრივ გადაფარავს. ნათელია, რომ „ნედლი“ ხმა - რხევების ამპლიტუდა დროთა განმავლობაში - არ არის აკუსტიკური სიგნალის წარმოდგენის ყველაზე ინფორმაციული ფორმა. ამ სიგნალის სპექტრი უკვე ბევრად უკეთესია. პრაქტიკაში ჩვეულებრივ გამოიყენება ლოგარითმული და მასშტაბური სპექტრი, რომელიც შეესაბამება ადამიანის სმენის აღქმის კანონებს (მელ-კონვერტაცია). მიღებული მნიშვნელობები ექვემდებარება დისკრეტულ კოსინუს ტრანსფორმაციას (DCT) და შედეგი არის MFCC - Mel Frequency Cepstral კოეფიციენტები. (სიტყვა Cepstral მიიღება ასოების გადალაგებით Spectral-ში, რაც ასახავს დამატებითი DCT-ის არსებობას). MFCC არის 13 (ჩვეულებრივ) რეალური რიცხვის ვექტორი. ისინი შეიძლება გამოყენებულ იქნას როგორც შემავალი აკუსტიკური მოდელი "ნედლი", მაგრამ უფრო ხშირად ექვემდებარება ბევრ დამატებით ტრანსფორმაციას.

აკუსტიკური მოდელის ტრენინგი რთული და მრავალსაფეხურიანი პროცესია. ტრენინგისთვის გამოიყენება მოლოდინი-მაქსიმიზაციის ოჯახის ალგორითმები, როგორიცაა ბაუმ-უელშის ალგორითმი. ამ ტიპის ალგორითმების არსი არის ორი საფეხურის მონაცვლეობა: მოლოდინის საფეხურზე არსებული მოდელი გამოიყენება ალბათობის ფუნქციის მოლოდინის გამოსათვლელად, მაქსიმიზაციის საფეხურზე მოდელის პარამეტრები იცვლება ისე, რომ მაქსიმალურად გაზარდოს. ეს შეფასება. ტრენინგის ადრეულ ეტაპებზე გამოიყენება მარტივი აკუსტიკური მოდელები: მარტივი MFCC ფუნქციები მოცემულია შეყვანის სახით, ფონემები განიხილება კონტექსტიდან მიღმა და გაუსიანების ნაზავი დიაგონალური კოვარიანციული მატრიცებით (დიაგონალური GMMs - Gaussian Mixture Models) გამოიყენება მოდელირებისთვის. ემისიის ალბათობა HMM-ში. ყოველი წინა აკუსტიკური მოდელის შედეგები არის საწყისი წერტილი უფრო რთული მოდელის მომზადებისთვის, უფრო რთული შეყვანის, გამომავალი ან ემისიის ალბათობის განაწილების ფუნქციით. აკუსტიკური მოდელის გაუმჯობესების მრავალი გზა არსებობს, მაგრამ ყველაზე მნიშვნელოვანი ეფექტი არის გადასვლა GMM მოდელიდან DNN-ზე (ღრმა ნერვულ ქსელზე), რაც თითქმის აორმაგებს ამოცნობის ხარისხს. ნერვული ქსელები თავისუფალია გაუსის ნარევების მრავალი შეზღუდვისგან და აქვთ უკეთესი განზოგადების უნარი. გარდა ამისა, ნერვულ ქსელებზე დაფუძნებული აკუსტიკური მოდელები უფრო მდგრადია ხმაურის მიმართ და აქვთ უკეთესი შესრულება.

აკუსტიკური მოდელირებისთვის ნერვული ქსელი მომზადებულია რამდენიმე ეტაპად. ნერვული ქსელის ინიციალიზაციისთვის გამოიყენება შეზღუდული Boltzmann მანქანების (RBM) დასტა. RBM არის სტოქასტური ნერვული ქსელი, რომელიც ვარჯიშობს მასწავლებლის გარეშე. მიუხედავად იმისა, რომ მის მიერ ნასწავლი წონა არ შეიძლება პირდაპირ გამოიყენებოდეს აკუსტიკური მოვლენების კლასების გასარჩევად, ისინი დეტალურად წარმოადგენენ მეტყველების სტრუქტურას. თქვენ შეგიძლიათ წარმოიდგინოთ RBM, როგორც ფუნქციების ამომყვანი - შედეგად მიღებული გენერაციული მოდელი არის შესანიშნავი საწყისი წერტილი დისკრიმინაციული მოდელის შესაქმნელად. დისკრიმინაციული მოდელი ივარჯიშება კლასიკური უკუღმა გავრცელების ალგორითმის გამოყენებით, რიგ ტექნიკის გამოყენებისას, რომლებიც აუმჯობესებს კონვერგენციას და ხელს უშლის ზედმეტად მორგებას. შედეგად, ნერვული ქსელის შეყვანისას არის MFCC- მახასიათებლების რამდენიმე ჩარჩო (ცენტრალური ჩარჩო ექვემდებარება კლასიფიკაციას, დანარჩენი ქმნის კონტექსტს), გამოსავალზე არის დაახლოებით 4000 ნეირონი, რომლებიც შეესაბამება სხვადასხვა სენონს. ეს ნერვული ქსელი გამოიყენება როგორც აკუსტიკური მოდელი საწარმოო სისტემაში.

მოდით უფრო ახლოს მივხედოთ დეკოდირების პროცესს. დიდი ლექსიკის მქონე სპონტანური მეტყველების ამოცნობის პრობლემისთვის, პირველ ნაწილში აღწერილი მიდგომა არ გამოიყენება. საჭიროა მონაცემთა სტრუქტურა, რომელიც ერთმანეთთან აკავშირებს ყველა შესაძლო წინადადებას, რომლის ამოცნობაც სისტემას შეუძლია. შესაფერისი სტრუქტურა არის შეწონილი სასრული მდგომარეობის გადამყვანი (WFST) - ფაქტობრივად, მხოლოდ სასრული მდგომარეობის მანქანა გამომავალი ლენტით და კიდეებზე წონით. ამ ავტომატის შესასვლელში არის სენონები, გამოსავალზე არის სიტყვები. დეკოდირების პროცესი მთავრდება ამ ავტომატში საუკეთესო გზის არჩევით და ამ ბილიკის შესაბამისი სიტყვების გამომავალი თანმიმდევრობით. ამ შემთხვევაში, თითოეული რკალის გასწვრივ გავლის ფასი ორი კომპონენტისგან შედგება. პირველი კომპონენტი წინასწარ არის ცნობილი და გამოითვლება ავტომატის შეკრების ეტაპზე. იგი მოიცავს გამოთქმის ღირებულებას, მოცემულ მდგომარეობაზე გადასვლას, ალბათობის შეფასებას ენის მოდელის მიხედვით. მეორე კომპონენტი გამოითვლება ცალკე კონკრეტული ჩარჩოსთვის: ეს არის სენონის აკუსტიკური წონა, რომელიც შეესაბამება განხილული რკალის შეყვანის სიმბოლოს. დეკოდირება ხდება რეალურ დროში, ამიტომ ყველა შესაძლო გზა არ არის შესწავლილი: სპეციალური ევრისტიკა ზღუდავს ჰიპოთეზების კომპლექტს ყველაზე სავარაუდოთ.

რა თქმა უნდა, ტექნიკური თვალსაზრისით ყველაზე საინტერესო ნაწილი ასეთი ავტომატის კონსტრუქციაა. ეს ამოცანა მოგვარებულია ხაზგარეშე. იმისათვის, რომ გადავიდეთ მარტივი HMM-ებიდან თითოეული კონტექსტური მგრძნობიარე ფონემისთვის ხაზოვან ავტომატებზე თითოეული სიტყვისთვის, ჩვენ უნდა გამოვიყენოთ გამოთქმის ლექსიკონი. ასეთი ლექსიკონის შექმნა ხელით შეუძლებელია და აქ მანქანური სწავლების მეთოდები გამოიყენება (და თავად ამოცანას სამეცნიერო საზოგადოებაში Grapheme-to-Phoneme, ან G2P ჰქვია). თავის მხრივ, სიტყვები „შეერთება“ ერთმანეთთან ენის მოდელად, რომელიც ასევე წარმოდგენილია როგორც სასრული მდგომარეობის მანქანა. აქ ცენტრალური ოპერაცია არის WFST კომპოზიცია, მაგრამ ასევე მნიშვნელოვანია WFST ოპტიმიზაციის სხვადასხვა ტექნიკა ზომისა და მეხსიერების დაწყობის ეფექტურობისთვის.

დეკოდირების პროცესის შედეგი არის ჰიპოთეზების ჩამონათვალი, რომელთა შემდგომი დამუშავება შესაძლებელია. მაგალითად, უფრო მძლავრი ენის მოდელის გამოყენება შესაძლებელია ყველაზე სავარაუდო ჰიპოთეზების ხელახალი რანჟირებისთვის. შედეგად სია უბრუნდება მომხმარებელს, დალაგებულია ნდობის მნიშვნელობის მიხედვით - ჩვენი ნდობის ხარისხი, რომ აღიარება იყო სწორი. ხშირად მხოლოდ ერთი ჰიპოთეზა რჩება, ამ შემთხვევაში კლიენტის აპლიკაცია დაუყოვნებლივ აგრძელებს ხმოვანი ბრძანების შესრულებას.

დასასრულს, მოდით შევეხოთ მეტყველების ამომცნობი სისტემების ხარისხის მეტრიკის საკითხს. ყველაზე პოპულარული მეტრიკა არის სიტყვების შეცდომის სიხშირე (და მისი შებრუნებული სიტყვების სიზუსტე). არსებითად, ის ასახავს არასწორად აღიარებული სიტყვების პროპორციას. სიტყვების შეცდომის სიხშირის გამოსათვლელად სიტყვის ამოცნობის სისტემისთვის, გამოიყენება ხმოვანი მოთხოვნების ხელით ეტიკეტირებული კორპუსი, რომელიც შეესაბამება აპლიკაციის საგანს მეტყველების ამოცნობის გამოყენებით.

ზოგჯერ ჩვენ გვჭირდება ამობეჭდილი ტექსტის ხმით წაკითხვა. ყველაზე ხშირად, ასეთ პროგრამებს იყენებენ ისინი, ვინც უცხო ენებს სწავლობენ სწორი ინტონაციისა და სტრესის დასადგენად, ასევე წიგნების კითხვისთვის და უბრალოდ გართობისთვის და მეგობრებისთვის. ტექსტის ხმოვანი მოქმედების გამოსაყენებლად, არ არის საჭირო კომპიუტერში პროგრამების ჩამოტვირთვა, რადგან მათი რაოდენობა საკმარისია ონლაინ ვერსიაში (განსხვავებით). ეს სტატია განიხილავს ადამიანის მეტყველების საუკეთესო სინთეზატორებს, რომლებიც შეგიძლიათ გამოიყენოთ ონლაინ.

Translate.google.com არის ტექსტის თარგმნისა და სინთეზის უფასო სერვისი.

Google Translate არის ერთ-ერთი ყველაზე პოპულარული და საუკეთესო სერვისი, რომელიც გთავაზობთ სხვადასხვა სერვისების სპექტრს. მაგალითად, ცნობილ მთარგმნელს აქვს შეყვანილი ტექსტის გახმოვანების ფუნქცია და ყველა მხარდაჭერილ ენაზე. ხმის ხარისხი ადგილებზე ოდნავ დაბალია, მაგრამ ზოგადად მისაღებია. თუ თქვენ თარგმნით დაბეჭდილ ტექსტს მეტყველებაში ენის შესწავლისთვის, მაშინ Google Translate სინთეზატორი იდეალურია თქვენთვის. ამ სერვისის შესახებ ყველაზე მნიშვნელოვანი ის არის, რომ ის არის მარტივი და ხელმისაწვდომი ყველა მომხმარებლისთვის ინტერნეტში.


როგორ მოვახდინოთ ტექსტის სინთეზი Translate.google.com-ში

Google-ის სერვისით გამოსაყენებლად:

  1. გადადით https://translate.google.com ;
  2. აირჩიეთ სასურველი ენა ღილაკზე „ენის განსაზღვრა“ დაწკაპუნებით;
  3. შემდეგ შეიყვანეთ ტექსტი ფანჯარაში, სადაც აირჩიეთ ენა;
  4. ახლა დააწკაპუნეთ გრამოფონის ხატულაზე ფანჯრის ბოლოში და თქვენ გესმით ტექსტის დაკვრა ქალის ხმით.

მისი მინუსი არის რეპროდუცირებული მეტყველების სინთეზის ფაილში თქვენს კომპიუტერში ჩამოტვირთვის შეუძლებლობა. ასევე არ არის ხმის პარამეტრები ან შემსრულებლის შერჩევა.

Acapela - უფასო ტექსტის მეტყველების პროგრამა

Acapela არის ყველაზე პოპულარული და ერთ-ერთი საუკეთესო ონლაინ მეტყველების სინთეზატორი. სერვისი მხარს უჭერს 30-ზე მეტ ენას, ისევე როგორც შემსრულებლების დიდ რაოდენობას, რომელთაგანაც უნდა აირჩიონ, როგორც კაცი, ასევე ქალი. ინგლისურისთვის 20-მდე ტემბრია ასარჩევად - ქალი, მამრობითი, მოზარდი, ბავშვი, უხეში მამაკაცი, რბილი ქალი და ა.შ. პროგრამა უაღრესად კონფიგურირებადი და მარტივი გამოსაყენებელია. საიტს აქვს პროგრამა ოფლაინ გამოყენებისთვის. თქვენ გაქვთ შესაძლებლობა სცადოთ მეტყველების სინთეზატორის დემო ვერსია მენიუს ზოლში შესაბამის პუნქტზე დაწკაპუნებით.


როგორ გამოვიყენოთ აკაპელა

ონლაინ მეტყველების სინთეზის დასაყენებლად გამოიყენეთ ბლოკი გვერდის მარცხენა მხარეს http://www.acapela-group.com/voices/demo/.

ასე რომ, როგორ მუშაობს:

  1. პირველ სტრიქონში აირჩიეთ სალაპარაკო ტექსტის ენა.
  2. მეორე ხაზი არ არის საჭირო, თუ რუსულს აირჩევთ, რადგან არსებობს მხოლოდ ერთი ვარიანტი - ალიონა.
  3. მესამე სტრიქონში შეიყვანეთ ტექსტი, რომლის გახმოვანებაც გსურთ. შეგიძლიათ შეიყვანოთ 300-მდე სიმბოლო.
  4. შემდეგი, დაეთანხმეთ სერვისის პირობებს ველის მონიშვნით „ვეთანხმები პირობებს“.
  5. და დააწკაპუნეთ ქვემოთ მოცემულ ღილაკზე "გთხოვთ დაეთანხმოთ პირობებს".

ამ სერვისით მოქმედი ხმა საშუალო ხარისხისაა. ინტონაცია თითქმის ყველა სიტყვაში სწორია. პროდუქტი ხელმისაწვდომია ყველა პლატფორმისთვის.

Next.2yxa.mobi - ონლაინ სერვისი ტექსტის კითხვისთვის

Next.2yxa.mobi ონლაინ სერვისი არის მარტივი და ხელმისაწვდომი სინთეზატორი აკრეფილი ტექსტის რეპროდუცირებისთვის. საიტი შემუშავებულია მობილური მოწყობილობებისთვის, ამიტომ ვებ-ბრაუზერის საშუალებით მასში შეყვანით გვექნება ტექსტის სინთეზის მსუბუქი და სწრაფი ინსტრუმენტი. ამ მხრივ, საიტს აქვს გარკვეული შეზღუდვები თავის მუშაობაში. მაგალითად, თუ თქვენ გჭირდებათ გადმოწერილი ტექსტის „წაკითხვა“, მაშინ ფაილის ზომა არ უნდა აღემატებოდეს 100 კბ-ს. შეგიძლიათ აკრიფოთ ტექსტი და დაუყოვნებლივ გაახმოვანოთ იგი.

ამისთვის საჭიროა:


Vocalizer - ხმის სინთეზატორი ონლაინ ტექსტის დაკვრისთვის

კიდევ ერთი საუკეთესო მეტყველების სინთეზატორებს შორის ხმის მოქმედების ტესტისთვის ონლაინ, შექმნილი უცხოელი დეველოპერების მიერ არის Vocalizer. ის ხელმისაწვდომია http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html. ეს არის მარტივი და გასაგები სერვისი. მენიუ და ინტერფეისი მთლიანად ინგლისურ ენაზეა, მაგრამ ამის გარკვევა ძალიან ადვილი იქნება. ჩვენ შეგვიძლია გამოვიყენოთ ონლაინ სერვისი, როგორც დემო ვერსია. სისტემა გთავაზობთ 100 სხვადასხვა ხმის ვარიანტს და 47 ენას.


როგორ გამოვიყენოთ Vocalizer

ამ პროგრამით ონლაინ მეტყველების სინთეზირება ძალიან მარტივია. Ამისთვის:

  1. "ენა / დიალექტი" პუნქტში აირჩიეთ ენა;
  2. „გენდერში“ აირჩიეთ მამრობითი ან მდედრობითი სქესის გახმოვანება (მამაკაცი - მამრობითი, ქალი - ქალი);
  3. ქვემოთ, დიდ ბლოკში, შეიყვანეთ ტექსტი გახმოვანებისთვის და დააჭირეთ გვერდით ლურჯ ღილაკს სათამაშოდ.