მეტყველების ამოცნობის ხელსაწყოები. მეტყველების ამოცნობის ავტომატური სისტემები

Იმისთვის რომ მეტყველების ამოცნობადა თარგმნე აუდიო ან ვიდეოდან ტექსტამდე, არის პროგრამები და გაფართოებები (პლაგინები) ბრაუზერებისთვის. თუმცა, რატომ არის ეს ყველაფერი, თუ არსებობს ონლაინ სერვისები? პროგრამები უნდა იყოს დაინსტალირებული კომპიუტერზე, უფრო მეტიც, მეტყველების ამოცნობის პროგრამების უმეტესობა შორს არის უფასო.


ბრაუზერში დაინსტალირებული დანამატების დიდი რაოდენობა მნიშვნელოვნად ანელებს მის მუშაობას და ინტერნეტში სერფინგის სიჩქარეს. და სერვისები, რომლებზეც დღეს განიხილება, სრულიად უფასოა და არ საჭიროებს ინსტალაციას - შედი, ისარგებლე და წახვედი!

ამ სტატიაში ჩვენ განვიხილავთ ორი ონლაინ მეტყველების ტექსტის თარგმნის სერვისი. ორივე მუშაობს ერთნაირი პრინციპით: იწყებ ჩაწერას (მომსახურების გამოყენებისას ბრაუზერს მიკროფონზე წვდომის უფლებას აძლევ), მიკროფონში საუბრობს (კარნახი) და გამოსავალზე ღებულობ ტექსტს, რომლის კოპირება შესაძლებელია ნებისმიერ დოკუმენტში. კომპიუტერი.

Speechpad.ru

რუსულენოვანი ონლაინ მეტყველების ამოცნობის სერვისი. მას აქვს რუსულ ენაზე მუშაობის დეტალური ინსტრუქცია.

  • 7 ენის მხარდაჭერა (რუსული, უკრაინული, ინგლისური, გერმანული, ფრანგული, ესპანური, იტალიური)
  • ჩამოტვირთეთ აუდიო ან ვიდეო ფაილის გადასაწერად (YouTube ვიდეოები მხარდაჭერილია)
  • ერთდროული თარგმანი სხვა ენაზე
  • პუნქტუაციისა და ხაზის ხმოვანი შეყვანის მხარდაჭერა
  • ღილაკის ზოლი (საქმის შეცვლა, ახალი ხაზი, ციტატები, ფრჩხილები და ა.შ.)
  • პირადი ანგარიშის ხელმისაწვდომობა ჩანაწერების ისტორიით (ვარიანტი ხელმისაწვდომია რეგისტრაციის შემდეგ)
  • Google Chrome-ის დანამატის არსებობა საიტების ტექსტურ ველში ხმით ტექსტის შესაყვანად (ე.წ. "ხმოვანი ტექსტის შეყვანა - Speechpad.ru")

კარნახი.io

მეორე ონლაინ მეტყველების ტექსტის თარგმნის სერვისი. უცხოური სერვისი, რომელიც ამავდროულად მშვენივრად მუშაობს რუსულ ენაზე, რაც ძალიან გასაკვირია. მეტყველების ამოცნობის ხარისხი არ ჩამოუვარდება Speechpad-ს, მაგრამ ამაზე მოგვიანებით.

სერვისის ძირითადი ფუნქციონირება:

  • 30 ენის მხარდაჭერა, რომელთა შორის არის უნგრული, თურქული, არაბული, ჩინური, მალაიური და ა.შ.
  • სასვენი ნიშნების გამოთქმის ავტომატური ამოცნობა, ხაზების წყვეტა და ა.შ.
  • ნებისმიერი საიტის გვერდებთან ინტეგრაციის შესაძლებლობა
  • Google Chrome-ის მოდულის არსებობა (ე.წ. "VoiceRecognition")

მეტყველების ამოცნობაში ყველაზე მნიშვნელოვანია ზუსტად თარგმანის ხარისხიმეტყველება ტექსტში. სასიამოვნო "ფუნთუშები" და შესაძლებლობები - სხვა არაფერი, თუ არა კარგი პლიუსი. მაშ, რით შეიძლება დაიკვეხნოს ორივე სერვისი ამ მხრივ?

სერვისების შედარებითი ტესტი

ტესტისთვის ავირჩევთ ორ ძნელად ამოსაცნობ ფრაგმენტს, რომელიც შეიცავს სიტყვებსა და ფრაზებს, რომლებიც იშვიათად გამოიყენება დღევანდელ მეტყველებაში. დასაწყისისთვის ვკითხულობთ ნ.ნეკრასოვის ლექსის „გლეხის ბავშვების“ ფრაგმენტს.

ქვემოთ არის მეტყველების ტექსტის თარგმნის შედეგითითოეული სერვისი (შეცდომები აღინიშნება წითლად):

როგორც ხედავთ, ორივე სერვისი გაუმკლავდა მეტყველების ამოცნობას თითქმის იდენტური შეცდომებით. შედეგი საკმაოდ კარგია!

ახლა, გამოცდისთვის, ავიღოთ ნაწყვეტი წითელი არმიის ჯარისკაცის სუხოვის წერილიდან (ფილმი "უდაბნოს თეთრი მზე"):

შესანიშნავი შედეგი!

როგორც ხედავთ, ორივე სერვისი საკმაოდ ადეკვატურად უმკლავდება მეტყველების ამოცნობას - აირჩიეთ ნებისმიერი! როგორც ჩანს, ისინი ერთსა და იმავე ძრავას იყენებენ - ტესტის შედეგების მიხედვით ძალიან მსგავსი შეცდომები ჰქონდათ). მაგრამ თუ გჭირდებათ დამატებითი ფუნქციები, როგორიცაა აუდიო/ვიდეო ფაილის ატვირთვა და მისი ტექსტად თარგმნა (ტრანსკრიფცია) ან გახმოვანებული ტექსტის ერთდროული თარგმნა სხვა ენაზე, მაშინ Speechpad იქნება საუკეთესო არჩევანი!


სხვათა შორის, აი, როგორ შეასრულა მან ნეკრასოვის ლექსის ფრაგმენტის ერთდროული თარგმანი ინგლისურად:

კარგად, ეს არის მოკლე ვიდეო ინსტრუქცია Speechpad-თან მუშაობისთვის, რომელიც ჩაწერილია თავად პროექტის ავტორის მიერ:

მეგობრებო, მოგეწონათ ეს სერვისი? უკეთესი ანალოგები იცით? გაგვიზიარეთ თქვენი შთაბეჭდილებები კომენტარებში.

რა კარგი იყო ადრე! დამხმარე მაგიდასთან დარეკვით შესაძლებელი იყო გოგო ოპერატორთან საუბარი და მასთან შეხვედრის დანიშვნაც კი. ახლა, მავთულის მეორე ბოლოზე, ისმის სასიამოვნო, მაგრამ უსულო ქალის ხმა, რომელიც გვთავაზობს აკრიფოთ 1 ამა თუ იმ ინფორმაციის მისაღებად, 2 - მასთან კომუნიკაციისთვის, 3 - მენიუდან გასასვლელად და ა.შ. ინფორმაციაზე წვდომას სულ უფრო და უფრო აკონტროლებს სისტემა და არა ინდივიდუალური. ამას თავისი ლოგიკა აქვს: ერთფეროვან, უინტერესო საქმეს აკეთებს არა ადამიანი, არამედ მანქანა. მომხმარებლისთვის კი ინფორმაციის მოპოვების პროცედურა გამარტივებულია: მან დარეკა ნომრების გარკვეული ნაკრები - მიიღო საჭირო ინფორმაცია.

როგორ მუშაობს ასეთი სისტემა? შევეცადოთ გავერკვეთ.

მეტყველების ამოცნობის პროგრამების ორი ძირითადი ტიპია:

კარნახის პროგრამა - შეიყვანეთ ტექსტი და რიცხვები.

მოდით, დაუყოვნებლივ გავაკეთოთ დათქმა, რომ არ განვიხილავთ ტექსტის მეტყველებას და მეტყველების ტექსტს, ანუ ტექსტის ზეპირ მეტყველებაში თარგმნას და პირიქით. ჩვენ შემოვიფარგლებით ბრძანებების ავტომატური ამოცნობის სისტემებით ან ხმოვანი ნავიგატორებით.

SARR - რა არის ეს?

მეტყველების ავტომატური ამოცნობა (CAPP) არის მეტყველების დამუშავების პროცესის ელემენტი, რომლის მიზანია მომხმარებელსა და აპარატს შორის მოსახერხებელი დიალოგის უზრუნველყოფა. ფართო გაგებით, ჩვენ ვსაუბრობთ სისტემებზე, რომლებიც ასრულებენ მეტყველების აკუსტიკური სიგნალის ფონემურ გაშიფვრას მეტყველების შეტყობინებების თავისუფალ სტილში წარმოთქმისას, თვითნებური სპიკერი, პრობლემის ორიენტაციისა და ლექსიკონის მოცულობის შეზღუდვის გათვალისწინების გარეშე. ვიწრო გაგებით, CAPP ხელს უწყობს კონკრეტული პრობლემების გადაჭრას გარკვეული შეზღუდვების დაწესებით ბუნებრივი ჟღერადობის მეტყველების კლასიკური გაგებით ამოცნობის მოთხოვნებზე. ამრიგად, CAPP ჯიშების დიაპაზონი მერყეობს მარტივი ცალკეული მოწყობილობებიდან და საბავშვო სათამაშოებიდან, რომლებსაც შეუძლიათ ამოიცნონ ან სინთეზირონ ცალკე წარმოთქმული სიტყვები, რიცხვები, ქალაქები, სახელები და ა.შ. გამოსაყენებლად, მაგალითად, ასისტენტად (IBM VoiceType Simply Speaking Gold).

როგორც მანქანასა და ადამიანს შორის ნებისმიერი მეგობრული ინტერფეისის მთავარი კომპონენტი, CAPP შეიძლება ჩაშენდეს სხვადასხვა აპლიკაციებში, მაგალითად, ხმის მართვის სისტემებში, ხმოვანი წვდომა ინფორმაციის რესურსებზე, ენის სწავლა კომპიუტერის გამოყენებით, ქმედუუნაროების დახმარება, წვდომა რაღაც ხმის გადამოწმების სისტემების / იდენტიფიკაციის საშუალებით.

CAPP ძალიან სასარგებლოა, როგორც საძიებო და დახარისხების ინსტრუმენტი ჩაწერილი აუდიო და ვიდეო მონაცემებისთვის. მეტყველების ამოცნობა ასევე გამოიყენება ინფორმაციის შეყვანისას, რაც განსაკუთრებით სასარგებლოა, როცა ადამიანის თვალები ან ხელებია დაკავებული. CARR საშუალებას აძლევს ადამიანებს, რომლებიც მუშაობენ სტრესულ გარემოში (ექიმები საავადმყოფოებში, ქარხნის მუშები, მძღოლები) გამოიყენონ კომპიუტერი საჭირო ინფორმაციის მისაღებად ან შეყვანისთვის.

როგორც წესი, CAPP გამოიყენება ისეთ სისტემებში, როგორიცაა სატელეფონო აპლიკაციები, ჩაშენებული სისტემები (აკრიფეთ სისტემები, PDA ოპერაცია, მართვა და ა.შ.), მულტიმედიური აპლიკაციები (ენის სწავლების სისტემები).

ხმის გასაღებები

ხმის მინიშნებებს ზოგჯერ უწოდებენ ავტომატური მეტყველების ამოცნობის სისტემებს. ჩვეულებრივ, ეს არის ბიომეტრიული სისტემები, რომლებსაც აქვთ ინფორმაციაზე ავტორიზებული წვდომა ან ობიექტებზე ფიზიკური წვდომა. ასეთი სისტემების ორი ტიპი უნდა გამოიყოს: ვერიფიკაციის სისტემები და საიდენტიფიკაციო სისტემები. გადამოწმების დროს მომხმარებელი ჯერ წარმოაჩენს თავის კოდს, ანუ თავის თავს ამა თუ იმ გზით აცხადებს, შემდეგ კი ხმამაღლა ამბობს პაროლს ან რაიმე თვითნებურ ფრაზას. სისტემა ამოწმებს, შეესაბამება თუ არა მოცემული ხმა იმ სტანდარტებს, რომლებიც გამოიძახეს კომპიუტერის მეხსიერებიდან წარმოდგენილი კოდის მიხედვით.

იდენტიფიკაციისას მომხმარებლის შესახებ წინასწარი განცხადება არ კეთდება. ამ შემთხვევაში ხდება ამ ხმის შედარება ყველა სტანდარტთან და შემდეგ კონკრეტულად დგინდება, ვინ არის ხმით გამოვლენილი პირი. დღეს ასეთი სისტემების დანერგვის მრავალი მიდგომა და მეთოდი არსებობს და ყველა მათგანი, როგორც წესი, განსხვავდება ერთმანეთისგან - რამდენი დეველოპერი, ამდენი მათი ჯიში. იგივე შეიძლება ითქვას მეტყველების ამოცნობის სისტემებზე. მაშასადამე, მეტყველების ამოცნობისა და პიროვნების ამოცნობის კონკრეტული სისტემების მახასიათებლების მსჯელობა მხოლოდ სპეციალური ტესტების მონაცემთა ბაზების დახმარებითაა შესაძლებელი.

ცოტა ისტორია

ამერიკის შეერთებული შტატები, 1960-იანი წლების ბოლოს: "სამი", თქვა უოლტერ კრონკაიტმა, პოპულარული სამეცნიერო პროგრამის 21-ე საუკუნის წამყვანი, მეტყველების ამოცნობის უახლესი განვითარების დემონსტრირებისას. კომპიუტერმა ამოიცნო ეს სიტყვა, როგორც "ოთხი". – იდიოტი, – ჩაიბურტყუნა ვალტერმა. "ეს სიტყვა ლექსიკონში არ არის", - უპასუხა კომპიუტერმა.

მიუხედავად იმისა, რომ პირველი განვითარება მეტყველების ამოცნობის სფეროში თარიღდება 1920-იანი წლებით, პირველი სისტემა შეიქმნა მხოლოდ 1952 წელს Bell Laboratories-ის მიერ (დღეს Lucent Technologies-ის ნაწილი). პირველი კომერციული სისტემა კი მოგვიანებით შეიქმნა: 1960 წელს IBM-მა გამოაცხადა ასეთი სისტემის შემუშავება, მაგრამ პროგრამა არასოდეს შემოსულა ბაზარზე.

შემდეგ, 1970-იან წლებში, Eastern Airlines-მა შეერთებულ შტატებში დააინსტალირა დინამიკზე დამოკიდებული ბარგის გაგზავნის სისტემა: ოპერატორმა დაასახელა დანიშნულების ადგილი - და ბარგი გაიგზავნა გზაში. თუმცა, დაშვებული შეცდომების გამო, სისტემამ არასოდეს გაიარა საცდელი პერიოდი.

ამის შემდეგ, განვითარება ამ სფეროში, თუ ასეთი იყო, საკმაოდ ნელ-ნელა განხორციელდა. 1980-იან წლებშიც კი იყო საკმაოდ ბევრი რეალური კომერციული აპლიკაცია მეტყველების ამოცნობის სისტემების გამოყენებით.

დღეს ამ მიმართულებით არა ათობით, არამედ ასობით კვლევითი ჯგუფი მუშაობს როგორც სამეცნიერო და საგანმანათლებლო დაწესებულებებში, ასევე დიდ კორპორაციებში. ამაზე შეიძლება ვიმსჯელოთ მეტყველების ტექნოლოგიების დარგის მეცნიერთა და სპეციალისტთა საერთაშორისო ფორუმებით, როგორებიცაა ICASSP, EuroSpeech, ICPHS და ა.შ. სამუშაოს შედეგები, რომელიც, როგორც ფიგურალურად ვამბობთ, „დაეცა მთელ მსოფლიოში“, ძნელია. იყოს გადაჭარბებული.

უკვე რამდენიმე წელია, ხმის ნავიგატორები, ანუ ბრძანებების ამომცნობი სისტემები წარმატებით გამოიყენება საქმიანობის სხვადასხვა სფეროში. მაგალითად, Alcatel-ის მიერ ვატიკანისთვის მიწოდებული OmniTouch სატელეფონო ცენტრი გამოიყენებოდა იმ ღონისძიებებისთვის, რომლებიც ტარდებოდა ქრისტეს 2000 წლის იუბილეს აღნიშვნის ფარგლებში. მომლოცველმა, რომელმაც დარეკა სატელეფონო ცენტრში, დააფიქსირა თავისი შეკითხვა და მეტყველების ამოცნობის ავტომატური სისტემა "მოუსმინა" მას. თუ სისტემამ დაადგინა, რომ დასმული იყო შეკითხვა ხშირად წარმოშობილ თემაზე, როგორიცაა ღონისძიებების განრიგი ან სასტუმროს მისამართები, მაშინ ჩართული იყო წინასწარ ჩაწერილი ჩანაწერი. თუ საჭირო იყო კითხვის გარკვევა, შესთავაზეს მეტყველების მენიუ, რომელშიც ხმით უნდა მიეთითებინა ერთ-ერთი ელემენტი. თუ ამოცნობის სისტემამ დაადგინა, რომ არ იყო წინასწარ ჩაწერილი პასუხი დასმულ კითხვაზე, მაშინ პილიგრიმი დაკავშირებული იყო ადამიანის ოპერატორთან.

შვედეთში ცოტა ხნის წინ გაიხსნა ავტომატური სატელეფონო გამოკითხვის სერვისი Philips-ის მეტყველების ამოცნობის პროგრამული უზრუნველყოფის გამოყენებით. Autosvar სერვისის მუშაობის პირველი თვის განმავლობაში, რომელმაც ოფიციალური განცხადების გარეშე დაიწყო ფუნქციონირება, მისი მომსახურებით 200 000-მა მომხმარებელმა ისარგებლა. ადამიანმა უნდა აკრიფოს გარკვეული ნომერი და ავტომატური მდივნის პასუხის შემდეგ დაასახელოს ინფორმაციის დირექტორიის ის განყოფილება, რომელიც მას აინტერესებს.

ახალი სერვისი ძირითადად განკუთვნილია კერძო კლიენტებისთვის, რომლებიც უპირატესობას ანიჭებენ მას მომსახურების მნიშვნელოვნად დაბალი ღირებულების გამო. Autosvar-ის სერვისი პირველია ევროპაში (აშშ-ში მსგავსი სერვისის საცდელი ცდები AT&T-ში გასული წლის დეკემბერში დაიწყო).

აქ მოცემულია ამ ტექნოლოგიის გამოყენების რამდენიმე მაგალითი აშშ-ში.

რეალტორები ხშირად მიმართავენ Newport Wireless-ის მომსახურებებს. როდესაც რეალტორი მიდის ქუჩაში და ხედავს იყიდება ნიშანი სახლთან ახლოს, ის ურეკავს Newport Wireless-ს და ითხოვს ინფორმაციას ამა თუ იმ ნომრის მქონე სახლის შესახებ, რომელიც მდებარეობს ამა თუ იმ ქუჩაზე. სასიამოვნო ქალის ხმით ავტომოპასუხე მას სახლის კადრებზე, მშენებლობის თარიღსა და მფლობელებზე ეუბნება. ყველა ეს ინფორმაცია არის Newport Wireless მონაცემთა ბაზაში. რეალტორებს შეუძლიათ მხოლოდ კლიენტისთვის შეტყობინების გაგზავნა. გამოწერის საფასური თვეში დაახლოებით 30 დოლარია.

ჯული, Amtrak-ის ვირტუალური აგენტი, ემსახურება სარკინიგზო მგზავრებს 2001 წლის ოქტომბრიდან. იგი ტელეფონით აცნობებს მატარებლის განრიგს, მათ ჩამოსვლას და გამგზავრებას, ასევე აკეთებს ბილეთების დაჯავშნას. Julie არის SpeechWorks Software-ისა და Intervoice Hardware-ის პროდუქტი. მან უკვე გაზარდა მგზავრების კმაყოფილება 45%-ით; 50 კლიენტიდან 13 იღებს ყველა საჭირო ინფორმაციას ჯულისგან. Amtrak იყენებდა ტონზე დაფუძნებულ რეფერალურ სისტემას, მაგრამ კმაყოფილების მაჩვენებელი მაშინ დაბალი იყო, 50 კლიენტიდან მხოლოდ 9 იყო.

Amtrak აღიარებს, რომ ჯულიმ გადაიხადა მისი ფასი (4 მილიონი დოლარი) 12-18 თვეში. მან უფლება მისცა არ დაექირავებინა თანამშრომლების მთელი გუნდი. და British Airways ზოგავს 1,5 მილიონ დოლარს წელიწადში Nuance Communications-ის ტექნოლოგიის გამოყენებით, რომელიც ასევე ავტომატიზირებს დახმარების მაგიდას.

ცოტა ხნის წინ, Sony Computer Entertainment America-მ წარადგინა Socom, პირველი ვიდეო თამაში, რომელშიც მოთამაშეებს შეუძლიათ სიტყვიერი ბრძანებების მიცემა Deploy ყუმბარის მებრძოლებს. $60 თამაში იყენებს ScanSoft ტექნოლოგიას. გასულ წელს ამ თამაშებიდან 450 000 გაიყიდა, რითაც Socom გახდა უდავო ლიდერი კომპანიის გაყიდვებში.

ძვირადღირებულ მანქანებში, როგორიცაა Infinity და Jaguar, რამდენიმე წელია გამოიყენება მართვის პანელის სიტყვიერი კონტროლი: რადიო, ტემპერატურის რეჟიმი და სანავიგაციო სისტემა ესმის მანქანის მფლობელის ხმას და უდავოდ ემორჩილება მფლობელს. მაგრამ ახლა ხმის ამოცნობის ტექნოლოგია იწყებს გამოყენებას საშუალო კლასის მანქანებზე. ასე რომ, 2003 წლიდან Honda Accord-ს აქვს ჩაშენებული ხმის იდენტიფიკატორი IBM-ისგან. მას ViaVoice ჰქვია და 2000$-იანი სანავიგაციო სისტემის ნაწილია.მიმწოდებლის თქმით, Honda Accord-ის მყიდველების ერთი მეხუთედი ირჩევს მოდელს ხმოვანი ნავიგაცია.

მედიცინაშიც კი, ხმის ამოცნობის ტექნოლოგიამ იპოვა თავისი ადგილი. უკვე შემუშავებულია ექიმის ხმის მორჩილი კუჭის შესამოწმებელი მოწყობილობები. მართალია, ეს მოწყობილობები, ექსპერტების აზრით, ჯერ კიდევ არასრულყოფილია: ისინი ნელა რეაგირებენ ექიმის ბრძანებებზე. მაგრამ ჯერ კიდევ წინ. მემფისში, VA სამედიცინო ცენტრმა 277,000 დოლარის ინვესტიცია ჩადო Dragon-ის პროგრამულ უზრუნველყოფაში, რომელიც ექიმებს და ექთნებს საშუალებას აძლევს, კარნახონ ინფორმაცია კომპიუტერულ მონაცემთა ბაზაში. ალბათ, მალე აღარ იქნება საჭირო ტანჯვა, რომ სამედიცინო ჩანაწერში ექიმის ხელწერა ამოიკითხოს.

უკვე ასობით მსხვილი კომპანია იყენებს ხმის ამოცნობის ტექნოლოგიას თავის პროდუქტებსა თუ სერვისებში; მათ შორისაა AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines და Verizo. ექსპერტების აზრით, ხმოვანი ტექნოლოგიების ბაზარმა 2002 წელს მიაღწია დაახლოებით 695 მილიონ დოლარს, რაც 10%-ით მეტია 2001 წელთან შედარებით.

United Airways-მა შემოიღო ავტომატური გამოკითხვის სერვისი ჯერ კიდევ 1999 წელს. სატელეფონო ზარების დამუშავების ავტომატური სისტემებს მართავენ კომპანიები, როგორიცაა საინვესტიციო ბანკი Charles Schwab & Co, საცალო ვაჭრობის ქსელი Sears, სუპერმარკეტების ქსელი Roebuck. აშშ-ის უკაბელო ოპერატორები (AT&T Wireless და Sprint PCS) უკვე ერთ წელზე მეტია რაც იყენებენ მსგავს პროგრამებს და უზრუნველყოფენ ხმოვანი აკრეფის სერვისებს. და მიუხედავად იმისა, რომ ამერიკა ახლა ლიდერია ამ ტიპის სატელეფონო ცენტრების რაოდენობით, ახლახან ევროპაში მეტყველების ამოცნობის სისტემების უპირატესობების რეალიზება დაიწყო. მაგალითად, შვეიცარიის რკინიგზის სერვისი თავის გერმანულენოვან მგზავრებს უკვე სთავაზობს United Airways-ის მსგავს სერვისებს.

ანალიტიკოსების პროგნოზები

დღესდღეობით მეტყველების ამოცნობის ტექნოლოგიები მსოფლიოში ყველაზე პერსპექტიულად ითვლება. ამგვარად, ამერიკული კვლევითი კომპანიის Cahners In-Stat-ის პროგნოზით, 2005 წლისთვის მეტყველების ამომცნობი პროგრამული უზრუნველყოფის მსოფლიო ბაზარი 200 მილიონიდან 2,7 მილიარდ დოლარამდე გაიზრდება. Datamonitor-ის თანახმად, ხმის ტექნოლოგიების ბაზრის მოცულობა გაიზრდება საშუალოდ 43% წელიწადში: 2000 წლის 650 მილიონი დოლარიდან 2006 წელს 5,6 მილიარდ დოლარამდე (ნახ. 1). ექსპერტებმა, რომლებიც თანამშრომლობენ CNN მედია კორპორაციასთან, მეტყველების ამოცნობა წელს ერთ-ერთ რვა ყველაზე პერსპექტიულ ტექნოლოგიას ასახელებენ. და IDC-ის ანალიტიკოსები ამბობენ, რომ 2005 წლისთვის მეტყველების ამოცნობა მთლიანად ჩაანაცვლებს ბაზრიდან მეტყველების ყველა სხვა ტექნოლოგიას (ნახ. 2).

ძირითადი სირთულეები

მთავარი პრობლემა, რომელიც წარმოიქმნება CAPP-ის შემუშავებისას, არის ერთი და იგივე სიტყვის გამოთქმის ვარიანტული გამოთქმა როგორც სხვადასხვა ადამიანების, ისე ერთი და იმავე ადამიანის მიერ სხვადასხვა სიტუაციაში. ეს არ შეაწუხებს ადამიანს, მაგრამ კომპიუტერს შეუძლია. გარდა ამისა, შემომავალ სიგნალზე გავლენას ახდენს მრავალი ფაქტორი, როგორიცაა გარემოს ხმაური, ასახვა, ექო და არხის ხმაური. ეს ართულებს იმ ფაქტს, რომ ხმაური და დამახინჯება წინასწარ არ არის ცნობილი, ანუ სისტემის მორგება მათზე მუშაობის დაწყებამდე შეუძლებელია.

თუმცა, სხვადასხვა CAPP-ზე ნახევარ საუკუნეზე მეტმა მუშაობამ შედეგი გამოიღო. თითქმის ნებისმიერ თანამედროვე სისტემას შეუძლია რამდენიმე რეჟიმში იმუშაოს. პირველი, ის შეიძლება იყოს დამოკიდებული ან დამოუკიდებელი გამომცხადებლისგან. სპიკერზე დამოკიდებული სისტემა მოითხოვს სპეციალურ ტრენინგს კონკრეტული მომხმარებლისთვის, რათა ზუსტად ამოიცნოს ის, რასაც ის ამბობს. სისტემის მომზადებისთვის მომხმარებელმა უნდა თქვას რამდენიმე კონკრეტული სიტყვა ან ფრაზა, რომელსაც სისტემა გააანალიზებს და დაიმახსოვრებს შედეგებს. ეს რეჟიმი ჩვეულებრივ გამოიყენება კარნახის სისტემებში, როდესაც ერთი მომხმარებელი მუშაობს სისტემასთან.

დინამიკებისგან დამოუკიდებელი სისტემის გამოყენება ნებისმიერ მომხმარებელს შეუძლია სასწავლო პროცედურის გარეშე. ეს რეჟიმი ჩვეულებრივ გამოიყენება იქ, სადაც სწავლის პროცედურა შეუძლებელია, მაგალითად, სატელეფონო აპლიკაციებში. ცხადია, სპიკერზე დამოკიდებული სისტემის ამოცნობის სიზუსტე უფრო მაღალია, ვიდრე სპიკერზე დამოუკიდებელი სისტემის ამოცნობის სიზუსტე. თუმცა, სპიკერისგან დამოუკიდებელი სისტემა უფრო მოსახერხებელია გამოსაყენებლად, მაგალითად, მას შეუძლია იმუშაოს მომხმარებელთა შეუზღუდავ დიაპაზონთან და არ საჭიროებს ტრენინგს.

მეორეც, სისტემები იყოფა ისეთებად, რომლებიც მუშაობენ მხოლოდ იზოლირებული ბრძანებებით და ისეთებად, რომლებსაც შეუძლიათ თანმიმდევრული მეტყველების ამოცნობა. მეტყველების ამოცნობა ბევრად უფრო რთული ამოცანაა, ვიდრე ცალკე წარმოთქმული სიტყვების ამოცნობა. მაგალითად, იზოლირებული სიტყვების ამოცნობიდან მეტყველების ამოცნობაზე 1000 სიტყვიანი ლექსიკონით გადასვლისას, შეცდომის მაჩვენებელი იზრდება 3.1-დან 8.7-მდე, ხოლო მეტყველების დამუშავებას სამჯერ მეტი დრო სჭირდება.

იზოლირებული ბრძანების გამოთქმის რეჟიმი არის უმარტივესი და ნაკლებად ინტენსიური რესურსი. ამ რეჟიმში მუშაობისას, ყოველი სიტყვის შემდეგ მომხმარებელი ჩერდება, ანუ ნათლად აღნიშნავს სიტყვების საზღვრებს. სისტემას არ სჭირდება თავად ფრაზაში სიტყვის დასაწყისი და დასასრულის პოვნა. შემდეგ სისტემა ადარებს ამოცნობილ სიტყვას ლექსიკონში არსებულ ნიმუშებს და ყველაზე სავარაუდო მოდელი მიიღება სისტემის მიერ. ამ ტიპის ამოცნობა ფართოდ გამოიყენება ტელეფონში ჩვეულებრივი DTMF მეთოდების ნაცვლად.

მეტყველებაში დამატებითი ვარიაციები ასევე წარმოიქმნება თვითნებური ინტონაციების, სტრესის, ფრაზების არა მკაცრი სტრუქტურის, პაუზების, გამეორებების და ა.შ.

სიტყვების უწყვეტი და ცალკეული გამოთქმის შეერთებისას წარმოიშვა საკვანძო სიტყვების ძიების რეჟიმი. ამ რეჟიმში, CAPP პოულობს წინასწარ განსაზღვრულ სიტყვას ან სიტყვების ჯგუფს ზოგადი მეტყველების ნაკადში. სად შეიძლება მისი გამოყენება? მაგალითად, მოსასმენ მოწყობილობებში, რომლებიც ჩართულია და იწყებენ ჩაწერას, როდესაც გარკვეული სიტყვები გამოჩნდება მეტყველებაში, ან ელექტრონულ მითითებაში. თვითნებური ფორმით მოთხოვნის მიღების შემდეგ, სისტემა ირჩევს სემანტიკურ სიტყვებს და, მათი ამოცნობით, უზრუნველყოფს საჭირო ინფორმაციას.

გამოყენებული ლექსიკონის ზომა CAPP-ის მნიშვნელოვანი კომპონენტია. ცხადია, რაც უფრო დიდია ლექსიკონი, მით უფრო მაღალია სისტემის შეცდომის დაშვების ალბათობა. ბევრ თანამედროვე სისტემაში შესაძლებელია ლექსიკონების დამატება ახალი სიტყვებით საჭიროებისამებრ, ან ახალი ლექსიკონების ჩატვირთვა. ტიპიური შეცდომის კოეფიციენტი სპიკერისგან დამოუკიდებელი სისტემისთვის იზოლირებული ბრძანების გამოთქმით არის დაახლოებით 1% 100-სიტყვიანი ლექსიკონისთვის, 3% 600-სიტყვიანი ლექსიკონისთვის და 10% 8000-სიტყვიანი ლექსიკონისთვის.

თანამედროვე CAPP ბაზრის შეთავაზებები

ხოლო ბაზარი დღეს წარმოდგენილია სხვადასხვა კომპანიის CAPP-ით. განვიხილოთ ზოგიერთი მათგანი.

აკულაბი

ამოცნობის სიზუსტე 97%.

სპიკერის დამოუკიდებელი სისტემა. სისტემის დეველოპერებმა გააანალიზეს სხვადასხვა მონაცემთა ბაზა მრავალი ენისთვის, რათა გაითვალისწინონ მეტყველების ყველა ვარიაცია, რომელიც ხდება ასაკის, ხმის, სქესის და აქცენტის მიხედვით. საკუთრების ალგორითმები უზრუნველყოფენ მეტყველების ამოცნობას აღჭურვილობის მახასიათებლების (ყურსასმენები, მიკროფონი) და არხის მახასიათებლების მიუხედავად.

სისტემა მხარს უჭერს დამატებითი ლექსიკონების შექმნის შესაძლებლობას, რომლებიც ითვალისწინებენ გამოთქმისა და აქცენტების თავისებურებებს. ეს განსაკუთრებით სასარგებლოა, როდესაც სისტემას იყენებენ ადამიანები, რომელთა გამოთქმა ძალიან განსხვავდება ჩვეულებრივისგან.

სისტემა მხარს უჭერს ყველაზე გავრცელებულ ენებს, როგორიცაა ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, იტალიური, ჩრდილოეთ ამერიკის ესპანური. ლექსიკონის კონფიგურაცია შესაძლებელია რომელიმე ამ ენისთვის, მაგრამ შეუძლებელია რამდენიმე ენის გამოყენება ერთდროულად, როგორც ერთი ლექსიკონის ნაწილი.

პროდუქტი ხელმისაწვდომია Windows NT/2000, Linux და Sun SPARC Solaris-ზე.

Babear SDK ვერსია 3.0

სპიკერისგან დამოუკიდებელი სისტემა, რომელიც არ საჭიროებს ტრენინგს კონკრეტული მომხმარებლისთვის. მომხმარებლისადმი ადაპტაცია ხდება ოპერაციის დროს და უზრუნველყოფს საუკეთესო ამოცნობის შედეგს. ხმის აქტივობის ავტომატური რეგულირება საშუალებას გაძლევთ ამოიცნოთ მეტყველება ძალიან ხმაურიან გარემოში, მაგალითად მანქანაში. სისტემა არ განსაზღვრავს სიტყვებს, რომლებიც არ არის ჩამოთვლილი ლექსიკონში. შესაძლებელია საკვანძო სიტყვების მოძიება. სისტემის კონფიგურაცია შესაძლებელია იმუშაოს როგორც მცირე ლექსიკონთან (ბრძანებების იზოლირებული გამოთქმა) ასევე დიდი ლექსიკონით (მეტყველება).

სისტემა მხარს უჭერს შემდეგ ენებს: ბრიტანული და ამერიკული ინგლისური, ესპანური გერმანული, ფრანგული, დანიური, შვედური, თურქული, ბერძნული, ისლანდიური და არაბული.

სისტემა მუშაობს Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X და Linux-ზე.

ლოკენდო ASR

დინამიკების დამოუკიდებელი სისტემა ოპტიმიზირებულია ტელეფონში გამოსაყენებლად. შესაძლებელია ცალკეული სიტყვებისა და მეტყველების ამოცნობა, საკვანძო სიტყვების ძიება (500 სიტყვამდე ლექსიკონი). საშუალებას გაძლევთ შექმნათ მოსახერხებელი აპლიკაციები ლექსიკონის დიდი მოცულობისა და სისტემის მოქნილობის გამო.

მხარს უჭერს 12 ენას, მათ შორის ყველაზე გავრცელებულ ევროპულ ენებს (იტალიური, ესპანური, ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, ბერძნული, შვედური და ა.შ.).

შედის Loquendo Speech Suite-ში, ტექსტიდან მეტყველების სისტემასთან და Loquendo VoiceXML Interpreter-თან ერთად, რომელიც მხარს უჭერს მრავალ ხმას და ენას.

სისტემა მუშაობს MS Windows NT/2000, UNIX და Linux-ის ბაზაზე.

LumenVox

სპიკერისგან დამოუკიდებელი სისტემა, რომელიც არ საჭიროებს ტრენინგს, მაგრამ კონკრეტულ მომხმარებელთან ადაპტაციის შემდეგ, ამოცნობის შედეგები ბევრად უკეთესი ხდება: ამოცნობის სიზუსტე აჭარბებს 90%-ს.

მხარს უჭერს აუდიო ფაილის სხვადასხვა ფორმატს: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). მას არ აქვს მკაცრი მოთხოვნები ტექნიკის რესურსებზე. მუშაობს Windows NT/2000/XP და Linux-ის ბაზაზე.

სისტემის მოთხოვნები (Windows დაფუძნებული):

Windows NT 4.0 Service Pack 6a, Windows 2000 ან Windows XP Pro;

მეხსიერების მინიმალური ზომაა 512 მბ.

სისტემის მოთხოვნები (Red Hat Linux-ზე დაყრდნობით):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz ან უფრო მაღალი;

მეხსიერების ზომა 256 MB;

დისკის ზომა 17 მბ (დეკომპრესიის შემდეგ).

ნიუანსი

მწარმოებლების თქმით, სისტემა ოპტიმიზებულია მეხსიერების და სხვა სისტემის რესურსების მინიმალური მოხმარებისთვის. ამოცნობის სიზუსტე 96%-მდეა და მაღალი რჩება ხმაურიან გარემოშიც კი.

თითოეული მომხმარებლისთვის არის სისტემის თვითსწავლისა და მისი მორგების შესაძლებლობა.

მუშაობს Windows 2000-ზე და Linux-ზე.

სული

ენა შეიძლება იყოს ნებისმიერი (ლექსიკონი შედგენილია კლიენტის სპეციფიკური მოთხოვნებისთვის და მოიცავს იმ სიტყვებს და იმ ენაზე, რომელიც კლიენტმა მიუთითა სისტემის პარამეტრების მოთხოვნებში. ლექსიკონი შეიძლება შეიცავდეს სიტყვებს სხვადასხვა ენებიდან, ანუ გარეშე პარამეტრების შეცვლით, სისტემას შეუძლია ამოიცნოს სიტყვები, მაგალითად, როგორც ჩინურად, ასევე ფინურად, თუ ისინი ადრე იყო შეყვანილი ლექსიკონში). ამრიგად, ამ სისტემას შეუძლია ნებისმიერ ენაზე იმუშაოს, ხოლო სხვა სისტემებს - მხოლოდ მათი გარკვეული ნაკრებით.

ეს არის ავტომატური მეტყველების ამოცნობის სისტემა, რომელიც უზრუნველყოფს მაღალი ხარისხის ამოცნობას ძალიან ხმაურიან გარემოშიც კი. სისტემის ადვილად კონფიგურაცია შესაძლებელია ორიდან ერთ-ერთ რეჟიმში მუშაობისთვის: ფრაზების ამოცნობა ბრძანებების ფიქსირებული რაოდენობით (ინდივიდუალური ბრძანებების გამოთქმა, PIN კოდის რეჟიმი) და ფრაზების ამოცნობა ბრძანებების თვითნებური რაოდენობით (ბრძანებების უწყვეტი გამოთქმა, "თანმიმდევრული მეტყველების რეჟიმი"). შესაძლებელია საკვანძო სიტყვების მოძიება. ეს ხსნარი მუშაობს დანამატის არასტაციონარული ხმაურის პირობებში. საჭირო სიგნალი-ხმაურის თანაფარდობა არის 0 დბ-მდე "PIN-კოდის რეჟიმში" და +15 დბ-მდე დაკავშირებულ მეტყველების რეჟიმში.

ამოცნობის დაგვიანება - 0,2 წმ. აკუსტიკური არხის პარამეტრები: გამტარუნარიანობა 300-3500 ჰც-ის ფარგლებში. აკუსტიკური გარემოსთან ადაპტაცია ხორციელდება ხმაურის ფრაგმენტებით, რომელთა საერთო სიგრძეა მინიმუმ 3 წმ.

"PIN კოდის რეჟიმისთვის":

ლექსიკონი - 50 ბრძანება;

სწორი ამოცნობის ალბათობა - 95-99% SNR = 0…6 dB;

საჭირო აკუსტიკური პირობები: დანამატი ფართოზოლოვანი სტატიკური ხმაური SNR-ით (სიგნალი ხმაურის თანაფარდობა) >= 15 დბ.

დაკავშირებული მეტყველების ამოცნობის რეჟიმისთვის:

ლექსიკონი - 12 სიტყვა / რიცხვი;

სიტყვების ჯაჭვის სწორად ამოცნობის ალბათობა 98-99%-ია.

სპეციფიკა: ადაპტაცია თვითნებურ ხმაურებთან.

სიტყვის ამოცნობის ავტომატური სისტემა SPIRIT-ისგან ხელმისაწვდომია კომპიუტერის აპლიკაციის სახით MS Windows ან ასამბლეის კოდით. მომხმარებლების მოთხოვნით, გამოსავალი შეიძლება იყოს პორტირებული ნებისმიერ DSP ან RISC პლატფორმაზე.

VoiceWare

სისტემას შეუძლია იმუშაოს როგორც დინამიკზე დამოკიდებული, ასევე დინამიკზე დამოუკიდებელ რეჟიმში, ამიტომ სისტემის სპეციალური ტრენინგი კონკრეტულ მომხმარებელთან მუშაობისთვის საჭირო არ არის.

უზრუნველყოფს ამოცნობის მაღალ სიზუსტეს და რეალურ დროში მუშაობას, თუნდაც ხმაურიან გარემოში.

სისტემა ცნობს დაკავშირებულ მეტყველებას და რიცხვების თანმიმდევრულ სიას.

ლექსიკონში ჩამოთვლილი სიტყვები და გარე ხმაური არ აღიქმება მის მიერ და სიტყვები, რომლებიც არაფერს ნიშნავს, როგორიცაა "ა", "კარგი" და ა.შ., უგულებელყოფილია.

შესაძლებელია ლექსიკონში ახალი სიტყვების დამატება.

სისტემა ავტომატურად არეგულირებს მომხმარებლის ტონს, გამოთქმას და მეტყველების სხვა მახასიათებლებს.

VoiceWare მხარს უჭერს აშშ-ს ინგლისურს და კორეულს; დამუშავების პროცესშია ჩინური და იაპონური.

სისტემა მუშაობს Windows 95/98/NT 4.0, UNIX და Linux-ზე.

  • 9. ფონოლოგიური პოზიციები. ძლიერი და სუსტი ფონემები.
  • 10. ხმოვანთა ფონემების პოზიციური მონაცვლეობები. ხმოვანთა ფონემების რაოდენობრივი და ხარისხობრივი შემცირება.
  • 11. თანხმოვანთა ფონემების პოზიციური მონაცვლეობები. ასიმილაცია და დისიმილაცია სიყრუით/ხმით და სიმტკიცით/რბილობით.
  • 12. ფონემების ისტორიული მონაცვლეობები.
  • 13. შემცირებული ხმოვანთა ფონემების დაცემა და ამ ფენომენის შედეგები.
  • 14. ალტერნატივები, რომლებიც დაკავშირებულია ცხვირის ბგერების ისტორიასთან ძველ რუსულ ენაში.
  • 15. უკანა ენების პალატალიზაცია.
  • 17. ფონეტიკური ტრანსკრიფცია. ფონემატური ტრანსკრიფცია
  • 18. მარცვალი. Სასწავლო პროგრამა. მარცვლების ტიპები.
  • 19. ფონეტიკური სიტყვა. სტრესი
  • 20. მეტყველების ცემა. ინტონაცია
  • 21. ხაზგასმა. ინტონაციური კონსტრუქციები
  • 21. ფრაზა. ინტონაცია
  • 22. ორთოეპიის ცნება
  • 23. რუსული ლიტერატურული გამოთქმის ძირითადი წესები.
  • 24. ხმოვანთა გამოთქმა სტრესის ქვეშ. დაუხაზავი ხმოვანთა გამოთქმა.
  • 25. ცალკეული თანხმოვნების გამოთქმა.
  • 26. თანხმოვანთა ჯგუფების გამოთქმა.
  • 27. ზოგიერთი გრამატიკული ფორმის გამოთქმა.
  • 28. ზოგიერთი შემოკლების გამოთქმა. უცხო სიტყვების გამოთქმის თავისებურებები.
  • 29. რუსულში სტრესის დაუფლების რთული შემთხვევები.
  • 30. რუსული ლიტერატურული გამოთქმის განვითარება.
  • 31. გრამატიკული კოდირება
  • 32. სემანტიკური კოდირება. ორარგუმენტი (დროითი ნიშნები): მიზეზობრიობა.
  • 33. სემანტიკური კოდირება. ორარგუმენტი (დროებითი ნიშნები): შედეგი, შედეგი, მიზანი.
  • 34. სემანტიკური კოდირება. ორარგუმენტი (დროითი ნიშნები): გარდაქმნა, ცვლილება
  • 35. სემანტიკური კოდირება. ორარგუმენტი (დროებითი ნიშნები): ურთიერთქმედება, დაჯგუფება, საერთოობა, ასოციაცია
  • 36. სემანტიკური კოდირება. ორარგუმენტი (დროებითი ნიშნები): განშორება, გავლენა, მდგომარეობა, შესვლა.
  • 37. სემანტიკური კოდირება. ორარგუმენტი (დროებითი ნიშნები): შესაბამისობა, კონტროლი, დაქვემდებარება, დამოკიდებულება.
  • 38. სემანტიკური კოდირება. ერთარგუმენტი (მუდმივი ნიშნები): საკუთრება, აუცილებლობა, შესაძლებლობა, ალბათობა, დიახ, არა.
  • 39. სემანტიკური კოდირება. ერთარგუმენტი (მუდმივი ნიშნები): სიმართლე, სიცრუე.
  • სემანტიკური კოდი. მისი მიზნები. მიზანი. მშენებლობის პრინციპი. Შესაძლებლობები.
  • სემანტიკური კოდის დანიშნულება. ტერმინი "მნიშვნელობა".
  • სემანტიკური კოდის დანიშნულება. ტექსტი. ინფორმაცია. ჰიპერტექსტი ინფორმაციის განვითარებაში.
  • 43. გრამატიკა და სემანტიკური ანალიზი სემანტიკურ კოდირებაში.
  • 44. თავსებადობის რუსული სემანტიკური ლექსიკონი და სემანტიკური კოდირების ასოციაციური ლექსიკონი.
  • სემანტიკური კოდის დანიშნულება. სისტემის იზომორფიზმი.
  • სემანტიკური კოდის დანიშნულება. აუცილებელისა და საკმარისის პრინციპი.
  • სემანტიკური კოდის დანიშნულება. კლასებისა და ქვეკლასების დაკავშირება
  • 48. სემანტიკური კოდის დანიშნულება. იერარქიის/არაიერარქიის პრინციპი.
  • 49. სემანტიკური კოდის დანიშნულება. სისტემური მეტაფორა.
  • 50. სიტუაციური (სიტუაციური) სემანტიკური კოდი.
  • 51. სემანტიკური კოდირება. გასწორება-ინტერპრეტაციული კოდი. მატრიცის კოდი.
  • 52. მეტყველების ინტერფეისის ძირითადი ამოცანები და ძირითადი ცნებები.
  • 53. მეტყველების ამოცნობისა და სინთეზის პრობლემის ისტორიული მიმოხილვა.
  • 54. მეტყველების ავტომატური სინთეზის სისტემები. მეტყველების ინტერფეისის პრაქტიკული აპლიკაციები.
  • 55. ავტომატური მეტყველების ამომცნობი სისტემები. მეტყველების ინტერფეისის პრაქტიკული აპლიკაციები.
  • 56. მეტყველების ინტერფეისის ენობრივი საფუძვლები. ლინგვისტიკის გამოყენება მეტყველების სისტემების დანერგვაში.
  • 57. სამეტყველო სიგნალის სტრუქტურა. ანალიზი და სინთეზი. მეტყველების სიგნალის სპექტრულ-დროითი მახასიათებლები.
  • 58. სამეტყველო სიგნალის საინფორმაციო და მოდულაციური სტრუქტურა.
  • 59. სამეტყველო სიგნალის სინთეზირების მეთოდები. განზოგადებული მათემატიკური მოდელები მეტყველების სიგნალების აღწერისთვის.
  • 60. სამეტყველო სიგნალის სინთეზირების მეთოდები. ვოკალური ტრაქტის გეომეტრიული მოდელი.
  • 61. სამეტყველო სიგნალის სინთეზირების მეთოდები. ფორმატის მოდელი.
  • 62. სამეტყველო სიგნალის სინთეზის კომპილაციის მეთოდები.
  • 63. მეტყველების სიგნალის ანალიზის მეთოდები.
  • 64. სამეტყველო სიგნალის ციფრული ფილტრაციის მეთოდი. სპექტრული ანალიზი FFT ალგორითმების გამოყენებით. ციფრული ფილტრაციის მეთოდი
  • სპექტრის ანალიზი FFT ალგორითმების გამოყენებით
  • 65. სპექტრული ანალიზი წრფივი პროგნოზის საფუძველზე. მეტყველების სიგნალის ფორმატულ-პარამეტრული აღწერა. სპექტრული ანალიზი ხაზოვანი პროგნოზის საფუძველზე
  • მეტყველების სიგნალის ფორმატულ-პარამეტრული აღწერა
  • 66. ცეპსტრალური კოეფიციენტების მეთოდი. მეტყველების აღქმის თავისებურებები. პიროვნების მიერ მეტყველების მიმღები აღქმის თვისებები. Cepstral კოეფიციენტის მეთოდი
  • 67. მეტყველების სიგნალების მიმღები აღქმის თვისებები. მეტყველების სიგნალის სმენითი (ფონეტიკური) მახასიათებლების ბუნება. მეტყველების სიგნალების მიმღები აღქმის თვისებები
  • მეტყველების სიგნალის სმენითი (ფონეტიკური) მახასიათებლების ბუნება
  • 68. მეტყველების მინიმალური შინაარსიანი ელემენტების აღქმის თვისებები
  • 69. მეტყველების სინთეზი ტექსტში. მეტყველების სინთეზატორის სტრუქტურა ტექსტის მიხედვით.
  • ტექსტის მეტყველების სტრუქტურა ძირითადი ცნებები:
  • 70. ლინგვისტური დამმუშავებელი. ტექსტის წინასწარი დამუშავება. ტექსტის ფრაზების დამუშავება.
  • ტექსტის წინასწარი დამუშავება
  • ტექსტის ფრაზით დამუშავება
  • 71. ტესტის ტექსტური დამუშავება. ლინგვისტური დამმუშავებლის მუშაობის მაგალითი. სიტყვების დამუშავება
  • ლინგვისტური დამმუშავებლის მუშაობის მაგალითი
  • 72. პროსოდიური პროცესორი
  • 73. ფონეტიკური პროცესორი. არტიკულაციურ-ფონეტიკური პროცესორი. Formant ფონეტიკური პროცესორი.
  • 74. ალოფონის ფონეტიკური პროცესორი. აკუსტიკური პროცესორი.
  • 75. სამეტყველო ტაქტის გეომეტრიის მიახლოება. აკუსტიკური პროცესორი, რომელიც დაფუძნებულია მეტყველების სინთეზის კომპილაციის მეთოდებზე.
  • 76. მეტყველების ავტომატური ამომცნობი სისტემების კლასიფიკაცია. მეტყველების ავტომატური ამოცნობის მეთოდები.
  • 77. მეტყველების ამოცნობის მეთოდების კლასიფიკაცია.
  • 78. დინამიური პროგრამირების მეთოდი.
  • 79. ფარული მარკოვის მოდელების მეთოდი.
  • მეტყველების ამოცნობის ავტომატური სისტემები (SAPP) გაგებულია, როგორც სისტემები, რომლებიც გარდაქმნის შეყვანილ მეტყველებას (მეტყველების სიგნალს) აღიარებულ შეტყობინებად. ამ შემთხვევაში, აღიარებული შეტყობინება შეიძლება წარმოდგენილი იყოს როგორც ამ შეტყობინების ტექსტის სახით, ასევე

    დაუყოვნებლივ გარდაიქმნება მისი შემდგომი დამუშავებისთვის მოსახერხებელ ფორმაში, რათა ჩამოყალიბდეს სისტემის პასუხი. თავდაპირველად, მეტყველების ავტომატური ამოცნობის სისტემას ევალება ტექსტის მეტყველებად გადაქცევა. ამიტომ, ინგლისურ ლიტერატურაში ამ სისტემებს უწოდებენ Speech To Text System. ხშირად, მეტყველების ამოცნობის ავტომატურ სისტემებს ასევე მოიხსენიებენ, როგორც მეტყველების ამოცნობის სისტემებს (SPR).

    მეტყველების ავტომატური ამოცნობის სისტემის გამარტივებული ბლოკ-სქემა ნაჩვენებია ნახ.

    მეტყველების სიგნალის ანალიზის მოდელის ქვეშგაიგეთ ბლოკი, რომლის ამოცანაა შემავალი სიგნალის ანალიზი, ჯერ ერთი, მისი კლასიფიკაციის მიზნით, როგორც მეტყველების სიგნალი, და მეორეც, მიღებულ სიგნალში ხაზგასმული კომპონენტები, რომლებიც მთავარია.

    მიღებული შეტყობინების ამოცნობა. ეს კომპონენტები მოიცავს პარამეტრებს, რომლებიც აღწერს მეტყველებას, ისევე როგორც მათ, რომლებიც წარმოიქმნება მეტყველების სინთეზის პროცესში. მითითებული პარამეტრების ნაკრები დამოკიდებულია ამოცნობის არჩეულ მეთოდზე.

    მეტყველების ამოცნობისა და გადაწყვეტილების მიღების მოდელიარის ბლოკი, რომლის ფარგლებშიც ყალიბდება აღიარებული შეტყობინება პირველი ბლოკიდან მიღებული პარამეტრების თანმიმდევრობის ანალიზის საფუძველზე. მაგალითად, თუ გამოიყენება მეტყველების აღწერის ფორმატის მოდელი, მაშინ პირველ ბლოკში მიღებული სიხშირეებიდან გამომდინარე, ფორმანტები გამოიყენება აღიარებული ფონემების თანმიმდევრობის შესაქმნელად, რომლებიც ქმნიან შეყვანის შეტყობინებას. ამ შემთხვევაში, მიიღება გადაწყვეტილება იმის შესახებ, არის თუ არა შეყვანის შეტყობინება სწორად აღიარებული. გადაწყვეტილების მიღებისას, კერძოდ, შესაძლებელია შემდეგი გადაწყვეტილებების მიღება: შეტყობინების სწორად ამოცნობა (ამას ადასტურებს ტექსტი, რომელიც შეესაბამება ბუნებრივი ენის ნორმებს) ან

    შეტყობინება არ არის აღიარებული ან არასწორად აღიარებული (ასეთი გადაწყვეტილება მიიღება, თუ აღიარებული შეტყობინება შეიცავს აშკარა შეცდომებს, რომლებიც ძნელია ავტომატურად გამოსწორება ან თუნდაც სრული სისულელე).

    შემდეგი პარამეტრები, რომლებიც ახასიათებს მათ, შეიძლება მოიხსენიებოდეს, როგორც APPS-ზე დაწესებული შეზღუდვები:

    ცნობადი მეტყველების ტიპი (სიტყვა-სიტყვით გამოთქმა პაუზებით მეტყველების ბრძანებების სტილში; მკაფიო გამოთქმა პაუზების გარეშე „კარნახის“ სტილში; სპონტანური მეტყველება);

    ლექსიკონის მოცულობა (შეზღუდულია 100, 200 და ა.შ. სიტყვა; შეუზღუდავი);

    მოსაუბრეზე დამოკიდებულების ხარისხი (მოსაუბრე-დამოკიდებული; მოსაუბრე-დამოუკიდებელი);

    სინტაქსური შეზღუდვები (ინდივიდუალური სიტყვები; ტიპიური ფრაზები; ხელოვნური ენა; ბუნებრივი ენა);

    მეტყველების სიგნალების მიღების პირობები (საკონტაქტო მიკროფონები; მიკროფონები დისტანციურად 1 მ-ზე მეტ მანძილზე);

    CRR-ის გამოყენების პირობები (სუსტი ან ძლიერი ჩარევა);

    აღიარების საიმედოობა.

    მეტყველების ინტერფეისის პრაქტიკული აპლიკაციები

    სანამ მეტყველების ინტერფეისის პრაქტიკული გამოყენების მაგალითებს განვიხილავთ, მოდით შევადაროთ ის კომპიუტერთან მომხმარებლის ურთიერთქმედების ყველაზე გავრცელებულ საშუალებებს: კლავიატურას და ეკრანს. უნდა აღინიშნოს მეტყველების ინტერფეისის მინიმუმ სამი ფუნდამენტური განსხვავება:

    1) კლავიატურის და დისპლეის აშკარა ნაკლი არის ის, რომ ადამიანს სჭირდება სპეციალური ტრენინგი კომპიუტერთან კომუნიკაციისთვის. ამავდროულად, მეტყველება ბუნებრივი ინტერფეისია ნებისმიერისთვის, თუნდაც მოუმზადებელი ადამიანისთვის. მეტყველება მკვეთრად ამცირებს ფსიქოლოგიურ დისტანციას ადამიანსა და კომპიუტერს შორის. თუ მეტყველების ინტერფეისი გამოჩნდება, მაშინ კომპიუტერის მომხმარებელთა წრე შეიძლება გახდეს შეუზღუდავი;

    2) მეტყველება თავისთავად არ არის მექანიკურად მიბმული კომპიუტერთან და შეიძლება დაუკავშირდეს მას საკომუნიკაციო სისტემების საშუალებით, მაგალითად, ტელეფონით. მეტყველების ინტერფეისი ამცირებს ფიზიკურ მანძილს ადამიანსა და კომპიუტერს შორის. ეს კიდევ უფრო აფართოებს კომპიუტერის პოტენციური მომხმარებლების წრეს და ხდის მეტყველების ინტერფეისს იდეალურ ინსტრუმენტად მასობრივი ინფორმაციის სერვისის სისტემების შესაქმნელად;

    3) თქვენ შეგიძლიათ მართოთ კომპიუტერი სრულ სიბნელეში, დახუჭული თვალებით, როდესაც ხელები დაკავებულია მართვის ბერკეტებით, შეკრული ხელებით და სხვა ექსტრემალურ სიტუაციებში. ეს თვისება იძლევა კომუნიკაციის ეფექტურობას და მობილურობას, ხელების გათავისუფლებას და აღქმის ვიზუალური არხის განტვირთვას ინფორმაციის მიღებისას. ეს ძალზე მნიშვნელოვანია, მაგალითად, დიდი ენერგოსისტემის კონტროლერისთვის ან თვითმფრინავის პილოტისთვის და მანქანის მძღოლისთვის. გარდა ამისა, კომპიუტერული სისტემები უფრო ხელმისაწვდომი ხდება მხედველობის დარღვევის მქონე ადამიანებისთვის.

    დღეისათვის მეტყველების კომპიუტერული ტექნოლოგიები უკვე საკმაოდ ფართოდ არის გავრცელებული და ვითარდება რამდენიმე მიმართულებით, რომელთაგან მთავარი ნაჩვენებია ნახ.

  • რა კარგი იყო ადრე! დამხმარე მაგიდასთან დარეკვით შესაძლებელი იყო გოგო ოპერატორთან საუბარი და მასთან შეხვედრის დანიშვნაც კი. ახლა, მავთულის მეორე ბოლოზე, ისმის სასიამოვნო, მაგრამ უსულო ქალის ხმა, რომელიც გვთავაზობს აკრიფოთ 1 ამა თუ იმ ინფორმაციის მისაღებად, 2 - მასთან კომუნიკაციისთვის, 3 - მენიუდან გასასვლელად და ა.შ. ინფორმაციაზე წვდომას სულ უფრო და უფრო აკონტროლებს სისტემა და არა ინდივიდუალური. ამას თავისი ლოგიკა აქვს: ერთფეროვან, უინტერესო საქმეს აკეთებს არა ადამიანი, არამედ მანქანა. მომხმარებლისთვის კი ინფორმაციის მოპოვების პროცედურა გამარტივებულია: მან დარეკა ნომრების გარკვეული ნაკრები - მიიღო საჭირო ინფორმაცია.

    როგორ მუშაობს ასეთი სისტემა? შევეცადოთ გავერკვეთ.

    მეტყველების ამოცნობის პროგრამების ორი ძირითადი ტიპია:

    კარნახის პროგრამა - შეიყვანეთ ტექსტი და რიცხვები.

    მოდით, დაუყოვნებლივ გავაკეთოთ დათქმა, რომ არ განვიხილავთ ტექსტის მეტყველებას და მეტყველების ტექსტს, ანუ ტექსტის ზეპირ მეტყველებაში თარგმნას და პირიქით. ჩვენ შემოვიფარგლებით ბრძანებების ავტომატური ამოცნობის სისტემებით ან ხმოვანი ნავიგატორებით.

    SARR - რა არის ეს?

    მეტყველების ავტომატური ამოცნობა (CAPP) არის მეტყველების დამუშავების პროცესის ელემენტი, რომლის მიზანია მომხმარებელსა და აპარატს შორის მოსახერხებელი დიალოგის უზრუნველყოფა. ფართო გაგებით, ჩვენ ვსაუბრობთ სისტემებზე, რომლებიც ასრულებენ მეტყველების აკუსტიკური სიგნალის ფონემურ გაშიფვრას მეტყველების შეტყობინებების თავისუფალ სტილში წარმოთქმისას, თვითნებური სპიკერი, პრობლემის ორიენტაციისა და ლექსიკონის მოცულობის შეზღუდვის გათვალისწინების გარეშე. ვიწრო გაგებით, CAPP ხელს უწყობს კონკრეტული პრობლემების გადაჭრას გარკვეული შეზღუდვების დაწესებით ბუნებრივი ჟღერადობის მეტყველების კლასიკური გაგებით ამოცნობის მოთხოვნებზე. ამრიგად, CAPP ჯიშების დიაპაზონი მერყეობს მარტივი ცალკეული მოწყობილობებიდან და საბავშვო სათამაშოებიდან, რომლებსაც შეუძლიათ ამოიცნონ ან სინთეზირონ ცალკე წარმოთქმული სიტყვები, რიცხვები, ქალაქები, სახელები და ა.შ. გამოსაყენებლად, მაგალითად, ასისტენტად (IBM VoiceType Simply Speaking Gold).

    როგორც მანქანასა და ადამიანს შორის ნებისმიერი მეგობრული ინტერფეისის მთავარი კომპონენტი, CAPP შეიძლება ჩაშენდეს სხვადასხვა აპლიკაციებში, მაგალითად, ხმის მართვის სისტემებში, ხმოვანი წვდომა ინფორმაციის რესურსებზე, ენის სწავლა კომპიუტერის გამოყენებით, ქმედუუნაროების დახმარება, წვდომა რაღაც ხმის გადამოწმების სისტემების / იდენტიფიკაციის საშუალებით.

    CAPP ძალიან სასარგებლოა, როგორც საძიებო და დახარისხების ინსტრუმენტი ჩაწერილი აუდიო და ვიდეო მონაცემებისთვის. მეტყველების ამოცნობა ასევე გამოიყენება ინფორმაციის შეყვანისას, რაც განსაკუთრებით სასარგებლოა, როცა ადამიანის თვალები ან ხელებია დაკავებული. CARR საშუალებას აძლევს ადამიანებს, რომლებიც მუშაობენ სტრესულ გარემოში (ექიმები საავადმყოფოებში, ქარხნის მუშები, მძღოლები) გამოიყენონ კომპიუტერი საჭირო ინფორმაციის მისაღებად ან შეყვანისთვის.

    როგორც წესი, CAPP გამოიყენება ისეთ სისტემებში, როგორიცაა სატელეფონო აპლიკაციები, ჩაშენებული სისტემები (აკრიფეთ სისტემები, PDA ოპერაცია, მართვა და ა.შ.), მულტიმედიური აპლიკაციები (ენის სწავლების სისტემები).

    ხმის გასაღებები

    ხმის მინიშნებებს ზოგჯერ უწოდებენ ავტომატური მეტყველების ამოცნობის სისტემებს. ჩვეულებრივ, ეს არის ბიომეტრიული სისტემები, რომლებსაც აქვთ ინფორმაციაზე ავტორიზებული წვდომა ან ობიექტებზე ფიზიკური წვდომა. ასეთი სისტემების ორი ტიპი უნდა გამოიყოს: ვერიფიკაციის სისტემები და საიდენტიფიკაციო სისტემები. გადამოწმების დროს მომხმარებელი ჯერ წარმოაჩენს თავის კოდს, ანუ თავის თავს ამა თუ იმ გზით აცხადებს, შემდეგ კი ხმამაღლა ამბობს პაროლს ან რაიმე თვითნებურ ფრაზას. სისტემა ამოწმებს, შეესაბამება თუ არა მოცემული ხმა იმ სტანდარტებს, რომლებიც გამოიძახეს კომპიუტერის მეხსიერებიდან წარმოდგენილი კოდის მიხედვით.

    იდენტიფიკაციისას მომხმარებლის შესახებ წინასწარი განცხადება არ კეთდება. ამ შემთხვევაში ხდება ამ ხმის შედარება ყველა სტანდარტთან და შემდეგ კონკრეტულად დგინდება, ვინ არის ხმით გამოვლენილი პირი. დღეს ასეთი სისტემების დანერგვის მრავალი მიდგომა და მეთოდი არსებობს და ყველა მათგანი, როგორც წესი, განსხვავდება ერთმანეთისგან - რამდენი დეველოპერი, ამდენი მათი ჯიში. იგივე შეიძლება ითქვას მეტყველების ამოცნობის სისტემებზე. მაშასადამე, მეტყველების ამოცნობისა და პიროვნების ამოცნობის კონკრეტული სისტემების მახასიათებლების მსჯელობა მხოლოდ სპეციალური ტესტების მონაცემთა ბაზების დახმარებითაა შესაძლებელი.

    ცოტა ისტორია

    ამერიკის შეერთებული შტატები, 1960-იანი წლების ბოლოს: "სამი", თქვა უოლტერ კრონკაიტმა, პოპულარული სამეცნიერო პროგრამის 21-ე საუკუნის წამყვანი, მეტყველების ამოცნობის უახლესი განვითარების დემონსტრირებისას. კომპიუტერმა ამოიცნო ეს სიტყვა, როგორც "ოთხი". – იდიოტი, – ჩაიბურტყუნა ვალტერმა. "ეს სიტყვა ლექსიკონში არ არის", - უპასუხა კომპიუტერმა.

    მიუხედავად იმისა, რომ პირველი განვითარება მეტყველების ამოცნობის სფეროში თარიღდება 1920-იანი წლებით, პირველი სისტემა შეიქმნა მხოლოდ 1952 წელს Bell Laboratories-ის მიერ (დღეს Lucent Technologies-ის ნაწილი). პირველი კომერციული სისტემა კი მოგვიანებით შეიქმნა: 1960 წელს IBM-მა გამოაცხადა ასეთი სისტემის შემუშავება, მაგრამ პროგრამა არასოდეს შემოსულა ბაზარზე.

    შემდეგ, 1970-იან წლებში, Eastern Airlines-მა შეერთებულ შტატებში დააინსტალირა დინამიკზე დამოკიდებული ბარგის გაგზავნის სისტემა: ოპერატორმა დაასახელა დანიშნულების ადგილი - და ბარგი გაიგზავნა გზაში. თუმცა, დაშვებული შეცდომების გამო, სისტემამ არასოდეს გაიარა საცდელი პერიოდი.

    ამის შემდეგ, განვითარება ამ სფეროში, თუ ასეთი იყო, საკმაოდ ნელ-ნელა განხორციელდა. 1980-იან წლებშიც კი იყო საკმაოდ ბევრი რეალური კომერციული აპლიკაცია მეტყველების ამოცნობის სისტემების გამოყენებით.

    დღეს ამ მიმართულებით არა ათობით, არამედ ასობით კვლევითი ჯგუფი მუშაობს როგორც სამეცნიერო და საგანმანათლებლო დაწესებულებებში, ასევე დიდ კორპორაციებში. ამაზე შეიძლება ვიმსჯელოთ მეტყველების ტექნოლოგიების დარგის მეცნიერთა და სპეციალისტთა საერთაშორისო ფორუმებით, როგორებიცაა ICASSP, EuroSpeech, ICPHS და ა.შ. სამუშაოს შედეგები, რომელიც, როგორც ფიგურალურად ვამბობთ, „დაეცა მთელ მსოფლიოში“, ძნელია. იყოს გადაჭარბებული.

    უკვე რამდენიმე წელია, ხმის ნავიგატორები, ანუ ბრძანებების ამომცნობი სისტემები წარმატებით გამოიყენება საქმიანობის სხვადასხვა სფეროში. მაგალითად, Alcatel-ის მიერ ვატიკანისთვის მიწოდებული OmniTouch სატელეფონო ცენტრი გამოიყენებოდა იმ ღონისძიებებისთვის, რომლებიც ტარდებოდა ქრისტეს 2000 წლის იუბილეს აღნიშვნის ფარგლებში. მომლოცველმა, რომელმაც დარეკა სატელეფონო ცენტრში, დააფიქსირა თავისი შეკითხვა და მეტყველების ამოცნობის ავტომატური სისტემა "მოუსმინა" მას. თუ სისტემამ დაადგინა, რომ დასმული იყო შეკითხვა ხშირად წარმოშობილ თემაზე, როგორიცაა ღონისძიებების განრიგი ან სასტუმროს მისამართები, მაშინ ჩართული იყო წინასწარ ჩაწერილი ჩანაწერი. თუ საჭირო იყო კითხვის გარკვევა, შესთავაზეს მეტყველების მენიუ, რომელშიც ხმით უნდა მიეთითებინა ერთ-ერთი ელემენტი. თუ ამოცნობის სისტემამ დაადგინა, რომ არ იყო წინასწარ ჩაწერილი პასუხი დასმულ კითხვაზე, მაშინ პილიგრიმი დაკავშირებული იყო ადამიანის ოპერატორთან.

    შვედეთში ცოტა ხნის წინ გაიხსნა ავტომატური სატელეფონო გამოკითხვის სერვისი Philips-ის მეტყველების ამოცნობის პროგრამული უზრუნველყოფის გამოყენებით. Autosvar სერვისის მუშაობის პირველი თვის განმავლობაში, რომელმაც ოფიციალური განცხადების გარეშე დაიწყო ფუნქციონირება, მისი მომსახურებით 200 000-მა მომხმარებელმა ისარგებლა. ადამიანმა უნდა აკრიფოს გარკვეული ნომერი და ავტომატური მდივნის პასუხის შემდეგ დაასახელოს ინფორმაციის დირექტორიის ის განყოფილება, რომელიც მას აინტერესებს.

    ახალი სერვისი ძირითადად განკუთვნილია კერძო კლიენტებისთვის, რომლებიც უპირატესობას ანიჭებენ მას მომსახურების მნიშვნელოვნად დაბალი ღირებულების გამო. Autosvar-ის სერვისი პირველია ევროპაში (აშშ-ში მსგავსი სერვისის საცდელი ცდები AT&T-ში გასული წლის დეკემბერში დაიწყო).

    აქ მოცემულია ამ ტექნოლოგიის გამოყენების რამდენიმე მაგალითი აშშ-ში.

    რეალტორები ხშირად მიმართავენ Newport Wireless-ის მომსახურებებს. როდესაც რეალტორი მიდის ქუჩაში და ხედავს იყიდება ნიშანი სახლთან ახლოს, ის ურეკავს Newport Wireless-ს და ითხოვს ინფორმაციას ამა თუ იმ ნომრის მქონე სახლის შესახებ, რომელიც მდებარეობს ამა თუ იმ ქუჩაზე. სასიამოვნო ქალის ხმით ავტომოპასუხე მას სახლის კადრებზე, მშენებლობის თარიღსა და მფლობელებზე ეუბნება. ყველა ეს ინფორმაცია არის Newport Wireless მონაცემთა ბაზაში. რეალტორებს შეუძლიათ მხოლოდ კლიენტისთვის შეტყობინების გაგზავნა. გამოწერის საფასური თვეში დაახლოებით 30 დოლარია.

    ჯული, Amtrak-ის ვირტუალური აგენტი, ემსახურება სარკინიგზო მგზავრებს 2001 წლის ოქტომბრიდან. იგი ტელეფონით აცნობებს მატარებლის განრიგს, მათ ჩამოსვლას და გამგზავრებას, ასევე აკეთებს ბილეთების დაჯავშნას. Julie არის SpeechWorks Software-ისა და Intervoice Hardware-ის პროდუქტი. მან უკვე გაზარდა მგზავრების კმაყოფილება 45%-ით; 50 კლიენტიდან 13 იღებს ყველა საჭირო ინფორმაციას ჯულისგან. Amtrak იყენებდა ტონზე დაფუძნებულ რეფერალურ სისტემას, მაგრამ კმაყოფილების მაჩვენებელი მაშინ დაბალი იყო, 50 კლიენტიდან მხოლოდ 9 იყო.

    Amtrak აღიარებს, რომ ჯულიმ გადაიხადა მისი ფასი (4 მილიონი დოლარი) 12-18 თვეში. მან უფლება მისცა არ დაექირავებინა თანამშრომლების მთელი გუნდი. და British Airways ზოგავს 1,5 მილიონ დოლარს წელიწადში Nuance Communications-ის ტექნოლოგიის გამოყენებით, რომელიც ასევე ავტომატიზირებს დახმარების მაგიდას.

    ცოტა ხნის წინ, Sony Computer Entertainment America-მ წარადგინა Socom, პირველი ვიდეო თამაში, რომელშიც მოთამაშეებს შეუძლიათ სიტყვიერი ბრძანებების მიცემა Deploy ყუმბარის მებრძოლებს. $60 თამაში იყენებს ScanSoft ტექნოლოგიას. გასულ წელს ამ თამაშებიდან 450 000 გაიყიდა, რითაც Socom გახდა უდავო ლიდერი კომპანიის გაყიდვებში.

    ძვირადღირებულ მანქანებში, როგორიცაა Infinity და Jaguar, რამდენიმე წელია გამოიყენება მართვის პანელის სიტყვიერი კონტროლი: რადიო, ტემპერატურის რეჟიმი და სანავიგაციო სისტემა ესმის მანქანის მფლობელის ხმას და უდავოდ ემორჩილება მფლობელს. მაგრამ ახლა ხმის ამოცნობის ტექნოლოგია იწყებს გამოყენებას საშუალო კლასის მანქანებზე. ასე რომ, 2003 წლიდან Honda Accord-ს აქვს ჩაშენებული ხმის იდენტიფიკატორი IBM-ისგან. მას ViaVoice ჰქვია და 2000$-იანი სანავიგაციო სისტემის ნაწილია.მიმწოდებლის თქმით, Honda Accord-ის მყიდველების ერთი მეხუთედი ირჩევს მოდელს ხმოვანი ნავიგაცია.

    მედიცინაშიც კი, ხმის ამოცნობის ტექნოლოგიამ იპოვა თავისი ადგილი. უკვე შემუშავებულია ექიმის ხმის მორჩილი კუჭის შესამოწმებელი მოწყობილობები. მართალია, ეს მოწყობილობები, ექსპერტების აზრით, ჯერ კიდევ არასრულყოფილია: ისინი ნელა რეაგირებენ ექიმის ბრძანებებზე. მაგრამ ჯერ კიდევ წინ. მემფისში, VA სამედიცინო ცენტრმა 277,000 დოლარის ინვესტიცია ჩადო Dragon-ის პროგრამულ უზრუნველყოფაში, რომელიც ექიმებს და ექთნებს საშუალებას აძლევს, კარნახონ ინფორმაცია კომპიუტერულ მონაცემთა ბაზაში. ალბათ, მალე აღარ იქნება საჭირო ტანჯვა, რომ სამედიცინო ჩანაწერში ექიმის ხელწერა ამოიკითხოს.

    უკვე ასობით მსხვილი კომპანია იყენებს ხმის ამოცნობის ტექნოლოგიას თავის პროდუქტებსა თუ სერვისებში; მათ შორისაა AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines და Verizo. ექსპერტების აზრით, ხმოვანი ტექნოლოგიების ბაზარმა 2002 წელს მიაღწია დაახლოებით 695 მილიონ დოლარს, რაც 10%-ით მეტია 2001 წელთან შედარებით.

    United Airways-მა შემოიღო ავტომატური გამოკითხვის სერვისი ჯერ კიდევ 1999 წელს. სატელეფონო ზარების დამუშავების ავტომატური სისტემებს მართავენ კომპანიები, როგორიცაა საინვესტიციო ბანკი Charles Schwab & Co, საცალო ვაჭრობის ქსელი Sears, სუპერმარკეტების ქსელი Roebuck. აშშ-ის უკაბელო ოპერატორები (AT&T Wireless და Sprint PCS) უკვე ერთ წელზე მეტია რაც იყენებენ მსგავს პროგრამებს და უზრუნველყოფენ ხმოვანი აკრეფის სერვისებს. და მიუხედავად იმისა, რომ ამერიკა ახლა ლიდერია ამ ტიპის სატელეფონო ცენტრების რაოდენობით, ახლახან ევროპაში მეტყველების ამოცნობის სისტემების უპირატესობების რეალიზება დაიწყო. მაგალითად, შვეიცარიის რკინიგზის სერვისი თავის გერმანულენოვან მგზავრებს უკვე სთავაზობს United Airways-ის მსგავს სერვისებს.

    ანალიტიკოსების პროგნოზები

    დღესდღეობით მეტყველების ამოცნობის ტექნოლოგიები მსოფლიოში ყველაზე პერსპექტიულად ითვლება. ამგვარად, ამერიკული კვლევითი კომპანიის Cahners In-Stat-ის პროგნოზით, 2005 წლისთვის მეტყველების ამომცნობი პროგრამული უზრუნველყოფის მსოფლიო ბაზარი 200 მილიონიდან 2,7 მილიარდ დოლარამდე გაიზრდება. Datamonitor-ის თანახმად, ხმის ტექნოლოგიების ბაზრის მოცულობა გაიზრდება საშუალოდ 43% წელიწადში: 2000 წლის 650 მილიონი დოლარიდან 2006 წელს 5,6 მილიარდ დოლარამდე (ნახ. 1). ექსპერტებმა, რომლებიც თანამშრომლობენ CNN მედია კორპორაციასთან, მეტყველების ამოცნობა წელს ერთ-ერთ რვა ყველაზე პერსპექტიულ ტექნოლოგიას ასახელებენ. და IDC-ის ანალიტიკოსები ამბობენ, რომ 2005 წლისთვის მეტყველების ამოცნობა მთლიანად ჩაანაცვლებს ბაზრიდან მეტყველების ყველა სხვა ტექნოლოგიას (ნახ. 2).

    ძირითადი სირთულეები

    მთავარი პრობლემა, რომელიც წარმოიქმნება CAPP-ის შემუშავებისას, არის ერთი და იგივე სიტყვის გამოთქმის ვარიანტული გამოთქმა როგორც სხვადასხვა ადამიანების, ისე ერთი და იმავე ადამიანის მიერ სხვადასხვა სიტუაციაში. ეს არ შეაწუხებს ადამიანს, მაგრამ კომპიუტერს შეუძლია. გარდა ამისა, შემომავალ სიგნალზე გავლენას ახდენს მრავალი ფაქტორი, როგორიცაა გარემოს ხმაური, ასახვა, ექო და არხის ხმაური. ეს ართულებს იმ ფაქტს, რომ ხმაური და დამახინჯება წინასწარ არ არის ცნობილი, ანუ სისტემის მორგება მათზე მუშაობის დაწყებამდე შეუძლებელია.

    თუმცა, სხვადასხვა CAPP-ზე ნახევარ საუკუნეზე მეტმა მუშაობამ შედეგი გამოიღო. თითქმის ნებისმიერ თანამედროვე სისტემას შეუძლია რამდენიმე რეჟიმში იმუშაოს. პირველი, ის შეიძლება იყოს დამოკიდებული ან დამოუკიდებელი გამომცხადებლისგან. სპიკერზე დამოკიდებული სისტემა მოითხოვს სპეციალურ ტრენინგს კონკრეტული მომხმარებლისთვის, რათა ზუსტად ამოიცნოს ის, რასაც ის ამბობს. სისტემის მომზადებისთვის მომხმარებელმა უნდა თქვას რამდენიმე კონკრეტული სიტყვა ან ფრაზა, რომელსაც სისტემა გააანალიზებს და დაიმახსოვრებს შედეგებს. ეს რეჟიმი ჩვეულებრივ გამოიყენება კარნახის სისტემებში, როდესაც ერთი მომხმარებელი მუშაობს სისტემასთან.

    დინამიკებისგან დამოუკიდებელი სისტემის გამოყენება ნებისმიერ მომხმარებელს შეუძლია სასწავლო პროცედურის გარეშე. ეს რეჟიმი ჩვეულებრივ გამოიყენება იქ, სადაც სწავლის პროცედურა შეუძლებელია, მაგალითად, სატელეფონო აპლიკაციებში. ცხადია, სპიკერზე დამოკიდებული სისტემის ამოცნობის სიზუსტე უფრო მაღალია, ვიდრე სპიკერზე დამოუკიდებელი სისტემის ამოცნობის სიზუსტე. თუმცა, სპიკერისგან დამოუკიდებელი სისტემა უფრო მოსახერხებელია გამოსაყენებლად, მაგალითად, მას შეუძლია იმუშაოს მომხმარებელთა შეუზღუდავ დიაპაზონთან და არ საჭიროებს ტრენინგს.

    მეორეც, სისტემები იყოფა ისეთებად, რომლებიც მუშაობენ მხოლოდ იზოლირებული ბრძანებებით და ისეთებად, რომლებსაც შეუძლიათ თანმიმდევრული მეტყველების ამოცნობა. მეტყველების ამოცნობა ბევრად უფრო რთული ამოცანაა, ვიდრე ცალკე წარმოთქმული სიტყვების ამოცნობა. მაგალითად, იზოლირებული სიტყვების ამოცნობიდან მეტყველების ამოცნობაზე 1000 სიტყვიანი ლექსიკონით გადასვლისას, შეცდომის მაჩვენებელი იზრდება 3.1-დან 8.7-მდე, ხოლო მეტყველების დამუშავებას სამჯერ მეტი დრო სჭირდება.

    იზოლირებული ბრძანების გამოთქმის რეჟიმი არის უმარტივესი და ნაკლებად ინტენსიური რესურსი. ამ რეჟიმში მუშაობისას, ყოველი სიტყვის შემდეგ მომხმარებელი ჩერდება, ანუ ნათლად აღნიშნავს სიტყვების საზღვრებს. სისტემას არ სჭირდება თავად ფრაზაში სიტყვის დასაწყისი და დასასრულის პოვნა. შემდეგ სისტემა ადარებს ამოცნობილ სიტყვას ლექსიკონში არსებულ ნიმუშებს და ყველაზე სავარაუდო მოდელი მიიღება სისტემის მიერ. ამ ტიპის ამოცნობა ფართოდ გამოიყენება ტელეფონში ჩვეულებრივი DTMF მეთოდების ნაცვლად.

    მეტყველებაში დამატებითი ვარიაციები ასევე წარმოიქმნება თვითნებური ინტონაციების, სტრესის, ფრაზების არა მკაცრი სტრუქტურის, პაუზების, გამეორებების და ა.შ.

    სიტყვების უწყვეტი და ცალკეული გამოთქმის შეერთებისას წარმოიშვა საკვანძო სიტყვების ძიების რეჟიმი. ამ რეჟიმში, CAPP პოულობს წინასწარ განსაზღვრულ სიტყვას ან სიტყვების ჯგუფს ზოგადი მეტყველების ნაკადში. სად შეიძლება მისი გამოყენება? მაგალითად, მოსასმენ მოწყობილობებში, რომლებიც ჩართულია და იწყებენ ჩაწერას, როდესაც გარკვეული სიტყვები გამოჩნდება მეტყველებაში, ან ელექტრონულ მითითებაში. თვითნებური ფორმით მოთხოვნის მიღების შემდეგ, სისტემა ირჩევს სემანტიკურ სიტყვებს და, მათი ამოცნობით, უზრუნველყოფს საჭირო ინფორმაციას.

    გამოყენებული ლექსიკონის ზომა CAPP-ის მნიშვნელოვანი კომპონენტია. ცხადია, რაც უფრო დიდია ლექსიკონი, მით უფრო მაღალია სისტემის შეცდომის დაშვების ალბათობა. ბევრ თანამედროვე სისტემაში შესაძლებელია ლექსიკონების დამატება ახალი სიტყვებით საჭიროებისამებრ, ან ახალი ლექსიკონების ჩატვირთვა. ტიპიური შეცდომის კოეფიციენტი სპიკერისგან დამოუკიდებელი სისტემისთვის იზოლირებული ბრძანების გამოთქმით არის დაახლოებით 1% 100-სიტყვიანი ლექსიკონისთვის, 3% 600-სიტყვიანი ლექსიკონისთვის და 10% 8000-სიტყვიანი ლექსიკონისთვის.

    თანამედროვე CAPP ბაზრის შეთავაზებები

    ხოლო ბაზარი დღეს წარმოდგენილია სხვადასხვა კომპანიის CAPP-ით. განვიხილოთ ზოგიერთი მათგანი.

    აკულაბი

    ამოცნობის სიზუსტე 97%.

    სპიკერის დამოუკიდებელი სისტემა. სისტემის დეველოპერებმა გააანალიზეს სხვადასხვა მონაცემთა ბაზა მრავალი ენისთვის, რათა გაითვალისწინონ მეტყველების ყველა ვარიაცია, რომელიც ხდება ასაკის, ხმის, სქესის და აქცენტის მიხედვით. საკუთრების ალგორითმები უზრუნველყოფენ მეტყველების ამოცნობას აღჭურვილობის მახასიათებლების (ყურსასმენები, მიკროფონი) და არხის მახასიათებლების მიუხედავად.

    სისტემა მხარს უჭერს დამატებითი ლექსიკონების შექმნის შესაძლებლობას, რომლებიც ითვალისწინებენ გამოთქმისა და აქცენტების თავისებურებებს. ეს განსაკუთრებით სასარგებლოა, როდესაც სისტემას იყენებენ ადამიანები, რომელთა გამოთქმა ძალიან განსხვავდება ჩვეულებრივისგან.

    სისტემა მხარს უჭერს ყველაზე გავრცელებულ ენებს, როგორიცაა ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, იტალიური, ჩრდილოეთ ამერიკის ესპანური. ლექსიკონის კონფიგურაცია შესაძლებელია რომელიმე ამ ენისთვის, მაგრამ შეუძლებელია რამდენიმე ენის გამოყენება ერთდროულად, როგორც ერთი ლექსიკონის ნაწილი.

    პროდუქტი ხელმისაწვდომია Windows NT/2000, Linux და Sun SPARC Solaris-ზე.

    Babear SDK ვერსია 3.0

    სპიკერისგან დამოუკიდებელი სისტემა, რომელიც არ საჭიროებს ტრენინგს კონკრეტული მომხმარებლისთვის. მომხმარებლისადმი ადაპტაცია ხდება ოპერაციის დროს და უზრუნველყოფს საუკეთესო ამოცნობის შედეგს. ხმის აქტივობის ავტომატური რეგულირება საშუალებას გაძლევთ ამოიცნოთ მეტყველება ძალიან ხმაურიან გარემოში, მაგალითად მანქანაში. სისტემა არ განსაზღვრავს სიტყვებს, რომლებიც არ არის ჩამოთვლილი ლექსიკონში. შესაძლებელია საკვანძო სიტყვების მოძიება. სისტემის კონფიგურაცია შესაძლებელია იმუშაოს როგორც მცირე ლექსიკონთან (ბრძანებების იზოლირებული გამოთქმა) ასევე დიდი ლექსიკონით (მეტყველება).

    სისტემა მხარს უჭერს შემდეგ ენებს: ბრიტანული და ამერიკული ინგლისური, ესპანური გერმანული, ფრანგული, დანიური, შვედური, თურქული, ბერძნული, ისლანდიური და არაბული.

    სისტემა მუშაობს Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X და Linux-ზე.

    ლოკენდო ASR

    დინამიკების დამოუკიდებელი სისტემა ოპტიმიზირებულია ტელეფონში გამოსაყენებლად. შესაძლებელია ცალკეული სიტყვებისა და მეტყველების ამოცნობა, საკვანძო სიტყვების ძიება (500 სიტყვამდე ლექსიკონი). საშუალებას გაძლევთ შექმნათ მოსახერხებელი აპლიკაციები ლექსიკონის დიდი მოცულობისა და სისტემის მოქნილობის გამო.

    მხარს უჭერს 12 ენას, მათ შორის ყველაზე გავრცელებულ ევროპულ ენებს (იტალიური, ესპანური, ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, ბერძნული, შვედური და ა.შ.).

    შედის Loquendo Speech Suite-ში, ტექსტიდან მეტყველების სისტემასთან და Loquendo VoiceXML Interpreter-თან ერთად, რომელიც მხარს უჭერს მრავალ ხმას და ენას.

    სისტემა მუშაობს MS Windows NT/2000, UNIX და Linux-ის ბაზაზე.

    LumenVox

    სპიკერისგან დამოუკიდებელი სისტემა, რომელიც არ საჭიროებს ტრენინგს, მაგრამ კონკრეტულ მომხმარებელთან ადაპტაციის შემდეგ, ამოცნობის შედეგები ბევრად უკეთესი ხდება: ამოცნობის სიზუსტე აჭარბებს 90%-ს.

    მხარს უჭერს აუდიო ფაილის სხვადასხვა ფორმატს: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). მას არ აქვს მკაცრი მოთხოვნები ტექნიკის რესურსებზე. მუშაობს Windows NT/2000/XP და Linux-ის ბაზაზე.

    სისტემის მოთხოვნები (Windows დაფუძნებული):

    Windows NT 4.0 Service Pack 6a, Windows 2000 ან Windows XP Pro;

    მეხსიერების მინიმალური ზომაა 512 მბ.

    სისტემის მოთხოვნები (Red Hat Linux-ზე დაყრდნობით):

    Red Hat Linux 7.2;

    Intel Pentium III 800 MHz ან უფრო მაღალი;

    მეხსიერების ზომა 256 MB;

    დისკის ზომა 17 მბ (დეკომპრესიის შემდეგ).

    ნიუანსი

    მწარმოებლების თქმით, სისტემა ოპტიმიზებულია მეხსიერების და სხვა სისტემის რესურსების მინიმალური მოხმარებისთვის. ამოცნობის სიზუსტე 96%-მდეა და მაღალი რჩება ხმაურიან გარემოშიც კი.

    თითოეული მომხმარებლისთვის არის სისტემის თვითსწავლისა და მისი მორგების შესაძლებლობა.

    მუშაობს Windows 2000-ზე და Linux-ზე.

    სული

    ენა შეიძლება იყოს ნებისმიერი (ლექსიკონი შედგენილია კლიენტის სპეციფიკური მოთხოვნებისთვის და მოიცავს იმ სიტყვებს და იმ ენაზე, რომელიც კლიენტმა მიუთითა სისტემის პარამეტრების მოთხოვნებში. ლექსიკონი შეიძლება შეიცავდეს სიტყვებს სხვადასხვა ენებიდან, ანუ გარეშე პარამეტრების შეცვლით, სისტემას შეუძლია ამოიცნოს სიტყვები, მაგალითად, როგორც ჩინურად, ასევე ფინურად, თუ ისინი ადრე იყო შეყვანილი ლექსიკონში). ამრიგად, ამ სისტემას შეუძლია ნებისმიერ ენაზე იმუშაოს, ხოლო სხვა სისტემებს - მხოლოდ მათი გარკვეული ნაკრებით.

    ეს არის ავტომატური მეტყველების ამოცნობის სისტემა, რომელიც უზრუნველყოფს მაღალი ხარისხის ამოცნობას ძალიან ხმაურიან გარემოშიც კი. სისტემის ადვილად კონფიგურაცია შესაძლებელია ორიდან ერთ-ერთ რეჟიმში მუშაობისთვის: ფრაზების ამოცნობა ბრძანებების ფიქსირებული რაოდენობით (ინდივიდუალური ბრძანებების გამოთქმა, PIN კოდის რეჟიმი) და ფრაზების ამოცნობა ბრძანებების თვითნებური რაოდენობით (ბრძანებების უწყვეტი გამოთქმა, "თანმიმდევრული მეტყველების რეჟიმი"). შესაძლებელია საკვანძო სიტყვების მოძიება. ეს ხსნარი მუშაობს დანამატის არასტაციონარული ხმაურის პირობებში. საჭირო სიგნალი-ხმაურის თანაფარდობა არის 0 დბ-მდე "PIN-კოდის რეჟიმში" და +15 დბ-მდე დაკავშირებულ მეტყველების რეჟიმში.

    ამოცნობის დაგვიანება - 0,2 წმ. აკუსტიკური არხის პარამეტრები: გამტარუნარიანობა 300-3500 ჰც-ის ფარგლებში. აკუსტიკური გარემოსთან ადაპტაცია ხორციელდება ხმაურის ფრაგმენტებით, რომელთა საერთო სიგრძეა მინიმუმ 3 წმ.

    "PIN კოდის რეჟიმისთვის":

    ლექსიკონი - 50 ბრძანება;

    სწორი ამოცნობის ალბათობა - 95-99% SNR = 0…6 dB;

    საჭირო აკუსტიკური პირობები: დანამატი ფართოზოლოვანი სტატიკური ხმაური SNR-ით (სიგნალი ხმაურის თანაფარდობა) >= 15 დბ.

    დაკავშირებული მეტყველების ამოცნობის რეჟიმისთვის:

    ლექსიკონი - 12 სიტყვა / რიცხვი;

    სიტყვების ჯაჭვის სწორად ამოცნობის ალბათობა 98-99%-ია.

    სპეციფიკა: ადაპტაცია თვითნებურ ხმაურებთან.

    სიტყვის ამოცნობის ავტომატური სისტემა SPIRIT-ისგან ხელმისაწვდომია კომპიუტერის აპლიკაციის სახით MS Windows ან ასამბლეის კოდით. მომხმარებლების მოთხოვნით, გამოსავალი შეიძლება იყოს პორტირებული ნებისმიერ DSP ან RISC პლატფორმაზე.

    VoiceWare

    სისტემას შეუძლია იმუშაოს როგორც დინამიკზე დამოკიდებული, ასევე დინამიკზე დამოუკიდებელ რეჟიმში, ამიტომ სისტემის სპეციალური ტრენინგი კონკრეტულ მომხმარებელთან მუშაობისთვის საჭირო არ არის.

    უზრუნველყოფს ამოცნობის მაღალ სიზუსტეს და რეალურ დროში მუშაობას, თუნდაც ხმაურიან გარემოში.

    სისტემა ცნობს დაკავშირებულ მეტყველებას და რიცხვების თანმიმდევრულ სიას.

    ლექსიკონში ჩამოთვლილი სიტყვები და გარე ხმაური არ აღიქმება მის მიერ და სიტყვები, რომლებიც არაფერს ნიშნავს, როგორიცაა "ა", "კარგი" და ა.შ., უგულებელყოფილია.

    შესაძლებელია ლექსიკონში ახალი სიტყვების დამატება.

    სისტემა ავტომატურად არეგულირებს მომხმარებლის ტონს, გამოთქმას და მეტყველების სხვა მახასიათებლებს.

    VoiceWare მხარს უჭერს აშშ-ს ინგლისურს და კორეულს; დამუშავების პროცესშია ჩინური და იაპონური.

    სისტემა მუშაობს Windows 95/98/NT 4.0, UNIX და Linux-ზე.

    მეცნიერები ამ პრობლემას დაახლოებით 70 წელია აგვარებენ, პირველი ინდუსტრიული სისტემა 80-იანი წლების მეორე ნახევარში შეიქმნა იაპონიაში, მას ეწოდა PC ტექსტის კარნახის სისტემა (დიქტოგრაფები), ამ სისტემას ჰქონდა ვიწრო სპეციალიზაცია.

    კომპიუტერის მეტყველების ამოცნობა გაგებულია, როგორც ისეთი ამოცნობა, რომელიც დეტალურად არის აღწერილი ადამიანის მიერ მეტყველების აღქმაზე, ნებისმიერ პირობებში და ნებისმიერ ადამიანთან კომუნიკაციისას.

    პრობლემის გადაწყვეტა არის:

    1) მკაფიო თეორიული იდეების არარსებობა, რომელიც აღწერს ნერვული სისტემის მიერ მეტყველების სიგნალების დამუშავების დროს განხორციელებულ გარდაქმნების მთელ კომპლექსს;

    2) შეუფერხებლად წარმოთქმული სიტყვის ფლობა:

    3) ბუნდოვანი სიტყვის საზღვრები:

    4) მეზობელი ბგერების გავლენა ერთმანეთზე;

    5) ბუნდოვანი გამოთქმა და ფუნქციური სიტყვების გაქრობაც კი;

    7) დიდი მნიშვნელობა პარალინგვისტური კომუნიკაციის საშუალებების სიტყვიერი კომუნიკაციის პროცესში:

    ა) კინესიკა (მიმიკა, ჟესტები);

    გ) პროქსემიკა (ადამიანთა შორის მანძილი).

    ამიტომ, დღეს RDA შეიძლება განხორციელდეს მხოლოდ გარკვეული შეზღუდვების ქვეშ:

    1) იზოლირებული სალაპარაკო სიტყვების ამოცნობა;

    3) მცირე, წინასწარ განსაზღვრულ ლექსიკაზე დამყარებული ამოცნობა.

    IBM ლიდერია ამ ტიპის პროდუქტებში ViaVoice-ით (140 wpm). კარნახის პოპულარული სისტემაა DragonSystem.

    ამოცნობის ალგორითმი:

    1. ზეპირი მეტყველების შეყვანა, მონაცემთა დამუშავება (ხმაურის ამოღება);

    2. აუდიო ნაკადის დაყოფა სეგმენტებად;

    3. მინიმალური აკუსტიკური ერთეულის თითოეულ სეგმენტში განაწილება - სიტყვები;

    4. შერჩეული ერთეულების შედარება სტანდარტებთან.

    მეტყველების ამოცნობის ინდუსტრიული სისტემები პირობითად იყოფა 4 ჯგუფად:

    1. ხმის მართვის ხელსაწყოები (კომპიუტერი, ტელეფონი);

    2. ტექსტის კარნახის ხელსაწყოები;

    3. საინფორმაციო და საცნობარო სისტემები ინტერაქტიულ რეჟიმში, როგორც ავტომოპასუხე;



    4. მეტყველების ნიმუშით პიროვნების ამოცნობის საშუალებები.


    კითხვა 27.

    მეტყველების ავტომატური სინთეზის სისტემები

    მეთოდები:

    1) კოდირება (ჩაწერა მეტყველების სიგნალების ბინარულ სისტემაში მათი შემდგომი აღდგენით)

    ა) არსებითად, კომპიუტერი აქ მეტყველების ჩამწერ მოწყობილობას ემსახურება, სიტყვები და ფრაზები წინასწარ იწერება კომპიუტერში და ბრძანებების საშუალებით სწორ დროს უკრავს);

    ბ) მინუსი:

    შეუძლებელია ისეთი ფრაზის თქმა, რომელიც მეხსიერებაში არ არის შესული;

    მეტყველების სიგნალების პირდაპირი ფორმით შენახვა მოითხოვს მეხსიერების დიდ რაოდენობას;

    გ) უპირატესობები:

    ბუნებრივი ჟღერადობის მეტყველება;

    მეტყველების ხარისხი ადამიანთან ახლოსაა;

    2) მეტყველების ფონეტიკური სინთეზი (ადამიანის ვოკალური ტრაქტის აკუსტიკური მოდელირება)

    ა) ამ მეთოდის მიხედვით სინთეზატორი ძირეულად განსხვავდება პირველი მეთოდის მიხედვით სინთეზატორისგან - აქვს არაბუნებრივი ხმა, ლაპარაკობს რობოტის ხმით;

    ბ) ჩვეულებრივ შესრულებულია პირის მიერ დაწერილი ორთოგრაფიული ტექსტის მიხედვით, მასში შემავალი კომპიუტერი შეუძლია ასოების გადაქცევა ფონემებად, ფონემების ალოფონებად და სინთეზირება უწყვეტი მეტყველების სიგნალის გამოყენებით, არჩეული და მონაცემთა ბაზის ალოფონების გამოყენებით;

    გ) ყველაზე პერსპექტიული, რადგან მეტყველება რეალურად წარმოიქმნება თავად კომპიუტერის მიერ.

    ა) ლექსიკონი ამ ტიპის სინთეზატორში, როგორც პირველ მეთოდში, იქმნება პიროვნების მონაწილეობით, მაგრამ აქ არა სიტყვები და ფრაზები ინახება მეხსიერებაში, არამედ მეტყველების ბგერების რიცხვითი მახასიათებლების ამოღება და ფრაზების ინტონაცია. შესრულებულია, რაც ამცირებს საჭირო მეხსიერების რაოდენობას.

    ბ) მეტყველება ბუნებრივია, მისი წარმოქმნისთვის რიცხობრივი მახასიათებლები სპეციალური ბრძანებებით გარდაიქმნება ხმოვან სიგნალებად.

    ახლა მიმდინარეობს განვითარება, რათა უზრუნველყოფილი იყოს, რომ სინთეზირებული მეტყველება ჟღერდეს ცოცხალი, ემოციურად, ბუნებრივად. ამ პრობლემის გადაჭრა საშუალებას მისცემს შექმნას ერთდროული თარგმანის სისტემები, უფრო აქტიურად გამოიყენოს კომპიუტერი ენის სწავლებისას, ასევე მხედველობითი დარღვევის მქონე პირებს.


    კითხვა 28.

    მონაცემთა ბაზები (DB) და ენობრივი ინფორმაციის რესურსები (LIR)

    DB- ინფორმაციის ერთობლიობა გარკვეული გზით შეკვეთილი გარკვეული ობიექტების შესახებ.

    ობიექტები- ეს არის ინფორმაცია, ფაქტები, მოვლენები, პროცესები. ობიექტი შეიძლება იყოს მატერიალური (სტუდენტი, საქონელი, მანქანა) და არამატერიალური (ღონისძიება - ცირკში წასვლა, პროცესი - ტექსტის თარგმნა, ფაქტი - უნივერსიტეტში მიღება). ცხოვრებაში, თითოეულ ობიექტს აქვს გარკვეული თვისებები ან ატრიბუტები (წონა, სიჩქარე, ფერი), რომელსაც ენიჭება გარკვეული მნიშვნელობები: პური იწონის 400 გრამს, მანქანის სიჩქარე 90 კმ/სთ.

    მონაცემთა ბაზაში ატრიბუტები წარმოდგენილია როგორც მონაცემთა ელემენტები ან უბრალოდ მონაცემები და მათი მნიშვნელობები არის მონაცემთა მნიშვნელობები.

    ამრიგად, მოცემული- ეს არის რაღაც მაჩვენებელი, რომელიც ახასიათებს მოცემულ ობიექტს და იღებს გარკვეულ მნიშვნელობას ობიექტის კონკრეტული ელემენტისთვის. მონაცემთა ჯგუფს, რომელიც ქმნის ერთ ხაზს, ეწოდება ჩანაწერი. თუ რამდენიმე ჩანაწერს აქვს მონაცემთა ერთი და იგივე ნაკრები ერთი და იგივე ტიპის ინფორმაციით, მაშინ ამ ჩანაწერებს აქვთ იგივე ფორმატი. იგივე ფორმატის ჩანაწერების ერთობლიობას ფაილი ეწოდება. და ბევრი ფაილი ქმნის მონაცემთა ბაზას.

    ბაზის ძირითადი ფუნქციები

    1) მონაცემთა ბაზაში ინფორმაციის მოძიება

    ა) დამატება;

    ბ) მოცილება

    გ) რედაქტირება

    მონაცემთა ბაზის მართვის სისტემები (DBMS)

    DBMS- პროგრამული ინსტრუმენტების ნაკრები, რომელიც საშუალებას გაძლევთ შექმნათ და შეინახოთ მონაცემთა ბაზა.

    DBMS ტიპები:

    1. დესკტოპის DBMS იყოფა სირთულის ხარისხის მიხედვით:

    ა) DBMS მცირე მოცულობის ინფორმაციის დასამუშავებლად (MS OUTLOOK)

    ბ) DBMS ორიენტირებული მომხმარებელზე, რომელმაც არ იცის დაპროგრამება (EXCEL, LOTUS)

    გ) კომპლექსური DBMS, რომელიც ორიენტირებულია აპლიკაციის შემუშავებაზე (Fox Base, MS Access)

    2. სერვერის DBMS - გამოიყენეთ "კლიენტ-სერვერის" არქიტექტურა, ე.ი. განახორციელოს მონაცემთა ცენტრალიზებული შენახვა და დამუშავება (Informix, MS SQL Server).

    DBMS-ის ძირითადი ფუნქციები

    1) უზრუნველყოს მონაცემთა ბაზის სტრუქტურის შექმნა (განისაზღვრე რა ინფორმაცია იქნება შენახული, რა ატრიბუტები, მონაცემთა ტიპები)

    2) მონაცემთა ბაზაში მოდიფიცირება:

    ა) დამატება;

    ბ) მოცილება

    გ) რედაქტირება

    3) მოიძიეთ ინფორმაცია


    კითხვა 29.

    LIR -

    აქტიური ფორმები

    ყველაზე ზოგადი გზით LIR

    პასიური ენობრივი ინფორმაციის რესურსები მოიცავს:

    1) წერილობითი ლექსიკა წარმოდგენილია ერთენოვანი და მრავალენოვანი ლექსიკონებით. მისი ზოგადი გაგებით ლექსიკა - ეს არის საცნობარო წიგნი, რომელიც შეიცავს სიტყვებს (მორფემები, ფრაზები, იდიომები და ა.შ.) დალაგებული გარკვეული თანმიმდევრობით (სხვადასხვა ტიპის ლექსიკონებში). ის შეიძლება შეიცავდეს აღწერილი ერთეულების მნიშვნელობის ინტერპრეტაციას, ასევე სხვადასხვა ინფორმაციას შესახებმათ. ნებისმიერი ლექსიკონი შეიძლება წარმოდგენილი იყოს როგორც რელატიური მონაცემთა ბაზა

    ა) სიტყვაფორმების სიხშირე-ანბანური ლექსიკონინებისმიერი ტექსტი - უმარტივესი ენობრივი მონაცემთა ბაზა;

    ბ) სიტყვების ინდექსიუფრო რთული მონაცემთა ბაზა. მასში, ტექსტში სიტყვის ფორმის გამოყენების აბსოლუტური სიხშირის გარდა, მითითებულია გვერდებისა და სტრიქონების რიცხვი იმ გვერდზე, სადაც მოცემული სიტყვის ფორმა შეგხვდათ.

    in) კონკორდანსებიკიდევ უფრო რთული ტიპის მონაცემთა ბაზა . მათში ტექსტის თითოეული სიტყვის ფორმა ხასიათდება არა მხოლოდ რიცხვითი მაჩვენებლებით (სიხშირე, გვერდის ნომერი, სტრიქონის ნომერი და ა.შ.), არამედ გარკვეული კონტექსტითაც. , რომელშიც იგი გამოიყენება. როგორც წესი, ეს კონტექსტი შედგება 3 წინადადებისგან: წინადადება, რომელშიც წარმოიქმნება სიტყვის ფორმა, წინადადება მთავარი წინადადების წინ და წინადადება მის შემდეგ.

    გ) ენციკლოპედიებილექსიკონები, რომლებიც შეიცავს არა სიტყვის, როგორც ასეთის, არამედ მის მიერ განსაზღვრული საგნის, ფაქტის ან ფენომენის მახასიათებლებს. არსებობს საკმაოდ დიდი რაოდენობით სხვადასხვა ენციკლოპედია მანქანურ მედიაზე. მათ შორის ყველაზე ცნობილია ენციკლოპედია ბრიტანიკა. მასში შედის 82000 სტატია და 700 დამატებითი მასალა, რომელიც გამოქვეყნებულია 1768 წლიდან. არანაკლებ ცნობილია ფრანგული ენციკლოპედიები "Tons les savoire du Monde", "Le monde sur CD-ROM", "ვერსალი" და სხვა. რუსულად გამოიცა კირილესა და მეთოდეს დიდი ენციკლოპედია.

    ე) თეზაურუსი- ფუნდამენტურად განსხვავებული ტიპის ლექსიკონები. იგი ცალსახად მიუთითებს სემანტიკურ კავშირებზე მისი ლექსიკური ერთეულების გარკვეულ ნაწილს შორის. როგორც წესი, ასეთი ლექსიკონები აგებულია საკმაოდ ვიწრო პრობლემური სფეროს ტექსტებისთვის: კომპიუტერული ტექნოლოგია, მუსიკა, გემთმშენებლობა, სოფლის მეურნეობა და ა.შ.

    ე) ტერმინოლოგიური ლექსიკონი(TS) - ლექსიკონი, რომლის ძირითადი ერთეულია ტერმინი .
    ვადა - ეს არის სიტყვა ან დაქვემდებარებული ფრაზა, რომელსაც აქვს განსაკუთრებული მნიშვნელობა, გამოხატავს და აყალიბებს პროფესიულ კონცეფციას და გამოიყენება სამეცნიერო და პროფესიული საგნების შემეცნებისა და განვითარების პროცესში და მათ შორის ურთიერთობაში.


    კითხვა 30.

    LIR -კომპიუტერზე შენახული მონაცემების კოლექცია.

    ლინგვისტური საინფორმაციო რესურსები- საინფორმაციო რესურსის ერთ-ერთი კომპონენტი.საინფორმაციო რესურსი გაგებულია, როგორც ზოგიერთი ინტელექტუალური რესურსი, კოლექტიური შემოქმედების შედეგი.

    საინფორმაციო რესურსების პასიური ფორმებია წიგნები, ჟურნალები, გაზეთები, ლექსიკონები, ენციკლოპედიები, პატენტები, მონაცემთა ბაზები და მონაცემთა ბანკები და ა.შ.

    აქტიური ფორმებიმოიცავს ალგორითმებს, მოდელებს, პროგრამებს, ცოდნის ბაზებს

    ყველაზე ზოგადი გზით LIR- ეს არის ერთგვარი ენობრივი მონაცემთა ბაზა, რომელიც შეიძლება განახლდეს და რომელშიც შეგიძლიათ მოძებნოთ ესა თუ ის ინფორმაცია. ლინგვისტური რესურსები აუცილებელია როგორც კომპიუტერის მომხმარებლებისთვის, ასევე სხვადასხვა კომპიუტერული სისტემებისთვის, რომლებიც დაკავშირებულია მეტყველების ტექსტის დამუშავებასთან: ტექსტების შეჯამება, ანოტაცია და თარგმნა, ტექსტის ავტომატური ანალიზი, მეტყველებისა და ტექსტის სინთეზი.

    2) დაწერილი ტექსტის მასივი ( კორპუს ტექსტო in, ე.ი. ტექსტების ნაკრები, რომელიც საკმარისია გარკვეული ენის, დიალექტის ან ენის სხვა ქვეჯგუფის შესახებ სანდო მეცნიერული დასკვნების მისაცემად).

    ა) შეიძლება გამოყენებულ იქნას:

    ლექსიკოგრაფიასა და ლექსიკოლოგიაში (სხვადასხვა ლექსიკონების შედგენისთვის, პოლისემანტიკური სიტყვების მნიშვნელობების განსაზღვრისთვის, ტექსტში სიტყვების ასოციაციური კავშირების ამოცნობისთვის, ტერმინებისა და ტერმინოლოგიური ფრაზების გამოკვეთისთვის და ა.შ.).

    გრამატიკაში (სხვადასხვა ტიპის ტექსტებში გრამატიკული მორფემების გამოყენების სიხშირის დასადგენად, ფრაზებისა და წინადადებების ყველაზე ხშირად გამოყენებული ტიპების იდენტიფიცირება, სინონიმური მორფოლოგიური ერთეულების მნიშვნელობების დადგენა, სიტყვების კლასების გამოყენების სიხშირე და ა.შ.) .

    ტექსტის ლინგვისტიკაში (ტექსტის ტიპების დიფერენცირებისთვის, თანხვედრის შესაქმნელად, აბზაცებში წინადადებებსა და აბზაცებს შორის კავშირების იდენტიფიცირებისთვის)

    ტექსტების ავტომატურად თარგმნისას (სიტყვების კონტექსტის მოსაძიებლად, რომლებსაც აქვთ რამდენიმე თარგმანის ეკვივალენტი, მოძებნეთ ტერმინოლოგიური და ფრაზეოლოგიური ფრაზების თარგმანის ეკვივალენტები პარალელურ ტექსტებში და ა.შ.).

    საგანმანათლებლო მიზნებისთვის (ციტატების შერჩევა, ნამუშევრების ცალკეული ფრაგმენტები, სახელმძღვანელოებისა და სასწავლო საშუალებების შექმნის პროცესში გამოყენებული მაგალითები.

    ბ) მონიშნული ტექსტური კორპუსი(ინგლისურიდან, ტეგი -"ინდექსი, ნაგავი"). ასეთი კორპუსის ყველა სიტყვა იღებს ანბანურ ან რიცხვობრივ ინდექსებს, რომლებიც მიუთითებს მათ გრამატიკულ, ლექსიკურ, სემანტიკურ ან სტრუქტურულ მახასიათებლებზე. შეიძლება არსებობდეს რამდენიმე ასეთი ინდექსი.

    3) ფონეტიკური ენობრივი რესურსები
    ამჟამად, ზოგადად მიღებულია, რომ მანქანით წაკითხვადი ფონეტიკური კორპუსების შესაქმნელად, ტრანსკრიფცია გამოიყენება ბგერის მეტყველების ორთოგრაფიული წარმოდგენის საფუძველზე, დამატებითი ნიშნებით, რომლებიც გადმოსცემს (საჭიროების შემთხვევაში) პროზოდიკურ, პარალინგვისტურ და გამოთქმის სხვა მახასიათებლებს.

    ა) ტექსტების ფონეტიკური კორპუსი ფართოდ გამოიყენება შემდეგი ამოცანების გადასაჭრელად:

    ენის ზეპირი და წერილობითი ფორმების შედარებითი შესწავლა;

    ზეპირი მეტყველების გრამატიკული და ლექსიკური თავისებურებების შესწავლა;

    დიალექტების ფონეტიკური თავისებურებების შესწავლა;

    ფონემების და მათი კომბინაციების სიხშირის სიების აგება;

    სამეტყველო ერთეულების აკუსტიკური თვისებების შესწავლა და მათი გამოყენება ფსიქოლინგვისტურ და ლინგვისტურ ექსპერიმენტებში;

    კომპიუტერული სისტემების შექმნა, ზეპირი მეტყველების ამოცნობა და სინთეზი.