ابزارهای تشخیص گفتار سیستم های تشخیص خودکار گفتار

به منظور. واسه اینکه. برای اینکه گفتار را تشخیص دهدو ترجمه اش کنید از صدا یا تصویر گرفته تا متن، برنامه ها و افزونه هایی برای مرورگرها وجود دارد. با این حال، چرا این همه، اگر خدمات آنلاین وجود دارد؟ برنامه ها باید روی رایانه نصب شوند، علاوه بر این، بیشتر برنامه های تشخیص گفتار رایگان نیستند.


تعداد زیادی پلاگین نصب شده در مرورگر سرعت کار آن و سرعت گشت و گذار در اینترنت را به شدت کاهش می دهد. و خدماتی که امروز مورد بحث قرار خواهد گرفت کاملاً رایگان هستند و نیازی به نصب ندارند - شما وارد شدید، از آن استفاده کردید و رفتید!

در این مقاله به بررسی خواهیم پرداخت دو سرویس آنلاین ترجمه گفتار به متن. هر دوی آنها بر اساس یک اصل کار می کنند: شروع به ضبط می کنید (به مرورگر اجازه می دهید در حین استفاده از سرویس به میکروفون دسترسی داشته باشد)، با میکروفون صحبت کنید (دیکته) و در خروجی متنی دریافت می کنید که می تواند در هر سندی کپی شود. کامپیوتر.

Speechpad.ru

سرویس تشخیص گفتار آنلاین روسی زبان. دستورالعمل های دقیقی برای کار به زبان روسی دارد.

  • پشتیبانی از 7 زبان (روسی، اوکراینی، انگلیسی، آلمانی، فرانسوی، اسپانیایی، ایتالیایی)
  • دانلود برای رونویسی یک فایل صوتی یا تصویری (ویدیوهای یوتیوب پشتیبانی می شوند)
  • ترجمه همزمان به زبان دیگر
  • پشتیبانی از ورودی صوتی علائم نگارشی و خوراک خط
  • نوار دکمه (تغییر مورد، خط جدید، نقل قول، براکت و غیره)
  • در دسترس بودن یک حساب شخصی با سابقه سوابق (گزینه پس از ثبت نام در دسترس است)
  • وجود یک افزونه برای Google Chrome برای وارد کردن متن به صورت صوتی در قسمت متن سایت ها (به نام "ورودی متن صوتی - Speechpad.ru")

Dictation.io

دومین سرویس ترجمه آنلاین گفتار به متن. یک سرویس خارجی که در عین حال با زبان روسی عالی کار می کند که بسیار شگفت انگیز است. کیفیت تشخیص گفتار کمتر از Speechpad نیست، اما بعداً بیشتر در مورد آن صحبت خواهیم کرد.

عملکرد اصلی سرویس:

  • پشتیبانی از 30 زبان، که در میان آنها حتی مجارستان، ترکی، عربی، چینی، مالایی و غیره وجود دارد.
  • تشخیص خودکار تلفظ علائم نگارشی، شکست خط و غیره
  • امکان ادغام با صفحات هر سایت
  • وجود یک افزونه برای Google Chrome (به نام "تشخیص صدا")

در تشخیص گفتار، مهمترین چیز دقیقاً است کیفیت ترجمهگفتار به متن "نان ها" و فرصت های دلپذیر - چیزی بیش از یک مزیت خوب. بنابراین هر دو سرویس در این زمینه چه چیزی می توانند به رخ بکشند؟

آزمون مقایسه ای خدمات

برای آزمون، ما دو قطعه دشوار برای تشخیص را انتخاب می کنیم که حاوی کلمات و عباراتی است که به ندرت در گفتار امروزی استفاده می شود. برای شروع، ما بخشی از شعر "بچه های دهقان" توسط N. Nekrasov را می خوانیم.

در زیر آمده است نتیجه ترجمه گفتار به متنهر سرویس (خطاها با رنگ قرمز مشخص شده اند):

همانطور که می بینید، هر دو سرویس با خطاهای تقریباً یکسانی با تشخیص گفتار کنار آمدند. نتیجه کاملاً خوب است!

حال برای آزمایش، گزیده ای از نامه سرباز ارتش سرخ سوخوف (فیلم "خورشید سفید صحرا") را می گیریم:

نتیجه عالی!

همانطور که می بینید، هر دو سرویس به اندازه کافی با تشخیص گفتار مقابله می کنند - هر کدام را انتخاب کنید! به نظر می رسد که آنها حتی از موتور مشابهی استفاده می کنند - طبق نتایج آزمایش خطاهای بسیار مشابهی داشتند). اما اگر به امکانات اضافی مانند آپلود فایل صوتی/تصویری و ترجمه آن به متن (رونویسی) یا ترجمه همزمان متن صوتی به زبان دیگر نیاز دارید، Speechpad بهترین انتخاب خواهد بود!


به هر حال، در اینجا نحوه ترجمه همزمان قطعه ای از شعر نکراسوف به انگلیسی به شرح زیر است:

خوب، این یک دستورالعمل ویدیویی کوتاه برای کار با Speechpad است که توسط خود نویسنده پروژه ضبط شده است:

دوستان این سرویس رو دوست داشتید؟ آیا آنالوگ های بهتری می شناسید؟ برداشت های خود را در نظرات به اشتراک بگذارید.

چقدر خوب بود قبلا! با تماس با میز کمک می توان با اپراتور دختر صحبت کرد و حتی با او قرار ملاقات گذاشت. حالا در آن طرف سیم صدای زن دلنشین اما بی جانی به گوش می رسد که پیشنهاد می کند شماره 1 را برای دریافت فلان اطلاعات، 2 - برای ارتباط با آن، 3 - خروج از منو و غیره را شماره گیری کنید. به طور فزاینده ای، دسترسی به اطلاعات توسط سیستم کنترل می شود، نه توسط فرد. این منطق خاص خود را دارد: کار یکنواخت و غیر جالب نه توسط یک شخص، بلکه توسط یک ماشین انجام می شود. و برای کاربر، روش به دست آوردن اطلاعات ساده شده است: او مجموعه خاصی از اعداد را فراخوانی کرد - او اطلاعات لازم را دریافت کرد.

چنین سیستمی چگونه کار می کند؟ بیایید سعی کنیم آن را بفهمیم.

دو نوع اصلی از برنامه های تشخیص گفتار عبارتند از:

نرم افزار دیکته - متن و اعداد را وارد کنید.

بیایید فوراً رزرو کنیم که سیستم های تبدیل متن به گفتار و گفتار به متن، یعنی ترجمه متن به گفتار شفاهی و بالعکس را در نظر نگیریم. ما خود را به سیستم های تشخیص خودکار دستورات یا ناوبرهای صوتی محدود خواهیم کرد.

SARR - چیست؟

تشخیص خودکار گفتار (CAPP) عنصری از فرآیند پردازش گفتار است که هدف آن ارائه یک گفتگوی راحت بین کاربر و دستگاه است. به معنای گسترده، ما در مورد سیستم هایی صحبت می کنیم که هنگام تلفظ پیام های گفتاری به سبک آزاد، یک سخنران دلخواه، بدون در نظر گرفتن جهت گیری مشکل و محدودیت در حجم فرهنگ لغت، رمزگشایی واجی سیگنال صوتی گفتار را انجام می دهند. به معنای محدود، CAPP ها با اعمال محدودیت هایی بر روی الزامات تشخیص گفتار با صدای طبیعی به معنای کلاسیک آن، حل مشکلات خاص را تسهیل می کنند. بنابراین، طیف انواع CAPP از دستگاه‌های مستقل ساده و اسباب‌بازی‌های کودکان که قادر به تشخیص یا ترکیب کلمات، اعداد، شهرها، نام‌ها و غیره هستند تا سیستم‌های تشخیص گفتار با صدای طبیعی فوق‌العاده پیچیده و ترکیب آن را شامل می‌شود. برای استفاده، به عنوان مثال، به عنوان دستیار (IBM VoiceType Simply Speaking Gold).

به عنوان جزء اصلی هر رابط دوستانه بین یک ماشین و یک شخص، CAPP می تواند در برنامه های مختلف ساخته شود، به عنوان مثال، در سیستم های کنترل صوتی، دسترسی صوتی به منابع اطلاعاتی، یادگیری زبان با استفاده از کامپیوتر، کمک به افراد ناتوان، دسترسی به چیزی از طریق سیستم های تأیید صدا / شناسایی.

CAPP به عنوان یک ابزار جستجو و مرتب سازی برای داده های صوتی و تصویری ضبط شده بسیار مفید است. تشخیص گفتار نیز هنگام وارد کردن اطلاعات مورد استفاده قرار می گیرد که مخصوصاً در مواقعی که چشم یا دست فرد مشغول است بسیار مفید است. CARR به افرادی که در محیط های پر استرس کار می کنند (پزشکان در بیمارستان ها، کارگران کارخانه، رانندگان) اجازه می دهد تا از رایانه برای به دست آوردن یا وارد کردن اطلاعات لازم استفاده کنند.

به طور معمول، CAPP در سیستم هایی مانند برنامه های تلفنی، سیستم های تعبیه شده (سیستم های شماره گیری، عملیات PDA، رانندگی و غیره)، برنامه های چند رسانه ای (سیستم های آموزش زبان) استفاده می شود.

کلیدهای صوتی

نشانه های صوتی گاهی اوقات به عنوان سیستم های تشخیص خودکار گفتار نامیده می شود. معمولاً اینها سیستم های بیومتریک یا دسترسی مجاز به اطلاعات یا دسترسی فیزیکی به اشیاء هستند. دو نوع از این سیستم ها را باید متمایز کرد: سیستم های تأیید و سیستم های شناسایی. در حین تأیید، کاربر ابتدا کد خود را ارائه می دهد، یعنی خود را به هر طریقی اعلام می کند و سپس با صدای بلند یک رمز عبور یا عبارت دلخواه را می گوید. سیستم بررسی می کند که آیا صدای داده شده مطابق با استانداردهایی است که طبق کد ارائه شده از حافظه رایانه فراخوانی شده است یا خیر.

هنگام شناسایی، هیچ اظهارنظر قبلی در مورد کاربر ارائه نمی شود. در این صورت مقایسه این صدا با تمامی استانداردها انجام می شود و سپس مشخص می شود که فرد شناسایی شده توسط صدا کیست. امروزه رویکردها و روش‌های زیادی برای اجرای چنین سیستم‌هایی وجود دارد و همه آنها، به طور معمول، با یکدیگر متفاوت هستند - چه تعداد توسعه‌دهنده، چه تعداد از انواع آنها. همین را می توان در مورد سیستم های تشخیص گفتار نیز گفت. بنابراین، قضاوت در مورد ویژگی‌های سیستم‌های تشخیص گفتار و تشخیص شخصیت خاص تنها با استفاده از پایگاه‌های داده آزمون ویژه امکان‌پذیر است.

کمی تاریخ

ایالات متحده آمریکا، اواخر دهه 1960: "سه"، والتر کرونکیت، مجری برنامه علمی محبوب قرن 21، در جریان نمایشی از آخرین پیشرفت ها در تشخیص گفتار گفت. کامپیوتر این کلمه را "چهار" تشخیص داد. والتر زمزمه کرد: "احمق." کامپیوتر پاسخ داد: "این کلمه در فرهنگ لغت نیست."

اگرچه اولین پیشرفت ها در زمینه تشخیص گفتار به دهه 1920 برمی گردد، اولین سیستم تنها در سال 1952 توسط آزمایشگاه های بل (امروزه بخشی از فناوری های لوسنت) ایجاد شد. و اولین سیستم تجاری حتی بعدها ایجاد شد: در سال 1960، IBM توسعه چنین سیستمی را اعلام کرد، اما این برنامه هرگز وارد بازار نشد.

سپس، در دهه 1970، خطوط هوایی شرقی در ایالات متحده یک سیستم ارسال چمدان وابسته به بلندگو را نصب کرد: اپراتور مقصد را نام برد - و چمدان در راه ارسال شد. با این حال، با توجه به تعداد خطاهای ایجاد شده، سیستم هرگز دوره آزمایشی را پشت سر نمی گذارد.

پس از آن، تحولات در این زمینه، در صورت وجود، نسبتاً کند انجام شد. حتی در دهه 1980، تعداد کمی از برنامه های تجاری واقعی با استفاده از سیستم های تشخیص گفتار وجود داشت.

امروزه نه ده ها، بلکه صدها تیم تحقیقاتی در مؤسسات علمی و آموزشی و همچنین در شرکت های بزرگ در این راستا فعالیت می کنند. این را می توان توسط انجمن های بین المللی دانشمندان و متخصصان در زمینه فن آوری های گفتار مانند ICASSP، EuroSpeech، ICPHS و غیره قضاوت کرد. بیش از حد برآورد شود

چند سالی است که ناوبرهای صوتی یا سیستم های تشخیص فرمان با موفقیت در زمینه های مختلف فعالیت مورد استفاده قرار می گیرند. به عنوان مثال، مرکز تماس OmniTouch که توسط آلکاتل به واتیکان ارائه شده است، برای خدمات رسانی به رویدادهایی که به عنوان بخشی از جشن 2000 سالگرد مسیح برگزار می شود، استفاده می شود. زائری که با مرکز تماس تماس گرفت سؤال خود را بیان کرد و سیستم تشخیص خودکار گفتار به او گوش داد. اگر سیستم تشخیص دهد که سؤالی در مورد موضوعی که اغلب رخ می‌دهد، مانند برنامه‌های رویداد یا آدرس‌های هتل پرسیده شده است، یک ورودی از پیش ضبط‌شده شامل می‌شود. اگر نیاز به روشن شدن سوال بود، یک منوی سخنرانی ارائه می شد که در آن یکی از موارد باید با صدا مشخص می شد. اگر سیستم تشخیص تشخیص دهد که هیچ پاسخ از پیش ضبط شده ای برای سوال پرسیده شده وجود ندارد، زائر به اپراتور انسانی متصل می شود.

در سوئد، اخیراً یک سرویس استعلام تلفنی خودکار با استفاده از نرم افزار تشخیص گفتار فیلیپس افتتاح شد. در اولین ماه فعالیت سرویس اتوسوار که بدون اعلام رسمی شروع به کار کرد، 200 هزار مشتری از خدمات آن استفاده کردند. شخص باید شماره مشخصی را شماره گیری کند و پس از پاسخ منشی خودکار، بخشی از فهرست اطلاعات مورد علاقه خود را نامگذاری کند.

این سرویس جدید عمدتاً برای مشتریان خصوصی در نظر گرفته شده است که به دلیل هزینه قابل توجه کمتر خدمات، آن را ترجیح می دهند. سرویس Autosvar اولین نوع خود در اروپا است (در ایالات متحده، آزمایشات یک سرویس مشابه در AT&T در دسامبر سال گذشته آغاز شد).

در اینجا چند نمونه از استفاده از این فناوری در ایالات متحده وجود دارد.

مشاوران املاک اغلب به خدمات نیوپورت بی سیم مراجعه می کنند. وقتی یک مشاور مسکن در خیابان رانندگی می کند و تابلوی فروش را در نزدیکی خانه می بیند، با نیوپورت بی سیم تماس می گیرد و اطلاعاتی درباره خانه ای با فلان شماره در فلان خیابان می خواهد. منشی تلفنی با صدای دلنشین زن به او از فیلم خانه، تاریخ ساخت و صاحبان می گوید. تمام این اطلاعات در پایگاه داده نیوپورت بی سیم است. مشاوران املاک فقط می توانند پیامی برای مشتری صادر کنند. هزینه اشتراک حدود 30 دلار در ماه است.

جولی، نماینده مجازی Amtrak، از اکتبر 2001 به مسافران راه آهن خدمات رسانی می کند. او از طریق تلفن در مورد برنامه قطارها، ورود و خروج آنها اطلاع می دهد و همچنین رزرو بلیط را انجام می دهد. جولی محصولی از SpeechWorks Software و Intervoice Hardware است. در حال حاضر رضایت مسافران را تا 45 درصد افزایش داده است. 13 از 50 مشتری تمام اطلاعات مورد نیاز خود را از جولی دریافت می کنند. Amtrak قبلاً از سیستم ارجاع مبتنی بر لحن استفاده می کرد، اما میزان رضایت در آن زمان کمتر بود و تنها 9 نفر از 50 مشتری داشتند.

آمتراک اعتراف می کند که جولی قیمت خود (4 میلیون دلار) را در 12 تا 18 ماه پس داده است. او اجازه داد یک تیم کامل از کارمندان را استخدام نکند. و بریتیش ایرویز با استفاده از فناوری Nuance Communications که میز کمک را نیز خودکار می کند، 1.5 میلیون دلار در سال صرفه جویی می کند.

اخیراً شرکت Sony Computer Entertainment America اولین بازی ویدیویی Socom را معرفی کرد که در آن بازیکنان می‌توانند به جنگنده‌های Deploy grenades دستور شفاهی بدهند. این بازی 60 دلاری از فناوری ScanSoft استفاده می کند. سال گذشته، 450000 عدد از این بازی ها فروخته شد و Socom را به رهبر بلامنازع فروش این شرکت تبدیل کرد.

در خودروهای گران قیمتی مانند Infinity و Jaguar، چندین سال است که از کنترل شفاهی کنترل پنل استفاده می شود: رادیو، رژیم دما و سیستم ناوبری صدای صاحب خودرو را درک می کند و بی چون و چرا از مالک اطاعت می کند. اما در حال حاضر فناوری تشخیص صدا شروع به استفاده از خودروهای طبقه متوسط ​​کرده است. بنابراین، از سال 2003، هوندا آکورد دارای شناسه صوتی داخلی از IBM است. ViaVoice نام دارد و بخشی از یک سیستم ناوبری 2000 دلاری است.به گفته تامین کننده، یک پنجم خریداران هوندا آکورد مدلی با ناوبری صوتی را انتخاب می کنند.

حتی در پزشکی، فناوری تشخیص صدا جایگاه خود را پیدا کرده است. دستگاه هایی برای معاینه معده، مطیع صدای پزشک، قبلا ساخته شده است. درست است، به گفته کارشناسان، این دستگاه ها هنوز ناقص هستند: آنها به دستورات پزشک پاسخ آهسته دارند. اما همچنان در پیش است. در ممفیس، مرکز پزشکی VA 277000 دلار در نرم‌افزار Dragon سرمایه‌گذاری کرد که به پزشکان و پرستاران اجازه می‌دهد اطلاعات را در پایگاه داده کامپیوتری دیکته کنند. احتمالاً به زودی برای تشخیص دستخط پزشک در پرونده پزشکی نیازی به رنج نیست.

در حال حاضر صدها شرکت بزرگ از فناوری تشخیص صدا در محصولات یا خدمات خود استفاده می کنند. اینها عبارتند از AOL، FedEx، Honda، Sony، Sprint، T. Rowe Price، United Airlines و Verizo. به گفته کارشناسان، بازار فناوری صدا در سال 2002 به حدود 695 میلیون دلار رسید که 10 درصد بیشتر از سال 2001 است.

یونایتد ایرویز یک سرویس استعلام خودکار را در سال 1999 معرفی کرد. سیستم های پردازش خودکار تماس تلفنی توسط شرکت هایی مانند بانک سرمایه گذاری Charles Schwab & Co، زنجیره خرده فروشی Sears، سوپرمارکت زنجیره ای Roebuck اداره می شوند. حامل های بی سیم ایالات متحده (AT&T Wireless و Sprint PCS) بیش از یک سال است که از برنامه های مشابه و ارائه خدمات شماره گیری صوتی استفاده می کنند. و اگرچه آمریکا اکنون در تعداد مراکز تماس از این نوع پیشتاز است، اخیراً مزایای سیستم های تشخیص گفتار در اروپا شروع شده است. به عنوان مثال، خدمات راه آهن سوئیس در حال حاضر به مسافران آلمانی زبان خود خدماتی مشابه خدمات ارائه شده توسط United Airways ارائه می دهد.

پیش بینی تحلیلگران

امروزه فناوری‌های تشخیص گفتار یکی از امیدوارکننده‌ترین فناوری‌ها در جهان محسوب می‌شوند. بنابراین، بر اساس پیش‌بینی‌های شرکت تحقیقاتی آمریکایی Cahners In-Stat، بازار جهانی نرم‌افزار تشخیص گفتار تا سال 2005 از 200 میلیون دلار به 2.7 میلیارد دلار افزایش می‌یابد. به گفته Datamonitor، حجم بازار فناوری صوتی یک رشد خواهد داشت. میانگین 43% در سال: از 650 میلیون دلار در سال 2000 به 5.6 میلیارد دلار در سال 2006 (شکل 1). کارشناسانی که با شرکت رسانه ای CNN همکاری می کنند، تشخیص گفتار را به عنوان یکی از هشت فناوری امیدوارکننده در سال جاری رتبه بندی کردند. و تحلیلگران IDC می گویند که تا سال 2005، تشخیص گفتار به طور کامل تمام فناوری های گفتاری دیگر را از بازار خارج خواهد کرد (شکل 2).

مشکلات اصلی

مشکل اصلی که در توسعه CAPP ایجاد می شود، تلفظ متفاوت یک کلمه هم توسط افراد مختلف و هم توسط یک فرد در موقعیت های مختلف است. این باعث ناراحتی شخص نمی شود، اما یک کامپیوتر می تواند. علاوه بر این، سیگنال دریافتی تحت تأثیر عوامل متعددی مانند نویز محیط، بازتاب، اکو و نویز کانال قرار می گیرد. این با این واقعیت پیچیده است که نویز و اعوجاج از قبل شناخته شده نیستند، یعنی نمی توان سیستم را قبل از شروع کار با آنها تنظیم کرد.

با این حال، بیش از نیم قرن کار روی CAPP های مختلف به ثمر نشسته است. تقریباً هر سیستم مدرن می تواند در چندین حالت کار کند. اول، می تواند وابسته یا مستقل از گوینده باشد. یک سیستم وابسته به بلندگو نیاز به آموزش ویژه برای یک کاربر خاص دارد تا بتواند دقیقاً آنچه را که می گوید تشخیص دهد. برای آموزش سیستم، کاربر نیاز به گفتن چند کلمه یا عبارت خاص دارد که سیستم آن ها را تجزیه و تحلیل کرده و نتایج را به خاطر بسپارد. این حالت معمولا در سیستم های دیکته زمانی که یک کاربر با سیستم کار می کند استفاده می شود.

سیستم مستقل از بلندگو می تواند توسط هر کاربری بدون روش آموزشی استفاده شود. این حالت معمولاً در مواردی استفاده می شود که روش یادگیری امکان پذیر نباشد، مانند برنامه های تلفن. بدیهی است که دقت تشخیص یک سیستم وابسته به بلندگو بالاتر از یک سیستم مستقل از بلندگو است. با این حال، یک سیستم مستقل از بلندگو برای استفاده راحت تر است، به عنوان مثال، می تواند با طیف نامحدودی از کاربران کار کند و نیازی به آموزش ندارد.

ثانیاً، سیستم ها به سیستم هایی تقسیم می شوند که فقط با دستورات مجزا کار می کنند و سیستم هایی که می توانند گفتار منسجم را تشخیص دهند. تشخیص گفتار کار بسیار پیچیده‌تری نسبت به تشخیص کلمات گفته شده جداگانه است. به عنوان مثال، هنگام انتقال از تشخیص کلمه ایزوله به تشخیص گفتار با فرهنگ لغت 1000 کلمه، میزان خطا از 3.1 به 8.7 افزایش می یابد و پردازش گفتار سه برابر بیشتر طول می کشد.

حالت تلفظ دستور ایزوله ساده ترین و کم مصرف ترین منبع است. هنگام کار در این حالت، پس از هر کلمه، کاربر مکث می کند، یعنی مرز کلمات را به وضوح مشخص می کند. سیستم نیازی به یافتن ابتدا و انتهای یک کلمه در خود یک عبارت ندارد. سپس سیستم کلمه شناسایی شده را با الگوهای موجود در فرهنگ لغت مقایسه می کند و محتمل ترین مدل توسط سیستم پذیرفته می شود. این نوع تشخیص به جای روش های معمول DTMF در تلفن به طور گسترده ای مورد استفاده قرار می گیرد.

تغییرات اضافی در گفتار نیز به دلیل آهنگ های دلخواه، استرس، ساختار غیر دقیق عبارات، مکث ها، تکرارها و غیره ایجاد می شود.

در تقاطع تلفظ مداوم و جداگانه کلمات، یک حالت جستجوی کلمه کلیدی بوجود آمد. در این حالت، CAPP یک کلمه یا گروهی از کلمات از پیش تعیین شده را در جریان گفتار عمومی پیدا می کند. کجا میشه ازش استفاده کرد؟ به عنوان مثال، در دستگاه های شنود که وقتی کلمات خاصی در گفتار ظاهر می شوند یا در مرجع الکترونیکی روشن می شوند و شروع به ضبط می کنند. سیستم پس از دریافت درخواست به صورت دلخواه، کلمات معنایی را انتخاب کرده و با شناخت آنها، اطلاعات لازم را ارائه می کند.

اندازه فرهنگ لغت مورد استفاده جزء مهم CAPP است. بدیهی است که هرچه فرهنگ لغت بزرگتر باشد، احتمال اشتباه سیستم بیشتر می شود. در بسیاری از سیستم‌های مدرن، می‌توان لغت‌نامه‌ها را با کلمات جدید در صورت نیاز تکمیل کرد یا لغت نامه‌های جدید را بارگذاری کرد. نرخ خطای معمولی برای یک سیستم مستقل از بلندگو با تلفظ فرمان ایزوله حدود 1% برای یک فرهنگ لغت 100 کلمه ای، 3% برای یک فرهنگ لغت 600 کلمه ای و 10% برای یک فرهنگ لغت 8000 کلمه ای است.

پیشنهادات بازار مدرن CAPP

و بازار امروز توسط CAPP شرکت های مختلف نمایندگی می شود. بیایید برخی از آنها را در نظر بگیریم.

آکولاب

دقت تشخیص 97٪.

سیستم مستقل بلندگو توسعه دهندگان این سیستم پایگاه داده های مختلفی را برای بسیاری از زبان ها تجزیه و تحلیل کردند تا تمام تغییرات گفتاری را که بسته به سن، صدا، جنسیت و لهجه رخ می دهد، در نظر بگیرند. الگوریتم های اختصاصی بدون توجه به ویژگی های تجهیزات (هدفون، میکروفون) و ویژگی های کانال، تشخیص گفتار را ارائه می دهند.

این سیستم از توانایی ایجاد فرهنگ لغت اضافی پشتیبانی می کند که ویژگی های تلفظ و لهجه ها را در نظر می گیرد. این به ویژه زمانی مفید است که سیستم توسط افرادی استفاده می شود که تلفظ آنها با تلفظ معمول بسیار متفاوت است.

این سیستم از رایج ترین زبان ها مانند انگلیسی بریتانیایی و آمریکایی، فرانسوی، آلمانی، ایتالیایی، اسپانیایی آمریکای شمالی پشتیبانی می کند. یک فرهنگ لغت را می توان برای هر یک از این زبان ها پیکربندی کرد، اما استفاده از چندین زبان به طور همزمان به عنوان بخشی از یک فرهنگ لغت ممکن نیست.

این محصول بر روی Windows NT/2000، Linux و Sun SPARC Solaris موجود است.

Babear SDK نسخه 3.0

سیستم مستقل از بلندگو که نیازی به آموزش برای کاربر خاصی ندارد. انطباق با کاربر در حین کار اتفاق می افتد و بهترین نتیجه را تشخیص می دهد. تنظیم خودکار فعالیت صوتی به شما امکان می دهد گفتار را در یک محیط بسیار پر سر و صدا، مانند ماشین تشخیص دهید. سیستم کلماتی را که در فرهنگ لغت فهرست نشده اند تعیین نمی کند. امکان جستجوی کلمات کلیدی وجود دارد. سیستم را می توان طوری پیکربندی کرد که هم با یک فرهنگ لغت کوچک (تلفظ مجزا از دستورات) و هم با یک فرهنگ لغت بزرگ (گفتار) کار کند.

این سیستم از زبان های زیر پشتیبانی می کند: انگلیسی بریتانیایی و آمریکایی، آلمانی اسپانیایی، فرانسوی، دانمارکی، سوئدی، ترکی، یونانی، ایسلندی و عربی.

این سیستم بر روی Windows 98 (SE)/NT 4.0/2000/CE، Mac OS X و Linux اجرا می شود.

Loquendo ASR

سیستم مستقل بلندگو برای استفاده در تلفن بهینه شده است. امکان تشخیص تک تک کلمات و گفتار، جستجوی کلمات کلیدی (فرهنگ لغت تا 500 کلمه). به دلیل حجم زیاد فرهنگ لغت و انعطاف پذیری سیستم به شما امکان می دهد برنامه های کاربر پسند ایجاد کنید.

پشتیبانی از 12 زبان، از جمله رایج ترین زبان های اروپایی (ایتالیایی، اسپانیایی، انگلیسی انگلیسی و آمریکایی، فرانسوی، آلمانی، یونانی، سوئدی و غیره).

در مجموعه گفتار Loquendo همراه با سیستم تبدیل متن به گفتار و Loquendo VoiceXML Interpreter گنجانده شده است که از چندین صدا و زبان پشتیبانی می کند.

این سیستم بر اساس MS Windows NT/2000، UNIX و Linux کار می کند.

LumenVox

یک سیستم مستقل از بلندگو که نیازی به آموزش ندارد، اما پس از انطباق با یک کاربر خاص، نتایج تشخیص بسیار بهتر می شود: دقت تشخیص بیش از 90٪ است.

پشتیبانی از فرمت های مختلف فایل های صوتی: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). الزامات سخت افزاری برای منابع سخت افزاری ندارد. بر اساس ویندوز NT/2000/XP و لینوکس کار می کند.

سیستم مورد نیاز (بر اساس ویندوز):

Windows NT 4.0 با Service Pack 6a، Windows 2000 یا Windows XP Pro.

حداقل حجم حافظه 512 مگابایت است.

سیستم مورد نیاز (بر اساس Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz یا بالاتر؛

حجم حافظه 256 مگابایت;

حجم دیسک 17 مگابایت (بعد از فشرده سازی).

تفاوت های ظریف

به گفته سازندگان، این سیستم برای کمترین مصرف حافظه و سایر منابع سیستم بهینه شده است. دقت تشخیص تا 96٪ است و حتی در یک محیط پر سر و صدا بالا باقی می ماند.

امکان خودآموزی سیستم و تنظیم آن برای هر کاربر وجود دارد.

قابل اجرا بر روی ویندوز 2000 و لینوکس.

روح

زبان می تواند هر باشد (فرهنگ لغت برای نیازهای خاص مشتری گردآوری شده است و شامل آن کلمات و به زبانی است که مشتری در الزامات تنظیمات سیستم مشخص کرده است. فرهنگ لغت می تواند کلماتی از زبان های مختلف داشته باشد، یعنی بدون با تغییر تنظیمات، سیستم می تواند کلمات را تشخیص دهد، به عنوان مثال، هم به زبان چینی و هم به زبان فنلاندی، اگر قبلاً در فرهنگ لغت وارد شده باشند). بنابراین، این سیستم می تواند با هر زبانی کار کند، در حالی که سیستم های دیگر - فقط با مجموعه خاصی از آنها.

این یک سیستم تشخیص خودکار گفتار است که تشخیص با کیفیت بالا را حتی در یک محیط بسیار پر سر و صدا ارائه می دهد. سیستم را می توان به راحتی برای کار در یکی از دو حالت پیکربندی کرد: تشخیص عبارات با تعداد دستورات ثابت (تلفظ دستورات فردی، حالت PIN-code) و تشخیص عبارات با تعداد دلخواه دستور (تلفظ مستمر دستورات، "حالت گفتار منسجم"). امکان جستجوی کلمات کلیدی وجود دارد. این محلول در شرایط نویز افزایشی غیر ثابت کار می کند. نسبت سیگنال به نویز مورد نیاز در حالت "PIN-code" تا 0 دسی بل و در حالت گفتار متصل تا 15 دسی بل است.

تاخیر تشخیص - 0.2 ثانیه. پارامترهای کانال صوتی: پهنای باند در محدوده 300-3500 هرتز. سازگاری با محیط صوتی توسط قطعات نویز با طول کلی حداقل 3 ثانیه انجام می شود.

برای "حالت کد پین":

فرهنگ لغت - 50 دستور.

احتمال تشخیص صحیح - 95-99٪ در SNR = 0…6 دسی بل.

شرایط صوتی مورد نیاز: افزایش نویز استاتیک باند پهن با SNR (نسبت سیگنال به نویز) >= 15 دسی بل.

برای حالت تشخیص گفتار متصل:

فرهنگ لغت - 12 کلمه / اعداد.

احتمال تشخیص صحیح زنجیره ای از کلمات 98-99٪ است.

ویژگی: سازگاری با صداهای دلخواه.

سیستم تشخیص خودکار گفتار از SPIRIT در قالب یک برنامه رایانه شخصی تحت MS Windows یا کد اسمبلی موجود است. بنا به درخواست مشتریان، راه حل را می توان به هر پلت فرم DSP یا RISC منتقل کرد.

نرم افزار صوتی

این سیستم می تواند در هر دو حالت وابسته به بلندگو و مستقل از بلندگو کار کند، بنابراین آموزش خاصی از سیستم برای کار با یک کاربر خاص لازم نیست.

دقت تشخیص بالا و عملیات بلادرنگ را حتی در محیط های پر سر و صدا ارائه می دهد.

سیستم گفتار متصل و لیستی از اعداد را تشخیص می دهد.

کلماتی که در فرهنگ لغت ذکر نشده و سر و صدای اضافی توسط او درک نمی شود و کلماتی که هیچ معنایی ندارند، مانند "الف"، "خوب" و غیره کنار گذاشته می شوند.

کلمات جدید را می توان به فرهنگ لغت اضافه کرد.

سیستم به طور خودکار با لحن، تلفظ و سایر ویژگی های گفتاری کاربر تنظیم می شود.

VoiceWare از انگلیسی و کره ای ایالات متحده پشتیبانی می کند. چینی و ژاپنی در حال توسعه هستند.

این سیستم بر روی Windows 95/98/NT 4.0، UNIX و Linux اجرا می شود.

  • 9. مواضع واجی. واج های قوی و ضعیف.
  • 10. تناوب موقعیتی واج های مصوت. کاهش کمی و کیفی واج های مصوت.
  • 11. تناوب واج های همخوان. جذب و غیر همسان سازی با کری/صدا و سختی/نرمی.
  • 12. تناوبات تاریخی واج ها.
  • 13. سقوط واج های مصوت کاهش یافته و پیامدهای این پدیده.
  • 14. تغییرات مرتبط با تاریخچه صداهای بینی در زبان روسی قدیمی.
  • 15. پالاتالیزه شدن زبانهای خلفی.
  • 17. رونویسی آوایی. رونویسی آوایی
  • 18. هجا. سرفصل دروس. انواع هجاها.
  • 19. کلمه آوایی. فشار
  • 20. ضربان گفتار. لحن
  • 21. تاکید. سازه های لحنی
  • 21. عبارت. لحن
  • 22. مفهوم ارتوپی
  • 23. قوانین اساسی تلفظ ادبی روسی.
  • 24. تلفظ حروف صدادار تحت فشار. تلفظ حروف صدادار بدون تاکید.
  • 25. تلفظ صامت های فردی.
  • 26. تلفظ گروه های صامت.
  • 27. تلفظ برخی از اشکال دستوری.
  • 28. تلفظ برخی از اختصارات. ویژگی های تلفظ کلمات خارجی.
  • 29. موارد دشوار تسلط بر استرس در زبان روسی.
  • 30. توسعه تلفظ ادبی روسی.
  • 31. کدنویسی گرامر
  • 32. رمزگذاری معنایی. دو برهان (علائم زمانی): علیت.
  • 33. رمزگذاری معنایی. دو برهان (نشانه های موقت): نتیجه، نتیجه، هدف.
  • 34. رمزگذاری معنایی. دو برهان (علائم زمانی): دگرگونی، تغییر
  • 35. رمزگذاری معنایی. دو استدلالی (نشانه های موقت): تعامل، گروه بندی، اشتراک، تداعی
  • 36. رمزگذاری معنایی. دو برهان (نشانه های موقت): جدایی، نفوذ، شرط، دخول.
  • 37. رمزگذاری معنایی. دو استدلالی (نشانه های موقت): انطباق، کنترل، تبعیت، وابستگی.
  • 38. رمزگذاری معنایی. یک برهان (نشانه های دائمی): ملک، ضرورت، امکان، احتمال، آری، خیر.
  • 39. رمزگذاری معنایی. یک برهان (نشانه های ثابت): صدق، کذب.
  • کد معنایی اهداف او هدف. اصل ساخت و ساز. فرصت ها.
  • هدف کد معنایی. اصطلاح "معنا".
  • هدف کد معنایی. متن اطلاعات فرامتن در توسعه اطلاعات
  • 43. گرامر و تحلیل معنایی در رمزگذاری معنایی.
  • 44. فرهنگ معنایی روسی سازگاری و فرهنگ لغت انجمنی برای رمزگذاری معنایی.
  • هدف کد معنایی. ایزومورفیسم سیستم
  • هدف کد معنایی. اصل لازم و کافی.
  • هدف کد معنایی. اتصال کلاس ها و زیر کلاس ها
  • 48. هدف از رمز معنایی. اصل سلسله مراتب / عدم سلسله مراتب.
  • 49. هدف از رمز معنایی. استعاره سیستمی
  • 50. کد معنایی موقعیتی (موقعیتی).
  • 51. رمزگذاری معنایی. هم ترازی-کد تفسیری. کد ماتریسی
  • 52. وظایف اصلی و مفاهیم کلیدی رابط گفتار.
  • 53. بررسی تاریخی مسئله تشخیص و ترکیب گفتار.
  • 54. سیستم های سنتز گفتار خودکار. کاربردهای عملی رابط گفتار
  • 55. سیستم های تشخیص خودکار گفتار. کاربردهای عملی رابط گفتار
  • 56. مبانی زبانی رابط گفتار. استفاده از زبان شناسی در اجرای سیستم های گفتاری.
  • 57. ساختار سیگنال گفتار. تجزیه و تحلیل و سنتز. ویژگی های طیفی-زمانی سیگنال گفتار.
  • 58. اطلاعات و ساختار مدولاسیون سیگنال گفتار.
  • 59. روش های سنتز سیگنال گفتار. مدل های ریاضی تعمیم یافته برای توصیف سیگنال های گفتاری
  • 60. روشهای سنتز سیگنال گفتار. مدل هندسی مجرای صوتی.
  • 61. روش های سنتز سیگنال گفتار. مدل فرمانت
  • 62. روشهای تلفیقی برای سنتز سیگنال گفتار.
  • 63. روش های تحلیل سیگنال گفتار.
  • 64. روش فیلتر دیجیتال سیگنال گفتار. تجزیه و تحلیل طیفی با استفاده از الگوریتم های FFT. روش فیلتر دیجیتال
  • تجزیه و تحلیل طیف با استفاده از الگوریتم های FFT
  • 65. تحلیل طیفی بر اساس پیش بینی خطی. توصیف فرمت پارامتریک سیگنال گفتاری. تجزیه و تحلیل طیفی بر اساس پیش بینی خطی
  • توصیف فرمت پارامتریک سیگنال گفتاری
  • 66. روش ضرایب مغزی. ویژگی های ادراک گفتار. ویژگی های ادراک دریافتی از گفتار توسط یک فرد. روش ضریب مغزی
  • 67. خواص ادراک دریافتی سیگنال های گفتاری. ماهیت ویژگی های شنیداری (آوایی) سیگنال گفتار. ویژگی های ادراک دریافتی سیگنال های گفتاری
  • ماهیت ویژگی های شنوایی (آوایی) یک سیگنال گفتاری
  • 68. خواص ادراک حداقل عناصر معنادار گفتار
  • 69. سنتز گفتار در متن. ساختار سینت سایزر گفتار بر اساس متن.
  • ساختار متن به گفتار مفاهیم کلیدی:
  • 70. پردازشگر زبانی. پیش پردازش متن پردازش عبارت متن
  • پیش پردازش متن
  • پردازش متن عبارت به عبارت
  • 71. واژه پردازی آزمون. نمونه ای از کار یک پردازشگر زبانی. پردازش کلمه
  • نمونه ای از کار یک پردازشگر زبانی
  • 72. پردازشگر عروضی
  • 73. پردازنده آوایی. پردازشگر بیانی- آوایی. پردازشگر آوایی فرمانت
  • 74. پردازنده آوایی آلوفون. پردازنده آکوستیک
  • 75. تقریب هندسه تدبیر گفتار. پردازشگر آکوستیک بر اساس روش های تلفیقی سنتز گفتار.
  • 76. طبقه بندی سیستم های تشخیص خودکار گفتار. روش های تشخیص خودکار گفتار
  • 77. طبقه بندی روش های تشخیص گفتار.
  • 78. روش برنامه نویسی پویا.
  • 79. روش مدل های پنهان مارکوف.
  • سیستم های تشخیص خودکار گفتار (SAPP) به عنوان سیستم هایی شناخته می شوند که گفتار ورودی (سیگنال گفتار) را به یک پیام شناخته شده تبدیل می کنند. در این صورت پیام شناسایی شده می تواند هم در قالب متن این پیام ارائه شود و هم

    بلافاصله به فرمی مناسب برای پردازش بیشتر آن به منظور تشکیل پاسخ سیستم تبدیل می شود. در ابتدا، سیستم تشخیص خودکار گفتار وظیفه تبدیل متن به گفتار را بر عهده دارد. بنابراین در ادبیات انگلیسی به این سیستم ها سیستم گفتار به متن می گویند. اغلب، سیستم های تشخیص گفتار خودکار به سادگی به عنوان سیستم های تشخیص گفتار (SPR) نیز شناخته می شوند.

    یک بلوک دیاگرام ساده شده از سیستم تشخیص خودکار گفتار در شکل نشان داده شده است.

    تحت مدل تحلیل سیگنال گفتاربلوکی را درک کنید که وظیفه آن تجزیه و تحلیل سیگنال ورودی است، اولا، به منظور طبقه بندی آن به عنوان سیگنال گفتاری، و ثانیا، برجسته کردن اجزای موجود در سیگنال دریافتی که اصلی ترین آنها هستند.

    تشخیص پیام دریافتی این مولفه ها شامل پارامترهایی هستند که گفتار را توصیف می کنند، مشابه پارامترهایی که در فرآیند سنتز گفتار شکل می گیرند. مجموعه پارامترهای مشخص شده به روش تشخیص انتخاب شده بستگی دارد.

    مدل تشخیص گفتار و تصمیم گیریبلوکی است که در آن یک پیام شناسایی شده بر اساس تجزیه و تحلیل توالی پارامترهای به دست آمده از بلوک اول تشکیل می شود. به عنوان مثال، اگر از یک مدل فرمانت برای توصیف گفتار استفاده شود، سپس بر اساس فرکانس‌های به‌دست‌آمده در بلوک اول، فرمنت‌ها برای ساخت دنباله‌ای از واج‌های شناخته‌شده که پیام ورودی را می‌سازند، استفاده می‌شوند. در این مورد، تصمیم گیری در مورد تشخیص صحیح پیام ورودی گرفته می شود. هنگام تصمیم گیری، به ویژه، تصمیمات زیر ممکن است: پیام به درستی تشخیص داده شود (این توسط متنی که مطابق با هنجارهای زبان طبیعی است تأیید می شود) یا

    پیام تشخیص داده نمی شود یا به اشتباه تشخیص داده نمی شود (چنین تصمیمی گرفته می شود اگر پیام شناسایی شده حاوی خطاهای آشکاری باشد که تصحیح خودکار آنها دشوار است یا حتی کاملاً مزخرف است).

    پارامترهای زیر که آنها را مشخص می کند را می توان به عنوان محدودیت های اعمال شده بر APPS ذکر کرد:

    نوع گفتار قابل تشخیص (تلفظ کلمه به کلمه با مکث در سبک دستورات گفتاری؛ تلفظ واضح بدون مکث به سبک "دیکته"؛ گفتار خود به خود)؛

    حجم فرهنگ لغت (محدود به 100، 200 و غیره کلمه؛ نامحدود)؛

    میزان وابستگی به گوینده (وابسته به گوینده؛ مستقل از گوینده)؛

    محدودیت های نحوی (کلمات فردی، عبارات معمولی، زبان مصنوعی، زبان طبیعی)؛

    شرایط دریافت سیگنال های گفتاری (میکروفون های تماس، میکروفون های از راه دور در فاصله بیش از 1 متر)؛

    شرایط استفاده از CRR (تداخل ضعیف یا قوی)؛

    قابلیت اطمینان تشخیص

    کاربردهای عملی رابط گفتار

    قبل از بررسی مثال هایی از کاربرد عملی رابط گفتار، اجازه دهید آن را با رایج ترین ابزار تعامل کاربر با رایانه در حال حاضر مقایسه کنیم: صفحه کلید و صفحه نمایش. حداقل سه تفاوت اساسی در رابط گفتار باید ذکر شود:

    1) یک اشکال واضح صفحه کلید و صفحه نمایش این است که فرد برای برقراری ارتباط با رایانه باید آموزش های ویژه ای را طی کند. در عین حال، گفتار یک رابط طبیعی برای هر کسی است، حتی یک فرد ناآماده. گفتار فاصله روانی بین شخص و کامپیوتر را به طرز چشمگیری کاهش می دهد. اگر یک رابط گفتار ظاهر شود، دایره کاربران رایانه می تواند نامحدود شود.

    2) گفتار به خودی خود به هیچ وجه به طور مکانیکی به رایانه گره نمی خورد و می تواند از طریق سیستم های ارتباطی مثلاً تلفن به آن متصل شود. رابط گفتار فاصله فیزیکی بین یک شخص و یک کامپیوتر را کوتاه می کند. این امر دایره کاربران بالقوه رایانه را بیشتر می‌کند و رابط گفتار را به ابزاری ایده‌آل برای ساختن سیستم‌های خدمات اطلاعات انبوه تبدیل می‌کند.

    3) می‌توانید در تاریکی مطلق، با چشمان بسته، زمانی که دست‌هایتان با اهرم‌های کنترلی مشغول است، با دست‌های بسته و در موقعیت‌های شدید دیگر، رایانه را کنترل کنید. این خاصیت باعث کارایی و تحرک ارتباط، رها شدن دست ها و تخلیه کانال بصری ادراک هنگام دریافت اطلاعات می شود. این بسیار مهم است، به عنوان مثال، برای یک کنترل کننده یک سیستم قدرت بزرگ یا یک خلبان هواپیما و یک راننده ماشین. علاوه بر این، سیستم های کامپیوتری برای افراد دارای اختلالات بینایی در دسترس تر می شوند.

    در حال حاضر، فن آوری های کامپیوتری گفتاری در حال حاضر بسیار گسترده است و در چندین جهت در حال توسعه است، که اصلی ترین آنها در شکل نشان داده شده است.

  • چقدر خوب بود قبلا! با تماس با میز کمک می توان با اپراتور دختر صحبت کرد و حتی با او قرار ملاقات گذاشت. حالا در آن طرف سیم صدای زن دلنشین اما بی جانی به گوش می رسد که پیشنهاد می کند شماره 1 را برای دریافت فلان اطلاعات، 2 - برای ارتباط با آن، 3 - خروج از منو و غیره را شماره گیری کنید. به طور فزاینده ای، دسترسی به اطلاعات توسط سیستم کنترل می شود، نه توسط فرد. این منطق خاص خود را دارد: کار یکنواخت و غیر جالب نه توسط یک شخص، بلکه توسط یک ماشین انجام می شود. و برای کاربر، روش به دست آوردن اطلاعات ساده شده است: او مجموعه خاصی از اعداد را فراخوانی کرد - او اطلاعات لازم را دریافت کرد.

    چنین سیستمی چگونه کار می کند؟ بیایید سعی کنیم آن را بفهمیم.

    دو نوع اصلی از برنامه های تشخیص گفتار عبارتند از:

    نرم افزار دیکته - متن و اعداد را وارد کنید.

    بیایید فوراً رزرو کنیم که سیستم های تبدیل متن به گفتار و گفتار به متن، یعنی ترجمه متن به گفتار شفاهی و بالعکس را در نظر نگیریم. ما خود را به سیستم های تشخیص خودکار دستورات یا ناوبرهای صوتی محدود خواهیم کرد.

    SARR - چیست؟

    تشخیص خودکار گفتار (CAPP) عنصری از فرآیند پردازش گفتار است که هدف آن ارائه یک گفتگوی راحت بین کاربر و دستگاه است. به معنای گسترده، ما در مورد سیستم هایی صحبت می کنیم که هنگام تلفظ پیام های گفتاری به سبک آزاد، یک سخنران دلخواه، بدون در نظر گرفتن جهت گیری مشکل و محدودیت در حجم فرهنگ لغت، رمزگشایی واجی سیگنال صوتی گفتار را انجام می دهند. به معنای محدود، CAPP ها با اعمال محدودیت هایی بر روی الزامات تشخیص گفتار با صدای طبیعی به معنای کلاسیک آن، حل مشکلات خاص را تسهیل می کنند. بنابراین، طیف انواع CAPP از دستگاه‌های مستقل ساده و اسباب‌بازی‌های کودکان که قادر به تشخیص یا ترکیب کلمات، اعداد، شهرها، نام‌ها و غیره هستند تا سیستم‌های تشخیص گفتار با صدای طبیعی فوق‌العاده پیچیده و ترکیب آن را شامل می‌شود. برای استفاده، به عنوان مثال، به عنوان دستیار (IBM VoiceType Simply Speaking Gold).

    به عنوان جزء اصلی هر رابط دوستانه بین یک ماشین و یک شخص، CAPP می تواند در برنامه های مختلف ساخته شود، به عنوان مثال، در سیستم های کنترل صوتی، دسترسی صوتی به منابع اطلاعاتی، یادگیری زبان با استفاده از کامپیوتر، کمک به افراد ناتوان، دسترسی به چیزی از طریق سیستم های تأیید صدا / شناسایی.

    CAPP به عنوان یک ابزار جستجو و مرتب سازی برای داده های صوتی و تصویری ضبط شده بسیار مفید است. تشخیص گفتار نیز هنگام وارد کردن اطلاعات مورد استفاده قرار می گیرد که مخصوصاً در مواقعی که چشم یا دست فرد مشغول است بسیار مفید است. CARR به افرادی که در محیط های پر استرس کار می کنند (پزشکان در بیمارستان ها، کارگران کارخانه، رانندگان) اجازه می دهد تا از رایانه برای به دست آوردن یا وارد کردن اطلاعات لازم استفاده کنند.

    به طور معمول، CAPP در سیستم هایی مانند برنامه های تلفنی، سیستم های تعبیه شده (سیستم های شماره گیری، عملیات PDA، رانندگی و غیره)، برنامه های چند رسانه ای (سیستم های آموزش زبان) استفاده می شود.

    کلیدهای صوتی

    نشانه های صوتی گاهی اوقات به عنوان سیستم های تشخیص خودکار گفتار نامیده می شود. معمولاً اینها سیستم های بیومتریک یا دسترسی مجاز به اطلاعات یا دسترسی فیزیکی به اشیاء هستند. دو نوع از این سیستم ها را باید متمایز کرد: سیستم های تأیید و سیستم های شناسایی. در حین تأیید، کاربر ابتدا کد خود را ارائه می دهد، یعنی خود را به هر طریقی اعلام می کند و سپس با صدای بلند یک رمز عبور یا عبارت دلخواه را می گوید. سیستم بررسی می کند که آیا صدای داده شده مطابق با استانداردهایی است که طبق کد ارائه شده از حافظه رایانه فراخوانی شده است یا خیر.

    هنگام شناسایی، هیچ اظهارنظر قبلی در مورد کاربر ارائه نمی شود. در این صورت مقایسه این صدا با تمامی استانداردها انجام می شود و سپس مشخص می شود که فرد شناسایی شده توسط صدا کیست. امروزه رویکردها و روش‌های زیادی برای اجرای چنین سیستم‌هایی وجود دارد و همه آنها، به طور معمول، با یکدیگر متفاوت هستند - چه تعداد توسعه‌دهنده، چه تعداد از انواع آنها. همین را می توان در مورد سیستم های تشخیص گفتار نیز گفت. بنابراین، قضاوت در مورد ویژگی‌های سیستم‌های تشخیص گفتار و تشخیص شخصیت خاص تنها با استفاده از پایگاه‌های داده آزمون ویژه امکان‌پذیر است.

    کمی تاریخ

    ایالات متحده آمریکا، اواخر دهه 1960: "سه"، والتر کرونکیت، مجری برنامه علمی محبوب قرن 21، در جریان نمایشی از آخرین پیشرفت ها در تشخیص گفتار گفت. کامپیوتر این کلمه را "چهار" تشخیص داد. والتر زمزمه کرد: "احمق." کامپیوتر پاسخ داد: "این کلمه در فرهنگ لغت نیست."

    اگرچه اولین پیشرفت ها در زمینه تشخیص گفتار به دهه 1920 برمی گردد، اولین سیستم تنها در سال 1952 توسط آزمایشگاه های بل (امروزه بخشی از فناوری های لوسنت) ایجاد شد. و اولین سیستم تجاری حتی بعدها ایجاد شد: در سال 1960، IBM توسعه چنین سیستمی را اعلام کرد، اما این برنامه هرگز وارد بازار نشد.

    سپس، در دهه 1970، خطوط هوایی شرقی در ایالات متحده یک سیستم ارسال چمدان وابسته به بلندگو را نصب کرد: اپراتور مقصد را نام برد - و چمدان در راه ارسال شد. با این حال، با توجه به تعداد خطاهای ایجاد شده، سیستم هرگز دوره آزمایشی را پشت سر نمی گذارد.

    پس از آن، تحولات در این زمینه، در صورت وجود، نسبتاً کند انجام شد. حتی در دهه 1980، تعداد کمی از برنامه های تجاری واقعی با استفاده از سیستم های تشخیص گفتار وجود داشت.

    امروزه نه ده ها، بلکه صدها تیم تحقیقاتی در مؤسسات علمی و آموزشی و همچنین در شرکت های بزرگ در این راستا فعالیت می کنند. این را می توان توسط انجمن های بین المللی دانشمندان و متخصصان در زمینه فن آوری های گفتار مانند ICASSP، EuroSpeech، ICPHS و غیره قضاوت کرد. بیش از حد برآورد شود

    چند سالی است که ناوبرهای صوتی یا سیستم های تشخیص فرمان با موفقیت در زمینه های مختلف فعالیت مورد استفاده قرار می گیرند. به عنوان مثال، مرکز تماس OmniTouch که توسط آلکاتل به واتیکان ارائه شده است، برای خدمات رسانی به رویدادهایی که به عنوان بخشی از جشن 2000 سالگرد مسیح برگزار می شود، استفاده می شود. زائری که با مرکز تماس تماس گرفت سؤال خود را بیان کرد و سیستم تشخیص خودکار گفتار به او گوش داد. اگر سیستم تشخیص دهد که سؤالی در مورد موضوعی که اغلب رخ می‌دهد، مانند برنامه‌های رویداد یا آدرس‌های هتل پرسیده شده است، یک ورودی از پیش ضبط‌شده شامل می‌شود. اگر نیاز به روشن شدن سوال بود، یک منوی سخنرانی ارائه می شد که در آن یکی از موارد باید با صدا مشخص می شد. اگر سیستم تشخیص تشخیص دهد که هیچ پاسخ از پیش ضبط شده ای برای سوال پرسیده شده وجود ندارد، زائر به اپراتور انسانی متصل می شود.

    در سوئد، اخیراً یک سرویس استعلام تلفنی خودکار با استفاده از نرم افزار تشخیص گفتار فیلیپس افتتاح شد. در اولین ماه فعالیت سرویس اتوسوار که بدون اعلام رسمی شروع به کار کرد، 200 هزار مشتری از خدمات آن استفاده کردند. شخص باید شماره مشخصی را شماره گیری کند و پس از پاسخ منشی خودکار، بخشی از فهرست اطلاعات مورد علاقه خود را نامگذاری کند.

    این سرویس جدید عمدتاً برای مشتریان خصوصی در نظر گرفته شده است که به دلیل هزینه قابل توجه کمتر خدمات، آن را ترجیح می دهند. سرویس Autosvar اولین نوع خود در اروپا است (در ایالات متحده، آزمایشات یک سرویس مشابه در AT&T در دسامبر سال گذشته آغاز شد).

    در اینجا چند نمونه از استفاده از این فناوری در ایالات متحده وجود دارد.

    مشاوران املاک اغلب به خدمات نیوپورت بی سیم مراجعه می کنند. وقتی یک مشاور مسکن در خیابان رانندگی می کند و تابلوی فروش را در نزدیکی خانه می بیند، با نیوپورت بی سیم تماس می گیرد و اطلاعاتی درباره خانه ای با فلان شماره در فلان خیابان می خواهد. منشی تلفنی با صدای دلنشین زن به او از فیلم خانه، تاریخ ساخت و صاحبان می گوید. تمام این اطلاعات در پایگاه داده نیوپورت بی سیم است. مشاوران املاک فقط می توانند پیامی برای مشتری صادر کنند. هزینه اشتراک حدود 30 دلار در ماه است.

    جولی، نماینده مجازی Amtrak، از اکتبر 2001 به مسافران راه آهن خدمات رسانی می کند. او از طریق تلفن در مورد برنامه قطارها، ورود و خروج آنها اطلاع می دهد و همچنین رزرو بلیط را انجام می دهد. جولی محصولی از SpeechWorks Software و Intervoice Hardware است. در حال حاضر رضایت مسافران را تا 45 درصد افزایش داده است. 13 از 50 مشتری تمام اطلاعات مورد نیاز خود را از جولی دریافت می کنند. Amtrak قبلاً از سیستم ارجاع مبتنی بر لحن استفاده می کرد، اما میزان رضایت در آن زمان کمتر بود و تنها 9 نفر از 50 مشتری داشتند.

    آمتراک اعتراف می کند که جولی قیمت خود (4 میلیون دلار) را در 12 تا 18 ماه پس داده است. او اجازه داد یک تیم کامل از کارمندان را استخدام نکند. و بریتیش ایرویز با استفاده از فناوری Nuance Communications که میز کمک را نیز خودکار می کند، 1.5 میلیون دلار در سال صرفه جویی می کند.

    اخیراً شرکت Sony Computer Entertainment America اولین بازی ویدیویی Socom را معرفی کرد که در آن بازیکنان می‌توانند به جنگنده‌های Deploy grenades دستور شفاهی بدهند. این بازی 60 دلاری از فناوری ScanSoft استفاده می کند. سال گذشته، 450000 عدد از این بازی ها فروخته شد و Socom را به رهبر بلامنازع فروش این شرکت تبدیل کرد.

    در خودروهای گران قیمتی مانند Infinity و Jaguar، چندین سال است که از کنترل شفاهی کنترل پنل استفاده می شود: رادیو، رژیم دما و سیستم ناوبری صدای صاحب خودرو را درک می کند و بی چون و چرا از مالک اطاعت می کند. اما در حال حاضر فناوری تشخیص صدا شروع به استفاده از خودروهای طبقه متوسط ​​کرده است. بنابراین، از سال 2003، هوندا آکورد دارای شناسه صوتی داخلی از IBM است. ViaVoice نام دارد و بخشی از یک سیستم ناوبری 2000 دلاری است.به گفته تامین کننده، یک پنجم خریداران هوندا آکورد مدلی با ناوبری صوتی را انتخاب می کنند.

    حتی در پزشکی، فناوری تشخیص صدا جایگاه خود را پیدا کرده است. دستگاه هایی برای معاینه معده، مطیع صدای پزشک، قبلا ساخته شده است. درست است، به گفته کارشناسان، این دستگاه ها هنوز ناقص هستند: آنها به دستورات پزشک پاسخ آهسته دارند. اما همچنان در پیش است. در ممفیس، مرکز پزشکی VA 277000 دلار در نرم‌افزار Dragon سرمایه‌گذاری کرد که به پزشکان و پرستاران اجازه می‌دهد اطلاعات را در پایگاه داده کامپیوتری دیکته کنند. احتمالاً به زودی برای تشخیص دستخط پزشک در پرونده پزشکی نیازی به رنج نیست.

    در حال حاضر صدها شرکت بزرگ از فناوری تشخیص صدا در محصولات یا خدمات خود استفاده می کنند. اینها عبارتند از AOL، FedEx، Honda، Sony، Sprint، T. Rowe Price، United Airlines و Verizo. به گفته کارشناسان، بازار فناوری صدا در سال 2002 به حدود 695 میلیون دلار رسید که 10 درصد بیشتر از سال 2001 است.

    یونایتد ایرویز یک سرویس استعلام خودکار را در سال 1999 معرفی کرد. سیستم های پردازش خودکار تماس تلفنی توسط شرکت هایی مانند بانک سرمایه گذاری Charles Schwab & Co، زنجیره خرده فروشی Sears، سوپرمارکت زنجیره ای Roebuck اداره می شوند. حامل های بی سیم ایالات متحده (AT&T Wireless و Sprint PCS) بیش از یک سال است که از برنامه های مشابه و ارائه خدمات شماره گیری صوتی استفاده می کنند. و اگرچه آمریکا اکنون در تعداد مراکز تماس از این نوع پیشتاز است، اخیراً مزایای سیستم های تشخیص گفتار در اروپا شروع شده است. به عنوان مثال، خدمات راه آهن سوئیس در حال حاضر به مسافران آلمانی زبان خود خدماتی مشابه خدمات ارائه شده توسط United Airways ارائه می دهد.

    پیش بینی تحلیلگران

    امروزه فناوری‌های تشخیص گفتار یکی از امیدوارکننده‌ترین فناوری‌ها در جهان محسوب می‌شوند. بنابراین، بر اساس پیش‌بینی‌های شرکت تحقیقاتی آمریکایی Cahners In-Stat، بازار جهانی نرم‌افزار تشخیص گفتار تا سال 2005 از 200 میلیون دلار به 2.7 میلیارد دلار افزایش می‌یابد. به گفته Datamonitor، حجم بازار فناوری صوتی یک رشد خواهد داشت. میانگین 43% در سال: از 650 میلیون دلار در سال 2000 به 5.6 میلیارد دلار در سال 2006 (شکل 1). کارشناسانی که با شرکت رسانه ای CNN همکاری می کنند، تشخیص گفتار را به عنوان یکی از هشت فناوری امیدوارکننده در سال جاری رتبه بندی کردند. و تحلیلگران IDC می گویند که تا سال 2005، تشخیص گفتار به طور کامل تمام فناوری های گفتاری دیگر را از بازار خارج خواهد کرد (شکل 2).

    مشکلات اصلی

    مشکل اصلی که در توسعه CAPP ایجاد می شود، تلفظ متفاوت یک کلمه هم توسط افراد مختلف و هم توسط یک فرد در موقعیت های مختلف است. این باعث ناراحتی شخص نمی شود، اما یک کامپیوتر می تواند. علاوه بر این، سیگنال دریافتی تحت تأثیر عوامل متعددی مانند نویز محیط، بازتاب، اکو و نویز کانال قرار می گیرد. این با این واقعیت پیچیده است که نویز و اعوجاج از قبل شناخته شده نیستند، یعنی نمی توان سیستم را قبل از شروع کار با آنها تنظیم کرد.

    با این حال، بیش از نیم قرن کار روی CAPP های مختلف به ثمر نشسته است. تقریباً هر سیستم مدرن می تواند در چندین حالت کار کند. اول، می تواند وابسته یا مستقل از گوینده باشد. یک سیستم وابسته به بلندگو نیاز به آموزش ویژه برای یک کاربر خاص دارد تا بتواند دقیقاً آنچه را که می گوید تشخیص دهد. برای آموزش سیستم، کاربر نیاز به گفتن چند کلمه یا عبارت خاص دارد که سیستم آن ها را تجزیه و تحلیل کرده و نتایج را به خاطر بسپارد. این حالت معمولا در سیستم های دیکته زمانی که یک کاربر با سیستم کار می کند استفاده می شود.

    سیستم مستقل از بلندگو می تواند توسط هر کاربری بدون روش آموزشی استفاده شود. این حالت معمولاً در مواردی استفاده می شود که روش یادگیری امکان پذیر نباشد، مانند برنامه های تلفن. بدیهی است که دقت تشخیص یک سیستم وابسته به بلندگو بالاتر از یک سیستم مستقل از بلندگو است. با این حال، یک سیستم مستقل از بلندگو برای استفاده راحت تر است، به عنوان مثال، می تواند با طیف نامحدودی از کاربران کار کند و نیازی به آموزش ندارد.

    ثانیاً، سیستم ها به سیستم هایی تقسیم می شوند که فقط با دستورات مجزا کار می کنند و سیستم هایی که می توانند گفتار منسجم را تشخیص دهند. تشخیص گفتار کار بسیار پیچیده‌تری نسبت به تشخیص کلمات گفته شده جداگانه است. به عنوان مثال، هنگام انتقال از تشخیص کلمه ایزوله به تشخیص گفتار با فرهنگ لغت 1000 کلمه، میزان خطا از 3.1 به 8.7 افزایش می یابد و پردازش گفتار سه برابر بیشتر طول می کشد.

    حالت تلفظ دستور ایزوله ساده ترین و کم مصرف ترین منبع است. هنگام کار در این حالت، پس از هر کلمه، کاربر مکث می کند، یعنی مرز کلمات را به وضوح مشخص می کند. سیستم نیازی به یافتن ابتدا و انتهای یک کلمه در خود یک عبارت ندارد. سپس سیستم کلمه شناسایی شده را با الگوهای موجود در فرهنگ لغت مقایسه می کند و محتمل ترین مدل توسط سیستم پذیرفته می شود. این نوع تشخیص به جای روش های معمول DTMF در تلفن به طور گسترده ای مورد استفاده قرار می گیرد.

    تغییرات اضافی در گفتار نیز به دلیل آهنگ های دلخواه، استرس، ساختار غیر دقیق عبارات، مکث ها، تکرارها و غیره ایجاد می شود.

    در تقاطع تلفظ مداوم و جداگانه کلمات، یک حالت جستجوی کلمه کلیدی بوجود آمد. در این حالت، CAPP یک کلمه یا گروهی از کلمات از پیش تعیین شده را در جریان گفتار عمومی پیدا می کند. کجا میشه ازش استفاده کرد؟ به عنوان مثال، در دستگاه های شنود که وقتی کلمات خاصی در گفتار ظاهر می شوند یا در مرجع الکترونیکی روشن می شوند و شروع به ضبط می کنند. سیستم پس از دریافت درخواست به صورت دلخواه، کلمات معنایی را انتخاب کرده و با شناخت آنها، اطلاعات لازم را ارائه می کند.

    اندازه فرهنگ لغت مورد استفاده جزء مهم CAPP است. بدیهی است که هرچه فرهنگ لغت بزرگتر باشد، احتمال اشتباه سیستم بیشتر می شود. در بسیاری از سیستم‌های مدرن، می‌توان لغت‌نامه‌ها را با کلمات جدید در صورت نیاز تکمیل کرد یا لغت نامه‌های جدید را بارگذاری کرد. نرخ خطای معمولی برای یک سیستم مستقل از بلندگو با تلفظ فرمان ایزوله حدود 1% برای یک فرهنگ لغت 100 کلمه ای، 3% برای یک فرهنگ لغت 600 کلمه ای و 10% برای یک فرهنگ لغت 8000 کلمه ای است.

    پیشنهادات بازار مدرن CAPP

    و بازار امروز توسط CAPP شرکت های مختلف نمایندگی می شود. بیایید برخی از آنها را در نظر بگیریم.

    آکولاب

    دقت تشخیص 97٪.

    سیستم مستقل بلندگو توسعه دهندگان این سیستم پایگاه داده های مختلفی را برای بسیاری از زبان ها تجزیه و تحلیل کردند تا تمام تغییرات گفتاری را که بسته به سن، صدا، جنسیت و لهجه رخ می دهد، در نظر بگیرند. الگوریتم های اختصاصی بدون توجه به ویژگی های تجهیزات (هدفون، میکروفون) و ویژگی های کانال، تشخیص گفتار را ارائه می دهند.

    این سیستم از توانایی ایجاد فرهنگ لغت اضافی پشتیبانی می کند که ویژگی های تلفظ و لهجه ها را در نظر می گیرد. این به ویژه زمانی مفید است که سیستم توسط افرادی استفاده می شود که تلفظ آنها با تلفظ معمول بسیار متفاوت است.

    این سیستم از رایج ترین زبان ها مانند انگلیسی بریتانیایی و آمریکایی، فرانسوی، آلمانی، ایتالیایی، اسپانیایی آمریکای شمالی پشتیبانی می کند. یک فرهنگ لغت را می توان برای هر یک از این زبان ها پیکربندی کرد، اما استفاده از چندین زبان به طور همزمان به عنوان بخشی از یک فرهنگ لغت ممکن نیست.

    این محصول بر روی Windows NT/2000، Linux و Sun SPARC Solaris موجود است.

    Babear SDK نسخه 3.0

    سیستم مستقل از بلندگو که نیازی به آموزش برای کاربر خاصی ندارد. انطباق با کاربر در حین کار اتفاق می افتد و بهترین نتیجه را تشخیص می دهد. تنظیم خودکار فعالیت صوتی به شما امکان می دهد گفتار را در یک محیط بسیار پر سر و صدا، مانند ماشین تشخیص دهید. سیستم کلماتی را که در فرهنگ لغت فهرست نشده اند تعیین نمی کند. امکان جستجوی کلمات کلیدی وجود دارد. سیستم را می توان طوری پیکربندی کرد که هم با یک فرهنگ لغت کوچک (تلفظ مجزا از دستورات) و هم با یک فرهنگ لغت بزرگ (گفتار) کار کند.

    این سیستم از زبان های زیر پشتیبانی می کند: انگلیسی بریتانیایی و آمریکایی، آلمانی اسپانیایی، فرانسوی، دانمارکی، سوئدی، ترکی، یونانی، ایسلندی و عربی.

    این سیستم بر روی Windows 98 (SE)/NT 4.0/2000/CE، Mac OS X و Linux اجرا می شود.

    Loquendo ASR

    سیستم مستقل بلندگو برای استفاده در تلفن بهینه شده است. امکان تشخیص تک تک کلمات و گفتار، جستجوی کلمات کلیدی (فرهنگ لغت تا 500 کلمه). به دلیل حجم زیاد فرهنگ لغت و انعطاف پذیری سیستم به شما امکان می دهد برنامه های کاربر پسند ایجاد کنید.

    پشتیبانی از 12 زبان، از جمله رایج ترین زبان های اروپایی (ایتالیایی، اسپانیایی، انگلیسی انگلیسی و آمریکایی، فرانسوی، آلمانی، یونانی، سوئدی و غیره).

    در مجموعه گفتار Loquendo همراه با سیستم تبدیل متن به گفتار و Loquendo VoiceXML Interpreter گنجانده شده است که از چندین صدا و زبان پشتیبانی می کند.

    این سیستم بر اساس MS Windows NT/2000، UNIX و Linux کار می کند.

    LumenVox

    یک سیستم مستقل از بلندگو که نیازی به آموزش ندارد، اما پس از انطباق با یک کاربر خاص، نتایج تشخیص بسیار بهتر می شود: دقت تشخیص بیش از 90٪ است.

    پشتیبانی از فرمت های مختلف فایل های صوتی: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). الزامات سخت افزاری برای منابع سخت افزاری ندارد. بر اساس ویندوز NT/2000/XP و لینوکس کار می کند.

    سیستم مورد نیاز (بر اساس ویندوز):

    Windows NT 4.0 با Service Pack 6a، Windows 2000 یا Windows XP Pro.

    حداقل حجم حافظه 512 مگابایت است.

    سیستم مورد نیاز (بر اساس Red Hat Linux):

    Red Hat Linux 7.2;

    Intel Pentium III 800 MHz یا بالاتر؛

    حجم حافظه 256 مگابایت;

    حجم دیسک 17 مگابایت (بعد از فشرده سازی).

    تفاوت های ظریف

    به گفته سازندگان، این سیستم برای کمترین مصرف حافظه و سایر منابع سیستم بهینه شده است. دقت تشخیص تا 96٪ است و حتی در یک محیط پر سر و صدا بالا باقی می ماند.

    امکان خودآموزی سیستم و تنظیم آن برای هر کاربر وجود دارد.

    قابل اجرا بر روی ویندوز 2000 و لینوکس.

    روح

    زبان می تواند هر باشد (فرهنگ لغت برای نیازهای خاص مشتری گردآوری شده است و شامل آن کلمات و به زبانی است که مشتری در الزامات تنظیمات سیستم مشخص کرده است. فرهنگ لغت می تواند کلماتی از زبان های مختلف داشته باشد، یعنی بدون با تغییر تنظیمات، سیستم می تواند کلمات را تشخیص دهد، به عنوان مثال، هم به زبان چینی و هم به زبان فنلاندی، اگر قبلاً در فرهنگ لغت وارد شده باشند). بنابراین، این سیستم می تواند با هر زبانی کار کند، در حالی که سیستم های دیگر - فقط با مجموعه خاصی از آنها.

    این یک سیستم تشخیص خودکار گفتار است که تشخیص با کیفیت بالا را حتی در یک محیط بسیار پر سر و صدا ارائه می دهد. سیستم را می توان به راحتی برای کار در یکی از دو حالت پیکربندی کرد: تشخیص عبارات با تعداد دستورات ثابت (تلفظ دستورات فردی، حالت PIN-code) و تشخیص عبارات با تعداد دلخواه دستور (تلفظ مستمر دستورات، "حالت گفتار منسجم"). امکان جستجوی کلمات کلیدی وجود دارد. این محلول در شرایط نویز افزایشی غیر ثابت کار می کند. نسبت سیگنال به نویز مورد نیاز در حالت "PIN-code" تا 0 دسی بل و در حالت گفتار متصل تا 15 دسی بل است.

    تاخیر تشخیص - 0.2 ثانیه. پارامترهای کانال صوتی: پهنای باند در محدوده 300-3500 هرتز. سازگاری با محیط صوتی توسط قطعات نویز با طول کلی حداقل 3 ثانیه انجام می شود.

    برای "حالت کد پین":

    فرهنگ لغت - 50 دستور.

    احتمال تشخیص صحیح - 95-99٪ در SNR = 0…6 دسی بل.

    شرایط صوتی مورد نیاز: افزایش نویز استاتیک باند پهن با SNR (نسبت سیگنال به نویز) >= 15 دسی بل.

    برای حالت تشخیص گفتار متصل:

    فرهنگ لغت - 12 کلمه / اعداد.

    احتمال تشخیص صحیح زنجیره ای از کلمات 98-99٪ است.

    ویژگی: سازگاری با صداهای دلخواه.

    سیستم تشخیص خودکار گفتار از SPIRIT در قالب یک برنامه رایانه شخصی تحت MS Windows یا کد اسمبلی موجود است. بنا به درخواست مشتریان، راه حل را می توان به هر پلت فرم DSP یا RISC منتقل کرد.

    نرم افزار صوتی

    این سیستم می تواند در هر دو حالت وابسته به بلندگو و مستقل از بلندگو کار کند، بنابراین آموزش خاصی از سیستم برای کار با یک کاربر خاص لازم نیست.

    دقت تشخیص بالا و عملیات بلادرنگ را حتی در محیط های پر سر و صدا ارائه می دهد.

    سیستم گفتار متصل و لیستی از اعداد را تشخیص می دهد.

    کلماتی که در فرهنگ لغت ذکر نشده و سر و صدای اضافی توسط او درک نمی شود و کلماتی که هیچ معنایی ندارند، مانند "الف"، "خوب" و غیره کنار گذاشته می شوند.

    کلمات جدید را می توان به فرهنگ لغت اضافه کرد.

    سیستم به طور خودکار با لحن، تلفظ و سایر ویژگی های گفتاری کاربر تنظیم می شود.

    VoiceWare از انگلیسی و کره ای ایالات متحده پشتیبانی می کند. چینی و ژاپنی در حال توسعه هستند.

    این سیستم بر روی Windows 95/98/NT 4.0، UNIX و Linux اجرا می شود.

    دانشمندان حدود 70 سال است که با این مشکل دست و پنجه نرم می کنند، اولین سیستم صنعتی در نیمه دوم دهه 80 در ژاپن ایجاد شد، آن را سیستم دیکته متن PC (دیکتوگرافی) نامیدند، این سیستم دارای تخصص محدودی بود.

    تشخیص گفتار رایانه شخصی به عنوان چنین تشخیصی درک می شود که به درک گفتار توسط یک شخص، در هر شرایطی و هنگام برقراری ارتباط با هر شخصی دقیق می شود.

    راه حل مشکل این است:

    1) عدم وجود ایده های نظری واضح که کل مجموعه تحولات انجام شده توسط سیستم عصبی را در طول پردازش سیگنال های گفتاری توصیف کند.

    2) برخورداری از سخنرانی روان:

    3) مرزهای کلمه تار:

    4) تأثیر صداهای همسایه بر یکدیگر.

    5) تلفظ فازی و حتی ناپدید شدن کلمات کاربردی.

    7) اهمیت زیادی در فرآیند ارتباط کلامی وسایل ارتباطی فرازبانی:

    الف) کینزیک (حالات چهره، حرکات).

    ج) پروکسمیک (فاصله بین افراد).

    بنابراین، امروزه RDA فقط تحت محدودیت های خاصی قابل انجام است:

    1) شناخت کلمات گفتاری مجزا؛

    3) شناخت بر اساس واژگان کوچک و از پیش تعیین شده.

    IBM با ViaVoice (140 wpm) در این نوع محصول پیشرو است. یک سیستم دیکته محبوب DragonSystem است.

    الگوریتم تشخیص:

    1. ورودی گفتار شفاهی، پردازش داده ها (حذف نویز).

    2. تقسیم جریان صوتی به بخش ها.

    3. تخصیص در هر بخش از حداقل واحد آکوستیک - کلمات.

    4. مقایسه واحدهای منتخب با استانداردها.

    سیستم های تشخیص گفتار صنعتی به طور مشروط به 4 گروه تقسیم می شوند:

    1. ابزار کنترل صدا (کامپیوتر، تلفن).

    2. ابزار دیکته متن.

    3. اطلاعات و سیستم های مرجع در حالت تعاملی به عنوان یک منشی تلفنی.



    4. ابزار شناسایی شخص از طریق الگوی گفتار.


    سوال 27.

    سیستم های سنتز گفتار خودکار

    مواد و روش ها:

    1) کدگذاری (ضبط در سیستم باینری سیگنال های گفتاری با بازیابی بعدی آنها)

    الف) در اصل ، رایانه شخصی در اینجا به عنوان دستگاهی برای ضبط گفتار عمل می کند ، کلمات و عبارات از قبل در رایانه شخصی ضبط می شوند و در زمان مناسب با دستورات پخش می شوند).

    ب) معایب:

    نمی توان عبارتی را گفت که در حافظه ثبت نشده باشد.

    ذخیره سیگنال های گفتاری به صورت مستقیم نیاز به مقدار زیادی حافظه دارد.

    ج) فواید:

    گفتار با صدای طبیعی؛

    کیفیت گفتار نزدیک به انسان است;

    2) سنتز گفتار آوایی (مدل سازی صوتی دستگاه صوتی انسان)

    الف) سینت سایزر طبق این روش اساساً با سینت سایزر مطابق روش اول متفاوت است - صدایی غیر طبیعی دارد، با صدای ربات صحبت می کند.

    ب) معمولاً بر اساس متن املای نوشته شده توسط شخص انجام می شود ، رایانه شخصی موجود در آن قادر است حروف را به واج ، واج ها را به آلوفون تبدیل کند و با استفاده از آلوفون های گوینده انتخاب شده و پایگاه داده ، سیگنال گفتار پیوسته را سنتز کند.

    ج) امیدوار کننده ترین، زیرا گفتار در واقع توسط خود رایانه شخصی تولید می شود.

    الف) فرهنگ لغت در این نوع سینتی سایزر، مانند روش اول، با مشارکت شخص ایجاد می شود، اما در اینجا کلمات و عبارات در حافظه ذخیره نمی شود، بلکه استخراج ویژگی های عددی صداهای گفتار و آهنگ عبارات است. انجام می شود که میزان حافظه مورد نیاز را کاهش می دهد.

    ب) گفتار طبیعی است، برای تولید آن، مشخصه های عددی با دستورات خاصی به سیگنال های صوتی تبدیل می شوند.

    اکنون پیشرفت هایی در حال انجام است تا اطمینان حاصل شود که گفتار سنتز شده زنده، احساسی و طبیعی به نظر می رسد. راه حل این مشکل به ایجاد سیستم های ترجمه همزمان، با استفاده فعال تر از رایانه شخصی هنگام آموزش زبان، و همچنین افراد دارای اختلالات بینایی اجازه می دهد.


    سوال 28.

    پایگاه های داده (DB) و منابع اطلاعات زبانی (LIR)

    DB- مجموعه ای از اطلاعات در مورد اشیاء خاص که به روشی خاص مرتب شده اند.

    اشیاء- این اطلاعات، حقایق، رویدادها، فرآیندها است. یک شی می تواند مادی (دانشجو، کالا، ماشین) و نامشهود باشد (رویداد - رفتن به سیرک، فرآیند - ترجمه متن، واقعیت - پذیرش در دانشگاه). در زندگی، هر جسم دارای ویژگی ها یا ویژگی های خاصی است (وزن، سرعت، رنگ)، که معانی خاصی به آنها اختصاص داده می شود: وزن یک نان 400 گرم، سرعت ماشین 90 کیلومتر در ساعت است.

    در یک پایگاه داده، ویژگی ها به عنوان عناصر داده یا به سادگی داده نمایش داده می شوند و مقادیر آنها مقادیر داده است.

    بدین ترتیب، داده شده- این یک شاخص است که یک شی معین را مشخص می کند و مقداری برای یک عنصر خاص از شی می گیرد. به گروهی از داده ها که یک خط را تشکیل می دهند رکورد می گویند. اگر چندین رکورد دارای مجموعه ای از داده های یکسان با یک نوع اطلاعات باشند، گفته می شود که این رکوردها دارای فرمت یکسانی هستند. به مجموعه ای از رکوردها با فرمت یکسان فایل می گویند. و بسیاری از فایل ها یک پایگاه داده را تشکیل می دهند.

    توابع اصلی پایگاه داده

    1) جستجوی اطلاعات در پایگاه داده

    الف) اضافه کردن؛

    ب) حذف

    ج) ویرایش

    سیستم های مدیریت پایگاه داده (DBMS)

    DBMS- مجموعه ای از ابزارهای نرم افزاری که به شما امکان ایجاد و نگهداری پایگاه داده را می دهد.

    انواع DBMS:

    1. DBMS های رومیزی بر اساس درجه پیچیدگی تقسیم بندی می شوند:

    الف) DBMS برای پردازش مقادیر کمی از اطلاعات (MS OUTLOOK)

    ب) DBMS متمرکز بر کاربری که نمی داند چگونه برنامه نویسی کند (EXCEL، LOTUS)

    ج) DBMS پیچیده متمرکز بر توسعه برنامه (Fox Base، MS Access)

    2. سرور DBMS - از معماری "مشتری-سرور" استفاده کنید. ذخیره سازی و پردازش متمرکز داده ها (Informix، MS SQL Server) را انجام دهید.

    توابع اصلی DBMS

    1) از ایجاد ساختار پایگاه داده اطمینان حاصل کنید (تعیین کنید چه اطلاعاتی ذخیره می شود، چه ویژگی ها، انواع داده ها)

    2) اصلاح اطلاعات در پایگاه داده:

    الف) اضافه کردن؛

    ب) حذف

    ج) ویرایش

    3) جستجوی اطلاعات


    سوال 29.

    LIR -

    فعال تشکیل می دهد

    به کلی ترین شکل LIR

    منابع اطلاعاتی غیرفعال زبانی عبارتند از:

    1) واژگان نوشتاری با واژگان تک زبانه و چند زبانه نشان داده می شود. به معنای عام آن واژگان - این کتاب مرجعی است که حاوی کلمات (تکاژها، عبارات، اصطلاحات و غیره) است که به ترتیب خاصی (در انواع مختلف فرهنگ لغت متفاوت) مرتب شده اند. ممکن است حاوی تفسیری از معنای واحدهای توصیف شده و همچنین اطلاعات مختلف باشد در بارهآنها هر دیکشنری را می توان به عنوان یک پایگاه داده رابطه ای نشان داد

    آ) فرهنگ لغت فرکانس-الفبایی اشکال کلماتهر متن - ساده ترین پایگاه داده زبانی.

    ب) فهرست کلماتپایگاه داده پیچیده تر در آن، علاوه بر فراوانی مطلق استفاده از فرم کلمه در متن، تعداد صفحات و خطوط در صفحه ای که فرم کلمه داده شده در آن مواجه شده است، نشان داده شده است.

    که در) هماهنگی هاحتی نوع پیچیده تر از پایگاه داده . در آنها، هر شکل کلمه ای متن نه تنها با شاخص های عددی (فرکانس، شماره صفحه، شماره خط و غیره)، بلکه با برخی زمینه ها مشخص می شود. , که در آن استفاده می شود. به عنوان یک قاعده، این بافت از 3 جمله تشکیل شده است: جمله ای که در آن شکل کلمه رخ می دهد، جمله قبل از جمله اصلی و جمله بعد از آن.

    ز) دایره المعارف هالغت نامه هایی که شامل ویژگی های کلمه به خودی خود نیست، بلکه شیء، واقعیت یا پدیده ای است که توسط آن تعیین شده است. تعداد نسبتاً زیادی دایره المعارف های مختلف در رسانه های ماشینی وجود دارد. مشهورترین آنها دایره المعارف بریتانیکا است. این شامل 82000 مقاله و 700 مطلب اضافی است که از سال 1768 منتشر شده است. دایره المعارف های فرانسوی "Tons les savoire du Monde"، "Le monde sur CD-ROM"، "Versailles" و غیره کمتر معروف هستند. دایره المعارف بزرگ سیریل و متدیوس به زبان روسی منتشر شد.

    ه) اصطلاحنامه- اساساً نوع متفاوتی از فرهنگ لغت. به صراحت پیوندهای معنایی بین بخش خاصی از واحدهای واژگانی آن را نشان می دهد. به عنوان یک قاعده، چنین لغت نامه هایی برای متون یک منطقه مشکل نسبتاً باریک ساخته می شوند: فناوری رایانه، موسیقی، کشتی سازی، کشاورزی و غیره.

    ه) فرهنگ لغت اصطلاحات(TS) - فرهنگ لغت که واحد اساسی آن اصطلاح است .
    مدت، اصطلاح - کلمه یا عبارتی فرعی است که معنای خاصی دارد، مفهومی حرفه ای را بیان و شکل می دهد و در فرآیند شناخت و توسعه اشیاء علمی و حرفه ای و ارتباط بین آنها به کار می رود.


    سوال 30.

    LIR -مجموعه ای از داده های ذخیره شده در رایانه شخصی

    منابع اطلاعاتی زبانی- یکی از اجزای منابع اطلاعاتی منبع اطلاعاتی به عنوان منبعی فکری، نتیجه خلاقیت جمعی شناخته می شود.

    اشکال غیرفعال منابع اطلاعاتی شامل کتاب ها، مجلات، روزنامه ها، لغت نامه ها، دایره المعارف ها، ثبت اختراعات، پایگاه های اطلاعاتی و بانک های داده و غیره است.

    فعال تشکیل می دهدشامل الگوریتم ها، مدل ها، برنامه ها، پایگاه های دانش است

    به کلی ترین شکل LIR- این یک نوع پایگاه داده زبانی است که می تواند به روز شود و در آن می توانید این یا آن اطلاعات را جستجو کنید. منابع زبانی هم برای کاربران رایانه شخصی و هم برای سیستم های رایانه ای مختلف مرتبط با پردازش متن گفتار ضروری است: خلاصه کردن، حاشیه نویسی و ترجمه متون، تجزیه و تحلیل خودکار متن، ترکیب گفتار و متن.

    2) آرایه متن نوشته شده ( پیکره متنی در، یعنی مجموعه ای از متون کافی برای ارائه نتایج علمی قابل اعتماد در مورد یک زبان خاص، گویش، یا زیرمجموعه دیگری از یک زبان).

    الف) قابل استفاده:

    در فرهنگ شناسی و فرهنگ شناسی (برای تدوین فرهنگ لغت های مختلف، تعیین معانی کلمات چند معنایی، شناسایی پیوندهای تداعی کلمات در متن، برجسته کردن اصطلاحات و عبارات اصطلاحی و غیره).

    در دستور زبان (برای تعیین فراوانی استفاده از تکواژهای دستوری در متون انواع مختلف، شناسایی پرکاربردترین انواع عبارات و جملات، تعیین معانی واحدهای صرفی مترادف، فراوانی استفاده از طبقات کلمات و غیره) .

    در زبان شناسی متن (برای تمایز انواع متن، ایجاد تطابق، شناسایی ارتباط بین جملات در پاراگراف ها و بین پاراگراف های "و ​​غیره")

    هنگام ترجمه خودکار متون (برای جستجوی زمینه کلماتی که چندین معادل ترجمه دارند، معادل ترجمه عبارات اصطلاحی و اصطلاحی را در متون موازی و غیره جستجو کنید).

    برای اهداف آموزشی (برای انتخاب نقل قول ها، تکه تکه های آثار، نمونه های مورد استفاده در فرآیند ایجاد کتاب های درسی و کمک آموزشی.

    ب) مجموعه های متنی برچسب گذاری شده(از انگلیسی، برچسب-"شاخص، بستر"). همه کلمات چنین پیکره ای برخی از نمایه های الفبایی یا عددی را دریافت می کنند که ویژگی های دستوری، واژگانی، معنایی یا ساختاری آنها را نشان می دهد. ممکن است چندین شاخص از این دست وجود داشته باشد.

    3) منابع زبانی آوایی
    در حال حاضر، به طور کلی پذیرفته شده است که برای ایجاد اجسام آوایی قابل خواندن توسط ماشین، از رونویسی بر اساس نمایش املایی گفتار صوتی با علائم اضافی استفاده می شود که (در صورت لزوم) ویژگی های عروضی، فرازبانی و سایر تلفظ ها را منتقل می کند.

    الف) مجموعه های آوایی متون به طور گسترده ای برای حل مسائل زیر استفاده می شوند:

    بررسی تطبیقی ​​اشکال شفاهی و نوشتاری زبان.

    بررسی ویژگی های دستوری و واژگانی گفتار شفاهی.

    بررسی ویژگی های آوایی گویش ها;

    ساخت فهرست فرکانس واج ها و ترکیبات آنها.

    بررسی ویژگی‌های صوتی واحدهای گفتاری و استفاده از آنها در آزمایش‌های روان‌زبانی و زبانی.

    ایجاد سیستم های کامپیوتری، شناخت و سنتز گفتار شفاهی.