Разборчивость речи. Разборчивость речи и методы ее измерения

В настоящее время разработано достаточно большое количество объективных методов, основные из которых: AI (articulation Index) - индекс артикуляции; %ALcons (percentage Articulation Loss of Consonants) - процент артикуляционных потерь согласных; STI (speech transmission index) - индекс передачи речи; RASTI (rapid speech transmission index) - быстрый индекс передачи речи; SII (speech intelligibility index) - индекс разборчивости речи и др. (стандарты ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и др.).

На их анализе остановимся более подробно в данной статье, поскольку применение современных методов компьютерной оценки разборчивости речи является очень полезным при работе звукорежиссера в студиях и театрально-концертных залах (особенно если в них установлена система звукоусиления), а также при оценке качества речевых сигналов при передаче по каналам радиовещания, телефонии, в системах перевода речей и пр.

Объективные методы оценки разборчивости речи

Многолетний опыт проектирования залов различного назначения (аудиторий, лекционных залов, кинозалов, театральных залов и др.) и результаты многочисленных исследований показали, что разборчивость речи в помещении определяют следующие акустические характеристики:

Уровень прямого речевого сигнала во всех точках зала;

Уровень внешних и внутренних шумов;

Время реверберации;

Структура, уровень и направление прихода отраженных сигналов.

При этом для хорошей разборчивости речи требуются: достаточно высокий уровень отношения полезного сигнала к уровню шума (для студий звукозаписи он должен соответствовать кривой NC-15) (рис.1), небольшое время реверберации (в пределах до 1,1 с) и структура отражений, характеризующаяся отсутствием эха и наличием интенсивных ранних отражений при низком уровне поздних.

Рис. 1 Стандартизированные кривые уровня шумов NC

Влияние реверберационного процесса на структуру речевого сигнала можно отчетливо увидеть на примере осциллограмм, записанных в заглушенной камере и в помещении с большим значением реверберации (рис.2). Естественно, что при таком существенном изменении временной структуры речевого сигнала процесс его распознавания существенно ухудшается.


Рис. 2 Осциллограмма речевого сигнала
в заглушенной камере и в помещении

Существующие в настоящее методы объективной оценки разборчивости в той или иной степени связаны с перечисленными акустическими характеристиками. Кроме того, на разборчивость речи влияют параметры системы звукоусиления, если она установлена в зале (рис.3), о чем уже было сказано в первой части статьи.


Рис. 3 Параметры системы звукоусиления,
влияющие на разборчивость

Объективные методы оценки разборчивости можно разделить на две группы.

Первая аддитивная группа базируется на том предположении, что результирующая разборчивость речи определяется суммой вкладов в отдельных частотных полосах, а величина вклада зависит от отношения сигнала к шуму в каждой полосе.

К этой группе относится несколько методов.

1. AI - Индекс артикуляции.

Использование индекса артикуляции было предложено Г. Флетчером в лаборатории Bell Telephone Laboratories (США) в 1940 году.

Идея заключается в том, что весь частотный диапазон речевого сигнала разделяется на некоторое количество полос (обычно на 20), в пределах которых определяется отношение сигнала к шуму. Предполагается, что каждая частотная полоса вносит свой независимый вклад в разборчивость речи. Ширина полос выбрана таким образом, чтобы вклад каждой полосы в результирующую разборчивость был одинаковый.

В каждой полосе рассчитывается отношение "сигнал/шум", взвешивается и суммируется для получения индекса артикуляции: АI = ∑AIj, где AI - индекс артикуляции, 0
Рис. 4 Соотношение между разборчивостью
и индексом артикуляции AI

Значения AI ниже 0,3 соответствуют плохой разборчивости; от 0,3 до 0,5 - удовлетворительной; 0,5...0,7 - хорошей; выше 0,7 - очень хорошей. Соотношение между артикуляционным индексом и словесной разборчивостью для английской речи показано на рисунке 4. Как следует из определения, основное влияние на величину индекса артикуляции оказывает уровень шумов в помещении, примеры распределения значений AI в разных точках аудитории при уровне шумов, соответствующих кривым NC-50 и NC-35, представленных на рис.1, показаны на рис.5а и 5б.



Рис. 5 Распределение индекса артикуляции AI
в разных точках аудитории
при разном уровне шумов: a-NC-50; б-NC-35

Видно, что в первом случае, значение индекса артикуляции падает от 0,93 (93%) вблизи оратора до 0,18 (18%) в дальней точке, то есть помещение имеет в основной зоне плохую разборчивость ниже 0,7 (70%). Во втором случае AI падает от 93% до 62%, в основной зоне помещения он превышает 70%, следовательно, только уровень шумов ниже NC-35 позволяет обеспечить приемлемую разборчивость речи в аудитории без звукоусиления.

Необходимо отметить, что в России этот метод был подробно разработан в трудах М.А. Сапожкова и др., он получил название "метода формантной разборчивости", при этом методика его определения приобрела некоторые изменения. Для расчетов выбирается частотная полоса речевого сигнала 150...7000 Гц, поскольку внутри этой полосы располагаются практически все форманты гласных и согласных русской речи. (Определение формант как частотных полос, где имеются максимумы акустической энергии, и их расположение в частотной области было рассмотрено в предыдущих частях этой статьи). Эта полоса делится на 20 подполос, вероятность появления формант в каждой полосе равна 0,05.


Рис. 6.а. Определение коэффициента Кф

В результате маскировки шумом уменьшается вероятность восприятия формант (в первую очередь для согласных звуков, потому что они ниже по уровню), а следовательно и уровень разборчивости речи. Общий коэффициент формантной разборчивости также определяется как АI = ∑AIj, где AIj = 0,05Кф. Коэффициент Кф называется коэффициентом восприятия формант (или коэффициентом разборчивости в к-полосе). Он определяется следующим образом: рассчитывается разница Еф между средним уровнем речи в каждой полосе Вр и средним уровнем шумов и помех в этой же полосе Вш: Еф = Вр-Вш. Из полученного значения Еф в каждой полосе определяется по графику значение коэффициента Кф (рис.6а). Отсюда по вышеуказанной формуле для каждой полосы рассчитывается коэффициент AIj, и затем суммарный коэффициент формантной разборчивости (индекс артикуляции). Связь этого коэффициента с величиной слоговой разборчивости для русской речи показана на рис.6б. Интересно, что при потере почти половины формантной разборчивости слоговая разборчивость составляет 80%, то есть речь обладает достаточным запасом по информационной избыточности.


Рис. 6.б. Соотношение между слоговой
разборчивостью и индексом артикуляции AI
(русская речь)

Несмотря на простоту применения, метод расчета артикуляционного индекса имеет ряд существенных недостатков: он учитывает только влияние шума на разборчивость, и не учитывает влияния других факторов (времени реверберации, структуры отражений и др.). Поэтому он больше подходит для оценки разборчивости в системах связи, а при оценке разборчивости в помещении с временем реверберации Трев > 0,5 с он дает не очень хорошее совпадение с субъективными оценками. Этот метод считается устаревшим, и в современной практике используются в основном другие критерии.

2. SII - индекс разборчивости речи. Он был предложен как дальнейшее развитие метода AI и даже включен в американский стандарт для оценки разборчивости речи ANSI S3.5-1997.

В стандарте предлагается четыре измерительные процедуры, каждая использует различное число и размер частотных полос в пределах диапазона 150...8500 Гц:

Критические полосы (21 полоса);

Третьоктавные полосы (18 полос);

Равные по вкладу критические полосы (17 полос);

Октавные полосы (6 полос).

В каждой из них вычисляется отношение "сигнал/шум" и затем рассчитывается суммарный коэффициент SII, который может изменяться в пределах от 0 до 1.

Поскольку здесь используются критические полосы (о них было написано в предыдущих статьях по психоакустике), метод дает несколько лучшую корреляцию с субъективными экспертизами. Однако, проблемы учета искажений во временной области(реверберация, эхо и др.) по-прежнему остаются.

3. %ALcons - процент артикуляционных потерь согласных (percentage Articulation Loss of Consonants).

Этот метод был разработан В. Пьютцем из Голландии - его первая статья была опубликована в 1971 году в JAES. С того времени он опубликовал много работ по данному направлению, в 1984 году разработал алгоритм для измерений с помощью TEF-анализатора. Идея заключается в том, что для объективной оценки разборчивости вычисляется процент потери согласных, которые в основном и определяют смысловое содержание речи. Чем больше этот процент, тем хуже разборчивость речи в помещении. Максимально допустимое значение - 10% (при условии, что помещение относительно свободно от маскирующего шума). Для помещений, используемых для целей обучения, и для систем оповещения он должен составлять не больше 5%.

Первая из предложенных Пьютцем формул для расчета процента потери согласных ALcons имела следующий вид:

%ALcons= 200D2RT602(N)/VQM, где:

D - расстояние от источника звука (оратора, певца или громкоговорителя) до самого удаленного слушателя, м;

RT60 - стандартное время реверберации, с;

V - объем помещения, м3;

Q - фактор направленности источника звука для расчетной точки;

М - поправочный коэффициент, учитывающий влияние различных акустических и электроакустических эффектов (как правило равен единице);

N - коэффициент, учитывающий использование в системе нескольких источников.

В случае, если используется несколько излучателей для озвучивания помещения и все они одинаковы, то N определяется как отношение общего количества акустических систем к числу систем, обеспечивающих прямой звук в расчетной точке.

Как следует из этой формулы, в ней учитывается влияние объема помещения, расстояние до источника звука, коэффициенты направленности источников звука, отношение прямой энергии к реверберирующей и т.д. Из нее также следует, что для достижения уровня %ALcons = 10% время реверберации не должно быть больше 1,1 с. Было также установлено, что повышение уровня давления, создаваемого громкоговорителями, приводит к улучшению разборчивости до тех пор, пока уровень сигнала не достигает значения +25 дБ по отношению к уровню фонового шума. Дальнейшее повышение уровня давления (излучаемой акустической мощности) вопреки обычным представлениям не сказывается на степени разборчивости, так как это приводит к росту уровня как прямого, так и диффузного звуков.

Этот метод широко используется на практике (особенно в США), он позволяет учесть влияние реверберации на разборчивость речи и дает хорошую корреляцию в ряде случаев с субъективными оценками.

Примеры расчета значений %ALcons для разных точек помещения (речевой аудитории) при времени реверберации 3,5 и 1,2 с (рис.7а,б) показывают, что при большом времени реверберации значения %ALcons достигают 26% процентов в дальних точках помещения, что недопустимо. В то же время в более заглушенной аудитории, на большей части площади %ALcons не превышает 10%, что обеспечивает вполне удовлетворительную разборчивость речи.



Рис. 7 Распределение в помещении
значений %ALcons: a-T=3,5; б-T=1,2 c

Но у этого метода есть свои недостатки: он основан на измерении в одной третьоктавной полосе вокруг 2000 Гц, поскольку здесь сосредоточена основная энергия согласных звуков. Все другие частоты обычно не используются, что может приводить к значительным погрешностям, в частности, за счет частотной зависимости коэффициента направленности источника звука от частоты и соответствующего изменения по частотному диапазону отношения уровня прямого звука к реверберирующему. Кроме того, этот метод не учитывает целый ряд важных для разборчивости параметров: отношение "сигнал/шум", поздние отражения и эхо, спектр фонового шума и др. Правда, позднее Пьютцем была предложена новая методика, позволяющая учесть фоновый шум. При этом предлагается значения %ALcons, вычисленные по вышеприведенной формуле, умножить на коэффициент, учитывающий уровень шумов в помещении:

%AL"cons = %ALcons(1,071Т-0,0285)25+(Ln-Ls), где:

Ln - уровень шума в помещении, дБ; Ls - уровень речевого сигнала, дБ.

Однако проблемы, связанные с применением этого критерия (возможность эффективного применения в основном в помещениях сравнительно небольшого объема, неучитывание ранних отражений, эхо и др.) остаются, поэтому работы по усовершенствованию этого критерия все время продолжаются.

Вторая группа методов для объективной оценки разборчивости построена на оценке модуляционной передаточной функции системы. К их числу относятся методы STI, RASTI, STIPA и др.

1. STI - Индекс передачи речи (speech transmission index).

Особая группа методов, позволяющая объективно оценить разборчивость речи в помещении, была разработана на основе использования модуляционной передаточной функции MTF (The Modulation Transfer Function).

Идея методов заключается в том, что, как было рассмотрено в предыдущих частях этой статьи, речевой сигнал представляет собой свертку импульсной характеристики звукового сигнала источника (для гласных звуков это импульсный сигнал с почти гармоническим спектром, для согласных это шумовой сигнал различной формы) с импульсной характеристикой голосового тракта. Как показывает анализ рис.8, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал (с полосой 125...8000 Гц), модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит форманты (скоростью артикуляции). Эксперименты показали, что частоты модуляции в обычной речи находятся в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5...7 Гц.

Уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой и, следовательно, приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи или помещение за счет реверберации, искажений и шумов происходит уменьшение разборчивости сигнала, что может быть оценено по степени уменьшения его глубины модуляции (изменения формы огибающей сигнала).


Рис. 8 Осциллограмма речевого сигнала

Поэтому в работах Хоутгаса и Стинекена в 1971 году был предложен следующий метод оценки разборчивости: весь речевой диапазон от 125 Гц до 8000 Гц разбивается на семь октавных полос. На вход испытываемой системы, например, на акустическую систему, установленную в точке помещения, где должен находится диктор (оратор), подается октавный шумовой сигнал с центральными частотами 125; 250; 500 Гц; 1; 2; 4 и 8 кГц, распределение интенсивности которого по октавным полосам совпадает с распределением интенсивности речевого сигнала. Сигнал этот модулируется гармоническим сигналом со стопроцентным индексом модуляции (рис.9): I(t) = I0(1+cos2πFt). При этом характеристика направленности акустической системы, через которую сигнал излучается в помещение, должна быть близка к характеристике направленности ротового отверстия. Частоты модулирующего сигнала меняются в пределах от 0,63 до 12,5 Гц с третьоктавным интервалом (всего четырнадцать частот). В точке, где должен располагаться слушатель, сигнал принимается ненаправленным микрофоном, при этом за счет шумов и процессов реверберации в помещении форма сигнала изменяется, и глубина его модуляции уменьшается.


Рис. 9 Вид модулированного сигнала

Сигнал теперь может быть представлен в форме: I(t) = I0(1+mcos(2πFt+ φ)), где:

M - коэффициент, характеризующий уменьшение глубины модуляции. Он является функцией частоты модуляции F и зависит от времени реверберации в помещении и отношения "сигнал/шум" (зависимость величины 20lg(m(F)) от частоты F называется модуляционной передаточной функцией);

I0 - амплитудное значение сигнала;

F - частота сигнала;

T - время;

φ - начальная фаза.


Рис. 10 Шкала CIS

В предлагаемом методе измерения проводятся для 98 точек для семи октавных полос подаваемого шума и 14 значений частот модуляции. Полученная матрица из 98 точек используется для расчета STI (speech transmission index) путем взвешивания среднего значения m(F) в каждой полосе частот в соответствии с их общим вкладом в разборчивость. Пример такой матрицы, полученной с помощью компьютерной станции MLSSA, приведен ниже на

Методы измерения разборчивости с помощью STI введены в международный стандарт IEC 268-16. Этот метод предполагает проведение измерений в широком диапазоне частот и поэтому учитывает частотную зависимость времени реверберации, неравномерность АЧХ и другие частотно-зависимые эффекты, что в результате дает достаточно хорошую корреляцию с субъективными оценками.

Для того, чтобы была возможность сравнить результаты оценок разборчивости, полученных различными методами, была разработана общая шкала разборчивости CIS (стандарт IEC-60849), позволяющая пересчитывать значения разборчивости, полученной разными методами (как субъективными, так и объективными) одна в другую (рис.10). Например, значение STI равное 0,7, соответствует значению %ALcons 3,8%, что соответствует 94% слоговой разборчивости и обеспечивает хорошую разборчивость в помещении. Пределы изменения STI для обеспечения хорошей разборчивости составляют 0,6...1,0.

2. RASTI - быстрый индекс передачи речи (rapid speech transmission index).

Поскольку расчет разборчивости вышеуказанным методом представляет собой довольно трудоемкую процедуру, фирмой Bruel & Kjaer был разработан альтернативный упрощенный метод, предусматривающий измерения только в двух октавных полосах 500 Гц при частотах модуляции 1,02/2,03/4,07/8,14 Гц, а также 2 кГц при частотах модуляции 0,73/1,45/2,90/5,81/11,63 Гц. Дальше процедура измерений происходит как и в предыдущем случае, строится матрица, рассчитывается усредненное значение модуляционной передаточной функции в полосах частот и по нему определяется нормализованный индекс RASTI.

Для реализации этого метода фирмой Bruel & Kjaer были разработаны соответствующая аппаратура (B&K3361 RASTI Meter) и программное обеспечение, поэтому эта методика принята практически во всех европейских стандартах. Однако поскольку измерения проводятся только в двух октавных полосах, то они дают несколько завышенные значения, поскольку не учитывают неравномерность АЧХ и ФЧХ в системе. С целью еще большего ускорения процедуры измерений фирма предложила метод, при котором сигналы предъявляются одновременно в двух октавных полосах со всеми модулирующими сигналами одновременно.

Измерения производятся в непрерывном режиме и позволяют производить параллельный анализ в двух октавных полосах. Интервал времени для анализа требуется не менее 8 с. Для хорошей разборчивости требуется, чтобы значения RASTI в разных точках помещения были не ниже 0,6. Для его оценки измерения проводятся в разных точках помещения и строятся кривые его распределения. Пример показан на рис.11.


Рис. 11 Пример распределения RASTI значений в помещении

Следует отметить, что, строго говоря, методы оценки разборчивости с помощью модуляционных передаточных функций применимы только к линейным системам. Большинство же реальных систем нелинейны, особенно если речь идет об оценке разборчивости в системах коммуникаций (в телефонных каналах, например). Воздушное пространство в помещении можно считать линейной средой, но надо строго контролировать линейность измерительной аппаратуры.

Поиски простых и надежных методов для оценки разборчивости все время продолжаются. В 2001 году фирмой Bose была предложена методика измерений STI со специальным оптимизированным тестовым сигналом, представляющим собой модулированный шум в шести октавных полосах с двумя одновременными частотами модуляции в каждой октаве. Эта методика получила название STI-РА (то есть предназначенная для оценки систем звукоусиления РА).

Кроме того, развитие цифровых методов обработки звука и увеличение скорости компьютерной обработки позволило создать методику (она была предложена Шредером), с помощью которой значения модуляционной передаточной функции можно рассчитать из импульсных измерений сигнала с его соответствующей фильтрацией. Современные компьютерные метрологические станции TEF, MLSSA и др. используют именно эти методы для расчета разборчивости.

Необходимо отметить, что, кроме наиболее распространенных сейчас методов оценки разборчивости речи, использующих модуляционную передаточную функцию, достаточно широко используются при оценке помещений и другие методы, например, оценка разборчивости речи по коэффициенту четкости (ясности).

С50 - коэффициент четкости. Коэффициент С50 определяет четкость (ясность) звучания музыки, и вычисляется как отношение ранней к поздней энергии отраженных звуков в помещении. В 1996 году Маршалл предложил использовать этот коэффициент для оценки разборчивости речи, для этого необходимо измерять отношение Еран/Епозд в нескольких частотных полосах, со специальным взвешиванием для речевого сигнала. Измерения проводятся с помощью анализа импульсной характеристики с последующим компьютерной обработкой - к ранней относится энергия сигнала в пределах первых 50 мс. Несмотря на простоту измерений, метод дает неплохую корреляцию с субъективными оценками, но он также обладает определенными недостатками: учитывает только влияние реверберационного процесса, слабо учитывает структуру мешающей части отклика, в которой могут быть поздние отражения большой интенсивности.

Эти отражения часто приводят к появлению эха, снижающему разборчивость речи. Указанные недостатки в значительной мере ликвидированы в критерии, предложенном Низе, и названным "степенью эха". Низе ввел новую 33 мс границу между полезной и мешающей энергией, причем полезная энергия берется с весовой функцией, смягчающей резкую границу деления импульсного отклика. Мешающей же считается не вся энергия, а только энергия отражений, превышающих экспоненциальную кривую процесса реверберации данного помещения. Известны и другие модификации этого метода.

В настоящее время созданием международных рекомендации по оценке разборчивости речи занимается специальная группа Комитета Стандартов AES (председатель П. Мапп). Специалисты этой группы занимаются сравнительным анализом различных методов оценки разборчивости. В процессе этих работ были получены, в частности, достаточно простые аналитические соотношения между разными коэффициентами по оценке разборчивости речи, которые могут быть полезны в практической работе по оценке помещений.

В заключение следует отметить, что проблема оценка разборчивости речи чрезвычайна сложна, поскольку она зависит не только от факторов, которые поддаются объективным измерениям (время реверберации, уровень шумов, структура ранних отражений и др.), но и от таких субъективных факторов, как степень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состоянием его слуха и др. Поэтому создание автоматизированной компьютерной системы объективной оценки разборчивости речи - проблема трудная, но, поскольку она чрезвычайно важна для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, можно надеяться, что такая достаточно надежная система будет создана.

3.2. Средства акустической разведки В общем случае акустическая разведка осуществляется перехватом производственных шумов объекта и перехватом речевой информации. По способу применения технические средства съема акустической информации можно подразделить на две большие категории : 1. средства, требующие физического проникновения в защищаемые помещения: o радиозакладки; o закладки с передачей акустической информации в ИК-диапазоне; o закладки с передачей по сети 220 В; o закладки с передачей информации по телефонной линии; o диктофоны; o проводниковые микрофоны; o "телефонное ухо". 2. средства, не требующие физического проникновения в защищаемые помещения: o аппаратура, использующая "микрофонный эффект" устройств; o высокочастотное навязывание; o стетоскопы; o лазерные микрофоны; o направленные микрофоны. Рассмотрим более подробно перечисленные выше средства акустической разведки. Радиозакладки. Назначением этих устройств является передача по радиоканалу акустической информации с защищаемого объекта. Закладки могут быть исполнены в виде отдельного модуля или имитировать формой повседневные предметы обихода (пепельницу, зажигалку, калькулятор, авторучку и т.д.). Внешний вид радиозакладок представлен на рисунках 3.4, 3.5, 3.6. Рис. 3.4. Камуфлированная радиозакладка в виде зажигалки Рис. 3.5. Камуфлированная радиозакладка в виде монеты Рис. 3.6. Радиозакладка в обычном исполнении Радиозакладка передает информацию с помощью электромагнитных волн радиодиапазона. Естественным является обязательное наличие приемника в данной схеме. Интересно, что приемники могут использоваться разные и принципиальных отличий бытовых приемников (плеер, музыкальный центр, магнитофон) от специальных нет. Единственное, что определяет в данном случае прием - частота, на которой работает радиозакладка. Фактически злоумышленник может не тратиться на покупку специального приемника и принимать сигнал стандартными средствами в широковещатетельном диапазоне. Конечно, в этом случае другой человек с бытовым приемником в радиусе действия радиозакладки сможет тоже принять данный сигнал, что увеличивает вероятность обнаружения злоумышленника. Недостатком радиозакладок с точки зрения злоумышленника является возможность их обнаружения специальным приемником контроля. Этого недостатка лишены закладные устройства, передающие информацию по оптическому каналу в ИК-диапазоне, который не видим для глаза человека. Естественно обнаружить ИК-передатчики крайне сложно. Ввиду того, что информация передается по оптическому каналу, закладка должна находиться в области прямой видимости злоумышленника. Как правило, ИК-передатчики располагаются с внешней стороны оконных рам, в вентиляционных отверстиях и т.п., что облегчает задачу их поиска. Пример применения ИК-датчика показан на рисунке 3.7.
Рис. 3.7. Перехват акустической информации с помощью ИК-закладки К недостаткам ИК-закладок можно отнести высокую стоимость и высокое потребление энергии, в результате чего среднее время работы составляет в 15-20 часов. Кроме радио и оптического канала для передачи информации используются линии электропитания силовой сети 220 В и телефонные линии. Закладки, использующие линии электропитания для передачи информации, часто называют сетевыми закладками(рис. 3.8). Принцип работы таких закладок схож с радиозакладками. Рис. 3.8. Сетевая акустическая закладка К техническим средствам съема акустической информации относятся также диктофоны. Диктофон - устройство, регистрирующее голосовую информацию ленту, проволоку, внутреннюю микросхему памяти. Время записи различных диктофонов колеблется в пределах от 15 минут до 8 часов. Современные цифровые диктофоны записывают информацию во внутреннюю память, позволяющую производить запись разговора длительностью до нескольких часов. Эти диктофоны практически бесшумны (т.к. нет ни кассеты, ни механического лентопротяжного механизма, производящих основной шум), имеют возможность сброса записанной информации в память компьютера для ее дальнейшей обработки. Питание большинства диктофонов обеспечивается батарейками, вес которых составляет десятки и сотни грамм. При этом современные диктофоны могут иметь очень маленький размер, позволяющий размещать их где угодно в защищаемом помещении. Рис. 3.9. Мини-диктофон Edic-Mini Tiny B21 На рисунке 3.9 приведен пример современного цифрового мини-диктофона Edic-Mini Tiny B21, который имеет следующие характеристики: активация по голосу, вес 6 г, размеры 40x8x15 мм, до 60 часов работы при использовании воздушно-цинковых батареек. На стадии строительства или ремонта помещения в нем скрытно могут быть установлены маленькие микрофоны, которые по проводам соединяются с приемником сигнала. Такие микрофоны называют проводными. В проводных системах используются в основном электретные микрофоны, обеспечивающие регистрацию речи средней громкости на удалении до 7-10 м от его источника. При этом частотный диапазон составляет от 20 – 100 Гц до 6 – 20 кГц. Для питания таких микрофонов используется постоянно напряжение 9-15 В. Как правило, микрофон снабжается усилителем. Для передачи информации и питания усилителя используются 2-х или 3-х проводные линии (рисунки 3.10, 3.11.). Рис. 3.10. 3-х проводной микрофон Шорох-8 Рис. 3.11. 2-х проводной микрофон Микрофоны устанавливаются либо скрытно (немаскированые), либо маскируются под предметы обихода, офисной техники и т.д. Несколько микрофонов могут заводиться на общее коммутирующее устройство, позволяющее одновременно контролировать несколько помещений и осуществляющее запись перехваченных разговоров на диктофон. Для передачи акустической (речевой) информации по телефонной линии используются закладные устройства типа "телефонное ухо". Рис. 3.12. "Телефонное ухо" ТУ-2 Данное устройство тайно монтируется в корпус телефона или телефонную розетку и представляет собой, как правило, высокочувствительный микрофон электретного типа с усилителем и специальным устройством для подключения к телефонной линии при дозвоне по определенной схеме. Принцип работы следующий. Человек производит телефонный звонок по номеру, на котором "висит" закладка. "Телефонное ухо" "умалчивает" первые два звонка, таким образом, в помещении телефонные звонки не раздаются. Вызывающий кладет трубку и опять набирает этот номер. В трубке будет звучать сигнал "занято", оператор ждет 30-60 с (временной пароль) и после прекращения сигнала "занято" набирает бипером номер - включается микрофон и оператор слышит все, что происходит в контролируемом помещении практически из любой точки мира, где есть телефонный аппарат. Разрыв связи произойдет, если оператор положит трубку или если кто-то поднимет телефонную трубку в контролируемом помещении. Для всех остальных абонентов, желающих дозвониться по этому номеру, бу дет слышен сигнал "занято". Данный алгоритм работы является типовым, но может отличаться в деталях реализации, в зависимости от требований. При этом питание устройства осуществляется по телефонной линии, то есть срок службы его практически не ограничен. Направленные микрофоны Если требуется организовать прослушивание разговоров в помещении, доступ в которое так же, как и доступ в соседние помещения, невозможен, то используются направленные микрофоны. Направленные микрофоны имеют узкую диаграмму направленности (5…35˚) и коэффициент усиления более 70...90 дБ. Максимальная дальность действия НАМ в условиях города не превышает 100 – 150 м, за городом при низком уровне шумов дальность разведки может составлять до 500 м и более. Виды направленных микрофонов: параболические; плоские акустические фазированные решетки; трубчатые, или микрофоны "бегущей" волны; органного типа; градиентные. Параболический микрофон. Представляет собой отражатель звука параболической формы, в фокусе которого расположен обычный (ненаправленный) микрофон. Отражатель изготавливается как из оптически непрозрачного, так и прозрачного (например, акриловая пластмасса) материала. Величина внешнего диаметра параболического зеркала может быть от 200 до 500 мм. Принцип работы этого микрофона поясняется на рисунке 3.13. Звуковые волны с осевого направления, отражаясь от параболического зеркала, суммируются в фазе в фокальной точке А. Возникает усиление звукового поля. Чем больше диаметр зеркала, тем большее усиление может обеспечить устройство. Если направление прихода звука не осевое, то сложение отраженных от различных частей параболического зеркала звуковых волн, приходящих в точку А, даст меньший результат, поскольку не все слагаемые будут в фазе. Ослабление тем сильнее, чем больше угол прихода звука по отношению к оси. Создается, таким образом, угловая избирательность по приему. Параболический микрофон является типичным примером высокочувствительного, но слабонаправленного микрофона. Внешний вид параболических направленных микрофонов представлен на рисунках 3.14, 3.15. Трубчатые микрофоны, или микрофоны "бегущей" волны.В отличие от параболических микрофонов и плоских акустических решеток, принимают звук не на плоскости, а вдоль некоторой линии, совпадающей с направлением на источник звука. Принцип их действия поясняется на рисунке 3.16.
Рис. 3.13. Принцип работы параболического микрофона Рис. 3.14.Внешний виднаправленного микрофона «Супер Ухо – 100» Рис. 3.15.Внешний вид параболического направленного микрофона
Рис. 3.16.Трубчатый микрофон. Основой трубчатого микрофона является звуковод в виде жесткой полой трубки диаметром 10-30 мм со специальными щелевыми отверстиями, размещенными рядами по всей длине звуковода, с круговой геометрией расположения для каждого из рядов. Очевидно, что при приеме звука с осевого направления будет происходить сложение в фазе сигналов, проникающих в звуковод через все щелевые отверстия, поскольку скорости осевого распространения звука вне трубки и внутри нее одинаковы. Когда же звук приходит под некоторым углом к оси микрофона, то это ведет к фазовому рассогласованию, так как скорость звука в трубке будет больше осевой составляющей скорости звука вне ее, вследствие чего снижается чувствительность приема. Обычно длина трубчатого микрофона от 15-230 мм до 1 м. Чем больше его длина, тем сильнее подавляются помехи с боковых и тыльного направлений. Рис. 3.17.Внешний вид трубчатого направленного микрофона PKI 2925 Рис. 3.18.Миниатюрный направленный микрофон UEM-88 Направленный микрофон органного типа.С помощью направленного микрофона органного типа можно прослушать разговор на расстоянии до 1 км в пределах прямой видимости. Здесь имеет место принцип: "поблизости никого нет, но тем не менее вас хорошо прослушивают". Использование явления резонанса звуковых волн в направленных системах приводит к увеличению уровня сигнала звуковой энергии, который поступает в микрофон. Простой направленный микрофон представляет собой набор из семи алюминиевых трубок диаметром 10 мм. Длина трубки определяет резонансную частоту звукового сигнала. Формула для расчета длины трубок имеет следующий вид: L = 330/2F, где L - длина трубки в метрах; F - резонансная частота в герцах. Исходя из вышеприведенной формулы, можно построить таблицу 3.2, где N - номер трубки. Таблица 3.2
N
L, м
F, Гц

Рис. 3.19. Избирательная система из направленных трубок


Рис. 3.20. Микрофон в параболическом улавливатели

Усиление сигнала происходит за счет использования высокочувствительного микрофонного усилителя МУ. Этот направленный микрофон перекрывает диапазон частот от 300 Гц до 3300 Гц, т. е. основной информационный диапазон речевого сигнала.

Если необходимо получить более качественное восприятие речи, то необходимо расширить диапазон принимаемых частот. Это можно сделать путем увеличения количества резонансных трубок, например, до 37 штук. Такая резонансная система перекрывает диапазон частот от 180 Гц до 8200 Гц.

Плоские фазированные решетки. Плоские фазированные решетки реализуют идею одновременного приема звукового поля в дискретных точках некоторой плоскости, перпендикулярной к направлению на источник звука (рис. 2). В этих точках (А1, А2, А3...) размещаются либо микрофоны, выходные сигналы которых суммируются электрически, либо, и чаще всего, открытые торцы звуководов, например трубки достаточно малого диаметра, которые обеспечивают синфазное сложение звуковых пален от источника в некотором акустическом сумматоре.

Рис. 3.21. Плоская фазированная решетка

К выходу сумматора подсоединен микрофон. Если звук приходит с осевого направления, то все сигналы, распространяющиеся по звуководам, будут в фазе, и сложение в акустическом сумматоре даст максимальный результат. Если направление на источник звука не осевое, а под некоторым углом к оси, то сигналы от разных точек приемной плоскости будут разными по фазе и результат их сложения будет меньшим. Чем больше угол прихода звука, тем сильнее его ослабление. Обычно число приемных точек Аi в таких решетках составляет несколько десятков. Конструктивно плоские фазированные решетки встраиваются либо в переднюю стенку атташе-кейса с последующим камуфляжем, либо в майку-жилет, которая надевается под пиджак или рубашку. Необходимые электронные блоки (усилитель, элементы питания, магнитофон) располагаются соответственно либо в кейсе, либо под одеждой. Таким образом, плоские фазированные решетки с камуфляжем визуально более конспиративны по сравнению с параболическим микрофоном.

Градиентный микрофон . Он представляет собой два достаточно миниатюрных и близкорасположенных высокочувствительных микрофона М1 и М2, выходные сигналы которых электрически (или акустически) вычитаются друг из друга, реализуя в конечных разностях первую производную звукового поля по оси микрофона и формируя диаграмму вида cosQ , где Q - угол прихода звука. Тем самым обеспечивается относительное ослабление акустических полей с боковых направлений (О - 90°). Градиентными микрофонами высоких порядков называют системы, реализующие пространственные производные 2-го, З-го и более старших порядков.

Основной пользовательской характеристикой направленных микрофонов является дальность их действия в конкретных условиях R . Для открытого пространства и изотропных и независимых по угловым направлениям внешних акустических помех дальность действия R связана:

Со спектральным отношением сигнал/помеха q на выходе направленного микрофона;

Со спектральным уровнем речи Вр;

Со спектральным уровнем внешних акустических помех Вш соотношением вида:

q = Bp - Bш - 20lg R+G - Bп , (1)

где G - так называемый коэффициент направленного действия микрофона (дБ), Вп - пороговая акустическая чувствительность микрофона (дБ).

Рис. 3.22. Простейший градиентный микрофон

Входящий в формулу (1) коэффициент G направленного действия характеризует степень относительного подавления внешних акустических помех: чем он больше, тем сильнее это подавление. Теоретически он связан с нормированной диаграммой направленности микрофона F (Q,j) соотношением вида:

,

где Q - угол прихода звуковой волны по отношению к оси микрофона; j - угол прихода звуковой волны в полярных координатах плоскости, перпендикулярной оси.

Например, для трубчатого микрофона , когда

,

где l - длина волны звука. а L - длина трубки, имеем (при L > l .) :

G = 4 L/l . (4)

Аналогично выводится приближенная формула для коэффициента направленного действия параболических микрофонов и фазированных плоских решеток:

G = 4π (S/l 2), (5)

где S - площадь входной апертуры;l - длина волны звука. Для градиентных микрофонов n -го порядка при оптимальной обработке сигналов

G=n (n+1), (6)

где n - порядок градиента.

При известных значениях величины G формула (1) достаточна для получения абсолютных оценок ожидаемого спектрального отношения сигнал/помеха, если известны условия. Но во многих случаях знания этих условий бывают неточны. Поэтому более оправданно использовать не абсолютные, а относительные оценки дальности, как не требующие точных знаний условий, поскольку сопоставление происходит при их равенстве. Принимая такую идеологию, сравним возможности направленных микрофонов с возможностями не вооруженного специальными устройствами человеческого слуха. Формально для него можно записать соотношение, аналогичное (1). В результате сравнения получим:

R=R0 x 10 0,05 (G-G 0) – 0,005 (D-Bп) , (7)

где R0 - дальность слышимости звука органом слуха; R - дальность действия направленного

мммикрофона микрофона с тем же качеством контроля; G0 - коэффициент направленного действия органа слуха человека (режим биноурального прослушивания); (D-Bп) - разность пороговой чувствительности направленного микрофона и органа слуха.

Форманты – это такие области в спектре звука речи, где концентрация энергии максимальна. Впервые формантный подход был предложен еще в 1929 году Д. Коллардом. Он прочно держал свои позиции до 70-х, пока не был предложен модуляционный подход, позволяющий учесть не только шумовую, но и реверберационную помеху, эхо и нелинейные искажения.

За 80 лет существования формантный подход обрел много сторонников и модификаций, однако самой распространенной стала зарубежная версия формантного метода, известная как индекс артикуляции (AI). К нему мы придем, рассмотрев версию Н. Б. Покровского и базирующийся на нем современный отечественный метод измерения разборчивости речи.

Покровский метод

Согласно этому методу всю анализируемую область частот разбивают на несколько смежных полос, в пределах каждой из которых плотность вероятностей формант, спектры речи и шума приближенно считаются постоянными. Артикуляционная разборчивость представляет собой сумму разборчивостей формант каждой полосы:


K - количество смежных полос;
p k - вероятность пребывания формант в k -ой полосе частот;
F 1 (f) - функция распределения вероятностей формант;
f ok - центральная частота полосы;
f нk - нижняя граничная частота полосы;
f вk - верхняя граничная частота полосы;
P(E " k) - коэффициент восприятия речи, иначе вероятность отсутствия маскировки речи шумом.

Коэффициент восприятия речи зависит от разности уровней формантного спектра и спектра помехи. При достаточно больших уровнях шума это отношение сигнал/шум в каждой из полос частот.


Откровенно говоря, кривая коэффициента восприятия речи для каждой полосы частот разная, однако в методе Н. Б. Покровского им же и было предложено не обращать на это внимания и использовать какую-то одну кривую для упрощения расчетов. Методическая погрешность на лицо.

Конечно, для полноценного описания метода Покровского нужно привести еще как минимум методику построения коэффициентов восприятия, ряд формул и замечаний, однако так как это не есть целью данной статьи, будем двигаться дальше.

Почти AI

Современный российский метод был предложен в 2000-м году Железняком Я. И., Макаровым Ю. К. и Хоревым А. А. Фактически он повторяет метод Покровского Н. Б. с тем лишь отличием, что анализ сигнала производится в пяти октавных полосах частот. Также предполагается автоматизация вычислений, что потребовало аппроксимацию измеряемых величин аналитическими соотношениями.

Как и прежде, артикуляционная разборчивость определяется выражением:


Аналитические соотношения:



E " k - эффективный уровень ощущения формант в полосе частот;
E k - эффективный уровень ощущения речевого сигнала в полосе частот, при относительно большом уровне шума равный отношению сигнал/шум SNR;
∆B(f) - разница между усредненным спектром речи и спектром формант;


D sk , D nk - дисперсии сигнала и шума соответственно;


Словесную разборчивость вычисляют с помощью формантной:


В. Л. Каргашиным было высказано мнение, что данная версия должна быть усовершенствована, а именно:
  • нужно добавить еще одну полосу анализа с центральной частотой 8 кГц;
  • должна быть реализована возможность расчета в третьоктавных полосах;
  • желательно аппроксимировать коэффициент восприятия более простой функцией
Выше перечисленное присутствует в методе AI.

AI

Использование индекса артикуляции было предложено Г. Флетчером 1940 году. Существует две версии данного метода:
  • для двадцати равноартикуляционных полос;
  • для шести октавных либо пятнадцати третьоктавных полос
Рассмотрим данный метод для двадцати равноартикуляционных полос. Разборчивость речи определяют все по той же формуле:


Однако так как вычисления производятся в двадцати полосах, формула выше принимает вид:


∆L i - разница между пиковым уровнем речи и эффективным уровнем маскирующего шума


Таким образом


Может возникнуть вопрос, имеем ли мы право аппроксимировать коэффициент восприятия такой линейной зависимостью? Имеем, поскольку результат, полученный с использованием кривых по Покровскому, будет таким же усредненным, как и результат, полученный с аппроксимацией линейной зависимостью.
  • влияние клиппирования;
  • Метод неприменим:
    • если на речевой сигнал влияет несколько разных типов помех;
    • в случае смешанного приема сигнала от диктора и громкоговорителя

    Подвал

    1. Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
    Мы разговариваем по телефону, мы слушаем выступления и речи в концертных залах. Некоторые из нас пытаются подслушать чужой разговор, иные – сделать прослушку невозможной. Однако для всех наведенных выше случаев бывали такие ситуации, когда посторонний шум настолько мешал услышать нужное, что слова становились попросту неразборчивыми. Чтобы таких проблем не возникало, перед эксплуатацией трактов проводится акустическая экспертиза каналов речевой коммуникации.

    Канал, либо тракт речевой коммуникации (или канал передачи речевой информации) – это физическая среда, путь, который проходит звук от отправления к приему. Это может быть воздушный, электроакустический, вибрационный, параметрический, оптико-электронный канал, однако не будем останавливаться на их рассмотрении, так как наша цель – измерение важнейшего критерия качества тракта – разборчивость речи.

    Методы измерения разборчивости речи можно коротко подать в виде списка:

    • Субъективные:
      • Чисто субъективный метод;
      • Объективизированный;
      • Тональный;
    • Объективные:
      • Формантные:
        • AI (Индекс артикуляции);
        • SII (Индекс разборчивости речи);
      • Модуляционные:
        • STI (Speech transmission index – Индекс передачи речи);
        • RASTI (Быстрый STI);
        • STIPA (STI для систем звукоусиления);
        • STITEL (STI для телекоммуникационных систем);
      • %ALcons (Оценка потерь артикуляции согласных);
    Конечно, есть еще советские методы Покровского, Быкова, Сапожкова, однако трогать их не будем, по крайней мере пока, так как приведенные выше методы обеспечивают лучший результат.

    Разумеется, охватить все и сразу мы не в силах, потому для начала рассмотрим отличия объективных методов от субъективных, а также поподробнее остановимся на последних.

    Чистый субъективизм

    В оценке разборчивости речи чистым субъективным методом участвует пара диктор-аудитор. Их работу удобно рассматривать на примере тестирования радиостанции по рекомендациям МККР (Международного Консультативного Комитета по Радиосвязи): на передающей стороне радиоканала диктор читает текст, в то время как аудитор на принимающей стороне выставляет оценку тракта по пятибалльной (или какой-либо другой) шкале. Тяжело не заметить очевидный большой недостаток такого подхода, а именно неизбежное влияние на результат особенностей речи и слуха тестирующих людей.

    Решение этой проблемы такое же очевидное, как и сама проблема.

    Объективизированность

    Наиболее распространенным объективизированным методом является метод артикуляции. Он заключается в том, что перед началом измерений в испытуемом канале создаются нормальные акустические условия (уровни шумов). Участвуют несколько аудиторов, а диктор вместо обычного текста читает специально составленные таблицы слогов (артикуляционные таблицы). Аудиторы записывают услышанное и по окончанию сеанса передачи сверяют свои таблицы с дикторскими. Отношение правильно услышанных слогов к их общему числу и есть оценка разборчивости речи, которая выражается в процентах либо в долях единицы.

    Отметим, что при большем числе продиктованных и соответственно принятых слогов влияние различных факторов усредняется. Влияние факторов еще более усредняется, если в испытаниях принимают участие различные группы дикторов и аудиторов. В этом и заключается объективизированность артикуляционного метода. Однако не только в этом. Получить объективные результаты помогает начитка именно звукосочетаний, не имеющих смысловой нагрузки, так как при приеме слов или фраз можно додумать и восстановить искаженный трактом элемент.

    Что касается аудиторов, есть мнение, что это должны быть специально натренированные бригады, однако ГОСТ Р 50840-95 требует совершенно обратное. Лично я больше склоняюсь к последнему.

    Достоинства:

    • Универсальность (метод применим к любому типу тракта);
    • Простота (метод не требует у операторов специальных технических знаний)
    Недостатки:
    • Громоздкость процедуры измерений (требуются значительные затраты временных, материальных и человеческих ресурсов);
    • Создание артикуляционных таблиц (с каждым новым типом таблиц результаты измерений отличаются);
    • Зависимость результатов от степени тренерованости операторов;
    • Человеческий фактор (влияние на результат особенностей речи и слуха)

    Объективизированность. Часть 2

    Рассмотрим еще один объективизированный субъективный метод – тональный, согласно которому диктор заменяется генератором чистых тонов. Этот искусственный голос на деле – обычный громкоговоритель без диффузора, который генерирует сигналы таким образом, чтобы уровень звуковых давлений, создаваемый на различных частотах, соответствовал бы кривой спектра формант. Аудиторы никуда не деваются. Теперь их задача – это просто определить, слышен ли сигнал на данной частоте или нет.
    Частоты, на которых проводятся измерения
    250 500 650 800 990 1125 1300 1500 1700 1875
    2050 2225 2425 2725 3100 3500 3850 4550 6150 8600

    Уровень ощущения формант измеряется путем плавного ввода затухания до исчезновения слышимости звука, затем затухание следует убавлять до момента появления звука. Два значения затухания усредняются – это и есть результат измерения.

    Формантная разборчивость речи определяется по таблице:

    дБ % дБ % дБ % дБ % дБ % дБ %
    1 0.04 10 0.65 19 1.92 28 3.22 37 4.28 46 4.75
    2 0.09 11 0.76 20 2.07 29 3.37 38 4.37 47 4.78
    3 0.14 12 0.89 21 2.2 30 3.51 39 4.46 48 4.8
    4 0.19 13 1.03 22 2.36 31 3.64 40 4.52 49 4.82
    5 0.24 14 1.18 23 2.5 32 3.75 41 4.57 50 4.85
    6 0.3 15 1.32 24 2.65 33 3.87 42 4.62 51 4.88
    7 0.37 16 1.47 25 2.79 34 3.97 43 4.66 52 4.95
    8 0.46 17 1.62 26 2.93 35 4.08 44 4.69
    9 0.55 18 1.77 27 3.08 36 4.18 45 4.72
    дБ - уровень ощущения тона; % - формантная разборчивость речи

    Общая формантная разборчивость определяется как сумма составляющих:
    Для окончания измерения разборчивости речи достаточно определить слоговую разборчивость:

    Достоинства:
    • Не нужна бригада дикторов;
    • Значительно сокращается время измерений;
    • Не нужны артикуляционные таблицы
    Недостатки:
    • Повышенные требования к технической образованности измеряющего персонала;
    • Невозможность автоматизации процесса;
    • Человеческий фактор

    А как же…

    … отличия объективных методов от субъективных? Думаю, вы уже догадались, что все дело в человеческом факторе, а точнее в его отсутствии, так как для измерений используют искусственный голос, рот и ухо.

    Рассмотрим простейший объективный метод.

    Прежде всего, на приемном конце испытуемого тракта создается уровень шума, соответствующий условиям работы. Далее измеряется уровень шума на выходе искусственного уха в критической полосе частот слуха, при этом средняя частота этой полосы равна частоте измерительного тона. Этот уровень шума обязательно нужно зафиксировать, он нам еще понадобится. После этого вместо шума на вход тракта подают тональный сигнал. Уровень интенсивности звука на микрофоне берется таким, чтобы при условном нуле на регулировщике затухания распределение звуковых давлений соответствовало кривой спектра формант. Далее с помощью регулирования затухания добиваются, чтобы уровень тонального сигнала на выходе тракта стал равен зафиксированному нами ранее уровню шума. Показания регулятора затухания – результат измерения.

    Чтобы определить формантную и слоговую разборчивости, пользуются теми же способами, что и в тональном методе.

    Достоинства:

    • Точность и быстрота;
    • Не требуются дикторы и аудиторы;
    • Возможность полной автоматизации процедуры измерений
    Недостатки:
    • Повышенные требования к технической образованности измеряющего персонала

    The End

    Обычно после этих слов и быть ничего не должно, ну разве что титры, потому буду предельно краток: это был «никнейм_внизу», смотрите нас в любое удобное для вас время. И спасибо за внимание!

    Акустические характеристики речи

    Речевой сигнал представляет собой сложный частотно и амплитудно модулированный шумовой процесс, характеризующийся следующими параметрами: звуковое давление, частотный диапазон, уровень речевых сигналов, динамический диапазон.

    Звуковое давление - дополнительное давление, возникающее в среде при прохождении звуковых волн. Распространяясь в среде звуковая волна образует сгущения и разрежения, которые создают добавочные изменения давления по отношению к его среднему значению. Звуковое давление - основная количественная характеристика звука. Уровень звукового давления - измеренное по относительной шкале значение звукового давления, отнесенного к опорному давлению p0=20мкПа, соответствующему порогу слышимости синусоидальной звуковой волны частотой 1кГц:

    Динамический диапазон - отношение максимального значения мгновенной мощности сигнала Pmax к минимальному значению мгновенной мощности Pmin, или в логарифмических единицах измерения:

    В данном выражении за величину Pmax принимают такое значение мощности сигнала, которое может быть превышено лишь в течение 2% общего времени передачи, а за величину Pmin принимают такое значение мощности сигнала, которое должно быть превышено в течение 98% общего времени. Динамический диапазон сигналов передачи программ звукового вещания:

    Речь диктора - 25..35 дБ;

    Художественно чтение - 40..50дБ;

    Вокальные и музыкальные инструменты - 45..55дБ;

    Симфонический оркестр - до 65дБ.

    Энергетический спектр речевого сигнала - область частот, в которой сосредоточена основная энергия сигнала (рисунок 2.2). Из рисунка следует, что речь представляет собой широкополосный процесс, частотный спектр которого простирается от 50..100 Гц до 8000..10000 Гц. Установлено, однако, что качество речи получается вполне удовлетворительным при ограничении спектра частотами 300..3400 Гц. Эти частоты приняты в качестве границ эффективного спектра речи. При указанной полосе частот слоговая разборчивость составляет около 90%, разборчивость фраз - более 99% и сохраняется удовлетворительная натуральность звучания.


    Рисунок 2.2 - Спектральный состав речи.

    Важнейшим параметром, характеризующим спектр (распределение энергии или амплитуды по частотам) речевого сигнала являются форманты (рисунок 2.3), которые определяют как концентрацию энергии в ограниченной частотной области. Форманта характеризуется частотой, шириной и амплитудой. За частоту форманты принимают частоту максимальной амплитуды в пределах форманты. Другими словами, форманта - это некоторый амплитудный всплеск на графике спектра, а его частота - частота пика этого всплеска.


    Рисунок 2.3 - Форманты речи.

    Разборчивость речи и методы ее измерения

    речь звук акустический разборчивость

    Разборчивость - это отношение числа правильно принятых элементов речи к общему числу переданных элементов. Так как в качестве элементов принимают звуки, слоги, слова и фразы соответственно различают звуковую, слоговую, словесную, фразовую, смысловую и формантную разборчивость. Все они при испытаниях одной и той же системы будут выражаться разными численными величинами, так как процент правильных оценок для предвиденного сообщения всегда выше, чем для непредвиденного - степень же предвидения при прослушивания фразы выше, чем при прослушивании отдельных слов.

    Разборчивость измеряют при помощи специальной тренированной бригады слушателей путем проведения объективно-статистических экспертиз.

    В таблице 2.1 приведена зависимость понятности и разборчивости.

    Таблица 2.1

    Понятность речи является фонетической характеристикой разборчивости и определяется в процессе в процессе переговоров нетренированных слушателей.

    Градация понятности:

    Отличная - полная понятность без переспросов;

    Хорошая - возникает необходимость в отдельных переспросах редко встречающихся слов или названий;

    Удовлетворительная - трудно разговаривать, необходимы переспросы;

    Предельно допустимая - требуются многократные переспросы одного и того же материала с передачей отдельных слов по буквам при полном напряжении слуха.

    Так в соответствии с ГОСТ 50840-95 понимание передаваемой по каналу связи речи с большим напряжением внимания, переспросами и повторениями наблюдается при слоговой разборчивости менее 25-40%, в случае слоговой разборчивости менее 25% имеет место неразборчивость связного текста (срыв связи). Учитывая взаимосвязь словесной и слоговой разборчивости, можно рассчитать, что срыв связи будет наблюдаться при словесной разборчивости менее 71%.

    Задача оценки канала утечки речевой информации и, соответственно, степени ее защищенности как раз и сводится к измерению или вычислению разборчивости речи и сравнению значения с требуемым. Сама же защита информации заключается в снижении разборчивости речи в канале утечки информации ослаблением уровня полезного сигнала.

    Метод артикуляции. Данный метод основан на оценке степени выполнения главного требования - обеспечения разборчивости передаваемой речи. Мерой разборчивости является величина, определяемая как отношение числа правильно принятых элементов речи к достаточно большому общему числу переданных и выраженная в процентах или в долях единицы - разборчивость речи. Метод определения этих величин называется артикуляционным методом.

    Измерения разборчивости проводят специально подобранные и натренированные бригады. Испытания состоят в передаче серий таблиц, состоящих из артикуляционных элементов речи, записи услышанного и вычисления среднего процента правильно принятых элементов. В зависимости от используемых артикуляционных таблиц (слоговые, словесные, фразовые) измеряют следующие виды разборчивости:

    разборчивость звуков - D;

    разборчивость слогов - S;

    разборчивость слов - W;

    разборчивость фраз - J.

    По окончанию цикла приемо-передачи сверяются принятые и переданные таблицы и вычисляется процент правильно принятых элементов.

    При достаточно большом объеме измерений, т.е. когда процент разборчивости вычисляется по большому числу принятых слогов (порядка нескольких сот и выше), влияние различных случайных факторов и субъективных особенностей отдельных операторов усредняется и артикуляционные измерения дают устойчивые, объективные и повторимые результаты. Получаемые в результате таких измерений значения разборчивости являются оценкой качества испытуемого тракта. Эта оценка характеризует испытуемый тракт (в нашем случае воздушное пространство выделенного помещения + строительные конструкции). Вследствие отсутствия смыслового значения у передаваемых слогов в значительно мере устраняется влияние многих субъективных факторов.

    Установлено, что для каждого национального языка все виды разборчивости: звуковая - D, слоговая - S, словесная - W и фразовая - J связаны друг с другом однозначными функциональными зависимостями вида S=f(D), W=f(S), J=f(W), которые остаются неизменными для любых условий передачи на реально существующих трактах. Из факта наличия однозначных зависимостей для таких видов разборчивости, как D,S,W,J, которые поддаются непосредственному измерению с помощью артикуляционных таблиц, можно сделать следующий вывод: измерения с различными видами таблиц отнюдь не дополняют друг друга, а просто являются эквивалентами друг другу (в смысле тех сведений о качестве тракта, которые можно получить в результате проведения этих измерений). Это значит, что нет необходимости измерять все виды разборчивости. Достаточно измерить только одну какую-нибудь их этих величин, а остальные могут быть получены по соответствующим соотношениям или графикам. Поэтому наиболее целесообразным является измерение того вида разборчивости, которые в данном конкретном случае является наиболее экономичным, т.е. при одной и той же точности измерений требует минимальной затраты сил, средств и времени на их производство. Однако при проведении артикуляционных испытаний применение слоговой и словесной разборчивости более предпочтительны, т.к. обеспечивают меньшую зависимость результатов испытаний от субъективных особенностей артикуляторов (например, таких как способность к запоминаемости).

    Приведенные экспериментальные исследования показали следующие зависимости между различными видами разборчивости русской и английской речи:


    Рисунок 2.4а - Зависимость разборчивости слогов от разборчивости формант.


    Рисунок 2.4б - Зависимость разборчивости слогов от разборчивости звуков.


    Рисунок 2.4в - Зависимость разборчивости слов от разборчивости звуков.


    Рисунок 2.4г - Зависимость разборчивости фраз от разборчивости слогов.


    Рисунок 2.4д - Зависимость разборчивости фраз от разборчивости слов.

    Достоинством метода артикуляции, обусловившим его широкое практическое применение, является то, что этот метод дает объективную количественную оценку качества передачи речи по главному ее признаку - разборчивости, причем эта оценка может быть проведена с достаточно высокой степенью точности.

    Так предельное значение разборчивости формант, при котором возможно понимание смысла речевого сообщения, равно 15%, что соответствует 25% разборчивости слов. Задача оценки канала утечки сводится к измерению или вычислению разборчивости речи в анализируемом канале и сравнение полученного значения с требуемым.