Аналитический обзор алгоритмов обработки речевых команд и систем голосового управления

1.1.1 Особенности речевого сигнала, его параметры и характеристики

Речевой сигнал это акустический сигнал, образуемый артикуляционным отделом речевого аппарата человека с целью обмена информацией (языкового общения), посредством языковых конструкций, создаваемых на основе определенных правил [1]. Минимальной смыслоразличительной единицей речевого сигнала является фонема, которая служит для различения и отождествления звуков и слов [2, 3].



РЕКЛАМА

Вам нужен доход от траффика вашего интернет соединения? Зарегистрировался на телефон или другой гаджет и забыл, а через 3 месяца посмотрел и к выводу у тебя от 30 баксов.При регистрации по ссылке вам подарят 5 долл. https://r.honeygain.me/PHILCDD0FB


Речевые сигналы являются нестационарными и нелинейными сигналами сложной формы, параметры и характеристики которых, быстро меняются в течение короткого промежутка времени. На рисунке 1.1 представлен пример речевого сигнала – слово «Наперсток».

Рисунок 1.1 – Речевой сигнал – слово «Наперсток»

Как любой измерительный сигнал речевой сигнал характеризуется определенным основным набором измерительных параметров: звуковое давление, ЧОТ и форманты [4, 5]

Звуковое давление – переменное избыточное давление, возникающее в упругой среде при прохождении через неё звуковой волны. Мгновенное значение звукового давления в точке среды изменяется как со временем, так и при переходе к другим точкам среды, поэтому практический интерес представляет среднеквадратичное значение данной величины, связанное с интенсивностью звука.

Уровень звукового давления это измеренное по относительной шкале значение звукового давления, отнесённое к опорному давлению = 20 мкПа, соответствующему порогу слышимости синусоидальной звуковой волны частотой 1000 Гц.

ЧОТ – частота колебаний голосовых связок при произношении вокализированной речи. Особенностью ЧОТ является то, что интервалы следования импульсов голосовых связок непрерывно меняются в значительных пределах. Во многих случаях длительность вокализованных участков речи невелика, значительную часть занимают переходные процессы, поэтому измерить точное значение ЧОТ затруднительно.

Исследования [6-9] показали, что колебания голосовых связок характеризуются нерегулярностью, которая проявляется в виде значительных изменений длительности периодов ОТ (на 10 – 30%) и в виде небольших флуктуации соседних периодов тона. Нерегулярности возникают из-за неполного смыкания голосовых связок в начале и в конце тональных участков, при этом периоды с неполным смыканием голосовых связок чередуются с периодами с полным смыканием.

Распределение ЧОТ является нормальным в логарифмическом масштабе и описывается следующими формулами для мужского и женского голосов соответственно [4]:

(1.1),

(1.2),

где – период ОТ, , - распределение ЧОТ для мужского и женского голосов соответственно.

Форманты – частотные области максимальной концентрации энергии речевого сигнала [2]. Форманта это область, в которой вследствие резонанса усиливается некоторое число гармоник ОТ, производимого голосовыми связками. В спектре звука форманта является достаточно отчетливо выделяемой областью усиленных гармоник частот ОТ.

Форманты характеризуются амплитудой, частотой и шириной полосы частот. При анализе речевых сигналов за амплитуду форманты принимают интенсивность или уровень форманты. Ширина полосы частот равняется значению критической полосы слуха или с некоторой допустимой в ряде случаев ошибки полосе частот формантой области.

Представленная краткая информация о речевых сигналах и их параметрах позволяет сделать вывод: процесс управления объектом посредством речевых сигналов является сложным и важным, что должно быть учтено при разработке новых алгоритмов и узлов обработки речевых команда для систем голосового управления.

1.1.2 Обзор современного состояния систем голосового управления

Современные управляющие системы это сложные комплексы технических средств, предназначенные для управления объектами и процессами различного назначения [10, 11]. Структурно любую управляющую систему можно представить в виде взаимосвязанной совокупности управляемой подсистемы (объекта управления) и управляющей подсистемы (управляющего органа) посредством управляющего воздействия и обратной связи (см. рисунок 1.2) [12, 13].

В связи с успехами развития вычислительной техники и новых информационных технологий в последнее десятилетие определилась тенденция к нарастанию сложности управляющих систем, а также всех прочих видов взаимодействия «человек-машина». Важной является возможность взаимодействия человека с машиной на языке, максимально приближенном к естественному языку человека. Применение голосового управления в управляющих системах, в качестве интерфейса взаимодействия «человек-машина» позволяет организовать эффективное и удобное взаимодействие пользователя с системой [14, 15].

Рисунок 1.2 – Структурная схема управляющей системы

Голосовое управление это способ взаимодействия с управляющей системой при помощи речевых команд. Оно сводится к задаче распознавания, однако в отличие от систем распознавания речи, голосовое управление предназначено для распознавания отдельных управляющих команд.

На рисунке 1.3 представлена классическая функциональная схема СГУ, состоящая из следующих функциональных узлов [16, 17]: микрофона, блока обработки и блока распознавания.

Важно отметить, что с учетом программного и аппаратного обеспечения внутреннее устройство блоков СГУ гораздо сложнее. Речь в виде звуковых волн фиксируется микрофоном, который преобразует их в аналоговый речевой сигнал.

В блоке обработки аналоговый сигнал преобразуется в цифровую вид, проходит фильтрацию, сегментируется на фрагменты, в которых происходит выделение информативных параметров для дальнейшего анализа. В блоке распознавания происходит непосредственное сравнение поступившей в систему речевой команды с шаблоном из базы данных, полученным в ходе обучения системы. Обычно база данных шаблонов формируется на этапе разработки системы, может дополняться и корректироваться в последующем при эксплуатации под конкретного пользователя. Процесс создания базы данных шаблонов часто проходит в интерактивном режиме и носит название обучения системы [18].

Рисунок 1.3 – Классическая функциональная схема СГУ

Распознавание отдельных речевых команд проще, чем распознавание слитной речи и не требует больших вычислительных мощностей. Именно по этой причине на сегодняшний день существует огромный выбор программного и аппаратного обеспечения, имеющего небольшую стоимость при удовлетворительном качестве распознавания [19, 20]. Однако детальное исследование показывает, что системы до сих пор не преодолели уровень точности распознавания в 85%, тогда как у человека этот показатель составляет 96-98 % [18, 19].

Для полной оценки современного состояния СГУ, на рисунке 1.4 приведена классификация по следующим основным параметрам [15, 21, 22]: техническое исполнение, назначение, персонализация, тип речи, тип структурной единицы и размер словаря.

СГУ можно классифицировать по параметрам, описывающим потребительские свойства систем и по параметрам технической реализации систем. Системы по технической реализации включают в себя программные продукты и программно-аппаратные средства.

Назначение системы определяет качество распознавания, которое изменятся с помощью подключения дополнительных средств обработки. По назначению все системы распознавания подразделяются на три вида [17]: командные системы, системы диктовки и системы распознавания.

Все персонализации СГУ делятся на дикторозависимые и дикторонезависимые [22]. Первые предназначены для работы только с одним пользователем (система обучена для одного человека), вторые предназначены для работы с любым пользователем.

Рисунок 1.4 – Классификация СГУ

По типу речи системы распознавания подразделяются на системы, распознающие раздельную речь и системы, распознающие слитную речь [23].

Под размером слова систем понимается количество слов, которая система может распознать. Чем больше размер словаря, тем больше вероятность появления ошибок при распознавании и соответственно наоборот. Например, словарь, состоящий из десяти слов, может быть распознан практически без ошибок, тогда как в словаре из десяти тысяч слов, вероятность ошибки достигает 45%. Таким образом, системы распознавания делятся на системы с ограниченным словарем и системы со словарем большого размера [17].

При распознавании речи в качестве структурной единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, аллофоны, дифоны и трифоны [15].

В настоящее время существует достаточное количество СГУ, в том числе и на русском языке. 97% этих систем представляют собой программные продукты для управления компьютеризированной техникой (персональный и планшетный компьютер, коммуникатор, смартфон): «Dragon Naturally Speaking» [24]; «Typle Premium» [25]; «Linguatec Voice Pro» [26]; «IBM ViaVoice» [27]; «Горыныч» [28]; «Диктограф» [29]; «Voice Commander» [30]; модуль распознавания речи операционной системы Mac OS [31]; модуль распознавания речи операционной системы Windows [32]; модуль распознавания речи мобильной операционной системы iOS «Siri» фирмы Apple [33]; модуль распознавания речи мобильной операционной системы Android «S-Voice» фирм Google и Samsung [34].

3 % систем представляют собой устройства голосового управления, встроенные в высокоинтеллектуальные комплексы: СГУ «Умным» домом фирмы Insyte [35]; СГУ «Умным» домом фирмы Home Sapiens [36] и модуль распознавания речи в телевизорах поколения SMART фирмы Samsung [34].

Приведем параметры потребительских свойств некоторых профессиональных СГУ, представляющих наибольший интерес (см. таблицу 1.1) [20].

Таблица 1.1 – Параметры профессиональных СГУ

Название Точность распознавания Назначение и применение Персона-лизация Тип речи Размер словаря Недостатки

1. «Dragon Naturally Speaking» Пользов. версия 70%

Проф. версия до 85% Командная система, распознавание речи, система диктовки. Офис и домашнее использование, медицина. Управление персональным компьютером. Дикторо-независимая Изолирован-ные слова, слитная речь 60 000 слов Голосовое управление только некоторыми функциями персонального компьютера.

Необходим доступ в интернет.

2. «IBM ViaVoice»

Пользов. версия 80%

Проф. версия до 87% Командная система, распознавание речи, система диктовки. Офис и домашнее использование, юриспруден., медицина, журналистика. Управление персональным компьютером. Дикторо-независимая Изолирован-ные слова, слитная речь 23 000 слов Сложность управления по сравнению с другими системами.

Поддерживает только русский язык. Необходим доступ в интернет.

3. «Siri» модуль мобильной ОС iOS 88% Командная система, распознавание речи. Управление смартфоном.

Офис, домашнее использование. Дикторо-независимая Изолирован-ные слова, слитная речь Не более

20 000 слов Не поддерживает русский язык. Необходим доступ в интернет.

4. «Home Sapiens» 85% Командная система

Использование в системах домашней автоматизации.

Промышленное производство. Дикторо-независимая, дикторо-зависимая Изолирован-ные слова 1 000 слов Необходим доступ в интернет, предельный размер словаря.

Среди широкого набора технических свойств управляющих систем наибольший интерес представляют алгоритмы и узлы обработки, применяемые в них. Однако в силу коммерческой тайны производители не предоставляют данную информацию. Подробное описание перечисленных выше СГУ можно найти на сайтах производителей [24, 27, 33, 36].

Основным параметром СГУ является точность распознавания. Точность распознавания – безразмерная величина, равная отношению правильно распознанных речевых команд к общему количеству команд. Как следует из таблицы 1.1, нуждается в повышении. Практически все системы работают только при наличии доступа в интернет, что также является недостатком. Организация работы без доступа в интернет возможна только при наличии больших вычислительных мощностей и ограничениях размера словаря.

Из этого следует, что повышение эффективности работы СГУ может быть достигнуто за счет совершенствования и разработки новых алгоритмов и узлов обработки речевых команд, обеспечивающих повышение точности фильтрации, сегментации, выделения информативных признаков и распознавания. Все это позволит повысить точность распознавания, снизить уровень ошибок и открыть новые сферы эффективного применения СГУ.

1.2 Особенности обработки речевых команд в подсистемах голосового управления информационно-измерительных и управляющих систем

Обработка речевых сигналов – область исследования, в которой осуществляется фильтрация и подавление шумов, усиление, разделение информационных потоков, извлечение информации, кодирование, сжатие и восстановление речевых сигналов и команд. [16].

Применительно к подсистеме голосового управления ИИУС обработка речевых сигналов сводится к анализу изолированного слова или словосочетания с четко выраженными границами (речевой команды), включающего в себя следующие задачи [16, 37]: регистрация, предварительная коррекция, фильтрация, сегментация сигнал/пауза, определение информативных параметров и распознавание.

На рисунке 1.5 представлены этапы обработки речевых команд в подсистеме голосового управления, выполняющие перечисленные выше задачи. Рассмотрим каждый этап подробнее.

Рисунок 1.5 – Этапы обработки речевых команд в подсистеме голосового управления

Регистрация представляет собой запись речевой команды в режиме реального времени. На этом этапе давление звуковой волны воспринимается микрофоном и преобразуется им в электрический аналоговый сигнал. Далее проводится преобразование информационного образа речевой команды из аналогового сигнала в цифровой, с использованием аналого-цифрового преобразователя (АЦП), который осуществляет дискретизацию и квантование [38].

Регистрация может включать в себя дополнительные операции:

 автоматическая регулировка усиления и выравнивание уровня ближнего и дальнего пользователя, обеспечивающая качественную запись как слабых, так и сильных речевых сигналов;

 индивидуальная и групповая перенастройка рабочих параметров регистрации и преобразования без прерывания процесса записи;

 увеличение количества каналов записи или типов регистрируемой информации.

Предварительная коррекция используется для устранения естественных искажений спектра звука (минус 6 дБ на октаву), возникающих в речевом аппарате человека при произнесении речи [39].

Сигнал речевой команды пропускают через корректирующий фильтр с передаточной функцией:

(1.3),

где – постоянные коэффициенты, – целое число ( ), - номер коэффициента. Чаще всего , а передаточная функция имеет вид:

(1.4).

Данный этап не является обязательным, и во многих подсистемах голосового управления коррекция не предусмотрена. При этом на этапе анализа учитываются искажения спектра звука, свойственные речевому аппарату человека.

Фильтрация позволяет повысить разборчивость и уменьшить долю шумов, вызванных как акустическими, так и технологическими причинами. Шум – беспорядочные колебания различной физической природы, отличающиеся сложностью временной и спектральной структуры [40, 41]. Применительно к речевым сигналам – шум это совокупность апериодических звуков различной интенсивности и частоты, которые изменяют информативные признаки сигнала.

По взаимодействию с полезным речевым сигналом шумы делятся на аддитивные и мультипликативные [25, 26]. Аддитивные шумы складываются с полезным сигналом и вносят незначительную погрешность. Мультипликативные шум перемножаются с полезным сигналом, вносят наибольшую погрешность и могут изменять информативные параметры речевых команд.

В общем виде, комбинация сигнала и шума, выглядит следующим образом:

(1.5),

где - речевой сигнал, – полезный речевой сигнал; – коэффициент, характеризующий полезный речевой сигнал; – коэффициент, характеризующий мультиплика¬тивный шум; – аддитивный шум.

Отношение интенсивности сигнала и шума [42, 43] называется отношение сигнал/шум и играет важную роль в задаче фильтрации и шумоподавления. Отношение сигнал/шум выражается в логарифмических безразмерных единицах [44] – децибелах (dB, дБ):

(1.6),

где , – интенсивности сигнала и шума соответственно.

На основании анализа достижений в области фильтрации и шумоподавления речевых сигналов автором предложена [18, 19, 21] классификация шумов, оказывающих влияние на разборчивость речевых сигналов.

По происхождению шумы в речевых командах можно разделить на физиологические и антропогенные. К первому виду шумов относятся комплекс звуков различной интенсивности и частоты, находящихся в беспорядочном сочетании с полезными речевыми сигналами.

Происхождение физиологических шумов непосредственно связано с нарушениями речи (нарушение работы отдельных или комплекса органов артикуляционного отдела речевого аппарата). Наука, изучающая нарушения речи, их преодоление и предупреждение средствами коррекционного обучения называется логопедией.

К физиологическим шумам, связанным с нарушением речи относят большое количество звуков, форма и структура которых напрямую связана с родом нарушения звукопроизношения [45]:

 нарушения темпа и ритма речевых сигналов (брадилалия, тахилалия, спотыкание, заикание);

 нарушения голоса (афонии, дисфонии, ринофония);

 распад речевых сигналов (афазия).

К антропогенным шумам в грубой интерпретации относятся все остальные виды шумов, кроме физиологических. Это шумы, создаваемые человеком и возникшие в результате его деятельности. Их также называют промышленными или производственными шумами [40, 41]. Источниками антропогенных шумов являются транспортные средства – автомобили, железнодорожные поезда и самолёты, промышленные предприятия, строительные и ремонтные работы, бытовая и офисная техника и т. д.

По постоянству параметров все шумы подразделяются на стационарные и нестационарные. Стационарный шум – шум, который характеризуется постоянством средних параметров: интенсивности (мощности), распределения интенсивности по спектру (спектральная плотность), автокорреляционной функции. Классической моделью стационарного шума является белый шум, спектральные составляющие которого равномерно распределены по всему диапазону задействованных частот [40]. Нестационарный шум длится короткие промежутки времени (меньшие, чем время усреднения) [46]. Нестационарные шумы по длительности делятся на импульсные, прерывистые и колеблющиеся. Импульсный шум – шум, состоящий из одного или нескольких звуковых сигналов, длительностью менее 1 секунды, уровни которых, отличаются не менее чем на 7 дБ. Прерывистый шум – шум, уровень которого ступенчато изменяется (примерно на 5 дБ и более), причем длительность интервалов, в течение которых уровень остается постоянным, составляет 1 секунда и более.

К нестационарным шумам в речевых командах относятся, например, уличный шум проходящего транспорта, отдельные стуки в производственных условиях, редкие импульсные помехи в радиотехнике и т. п.

По ширине спектра шума выделяют широкополосный и узкополосный шум. Широкополосный шум – шум с непрерывным спектром шириной полосы частот более 1 октавы, включающий в себя набор многих звуковых частот. Узкополосный (тональный) шум – шум, в котором прослушивается звук определенной частоты [40, 41, 46].

По частотному диапазону шумы подразделяются на: низкочастотный шум (<400 Гц), среднечастотный шум (400 – 1000 Гц), высокочастотный (>1000 Гц) [43, 46].

Сегментация в обработке речевых команд – линейное деление речевого потока на составляющие отрезки, называемые фрагментами [18, 19, 37]. Речевые сигналы являются нестационарными сигналами сложной формы, параметры и характеристики которых, как правило, быстро меняются в течение времени. Однако в основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени изменяются медленно. Это предположение приводит к методам кратковременного анализа, в которых фрагменты речевого сигнала выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Для того чтобы получить наборы информативных параметров одинаковой длины, нужно сегментировать речевой сигнал на равные фрагменты, считая, что сигнал на таком отрезке примерно стационарен (см. рисунок 1.6). Перекрытие фрагментов используется для предотвращения потери информации о сигнале на границе. Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать набор информативных параметров, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, с целью повышения скорости обработки [47].

Рисунок 1.6 – Сегментация речевого сигнала на фреймы

Сегментация сигнал/пауза представляет собой задачу определения моментов начала и окончания фразы [18, 19, 48, 49]. При наличии шума данная задача является одной из важнейших в области обработки речевых команд, так при голосовом управлении важно точно определить моменты начала и окончания команды.

Определение информационных параметров – задача определения уникальных свойств и характеристик речевых сигналов [18 19, 50, 51]. Основные понятия, характеризующие информативные параметры речи человека, связаны с формой, размерами, динамикой изменения речевого аппарата и описываются эмоциональным состоянием человека.

На основании анализа достижений в области выделения информативных признаков речевых сигналов [52-54] и собственных исследований [5] все информативные параметры можно разделить на три группы объективных признаков, позволяющих распознать речевые сигналы: амплитудно-частотные, спектрально-временные и кепстральные.

Амплитудно-частотные параметры: интенсивность, амплитуда, энергия, ЧОТ и формантные частоты.

Амплитудно-частотные параметры несут необходимую и достаточную для человека информацию о речевом сигнале при минимальном времени восприятия и используются в простейших подсистемах голосового управления.

Вторая группа подразделяется на спектральные и временные параметры.

Спектральные параметры: среднее значение спектра анализируемого речевого сигнала; относительное время пребывания сигнала в полосах спектра; медианное значение спектра речи в полосах; относительная мощность спектра речи в полосах; вариация огибающей спектра речи.

Временные параметры: длительность сегмента минимальной структурной единицы речи (фонемы, аллофона, дифона, трифона); высота сегмента; коэффициент формы сегмента.

Спектрально-временные параметры характеризуют речевой сигнал, в его физико-математической сущности исходя из наличия компонентов трех видов [55-57]: периодических (тональных) участков звуковой волны; непериодических участков звуковой волны (шумовых, взрывных); участков, не содержащих речевых пауз.

Спектрально-временные параметры характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего [14].

Кепстральные параметры: мел-частотные кепстральные коэффициенты и коэффициенты кепстра линейного предсказания.

Большинство современных подсистем голосового управления сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшее разделение звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу [21, 49].

Распознавание (см. рисунок 1.5) речевых команд является конечной задачей обработки в подсистемах голосового управления. Принцип работы достаточно прост и заключается в сравнении поступившей в систему речевой команды с шаблоном из базы данных, полученным в ходе обучения системы. Главная особенность, влияющая на качество распознавания заключается в применяемых методах сравнения. На сегодняшний день существует несколько математических аппаратов сравнения, широко применяемых в подсистемах голосового управления [18, 19].

Изученная информация об особенностях обработки речевых команд в СГУ, несомненно, является важной в диссертационном исследовании, что поможет в дальнейшем объективно провести классификацию и анализ методов обработки речевых команд.

1.3 Классификация и анализ методов обработки речевых команд в подсистемах голосового управления информационно-измерительных и управляющих систем

Конец ХХ и начало XXI вв. ознаменовались началом истории развития речевых технологий, важную роль в которых получили СГУ. Наиболее известными в этой области являются работы следующих авторов: Лобанов Б.М., Винцюк Т.К., Фролов А.В., Рабинер Л.Р., Шафер Р.В., Ли У.А., Клетт Д.Х., Фант Г.К., Xuedong D. Huang, Hsiao-Wuen Hon, Alex Acero и др. [2, 4, 15, 18, 19, 21, 37, 58, 59]. Период этого времени стал знаменательным для решения множества фундаментальных и прикладных задач в области обработки речевых сигналов, достаточно сослаться на далеко неполный перечень трудов зарубежных и российских ученых. Однако это не стало причиной притупления интереса и работа в области обработки речевых сигналов ведется достаточно активно и в настоящее время.

Классификация методов обработки речевых команд в подсистемах голосового управления является одним из важных этапов исследования в работе. На рисунке 1.7 автором представлена классификация методов обработки в подсистемах голосового управления [60].

Рисунок 1.7 – Классификация методов обработки речевых сигналов

Классификация методов выполнена с учетом основных задач обработки в подсистемах голосового управления: фильтрация и подавление шума, сегментация на информативные участки, определение информативных параметров и распознавание.

Каждая задача обработки речевых сигналов может быть реализована только с помощью определенных методов. В зависимости от области обработки, методы следует разделить на три области: частотная, временная и частотно-временная.

Методы обработки во временной области заключаются в определении характерных точек речевого сигнала с последующим использованием их для анализа. С точки зрения технической реализации в качестве характерных точек могут быть выбраны явные максимумы (минимумы) и моменты пересечения нулевой оси времени функцией сигнала. Главный недостаток методов обработки во временной области заключается в неоднозначности выделения характерных точек, вызванной шумами и смещениями нулевого уровня.

Методы обработки в частотной области заключаются в использовании всех отсчетов данных, зарегистрированных в речевом сигнале. Многие речевые сигналы имеют специфический частотный состав и занимают характерные спектральные области. Использование методов в частотной области позволяет обрабатывать речевые сигналы с достаточно высокой точностью. К недостаткам обработки в частотной области относятся низкая адаптивность к локальным свойствам сигналов, недостаточно высокое спектральное разрешение и сравнительно большие вычислительные затраты.

Методы обработки в частотно-временной области представляют собой методы, включающие в себя все преимущества временного и частотного анализов с минимальными проявлениями их недостатков.

Проведенный обзор известных методов обработки речевых сигналов и собственные исследования [61], выявили, что в зависимости от обработки, методы следует разделить на группы, реализованные различными видами анализа: метод преобразования Фурье (ПФ) [37, 62]; метод вейвлет преобразования (ВП) [61, 63, 64, 65]; метод преобразования Гильберта-Хуанга (ПГХ) [66, 67]; метод кепстрального анализа (КА) [21, 68-70]; метод линейного предсказания (ЛП) [71-74]; метод корреляционного анализа (КрА) [75, 76]; метод нейронных сетей (НС) [77, 78]; метод скрытых марковских моделей (СММ) [79, 80]; метод динамического трансформирования времени (ДТВ) [81-83].

Рассмотрим подробнее представленные методы обработки.

Метод преобразования Фурье. ПФ используется во многих областях науки, в том числе и в речевых технологиях. В области обработки речевых сигналов ПФ рассматривается как преобразование сигнала из временной в частотную область и разложение его на частотные составляющие [37]:

(1.7),

(1.8),

где - сигнал в частотной области, - сигнал во временной области, - мнимая единица.

В задачах цифровой обработки часто используют дискретное преобразование Фурье (ДПФ), так как речевой сигнал часто представляют в дискретном виде, как сумму гармонических составляющих:

(1.9),

где - номер гармоники, - частота первой гармоники, - дискретные отсчеты времени, - период частоты дискретизации.

Построение спектра, используя ДПФ, позволяет компактно и наглядно представить информацию о речевом сигнале. Однако в спектральном виде невозможно детально анализировать кратковременные локальные особенности, что является серьезным недостатком ДПФ [62].

Метод вейвлет преобразования. Несмотря на широкую практическую популярность ПФ, в последнее время многие задачи в области обработки речевых сигналов реализуются с использованием ВП [61]. Вейвлетом (материнским вейвлетом) называется некоторая функция, хорошо локализованная (т.е. сосредоточенная в небольшой окрестности некоторой точки и резко убывающая до нуля по мере удаления от нее) как во временной, так и в частотной области. К материнскому вейвлету применяются две операции: сдвиг (перемещение области локализации во времени) и масштабирование (растяжение или сжатие, т.е. перемещение области его локализации по частоте) [63]:

,

(1.10),

где , - параметры сдвига.

Сущность ВП заключается в разбиение сигнала на масштабированные и сдвинутые по оси времени версии материнского вейвлета и вычислении коэффициентов корреляции участков исходного сигнала и версий вейвлета на заданном масштабе. В результате получается набор коэффициентов, показывающих, насколько поведение сигнала в данный момент времени похоже на поведение вейвлета на данном масштабе, т.е. вейвлет коэффициенты отражают близость сигнала к вейвлету данного масштаба. Чем ближе вид анализируемого сигнала в окрестности данного момента времени к виду вейвлета, тем большое абсолютное значение имеет соответствующий коэффициент [64, 65].

Использование сдвига и масштабирования в частотно-временной области, позволяет анализировать речевые сигналы на различных масштабах и точно определять положение их характерных особенностей во времени. Наиболее часто встречающиеся вейвлет функции в задачах обработки речевых сигналов: вейвлет Хаара, вейвлет Добеши, вейвлет «Мексиканская шляпа», вейвлет Марлета (комплексный базис) [61].

Вейвлет преобразование обладает существенными преимуществами по сравнению с преобразованием Фурье. Это следует из возможности анализировать кратковременные локальные особенности сигналов, например, короткие всплески или провалы, разрывы и ступеньки и т.д.

Метод преобразования Гильберта-Хуанга. Известно, что для адаптивного анализа речевых сигналов с помощью ВП необходимо использовать априорную информацию - функцию материнского вейвлета. Вопрос о выборе подходящей функции вейвлета на основе характеристик анализируемого сигнала не всегда является однозначным. Для решения проблемы адаптивности используется новый метод обработки, основанный на ПГХ [64]. Основным преимуществом данного метода является высокая адаптивность, проявляющаяся в том, что базисные функции, используемые при разложении звука, извлекаются непосредственно из самого исходного сигнала и позволяют учитывать только ему свойственные особенности.

ПГХ включает два основных этапа:

1. Разложение сигнала на компоненты - ДЭМ [67]:

,

(1.11),

где - ЭМ (Intrinsic Mode Functions, IMF), - остаток разложения, - номер ЭМ.

2. Формирование по полученным ЭМ спектра Гильберта [66]:

,

(1.12),

где - модуль мгновенного значения амплитуды сигнала каждой ЭМ, - ЭМ сигнала, - сопряженный по Гильберту сигнал ЭМ, - временной сдвиг, пропорциональный фазе сигнала, - циклической частоты каждой ЭМ, - мнимая единица.

Значения и определяются из аналитического сигнала каждой ЭМ.

В результате ПГХ речевой сигнал представляется в частотно-энергетически-временной области, что позволяет выявить скрытые модуляции и области концентрации энергии, которые позволяют анализировать как глобальные, так и локальные свойства сигналов и требуют меньших вычислительных затрат [66, 67].

Метод кепстрального анализа. В области обработки речевых сигналов КА получил широкую популярность, которую можно объяснить достоинством сжатия информации о речевом сигнале при переходе в частотную область обработки [21].

Известно, что при преобразовании сигнала из временной области в частотную, информация оказывается более подробной, наглядной и компактной. Исходя из указанных достоинств спектрального представления информации и родилась идея КА: замена в спектре оси частоты на ось времени, другими словами представить, что спектр является просто сигналом. Таким образом, появится возможность представить исходную спектральную информацию еще более компактно, когда каждый гармонический ряд исходного спектра будет представлен всего одной составляющей в кепстре [68].

На сегодняшний день общепринято считать, что кепстр это есть спектр логарифма спектра исходного сигнала, т.е. первоначальный спектр должен быть представлен в логарифмическом масштабе:

,

(1.13),

где - кепстр, - амплитудный спектр сигнала .

Из формулы (1.15) видно, что имеет смысл спектральной плотности энергии сигнала . Тогда интерпретируется как энергетический спектр функции .

КА в задачах обработки речевых сигналов основан на выделении кепстральных коэффициентов на мел-шкале, называемых МЧКК. Метод получения МЧКК основан на модели функционирования органов слуха человека и использует частотную шкалу в мелах, которая моделирует частотную чувствительность человеческого уха [69, 70].

Метод линейного предсказания. ЛП является одним из самых используемых методов в задачах обработки речевых сигналов [71]. Модель ЛП основывается на предположении, что любой отсчет речевого сигнала можно приближенно оценить линейной комбинацией некоторого числа предшествующих ему отсчетов, что приводит к следующему соотношению:

,

(1.14),

где - коэффициенты предсказания, - нормализованная последовательность возбуждения (ошибка предсказания), - коэффициент усиления [71].

Ошибка предсказания определяется как разность между исходными и приближенно вычисленными (предсказанными) отсчетами:

,

(1.15).

Основная задача линейного предсказания - определение набора коэффициентов предсказания, которые минимизируют .

Существует два основных метода определения коэффициентов ЛП, которые называются автокорреляционным и ковариационным методами решения соответственно [72]. Оба метода используют представление сигнала во временной области. Коэффициенты предсказания определяют частотную характеристику фильтра, характеризующего состояние голосового тракта в определенный момент времени. C одной стороны, данный момент не может быть точно локализован, с другой стороны, точность сильно зависит от стационарности исследуемого сигнала. Другими словами, данные методы вычисления обеспечивают получение некоторой средней оценки анализируемого участка сигнала в частотно-временной области [73, 74].

Метод корреляционного анализа. КрА это определение взаимосвязи двух или нескольких величин статических (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Математической мерой корреляции двух величин служит коэффициент корреляции. КрА статистических данных достаточно популярен в обработке речевых сигналов. Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете и их применение не требует специальной математической подготовки. Применительно к задачам обработки речевых сигналов ключевыми понятиями корреляционного анализа становятся автокорреляционная и взаимно-корреляционная функции [75, 76].

Автокорреляционная функция определяет статистическую взаимосвязь между величинами из одного речевого сигнала, разложенного в ряд, но взятых со сдвигом:

,

(1.16),

где - речевой сигнал, - сдвиг во времени.

Взаимнокорреляционная функция определяет степень корреляции двух последовательностей значений речевых сигналов, разложенных в ряды, также взятых со сдвигом:

,

(1.17),

где , - речевые сигналы.

Метод нейронных сетей. Одним из наиболее эффективных методов распознавания речевых сигналов является метод с использованием НС, структурно состоящие из нейронов и организованными между ними связями [77]. Нейрон представляет собой ячейку НС, который по аналогии с нервными клетками головного мозга, может быть в двух состояниях: возбуждения или заторможенности. Нейроны обладают различными связями между собой: синапсы - однонаправленные входные связи, аксоны - выходные связи нейрона, по которым сигналы (возбуждения или торможения) поступают на синапсы последующих нейронов. На рисунке 1.8 представлен общий вид нейрона. Каждая однонаправленная связь характеризуется весом (величиной синаптической связи), который по физическому смыслу эквивалентен электрической проводимости. Положительные и отрицательные значения соответствуют возбужденному или заторможенному состоянию синапсов.

Рисунок 1.8 – Общий вид нейрона

Сумма всех входов определяет текущее состояние нейрона [78]:

,

(1.18).

Выход нейрона есть функция его состояния:

.

(1.19).

При использовании НС в задаче распознавания речевых сигналах необходимо построить соответствующую определенную для этой задачи сеть. Далее обучить ее множеством речевых сигналов - подобрать весовые коэффициенты синапсов для достижения минимизации количества ошибок.

Метод скрытых марковских моделей. Одним из наиболее эффективных методов обработки (распознавания) речевых сигналов является метод с использованием СММ. СММ - статистическая модель, имитирующая процес, аналогичный марковскому процессу с неизвестными параметрами. Главной задачей при использовании СММ является определение (разгадывание) неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов.

Применение СММ в распознавании основывается на следующих предположениях [79]:

 речевой сигнал может быть сегментирован на фрагменты (состояния), внутри которых сигнал может рассматриваться как стационарный. Переход между этими состояниями осуществляется мгновенно;

 вероятность появления символа, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих порожденных символов.

Существует несколько типов СММ, различающихся по своей топологии. Подробно топологии СММ рассмотрены в [80].

Для примера на рисунке 1.9 представлена топология подобной СММ с тремя состояниями. СММ представляет собой конечный автомат, изменяющий свое состояние в каждый дискретный момент времени . Переход из состояния в состояние осуществляется случайным образом с вероятностью . В каждый дискретный момент времени модель порождает вектор наблюдений с вероятностью .

Рисунок 1.9 – Топология СММ с тремя состояниями.

Метод динамического трансформирования времени. Известно, что речевой сигнал быстро изменяется во времени. Различные произношения одного и того же слова обычно имеют разную длительность, а произношения одного и того же слова одинаковой длительности отличаются в середине из-за различных частей слова, произносимых с разной скоростью. Чтобы получить оценку расхождения между двумя речевыми сигналами, представленными как векторы, должно быть выполнено выравнивание по времени, которое можно реализовать с помощью ДТВ [81, 82].

ДТВ является методом эластичного сравнения вектора наблюдений с хранящимся шаблоном. Вектор наблюдений и шаблон лежат на соответствующих осях сетки (см. рисунок 1.10). Для каждой ячейки сетки высчитывается разность между соответствующими фрагментами вектора наблюдений и шаблона. Оптимальное выравнивание между вектором наблюдений и шаблоном показано маршрутом, проходящим по сетке.

Рисунок 1.10 – Иллюстрация метода динамического программирования

Метод ДТВ работает с фрагментами, т.е. анализ признаков состоит из обработки вектора признаков в регулярных интервалах. Так как вектор признаков может иметь множество фрагментов, то требуются средства расчета локальной оценки расстояния. Оценка расстояния между двумя векторами признаков рассчитывается с помощью Евклидового расстояния [60, 83]:

(1.19),

где - сравниваемые фрагменты, - номер фрагмента.

Хотя вычисление Евклидового расстояния в вычислительном отношении невыгодно по сравнению с любой другой операцией, но его применение обеспечивает наилучшие результаты распознавания.

На рисунке 1.10 шаблон показан вертикально, а наблюдаемый сигнал - горизонтально. Входящий сигнал «SsPEEhH» - это зашумленная версия шаблона «SPEECH». Идея метода заключается в том, что «h» - это ближайшее совпадение с «H» по сравнению с чем-нибудь еще в шаблоне. Входящий сигнал «SsPEEhH» сравнивается со всеми шаблонами, хранящимися в шаблоне. Результатом сравнения будет шаблон, для которого было найдено минимальное расхождение между входящим сигналом и шаблоном. Глобальная оценка расхождения для маршрута - это просто сумма локальных расстояний между фрагментами сигнала и шаблона.

Данная классификация не претендует на полноту. Она демонстрирует многообразие, их достоинства и недостатки видов анализа для решения широкого круга задач обработки речевых сигналов.

1.4 Постановка задач исследования

Из проведенного аналитического обзора следует, что традиционные методы обработки, как правило, предназначены для линейных и стационарных сигналов. Применение этих методов для задач обработки речевых команд в подсистемах голосового управления является неэффективным. Только в последние десятилетия начали активно разрабатываться алгоритмы и узлы с применением методов обработки нелинейных и нестационарных сигналов, каковыми и являются речевые сигналы.

Актуальность проведения дополнительных исследований подтверждается более чем ста зарубежными публикациями посвященными проблемам обработки речевых сигналов в ведущих зарубежных журналах (SpeechTEK, Speech technology, International Journal of Speech Technology, Phonetics and Speech Technologies, Speech Technologies applications, Speech technologies and people with special needs и др.). И это только за последние 3 года.

Таким образом, совершенствование и разработка новых алгоритмов и узлов обработки речевых команд является одной из наиболее важных и актуальных задач при построении современных подсистем голосового управления ИИУС. Решение этой задачи включает в себя следующие этапы:

1. Сравнительный анализ методов адаптивной обработки нелинейных и нестационарных речевых сигналов, основанных на ДЭМ, разработка верифицированной базы данных речевых сигналов.

2. Разработка алгоритма и узла фильтрации нестационарных фоновых шумов на основе анализа шумовых и энергетических характеристик ЭМ с использованием метода КМДЭМ.

3. Разработка алгоритма и узла сегментации сигнал/пауза, на основе анализа логарифма энергетических характеристик ЭМ с использованием метода КМДЭМ.

4. Разработка алгоритма и узла измерения ЧОТ, на основе анализа логарифма энергетических характеристик и частотно-временного анализа ЭМ с использованием метода КМДЭМ.

5. Разработка алгоритма и узла определения и распознавания МЧКК, на основе анализа информационных и кепстральных характеристик ЭМ с использованием метода КМДЭМ.

6. Реализация, исследование и внедрение разработанных алгоритмов и узлов в виде подсистемы голосового управления ИИУС.