Pаспознавание речи и мгновенный перевод. Обзор технологий распознавания голоса и способы его применения

Хотя термин «распознавания речи» встречается в литературе очень часто, на самом деле он имеет много различных значений. В этой главе мы попытаемся рассказать о различных трактовках этого термина, а также сделаем небольшой обзор технологий распознавания речи, сведения о которых доступны широкой публике.

Как правило, в существующих системах используются два принципиально разных подхода:

· распознавание лексических элементов

Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

Второй подход сложнее. При его реализации из потока речи выделяются отдельные лексические элементы - фонемы и аллофоны, которые затем объединяются в слоги и морфемы. Строго говоря, именно этот подход и используется в «настоящих» системах распознавания речи.

Все системы распознавания речи можно разделить на два класса:

· системы, зависимые от диктора;

· системы, не зависимые от диктора

К первому классу относятся системы, работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Системы второго класса настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

Сразу отметим, что создание систем распознавания речи любого класса, пригодных для промышленного применения, представляет собой чрезвычайно сложную задачу. Как правило, разработчики таких систем обладают многолетним опытом в практическом применении речевых технологий.

Если у Вас есть современный мобильный телефон, то, скорее всего, одна из систем распознавания речи уже лежит в Вашем кармане. Такая система предназначена для ускоренного выбора абонентов из записной книжки мобильного телефона с помощью голоса.

Как это работает?

При добавлении нового контакта в записную книжку Вам предоставляется возможность ввести голосовую метку, идентифицирующую этот контакт, например, произнести в телефон имя или фамилию абонента. Возможно, придется сделать это два или три раза.

Теперь, чтобы позвонить абоненту, достаточно нажать одну из кнопок, расположенных на корпусе мобильного телефона, и произнести голосовую метку. Номер абонента будет выбран из записной книжки, после чего мобильный телефон попытается установить с абонентом связь.

Помимо мобильного телефона, существуют и другие устройства с подобным голосовым управлением, например, компьютерные клавиатуры. Такие клавиатуры оборудуются встроенным микрофоном и позволяют назначить голосовые метки определенным клавишам, комбинациям клавиш или последовательностям клавиш. Разработчики клавиатур с голосовым интерфейсом утверждают, что с его помощью можно ускорить ввод информации, однако качество распознавания голосовых меток зависит, например, от общего уровня шума в комнате.

Технология распознавания фрагментов по заранее записанным образцам применяется и во многих программах, позволяющих подключить голосовое управление к операционной системе Microsoft Windows и ее приложениям. При использовании этих программ Вы сможете запускать приложения, переключаться между ними, выбирать строки из меню и щелкать кнопки диалоговых окон, отдавая голосовые команды и не притрагиваясь руками к клавиатуре или мыши. Возможно, такие программы и не намного ускорят работу с приложениями для обычных людей, но они отчасти помогут инвалидам, неспособным использовать стандартные средства общения с компьютером.

Эта технология работает достаточно хорошо, если телефоном пользуется только один человек, а общее количество голосовых меток не превышает десяток-другой. Если Вы «обучите» свой телефон (или клавиатуру с голосовым интерфейсом) реагировать на Ваш голос, то только Вы и сможете пользоваться речевыми метками. Таким образом, эти системы относятся к классу систем, зависимых от диктора. Впрочем, этот недостаток есть и у многих более совершенных систем распознавания речи, основанных на выделении из речи лексических элементов.

Как Вы можете убедиться, проводя осциллографические исследования (описанные нами в 3 главе), невозможно выделить из речи фонемы и аллофоны, анализируя только форму огибающей звукового сигнала. Как отмечено в , нельзя ограничиться составлением базы данных из записей звуковых сигналов всех фонем, аллофонов и других лексических элементов для последующего сравнения формы сигналов в процессе распознавания. Здесь нужны более сложные методы.

Перед тем как предпринимать попытки распознавания речи, нужно выполнить предварительную обработку речевого сигнала. В ходе этой обработки следует удалить шумы и посторонние сигналы, частотный спектр которых находится вне спектра человеческой речи. Такую обработку можно выполнить при помощи аналоговых или цифровых полосовых фильтров, рассмотренных нами во 2 главе этой книги.

Отфильтрованный звуковой сигнал нужно оцифровать, выполнив аналого-цифровое преобразование. Этот этап обработки мы тоже уже обсуждали ранее.

Всю предварительную обработку звукового сигнала можно сделать при помощи стандартного звукового адаптера, установленного в компьютере. Дополнительная цифровая обработка звукового сигнала (например, частотная фильтрация) может выполняться центральным процессором компьютера. Таким образом, при использовании современных персональных компьютеров системы распознавания речи не требуют для своей работы какого-либо специального аппаратного обеспечения.

Важным этапом предварительной обработки входного сигнала является нормализация уровня сигнала. Это позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости.

Заметим, однако, что если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум. Поэтому для успешной работы системы распознавания речи необходимо отрегулировать оптимальным образом чувствительность микрофона. Чрезмерная чувствительность может привести к нелинейным искажениям сигнала и, как следствие, к увеличению погрешности распознавания речи.

Как мы уже говорили, информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах, что затрудняет задачу распознавания.

Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных и динамических характеристик речевого сигнала.

В для выделения информативных признаков речевого сигнала используется спектральное представление речи. При этом на первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров (выполняя так называемое дискретное преобразование Фурье ).

На втором этапе выполняются преобразования полученного спектра речевого сигнала:

· логарифмическое изменение масштаба в пространстве амплитуд и частот;

· сглаживание спектра с целью выделения его огибающей;

· кепстральный анализ (cepstral analysis), т.е. обратное преобразование Фурье от логарифма прямого преобразования .

Как отмечено в , перечисленные выше преобразования позволяют учитывать такие особенности речевого сигнала, как понижение информативности высокочастотных участков спектра, логарифмическую чувствительность человеческого уха, и т.д.

Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи. Для этого используют дельта-параметры , представляющие собой производные по времени от основных параметров.

При этом мы можем отслеживать не только изменение параметров речи, но и скорость их изменения.

В первой главе нашей книги мы рассказывали о таких лексических элементах речи, как фонемы и аллофоны. Для их выделения в применяются нейронные сети и метод формирования нейронных ансамблей.

При этом обучение выделению примитивов речи (фонем и аллофонов) может заключаться в формировании нейронных ансамблей, ядра которых соответствуют наиболее частой форме каждого примитива .

Формирование нейронных ансамблей представляет собой процесс обучения нейронной сети без учителя, при котором происходит статистическая обработка всех сигналов, поступающих на вход нейронной сети. При этом формируются ансамбли, соответствующие наиболее часто встречающимся сигналам. Запоминание редких сигналов происходит позже и требует подключения механизма внимания или иного контроля высшего уровня.

Распознавание слитной речи представляет собой многоуровневый процесс. После предварительной обработки речевого сигнала и выделения из него информативных признаков выполняется выделение лексических элементов речи. Это первый уровень распознавания.

На втором уровне выделяются слоги и морфемы, на третьем - слова, предложения и сообщения (рис. 5-1).

Как отмечается в , на каждом уровне сигнал кодируется представителями предыдущих уровней. То есть слоги и морфемы составляются из фонем и аллофонов, слова - из слогов и морфем, предложения и сообщения - из слов.

Рис. 5-1. Три уровня распознавания слитной речи

При переходе с уровня на уровень помимо представителей сигналов передаются и некоторые дополнительные признаки, временные зависимости и отношения между сигналами. Собирая сигналы с предыдущих уровней, высшие уровни располагают большим объемом информации (или её другим представлением), и могут осуществлять управление процессами на низших уровнях, например, с привлечением механизма внимания .

Механизм внимания используется при обучении нейронной сети. В случае использования такого механизма при появлении образца, неизвестного нейронной сети, скорость обучения многократно возрастает. При этом редко встречающийся образец запоминается в нейронной сети.

Рассказывая в 4 главе нашей книги о нейронных сетях, мы упоминали такое свойство этих сетей, как способность к обучению и классификации объектов по их числовым параметрам.

При обучении сети с учителем можно научить сеть распознавать объекты, принадлежащие заранее определенному набору классов. Если же сеть обучается без учителя, то она может группировать объекты по классам в соответствии с их цифровыми параметрами.

Таким образом, на базе нейронных сетей можно создавать обучаемые и самообучающиеся системы. В формулируются следующие требования к самообучающимся системам. Ниже мы приводим эти требования, взятые из практически без изменений.

· Разработка системы заключается только в построении архитектуры системы

В процессе создания системы разработчик создает только функциональную часть, но не наполняет (или наполняет в минимальных объемах) систему информацией. Основную часть информации система получает в процессе обучения.

· Возможность контроля своих действий с последующей коррекцией

Этот принцип говорит о необходимости обратной связи Действие-Результат-Коррекция в системе. Такие цепочки очень широко распространены в сложных биологических организмах и используются на всех уровнях - от контроля мышечных сокращений на самом низком уровне до управления сложными механизмами поведения.

· Возможность накопления знаний об объектах рабочей области

Знание об объекте - это способность манипулировать его образом в памяти.

Количество знаний об объекте определяется не только набором его свойств, но ещё и информацией о его взаимодействии с другими объектами, поведении при различных воздействиях, нахождении в разных состояниях, и т.д., т.е. его поведении во внешнем окружении.

Например, знание о геометрическом объекте предполагает возможность предсказать вид его перспективной проекции при любом повороте и освещении. Это свойство наделяет систему возможностью абстрагирования от реальных объектов, т.е. возможностью анализировать объект при его отсутствии, открывая тем самым новые возможности в обучении.

· Автономность системы

При интеграции комплекса действий, которые система способна совершать, с комплексом датчиков, позволяющих контролировать свои действия и внешнюю среду, наделенная вышеприведенными свойствами система будет способна взаимодействовать с внешним миром на довольно сложном уровне.

При этом она будет адекватно реагировать на изменение внешнего окружения (естественно, если это будет заложено в систему на этапе обучения). Способность корректировать свое поведение в зависимости от внешних условий позволит частично или полностью устранить необходимость контроля извне, т.е. система станет автономной.

Возможность создания на базе искусственных нейронных сетей самообучающихся систем является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи (фонем и аллофонов) сводится к их классификации при помощи обучаемой нейронной сети.

Нейронные сети можно использовать и более высоких уровнях распознавания слитной речи для выделения слогов, морфем и слов.

В отмечается, что в качестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

По сравнению с классическим программированием, когда алгоритм решения той или иной задачи задан жестко, нейронные сети позволяют динамически изменять алгоритм простым изменением архитектуры сети.

Возможность изменения алгоритма работы нейронной сети простым изменением ее архитектуры позволяют решать задачи совершенно новым способом, с помощью так называемых генетических алгоритмов .

При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети.

Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Генетические алгоритмы обязаны своим появлением эволюционной теории (отсюда и характерные термины: популяция, гены, родители-потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейронных сетей, которые ранее не изучались исследователями (или не поддаются аналитическому изучению), но, тем не менее, успешно решают задачу .

На рис. 5-3, который мы воспроизвели из , изображен процесс ввода звука в системе SAS .

Рис. 5-3. Процесс ввода звука в системе SAS

Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV в кодировке PCM (разрядность 16 бит, частота дискретизации 22050 Гц). Работа с файлами была предусмотрена, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.

Согласно рис. 5-3, звуковые сигналы, полученные в реальном времени или введенные из файлов формата WAV , подвергаются в системе SAS предварительной обработке.

При обработке файла по нему перемещается окно ввода, размер которого равен N элементов- размеру окна дискретного преобразования Фурье (ДПФ). Смещение окна относительно предыдущего положения можно регулировать. В каждом положении окна оно заполняется 16-разрядными данными (система работает только с такими звуковыми данными, в которых каждый отсчет кодируется 16 битами).

После ввода данных в окно перед вычислением ДПФ на него накладывается окно сглаживания Хэмминга:

Здесь Data - исходный массив данных, newData - массив данных, полученный после наложения окна сглаживания, N - размер ДПФ.

Наложение окна Хэмминга немного понижает контрастность спектра, но позволяет убрать боковые лепестки резких частот, при этом особенно хорошо проявляется гармонический состав речи . Сказанное иллюстрирует рис. 5-4.

Рис. 5-4. Действие окна сглаживания Хэмминга (логарифмический масштаб)

Если Вам непонятна формула (1), приведенная для иллюстрации, или Вы вообще не интересуетесь проблемой распознавания речи на уровне формул, можете пропустить формулу и все математические выкладки из нашей книги. В то время как создание систем распознавания речи требует от разработчика очень большой математической подготовки, выбор и использование таких систем доступно и людям, не имеющим высшего математического образования.

Результат сглаживания Хэмминга подвергается в системе SAS дискретному преобразованию Фурье по алгоритму быстрого преобразования Фурье . В результате этого преобразования получается амплитудный спектр и информация о фазе сигнала (в реальных и мнимых коэффициентах).

Информация о фазе сигнала отбрасывается и вычисляется энергетический спектр:

(2)

Здесь E[i] энергии частот.

Так как звуковые данные не содержат мнимой части, то по свойству ДПФ результат получается симметричным, т.е. E[i] = E. Таким образом, размер информативной части спектра NS равен N/2.

Из предыдущей главы Вы знаете, что все вычисления в нейронных сетях производятся над числами с плавающей точкой. Поэтому значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном .

Для выполнения обработки спектра нейронной сетью в системе SAS полученный спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его длину:

Исследования показали, что информативность различных частей спектра неодинакова: в низкочастотной области спектра содержится больше информации, чем в высокочастотной области спектра.

Поэтому для более экономного использования входов нейронной сети и увеличения необходимо уменьшить число элементов, получающих информацию из высокочастотной области спектра. Это и означает сжатие высокочастотной области спектра в пространстве частот.

В системе SAS применен наиболее распространенный и простой метод - логарифмическое сжатие, или mel -сжатие. Этот метод описан в разделе «Non -linear frequency scales » документа .

Вот формула, по которой выполняется логарифмическое сжатие спектра:

Здесь f -частота в спектре, Гц, m - частота в новом сжатом частотном пространстве.

Рис. 5-5 иллюстрирует процесс логарифмического сжатия частотного спектра.

Рис. 5-5. Нелинейное преобразование спектра в пространстве частот

В только что описанной системе SAS для выделения из речи синтаксических элементов применялось быстрое преобразование Фурье.

Однако, как отмечают исследователи, анализ Фурье обладает целым рядом недостатков, в результате которых происходит потеря информации о временных характеристиках обрабатываемых сигналов. Этот анализ подразумевает использование искусственных приемов, с помощью которых осуществляется частотно-временная локализация, например, окон данных (на рис. 5-3 это окно обозначено как Окно ввода ).

В современных технологиях обработки и распознавания сигналов применяются так называемые вейвлет-преобразования и вейвлет-анализ.

Термин вейвлет (wavelets ) можно перевести как «маленькая волна». Вейвлеты представляют собой новый инструмент решения различных задач прикладной математики. Вейвлет-анализ, детальное знакомство с которым требует определенных познаний в математике, лишен недостатков анализа Фурье. Он позволяет достичь неплохих результатов при использовании в системах распознавания речи.

В чем отличие анализа Фурье от вейвлет-анализа?

Фурье-анализ предполагает разложение исходной периодической функции в ряд, в результате чего исходная функция может быть представлена в виде суперпозиции синусоидальных волн различной частоты. Такая суперпозиция и есть спектр сигнала, о котором мы говорили в 3 главе нашей книги.

Что же касается вейвлет-анализа, то здесь входной сигнал раскладывается в базис функций, характеризующих как частоту, так и время. Поэтому с помощью вейвлетов можно анализировать свойства сигнала одновременно и в физическом пространстве (время, координата), и в частотном пространстве. Чтобы подчеркнуть такое обстоятельство, в зарубежной литературе Фурье-анализ называют single spectrum , а спектры, полученные на основе вейвлет-преобразований - itime-scale spectrum , или wavelet spectrum .

Функции-базисы для вейвлетных преобразований конструируются на основе производных функций Гаусса. Подробнее об этом Вы сможете прочитать в .

На рис. 5-6, взятом из , показаны наиболее часто используемые вейвлеты.

Рис. 5-6. Часто используемые вейвлеты

Эти функции имеют свои названия. Мы привели их в табл. 5-1.

Таблица 5-1. Часто используемые вейвлеты

Обозначение на рис. 5-6

Название

WAWE -вейвлет

MHAT -вейвлет. Получил свое название от «мексиканская шляпа, сомбреро» (Mexican Hat )

Morlet

Paul

Daubeshies

При использовании вейвлет-преобразований для распознавания речи разработчик должен выбрать нужную функцию. От правильного выбора зависит успешность распознавания.

В этой главе мы попытались собрать неполную и разрозненную информацию относительно существующих методов распознавания речи.

Прежде всего, мы выделили два подхода к распознаванию речи. Первый подход реализует распознавание элементов речи по образцу и применяется в различного рода системах голосового управления. Второй подход основан на выделении в речи лексических элементов - фонем, аллофонов, морфем и т.д. Этот подход пригоден для создания систем диктовки текста, рассмотренных нами в следующей главе.

Мы также выделили системы распознавания речи, требующие обучения и зависящие от диктора, а также системы, способные работать без предварительного обучения и, следовательно, не зависимые от диктора.

Перед тем как приступить к выделению из речи лексических элементов, необходимо выполнить предварительную обработку речевого сигнала. В ходе этой обработки из сигнала удаляются шумы, выполняется частотная фильтрация и оцифровка, а также нормализация уровня сигнала.

В этой главе мы рассмотрели две методики выделения из речи лексических элементов.

Первая методика предполагает использование дискретного преобразования Фурье и описана в . Непосредственно лексические элементы выделяются из оцифрованной речи при помощи нейронной сети, способной к обучению. При этом речь представляется в виде некоторого набора числовых параметров, так как нейронные сети работают именно с наборами таких параметров.

Для тех, кто любит формулы, мы привели несколько выражений, использованных в для предварительной обработки сигнала, повышающей контрастность спектра, а также для выполнения дискретного преобразования Фурье и нормирования частотного спектра. В библиографии Вы найдете более обширные труды, отражающие математические аспекты проблемы распознавания речи.

Вторая методика выделения лексических элементов речи, упомянутая в этой главе, основана на применении вейвлет-преобразований. В отличие от дискретного преобразования Фурье, этот метод исключает потерю информации о временных характеристиках обрабатываемых сигналов. Мы отметили, что при использовании вейвлет-преобразований входной сигнал раскладывается не в базисе периодических функций (как в дискретном преобразовании Фурье), а в базисе функций, характеризующих как частоту, так и время.

Техника распознавания речи находится в постоянном развитии. Чтобы всегда быть в курсе событий, следите за публикациями в Интернете и периодической печати. Не исключено, что скоро будут разработаны новые, более совершенные методы распознавания речи.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день можно выделить пять основных направлений использования систем распознавания речи:

Голосовое управление - способ взаимодействия и управления работой устройства при помощи голосовых команд. Системы голосового управления малоэффективны для ввода текста, зато удобны для ввода команл, таких как:

Виды систем

На сегодняшний день существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей , сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

Виды систем

На сегодня существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice , Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Применение

Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню . Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

  • Голосовой набор в различной технике (мобильники , компьютеры , и пр.)
  • Голосовой ввод текстовых сообщений в смартфонах и прочих мобильных компьютерах

См. также

  • Цифровая обработка сигналов

Примечания

Ссылки

Категории:

  • Распознавание речи
  • Речевая коммуникация
  • Применение искусственного интеллекта
  • Средства реабилитации для людей с нарушением опорно-двигательного аппарата
  • Средства реабилитации для людей с нарушением зрения

Wikimedia Foundation . 2010 .

Смотреть что такое "Распознавание речи" в других словарях:

    Процесс преобразования речи в текст. Системы распознавания речи характеризуются: объемом словаря понимаемых слов; допустимой беглостью речи; степенью зависимости от настойки на речь конкретного лица. По английски: Speech recognition См. также:… … Финансовый словарь

    распознавание речи - — Тематики электросвязь, основные понятия EN speech recognition …

    распознавание речи - kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. speech perception; speech recognition; voice recognition vok. Spracherkennung, f rus. распознавание речи, n pranc. reconnaissance de parole, f; reconnaissance vocale, f … Automatikos terminų žodynas

    распознавание речи, зависящее от особенностей голоса - Процедура распознавания, основанная на учете особенностей голоса говорящего. Распознаваемый речевой сигнал обычно разделяется на короткие фрагменты, каждый из которых сравнивается с образцами речи, хранимыми в памяти. Выбирается тот, с которым… … Справочник технического переводчика

    распознавание речи, не зависящее от особенностей голоса - Метод преобразования речи в осмысленную текстовую информацию без настройки на тембр голоса конкретного абонента. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва,… … Справочник технического переводчика

    автоматическое распознавание речи - Процесс или технология, которые воспринимают сигнал обычной речи в качестве входного сигнала и выдают в качестве выходного сигнала кодированную версию сказанного (слово, команда, выражение, предложение и т. д.) (МСЭ Т Y.2271, МСЭ Т P.10/ G.100).… … Справочник технического переводчика

    Образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

    Автоматическое распознавание лиц специальной программой. Теория распознавания образов раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов,… … Википедия

Книги

  • Распознавание и понимание смысла речи в шумах на основе стохастики , В. В. Насыпный. Стохастика - это стохастическая информационная технология, разработанная в России. Она позволяет создавать эффективные интеллектуальные системы, работающие в реальном времени и исключающие…

РЕЧЕВЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

Иностранные бухгалтерские системы на российском рынке

Среди финансово-экономического программного обеспечения на российском рынке особое место занимают западные системы. Они демонстрируют комплексный подход к управлению финансами и бизнесом. Наиболее широко зарекомендовали себя программные комплексы для крупного бизнеса: «Scala», «Sun System», «Platinum», «SAP», «Avalon», «Triton». Например, программный комплекс «Scala» используется для автоматизации учета в транснациональных корпорациях. «Sun System» -для ведения консолидированного учета зарубежных филиалов. «Platinum» позволяет выполнить разноску нескольких тысяч операций в минуту и может одновременно поддерживать работу до 200 пользователей.

Западные программные продукты относятся к классу комплексных бухгалтерских систем, в которых учет ведется в режиме реального времени. Они построены по модульному принципу. Основными модулями такой системы являются:

1. Главная книга и расширенный генератор отчетов (Premier Leoger and Frx).

2. Банковская книга (Bank Book).

3. Заказчики (Customers).

4. Поставщики (Suppliers).

5. Оформление заказов (Order Entry).

6. Расчеты с заказчиками (Accounts Receivable).

7. Склад (Inventory).

8. Расчеты с поставщиками (Purchase Order).

Настройка системы осуществляется путем задания связи каждого модуля с другими, начиная с Главной книги. Такой принцип построения делает систему гибкой, позволяет расширять ее возможности без существенной переработки путем добавления других модулей, например: по учету основных средств, по учету расчетов, по заработной плате, по учету затрат на производство и др.

Основной причиной распространения западных программ на российском рынке явилась возможность ведения бухгалтерского учета в международных стандартах. Российские пакеты изначально создавались для российского рынка и не были предназначены для расширения своих функций до ведения западного варианта учета. Западные пакеты с момента выхода их поставщиков на российский рынок в начале 90-х годов сумели успешно перестроиться для удовлетворения требований российского учета. В своем большинстве они способны поддерживать два варианта учета - западный и российский, однако очень громоздки и сложны для изучения, а также очень дорогостоящие. Российские производители подобных систем мало известны широкой общественности. Наиболее известными сейчас являются отечественные комплексы «Галактика» (фирма «Галактика»)

Первые попытки создать компьютеры, способные распознавать речь и говорить, были предприняты в конце 60-х годов. Но только в 1979 г. к разработчикам данной идеи пришел первый и весьма скромный успех: фирмой Texas Instruments была выпущена микросхема для говорящих детских игрушек. К 2003 г. в составе информационных технологий сложилось мощное речевое направление, в котором обобщенно можно выделить две группы программных продуктов:



1. Распознавание речи.

2. Синтез речи.

Продукты распознавания речи классифицируются по трем группам:

· средства речевого управления;

· средства диктовки;

· средства идентификации по образу речи.

Средства речевого управления первыми появились на рынке. Их основная идея состоит в распознавании компьютером человеческих слов и выполнении определенных действий. На ранних стадиях развития речевого управления компьютеры научились распознавать слова, обозначающие цифры. Научные исследования в этом направлении продолжались, сегодня компьютеры способны распознавать числа на 20 языках при условии, что пользователь называет цифры последовательно. Автоматические справочные системы на базе технологии распознавания цифр применяются телефонными компаниями Европы и Северной Америки.

Распознавание имен развито пока не в такой степени. Компания Nortel применяет технологию Open Speech для собственных нужд на базе внутренней АТС: пользователь снимает трубку, набирает определенную цифру и произносит нужное имя, а компьютер, повторив имя и получив подтверждение, соединяет пользователя с абонентом. Система Open Speech имеет недостатки: медлительность, трудности поиска абонента при произнесении имени в уменьшительном виде и т. д.

Более сложная система распознавания, основанная на преобразовании речи в последовательность цифровых данных, разработана фирмой Nuance Communications. Цифровые данные используются для извлечения информации из базы данных, а механизм синтеза речи генерирует речевой ответ. Такую систему применяет американская компания Charles Schwab & Co., специализирующаяся на брокерских услугах участникам фондового рынка. По некоторым данным система ежедневно принимает 50 тыс. звонков и обеспечивает 95% точности при обработке 10 тыс. названий. Фирма Philips работает над системой распознавания речи третьего поколения. Система первого поколения была основана на распознавании цифр и предусматривала четкую структуру запроса: пароль, идентификатор, число, обозначающее сущность обращения. В такой системе информация вводилась в речевой форме или с помощью кнопок телефона с тональным набором. Продукты второго поколения базировались на определении ключевых слов. Система третьего поколения - Natural Dialogue System - основана на идее постепенного обучения на большом количестве диалогов, в ходе которых создаются рабочий словарь и база данных отношений между словами. Система данного типа используется швейцарской железнодорожной компанией Swiss Railways и охватывает 3,5 тыс. пунктов. В системе компьютер обрабатывает типичные обращения клиента и связывает пункт отправления с пунктом назначения. Германская авиакомпания Lufthansa, также применяющая данную систему, предлагает возможным клиентам автоматическое расписание своих рейсов, а радиостанция Radio Luxemburg - прогноз погоды по туристическим маршрутам мира.

Белоусова О. С., Панова Л.

Омский Государственный Технический Университет

РАСПОЗНАВАНИЕ РЕЧИ

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

Выделяют несколько основных способов распознавания речи:

1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

б) Нейронные ансамбли. Вкачестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Общий алгоритм распознавания связной речи

Исходный сигнал

Начальная фильтрация и усиление полезного сигнала

Выделение отдельных слов

Распознавание слова

Распознавание речи

Реакция на распознанный сигнал

Всё многообразие систем распознавания речи условно можно разделить на несколько групп.

1. Программные ядра для аппаратных реализаций. TTS engine – синтез речи по тексту, и ASR engine – для распознавания речи.

2. Наборы библиотек для разработки приложений. Существует два стандарта для интеграции речевых технологий: VoiceXML – для разработки интерактивных голосовых приложений управления медиаресурсами, и SALT – поддерживает многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации.

3. Независимые пользовательские приложения. Dragon NaturallySpeaking Preferred – распознает слитную речь; безошибочность распознавания – 95%. «Диктограф» – с функцией ввода текста в любой редактор, точностью распознавания – 30-50%.

4. Специализированные приложения. Компания «Центр Речевых Технологий» разрабатывает и производит программы для МВД, ФСБ, МЧС: «ИКАР Лаб», «Трал», «Территория». Германский институт DFKI разработал – Verbmobil, программу способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон. Точность – 90%.

5. Устройства, выполняющие распознавание на аппаратном уровне. Компания Sensory Inc разработала интегральную схему Voice Direct™ 364 – осуществляет дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Корпорация Primestar Technology Corporation разработала чип VP-2025 – осуществляет распознавание с помощью нейросетевого метода.

Методы распознавания речи.

1. Метод скрытых марковских моделей. Базируется на следующих предположениях: речь может быть разбита на сегменты, внутри которых речевой сигнал может рассматриваться как стационарный, переход между этими состояниями осуществляется мгновенно; вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих.

2. Метод скользящего окна. Суть: определение вхождения ключевого слова с помощью алгоритма Витерби. Так как ключевое слово может начинаться и заканчиваться в любом месте сигнала, то этот метод перебирает все возможные пары начала и конца вхождения ключевого слова и находит самый вероятный путь для ключевого слова и этого отрезка, как если бы ключевое слово присутствовало в нем. Для каждого найденного вероятного пути ключевого слова применяется функция правдоподобия, основанная на срабатывании, если значение пути, рассчитанное в соответствии с применяемым методом оценки пути, больше предопределенного значения. Недостатки: большая вычислительная сложность; команды могут включать слова, которые плохо распознаются с помощью алгоритма распознавания ключевого слова.

3. Метод моделей заполнителей. Для алгоритмов распознавания ключевого слова слово для распознавания представляется встроенным в инородную речь. На этом основании методы моделей заполнителей обрабатывают эту инородную речь с помощью явного моделирования инородной речи за счет второстепенных моделей. Для этого в словарь системы распознавания добавляются «обобщенные» слова. Роль этих слов в том, чтобы любой сегмент сигнала незнакомого слова или неречевого акустического события был распознан системой как одно слово или цепочка из обобщенных слов. Для каждого обобщенного слова создается и обучается акустическая модель на корпусе данных с соответствующими размеченными сегментами сигнала. На выходе из декодера выдается цепочка, состоящая из слов словаря (ключевых слов) и обобщенных слов. Обобщенные слова затем отбрасываются, и оставшаяся часть цепочки считается результатом распознавания. Недостатки: ключевые слова могут быть распознаны как обобщенные; сложность оптимального выбора алфавита обобщенных слов.

Библиографический список

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

2. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова Думка, 1987.

3. Винцюк Т.К. Сравнение ИКДП- и НММ - методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

4. http://www.mstechnology.ru

5. http://www.comptek.ru