Автоматический синтез речи


Общая оценка современного состояния автоматического распознавания речи



Скачать 184.5 Kb.
страница2/2
Дата15.05.2016
Размер184.5 Kb.
#13263
1   2

Общая оценка современного состояния автоматического распознавания речи


Несмотря на значительные успехи, достигнутые в последнее десятилетие, исследователям, которые занимаются разработкой систем, распознающих человеческую речь, еще многое предстоит сделать. На недавнем международном конгрессе фонетических наук известный специалист в этой области В. Атал подвел некоторые итоги проведенных исследований [Atal 1995]. На рис. 11.6 показаны оценки успешности и надежности распознавания речевых сообщений разного типа в зависимости от размеров машинного словаря. На рисунке под диагональю помещены задачи, которые уже сейчас успешно и надежно решаются с помощью систем распознавания речи, а выше диагонали – задачи, которые находятся в стадии лабораторных разработок. Как видно из рисунка, распознавание слитной речи даже в режиме диктовки не достигло еще такого уровня надежности, который имеют системы распознавания небольшого набора слов и словосочетаний. В то же время ясно, что в ближайшее десятилетие задача распознавания и понимания естественной речи любого говорящего будет занимать центральное место в речевых технологиях.


Спонтанная

речь


Чтение связного текста

Т

И

ПЫ


Р

Е

Ч



Е

ВЫХ
СОО

Б

ЩЕ

НИЙ



Естественный диалог

Числовые последователь-ности

Команды

Диктовка

20

200

2000

20000

Р
Подготовленная связная речь



Ключевые слова
ис.

Произнесение словосочетаний

Собственные имена

Произнесение отдельных слов

РАЗМЕР внутреннего словаря системы (количество слов)

Рис. 11.6. Современное состояние разработок в области автоматического распознавания речи




ЛИТЕРАТУРА к ГЛАВЕ 11
Галунов В.И., Родионов В.Д. Моделирование процесса передачи информации в звуковом диапазоне. Л., 1988.

Деркач М.Ф., Гумецкий Р.Я., Гура Б.М., Чабан М.Е. Динамические спектры речевых сигналов. Львов, 1983.

Зиновьева Н.В. Система акустических ключей к распознаванию фонетических единиц русского языка // Экспериментальная фонетика. М., 1989.

Зу (Цзуэ) В.В. Лингвистический подход к автоматическому распознаванию речевых сигналов // Труды института инженеров по электротехнике и радиоэлектронике (ТИИЭР). Речевая связь с машинами. 1985, 73.

Клэтт Д.Х. Основные результаты работ по проекту ARPA // Методы автоматического распознавания речи. М. 1983, 1.

Лобанов Б.М., Панченко Б.В. Модель фонемно-артикуляторного синтеза речи // Модели речевого процесса в норме и патологии. Л., 1980.

Методы автоматического распознавания речи / Под ред. А. У. Ли. М., 1983.

Мясников Л.Л. Звуки речи и их объективное распознавание // Вестник ЛГУ. 1946, 3.

Обжелян Н.К., Трунин-Донской В.Н. Машины, которые говорят и слушают. Кишинев, 1987.

Потапова Р.К. Речь: коммуникация, информация, кибернетика. М., 1997.
Cole R., Rudnicky A., Zue W., Reddy D. Speech as patterns on paper // Perception and Production of fluent Speech. N. J., 1980.

Dudley H., Riesz R., Watkins S. “A Synthetic Speaker” // Journal of the Franklin Institute. 1939, 227. P.739–764.

Dutoit T. An Introduction to Text-to-Speech Synthesis. Dordrecht, 1997.

Klatt D.H. Software for a cascade/parallel formant synthesizer // JASA. 1980, V.67. P. 971–995.

Stevens K.N. Control parameters for synthesis by rule // Proc. of the ESKA Tutorial Day on Speech Synthesis. Autrans, 1990.

Machoul J., Schwarz R. State of the art in continuous speech recognition // Voice communication between humans and machines. Washington, 1994.

Atal B. Speech Recognition by Machines // Proc. of the XIII Int. Congress of Phonetic Sciences. Stockholm, 1995.



1 Более подробно о задачах и современном состоянии речевых технологий см. [Потапова 1997].

2 Разработка вокодеров была тесно связана с задачей сжатия информации, которую необходимо передавать по каналам связи, причем без значительного искажения. Эта задача до сих пор является актуальной, так как частотные каналы систем связи имеют определенные ограничения на объем передаваемой информации, и, кроме того, стоимость передачи информации зависит от ее количества.

3 Устройства, с помощью которых речевой сигнал в компрессированном и параметризованном виде записывается сначала в цифровую память компьютера, а затем по необходимости воспроизводится, по традиции продолжают называть синтезаторами речи. Однако в этом случае о синтезе речи можно говорить только условно.

4 Специальные тексты, например, математические или химические, составляют особую проблему.

5 В России над созданием автоматической системы типа “Текст–Речь” для русского языка работают ученые филологических факультетов Московского [Кривнова и др. 1999] и Санкт-Петебургского университетов [Бондарко и др. 1997].

6 Основной метод оценки сходства, так называемый алгоритм динамического программирования или алгоритм временного согласования (Time Warping), описывается в [Обжелян, Трунин-Донской 1987]. В [Галунов, Родионов 1988] подробно рассматриваются достоинства и недостатки систем АРР, использующих целостные спектральные эталоны для распознавания ограниченного набора слов и словосочетаний. Авторы отмечают, что, несмотря на отсутствие в этих системах каких-либо фонологических и лингвистических представлений, нельзя считать, что в них реализован способ опознания слов, который абсолютно чужд человеческим возможностям обработки звуковой информации. В частности, подчеркивается, что стратегия целостного распознавания слов характерна для работы правого полушария мозга, в отличие от левого, для которого типичны аналитические стратегии обработки речи.

7 ARPA – Advanced Research Projects Agency. Основные результаты работ по проекту ARPA изложены в [Методы распознавания … 1983].

8Цель проекта ARPA была вначале сформулирована как построение системы понимания речевых сообщений, однако реально речь шла о распознавании их языковой структуры.

9 Интегрированная сетевая структура распознавания предложений HARPY является расширенным вариантом сетевого представления, которое первоначально применялось при разработке известной системы распознавания слов DRAGON [Методы распознавания… 1983]. Сеть в системе HARPY позволяла распознать предложений длиной не более 8 слов из словаря в 1 000 слов.

10 По мнению Д. Клэтта, известного американского специалиста в области речевых технологий, преимущество стратегии распознавания, реализованной в HARPY, подтверждается тем, что “специалисты-фонологи лучше описывают речь порождающими правилами, а не аналитическими” [Клэтт 1983]. Кроме того, он отметил, что прогресс в области акустико-фонетической обработки был достигнут в HARPY благодаря признанию того факта, что распознавать слова можно и без предварительной фонетической сегментации и фонемной интерпретации речевого сигнала.

11 Сравнительная характеристика первичной обработки сигналов в устройствах АРР и слуховой системе человека дана в [Галунов, Родионов 1988].





Скачать 184.5 Kb.

Поделитесь с Вашими друзьями:
1   2




База данных защищена авторским правом ©dogmon.org 2022
обратиться к администрации

    Главная страница