Автоматический синтез речи



Скачать 184.5 Kb.
страница1/2
Дата15.05.2016
Размер184.5 Kb.
#13263
  1   2
ГЛАВА 11. ЭЛЕМЕНТЫ ПРИКЛАДНОЙ ФОНЕТИКИ

Глава из учебника С.В. Кодзасов, О.Ф. Кривнова "Общая фонетика", М., 2001.

Знания о звуковом механизме речи и лежащей в его основе звуковой системе языка используются в различных областях человеческой деятельности и с разными целями. Без этих знаний невозможно обучать чтению и письму на родном языке, а также успешно овладеть иностранным языком. Социальная роль языка в обществе требует установления произносительных норм и орфоэпических рекомендаций, определяющих современное литературное произношение. Эти задачи решаются в особом разделе фонетики, который называется орфоэпией. Важное применение фонетика находит также в речевой дефектологии и лечении различных болезней, вызванных повреждением речевых функций.

Появление компьютеров и их проникновение в разнообразные сферы человеческой жизни привели к созданию и развитию особых направлений в компьютерных технологиях, которые связаны со звуковой речью. Эти направления в соответствии со своими задачами получили названия “автоматический синтез речи” и “автоматическое распознавание речи” (или речевой вывод/ввод информации в компьютерное устройство).
11.1. Прикладная фонетика в компьютерную эпоху

Устная речь представляет собой наиболее удобный и естественный способ общения человека с компьютером, не требующий специального обучения. При этом используются не только все преимущества устного общения по сравнению с письменной речью (освобождаются руки, зрение, не нужны специальные инструменты и освещение, применяются стандартные каналы связи, например, телефон), но и появляются широкие возможности для гибкого взаимодействия с компьютером (без применения клавиатуры, “мыши”, экрана монитора и т. д.). За последние 10–15 лет произошли заметные изменения в компьютерных технологиях синтеза и распознавания речи, обусловленные постоянно растущими возможностями компьютерной техники, совершенствованием математического аппарата и более глубоким пониманием реальных процессов порождения и понимания речи человеком. К середине 90-х годов ученые перешли от исследований и лабораторных испытаний к промышленным разработкам. В международной компьютерной сети Интернет собирается информация о последних достижениях в сфере речевых технологий. Однако говорить о том, что с компьютером можно общаться так же, как мы общаемся друг с другом, пока нельзя. В каких же случаях “говорящие”, “слышащие и понимающие человеческую речь” машины могут помочь человеку?


11.1.1. Области применения речевых технологий

В качестве главных стратегических направлений в развитии речевых технологий выделяются:



  • создание человеко-машинных интерфейсов с устным вводом/выводом информации; речевое управление компьютером и другими техническими устройствами (особенно в экстремальных, опасных для человека условиях);

  • организация информационно-справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом (на транспорте, в медицине, банковской службе);

  • создание устройств для приема и озвучивания различных сообщений, например, писем электронной почты по телефону;

  • многоязычный устный ввод/вывод речевой информации с автоматическим переводом;

  • разработка приспособлений и компьютерных систем для помощи инвалидам (слепым, глухим, немым, парализованным);

  • создание “автоматической машинистки“ – машины, которая распознает произвольное речевое сообщение и записывает его в обычном текстовом виде;

  • озвучивание корректур и исправление орфографических ошибок;

  • помощь в обучении иностранному языку (автоматические фонетические тренажеры).

Речевые технологии используются также в более сложных системах искусственного интеллекта, воспроизводящих элементы порождения и понимания речи человеком1.

Большое значение речевые технологии имеют и для научных исследований. Участвуя в создании систем автоматического синтеза и распознавания речи, ученые имеют возможность проверить на практике правильность теоретических представлений об устройстве звукового механизма речи и его отдельных частей (звуковой системы языка, речепроизводящего механизма и механизма звукового восприятия), выявить недостающие знания, слабую определенность используемых понятий и т. д.

Существенно также и то, что развитие речевых технологий требует совершенствования методов цифровой обработки речевого сигнала, которые с успехом могут использоваться и в собственно научных целях в разных областях знания: лингвистике, фонетике, физиологии слуха и речи. Например, высококачественные синтезаторы речи позволяют создавать речеподобные, близкие к естественным сигналы с точно задаваемыми и контролируемыми параметрами. Эта особенность синтезированной речи делает ее удобной и даже необходимой для экспериментального изучения восприятия речи человеком.

При разработке прикладных систем, работающих с устной речью, возникают сложные и разноплановые проблемы, которые человек легко преодолевает в реальном языковом общении. В решении этих проблем участвуют ученые из разных областей науки: лингвисты, физиологи, психологи, математики, инженеры, специалисты в области компьютерной науки. Опыт показывает, что только “сплав знаний... позволит создать автоматические системы, которые будут синтезировать натуральную и разборчивую речь, а также понимать... естественную слитную речь человека, речь без каких-либо ограничений” [Обжелян, Трунин-Донской 1987: 15]. Рассмотрим теперь, какие элементы звукового поведения человека удается воспроизвести в существующих прикладных системах и что еще предстоит сделать.


11.2. Автоматический синтез речи

11.2.1. Немного об истории “говорящих” машин

Идея создания “говорящей” машины привлекала людей на протяжении длительного времени. В XVIII в. появились первые механические синтезаторы речи, в которых была сделана попытка воспроизвести основные процессы, происходящие при образовании речевых звуков. Один их таких синтезаторов в конце XVIII в. сконструировал ученый из Санкт-Петербургского университета

В. Кранценштейн, получив за это специальную премию Российской академии наук. Машина “произносила” пять гласных, и в ее устройстве использовались акустические резонаторы с различными собственными частотами. Струя воздуха создавалась с помощью мехов и дробилась на воздушные импульсы при помощи вибрирующих язычков, возбуждаемых воздушной струей. Так имитировалась работа голосового источника.

Наиболее известным механическим синтезатором была “говорящая” машина, созданная также в конце XVIII века В. фон Кемпеленом, который работал над ней около 20 лет. Она тоже представляла собой механический аналог речевого тракта человека и состояла из воздухо-надувных мехов, вибрирующих язычков и резиновой камеры, с помощью которых воспроизводились функции легких, голосовых связок и ротовой полости (рис. 11.1). В машине были также маленькие трубки, имитирующие носовые проходы, и ручки для управления свистками, которые использовались для производства шумных согласных. С помощью такой машины можно было произвести около 20 речеподобных звуков. Машина Кемпелена управлялась человеком-оператором, действия которого напоминали игру органиста самого высокого уровня.
Рис. 11.1. “Говорящая” машина В. фон Кемпелена
В 20–30-е годы XX в. произошел переход от механических синтезаторов речи к электрическим. Одним из первых синтезаторов такого типа был вокодер американского инженера-связиста X. Дадли [Dudley et al. 1939]. Вокодером называется устройство, которое сначала осуществляет спектрально-временной анализ речевого сигнала, выделяя его акустические параметры, а затем может восстановить (ресинтезировать) исходный речевой сигнал на основании выделенных параметров2. В вокодере Дадли спектральный анализ производился с помощью набора из 10 полосовых фильтров, а при восстановлении сигнала использовались такие параметры, как средняя энергия в частотных полосах, частота основного тона и присутствие шума. Вокодер Дадли мог работать и как автономный синтезатор. В этом случае им управлял оператор, который, пользуясь клавиатурой и педалями, синтезировал речь с помощью электрических устройств (фильтров, генератора шума и генератора периодических импульсов). В отличие от предшествующих синтезаторов, вокодер Дадли был основан не на имитации артикуляции, а на воспроизведении акустических параметров речевого сигнала. На основе вокодерного принципа были впоследствии построены первые формантные синтезаторы. В них с помощью первичного спектрального анализа выделялись форманты, которые затем использовались при ресинтезе гласных или слогов.

Все синтезаторы этого поколения были аналоговыми устройствами. Синтез речевого сигнала без участия человека-оператора заключался в следующем: на магнитных носителях хранились предварительно записанные аналоговые сигналы, соответствующие отдельным звукам или слогам, из которых путем простого соединения (склеивания) и ресинтеза получались нужные речевые отрезки. Синтезированная речь, порожденная таким способом, звучала неестественно, с сильным нарушением просодической организации. Для повышения естественности синтеза в качестве акустических образцов использовались также отдельно произнесенные слова, которые склеивались в нужной последовательности и затем воспроизводились. Правда, это ненамного улучшало качество синтезированной речи. Кроме того, количество разных речевых сообщений было резко ограничено объемами памяти устройства, в котором нужно было хранить базовые акустические образцы слов. В настоящее время с помощью персонального компьютера со звуковой картой и редактора звуковых сигналов можно без особого труда осуществить подобный синтез и составить представление о качестве речи, синтезированной таким способом.

Появление вычислительных машин в середине 50-х годов существенно повлияло на технику и технологию автоматического синтеза речи. Появилась возможность работать с цифровым представлением речевого сигнала и применять к нему численные методы анализа и различные преобразования оцифрованных акустических образцов, хранящихся в памяти компьютера. Кроме того, с развитием компьютерной техники с каждым годом становились все менее жесткими ограничения на объем памяти для хранения акустических образцов, из которых строится синтезированная речь.

В начале 60-х годов, когда были сформулированы основные положения акустической теории речеобразования, в области автоматического синтеза речи образовались два относительно независимых направления: артикуляционный и акустический (сигнальный) синтез.



Артикуляционный синтез продолжает на современном уровне направление, начало которого было положено первыми механическими синтезаторами. В работах представителей этого направления делается попытка синтезировать речевой сигнал на основе моделирования процесса речеобразования с учетом сведений об артикуляции. Такие сведения используются для количественной оценки формы речевого тракта, его резонансных свойств и характеристик звуковых источников. Затем на основе расчетных данных генерируется речевой сигнал (в цифровой форме). Для этого применяются методы, которые разрабатываются в рамках акустического направления [Лобанов, Панченко 1980].

Акустический синтез является продолжением того направления, которое было начато созданием вокодеров и электрических синтезаторов разного типа. В отличие от работ по артикуляционному синтезу в исследованиях этого направления не ставится задача непосредственного отражения в синтезе тех процессов, которые связывают артикуляцию с акустикой речевого сигнала. Вместо этого требуется просто выявить и воспроизвести в синтезируемом сигнале акустические характеристики естественной речи, которые существенны для восприятия.

Акустические синтезаторы по своим конечным результатам (качество синтезированной речи и быстрота действия) значительно опередили системы артикуляционного синтеза, и поэтому автоматический синтез речи развивается главным образом в этом направлении.


11.2.2. Современное состояние автоматического синтеза речи

В середине 60-х годов в разработках автоматического синтеза речи произошел важный сдвиг: вместо ресинтеза, или восстановления, ограниченного количества речевых образцов, хранящихся в компьютере в цифровой форме3, была поставлена задача озвучивания любого сообщения, вводимого в компьютер в текстовом виде и неизвестного заранее системе звукового синтеза. Это привело к развитию синтезаторов типа “Текст–Речь” (Text-to-Speech или сокращенно TTS). В идеале такие устройства должны имитировать деятельность человека, который читает письменное сообщение или текст любой степени сложности.

Озвучивание произвольного текста требует решения ряда задач, связанных с его предварительной лингвистической обработкой. Поэтому в системах автоматического синтеза речи появился лингвистический этап обработки синтезируемых сообщений.

Современные синтезаторы речи типа “Текст-Речь” включают два блока (рис. 11.2):



  • лингвистической обработки (англ. Natural Language Processing, NLP), с помощью которого для любого произвольного сообщения или текста строится его полная фонетическая транскрипция, включающая как сегментную, так и просодическую характеристики;

  • акустического синтеза или цифровой обработки сигнала (англ. Digital Signal Processing, DSP), генерирующего речевой сигнал, т. е. “озвучивающего” фонетическую транскрипцию.

СИНТЕЗАТОР типа “ТЕКСТ-РЕЧЬ”

Акустический синтез


Правила просодической параметризации

ТЕКСТ

РЕЧЕВОЙ

СИГНАЛ




Лингвистическая обработка

текста


(комплексная фонетическая

транскрипция предложений)


Рис. 11.2. Блок-схема типичного синтезатора типа “Текст–Речь


Различные типы синтезаторов выделяются прежде всего на основе тех методов, которые используются на последнем этапе синтеза. В современных синтезаторах акустический синтез осуществляется либо в виде формантного синтеза по правилам, либо в виде конкатенативного синтеза с элементами правил (о различиях между ними будет сказано ниже).

В настоящее время технологии автоматического синтеза речи достигли достаточно высокого уровня. Имеются учебники, посвященные изложению основ этой важной области человеческого знания [Dutoit 1997]. Исследователи ставят перед собой задачу получить высококачественную синтезированную речь, близкую к естественному чтению текста человеком. Однако многие проблемы, в особенности связанные с лингвистической обработкой текста, все еще остаются нерешенными. Дополнительные исследования требуются также для придания компьютерному голосу живого, человеческого звучания, наделенного широким диапазоном различных эмоциональных оттенков.


Лингвистический этап синтеза в системах “Текст–Речь”

Главная задача этапа лингвистической обработки текста состоит в том, чтобы по письменному тексту построить его транскрипционную запись, которая должна содержать как сегментную, так и супрасегментную (просодическую) информацию, необходимую для акустического синтеза.

Структура лингвистического блока синтезатора представлена на рис. 11.3. Схема не описывает в точности ни одну из существующих реально систем, но содержит компоненты, которые можно обнаружить во многих из них.


Нормализация текста (3)

Определение языка текста

(1)

Блок
лингвистической
обработки:
подготовка текста к
озвучиванию

Исправление ошибок входного текста

(2)


Акцентно-интонационный транскриптор (5)

Фонемный транскриптор (6)

Блок акустического синтеза

Формирование просодических

характеристик (7)



Словарь

РЕЧЕВОЙ СИГНАЛ


Входной текст


Собственно лингвистический анализ:
синтаксический, морфологический и т. д. (4)

Рис. 11.3. Лингвистический этап в прототипической системе автоматического синтеза речи

Рассмотрим последовательно задачи, которые должны быть решены на этапе лингвистической обработки.

Для систем многоязычного синтеза, которые умеют озвучивать тексты на разных языках, необходимо сначала определить язык входного текста (1). Далее желательно освободиться от орфографических и пунктуационных ошибок, так как они приводят к неправильному прочтению (2). Для этого во многих системах используются специальные устройства (спел-чекеры).

Чтобы перейти к построению фонетической транскрипции, необходимо представить входной текст в виде последовательности обычных орфографических слов, разделенных пробелами и пунктуационными знаками. Как легко убедиться путем собственных наблюдений, в обычном тексте, кроме нормальных орфографических слов, могут быть цифры4, сокращения типа г-н, г., т. д., т. е., аббревиатуры типа НТО, НАТО, МГУ, которые нужно уметь опознавать и, если требуется, превращать в обычные орфографические слова, причем в нужной грамматической форме.

Операции, которые необходимы для преобразования входного текста в последовательность нормальных орфографических слов, относятся к нормализации текста (3). Однако и после этого текст может быть не готов для перехода к построению фонетической транскрипции. В русских текстах, например, слова не имеют помет о месте ударения, без знания которого построить транскрипцию невозможно. Кроме того, вместо буквы “ё”, как правило, пишется буква “е” (ср. написание таких слов, как пес, тетя и т. п.).

Большинство из перечисленных выше задач не могут быть решены без обращения к словарю и морфологическому анализу текстовых словоформ (4). Но для постановки ударения в словах типа замок – замок и этого недостаточно, здесь нужен более сложный анализ текста. Особую проблему для этапа нормализации составляют собственные имена.

Важнейшей задачей лингвистической обработки текста является формирование фразовых интонационно-просодических показателей (типов интонации, особых подчеркиваний слов и т. п.), которые приписываются отдельным предложениям и более мелким интонационно-смысловым группам. Эта задача выполняется с помощью акцентно-интонационного транскриптора (5). Правильное задание просодических характеристик оказывает большое влияние на осмысленность и естественность синтезированной речи. В большинстве современных систем автоматического синтеза пока ограничиваются имитацией речи с эмоционально нейтральными типами интонаций. Воспроизвести эмоциональную окраску речи гораздо труднее, поскольку информацию об эмоциях извлечь из письменного текста трудно, а часто и просто невозможно.

Между тем определить признаки даже нейтральной интонации для каждого предложения в тексте сложно. Важнейшими текстовыми ключами для этого являются пунктуационные знаки. В то же время хорошо известно, что связь между интонацией и пунктуацией далеко не однозначна. Во многих случаях для выбора правильного интонационного оформления предложения нужен глубокий семантико-синтаксический анализ (4), который современными автоматическими средствами удается произвести лишь частично.

Сегментную фонетическую транскрипцию текста, построением которой завершается работа лингвистического блока, осуществляет фонемный транскриптор (6). Для этого применяются прежде всего стандартные правила чтения, действующие в языке, т. е. соответствия типа “буква ­–> фонема –> звук”. Степень фонетической детализации (количество различаемых звуков), которая выбирается в конкретных системах синтеза при построении транскрипции, может быть разной. Часто выбор диктуется традицией, которой следуют фонетические описания синтезируемого языка и наиболее представительные и общеупотребительные словари.

В ряде языков (например, английском) соотношение между орфографией и произношением является весьма сложным – многие слова не подчиняются стандартным правилам чтения. Слова, произношение которых “выпадает” из стандартных правил, приходится обрабатывать отдельно, либо создавая для них более узкие, специфические правила (ср. например, особенности произношения в русском языке таких иностранных слов, как модель, пюре, энергия, где согласный перед е произносится твердо в отличие от таких слов, как дело, речка, небо), либо записывая фонетическую транскрипцию слова прямо в его словарную характеристику, т. е. запоминая, а не выводя из правил чтения.

После того как построена полная фонетическая транскрипция предложения, т. е. определен с заданной степенью детализации его звуковой состав и интонационное оформление, должна быть осуществлена просодическая параметризация звуковых сегментов. Иначе говоря, для каждой фонемы (или аллофона), входящей в синтезируемую фразу, нужно определить физическую длительность, интенсивность (среднюю или с учетом динамики изменения) и частоту основного тона (среднюю или с учетом динамики изменения).

Просодическая параметризация необходима для любой системы синтеза, независимо от применяемых в ней методов формирования акустического сигнала. Она осуществляется с помощью специальных правил (7). В некоторых системах блок просодической параметризации выделяется в самостоятельный компонент, который занимает промежуточное положение между лингвистической обработкой текста и формированием акустического сигнала.

И наконец, когда полностью выполнены все описанные выше операции, можно считать, что “говорящая” машина знает, что она должна сказать, но еще не знает, как это сделать. Окончательный результат “говорения” в виде синтезированного речевого сигнала получается на этапе акустического синтеза речи.


Акустический этап синтеза в системах “Текст–Речь”

Цель акустического этапа состоит в том, чтобы превратить просодически параметризованную фонетическую транскрипцию текста в оцифрованный речевой сигнал, который может быть преобразован в звуковые колебания с помощью обычного цифро-аналогового преобразователя.

В естественной речи акустические свойства речевого сигнала определяются артикуляцией. Следовательно, на акустическом этапе должны быть в том или ином виде воспроизведены важнейшие акустические следствия артикуляционной организации речи, в частности все коартикуляционные явления. Это может быть сделано двумя способами: 1) с помощью правил, которые описывают изменение акустических параметров, вызванные коартикуляцией; 2) использованием таких акустических образцов (фрагментов реальных речевых сигналов), которые в совокупности покрывают все акустически значимые типы коартикуляционного взаимодействия звуковых единиц. Указанные способы лежат в основе двух подходов в акустическом синтезе речи: различаются синтез по правилам и синтез на основе конкатенации (или компилятивный синтез).
Акустический синтез по правилам

По историческим и практическим причинам синтезаторы данного типа реализуются обычно в виде формантных синтезаторов, т. е. базируются на классической акустической модели речеобразования “источник–фильтр”.

Практика разработок в этой области показывает [Klatt 1987; Stevens 1990], что для получения достаточно естественной речи требуется около 60 параметров, характеризующих передаточную функцию речевого тракта, т. е. задающих частоту, амплитуду и ширину формант и антиформант речевых звуков. Кроме того, необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука.

На основе акустических параметров, задаваемых правилами, в формантных синтезаторах формируются сигналы акустического возбуждения (шумовые и периодические). Сигналы источников звука преобразуются с помощью цифровых фильтров, которые настраиваются в соответствии с параметрами передаточной функции (формантами и антиформантами). В результате получается цифровая версия звуковой волны, которая далее озвучивается.

Создание формантного синтезатора по правилам требует большой подготовительной работы, связанной с акустическим анализом значительных речевых массивов и формулировкой нужных правил. Эта работа усложняется также тем, что необходимые акустические данные не всегда удается извлечь из естественной речи с помощью автоматических методов спектрального анализа.

Синтезированная речь, получаемая с помощью современных формантных синтезаторов, часто сопровождается гудением или жужжанием, что снижает ее естественность. В то же время формантный синтез по правилам дает возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса, гибко учитывать корреляцию между разными акустическими параметрами. Формантный синтез описанного типа используется в целом ряде TTS-систем, из которых наиболее известны MITALK, DECTALK для английского языка и многоязычная система синтеза INFOVOX.


Акустический синтез на основе конкатенации

В синтезаторах этого направления грубая первичная основа акустического сигнала создается на основе конкатенации (склейки) акустических образцов, которые хранятся в памяти компьютера в виде особой акустической базы данных.

Акустические образцы берутся из речи определенного диктора-“донора” и запоминаются либо в виде оцифрованных фрагментов звуковой волны, либо в параметризованной форме, полученной в результате акустического анализа исходных “живых” образцов. В простейшем случае первичная основа результирующего сигнала получается с помощью склеивания исходных акустических образцов, здесь не требуется даже параметрического синтеза. Далее эта акустическая основа подвергается модификации по правилам, функция которых состоит в том, чтобы придать склеенным фрагментам акустического сигнала нужные просодические характеристики (частоту основного тона, длительность и энергию).

При разработке синтезатора на основе конкатенативного подхода приходится решать два вопроса: 1) какие акустические образцы следует выбирать для “склеивания”; 2) как производить необходимую просодическую модификацию и склейку с наименьшими потерями для естественности синтезированной речи.

В имеющихся синтезаторах используются разные типы акустических образцов: дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине другого), полуслоги, слоги, фрагменты фонемной размерности (акустические аллофоны) и образцы смешанных типов. Во всех случаях решающим является требование сохранить без изменения переходные участки, на которых происходит акустическое взаимодействие звуков.

Размер акустической базы конкатенативного синтезатора может быть очень большим, и когда-то это обстоятельство считалось серьезным недостатком подобных систем. Сейчас это уже почти несущественно, так как возможности компьютерной техники в области долговременного хранения информации постоянно растут.

Что касается второго вопроса, то в последнее время успешно разрабатываются такие методы просодической модификации образцов и формирования акустического сигнала, которые позволяют получить синтезированную речь высокого качества при относительно небольших вычислительных затратах.

При наличии вспомогательных технологий, связанных с построением акустической базы синтеза, высококачественный синтезатор конкатенативного типа может быть построен достаточно быстро. Этим определяется широкая популярность данного направления среди разработчиков, особенно в Западной Европе5, где почти все коммерческие синтезаторы построены на основе метода конкатенации. Но и у них есть свои ограничения. Например, в таких синтезаторах трудно изменить тембр голоса: для этого надо создавать новую базу акустических образцов (элементов компиляции) на речевом материале другого диктора-“донора”.


11.3. Автоматическое распознавание речи

11.3.1. Этапы развития

Создание устройств, способных воспринимать и “понимать” звучащую речь, имеет более короткую историю, чем построение “говорящих машин”. Вместе с тем путь, пройденный исследователями в этом направлении, не менее поучителен. Первые попытки в этой области относятся к 40-м годам нашего столетия, и связаны они с появлением спектральных анализаторов – электрических устройств, позволяющих анализировать спектральные характеристики речевых звуков. В СССР в рассматриваемый период было создано первое техническое устройство, которое могло распознавать гласные русского языка на основе разности энергии в 14 частотных полосах [Мясников 1946].

Для дальнейшего развития автоматического распознавания речи (АРР), большое значение имели метод динамической спектрографии (типа “Видимая речь”) и широкое использование соответствующей аппаратуры в фонетических исследованиях. К концу 50-х годов на материале самых разных языков был накоплен большой исследовательский материал, который свидетельствовал о сложной природе соответствия между привычными для лингвистов представлениями речевых отрезков в виде последовательности фонем или аллофонов и физической реальностью звучащей речи. Были обнаружены существенные различия между линейной упорядоченностью фонемных цепочек и физическим членением речевого сигнала, в котором эти цепочки реализуются. Еще сложнее оказалось соотношение между различительными признаками фонем и их физическими коррелятами: было показано, что один и тот же фонологический контраст имеет множественное артикуляционно-акустическое воплощение, которое сильно зависит от фонетического контекста, стиля произношения и других факторов.

Сейчас уже хорошо известны источники акустической вариативности звуковых единиц, одновременное действие которых чрезвычайно усложняет задачу автоматического распознавания речи. Эти источники могут быть сгруппированы следующим образом:


  • особенности артикуляционной организации речи (коартикуляция и артикуляционная редукция целевых жестов, которые могут проявляться по-разному в зависимости от позиции слова во фразе и общих фонетических установок говорящего на тщательность/небрежность произнесения, темп речи и т. д.);

  • постоянные индивидуальные особенности говорящего (междикторская вариативность, вызванная различиями в анатомических параметрах речевого тракта; пол и возраст; индивидуальные произносительные навыки; принадлежность к определенным фонетическим диалектам);

  • переменные индивидуальные особенности говорящего (внутридикторская вариативность, связанная с различиями в физическом и психоэмоциональном состоянии в разные моменты порождения речевых сообщений);

  • технические условия записи речевого сигнала (тип микрофона, обычная или телефонная речь, специальная студия или сигнал на фоне бытового шума и т. д.).

Основной вывод, который был сделан в результате акустических исследований и первых неудачных попыток построения распознающих систем, сводился к тому, что распознавание речи принципиально не может быть осуществлено на основе небольшого набора акустических образцов (эталонов), соответствующих отдельным фонемам данного языка. В начале 60-х годов исследователи отчетливо осознали, что попытка имитировать с помощью технических устройств, в том числе компьютера, естественную способность человека воспринимать и понимать речевые сообщения представляет собой сложную задачу, решение которой требует и большего объема знаний, и более мощной технической базы. Это привело к образованию двух направлений в области создания распознающих систем.

Во-первых, была выделена упрощенная, но полезная с точки зрения практических применений задача распознавания ограниченного набора отдельно произносимых, не связанных по смыслу слов (20–50 единиц). Слова распознавались как в произношении одного (знакомого) машине диктора (дикторозависимое распознавание), так и разных дикторов, в том числе и незнакомых (дикторонезависимое распознавание).

Во-вторых, от чисто звукового (фонетического) распознавания исследователи перешли к задаче декодирования языковой структуры речевого сообщения (слитной речи) с использованием разных источников лингвистических знаний (фонетических, словарных, синтаксических и семантических).

Разработки в обоих направлениях, которые интенсивно проводились в 70-е годы, заложили основы тех методов распознавания, которые применяются и в современных системах, поэтому стоит с ними кратко познакомиться.


Распознавание ограниченного набора слов

Главной опорой распознавания в этом случае является ограниченный словарь (наиболее популярный набор – список цифр, удобный для многих практических применений). Теоретически слово, вводимое в распознающую машину в виде речевого сигнала, может идентифицироваться двумя способами.

Первый способ предполагает предварительную сегментацию речевого сигнала на более мелкие сегменты (например, отрезки фонемной размерности или слоги). Затем на основе спектральных характеристик этих сегментов производится их полная или частичная фонетическая (фонемная) идентификация. Для этого используются либо спектральные эталоны звуковых единиц, полученные заранее на этапе предварительного обучения распознающей системы, либо правила фонетической интерпретации сегментов, которые базируются на различных акустических ключах, содержащихся в спектральной картине распознаваемого сигнала. Фонетическая (фонемная) цепочка, полученная в результате идентификации, сравнивается с единицами словаря, которые также представлены в виде фонетической (фонемной) записи. Цель сравнения – найти в словаре такое слово, которое обладает максимальным сходством с распознанной звуковой цепочкой. Наиболее подходящий словарный кандидат и есть окончательный результат работы распознающего устройства.

При втором способе слово распознается как целостный звуковой образ путем сравнения с акустическими эталонами слов, которые хранятся в памяти машины. Распознавание осуществляется на основе общих принципов математической теории распознавания образов. Сначала распознающая система обучается: на основе ряда дикторских произнесений для каждого слова из словаря формируется свой спектральный эталон. На этапе распознавания произвольные произнесения слов из этого же словаря сравниваются с эталонами. Работа такой системы не требует никаких специальных фонетических или лингвистических знаний. Однако серьезной проблемой становится выбор и вычисление меры сходства распознаваемого акустического сигнала и словарного эталона.

Большинство реальных систем, которые распознают ограниченный набор слов, базируются на втором подходе. В его рамках были разработаны методы оценки сходства между входными произнесениями слов и эталонами, которые учитывают возможные различия между разными произнесениями одного и того же слова по времени, амплитуде и спектральным характеристикам6.
Распознавание слитной речи

Как уже говорилось выше, в начале 60-х годов исследователи, работавшие в области автоматического распознавания речи, отчетливо сознавали сложность распознавания слитно произнесенных фраз, построенных на использовании больших словарей. Было признано, что обработка слитной речи требует, во-первых, перехода от распознавания слов как целостных звуковых образов к распознаванию звуковых единиц, меньших слова (например, фонем или слогов) и, во-вторых, учета фонетических, синтаксических и семантических ограничений, определяющих возможные языковые структуры речевых сообщений. Технологический анализ проблемы показал, что для распознавания слитной речи необходим соответствующий уровень развития компьютерной техники и математического обеспечения. Первые попытки в этой области исследований были сделаны только в начале 70-х годов.

Наибольшее влияние на дальнейшее развитие АРР оказали исследования, выполненные в 1971–1976 гг. в рамках государственной программы ARPA7, объявленной Управлением перспективных исследовательских проектов министерства обороны США. Программа работ была рассчитана на 5 лет, для чего правительством было выделено 15 млн долларов.

Перед исследовательскими группами нескольких ведущих научных центров США была поставлена одна и та же задача: создать дикторонезависимую систему распознавания слитной речи на основе словаря не менее чем из 1 000 слов. На распознаваемые речевые сообщения вводились синтаксические ограничения: фразы должны были принадлежать к ограниченному набору синтаксических конструкций, которые типичны для текстов (диалогов), функционирующих в конкретной области практической деятельности (например, при поиске документов в некоторой базе данных).

Теоретически поставленную перед группой ARPA задачу можно было выполнить на основе двух стратегий: 1) понизить значимость собственно фонетического (звукового) распознавания, активно используя синтаксические и семантические ограничения на возможную языковую структуру распознаваемых фраз8; 2) усовершенствовать уже разработанные системы фонетического распознавания (идентификации) отдельных слов, основанные на общих методах распознавания звуковых образов.

Руководящий комитет проекта остановился на первой стратегии и рекомендовал исследовательским группам развивать распознающие системы в этом направлении. К 1976 г. комитету было предложено несколько прототипических работающих систем, для которых было произведено тестирование. По его результатам наилучшей была признана система HARPY, разработанная Университетом Карнеги–Меллона.

Стратегия распознавания системы HARPY может быть отнесена к типу “анализ через синтез”. В этой системе реализована интегрированная сетевая структура, в которой лингвистические знания (фонетические, фонологические, лексические и синтаксические) объединены в порождающую модель допустимых произношений распознаваемых фраз9. Сначала строится сеть слов, создающая допустимые последовательности слов. Узлами сети являются слова (из разрешенного словаря), а любой путь в ней соответствует допустимому предложению (из разрешенного набора синтаксических конструкций). Затем каждый узел (слово) заменяется сетью произношений, представляющих возможные произносительные варианты слова (с учетом звуковых изменений на стыках слов и вариантов в беглой речи). Произношение слов описывается фонетической транскрипцией с использованием небольшого набора аллофонов. В системе HARPY аллофоны были представлены в памяти компьютера 98 различными спектральными эталонами.

В конечном итоге возможное произнесение любой допустимой последовательности слов (предложения), порождаемое сетью, задается в виде последовательности аллофонных спектральных образцов. Далее система HARPY работает аналогично распознавателю изолированных слов: анализируется и оценивается степень сходства ожидаемого спектрального образа всего предложения с распознаваемым речевым сигналом. Для этого сигнал преобразуется сначала в последовательность коротких квазистационарных отрезков, которые выделяются при первичном спектральном анализе распознаваемого предложения.

Методы вычисления акустического расстояния между спектральным представлением предложения, которое порождается машиной, и распознаваемым речевым сигналом принципиально не отличаются от того, что делается при распознавании ограниченного набора слов-эталонов, хотя в целом задача, конечно, значительно усложняется.

По мнению экспертов, существенным вкладом cистемы HARPY в решение общей проблемы распознавания речи стало то, что она экспериментально подтвердила не только важность, но и возможность использования различных лингвистических ограничений для распознавания слитной речи. Было показано, что стратегия “анализ через синтез” с учетом лингвистических ограничений дает гораздо меньше ошибок, чем “чистое” акустико-фонетическое распознавание с последующим поиском и подбором слов-кандидатов из машинного словаря10.

В то же время в окончательном заключении по проекту ARPA эксперты отметили, что плохое звуковое распознавание не может компенсироваться использованием широких лингвистических знаний. В системе HARPY, например, при правильном распознавании слов в 97 % случаев лишь 42 % аллофонов (в лучших вариантах распознавания) были идентифицированы правильно на основании спектральных образцов. Это значительно уступает звуковому восприятию речи человеком и может привести к серьезным ошибкам при расширении словаря и ослаблении синтаксических ограничений на структуру распознаваемых предложений.

К числу наиболее значимых результатов проекта ARPA эксперты отнесли также создание речевых баз данных, включавших значительное количество речевых высказываний, которые были записаны в сигнальном виде, затранскрибированы фонетистами и специально обработаны для получения разных характеристик: акустических, фонетических, синтаксических, семантических и диалогических. При проектировании и создании речевых баз большое внимание было уделено разработке надежных методов получения фонетической, фонематической и просодической транскрипций, согласованных с речевым сигналом. С этого времени речевые, фонетические и текстовые базы данных стали основой развития речевых технологий.

После завершения проекта ARPA дальнейшие исследования в области автоматического распознавания речи были продолжены в рамках двух подходов: лингвистического, основанного на использовании акустико-фонетических знаний, в том числе сведений о звуковом восприятии речи человеком, и математического, базирующегося на статистической теории распознавания образов.
11.2.3. Современное состояние проблемы

Лингвистический подход

Представители лингвистического подхода подчеркивают необходимость

более широкого использования фонетических и физиологических знаний в системах автоматического распознавания речи.

По мнению американского исследователя В. Зу [Зу 1985], одного из самых активных сторонников этого подхода, неудачи акустико-фонетического распознавания в различных системах АРР обусловлены двумя причинами:

1) использованием слишком упрощенных представлений о соотношении речевого сигнала и его фонемного (аллофонического) отражения в языке; 2) применением таких способов первичной акустической обработки речевого сигнала, которые слишком далеки от того, как это осуществляется в слуховой системе человека11.

Для того чтобы лучше понять, как человек распознает звучащую речь, в конце 70 – начале 80-х годов были активизированы эксперименты по чтению (дешифровке) неизвестных (“слепых”) динамических спектрограмм речи на материале разных языков, в том числе русском [Зиновьева 1989; Деркач и др. 1983; Cole et al. 1980]. Эксперименты показали, что фонетист, интерпретирующий спектрограммы, может выделить из акустического сигнала значительный объем фонетической информации, при этом точность и надежность распознавания оказываются выше, чем соответствующие показатели у систем распознавания речи. Было обнаружено также, что чтение спектрограмм и их фонемная (фонетическая) интерпретация основаны на выделении и использовании большого количества разнообразных акустических ключей (полезных признаков). Наконец, подробный анализ дешифровки спектрограмм человеком привел к заключению, что фонетическое декодирование базируется на вполне определенных акустико-фонетических правилах, которые поддаются формализации и могут быть переданы машине.

Эти результаты вселяли надежду на то, что построение надежной системы распознавания речи на основе использования фонетических знаний вполне возможно. Однако, подводя итоги экспериментов по чтению спектрограмм, В. Зу в 1985 г. отметил, что создание высококачественного фонетического распознавателя все-таки остается исключительно трудной задачей из-за неполноты знаний о лингвистически существенных акустических признаках, отсутствия надежных способов их выделения в сигнале и сложности правил фонетической интерпретации. Его прогноз состоял в том, что могут понадобиться десятилетия для того, чтобы овладеть этими знаниями и научиться ими пользоваться. Этот прогноз, по-видимому, оправдывается, так как в рамках лингвистического подхода, основанного на знаниях, пока не удалось построить надежных систем распознавания речи.

В то же время разработка лингвистически ориентированных распознающих систем привела к формулировке следующих важных рекомендаций:


  • первичная акустическая обработка речевого сигнала должна основываться на сведениях о свойствах периферического слухового анализатора; должна быть реализована возможность выделения акустических событий и признаков, которые обнаруживаются слуховой системой человека, по крайней мере, в известном на сегодня объеме;

  • на ранних этапах применения фонетических знаний не следует добиваться полного фонетического распознавания неизвестной фразы. Вместо этого нужно выделять надежные акустические признаки звуковых единиц (признаки главных классов и способов образования) и использовать их для первичной сегментации речевого сигнала, а также для отбора из машинного словаря системы наиболее подходящих слов-гипотез;

  • необходимо учитывать просодическую информацию, прежде всего для определения ударных слогов, которые могут быть подвергнуты детальному фонетическому декодированию и использоваться далее в целях ограничения возможного набора слов-гипотез;

  • каждое слово-гипотеза, прошедшее “мягкий” отбор по грубым классифицирующим признакам и фонемному составу ударного слога, должно далее проверяться (верифицироваться) на наличие в распознаваемом акустическом сигнале тех акустических признаков, которые задаются его полным звуковым обликом (транскрипцией).

Схема распознавания речи на основе этих принципов приведена на рис. 11.4.

Слуховой

спектральный анализ



Грубая

фонетическая

классификация

Лексический

отбор

Детальная проверка словесных гипотез

Ответ

Речевой сигнал


Рис. 11.4. Распознавание речи на основе использования акустико-фонетических знаний


Статистический подход

Несмотря на привлекательность лингвистического подхода, основанного на знаниях, в большинстве современных распознающих систем применяются статистические методы распознавания образов, продолжающие то направление, принципы которого были экспериментально опробованы системой HARPY. Эти методы, дополненные определенными акустико-фонетическими сведениями, обеспечивают наиболее высокие показатели надежности и скорости распознавания естественных речевых сообщений.

Системы АРР, использующие статистические методы, включают обычно

три компонента: произносительный словарь, модель языка и набор статистических акустических моделей звуковых единиц.



Произносительный словарь (или Лексикон от англ. Lexicon) представляет

собой обычный словник, в котором для каждого слова дана фонетическая или фонемная транскрипция. Слово в Лексиконе может иметь несколько транскрипций, отражающих фонетическую вариативность, которая не выводится из простых комбинаторных и позиционных правил реализации фонем в слове. В Лексикон могут включаться не только слова, но и отдельные словосочетания и даже фразы.



Модель языка (Language Model) теоретически должна задавать семантиче-

ские и синтаксические ограничения, которым подчиняется построение предложений в данном языке. Подобные ограничения могут описываться разными грамматическими моделями. В большинстве систем АРР используются так называемые статистические Марковские грамматики, которые задают вероятности (возможную частоту встречаемости) для различных последовательностей слов языка. Такие грамматики называются n-граммными. Например, биграммная модель задает вероятности для всех пар слов из Лексикона, триграммная модель – для всех троек слов и т. д. На основе вероятностных характеристик производится оценка грамматического правдоподобия каждой цепочки слов, идентифицированной к данному моменту распознающего процесса. Грамматические оценки имеют решающее значение при распознавании слитной речи на основе больших словарей.

Статистические грамматики строятся автоматически на этапе обучения

распознающей системы. Обучение осуществляется на больших текстовых массивах, вводимых в компьютер (текстовые базы данных).

Центральное место в статистических системах АРР принадлежит вероят-

ностным акустико-фонетическим моделям (Phonetic Models), которые называют также скрытыми Марковскими моделями (от англ. Hidden Markov Model или HMM). В системах распознавания слитной речи на базе больших словарей основной тип используемой фонетической модели соответствует контекстной реализации фонемы или, в терминологии разработчиков таких моделей, трифону (англ. triphone).

Трифон практически совпадает с лингвистическим аллофоном. Однако

трифоны, в отличие от традиционных аллофонов, выделяются не на основе субъективных слуховых или артикуляционных критериев, а с учетом степени акустических различий и их влияния на результаты распознавания. Обычно набор трифонов включает несколько тысяч контекстных реализаций, соответствующих фонемному инвентарю данного языка. Кроме трифонов, в фонетическую базу распознавания могут включаться, если это необходимо, акустические модели и других речевых единиц – слогов, отдельных слов или даже фраз.

Фонетические модели, как и модели языка, строятся автоматически на

этапе обучения распознающей системы. Для этого используются акустико-фонетические базы данных, которые представляют собой большие массивы звучащей речи, записанной от многих дикторов (не менее 100 человек), размеченной фонетически и снабженной транскрипцией (той же, которая используется для представления слов в Лексиконе).

Для построения акустико-фонетических моделей разработаны специаль-

ные процедуры обучения распознающей системы. Акустическим “сырьем” для обучения являются фрагменты речевых сигналов, выделенные в акустико-фонетической базе данных в качестве акустических соответствий транскрипционных фонетических символов. Современные речевые технологии дают возможность строить фонетические модели трифонов без предварительной ручной сегментации сигналов в обучающей речевой базе. Для обучения необходима только их фонетическая транскрипция, которая осуществляется экспертами-фонетистами.

Перед обучением тренировочный акустический материал подвергается цифровому спектральному анализу, который в современных системах АРР учитывает особенности обработки звукового сигнала в слуховой системе человека. В результате спектрального анализа обучающий акустический сигнал преобразуется в последовательность временных срезов, каждый из которых содержит информацию о спектральной огибающей сигнала на небольшом временном интервале (обычно 10–20 мс). Спектральный срез называют также спектральным вектором или вектором акустических признаков (Feature Vector).

После обучения система может работать как распознаватель звучащей речи. Распознавание произнесенного предложения начинается с его спектрального анализа. Полученная (наблюдаемая) последовательность спектральных векторов сравнивается с теоретически возможными последовательностями векторов, которые генерируются (порождаются) распознающей системой на основе произносительного словаря и машинных фонетических моделей. Специальные процедуры поиска и оценки акустического сходства, а также грамматического правдоподобия позволяют выбрать последовательность слов, которая обладает наибольшей вероятностью с точки зрения языковой структуры и наблюдаемой акустической картины (Most Likely Sentence). В целом система работает по типу “анализ через синтез”.

Стандартная схема этапов обучения и распознавания для системы АРР,

работающей на основе статистических методов, приводится на рис. 11.5 (по [Machoul, Schwarz 1994]).

Тренирово-чные речевые сигналы

Построение вероятностных акустико-фонетических звуковых моделей

(HMM)



Выделение акустических признаков

Построение статистической грамматики

Акустико-фонетические модели

Лексикон

Грамматика

Акустические модели слов

Выделение акустических признаков

РАСПОЗНАВАНИЕ



Распознаваемый речевой сигнал

Наиболее правдоподобное

предложение

Тренировочные тексты

Обучение

Распознавание

Рис. 11.5. Обучение и работа современной системы автоматического распознавания речи на основе статистических методов





Скачать 184.5 Kb.

Поделитесь с Вашими друзьями:
  1   2




База данных защищена авторским правом ©dogmon.org 2022
обратиться к администрации

    Главная страница