RU2296377C2

RU2296377C2 - Способ анализа и синтеза речи

Info

Publication number: RU2296377C2
Application number: RU2005118283/09A
Authority: RU
Inventors: Михаил Николаевич Гусев (RU); Михаил Николаевич Гусев; рёв Владимир Михайлович Дегт (RU); Владимир Михайлович Дегтярёв; Валерий Валерьевич Ситников (RU); Валерий Валерьевич Ситников
Original assignee: Михаил Николаевич Гусев
Priority date: 2005-06-14
Filing date: 2005-06-14
Publication date: 2007-03-27
Also published as: RU2005118283A

Abstract

Изобретение относится к анализу и синтезу речевой информации, выводимой из ЭВМ. Его использование в информаторах-синтезаторах на транспорте, связи, измерительных и технологических комплексах, а также при обучении иностранным языкам обеспечивает улучшение качества полученного модулированного сигнала, что позволяет при синтезе речевого сигнала получить более достоверное воспроизведение звуков. Способ включает в себя: аналого-цифровое преобразование речевого сигнала; сегментацию преобразованного сигнала на элементарные речевые фрагменты; определение вокализованности каждого из фрагментов; определение, для каждого вокализованного элементарного речевого сегмента, частоты основного тона и параметров спектра; анализ и изменение параметров спектра; и синтез речевой последовательности. Технический результат достигается за счет того, что перед синтезом, в вокализованных сегментах приводят периоды основного тона каждого такого сегмента к нулевой начальной фазе путем переноса момента начала оцифровки в каждом периоде основного тона в точку пересечения огибающей с нулевой амплитудой, сглаживают возникающие на стыках периодов основного тона искажения и, при образовании дополнительного отсчета в конце приведенного периода основного тона, осуществляют передискретизацию такого периода, сохраняя его исходную длину. 1 з.п. ф-лы, 8 ил.

Description

Изобретение относится к анализу и синтезу речевой информации, выводимой из ЭВМ, и может быть использовано в информаторах-синтезаторах на транспорте, связи, измерительных и технологических комплексах, а также при обучении иностранным языкам и других областях человеческой деятельности.

Речевые технологии это одно из направлений информационных технологий, которое занимается проблемами общения человека с компьютером (или человека с человеком посредством компьютера) на основе использования естественного языка в звуковой его форме. Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач.

Эффективность решения прикладных задач в области речевых технологий определяется полнотой использования фонетических сведений, полученных при изучении свойств естественной речи.

Аналоговой по своей природе естественный речевой сигнал может быть представлен в виде значений амплитуды в заданные моменты времени, т.е. в виде последовательности чисел. Такая форма представления сигнала позволяет использовать для его обработки возможности вычислительной техники.

Представление речевого сигнала в цифровой форме открывает широкие возможности его анализа и обработки. Современные средства компьютерного анализа звуковых сигналов показывают осциллограмму или сонограмму звукового сигнала на экране монитора в виде статичного изображения, позволяют просматривать сигнал, передвигать от его начала к концу и наоборот, а также многократно прослушивать как весь сигнал, так и любой его фрагмент, и производит различного рода модификации (например, фильтрацию или нормализацию).

Известен способ анализа и синтеза речи, включающий сегментацию речевого сигнала, определение вокализованности каждого сегмента, формирование последовательности импульсов возбуждения периодических с периодом основного тона для вокализованных сегментов, формирование спектра исходного речевого сигнала и комплексно-сопряженного спектрального сигнала возбуждения и усреднение их произведения, псевдослучайные последовательности импульсов возбуждения формируют многократно, для сформированных псевдослучайных последовательностей формируют комплексно-сопряженные спектры и выделяют параметры спектральной огибающей исходного сигнала путем нормирования результатов усреднения произведений спектра исходного речевого сигнала и комплексно-сопряженного спектров псевдослучайных последовательностей на усредненный спектр сигналов возбуждения, причем при анализе невокализованных сегментов определяют лучшую псевдослучайную последовательность по критерию максимума суммы мощностей всех параметров спектральной огибающей, передают параметры спектральной огибающей для лучшей псевдослучайной последовательности и после приема формируют сигнал возбуждения, повторяющий лучшую псевдослучайную последовательность, формирование сигнала возбуждения, повторяющего сигнал возбуждения, формируемого для передачи параметров, и формирование синтезируемого речевого сигнала путем фильтрации сигнала возбуждения в соответствии с принятыми параметрами с последующей передачей и приемом выделенных параметров (А.с. №1434487).

Некоторая модификация этого способа изложена в А.с. №1501138, в котором дополнительно при определении координат разложения, усреднение выполняют с весами, совпадающими с базисными функциями, при определении спектральной огибающей суммируют сигналы разложения с весами, равными значениям элементов обратной корреляционной матрицы базисных функций, коэффициентами в которой являются принятые параметры спектральной огибающей исходного речевого сигнала, причем в качестве базисных функций используются В-сплайны.

Несмотря на сложную комплексную обработку речевого сигнала оба способа не в состоянии обеспечить качественное восстановление речевого сигнала, т.к. сведения о фонетической структуре сигнала не используются.

Вопросы анализа и синтеза речевой информации достаточно полно изложены в диссертации на соискание ученой степени доктора филологических наук Скрелина П.А. "Фонетические аспекты речевых технологий" (СПб ГУ, Санкт-Петербург, 1999 г.), которая и принята в качестве прототипа заявляемого изобретения.

Алгоритм способа анализа и синтеза речи, изложенный в диссертации П.А.Скрелина заключается в следующем:

- речевой сигнал поступает на вход звуковой карты компьютера, которая преобразует его в цифровую форму;

- осуществляется сегментация речевого потока с целью выделения элементарных речевых фрагментов и определения их параметров: вокализованности, разметки на периоды основного тона вокализованных фрагментов, параметров спектра. Размер и структура фрагментов зависит от задач решаемых синтезом;

- элементарные речевые фрагменты объединяют в звуковую базу;

- в соответствии со структурой синтезируемой речевой последовательности осуществляется выбор фрагментов из базы и модификация их просодических характеристик, в результате чего формируется звуковой сигнал;

- сформированный цифровой речевой сигнал воспроизводится звуковой картой компьютера или сохраняется в файл для дальнейшего хранения и/или обработки.

В диссертации выделено два подхода к синтезу речи. При первом - синтез основывается на построении действующей модели голосового аппарата человека, при втором - акустический сигнал моделируется как таковой. Первый подход известен под названием артикуляторного синтеза и на данный момент практически не применяется из-за сложности реализации. Второй подход разделяется на два основных направления: синтез по правилам и компилятивный синтез.

Синтез по правилам использует правила формирования физических характеристик звуков речи по их математическим описаниям. Так, формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, имитирующих резонаторы голосового тракта (LPC-модель). Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.

При компилятивном синтезе из естественной речевой последовательности вырезаются сегменты, из которых склеивается новая речевая последовательность. В зависимости от задачи сегменты могут иметь различный размер: от фрагмента фразы до субаллофона. В системах синтеза речи по произвольному тексту обычно используются сегменты, равные аллофонам, дифонам или субаллофонам.

На основе компилятивного синтеза построено множество систем, использующих разные типы звуковых фрагментов и различные методы составления звуковой базы. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь.

Известно много способов изменения основного тона. Автор рассматривает несколько способов, но остановился на использовании алгоритма TD-PSOLA (Time-Domain Pitch-Synchronous-Overlap-and-Add), которая использует оконный режим обработки сигнала и строится на точном выделении периодов основного тона. PSOLA обеспечивает достаточно высокое качество модификации основного тона, и позволяет управлять не только основной тон, но и длительность вокализованных звуков, путем удаления/размножения периодов основного тона.

Однако качество синтезируемого речевого сигнала оставляет желать лучшего, т.к. при модификации частоты основного тона по алгоритму PSOLA происходит искажение индивидуальных характеристик голоса. Кроме того, имеет место неестественность звучания модифицированного голоса и наличие высокочастотных искажений.

PSOLA выбрана автором в связи с тем, что другие способы обладают большими недостатками.

Изменения частоты основного тона в частотной области с помощью преобразования Фурье, вносит фазовые искажения в сигнал, что проявляется не только в его неестественности, но и часто в искажении его перцептивных характеристик. Кроме того, для точного изменения сигнала, требуется значительный объем звуковых данных. При работе с недостаточным количеством звуковых данных в сигнал вносятся дополнительные искажения.

Изменение частоты основного тона во временной области путем добавления в период отсчетов с нулевой амплитудой для понижения частоты основного тона и удаления части периода для повышения частоты основного тона приводит к появлению значительных искажений и шумов при изменении частоты основного тона более чем на 10-15% и несоответствию физической длительности периодов, воспринимаемой частоте основного тона.

Наши эксперименты показали, что качество синтеза может быть значительно увеличено за счет предварительной обработки фрагментов, выделенных из исходного сигнала.

Технической задачей предлагаемого изобретения является разработка способа анализа и синтеза оцифрованного речевого сигнала, включающего его обработку методом, не требующим специальных устройств, с улучшением качества полученного модулированного сигнала, позволяющего при синтезе речевого сигнала получить более достоверное воспроизведение звуков.

Технический результат достигается за счет того, что в известный способ, включающий аналого-цифровое преобразование речевого сигнала, сегментацию речевого сигнала на элементарные речевые фрагменты, определение вокализованности каждого сегмента, определение частоты основного тона и параметров спектра выделенного речевого фрагмента, которые анализируют и изменяют для получения синтезируемой речевой последовательности, а затем воспроизводят полученный сигнал введены изменения и дополнения, заключающиеся в том, что перед синтезом:

- вокализованные сегменты подвергают дополнительной обработке, заключающейся в приведении периодов основного тона речевого сигнала к нулевой начальной фазе путем переноса момента начала оцифровки речевого сигнала в каждом периоде в точку пересечения огибающей с нулевым уровнем амплитуды;

- последующее сглаживание искажений, возникающих на стыках приведенных периодов путем пересчета значений отсчетов в начале и в конце каждого периода методом интерполяции определенных отсчетов текущего и последующего периодов;

- далее, в случае необходимости, осуществляют передискретизацию обработанного периода, для сохранения количества отсчетов, равным количеству отсчетов в исходном периоде, причем при передискретизации значения первого и последнего отсчетов в приведенном периоде сохраняются.

Необходимость дополнительной предобработки цифрового звукового сигнала вызвана следующими причинами. При оцифровке речевого сигнала первый отсчет каждого периода сигнала отличен от нуля, т.е. соответствует некоторой начальной фазе. Последующие периоды также имеют некоторую начальную фазу, причем периоды, следующие один за другим, не обязательно имеют одинаковые начальные фазы. Можно выделить три основные причины возникновения начальных фаз:

- начало оцифровки сигнала не связано с началом звукового фрагмента, включаемого в базу;

- частота дискретизации не кратна длине периодов;

- периоды имеют различные длительности.

Наличие начальных фаз создает проблемы при анализе и модификации, как отдельных периодов, так и звуков в целом. Обычно длина одного периода не позволяет провести его полноценный спектральный анализ по причине недостаточного количества данных. Сигнал, полученный в результате размножения исследуемого периода, содержит высокочастотный шум, обусловленный разностью фаз первого и последнего отсчетов периода.

Частотный анализ с использованием нескольких последовательных периодов приводит к усреднению их спектров и потере уникальных свойств каждого отдельного периода. При синтезе русской речи, содержащей большое количество мягких звуков, усреднение свойств соседних периодов недопустимо.

При модификации периодов во временной области, например, по алгоритму PSOLA на стыках периодов также возникают "артефакты", связанные с отличием от нуля значений первого и последнего отсчетов.

Искусственное притягивание крайних отсчетов к нулю или добавление фиктивных нулевых отсчетов также вносит нежелательные искажения в сигнал.

Изменение длительности вокализованных звуковых фрагментов происходит за счет выбрасывания и размножения периодов основного тона, соответственно, на границах выброшенных/вставленных периодов возникают искажения.

С целью сокращения искажений предлагается привести периоды основного тона к нулевой начальной фазе. Для этого необходимо совместить начальные отсчеты периодов с сигналом в нулевой фазе, причем последние отсчеты периодов должны быть получены исходя из того, что первый отсчет следующего периода также будет приведен к нулевой начальной фазе, т.е. в идеале значения последних периодов отсчетов во всех периодах должны совпадать.

При построении приведенного сигнала используется линейная интерполяция:

,

где len - длина периода;

х - смещение отсчетов, необходимое для приведения первого отсчета к нулевому значению,

Величина смещения определяется как координата пересечения с нулем, отрезка, соединяющего последний отсчет предыдущего периода и первый отсчет текущего:

Согласно правилам выделения и разметки звуковых фрагментов последний отсчет любого периода должен иметь отрицательное значение, первый неотрицательное, т.е. должно соблюдаться условие - 0≤х≤1. (1.1)

Для первого периода каждого звукового фрагмента отсутствует информация о значении последнего отсчета предыдущего периода, поэтому делается предположение о равенстве его среднему значению последних отсчетов всех периодов фрагмента:

,

где

- последний отсчет последнего периода предыдущего звукового фрагмента;

у_in - последний отсчет периода i;

N - количество периодов в звуковом фрагменте.

Аналогичным образом для последних периодов всех звуковых фрагментов отсутствует информация о значениях первого отсчета последующих периодов. Они полагаются равными среднему значению первых отсчетов всех периодов фрагмента:

,

где

- первый отсчет первого периода последующего звукового фрагмента;

у_i0 - первый отсчет периода i.

При приведении периода к нулевой фазе происходит сдвиг отсчетов влево, что может вызвать появление дополнительного отсчета в конце периода. Если есть возможность корректировать разметку звуковых фрагментов, в нее следует внести соответствующие изменения. Если возможность изменить длину периода отсутствует, то необходимо передискретизировать сигнал, сохранив значения первого и последнего отсчетов.

При передискретизации используется формула (5), в которой значение смещения определяются как (6)

,

где (int) - означает отброс дробной части.

Значение последних отсчетов периода определяется из выражения (7):

где, у^fp - новое значение последнего отсчета всех периодов звукового фрагмента.

Выражение (7) определено экспериментально исходя из минимизации отклонения интегрального спектра приведенного сигнала. При формировании приведенного сигнала на границах периодов используется сглаживание искажений на стыках периодов путем пересчета значений отсчетов в начале и конце периода. При пересчете значений используется интерполяционный полином Лагранжа (8):

,

где уⁱ - сглаженное значение отсчета;

l - количество точек, участвующих в интерполяции.

В каждом периоде пересчитывается по четыре отсчета: по два в начале, и по два в конце периода.

При сравнении спектров исходного и приведенного периодов можно видеть значительное ослабление высокочастотной составляющей, т.е. влияния шума и искажений на стыках, поэтому при дальнейшем синтезе речевого сигнала достигается большее приближение звука к естественному.

Предлагаемый способ поясняется следующими чертежами, где:

Фиг.1 - элементарный звуковой фрагмент с разметкой на периоды основного тона;

Фиг.2 - пример невокализованного фрагмента;

Фиг.3 - определение величины смещения и перенос отсчетов;

Фиг.4 - перенос отсчетов с образованием в конце периода дополнительного отсчета;

Фиг.5 - схема сглаживания на стыках периодов;

Фиг.6 - приведенный и исходный периоды сигнала;

Фиг.7 - спектр исходного периода;

Фиг.8 - спектр приведенного периода.

Реализация предлагаемого способа анализа и синтеза речи осуществляется на персональном компьютере с использованием известного программного обеспечения и разработанного авторами изобретения.

Речевой сигнал в аналоговой форме поступает на вход компьютера, звуковой картой которого осуществляется преобразование его в цифровую форму. В сигнале выделяются определенные элементарные звуковые фрагменты (дифоны, субаллофоны или аллофоны) (см. фиг.1, 2).

Далее осуществляют сегментацию выделенных звуковых фрагментов, в результате чего происходит разделение элементарных звуковых фрагментов на вокализованные и невокализованные (см. фиг.1) и выделение периодов основного тона для вокализованных звуковых фрагментов.

Далее осуществляют предобработку полученных вокализованных фрагментов как было выше описано. На фиг.3 показано определение величины смещения (формула 2) и направление переноса отсчетов вдоль огибающей. Видно, что за начало отсчета принимается точка пересечения огибающей с нулем.

При переносе отсчетов используется линейный закон (формула 1). Форма сигнала при этом сохраняется.

На фиг.4 показано, почему возможно образование дополнительного отсчета в конце периода и как это происходит. В случае, если образовался дополнительный отсчет и нет возможности изменить разметку сегментов, производят передискретизацию периода, и, таким образом, сохраняют длину периода равной исходной. При передискретизации значения первого и последнего отсчетов периода сохраняют.

На фиг.5 приведена общая схема сглаживания сигнала на стыках периодов. При сглаживании используют интерполяционный полином Лагранжа (формула 8). При сглаживании начальных периодов используют четыре точки (1=4), имеющие следующие координаты:

,

;

,

.

При сглаживании внутренних периодов используют шесть точек (1=6), имеющих следующие координаты:

,

;

,

;

При сглаживании конечных периодов используют четыре точки (l=4), имеющие следующие координаты:

,

;

Исходный и приведенный периоды показаны на фиг.6.

Для оценки результата предлагаемой обработки сигнала сравним спектры исходного (фиг.7) и приведенного (фиг.8) периодов. Результаты сравнения показывают, что лучше всего эффект проведенных преобразований заметен на частотах выше 4 кГц.

В примере описан процесс обработки одного вокализованного фрагмента. Аналогичным образом обрабатываются все вокализованные фрагменты базы. Дальнейшая модификация просодических характеристик элементарных звуковых фрагментов (как вокализованных, так и не вокализованных) производится по прототипу, как было описано выше. Для вокализованных фрагментов применяется алгоритм PSOLA, а для невокализованных изменение длительности производится за счет размножения (вырезания) случайных групп отсчетов центрального сегмента. Эти методы широко применяются в системах синтеза речи.

Далее синтезированный сигнал сохраняется в файл либо воспроизводится звуковой картой компьютера.

Преимущество предлагаемого способа анализа и синтеза заключается в том, что в результате предобработки искажения, вносимые в сигнал на этапе синтеза, значительно сокращаются. В результате чего синтезированный голос звучит чище и естественнее.

В настоящее время предложенный способ прошел опытную проверку и внедряется в сервере синтеза речи по тексту, предназначенном для работы в составе телекоммуникационных систем (автоинформаторы, серверы развлечений и т.д.).

Claims

1. Способ анализа и синтеза речи, включающий в себя аналого-цифровое преобразование речевого сигнала, сегментацию преобразованного в цифровую форму речевого сигнала на элементарные речевые фрагменты, определение вокализованности каждого из элементарных речевых фрагментов, определение для каждого вокализованного элементарного речевого сегмента частоты основного тона и параметров спектра, анализ и изменение параметров спектра для получения синтезируемой речевой последовательности, синтез речевой последовательности, отличающийся тем, что перед синтезом вокализованные элементарные речевые сегменты подвергают дополнительной обработке, в ходе которой приводят периоды основного тона каждого вокализованного элементарного речевого сегмента к нулевой начальной фазе путем переноса момента начала оцифровки речевого сигнала в каждом периоде основного тона в точку пересечения огибающей с нулевым уровнем амплитуды, затем сглаживают искажения, возникающие на стыках периодов основного тона, при таком приведении и в случае образования дополнительного отсчета в конце приведенного периода основного тона осуществляют передискретизацию такого приведенного периода основного тона, сохраняя его исходную длину.

2. Способ по п.1, отличающийся тем, что сглаживание искажений, возникающих на стыках приведенных периодов, осуществляют путем пересчета значений отсчетов в начале и в конце приведенного периода, методом интерполяции определенных отсчетов текущего и последующего приведенных периодов.