RU2296377C2 - Способ анализа и синтеза речи - Google Patents
Способ анализа и синтеза речи Download PDFInfo
- Publication number
- RU2296377C2 RU2296377C2 RU2005118283/09A RU2005118283A RU2296377C2 RU 2296377 C2 RU2296377 C2 RU 2296377C2 RU 2005118283/09 A RU2005118283/09 A RU 2005118283/09A RU 2005118283 A RU2005118283 A RU 2005118283A RU 2296377 C2 RU2296377 C2 RU 2296377C2
- Authority
- RU
- Russia
- Prior art keywords
- speech
- periods
- period
- signal
- synthesis
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 36
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 title claims abstract description 13
- 239000012634 fragment Substances 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000005284 excitation Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Изобретение относится к анализу и синтезу речевой информации, выводимой из ЭВМ. Его использование в информаторах-синтезаторах на транспорте, связи, измерительных и технологических комплексах, а также при обучении иностранным языкам обеспечивает улучшение качества полученного модулированного сигнала, что позволяет при синтезе речевого сигнала получить более достоверное воспроизведение звуков. Способ включает в себя: аналого-цифровое преобразование речевого сигнала; сегментацию преобразованного сигнала на элементарные речевые фрагменты; определение вокализованности каждого из фрагментов; определение, для каждого вокализованного элементарного речевого сегмента, частоты основного тона и параметров спектра; анализ и изменение параметров спектра; и синтез речевой последовательности. Технический результат достигается за счет того, что перед синтезом, в вокализованных сегментах приводят периоды основного тона каждого такого сегмента к нулевой начальной фазе путем переноса момента начала оцифровки в каждом периоде основного тона в точку пересечения огибающей с нулевой амплитудой, сглаживают возникающие на стыках периодов основного тона искажения и, при образовании дополнительного отсчета в конце приведенного периода основного тона, осуществляют передискретизацию такого периода, сохраняя его исходную длину. 1 з.п. ф-лы, 8 ил.
Description
Изобретение относится к анализу и синтезу речевой информации, выводимой из ЭВМ, и может быть использовано в информаторах-синтезаторах на транспорте, связи, измерительных и технологических комплексах, а также при обучении иностранным языкам и других областях человеческой деятельности.
Речевые технологии это одно из направлений информационных технологий, которое занимается проблемами общения человека с компьютером (или человека с человеком посредством компьютера) на основе использования естественного языка в звуковой его форме. Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач.
Эффективность решения прикладных задач в области речевых технологий определяется полнотой использования фонетических сведений, полученных при изучении свойств естественной речи.
Аналоговой по своей природе естественный речевой сигнал может быть представлен в виде значений амплитуды в заданные моменты времени, т.е. в виде последовательности чисел. Такая форма представления сигнала позволяет использовать для его обработки возможности вычислительной техники.
Представление речевого сигнала в цифровой форме открывает широкие возможности его анализа и обработки. Современные средства компьютерного анализа звуковых сигналов показывают осциллограмму или сонограмму звукового сигнала на экране монитора в виде статичного изображения, позволяют просматривать сигнал, передвигать от его начала к концу и наоборот, а также многократно прослушивать как весь сигнал, так и любой его фрагмент, и производит различного рода модификации (например, фильтрацию или нормализацию).
Известен способ анализа и синтеза речи, включающий сегментацию речевого сигнала, определение вокализованности каждого сегмента, формирование последовательности импульсов возбуждения периодических с периодом основного тона для вокализованных сегментов, формирование спектра исходного речевого сигнала и комплексно-сопряженного спектрального сигнала возбуждения и усреднение их произведения, псевдослучайные последовательности импульсов возбуждения формируют многократно, для сформированных псевдослучайных последовательностей формируют комплексно-сопряженные спектры и выделяют параметры спектральной огибающей исходного сигнала путем нормирования результатов усреднения произведений спектра исходного речевого сигнала и комплексно-сопряженного спектров псевдослучайных последовательностей на усредненный спектр сигналов возбуждения, причем при анализе невокализованных сегментов определяют лучшую псевдослучайную последовательность по критерию максимума суммы мощностей всех параметров спектральной огибающей, передают параметры спектральной огибающей для лучшей псевдослучайной последовательности и после приема формируют сигнал возбуждения, повторяющий лучшую псевдослучайную последовательность, формирование сигнала возбуждения, повторяющего сигнал возбуждения, формируемого для передачи параметров, и формирование синтезируемого речевого сигнала путем фильтрации сигнала возбуждения в соответствии с принятыми параметрами с последующей передачей и приемом выделенных параметров (А.с. №1434487).
Некоторая модификация этого способа изложена в А.с. №1501138, в котором дополнительно при определении координат разложения, усреднение выполняют с весами, совпадающими с базисными функциями, при определении спектральной огибающей суммируют сигналы разложения с весами, равными значениям элементов обратной корреляционной матрицы базисных функций, коэффициентами в которой являются принятые параметры спектральной огибающей исходного речевого сигнала, причем в качестве базисных функций используются В-сплайны.
Несмотря на сложную комплексную обработку речевого сигнала оба способа не в состоянии обеспечить качественное восстановление речевого сигнала, т.к. сведения о фонетической структуре сигнала не используются.
Вопросы анализа и синтеза речевой информации достаточно полно изложены в диссертации на соискание ученой степени доктора филологических наук Скрелина П.А. "Фонетические аспекты речевых технологий" (СПб ГУ, Санкт-Петербург, 1999 г.), которая и принята в качестве прототипа заявляемого изобретения.
Алгоритм способа анализа и синтеза речи, изложенный в диссертации П.А.Скрелина заключается в следующем:
- речевой сигнал поступает на вход звуковой карты компьютера, которая преобразует его в цифровую форму;
- осуществляется сегментация речевого потока с целью выделения элементарных речевых фрагментов и определения их параметров: вокализованности, разметки на периоды основного тона вокализованных фрагментов, параметров спектра. Размер и структура фрагментов зависит от задач решаемых синтезом;
- элементарные речевые фрагменты объединяют в звуковую базу;
- в соответствии со структурой синтезируемой речевой последовательности осуществляется выбор фрагментов из базы и модификация их просодических характеристик, в результате чего формируется звуковой сигнал;
- сформированный цифровой речевой сигнал воспроизводится звуковой картой компьютера или сохраняется в файл для дальнейшего хранения и/или обработки.
В диссертации выделено два подхода к синтезу речи. При первом - синтез основывается на построении действующей модели голосового аппарата человека, при втором - акустический сигнал моделируется как таковой. Первый подход известен под названием артикуляторного синтеза и на данный момент практически не применяется из-за сложности реализации. Второй подход разделяется на два основных направления: синтез по правилам и компилятивный синтез.
Синтез по правилам использует правила формирования физических характеристик звуков речи по их математическим описаниям. Так, формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, имитирующих резонаторы голосового тракта (LPC-модель). Разделение возбуждающего сигнала и передаточной функции голосового тракта составляет основу классической акустической теории речеобразования.
При компилятивном синтезе из естественной речевой последовательности вырезаются сегменты, из которых склеивается новая речевая последовательность. В зависимости от задачи сегменты могут иметь различный размер: от фрагмента фразы до субаллофона. В системах синтеза речи по произвольному тексту обычно используются сегменты, равные аллофонам, дифонам или субаллофонам.
На основе компилятивного синтеза построено множество систем, использующих разные типы звуковых фрагментов и различные методы составления звуковой базы. В таких системах необходимо применять обработку сигнала для приведения частоты основного тона, энергии и длительности единиц к тем, которыми должна характеризоваться синтезируемая речь.
Известно много способов изменения основного тона. Автор рассматривает несколько способов, но остановился на использовании алгоритма TD-PSOLA (Time-Domain Pitch-Synchronous-Overlap-and-Add), которая использует оконный режим обработки сигнала и строится на точном выделении периодов основного тона. PSOLA обеспечивает достаточно высокое качество модификации основного тона, и позволяет управлять не только основной тон, но и длительность вокализованных звуков, путем удаления/размножения периодов основного тона.
Однако качество синтезируемого речевого сигнала оставляет желать лучшего, т.к. при модификации частоты основного тона по алгоритму PSOLA происходит искажение индивидуальных характеристик голоса. Кроме того, имеет место неестественность звучания модифицированного голоса и наличие высокочастотных искажений.
PSOLA выбрана автором в связи с тем, что другие способы обладают большими недостатками.
Изменения частоты основного тона в частотной области с помощью преобразования Фурье, вносит фазовые искажения в сигнал, что проявляется не только в его неестественности, но и часто в искажении его перцептивных характеристик. Кроме того, для точного изменения сигнала, требуется значительный объем звуковых данных. При работе с недостаточным количеством звуковых данных в сигнал вносятся дополнительные искажения.
Изменение частоты основного тона во временной области путем добавления в период отсчетов с нулевой амплитудой для понижения частоты основного тона и удаления части периода для повышения частоты основного тона приводит к появлению значительных искажений и шумов при изменении частоты основного тона более чем на 10-15% и несоответствию физической длительности периодов, воспринимаемой частоте основного тона.
Наши эксперименты показали, что качество синтеза может быть значительно увеличено за счет предварительной обработки фрагментов, выделенных из исходного сигнала.
Технической задачей предлагаемого изобретения является разработка способа анализа и синтеза оцифрованного речевого сигнала, включающего его обработку методом, не требующим специальных устройств, с улучшением качества полученного модулированного сигнала, позволяющего при синтезе речевого сигнала получить более достоверное воспроизведение звуков.
Технический результат достигается за счет того, что в известный способ, включающий аналого-цифровое преобразование речевого сигнала, сегментацию речевого сигнала на элементарные речевые фрагменты, определение вокализованности каждого сегмента, определение частоты основного тона и параметров спектра выделенного речевого фрагмента, которые анализируют и изменяют для получения синтезируемой речевой последовательности, а затем воспроизводят полученный сигнал введены изменения и дополнения, заключающиеся в том, что перед синтезом:
- вокализованные сегменты подвергают дополнительной обработке, заключающейся в приведении периодов основного тона речевого сигнала к нулевой начальной фазе путем переноса момента начала оцифровки речевого сигнала в каждом периоде в точку пересечения огибающей с нулевым уровнем амплитуды;
- последующее сглаживание искажений, возникающих на стыках приведенных периодов путем пересчета значений отсчетов в начале и в конце каждого периода методом интерполяции определенных отсчетов текущего и последующего периодов;
- далее, в случае необходимости, осуществляют передискретизацию обработанного периода, для сохранения количества отсчетов, равным количеству отсчетов в исходном периоде, причем при передискретизации значения первого и последнего отсчетов в приведенном периоде сохраняются.
Необходимость дополнительной предобработки цифрового звукового сигнала вызвана следующими причинами. При оцифровке речевого сигнала первый отсчет каждого периода сигнала отличен от нуля, т.е. соответствует некоторой начальной фазе. Последующие периоды также имеют некоторую начальную фазу, причем периоды, следующие один за другим, не обязательно имеют одинаковые начальные фазы. Можно выделить три основные причины возникновения начальных фаз:
- начало оцифровки сигнала не связано с началом звукового фрагмента, включаемого в базу;
- частота дискретизации не кратна длине периодов;
- периоды имеют различные длительности.
Наличие начальных фаз создает проблемы при анализе и модификации, как отдельных периодов, так и звуков в целом. Обычно длина одного периода не позволяет провести его полноценный спектральный анализ по причине недостаточного количества данных. Сигнал, полученный в результате размножения исследуемого периода, содержит высокочастотный шум, обусловленный разностью фаз первого и последнего отсчетов периода.
Частотный анализ с использованием нескольких последовательных периодов приводит к усреднению их спектров и потере уникальных свойств каждого отдельного периода. При синтезе русской речи, содержащей большое количество мягких звуков, усреднение свойств соседних периодов недопустимо.
При модификации периодов во временной области, например, по алгоритму PSOLA на стыках периодов также возникают "артефакты", связанные с отличием от нуля значений первого и последнего отсчетов.
Искусственное притягивание крайних отсчетов к нулю или добавление фиктивных нулевых отсчетов также вносит нежелательные искажения в сигнал.
Изменение длительности вокализованных звуковых фрагментов происходит за счет выбрасывания и размножения периодов основного тона, соответственно, на границах выброшенных/вставленных периодов возникают искажения.
С целью сокращения искажений предлагается привести периоды основного тона к нулевой начальной фазе. Для этого необходимо совместить начальные отсчеты периодов с сигналом в нулевой фазе, причем последние отсчеты периодов должны быть получены исходя из того, что первый отсчет следующего периода также будет приведен к нулевой начальной фазе, т.е. в идеале значения последних периодов отсчетов во всех периодах должны совпадать.
При построении приведенного сигнала используется линейная интерполяция:
где len - длина периода;
х - смещение отсчетов, необходимое для приведения первого отсчета к нулевому значению,
Величина смещения определяется как координата пересечения с нулем, отрезка, соединяющего последний отсчет предыдущего периода и первый отсчет текущего:
Согласно правилам выделения и разметки звуковых фрагментов последний отсчет любого периода должен иметь отрицательное значение, первый неотрицательное, т.е. должно соблюдаться условие - 0≤х≤1. (1.1)
Для первого периода каждого звукового фрагмента отсутствует информация о значении последнего отсчета предыдущего периода, поэтому делается предположение о равенстве его среднему значению последних отсчетов всех периодов фрагмента:
уin - последний отсчет периода i;
N - количество периодов в звуковом фрагменте.
Аналогичным образом для последних периодов всех звуковых фрагментов отсутствует информация о значениях первого отсчета последующих периодов. Они полагаются равными среднему значению первых отсчетов всех периодов фрагмента:
уi0 - первый отсчет периода i.
При приведении периода к нулевой фазе происходит сдвиг отсчетов влево, что может вызвать появление дополнительного отсчета в конце периода. Если есть возможность корректировать разметку звуковых фрагментов, в нее следует внести соответствующие изменения. Если возможность изменить длину периода отсутствует, то необходимо передискретизировать сигнал, сохранив значения первого и последнего отсчетов.
При передискретизации используется формула (5), в которой значение смещения определяются как (6)
где (int) - означает отброс дробной части.
Значение последних отсчетов периода определяется из выражения (7):
где, уfp - новое значение последнего отсчета всех периодов звукового фрагмента.
Выражение (7) определено экспериментально исходя из минимизации отклонения интегрального спектра приведенного сигнала. При формировании приведенного сигнала на границах периодов используется сглаживание искажений на стыках периодов путем пересчета значений отсчетов в начале и конце периода. При пересчете значений используется интерполяционный полином Лагранжа (8):
где уi - сглаженное значение отсчета;
l - количество точек, участвующих в интерполяции.
В каждом периоде пересчитывается по четыре отсчета: по два в начале, и по два в конце периода.
При сравнении спектров исходного и приведенного периодов можно видеть значительное ослабление высокочастотной составляющей, т.е. влияния шума и искажений на стыках, поэтому при дальнейшем синтезе речевого сигнала достигается большее приближение звука к естественному.
Предлагаемый способ поясняется следующими чертежами, где:
Фиг.1 - элементарный звуковой фрагмент с разметкой на периоды основного тона;
Фиг.2 - пример невокализованного фрагмента;
Фиг.3 - определение величины смещения и перенос отсчетов;
Фиг.4 - перенос отсчетов с образованием в конце периода дополнительного отсчета;
Фиг.5 - схема сглаживания на стыках периодов;
Фиг.6 - приведенный и исходный периоды сигнала;
Фиг.7 - спектр исходного периода;
Фиг.8 - спектр приведенного периода.
Реализация предлагаемого способа анализа и синтеза речи осуществляется на персональном компьютере с использованием известного программного обеспечения и разработанного авторами изобретения.
Речевой сигнал в аналоговой форме поступает на вход компьютера, звуковой картой которого осуществляется преобразование его в цифровую форму. В сигнале выделяются определенные элементарные звуковые фрагменты (дифоны, субаллофоны или аллофоны) (см. фиг.1, 2).
Далее осуществляют сегментацию выделенных звуковых фрагментов, в результате чего происходит разделение элементарных звуковых фрагментов на вокализованные и невокализованные (см. фиг.1) и выделение периодов основного тона для вокализованных звуковых фрагментов.
Далее осуществляют предобработку полученных вокализованных фрагментов как было выше описано. На фиг.3 показано определение величины смещения (формула 2) и направление переноса отсчетов вдоль огибающей. Видно, что за начало отсчета принимается точка пересечения огибающей с нулем.
При переносе отсчетов используется линейный закон (формула 1). Форма сигнала при этом сохраняется.
На фиг.4 показано, почему возможно образование дополнительного отсчета в конце периода и как это происходит. В случае, если образовался дополнительный отсчет и нет возможности изменить разметку сегментов, производят передискретизацию периода, и, таким образом, сохраняют длину периода равной исходной. При передискретизации значения первого и последнего отсчетов периода сохраняют.
На фиг.5 приведена общая схема сглаживания сигнала на стыках периодов. При сглаживании используют интерполяционный полином Лагранжа (формула 8). При сглаживании начальных периодов используют четыре точки (1=4), имеющие следующие координаты:
При сглаживании внутренних периодов используют шесть точек (1=6), имеющих следующие координаты:
При сглаживании конечных периодов используют четыре точки (l=4), имеющие следующие координаты:
Исходный и приведенный периоды показаны на фиг.6.
Для оценки результата предлагаемой обработки сигнала сравним спектры исходного (фиг.7) и приведенного (фиг.8) периодов. Результаты сравнения показывают, что лучше всего эффект проведенных преобразований заметен на частотах выше 4 кГц.
В примере описан процесс обработки одного вокализованного фрагмента. Аналогичным образом обрабатываются все вокализованные фрагменты базы. Дальнейшая модификация просодических характеристик элементарных звуковых фрагментов (как вокализованных, так и не вокализованных) производится по прототипу, как было описано выше. Для вокализованных фрагментов применяется алгоритм PSOLA, а для невокализованных изменение длительности производится за счет размножения (вырезания) случайных групп отсчетов центрального сегмента. Эти методы широко применяются в системах синтеза речи.
Далее синтезированный сигнал сохраняется в файл либо воспроизводится звуковой картой компьютера.
Преимущество предлагаемого способа анализа и синтеза заключается в том, что в результате предобработки искажения, вносимые в сигнал на этапе синтеза, значительно сокращаются. В результате чего синтезированный голос звучит чище и естественнее.
В настоящее время предложенный способ прошел опытную проверку и внедряется в сервере синтеза речи по тексту, предназначенном для работы в составе телекоммуникационных систем (автоинформаторы, серверы развлечений и т.д.).
Claims (2)
1. Способ анализа и синтеза речи, включающий в себя аналого-цифровое преобразование речевого сигнала, сегментацию преобразованного в цифровую форму речевого сигнала на элементарные речевые фрагменты, определение вокализованности каждого из элементарных речевых фрагментов, определение для каждого вокализованного элементарного речевого сегмента частоты основного тона и параметров спектра, анализ и изменение параметров спектра для получения синтезируемой речевой последовательности, синтез речевой последовательности, отличающийся тем, что перед синтезом вокализованные элементарные речевые сегменты подвергают дополнительной обработке, в ходе которой приводят периоды основного тона каждого вокализованного элементарного речевого сегмента к нулевой начальной фазе путем переноса момента начала оцифровки речевого сигнала в каждом периоде основного тона в точку пересечения огибающей с нулевым уровнем амплитуды, затем сглаживают искажения, возникающие на стыках периодов основного тона, при таком приведении и в случае образования дополнительного отсчета в конце приведенного периода основного тона осуществляют передискретизацию такого приведенного периода основного тона, сохраняя его исходную длину.
2. Способ по п.1, отличающийся тем, что сглаживание искажений, возникающих на стыках приведенных периодов, осуществляют путем пересчета значений отсчетов в начале и в конце приведенного периода, методом интерполяции определенных отсчетов текущего и последующего приведенных периодов.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2005118283/09A RU2296377C2 (ru) | 2005-06-14 | 2005-06-14 | Способ анализа и синтеза речи |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2005118283/09A RU2296377C2 (ru) | 2005-06-14 | 2005-06-14 | Способ анализа и синтеза речи |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2005118283A RU2005118283A (ru) | 2006-12-27 |
RU2296377C2 true RU2296377C2 (ru) | 2007-03-27 |
Family
ID=37759296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005118283/09A RU2296377C2 (ru) | 2005-06-14 | 2005-06-14 | Способ анализа и синтеза речи |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2296377C2 (ru) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2435232C1 (ru) * | 2010-08-09 | 2011-11-27 | Михаил Николаевич Гусев | Способ машинной оценки качества передачи речи |
RU2445718C1 (ru) * | 2010-08-31 | 2012-03-20 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале |
RU2585999C2 (ru) * | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование шума в аудиокодеках |
US9384739B2 (en) | 2011-02-14 | 2016-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for error concealment in low-delay unified speech and audio coding |
US9536530B2 (en) | 2011-02-14 | 2017-01-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
US9583110B2 (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
US9595263B2 (en) | 2011-02-14 | 2017-03-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
US9595262B2 (en) | 2011-02-14 | 2017-03-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Linear prediction based coding scheme using spectral domain noise shaping |
US9620129B2 (en) | 2011-02-14 | 2017-04-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3830977A (en) * | 1971-03-26 | 1974-08-20 | Thomson Csf | Speech-systhesiser |
SU1434487A1 (ru) * | 1986-06-26 | 1988-10-30 | Предприятие П/Я А-1687 | Способ анализа и синтеза речи и устройство дл его осуществлени |
SU1501138A1 (ru) * | 1986-09-09 | 1989-08-15 | Предприятие П/Я А-1687 | Способ анализа и синтеза речи и устройство дл его осуществлени |
US5001758A (en) * | 1986-04-30 | 1991-03-19 | International Business Machines Corporation | Voice coding process and device for implementing said process |
US5111505A (en) * | 1988-07-21 | 1992-05-05 | Sharp Kabushiki Kaisha | System and method for reducing distortion in voice synthesis through improved interpolation |
WO2000030073A1 (en) * | 1998-11-13 | 2000-05-25 | Qualcomm Incorporated | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US20040220801A1 (en) * | 2001-08-31 | 2004-11-04 | Yasushi Sato | Pitch waveform signal generating apparatus, pitch waveform signal generation method and program |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
-
2005
- 2005-06-14 RU RU2005118283/09A patent/RU2296377C2/ru not_active IP Right Cessation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3830977A (en) * | 1971-03-26 | 1974-08-20 | Thomson Csf | Speech-systhesiser |
US5001758A (en) * | 1986-04-30 | 1991-03-19 | International Business Machines Corporation | Voice coding process and device for implementing said process |
SU1434487A1 (ru) * | 1986-06-26 | 1988-10-30 | Предприятие П/Я А-1687 | Способ анализа и синтеза речи и устройство дл его осуществлени |
SU1501138A1 (ru) * | 1986-09-09 | 1989-08-15 | Предприятие П/Я А-1687 | Способ анализа и синтеза речи и устройство дл его осуществлени |
US5111505A (en) * | 1988-07-21 | 1992-05-05 | Sharp Kabushiki Kaisha | System and method for reducing distortion in voice synthesis through improved interpolation |
WO2000030073A1 (en) * | 1998-11-13 | 2000-05-25 | Qualcomm Incorporated | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US20040220801A1 (en) * | 2001-08-31 | 2004-11-04 | Yasushi Sato | Pitch waveform signal generating apparatus, pitch waveform signal generation method and program |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2435232C1 (ru) * | 2010-08-09 | 2011-11-27 | Михаил Николаевич Гусев | Способ машинной оценки качества передачи речи |
RU2445718C1 (ru) * | 2010-08-31 | 2012-03-20 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале |
RU2585999C2 (ru) * | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование шума в аудиокодеках |
US9384739B2 (en) | 2011-02-14 | 2016-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for error concealment in low-delay unified speech and audio coding |
US9536530B2 (en) | 2011-02-14 | 2017-01-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
US9583110B2 (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
US9595263B2 (en) | 2011-02-14 | 2017-03-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
US9595262B2 (en) | 2011-02-14 | 2017-03-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Linear prediction based coding scheme using spectral domain noise shaping |
US9620129B2 (en) | 2011-02-14 | 2017-04-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
US9916825B2 (en) | 2015-09-29 | 2018-03-13 | Yandex Europe Ag | Method and system for text-to-speech synthesis |
Also Published As
Publication number | Publication date |
---|---|
RU2005118283A (ru) | 2006-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8706496B2 (en) | Audio signal transforming by utilizing a computational cost function | |
US5327498A (en) | Processing device for speech synthesis by addition overlapping of wave forms | |
EP0993674B1 (en) | Pitch detection | |
JP2763322B2 (ja) | 音声処理方法 | |
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
JPH0677200B2 (ja) | デジタル化テキストの音声合成用デジタルプロセッサ | |
US8229738B2 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
EP0995190B1 (en) | Audio coding based on determining a noise contribution from a phase change | |
EP3537432A1 (en) | Voice synthesis method | |
JPS62160495A (ja) | 音声合成装置 | |
RU2296377C2 (ru) | Способ анализа и синтеза речи | |
Quatieri et al. | Phase coherence in speech reconstruction for enhancement and coding applications | |
EP0391545A1 (en) | Speech synthesizer | |
JP2001513225A (ja) | 伸長オーディオ信号からの周期性の除去 | |
Acero | Source-filter models for time-scale pitch-scale modification of speech | |
EP1543497B1 (en) | Method of synthesis for a steady sound signal | |
US4075424A (en) | Speech synthesizing apparatus | |
McCree et al. | Implementation and evaluation of a 2400 bit/s mixed excitation LPC vocoder | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JPH07261798A (ja) | 音声分析合成装置 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JPS62102294A (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110615 |