RU2445719C2 - Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders - Google Patents
Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders Download PDFInfo
- Publication number
- RU2445719C2 RU2445719C2 RU2010115914/08A RU2010115914A RU2445719C2 RU 2445719 C2 RU2445719 C2 RU 2445719C2 RU 2010115914/08 A RU2010115914/08 A RU 2010115914/08A RU 2010115914 A RU2010115914 A RU 2010115914A RU 2445719 C2 RU2445719 C2 RU 2445719C2
- Authority
- RU
- Russia
- Prior art keywords
- speech
- synthesis
- linear prediction
- iteration
- vocoders
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 26
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 23
- 230000008447 perception Effects 0.000 title claims abstract description 17
- 230000002708 enhancing effect Effects 0.000 title abstract 2
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 206010021403 Illusion Diseases 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 238000010501 iterative synthesis reaction Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 13
- 230000035807 sensation Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием.The invention relates to the field of digital communication and can be used in telecommunication communication systems when implementing the analysis procedure through synthesis in vocoders with linear prediction.
В настоящее время наблюдается широкое использование информационных технологий в телекоммуникационных сетях связи. Переход к цифровой обработке сигналов и пакетной передаче данных позволил предоставить пользователям более широкий спектр инфокоммуникационных услуг. При этом достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов.Currently, there is a widespread use of information technology in telecommunication networks. The transition to digital signal processing and packet data transmission has allowed us to provide users with a wider range of information and communication services. Moreover, a rather large part of teletraffic in various applications is the transmission of speech signals.
Основной проблемой цифрового представления речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Часто в некоторых задачах кодирования речевого сигнала предполагается снизить скорость передачи при сохранении качественных показателей ее восприятия. В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи основанных на принципе коммутации пакетов уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.The main problem of the digital representation of the speech signal is the task of high-quality and compact data coding for their transmission via digital communication channels. The solution to this problem will allow, under the conditions of a specified communication quality criterion, to increase the throughput of linear paths and transmission channels. Often, in some tasks of encoding a speech signal, it is supposed to reduce the transmission rate while maintaining qualitative indicators of its perception. In codecs of speech signals with a variable transmission rate, oriented to use based on the principle of packet switching in communication systems, it is appropriate to talk about a decrease in the average transmission rate while maintaining the quality of the synthesized speech signal.
Среди многообразия методов кодирования речевых сигналов одним из наиболее эффективных является метод линейного предсказания. Метод линейного предсказания речи принадлежит к классу методов, использующих модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). Анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности. Для повышения качества синтезированного речевого сигнала во многих алгоритмах кодирования речи на основе линейного предсказания усложняют представления сигнала возбуждения для того, чтобы с одной стороны компактно передать его на приемную сторону, а с другой - приблизить его к виду ошибки предсказания как идеальному сигналу воздействия на фильтр синтеза. Дополнительно вводятся разные варианты квантования различных параметров липредера (скалярное, векторное и каскадное векторное).Among the variety of methods for encoding speech signals, one of the most effective is the linear prediction method. The linear speech prediction method belongs to the class of methods using the speech signal model in the form of a response of a linear system with variable parameters (voice path) to the corresponding excitation signal (generating signal). The analyzer of the speech-converting device extracts from the short segment of the speech signal the state parameters of the linear system and the excitation signal, allowing the synthesizer to restore the original signal with the required degree of fidelity. To improve the quality of the synthesized speech signal in many linear-prediction-based speech coding algorithms, the excitation signal is complicated to represent in order to compactly transmit it to the receiving side, and on the other, to bring it closer to the form of prediction errors as an ideal signal for influencing the synthesis filter . In addition, different quantization options for various parameters of the lipreader (scalar, vector, and cascade vector) are introduced.
Известны различные алгоритмы низкоскоростного кодирования речи в вокодерах с линейным предсказанием (О.И.Шелухин, Н.Ф.Лукьянцев Цифровая обработка и передача речи. - М.: Радио и Связь, 2000 г. - С.102-166; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428). Во многих из них одной из базовых операций при низкоскоростном кодировании является процедура анализа через синтез. Достаточно подробно ее описание представлено в (О.И.Шелухин, Н.Ф.Лукьянцев Цифровая обработка и передача речи. - М.: Радио и Связь, 2000 г. - С.108-112).There are various algorithms for low-speed speech coding in vocoders with linear prediction (O.I. Shelukhin, N.F. Lukyantsev Digital processing and transmission of speech. - M .: Radio and Communication, 2000 - P.102-166; Rabiner L. R., Shafer R.V. Digital processing of speech signals. - M.: Radio and communications, 1981. - S.365-428). In many of them, one of the basic operations in low-speed coding is the analysis procedure through synthesis. A fairly detailed description of it is presented in (O.I.Shelukhin, N.F. Lukyantsev Digital processing and transmission of speech. - M: Radio and Communication, 2000 - S.108-112).
Данная процедура является итерационной и направлена на вычисление наилучших в рамках заданных ограничений параметров кодека с линейным предсказанием, при этом V - количество возможных итераций. При этом в кодере реализуется синтез речевого сигнала и дальнейший анализ пригодности выбранных параметров с целью их передачи по каналу связи на приемную сторону, где будет реализована процедура синтеза. Отсюда и название данной процедуры.This procedure is iterative and is aimed at calculating the best linear codec parameters of the codec within the given constraints, and V is the number of possible iterations. At the same time, the synthesis of the speech signal and the further analysis of the suitability of the selected parameters are implemented in the encoder in order to transmit them via the communication channel to the receiving side, where the synthesis procedure will be implemented. Hence the name of this procedure.
Исследования в области речевого кодирования указали на необходимость использования перцептуальных особенностей слуха человека (Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания. Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007. - С.13-21, 123-132). Однако до сих пор в качестве критерия выбора параметров кодека с линейным предсказанием при реализации процедуры анализа через синтез используются либо среднеквадратическое отклонение (1), либо суммарное (2) или сегментированное (3) отношение сигнал/шум (ОСШ), основанные на метрике Евклида и не учитывающие перцептуальную важность параметров кодека при синтезе речевого сигнала (патенты US №5235669 от 10.08.1993, RU №2248619 от 20.03.2005, RU №2331933 от 20.08.2008, RU №2343564 от 10.01.2009, US №6859775 от 22.02.2005).Research in the field of speech coding indicated the need to use the perceptual characteristics of human hearing (Popov OB, Richter SG Digital signal processing in sound broadcasting paths. Textbook for universities. - M .: Hot line - Telecom, 2007. - S.13-21, 123-132). However, until now, as a criterion for choosing the parameters of a linear prediction codec, the analysis through synthesis uses either the standard deviation (1) or the total (2) or segmented (3) signal-to-noise ratio (SNR) based on the Euclidean metric and not taking into account the perceptual importance of the codec parameters in the synthesis of a speech signal (US Pat. Nos. 5,235,669 of 08/10/1993, RU No. 2248619 of March 20, 2005, RU No. 2331933 of August 20, 2008, RU No. 2343564 of January 10, 2009, US No. 6859775 of February 22. 2005).
где S(i) - вектор входных значений;where S (i) is the vector of input values;
S'(i) - вектор оценок;S '(i) is the vector of estimates;
N - общее количество отсчетов в исследуемом речевом фрагменте.N is the total number of samples in the studied speech fragment.
В выражении (1) допускается, что искажения, вносимые каждым элементом вектора , имеют равный вес. В общем случае для отражения вклада отдельных элементов в искажение вводятся неравные веса в виде взвешивающей матрицы. Указанный метод позволяет лишь сравнить форму огибающих исходного и синтезированного речевого сигнала. Поэтому для количественной оценки качества звучания синтезированного речевого сигнала во временной области чаще используют критерий отношения сигнал/шум:In expression (1), it is assumed that the distortions introduced by each element of the vector have equal weight. In the general case, to reflect the contribution of individual elements to the distortion, unequal weights are introduced in the form of a weighting matrix. This method allows you to only compare the shape of the envelopes of the original and synthesized speech signal. Therefore, to quantify the sound quality of the synthesized speech signal in the time domain, the signal-to-noise ratio criterion is more often used:
S(i) и S'(i)-i-e отсчеты исходной и синтезированной речи;S (i) and S '(i) -i-e samples of the original and synthesized speech;
N - общее количество отсчетов в исследуемом речевом фрагменте.N is the total number of samples in the studied speech fragment.
ОСШ учитывает общие мощности сигнала и шума на всей длительности испытательного сигнала. При исследовании некоторых речевых кодеков большое значение имеют кратковременные отношения сигнал/шум, вычисленные на коротких сегментах речевого сигнала. Таким образом, учитывается сегментный характер слухового восприятия элементов речи. Критерий сегментного отношения сигнал/шум (ОСШсег,) имеет вид:SNR takes into account the total signal and noise power over the entire duration of the test signal. In the study of some speech codecs, short-term signal-to-noise ratios calculated on short segments of the speech signal are of great importance. Thus, the segmented nature of the auditory perception of the elements of speech is taken into account. The criterion of the segment signal-to-noise ratio (SNR seg ,) has the form:
где S(i) и S'(i) - вычисленные на m-м сегменте i-е отсчеты исходного и синтезированного речевых сигналов;where S (i) and S '(i) are the i-th samples of the initial and synthesized speech signals calculated on the m-th segment;
N - длина сегмента;N is the length of the segment;
М - число сегментов в речевом фрагменте.M is the number of segments in the speech fragment.
Однако приведенные критерии объективного метода оценивания, отражают степень зашумленности речевого сигнала и показывают слабую корреляцию с результатами субъективных тестов при прослушивании речевых сегментов. Следует отметить, что если качество кодеров формы речевой волны может быть оценено по степени соответствия формы огибающей восстановленного речевого сигнала исходному с помощью названных критериев, то для алгоритмов низкоскоростного параметрического сжатия на основе линейного предсказания точное восстановление формы сигнала является сложной задачей. Следовательно, методы оценивания качества звучания синтезированного речевого сигнала во временной области малоприменимы. Для того чтобы оценка качества звучания речевого сигнала отражала критерии слухового восприятия, принципы ее формирования должны быть основаны на анализе спектрально-корреляционных характеристик речи.However, the above criteria of the objective estimation method reflect the noise level of the speech signal and show a weak correlation with the results of subjective tests when listening to speech segments. It should be noted that if the quality of the speech waveform encoders can be estimated by the degree to which the envelope shape of the reconstructed speech signal matches the original one using the above criteria, then for accurate low-speed parametric compression algorithms based on linear prediction, accurate reconstruction of the waveform is a difficult task. Therefore, methods for assessing the sound quality of a synthesized speech signal in the time domain are of little use. In order for the assessment of the sound quality of a speech signal to reflect the criteria of auditory perception, the principles of its formation should be based on the analysis of the spectral-correlation characteristics of speech.
Наиболее близким по технической сущности к заявленному изобретению является патент US №6073092 от 6.06.2000, в котором производится расчет и минимизация среднеквадратической ошибки при реализации процедуры анализа через синтез в вокодере с линейным предсказанием.The closest in technical essence to the claimed invention is US patent No. 6073092 from 06/06/2000, in which the calculation and minimization of the mean square error when implementing the analysis procedure through synthesis in a vocoder with linear prediction is performed.
Недостатком используемой процедуры анализа через синтез является несоответствие слухового аппарата человека при восприятии синтезированной речи и используемых критериев близости, определяющих правила анализа пригодности выбранных параметров кодека.The disadvantage of the used analysis procedure through synthesis is the mismatch of the human hearing system during the perception of synthesized speech and the proximity criteria used that determine the rules for analyzing the suitability of the selected codec parameters.
Согласно известному способу для выполнения процедуры анализ через синтез в вокодере с линейным предсказанием на передающей стороне итерационно синтезируют речевой сигнал на длительности участка квазистационарности речи, изменяя при каждой итерации параметры кодека в соответствии с используемым алгоритмом линейного предсказания, на каждой итерации вычисляют среднеквадратическую ошибку между оригинальным и синтезированным речевым сигналом, находят итерацию, соответствующую наименьшей среднеквадратической ошибке, при этом параметры кодека соответствующие данной итерации считают наилучшими и на основе их формируют кадр передачи кодека и производят синтез речевого сигнала на длительности участка квазистационарности речи на приемной стороне.According to the known method for performing the analysis analysis through synthesis in a vocoder with linear prediction on the transmitting side, the speech signal is iteratively synthesized over the duration of the quasi-stationary part of speech, changing the codec parameters in accordance with the linear prediction algorithm used at each iteration, and the mean square error between the original and synthesized speech signal, find the iteration corresponding to the least standard error, with the parameter The codec's corresponding to this iteration are considered the best and based on them they form the codec's transmission frame and synthesize the speech signal over the duration of the speech quasistationary portion on the receiving side.
Задачей изобретения, определяющей его технический результат, является улучшение восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием.The objective of the invention, which determines its technical result, is to improve the perception of synthesized speech when implementing the analysis procedure through synthesis in vocoders with linear prediction.
Эта задача решается тем, что в способе улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием анализ и выбор наилучших в рамках заданных ограничений параметров кодека с линейным предсказанием будет производиться на основе вычисления оценок по критерию модифицированного искажения спектра барков MBSD (Modified Bark Spectral Distortion) (4):This problem is solved in that in a method for improving the perception of synthesized speech when implementing the analysis procedure through synthesis in vocoders with linear prediction, the analysis and selection of the best parameters of the linear prediction codec within the given limits will be performed based on the calculation of estimates by the criterion of modified distortion of the spectrum of the MBSD barks ( Modified Bark Spectral Distortion) (4):
где M(n,i) и D(n,i) - значения искажений уровня ощущения и разницы интенсивности ощущения сигнала n-го сегмента речи в i-й критической полосе;where M (n, i) and D (n, i) are the distortion values of the level of sensation and the difference in the intensity of sensation of the signal of the n-th speech segment in the i-th critical band;
N - число сегментов в речевом фрагменте;N is the number of segments in the speech fragment;
К - общее количество критических полос.K is the total number of critical bands.
Данный критерий является наиболее предпочтительным, так как в нем происходит анализ спектрально-корреляционных характеристик речи, учитываются модели слуха человека, а также он показывает высокую корреляцию с оценками, полученными на основе субъективных тестов прослушивания. Экспериментальные исследования показали, что в случае применения низкоскоростных липредерных систем слуховой аппарат человека более чувствителен к возникающим при этом частотным искажениям, нежели к амплитудным и фазовым (Павловец А.Н., Петровский А.А. Использование закономерностей психоакустики в процедуре квантования параметров гармонической модели речевого сигнала. // Речевые технологии. 4, 2008, с.55-60).This criterion is the most preferable, since it analyzes the spectral and correlation characteristics of speech, takes into account human hearing models, and it also shows a high correlation with the estimates obtained on the basis of subjective listening tests. Experimental studies have shown that in the case of the use of low-speed lipreder systems, the human auditory apparatus is more sensitive to frequency distortions arising from this than to amplitude and phase distortions (Pavlovets A.N., Petrovsky A.A. Use of the laws of psychoacoustics in the procedure of quantizing the parameters of the harmonic speech model signal // Speech technologies. 4, 2008, p. 55-60).
Расчет спектра барков производится согласно выражению (5):The calculation of the spectrum of barks is performed according to the expression (5):
где f - частота, измеренная в Герцах;where f is the frequency measured in Hertz;
b - частота, измеренная в барках.b is the frequency measured in barges.
Более подробно данный вопрос изложен в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом "Вильямс", 2006 - с.105-109). Подробное описание критерия MBSD можно найти в (W.Yang. Enhanced Modified Bark Spectral Distortion (EMBSD): An Objective Speech Quality Measure Based On Audible Distortion And Cognition Model / A Dissertation of the Requirement for the Degree Doctor of Philosophy - May, 1999. pp.63-75).This issue is described in more detail in (Radzishevsky A.Yu. Fundamentals of analog and digital sound. - M .: Publishing house "Williams", 2006 - p.105-109). A detailed description of the MBSD criterion can be found in (W.Yang. Enhanced Modified Bark Spectral Distortion (EMBSD): An Objective Speech Quality Measure Based On Audible Distortion And Cognition Model / A Dissertation of the Requirement for the Degree Doctor of Philosophy - May, 1999. pp. 63-75).
Согласно данному критерию синтезированный и оригинальный речевые сигналы на сегменте квазистационарности подвергают делению на критические полосы, в каждой из которых вычисляют интенсивность ощущения сигнала и порог шумового маскирования, далее в каждой полосе определяют разность между оригинальным и искаженным значением интенсивности ощущения. Если полученное значение D(n,i) превышает вычисленный порог шумового маскирования NMT(n,i), то уровню ощущения M(n,i) присваивают значение 1, в противном случае значение 0.According to this criterion, the synthesized and original speech signals on the quasistationary segment are divided into critical bands, in each of which the signal sensing intensity and the noise masking threshold are calculated, then the difference between the original and distorted sensation intensity values is determined in each band. If the obtained value of D (n, i) exceeds the calculated noise masking threshold NMT (n, i), then the sensation level M (n, i) is assigned the value 1, otherwise, the value 0.
Сущность предлагаемого способа заключается в следующем. При реализации процедуры анализа через синтез в вокодерах с линейным предсказанием на передающей стороне итерационно синтезируют речевой сигнал на длительности участка квазистационарности речи, изменяя при каждой итерации параметры кодека в соответствии с используемым алгоритмом линейного предсказания для вычисления наилучших в рамках заданных ограничений параметров кодека с линейным предсказанием, вводят итерационный расчет критерия модифицированного искажения спектра барков, изменяя при каждой итерации параметры кодека в соответствии с используемым алгоритмом линейного предсказания, далее вычисляют минимальное перцептуальное искажение, при этом параметры кодека, соответствующие данной итерации, считают наилучшими и используют для синтеза речевого сигнала на длительности участка квазистационарности речи на приемной стороне.The essence of the proposed method is as follows. When implementing the analysis through synthesis procedure in vocoders with linear prediction on the transmitting side, the speech signal is iteratively synthesized over the duration of the speech quasistationary section, changing the codec parameters at each iteration in accordance with the linear prediction algorithm used to calculate the best linear predictive codec parameters within the given constraints, they introduce an iterative calculation of the criterion for modified distortion of the spectrum of barks, changing the codec parameters at each iteration In accordance with the linear prediction algorithm used, then the minimal perceptual distortion is calculated, and the codec parameters corresponding to this iteration are considered to be the best and are used to synthesize a speech signal over the duration of the section of quasi-stationary speech on the receiving side.
Алгоритм функционирования предложенной системы, реализующей способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием, представлен на фиг.1.The functioning algorithm of the proposed system that implements a method for improving the perception of synthesized speech when implementing the analysis procedure through synthesis in vocoders with linear prediction is presented in figure 1.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного изобретения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности "новизна".The analysis of the prior art made it possible to establish that analogues that are characterized by a combination of features that are identical to all the features of the claimed invention are absent, which indicates the compliance of the claimed method with the condition of patentability "novelty".
Благодаря новой совокупности существенных признаков системы, обеспечивающих введение итерационного расчета критерия модифицированного искажения спектра барков, вычисление минимального перцептуального искажения и определение наилучших в рамках заданных ограничений параметров кодека для передачи по каналу связи в вокодерах с линейным предсказанием, использующих процедуру анализа через синтез, достигается значительное улучшение качества восприятия синтезированной речи на приемной стороне.Thanks to a new set of essential features of the system, providing the introduction of an iterative calculation of the criterion of modified distortion of the spectrum of barks, calculating the minimum perceptual distortion and determining the best codec parameters for transmission over the communication channel in vocoders with linear prediction using the analysis through synthesis, significant improvement is achieved the quality of perception of synthesized speech on the receiving side.
Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию "изобретательский уровень".Analysis of existing technical solutions in this and related fields of technology showed that the introduced distinguishing features are absent and do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed technical solution meets the criterion of "inventive step".
Заявленное техническое решение поясняется чертежом (фиг.2), на котором показана функциональная схема устройства, реализующего способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием.The claimed technical solution is illustrated by the drawing (figure 2), which shows a functional diagram of a device that implements a method for improving the perception of synthesized speech when implementing the analysis procedure through synthesis in vocoders with linear prediction.
Устройство, реализующее данный способ, состоит из блока формирования сегмента синтезированного речевого сигнала 1, на который непосредственно поступает синтезированный речевой сигнал. Он соединен с блоком вычисления значений спектра барков в критических полосах сегмента синтезированного речевого сигнала 3, в котором происходит формирование совокупности параметров, описывающих спектр барков. Выход блока 3 соединен со входом блока расчета интенсивности ощущения синтезированного речевого сигнала в критических полосах сегмента 5. Оригинальный сегмент речевого сигнала поступает на блок формирования сегмента оригинального речевого сигнала 2. Его выход соединен со входом блока вычисления значений спектра барков в критических полосах сегмента оригинального речевого сигнала 4.A device that implements this method consists of a block for generating a segment of synthesized speech signal 1, to which the synthesized speech signal directly arrives. It is connected to the unit for calculating the values of the spectrum of barks in the critical bands of the segment of synthesized
Формирование сегментов речевого сигнала, осуществляемое в блоках 1 и 2, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72).The formation of segments of the speech signal, carried out in
Вычисление значений спектра барков, осуществляемое в блоках 3 и 4, подробно описано в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильяме», 2006 - с.105-109).The calculation of the values of the spectrum of barks, carried out in
Выход блока 4 соединен со входами блока расчета интенсивности ощущения оригинального речевого сигнала в критических полосах сегмента 6 и блока вычисления порогов шумового маскирования в критических полосах сегмента оригинального речевого сигнала 7. Выходы блоков 5 и 6 соединены со входом блока вычисления разности между оригинальным и искаженным значениями интенсивности ощущения 8. Выходы блоков 7 и 8 соединены со входом блока расчета модифицированного искажения спектра барков 9.The output of
Функционирование блоков 5, 6, 7 и 8 описано в (W.Yang. Enhanced Modified Bark Spectral Distortion (EMBSD): An Objective Speech Quality Measure Based On Audible Distortion And Cognition Model. / A Dissertation of the Requirement for the Degree Doctor of Philosophy. - May, 1999, pp.63-75).
Процедура вычисления MBSD в блоке 9 описывается в (W.Yang, M.Benbouchta and R.Yantomo Performance of a modified bark spectral distortion measure as an objective speech quality measure, IEEE ICASSP, pp.541-544, Seattle, 1998).The procedure for calculating MBSD in
Выход блока 9 соединен со входом блока вычисления минимального модифицированного искажения спектра барков 10.The output of
Выход блока 10 соединен со входом блока хранения параметров кодека 11.The output of
Процедуры, описывающие функционирование блоков 10 и 11, представлены в (О.И.Шелухин, Н.Ф.Лукьянцев Цифровая обработка и передача речи. - M.: Радио и Связь, 2000 г. - С.108-112).Procedures that describe the functioning of
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.The industrial applicability of the introduced elements is due to the presence of the element base on the basis of which they can be performed.
Устройство, реализующее заявленный способ, функционирует следующим образом. В блоке 1 происходит формирование очередного сегмента синтезированного речевого сигнала на участке квазистационарности, далее он поступает на блок 3 в котором происходит вычисление значений спектра барков в критических полосах сегмента синтезированного речевого сигнала, информация о данных значениях поступает на вход блока 5 в котором производится расчет интенсивности ощущения синтезированного речевого сигнала в критических полосах сегмента. Информация об интенсивности ощущения синтезированного речевого сигнала в критических полосах сегмента с блока 5 далее поступает на первый вход блока 8. В блоке 2 происходит формирование очередного сегмента оригинального речевого сигнала на участке квазистационарности, далее он поступает на блок 4, в котором происходит вычисление значений спектра барков в критических полосах сегмента оригинального речевого сигнала, информация о данных значениях поступает на входы блоков 6 и 7 в котором производится расчет интенсивности ощущения и порогов шумового маскирования в критических полосах сегмента оригинального речевого сигнала соответственно.A device that implements the claimed method operates as follows. In block 1, the next segment of the synthesized speech signal is formed in the quasistationary section, then it goes to block 3 in which the values of the spectrum of barks in the critical bands of the segment of the synthesized speech signal are calculated, information about these values goes to the input of
Информация об интенсивности ощущения оригинального сигнала в критических полосах сегмента с блока 6 далее поступает на второй вход блока 8, в котором вычисляется разность между оригинальным и искаженным значениями интенсивности ощущения. С блока 8 информация о разности между оригинальным и искаженным значениями интенсивности ощущения подается на первый вход блока 9, на второй его вход подается информация о порогах шумового маскирования в критических полосах сегмента оригинального речевого сигнала, поступающая с блока 7. В блоке 9 осуществляется вычисление оценки MBSD, информация о данной оценке подается на блок 10, в котором производится накопление и расчет минимальной из оценок MBSD в процессе итерационного поиска. С блока 10 информация о номере итерации соответствующей минимальной оценке MBSD на блок 11, который предназначен для хранения наилучших в рамках заданных ограничений параметров кодека с линейным предсказанием.Information about the intensity of the sensation of the original signal in the critical bands of the segment from block 6 is then sent to the second input of
К достоинствам способа следует отнести тот факт, что в вокодерах с линейным предсказанием устраняется несоответствие слухового аппарата человека при восприятии синтезированной речи и используемых критериев близости, определяющих правила анализа пригодности выбранных параметров кодека при реализации процедуры анализа через синтез. Были проведены экспериментальные испытания согласно (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 230 с.), которые показали, что применение данного способа позволяет повысить субъективное качество восприятия синтезированной речи в среднем на 0,11 балла.The advantages of the method include the fact that vocoders with linear prediction eliminate the mismatch between the human hearing system during the perception of synthesized speech and the proximity criteria used that determine the rules for analyzing the suitability of the selected codec parameters when implementing the analysis procedure through synthesis. Experimental tests were carried out according to (GOST R 51061-97. Systems of low-speed voice transmission through digital channels. Speech quality parameters and measurement methods. - M .: Gosstandart of Russia, 1997. - 230 p.), Which showed that the application of this method allows increase the subjective quality of perception of synthesized speech by an average of 0.11 points.
Приведенные технические решения показывают, что устройство, воплощающее изобретение при его осуществлении, способно обеспечить более качественное восприятие синтезированной речи в вокодерах с линейным предсказанием, реализация которых основана на выполнении процедуры анализа через синтез.The above technical solutions show that a device embodying the invention in its implementation is capable of providing a better perception of synthesized speech in linear prediction vocoders, the implementation of which is based on the implementation of the analysis procedure through synthesis.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010115914/08A RU2445719C2 (en) | 2010-04-21 | 2010-04-21 | Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010115914/08A RU2445719C2 (en) | 2010-04-21 | 2010-04-21 | Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010115914A RU2010115914A (en) | 2011-10-27 |
RU2445719C2 true RU2445719C2 (en) | 2012-03-20 |
Family
ID=44997801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010115914/08A RU2445719C2 (en) | 2010-04-21 | 2010-04-21 | Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2445719C2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000011655A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
WO2006030340A2 (en) * | 2004-09-17 | 2006-03-23 | Koninklijke Philips Electronics N.V. | Combined audio coding minimizing perceptual distortion |
EP1798724A1 (en) * | 2004-11-05 | 2007-06-20 | Matsushita Electric Industrial Co., Ltd. | Encoder, decoder, encoding method, and decoding method |
EP1990799A1 (en) * | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
-
2010
- 2010-04-21 RU RU2010115914/08A patent/RU2445719C2/en not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
WO2000011655A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Low complexity random codebook structure |
WO2006030340A2 (en) * | 2004-09-17 | 2006-03-23 | Koninklijke Philips Electronics N.V. | Combined audio coding minimizing perceptual distortion |
EP1798724A1 (en) * | 2004-11-05 | 2007-06-20 | Matsushita Electric Industrial Co., Ltd. | Encoder, decoder, encoding method, and decoding method |
RU2387024C2 (en) * | 2004-11-05 | 2010-04-20 | Панасоник Корпорэйшн | Coder, decoder, coding method and decoding method |
EP1990799A1 (en) * | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
Non-Patent Citations (1)
Title |
---|
ШУЛЬГИН В. Основы теории передачи информации. Часть 1 Экономное кодирование. - Харьков: ХАЙ, 2003, с.93-97. WONHO Y., YANTORNO R., Improvement of MBSD by scaling noise masking threshold and correlation analysis with MOS difference instead of MOS, Acoustics, Speech, and Signal Processing, IEEE International Conference, 15.03.1999-19.03.1999, vol.2, с.с.673-676. * |
Also Published As
Publication number | Publication date |
---|---|
RU2010115914A (en) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2809677T3 (en) | Method and system for encoding a stereo sound signal using encoding parameters from a primary channel to encode a secondary channel | |
EP3118849B1 (en) | Encoding device, decoding device, and method thereof | |
TWI559298B (en) | Method, apparatus, and computer-readable storage device for harmonic bandwidth extension of audio signals | |
EP3414761B1 (en) | Inter-channel encoding of a high-band audio signal | |
EP2209114B1 (en) | Speech coding/decoding apparatus/method | |
US8386267B2 (en) | Stereo signal encoding device, stereo signal decoding device and methods for them | |
US10311879B2 (en) | Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method | |
CN107112027B (en) | The bi-directional scaling of gain shape circuit | |
US20140229170A1 (en) | Systems and Methods of Performing Gain Control | |
CN110634503B (en) | Method and apparatus for signal processing | |
CN102576535A (en) | Method and system for determining a perceived quality of an audio system | |
US20150149157A1 (en) | Frequency domain gain shape estimation | |
EP3128513B1 (en) | Encoder, decoder, encoding method, decoding method, and program | |
RU2445719C2 (en) | Method of enhancing synthesised speech perception when performing analysis through synthesis in linear predictive vocoders | |
US7603271B2 (en) | Speech coding apparatus with perceptual weighting and method therefor | |
US8655650B2 (en) | Multiple stream decoder | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
Tahilramani et al. | A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM) | |
Li et al. | A low-delay audio coder with constrained-entropy quantization | |
Kleijn | Principles of speech coding | |
RU2631968C2 (en) | Method of low-speed coding and decoding speech signal | |
RU2419169C1 (en) | Method to code broadband voice signal | |
Vieira Filho et al. | Comparative analysis of objective distortion measures for speech signals degraded by noise | |
Li et al. | A Low-Complexity 3.6 kbps Speech Coding Algorithm Based on Mixed Excitation | |
HK1219344A1 (en) | Method and apparatus for signal processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20120422 |