JPS622300A - Voice pitch extractor - Google Patents
Voice pitch extractorInfo
- Publication number
- JPS622300A JPS622300A JP60140832A JP14083285A JPS622300A JP S622300 A JPS622300 A JP S622300A JP 60140832 A JP60140832 A JP 60140832A JP 14083285 A JP14083285 A JP 14083285A JP S622300 A JPS622300 A JP S622300A
- Authority
- JP
- Japan
- Prior art keywords
- peak
- waveform
- sign
- peak interval
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Working-Up Tar And Pitch (AREA)
- Electronic Switches (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音声の分析、合成に用いることのできる音声
ピッチ抽出装置に関するものである。DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech pitch extraction device that can be used for speech analysis and synthesis.
従来の技術
従来、音声ピッチを求める方法としては、自己相関法や
音声波形を線形予測分析して得られる残差波形を用いる
変形自己相関法、自己相関法における積和演算を差の絶
対値演算で置き換えた平均振幅差関数法などが一般的で
あった(以下、自己相関関数、変形自己相関関数、平均
振幅差関数等、波形の類似度を測定するための関数を総
称して、波形類似度関数と呼ぶ)。Conventional technology Conventionally, methods for determining speech pitch include the autocorrelation method, the modified autocorrelation method that uses the residual waveform obtained by linear predictive analysis of the speech waveform, and the absolute value calculation of the difference between the product-sum operation in the autocorrelation method. (hereinafter, functions for measuring waveform similarity, such as autocorrelation function, modified autocorrelation function, and average amplitude difference function, are collectively referred to as waveform similarity function method). (called the degree function).
しかし、これらの方法は多数回の積和演算や差の絶対値
和演算を必要とするために処理時間が多くかかるという
欠点を有する。そこで近年、音声ピッチ抽出の処理時間
の減少を図るためのいくつかの方法が提案されてきてい
る。そのうちの一つに音声波形データのピーク間隔を検
出し、この間隔に等しい時間ずらし幅についてのみ波形
類似度関数を算出する方法がある。However, these methods have the disadvantage that they require a large number of times of product-sum calculations and absolute-value sum calculations of differences, resulting in a long processing time. Therefore, in recent years, several methods have been proposed to reduce the processing time for speech pitch extraction. One of these methods is to detect the peak interval of audio waveform data and calculate the waveform similarity function only for a time shift width equal to this interval.
以下図面を参照しながら、上述した従来の音声ピッチ抽
出装置の一例について説明する。第3図は従来の音声ピ
ッチ抽出装置の要部ブロック図である。同図において、
31は正ピーク間隔検出部、32は波形類似度関数算出
部、33はピッチ周期決定部である。An example of the above-mentioned conventional audio pitch extraction device will be described below with reference to the drawings. FIG. 3 is a block diagram of main parts of a conventional speech pitch extraction device. In the same figure,
31 is a positive peak interval detection section, 32 is a waveform similarity function calculation section, and 33 is a pitch period determination section.
以上のように構成された従来の音声ピッチ抽出装置につ
いて、その動作を以下に説明する。一定時間長の音声波
形データが正ピーク間隔検出部31へ人力されると、波
形の正符号の最大値によって定める閾値以上の値を持つ
ピーク系列を検出し、その間隔を測定する。ここでは正
のピーク間隔を検出するものとしたが、負のピーク間隔
を検出するものであってもよい。The operation of the conventional speech pitch extraction device configured as described above will be described below. When audio waveform data of a certain length of time is manually input to the positive peak interval detection section 31, a peak sequence having a value equal to or greater than a threshold determined by the maximum value of the positive sign of the waveform is detected, and the interval thereof is measured. Although positive peak intervals are detected here, negative peak intervals may also be detected.
次に検出されたピーク間隔は波形類似度関数算出部へ送
られ、ここでこのピーク間隔に等しい時間ずらし幅に対
する波形類似度関数を算出する。Next, the detected peak interval is sent to a waveform similarity function calculating section, which calculates a waveform similarity function for a time shift width equal to this peak interval.
次にこの波形類似度関数値はピッチ周期決定部へ送られ
る。ここで各時間ずらし幅に対する波形類似度関数値を
比較し、波形類似度関数として自己相関関数を用いる場
合には最大値、また平均振幅差関数を用いる場合には最
小値をとる時間ずらし幅をもってピッチ周期とする。This waveform similarity function value is then sent to the pitch period determining section. Here, compare the waveform similarity function values for each time shift width, and select the time shift width that takes the maximum value when using an autocorrelation function as the waveform similarity function, and the minimum value when using the average amplitude difference function. Let it be the pitch period.
発明が解決しようとする問題点
上記のような構成の音声ピッチ抽出装置においては、検
出するピーク間隔の符号は、正・負いずれかに固定され
ている。しかしながら、ある定められた閾値以上のピー
ク間隔を検出する際、音声波形の形状によって波形の正
符号側と負符号側とでは、検出されるピーク数に大きな
差異が出る。Problems to be Solved by the Invention In the speech pitch extraction device configured as described above, the sign of the peak interval to be detected is fixed to either positive or negative. However, when detecting peak intervals that are equal to or greater than a certain threshold, there is a large difference in the number of detected peaks between the positive sign side and the negative sign side of the waveform, depending on the shape of the audio waveform.
第4図に閾値を最大値の〃とした場合の例を示す。FIG. 4 shows an example where the threshold value is set to the maximum value.
(A)の波形の場合には正符号側のピーク数が負符号側
のピーク数よりも少な(、(B)の波形の場合には負符
号側のピーク数が正符号側のピーク数よりも少ない。ピ
ッチ周期に相当するピーク間隔以外の余分なピーク間隔
を多く検出することは、波形類似度関数を算出するため
の演算時間の増大を招くだけではなく、ピッチ抽出誤り
の原因となる。In the case of the waveform (A), the number of peaks on the positive sign side is smaller than the number of peaks on the negative sign side (in the case of the waveform (B), the number of peaks on the negative sign side is smaller than the number of peaks on the positive sign side. Detecting many extra peak intervals other than the peak interval corresponding to the pitch period not only increases the computation time for calculating the waveform similarity function, but also causes pitch extraction errors.
本発明はかかる点に濫みてなされたもので、音声波形デ
ータの正しいピッチ周期に相当するピーク間隔以外の余
分なピーク間隔数の少ない極性の側を選択することによ
って、より高精度の音声ピッチ抽出装置を提供すること
を目的としている。The present invention has been made in view of this problem, and by selecting the polarity side with fewer extra peak intervals other than the peak intervals corresponding to the correct pitch period of the audio waveform data, more accurate audio pitch extraction is possible. The purpose is to provide equipment.
問題点を解決するための手段
本発明は上記問題点を解決するため、音声波形データの
正符号、負符号それぞれのピークのうちで絶対値が閾値
を越えるものの数をカウントして比較し、その比較値に
応じて正符号のピーク間隔と負符号のピーク間隔のどち
らを検出するかを選択するピーク極性信号を出力するピ
ーク極性選択部と、上記ピーク極性信号に応じて正符号
のピーク間隔と負符号のピーク間隔のいずれかを検出す
る可変極性ピーク間隔検出部とを備えたものである。Means for Solving the Problems In order to solve the above-mentioned problems, the present invention counts and compares the number of positive and negative sign peaks of audio waveform data whose absolute value exceeds a threshold. a peak polarity selection section that outputs a peak polarity signal that selects whether to detect a peak interval with a positive sign or a peak interval with a negative sign according to a comparison value; and a variable polarity peak interval detection section that detects any of the peak intervals with a negative sign.
作用
本発明は、上記した構成により、音声波形データの正符
号、負符号それぞれのピークのうちで絶対値が閾値を越
えるものの数をカウントし、その大小関係によって、音
声波形データの正符号側と負符号側のどちらがピッチ抽
出に必要なピーク系列以外の余分なピークが少ないかを
判定するものである。これによって波形類似度関数を算
出するための演算量を減らすことができるとともにピッ
チ抽出誤りを減少させることができる。According to the above-described configuration, the present invention counts the number of positive and negative sign peaks of audio waveform data whose absolute value exceeds a threshold, and determines whether the positive sign side or negative sign side of the audio waveform data is positive or negative based on the magnitude relationship. It is determined which side of the negative sign has fewer extra peaks other than the peak series necessary for pitch extraction. This makes it possible to reduce the amount of calculation for calculating the waveform similarity function and to reduce pitch extraction errors.
実施例
以下、本発明の一実施例の音声ピッチ抽出装置について
図面を参照しながら説明する。第1図は本発明の音声ピ
ッチ抽出装置の一実施例を示す要部ブロック図である。Embodiment Hereinafter, a speech pitch extraction device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram of essential parts showing an embodiment of the speech pitch extraction device of the present invention.
第1図において、11は所定のサンプリング周期でディ
ジタル化された一定時間長の音声波形データの正符号、
負符号それぞれのピークのうちで絶対値が閾値を越える
ものの数をカウントして比較し、その比較値に応じて正
符号のピーク間隔と負符号のピーク間隔のどちらを検出
するかを選択するピーク極性信号を出力するピーク極性
選択部、12は上記ピーク極性信号に応じて正符号のピ
ーク間隔と負符号のピーク間隔のいずれかを検出する可
変極性ピーク間隔検出部、13は上記ピーク間隔に等し
い時間ずらし幅に対する上記音声波形データの波形類似
度関数値を算出する波形類似度関数算出部、14は上記
波形類似度関数値を比較して最大(もしくは最小)とな
る時間ずらし幅をピッチ周期として出力するピッチ周期
決定部である。In FIG. 1, 11 is the positive sign of audio waveform data of a certain length that is digitized at a predetermined sampling period;
A peak that counts and compares the number of peaks for each negative sign whose absolute value exceeds a threshold, and selects whether to detect a positive sign peak interval or a negative sign peak interval depending on the comparison value. a peak polarity selection unit that outputs a polarity signal; 12 a variable polarity peak interval detection unit that detects either a positive sign peak interval or a negative sign peak interval according to the peak polarity signal; 13 a variable polarity peak interval detection unit that is equal to the peak interval; A waveform similarity function calculation unit 14 calculates a waveform similarity function value of the audio waveform data with respect to the time shift width, and 14 compares the waveform similarity function values and sets the maximum (or minimum) time shift width as the pitch period. This is a pitch period determination unit that outputs.
以上のように構成された本実施例の音声ピッチ抽出装置
について、以下その動作を説明する。なお、ここで、音
声のサンプリング周波数は8kHz。The operation of the voice pitch extraction device of this embodiment configured as described above will be described below. Note that the audio sampling frequency here is 8kHz.
音声波形データの時間長は40m5.波形類似度関数と
しては平均振幅差関数を用いるものとする。320ポイ
ントの音声波形データx (i)(i=1・・・・・・
320)がピーク極性選択部13へ入力されると、まず
波形の前半部、1〜160ポイントの範囲で、波形の正
符号の最大ピーク値x(nA)と波形の負符号の最大ピ
ーク値x(na)とが検出され、それぞれ閾値α=sc
*x (nA)、 β= k * x (n。The time length of the audio waveform data is 40m5. An average amplitude difference function is used as the waveform similarity function. 320 points of audio waveform data x (i) (i=1...
320) is input to the peak polarity selection unit 13, first, in the first half of the waveform, in the range of 1 to 160 points, the maximum peak value x (nA) of the positive sign of the waveform and the maximum peak value x of the negative sign of the waveform are input. (na) are detected, and each threshold value α=sc
*x (nA), β=k*x (n.
(0<k<1)を設定する。次に1〜320の範囲にわ
たって閾値αを越える正ピーク数1.および閾値βを越
える負ピーク数n−をカウントする。Set (0<k<1). Next, the number of positive peaks exceeding the threshold α over the range 1 to 320 is 1. And the number n- of negative peaks exceeding the threshold value β is counted.
n、>n−ならば負の極性を選択し、n+≦n−ならば
正の極性を選択するピーク極性選択信号およびピーク極
性選択信号に応じて正符号の最大ピーク位置nAと閾値
α、または負符号の最大ピーク位置nllと閾値βを可
変極性ピーク間隔検出部へ出力する。ピッチ周期探索範
囲を2〜20m5 (16〜160ポイント)とすると
、可変極性ピーク間隔検出部12は、上記ピーク極性選
択信号が正の場合、nA+16〜nA+160の範囲に
わたって閾値αを越える正ピーク位置と最大ピーク位置
napのピーク間隔τ1.τ2・・・・・・を波形類似
度関数算出部13へ出力する。同様に上記ピーク極性選
択信号が負の場合、nm +16〜na +160の範
囲にわたって閾値βを越える負ピーク位置と最大ピーク
・位置naとのピーク間隔τ3.τ2・・・・・・を波
形類似度関数算出部13へ出力する。If n, > n-, negative polarity is selected; if n+≦n-, positive polarity is selected; and the maximum peak position nA with a positive sign and threshold value α according to the peak polarity selection signal, or The maximum peak position nll with a negative sign and the threshold value β are output to the variable polarity peak interval detection section. Assuming that the pitch period search range is 2 to 20 m5 (16 to 160 points), the variable polarity peak interval detection unit 12 detects a positive peak position exceeding the threshold α over the range of nA+16 to nA+160 when the peak polarity selection signal is positive. Peak interval τ1 of maximum peak position nap. τ2... is output to the waveform similarity function calculation unit 13. Similarly, when the peak polarity selection signal is negative, the peak interval τ3. between the negative peak position exceeding the threshold β and the maximum peak position na over the range of nm +16 to na +160. τ2... is output to the waveform similarity function calculation unit 13.
)、 波形類似度関数算出部14はこのピーク間隔に等
しい時間ずらし幅に対して、次式で示される平均振幅差
関数値を算出する。), the waveform similarity function calculation unit 14 calculates an average amplitude difference function value expressed by the following equation for a time shift width equal to this peak interval.
算出された平均振幅差関数値g(τ1)1g(τ2)・
・・は、ピッチ周期決定部15へ入力される。Calculated average amplitude difference function value g(τ1)1g(τ2)・
... is input to the pitch period determining section 15.
ピッチ周期決定部15は、上記平均振幅差関数値の中か
ら値が最小となるものを検出し、その時間ずらし幅をピ
ッチ周期として出力する。The pitch period determining unit 15 detects the one having the minimum value from among the average amplitude difference function values, and outputs the time shift width as the pitch period.
第5図に実際に音声ピッチを抽出した例を示す。FIG. 5 shows an example in which voice pitch is actually extracted.
X印は正符号のピーク間隔を検出する方法を用いた従来
の音声ピッチ抽出装置による結果であり、・印が本発明
の音声ピッチ抽出装置による結果である。×印と・印を
比較するとわかるように本発明の音声ピッチ抽出装置の
方がピッチ抽出誤りが少なく、優れていることがわかる
。The X mark is the result obtained by the conventional speech pitch extraction device using the method of detecting the peak interval of a positive sign, and the • mark is the result obtained by the speech pitch extraction device of the present invention. As can be seen from the comparison between the x mark and the * mark, it can be seen that the speech pitch extraction device of the present invention has fewer pitch extraction errors and is superior.
発明の効果
以上のように本発明は音声波形データの正符号、負符号
それぞれのピークのうちで大きさが閾値を越えるものの
数をカウントして比較し、その比較値に応じて正符号の
ピーク間隔と負符号のピーク間隔のどちらを検出するか
を選択するピーク極性信号を出力するピーク極性選択部
と、上記ピーク極性信号に応じて正符号のピーク間隔と
負符号のピーク間隔のいずれかを検出する可変極性ピー
ク間隔検出部とを備えることにより、波形類似度関数を
算出するための演算量を減らすとともにピッチ抽出誤り
を減少させることができるという優れた効果が得られる
。Effects of the Invention As described above, the present invention counts and compares the number of peaks of positive sign and negative sign of audio waveform data whose size exceeds a threshold value, and calculates the peak of positive sign according to the comparison value. a peak polarity selection section that outputs a peak polarity signal for selecting whether to detect an interval or a negative sign peak interval; By including the variable polarity peak interval detection section for detection, excellent effects can be obtained in that the amount of calculation for calculating the waveform similarity function can be reduced and pitch extraction errors can be reduced.
第1図は本発明の一実施例に係る音声ピッチ抽出装置の
要部ブロック図、第2図は本発明の実施例における可変
極性ピッチ間隔検出部の動作を示す波形図、第3図は従
来の音声ピッチ抽出装置の要部ブロック図、第4図は音
声波形の一例を示す波形図、第5図は実際に音声ピッチ
を抽出した例を示す図である。
11・・・・・・ピーク極性選択部、12・・・用可変
極性ピーク間隔検出部、13・・・・・・波形類似度関
数算出部、14・・・・・・ピッチ周期決定部、31・
・・・・・正ピーク間隔検出部、32・・・・・・波形
類似度関数算出部、33・・・・・・ピッチ周期決定部
。
代理人の氏名 弁理士 中尾敏男 ばかI名Jlト
躬■
囁2面FIG. 1 is a block diagram of the main parts of a voice pitch extraction device according to an embodiment of the present invention, FIG. 2 is a waveform diagram showing the operation of the variable polarity pitch interval detection section in the embodiment of the present invention, and FIG. 3 is a conventional FIG. 4 is a waveform diagram showing an example of a speech waveform, and FIG. 5 is a diagram showing an example of actual speech pitch extraction. 11... Peak polarity selection unit, 12... Variable polarity peak interval detection unit, 13... Waveform similarity function calculation unit, 14... Pitch period determination unit, 31・
. . . Positive peak interval detection section, 32 . . . Waveform similarity function calculation section, 33 . . . Pitch period determination section. Agent's name Patent attorney Toshio Nakao Baka I name Jl Toman ■ Whisper page 2
Claims (1)
長の音声波形データの正符号、負符号それぞれのピーク
のうちで大きさが閾値を越えるものの数をカウントして
比較し、その比較値に応じて正符号のピーク間隔と負符
号のピーク間隔のどちらを検出するかを選択するピーク
極性信号を出力するピーク極性選択部と、上記ピーク極
性信号に応じて正符号のピーク間隔と負符号のピーク間
隔のいずれかを検出する可変極性ピーク間隔検出部と、
上記ピーク間隔に等しい時間ずらし幅に対する上記音声
波形データの波形類似度関数値を算出する波形類似度関
数算出部と、上記波形類似度関数値を比較して最大もし
くは最小となる時間ずらし幅をピッチ周期として出力す
るピッチ周期決定部とを具備してなることを特徴とする
音声ピッチ抽出装置。The number of positive sign and negative sign peaks of audio waveform data of a certain length of time digitized at a predetermined sampling period is counted and compared, and the positive sign is calculated according to the comparison value. A peak polarity selection unit outputs a peak polarity signal for selecting whether to detect a sign peak interval or a negative sign peak interval; a variable polarity peak interval detection unit that detects either;
A waveform similarity function calculation unit that calculates a waveform similarity function value of the audio waveform data for a time shift width equal to the peak interval, and a pitch that compares the waveform similarity function values and determines the maximum or minimum time shift width. 1. A voice pitch extraction device comprising: a pitch period determination section that outputs a pitch period.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60140832A JPS622300A (en) | 1985-06-27 | 1985-06-27 | Voice pitch extractor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60140832A JPS622300A (en) | 1985-06-27 | 1985-06-27 | Voice pitch extractor |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS622300A true JPS622300A (en) | 1987-01-08 |
Family
ID=15277751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60140832A Pending JPS622300A (en) | 1985-06-27 | 1985-06-27 | Voice pitch extractor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS622300A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012019927A (en) * | 2010-07-14 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | Cycle estimating device, cycle estimating method, and program |
JP2013068977A (en) * | 2008-12-30 | 2013-04-18 | ▲ホア▼▲ウェイ▼技術有限公司 | Method and device for pitch retrieval |
WO2018105616A1 (en) * | 2016-12-06 | 2018-06-14 | 日本電信電話株式会社 | Signal feature extraction device, signal feature extraction method, and program |
-
1985
- 1985-06-27 JP JP60140832A patent/JPS622300A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013068977A (en) * | 2008-12-30 | 2013-04-18 | ▲ホア▼▲ウェイ▼技術有限公司 | Method and device for pitch retrieval |
JP2012019927A (en) * | 2010-07-14 | 2012-02-02 | Nippon Telegr & Teleph Corp <Ntt> | Cycle estimating device, cycle estimating method, and program |
WO2018105616A1 (en) * | 2016-12-06 | 2018-06-14 | 日本電信電話株式会社 | Signal feature extraction device, signal feature extraction method, and program |
JPWO2018105616A1 (en) * | 2016-12-06 | 2019-10-24 | 日本電信電話株式会社 | Signal feature extraction apparatus, signal feature extraction method, and program |
AU2017372454B2 (en) * | 2016-12-06 | 2020-07-16 | Nippon Telegraph And Telephone Corporation | Signal feature extraction apparatus, signal feature extraction method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moorer | The optimum comb method of pitch period analysis of continuous digitized speech | |
KR100880480B1 (en) | Real-time music / voice identification method and system of digital audio signal | |
KR940024660A (en) | Voice recognition device | |
JPS597120B2 (en) | speech analysis device | |
EP0235181A1 (en) | A parallel processing pitch detector. | |
JPS622300A (en) | Voice pitch extractor | |
EP1370989B1 (en) | Method and apparatus for identifying electronic files | |
KR890013602A (en) | Automated banking method and apparatus | |
JPS61185800A (en) | Voice pitch extractor | |
JPS63281200A (en) | Voice section detecting system | |
GB2082857A (en) | Determining the frequency of an alternating signal | |
JPS63259596A (en) | Voice section detecting system | |
JP2643202B2 (en) | Detection device for steady, transient and uncertain parts of input speech | |
KR940005047B1 (en) | Detector of voice transfer section | |
JPS62123499A (en) | Voice section detection system | |
JPS62194299A (en) | Voice/voicelessness discrimination system | |
JPH01310400A (en) | Speech pitch extracting device | |
JPS59149400A (en) | Syllable boundary selection system | |
JPH0740052B2 (en) | Frequency detector | |
JPS60165700A (en) | Voice pitch extractor | |
RU2003105498A (en) | METHOD FOR IDENTIFICATION OF INFORMATIVE PARAMETERS OF ST-SEGMENT OF ELECTROCARDIO SIGNAL AND DEVICE FOR ITS IMPLEMENTATION | |
JPS60168200A (en) | Pitch extractor | |
JPS62270000A (en) | Voice pitch frequency detection | |
JPH07128088A (en) | Circuit for standardizing detection signal of measuring equipment | |
JPS607499A (en) | Pitch extraction circuit |