JP3976169B2 - Audio signal processing apparatus, audio signal processing method and program - Google Patents
Audio signal processing apparatus, audio signal processing method and program Download PDFInfo
- Publication number
- JP3976169B2 JP3976169B2 JP2001298608A JP2001298608A JP3976169B2 JP 3976169 B2 JP3976169 B2 JP 3976169B2 JP 2001298608 A JP2001298608 A JP 2001298608A JP 2001298608 A JP2001298608 A JP 2001298608A JP 3976169 B2 JP3976169 B2 JP 3976169B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- signal
- subband
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、音声信号加工装置、音声信号加工方法及びプログラムに関する。
【0002】
【従来の技術】
人間の音声の特徴を表す音響パラメータ(たとえば、音声のピッチ情報やフォルマント情報)を用いて音声認識や音声合成を行う技術がある。
たとえば音声認識であれば、図3に示すように、予め音声のサンプルからの音響パラメータの抽出(図3、ステップS101)、言語音の音韻の識別や音韻の記号化を含む音韻処理(ステップS102)、単語あるいは文節を認識するための単語処理(ステップS103)、及び、構文を認識するための構文処理や文章の意味を認識するための意味処理を含む自然言語処理(ステップS104)を、相互に関連づけて行う。
【0003】
音響パラメータを抽出するための手法としては、音声の波形を表すデジタル信号を用いてこの音声にケプストラム分析を施す手法や、このようなデジタル信号を用い、この音声の相関関数を求め、この相関関数に基づいて音響パラメータを抽出する手法がある。
【0004】
【発明が解決しようとする課題】
ケプストラム分析や相関関数を利用して音響パラメータを抽出する場合、音声の波形を表すデジタル信号にFFT(Fast Fourier Transform)を施す等して周波数ドメインの情報を得る必要がある。
しかし、現実の音声のピッチはゆらぎを含んでおり、このためピッチが急激に変動する場合がある。従って、FFT等の結果から抽出する音響パラメータは、ピッチの急激な変動に起因する誤差を含んだものとなる、という問題が生じる。
【0005】
この発明は、上記実状に鑑みてなされたものであり、ピッチが揺らぎを含む音声の特徴を表す情報を正確に抽出するための音声信号加工装置及び音声信号加工方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成すべく、この発明の第1の観点にかかる音声信号加工装置は、
音声の波形を表す加工対象の音声信号を取得し、当該音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号に基づき、前記加工対象の音声信号の基本周波数成分及び高調波成分の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド抽出手段が生成したサブバンド信号をフィルタリングすることにより、当該サブバンド信号が表す基本周波数成分及び高調波成分の時間変化のうち所定周波数以上の成分を実質的に除去するフィルタ手段と、
前記フィルタ手段によりフィルタリングされたサブバンド信号を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成手段と、を備え、
前記出力用サブバンド情報生成手段は、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とする。
【0007】
前記音声信号加工装置は、前記サブバンド信号に基づいて、前記加工対象の音声信号が摩擦音を表すものであるか否かを判別し、摩擦音を表すと判別したとき、前記フィルタ手段によりフィルタリングされる前のピッチ波形信号のスペクトル分布を表す情報を生成して出力する手段を備えていてもよい。
【0009】
前記サブバンド抽出手段は、
制御に従って周波数特性を変化させ、前記加工対象の音声信号をフィルタリングすることにより、加工する対象である音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記加工対象の音声信号を、当該音声信号の基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記加工対象の音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備えていてもよい。
【0010】
前記音声信号加工装置は、ピッチ波形信号の各前記区間の元の時間長を特定するためのピッチ情報を生成して出力するピッチ情報出力手段を備えていてもよい。
【0011】
前記フィルタ特性決定手段は、前記可変フィルタにより抽出された基本周波数成分が所定値に達するタイミングが来る周期を特定し、特定した周期に基づいて前記基本周波数を特定するクロス検出手段を備えていてもよい。
【0012】
前記フィルタ特性決定手段は、
フィルタリングされる前の加工対象の音声信号に基づいて当該音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備えていてもよい。
【0013】
前記平均ピッチ検出手段は、
前記可変フィルタによりフィルタリングされる前の加工対象の音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の加工対象の音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該加工対象の音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備えていてもよい。
【0014】
また、この発明の第2の観点にかかる音声信号加工方法は、
音声の波形を表す加工対象の音声信号を取得し、当該音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該音声信号をピッチ波形信号へと加工するピッチ波形信号生成ステップと、
ピッチ波形信号をフィルタリングすることにより、当該ピッチ波形信号のうち所定周波数以上の成分を実質的に除去するフィルタリングステップと、
フィルタリングされたピッチ波形信号より前記加工対象の音声信号の基本周波数成分及び高調波成分を抽出し、抽出した基本周波数成分及び高調波成分を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成ステップと、より構成されており、
前記出力用サブバンド情報生成ステップでは、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とする。
【0015】
また、この発明の第3の観点にかかるプログラムは、
コンピュータを、
音声の波形を表す加工対象の音声信号を取得し、当該音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号をフィルタリングすることにより、当該ピッチ波形信号のうち所定周波数以上の成分を実質的に除去するフィルタ手段と、
前記フィルタ手段によりフィルタリングされたピッチ波形信号より前記加工対象の音声信号の基本周波数成分及び高調波成分を抽出し、抽出した基本周波数成分及び高調波成分を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成手段と、
して機能させるためのプログラムであって、
前記出力用サブバンド情報生成手段は、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とする。
【0016】
【発明の実施の形態】
以下、この発明の実施の形態を、音響パラメータ抽出器を例とし、図面を参照して説明する。
【0017】
図1は、この発明の実施の形態に係る音響パラメータ抽出器の構成を示す図である。図示するように、この音響パラメータ抽出器は、音声データ入力部1と、ピッチ抽出部2と、ピッチ長固定部3と、サブバンド分割部4と、帯域制限部5と、非線形量子化部6と、辞書選択部7と、音声辞書8と、摩擦音検出部9とより構成されている。
【0018】
音声データ入力部1は、例えば、記録媒体(例えば、フレキシブルディスクやMO(Magneto Optical disk)など)に記録されたデータを読み取る記録媒体ドライバ(フレキシブルディスクドライブや、MOドライブなど)等より構成されている。
音声データ入力部1は、音響パラメータを抽出する対象の音声の波形を表す音声データを取得して、ピッチ抽出部2に供給する。
【0019】
なお、音声データは、PCM(Pulse Code Modulation)変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【0020】
ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、帯域制限部5、非線形量子化部6及び辞書選択部7及び摩擦音検出部9は、いずれも、DSP(Digital Signal Processor)やCPU(Central Processing Unit)等のデータ処理装置より構成されている。
なお、ピッチ抽出部2、ピッチ長固定部3、サブバンド分割部4、帯域制限部5、摩擦音検出部9、非線形量子化部6及び辞書選択部7の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【0021】
ピッチ抽出部2は、機能的には、たとえば図2に示すように、ケプストラム解析部21と、自己相関解析部22と、重み計算部23と、BPF(Band Pass Filter)係数計算部24と、BPF25と、ゼロクロス解析部26と、波形相関解析部27と、位相調整部28とより構成されている。
なお、ケプストラム解析部21、自己相関解析部22、重み計算部23、BPF(Band Pass Filter)係数計算部24、BPF25、ゼロクロス解析部26、波形相関解析部27及び位相調整部28の一部又は全部の機能を単一のデータ処理装置が行うようにしてもよい。
【0022】
ケプストラム解析部21は、音声データ入力部1より供給される音声データにケプストラム分析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0023】
具体的には、ケプストラム解析部21は、音声データ入力部1より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意であり、例えば常用対数などでよい。)
次に、ケプストラム解析部21は、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0024】
自己相関解析部22は、音声データ入力部1より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部203へと供給する。
【0025】
具体的には、自己相関解析部22は、音声データ入力部1より音声データを供給されるとまず、数式1の右辺により表される自己相関関数r(l)を特定する。
【0026】
【数1】
【0027】
次に、自己相関解析部22は、自己相関関数r(l)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部23へと供給する。
【0028】
重み計算部23は、ケプストラム解析部21及び自己相関解析部22より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部24へと供給する。
【0029】
BPF係数計算部24は、平均ピッチ長を示すデータを重み計算部23より供給され、ゼロクロス解析部26より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(BPF25の通過帯域の中央の周波数)とするように、BPF25の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、BPF25の周波数特性を制御する。
【0030】
BPF25は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、BPF25は、自己の中心周波数を、BPF係数計算部24の制御に従った値に設定する。そして、音声データ入力部1より供給される音声データをフィルタリングして、フィルタリングされた音声データ(ピッチ信号)を、ゼロクロス解析部26及び波形相関解析部27へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、BPF25の帯域幅は、BPF25の通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
【0031】
ゼロクロス解析部26は、BPF25から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部24へと供給する。
ただし、ゼロクロス解析部26は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部24へと供給するようにしてもよい。
【0032】
波形相関解析部27は、音声データ入力部1より音声データを供給され、波形相関解析部27よりピッチ信号を供給されると、ピッチ信号の単位周期(例えば1周期)の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。
【0033】
具体的には、波形相関解析部27は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、波形相関解析部27は、値corが最大になるようなφの値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部28に供給する。
【0034】
【数2】
【0035】
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えてピッチ波形信号のデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形信号が表す音声が不正確になる、という問題が生じる。
【0036】
位相調整部28は、音声入力部1より音声データを供給され、波形相関解析部27より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を、位相データが示すこの区間の位相Ψに等しくなるように移相する。そして、移相された音声データをピッチ長固定部3に供給する。
【0037】
ピッチ長固定部3は、移相された音声データを位相調整部28より供給されると、この音声データの各区間をサンプリングし直し(リサンプリングし)、リサンプリングされた音声データ(ピッチ波形データ)を、サブバンド分割部4及び摩擦音検出部9に供給する。ただし、ピッチ長固定部3は、音声データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングする。
【0038】
また、ピッチ長固定部3は、各区間の元のサンプル数を示すデータを生成し、生成したデータを、各区間の元のピッチ長を表す情報(ピッチ情報)として外部に出力する。
【0039】
サブバンド分割部4は、ピッチ長固定部3より供給された音声データにDCT(Discrete Cosine Transform)等の直交変換を施すことにより、サブバンドデータを生成する。そして、生成したサブバンドデータを帯域制限部5へと供給する。
【0040】
サブバンドデータは、サブバンド分割部4に供給された音声データが表す音声の基本周波数成分の強度の時間変化を表すデータと、この音声のn個(nは自然数)の高調波成分の強度の時間変化を表すn個のデータとを含むデータである。従って、サブバンドデータは、音声の基本周波数成分(又は高調波成分)の強度の時間変化がないとき、この基本周波数成分(又は高調波成分)の強度を、直流信号の形で表す。
【0041】
帯域制限部5は、たとえばFIR型のディジタルフィルタの機能を行うものであり、サブバンド分割部4より供給されるサブバンドデータを構成する上述の計(n+1)個のデータをそれぞれフィルタリングし、フィルタリングされたサブバンドデータを、非線形量子化部6へと供給する。
帯域制限部5がフィルタリングを行うことにより、サブバンドデータが表す(n+1)個の各周波数成分(基本周波数成分又は高調波成分)の強度の時間変化のうち、所定の周波数を超える成分が実質的に除去される。
【0042】
非線形量子化部6は、データ処理装置に加え、更に、RAM(Random Access Memory)等の揮発性記憶装置と、ROM(Read Only Memory)等の不揮発性記憶装置とを備えている。
【0043】
非線形量子化部6は、フィルタリングされたサブバンドデータを帯域制限部5より供給されると、このサブバンドデータが表す各周波数成分の瞬時値に非線形圧縮を施して得られる値(具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値)を量子化したものに相当するサブバンドデータを生成する。そして、生成したサブバンドデータ(非線形量子化後のサブバンドデータ)を、辞書選択部7及び摩擦音検出部9へと供給する。
【0044】
具体的には、例えば、非線形量子化部6は、非線形圧縮後の各周波数成分の瞬時値を、数式3の右辺に示す関数Xri(xi)を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行えばよい。
【0045】
【数3】
Xri(xi)=sgn(xi)・|xi|4/3・2{global_gain(xi)}/4
(ただし、sgn(α)=(α/|α|)、xiはサブバンドデータが表す周波数成分の元の瞬時値、global_gain(xi)は、フルスケールを設定するためのxiの関数)
【0046】
なお、非線形量子化部6は、関数global_gain(xi)を特定するデータを、ユーザによる書き込み操作等に従って予め記憶しているものとする。
関数global_gain(xi)は、非線形量子化後のサブバンドデータのデータ量が、仮に非線形量子化部6が非線形圧縮を施すことなく量子化を行ったとした場合のデータ量に比べて100分の1程度になるような関数であることが望ましい。
【0047】
辞書選択部7は、音声辞書8にアクセスし、音声辞書8が後述する通り記憶するサブバンドデータのうち、非線形量子化部6より供給された非線形量子化後のサブバンドデータとの相関が最も強いものが、一定程度以上強い相関を示しているか否かを判別する。
【0048】
具体的には、辞書選択部7は、たとえば、以下(1)〜(3)として示す処理を行えばよい。すなわち、
(1) まず、非線形量子化部6より供給されたサブバンドデータと、音声辞書8が記憶する1組のサブバンドデータとの間で、同一周波数成分間の相関係数を各々求め、求めた相関係数の平均値を求める。
(2) (1)の処理を、音声辞書8に含まれるすべてのサブバンドデータについて行い、相関係数の平均値が最も高かったサブバンドデータを、非線形量子化部6より供給されたサブバンドデータともっとも相関が高いものとして特定する。
(3) 次に、(2)の処理で特定したサブバンドデータと、非線形量子化部6より供給されたサブバンドデータとの相関係数の平均値が所定値より大きいか否かを判別する。
【0049】
そして、辞書選択部7は、一定程度以上強い相関を示していると判別したとき、そのような相関を示しているサブバンドデータに割り当てられている後述のインデックス番号(又は記号)を、音響情報として外部に出力する。一方、一定程度以上強い相関を示していないと判別したときは、非線形量子化部6より供給されたサブバンドデータ自体を、音響情報として外部に出力する。
【0050】
音声辞書8は、ハードディスク装置等の不揮発性記憶装置より構成されている。
音声辞書8は、種々の音声のそれぞれについて、当該音声の各周波数成分の時間変化を表す非線形圧縮後のサブバンドデータを記憶する。また、これらのサブバンドに1対1に対応付けた形で、各々のサブバンドデータに固有のインデックス番号(又は記号)を記憶する。そして、辞書選択部7のアクセスに応答して、自己が記憶するサブバンドデータ及びインデックス番号(又は記号)を辞書選択部7に供給する。
【0051】
摩擦音検出部9は、非線形量子化部6より非線形量子化後のサブバンドデータを供給されると、このサブバンドデータに基づいて、この音響パラメータ抽出器に入力された音声データが摩擦音を表すものか否かを判別する。
【0052】
摩擦音の波形は、白色雑音のような幅広いスペクトルを有する一方、基本周波数成分や高調波成分を多く含まないという特徴がある。従って、摩擦音検出部9は、たとえば、供給されたサブバンドデータが表す高調波成分の強度が、音響パラメータを抽出する対象の音声の全強度に対して所定割合以下であるか否かを判別し、所定割合以下であると判別したとき、この音響パラメータ抽出器に入力された音声データが摩擦音を表すと判別し、所定割合を超えると判別したとき、摩擦音を表さないと判別するようにすればよい。なお、摩擦音検出部9は、音響パラメータを抽出する対象の音声の全強度を求めるため、音声データ入力部1より音声データを取得するようにしてもよい。
【0053】
そして、摩擦音検出部9は、この音響パラメータ抽出器に入力された音声データが摩擦音を表すと判別すると、摩擦音検出部9は、ピッチ長固定部3より供給された音声データにFFT(Fast Fourier Transform)(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)による変換を施すことによって、この音声データのスペクトル分布を表すデータを生成する。そして、生成したデータを、摩擦音を表す情報(摩擦音情報)として外部に出力する。
【0054】
以上説明した音響パラメータ抽出器は、入力された音声データが表す音声のピッチを表すピッチ情報と、この音声の基本周波数成分及び高調波成分の強度の時間変化を表す音響情報と、この音声が摩擦音であるか否かを表す摩擦音情報とを、音響パラメータを表すデータとして出力する。
【0055】
入力された音声データは、単位ピッチ分の区間の時間長を規格化され、ピッチのゆらぎの影響が除去される。音声データからは高精度な音響情報が抽出される。
また、ピッチ情報と、既知である元の音声データのサンプリング間隔の値とを用いて、音声データの各区間の元の時間長を特定することができる。このため、ピッチ波形信号の各区間の時間長を、元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
【0056】
なお、このピッチ波形抽出システムの構成は上述のものに限られない。
たとえば、音声データ入力部1は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声データ入力部1は、例えばモデムやDSU(Data Service Unit)等からなる通信制御部を備えていればよい。
【0057】
また、音声データ入力部1は、マイクロフォン、AF(Audio Frequency)増幅器、サンプラー、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、音声データ入力部1が取得する音声データは、必ずしもPCM信号である必要はない。
【0058】
また、ピッチ抽出部2は、ケプストラム解析部21(又は自己相関解析部22)を備えていなくてもよく、この場合、重み計算部23は、ケプストラム解析部21(又は自己相関解析部22)が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
また、ゼロクロス解析部26は、BPF25から供給されたピッチ信号を、そのままゼロクロス信号としてケプストラム解析部21へと供給するようにしてもよい。
【0059】
また、ピッチ長固定部3は、ピッチ情報を通信回線を介して外部に供給するようにしてもよい。この場合、ピッチ長固定部3は、モデムやDSU等からなる通信制御部を備えていればよい。同様に、摩擦音検出部9(又は辞書選択部7)は、摩擦音情報(又は音響情報)を通信回線を介して外部に供給するようにしてもよく、この場合、摩擦音検出部9(又は辞書選択部7)は、ピッチ長固定部3が備えるものと同様の通信制御部を備えていればよい。なお、ピッチ長固定部3、摩擦音検出部9及び辞書選択部7の各通信制御部の一部又は全部の機能を単一の装置が行ってもよい。
【0060】
また、ピッチ長固定部3は、ピッチ情報を、外部の記録媒体や、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。この場合、ピッチ長固定部3は、記録媒体ドライバやハードディスクコントローラ等の制御回路等からなる記録制御部を備えていればよい。同様に、摩擦音検出部9(又は辞書選択部7)は、摩擦音情報(又は音響情報)を外部の記憶装置に書き込むようにしてもよく、この場合、摩擦音検出部9(又は辞書選択部7)は、ピッチ長固定部3が備えるものと同様の記録制御部を備えていればよい。なお、ピッチ長固定部3、摩擦音検出部9及び辞書選択部7の各記録制御部の一部又は全部の機能を単一の装置が行ってもよい。
【0061】
また、辞書選択部7は、過去に非線形量子化部6より供給された非線形量子化後のサブバンドデータのうちもっとも新しいものを記憶する記憶部を備えていてもよい。この場合、辞書選択部7は、新たに非線形量子化後のサブバンドデータを供給されるたびに、このサブバンドデータが、自ら記憶している非線形量子化後のサブバンドデータとの間で一定程度以上高い相関を示しているか否かを判別し、判別結果を表す情報を、音響情報を構成するデータとして出力してもよい。なお、単一の記憶装置が辞書選択部7の記憶部と音声辞書8の機能を行うようにしてもよい。
【0062】
また、辞書選択部7は、新たに供給された非線形量子化後のサブバンドデータが、自ら記憶している非線形量子化後のサブバンドデータとの間で一定程度以上高い相関を示していると判別したとき、音響情報にはサブバンドデータ又はインデックス番号(又は記号)を含めないようにしてもよい。こうすることにより音響情報のデータ量が節約される。
【0063】
また、辞書選択部7は、音声辞書8が記憶するサブバンドデータのうちに、非線形量子化部6より供給された非線形量子化後のサブバンドデータとの間で一定程度以上強い相関を示すものがないと判別したとき、非線形量子化部6より供給された非線形量子化後のサブバンドデータに固有のインデックス番号(又は記号)を割り当て、このサブバンドデータ及びインデックス番号(又は記号)を、互いが対応付けられた形で音声辞書8に格納してもよい。
【0064】
以上、この発明の実施の形態を説明したが、この発明にかかる音声信号加工装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、パーソナルコンピュータに上述の音声データ入力部1、ピッチ抽出部2、ピッチ長固定部3、摩擦音検出部9、サブバンド分割部4、帯域制限部5、非線形量子化部6、辞書選択部7及び音声辞書8の動作を実行させるためのプログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音響パラメータ抽出器を構成することができる。
【0065】
また、例えば、通信回線の掲示板(BBS)にこのプログラムを掲示し、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。
そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
【0066】
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
【0067】
【発明の効果】
以上説明したように、この発明によれば、ピッチが揺らぎを含む音声の特徴を表す情報を正確に抽出するための音声信号加工装置及び音声信号加工方法が実現される。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る音響パラメータ抽出器の構成を示すブロック図である。
【図2】ピッチ抽出部の構成を示すブロック図である。
【図3】従来の規則合成方式の概念を模式的に説明する図である。
【符号の説明】
1 音声データ入力部
2 ピッチ抽出部
21 ケプストラム解析部
22 自己相関解析部
23 重み計算部
24 BPF係数計算部
25 BPF
26 ゼロクロス解析部
27 波形相関解析部
28 位相調整部
3 ピッチ長固定部
4 サブバンド分割部
5 帯域制限部
6 非線形量子化部
7 辞書選択部
8 音声辞書
9 摩擦音検出部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal processing apparatus, an audio signal processing method, and a program.
[0002]
[Prior art]
There is a technique for performing speech recognition and speech synthesis using acoustic parameters (for example, speech pitch information and formant information) representing the characteristics of human speech.
For example, in the case of speech recognition, as shown in FIG. 3, phoneme processing (step S102) including extraction of acoustic parameters from a speech sample in advance (FIG. 3, step S101), identification of phonemes of language sounds and symbolization of phonemes. ), Word processing (step S103) for recognizing words or phrases, and natural language processing (step S104) including syntax processing for recognizing syntax and semantic processing for recognizing the meaning of sentences. It is done in association with.
[0003]
As a method for extracting acoustic parameters, a method for performing cepstrum analysis on a voice using a digital signal representing a voice waveform, a correlation function of the voice using such a digital signal is obtained, and this correlation function is obtained. There is a method for extracting acoustic parameters based on the above.
[0004]
[Problems to be solved by the invention]
When an acoustic parameter is extracted using cepstrum analysis or a correlation function, it is necessary to obtain frequency domain information by performing FFT (Fast Fourier Transform) on a digital signal representing a speech waveform.
However, the pitch of actual speech includes fluctuations, and thus the pitch may fluctuate rapidly. Therefore, there arises a problem that the acoustic parameter extracted from the result of FFT or the like includes an error caused by a rapid change in pitch.
[0005]
The present invention has been made in view of the above circumstances, and an object thereof is to provide an audio signal processing apparatus and an audio signal processing method for accurately extracting information representing the characteristics of an audio including pitch fluctuations. .
[0006]
[Means for Solving the Problems]
In order to achieve the above object, an audio signal processing apparatus according to the first aspect of the present invention includes:
A pitch waveform signal that acquires a voice signal to be processed representing a voice waveform and processes the voice signal into a pitch waveform signal by aligning the time length of the section corresponding to the unit pitch of the voice signal substantially the same. Generating means;
Subband extraction means for generating a subband signal representing a time change of the fundamental frequency component and the harmonic component of the audio signal to be processed based on the pitch waveform signal;
Filter means for substantially removing a component having a predetermined frequency or more from temporal changes of the fundamental frequency component and the harmonic component represented by the subband signal by filtering the subband signal generated by the subband extraction means;
Output subband information generating means for generating and outputting output subband information representing the result of nonlinear quantization of the subband signal filtered by the filter means, and
The output subband information generating means stores reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of reference audio, and the output subband information is included in the reference subband information. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
It is characterized by that.
[0007]
The sound signal processing device determines whether the sound signal to be processed represents a friction sound based on the subband signal, and when it is determined that the sound signal represents a friction sound, is filtered by the filter means. There may be provided means for generating and outputting information representing the spectral distribution of the previous pitch waveform signal.
[0009]
The subband extracting means includes
A variable filter that extracts a fundamental frequency component of a voice to be processed by changing a frequency characteristic according to control and filtering the voice signal to be processed;
A filter characteristic that specifies the fundamental frequency of the voice based on the fundamental frequency component extracted by the variable filter, and controls the variable filter so as to have a frequency characteristic that blocks other components near the identified fundamental frequency. A determination means;
Pitch extraction means for dividing the audio signal to be processed into sections consisting of audio signals for a unit pitch based on the value of the fundamental frequency component of the audio signal;
A pitch length fixing unit that generates a pitch waveform signal in which the time lengths in each section are substantially the same by sampling each section of the speech signal to be processed with substantially the same number of samples. And may be provided.
[0010]
The audio signal processing apparatus may include pitch information output means for generating and outputting pitch information for specifying the original time length of each section of the pitch waveform signal.
[0011]
The filter characteristic determination unit may include a cross detection unit that identifies a period in which a timing at which the fundamental frequency component extracted by the variable filter reaches a predetermined value comes and identifies the fundamental frequency based on the identified period. Good.
[0012]
The filter characteristic determining means includes
Average pitch detecting means for detecting the time length of the pitch of the voice represented by the voice signal based on the voice signal to be processed before being filtered;
It is determined whether or not the period specified by the cross detection means and the time length of the pitch specified by the average pitch detection means are different from each other by a predetermined amount or more. The variable filter is controlled so as to have a frequency characteristic such that components other than the component near the specified fundamental frequency are cut off, and when it is determined that they are different, the average pitch detecting means is specified from the time length of the specified pitch. And a discriminating means for controlling the variable filter so as to have a frequency characteristic such that components other than the components near the fundamental frequency are cut off.
[0013]
The average pitch detecting means is
Cepstrum analysis means for obtaining a frequency at which the cepstrum of the sound signal to be processed before being filtered by the variable filter takes a maximum value;
Autocorrelation analysis means for obtaining a frequency at which the periodogram of the autocorrelation function of the speech signal to be processed before being filtered by the variable filter has a maximum value, and each frequency obtained by the cepstrum analysis means and the autocorrelation analysis means And calculating an average value of the pitch of the voice represented by the voice signal to be processed, and specifying the calculated average value as a time length of the pitch of the voice.
[0014]
An audio signal processing method according to the second aspect of the present invention is as follows:
Get the machining object of speech signal representing the speech waveform, by aligning the time length of the unit pitch corresponding to the interval of the audio signal substantially the same, the pitch waveform signal for processing the audio signal into a pitch waveform signal Generation step ;
A filtering step of substantially removing a component having a predetermined frequency or higher from the pitch waveform signal by filtering the pitch waveform signal;
Extracts the fundamental frequency component and harmonic component of the processed speech signal from the filtered pitch waveform signal, and generates output subband information representing the result of nonlinear quantization of the extracted fundamental frequency component and harmonic component. Output subband information generating step for outputting
In the output subband information generation step, reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of the reference sound is stored, and the output subband of the reference subband information is stored. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
It is characterized by that.
[0015]
A program according to the third aspect of the present invention is:
Computer
A pitch waveform signal that acquires a voice signal to be processed representing a voice waveform and processes the voice signal into a pitch waveform signal by aligning the time length of the section corresponding to the unit pitch of the voice signal substantially the same. Generating means;
Filter means for substantially removing a component having a predetermined frequency or higher from the pitch waveform signal by filtering the pitch waveform signal;
An output subband representing a result of extracting the fundamental frequency component and the harmonic component of the audio signal to be processed from the pitch waveform signal filtered by the filter means and nonlinearly quantizing the extracted fundamental frequency component and the harmonic component Output subband information generating means for generating and outputting information ;
A program to make it function ,
The output subband information generating means stores reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of reference audio, and the output subband information is included in the reference subband information. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
It is characterized by that.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings, taking an acoustic parameter extractor as an example.
[0017]
FIG. 1 is a diagram showing a configuration of an acoustic parameter extractor according to an embodiment of the present invention. As shown, the acoustic parameter extractor includes an audio data input unit 1, a pitch extraction unit 2, a pitch length fixing unit 3, a subband division unit 4, a band limiting unit 5, and a nonlinear quantization unit 6. And a dictionary selection unit 7, a speech dictionary 8, and a frictional sound detection unit 9.
[0018]
The audio data input unit 1 includes, for example, a recording medium driver (flexible disk drive, MO drive, etc.) that reads data recorded on a recording medium (for example, a flexible disk, an MO (Magneto Optical disk), etc.), and the like. Yes.
The voice data input unit 1 acquires voice data representing a waveform of a target voice from which acoustic parameters are extracted, and supplies the acquired voice data to the pitch extraction unit 2.
[0019]
It is assumed that the audio data has a PCM (Pulse Code Modulation) modulated digital signal format and represents audio sampled at a constant cycle sufficiently shorter than the audio pitch.
[0020]
The pitch extraction unit 2, pitch length fixing unit 3, subband division unit 4, band limiting unit 5, nonlinear quantization unit 6, dictionary selection unit 7, and frictional sound detection unit 9 are all DSP (Digital Signal Processor) or CPU (Central Processing Unit) or the like.
Note that a part or all of the functions of the pitch extracting unit 2, the pitch length fixing unit 3, the subband dividing unit 4, the band limiting unit 5, the frictional sound detecting unit 9, the nonlinear quantizing unit 6 and the dictionary selecting unit 7 are combined into a single function. The data processing apparatus may perform this.
[0021]
As shown in FIG. 2, for example, the pitch extraction unit 2 functionally includes a
A
[0022]
The
[0023]
Specifically, when audio data is supplied from the audio data input unit 1, the
Next, the
Then, the minimum value among the frequencies giving the maximum value of the cepstrum is specified as the fundamental frequency, and data indicating the identified fundamental frequency is generated and supplied to the weight calculator 23.
[0024]
When the audio data is supplied from the audio data input unit 1, the
[0025]
Specifically, when the audio data is supplied from the audio data input unit 1, the
[0026]
[Expression 1]
[0027]
Next, the
[0028]
When a total of two pieces of data indicating the fundamental frequency are supplied one by one from the
[0029]
When the BPF
[0030]
The
Specifically, the
The bandwidth of the
[0031]
The zero
However, the zero
[0032]
When the waveform
[0033]
Specifically, for each section, the waveform
[0034]
[Expression 2]
[0035]
Note that the time length of the section is preferably about one pitch. As the section is longer, the number of samples in the section increases and the data amount of the pitch waveform signal increases, or the sampling interval increases and the voice represented by the pitch waveform signal becomes inaccurate.
[0036]
When the
[0037]
When the phase-adjusted audio data is supplied from the
[0038]
The pitch length fixing unit 3 generates data indicating the original number of samples in each section, and outputs the generated data to the outside as information (pitch information) indicating the original pitch length of each section.
[0039]
The subband dividing unit 4 generates subband data by performing orthogonal transform such as DCT (Discrete Cosine Transform) on the audio data supplied from the pitch length fixing unit 3. Then, the generated subband data is supplied to the band limiting unit 5.
[0040]
The subband data includes data representing a temporal change in the intensity of the fundamental frequency component of the voice represented by the voice data supplied to the subband dividing unit 4 and the intensity of n harmonic components (n is a natural number) of the voice. This data includes n pieces of data representing changes over time. Therefore, the subband data represents the intensity of the fundamental frequency component (or harmonic component) in the form of a direct current signal when there is no temporal change in the intensity of the fundamental frequency component (or harmonic component) of the sound.
[0041]
The band limiting unit 5 performs a function of, for example, an FIR type digital filter, filters each of the above (n + 1) pieces of data constituting the subband data supplied from the subband dividing unit 4, and performs filtering. The obtained subband data is supplied to the nonlinear quantization unit 6.
When the band limiting unit 5 performs filtering, a component exceeding a predetermined frequency is substantially included in the temporal change in intensity of (n + 1) frequency components (fundamental frequency component or harmonic component) represented by the subband data. Removed.
[0042]
In addition to the data processing device, the nonlinear quantization unit 6 further includes a volatile storage device such as a RAM (Random Access Memory) and a nonvolatile storage device such as a ROM (Read Only Memory).
[0043]
When the non-linear quantization unit 6 is supplied with the filtered subband data from the band limiting unit 5, a value obtained by performing non-linear compression on the instantaneous value of each frequency component represented by the subband data (specifically, For example, subband data corresponding to a quantized value obtained by substituting an instantaneous value into an upward convex function is generated. Then, the generated subband data (subband data after nonlinear quantization) is supplied to the dictionary selection unit 7 and the frictional sound detection unit 9.
[0044]
Specifically, for example, the nonlinear quantization unit 6 makes the instantaneous value of each frequency component after nonlinear compression substantially equal to a value obtained by quantizing the function Xri (xi) shown on the right side of Equation 3. What is necessary is just to perform nonlinear quantization by changing into a thing.
[0045]
[Equation 3]
Xri (xi) = sgn (xi) · | xi | 4/3 · 2 {global_gain (xi)} / 4
(Where sgn (α) = (α / | α |), xi is the original instantaneous value of the frequency component represented by the subband data, and global_gain (xi) is a function of xi for setting the full scale)
[0046]
It is assumed that the nonlinear quantization unit 6 stores in advance data specifying the function global_gain (xi) in accordance with a user's write operation or the like.
The function global_gain (xi) is one hundredth of the data amount of the subband data after nonlinear quantization compared to the data amount when the nonlinear quantization unit 6 performs quantization without performing nonlinear compression. It is desirable that the function be of the order.
[0047]
The dictionary selection unit 7 accesses the speech dictionary 8 and has the highest correlation with the subband data after nonlinear quantization supplied from the nonlinear quantization unit 6 among the subband data stored in the speech dictionary 8 as described later. It is determined whether or not a strong one shows a strong correlation of a certain level or more.
[0048]
Specifically, the dictionary selection part 7 should just perform the process shown as (1)-(3) below, for example. That is,
(1) First, correlation coefficients between the same frequency components are respectively obtained between the subband data supplied from the nonlinear quantizing unit 6 and a set of subband data stored in the speech dictionary 8. The average value of the correlation coefficient is obtained.
(2) The processing of (1) is performed on all the subband data included in the speech dictionary 8, and the subband data having the highest correlation coefficient average value is supplied to the subband supplied from the nonlinear quantization unit 6 Identify as having the highest correlation with the data.
(3) Next, it is determined whether or not the average value of the correlation coefficient between the subband data specified in the processing of (2) and the subband data supplied from the nonlinear quantization unit 6 is greater than a predetermined value. .
[0049]
And when the dictionary selection part 7 discriminate | determines that the correlation more than a fixed degree is shown, the below-mentioned index number (or symbol) allocated to the subband data which shows such a correlation is acoustic information. Output to the outside. On the other hand, when it is determined that the correlation is not strong enough, the subband data supplied from the nonlinear quantization unit 6 is output to the outside as acoustic information.
[0050]
The voice dictionary 8 is composed of a nonvolatile storage device such as a hard disk device.
The voice dictionary 8 stores, for each of various voices, subband data after nonlinear compression that represents a time change of each frequency component of the voice. In addition, a unique index number (or symbol) is stored in each subband data in a form corresponding to each of these subbands. Then, in response to the access of the dictionary selection unit 7, the subband data and the index number (or symbol) stored by itself are supplied to the dictionary selection unit 7.
[0051]
When the frictional sound detecting unit 9 is supplied with the subband data after nonlinear quantization from the nonlinear quantizing unit 6, the voice data input to the acoustic parameter extractor represents the frictional sound based on the subband data. It is determined whether or not.
[0052]
The waveform of the frictional sound has a wide spectrum such as white noise, but has a feature that it does not contain many fundamental frequency components and harmonic components. Therefore, for example, the frictional sound detection unit 9 determines whether or not the intensity of the harmonic component represented by the supplied subband data is equal to or less than a predetermined ratio with respect to the total intensity of the sound from which the acoustic parameters are extracted. When it is determined that the sound data is below a predetermined ratio, it is determined that the sound data input to the acoustic parameter extractor represents a frictional sound. When it is determined that the sound data exceeds the predetermined ratio, it is determined that no frictional sound is expressed. That's fine. Note that the frictional sound detection unit 9 may acquire voice data from the voice data input unit 1 in order to obtain the total intensity of the target voice from which the acoustic parameters are extracted.
[0053]
When the frictional sound detection unit 9 determines that the sound data input to the acoustic parameter extractor represents a frictional sound, the frictional sound detection unit 9 converts the sound data supplied from the pitch length fixing unit 3 to FFT (Fast Fourier Transform). ) (Or any other method for generating data representing the result of Fourier transform of discrete variables) to generate data representing the spectral distribution of the audio data. And the produced | generated data are output outside as information (friction sound information) showing friction sound.
[0054]
The acoustic parameter extractor described above includes pitch information representing the pitch of the voice represented by the input voice data, acoustic information representing the temporal change in intensity of the fundamental frequency component and harmonic component of the voice, and the voice is a frictional sound. Is output as data representing acoustic parameters.
[0055]
The input voice data is standardized for the time length of the section for the unit pitch, and the influence of pitch fluctuation is removed. High-accuracy acoustic information is extracted from the audio data.
In addition, the original time length of each section of the audio data can be specified using the pitch information and the known value of the sampling interval of the original audio data. For this reason, the original voice data can be easily restored by restoring the time length of each section of the pitch waveform signal to the time length in the original voice data.
[0056]
Note that the configuration of the pitch waveform extraction system is not limited to that described above.
For example, the voice data input unit 1 may acquire voice data from the outside via a communication line such as a telephone line, a dedicated line, or a satellite line. In this case, the audio data input unit 1 only needs to include a communication control unit including, for example, a modem or a DSU (Data Service Unit).
[0057]
The audio data input unit 1 may include a sound collection device including a microphone, an AF (Audio Frequency) amplifier, a sampler, an A / D (Analog-to-Digital) converter, a PCM encoder, and the like. If the sound collection device acquires sound data by amplifying a sound signal representing sound collected by its own microphone, sampling and A / D converting, and then performing PCM modulation on the sampled sound signal Good. Note that the audio data acquired by the audio data input unit 1 is not necessarily a PCM signal.
[0058]
In addition, the pitch extraction unit 2 may not include the cepstrum analysis unit 21 (or autocorrelation analysis unit 22). In this case, the weight calculation unit 23 includes the cepstrum analysis unit 21 (or autocorrelation analysis unit 22). The reciprocal of the obtained fundamental frequency may be handled as the average pitch length as it is.
Alternatively, the zero
[0059]
The pitch length fixing unit 3 may supply pitch information to the outside via a communication line. In this case, the pitch length fixing unit 3 only needs to include a communication control unit including a modem, a DSU, or the like. Similarly, the frictional sound detection unit 9 (or dictionary selection unit 7) may supply frictional sound information (or acoustic information) to the outside via a communication line. In this case, the frictional sound detection unit 9 (or dictionary selection) The unit 7) only needs to include a communication control unit similar to that included in the pitch length fixing unit 3. A single device may perform a part or all of the functions of the communication control units of the pitch length fixing unit 3, the frictional sound detection unit 9, and the dictionary selection unit 7.
[0060]
The pitch length fixing unit 3 may write the pitch information to an external storage device such as an external recording medium or a hard disk device. In this case, the pitch length fixing unit 3 only needs to include a recording control unit including a control circuit such as a recording medium driver and a hard disk controller. Similarly, the frictional sound detection unit 9 (or dictionary selection unit 7) may write the frictional sound information (or acoustic information) in an external storage device. In this case, the frictional sound detection unit 9 (or dictionary selection unit 7). Need only include a recording control unit similar to that included in the pitch length fixing unit 3. A single device may perform a part or all of the functions of the recording control units of the pitch length fixing unit 3, the frictional sound detection unit 9, and the dictionary selection unit 7.
[0061]
Moreover, the dictionary selection part 7 may be provided with the memory | storage part which memorize | stores the newest thing among the subband data after the nonlinear quantization supplied from the nonlinear quantization part 6 in the past. In this case, each time the dictionary selection unit 7 is newly supplied with subband data after nonlinear quantization, the subband data is constant between the subband data after nonlinear quantization stored by itself. It may be determined whether or not the correlation is higher than a certain level, and information indicating the determination result may be output as data constituting the acoustic information. A single storage device may perform the functions of the storage unit of the dictionary selection unit 7 and the speech dictionary 8.
[0062]
In addition, the dictionary selection unit 7 shows that the newly supplied non-linear quantized subband data shows a correlation higher than a certain level with the non-linear quantized subband data stored therein. When determined, the acoustic information may not include subband data or index numbers (or symbols). By doing so, the data amount of acoustic information is saved.
[0063]
Further, the dictionary selection unit 7 shows a strong correlation of a certain degree or more with the subband data after nonlinear quantization supplied from the nonlinear quantization unit 6 among the subband data stored in the speech dictionary 8. When it is determined that there is no index, a unique index number (or symbol) is assigned to the subband data after nonlinear quantization supplied from the nonlinear quantization unit 6, and the subband data and the index number (or symbol) are assigned to each other. May be stored in the speech dictionary 8 in a form associated with.
[0064]
Although the embodiments of the present invention have been described above, the audio signal processing apparatus according to the present invention can be realized using a normal computer system, not a dedicated system.
For example, the above-described voice data input unit 1, pitch extraction unit 2, pitch length fixing unit 3, friction sound detection unit 9, subband division unit 4, band limiting unit 5, nonlinear quantization unit 6, dictionary selection unit 7 are added to the personal computer. And an acoustic parameter extractor for executing the above-described processing by installing the program from a medium (CD-ROM, MO, flexible disk, etc.) storing a program for executing the operation of the voice dictionary 8 Can do.
[0065]
Further, for example, this program may be posted on a bulletin board (BBS) of a communication line and distributed via the communication line. Also, a carrier wave is modulated by a signal representing this program, and the obtained modulated wave is An apparatus that transmits and receives the modulated wave may demodulate the modulated wave to restore the program.
The above-described processing can be executed by starting this program and executing it under the control of the OS in the same manner as other application programs.
[0066]
When the OS shares a part of the process, or when the OS constitutes a part of one component of the present invention, a program excluding that part is stored in the recording medium. May be. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.
[0067]
【The invention's effect】
As described above, according to the present invention, an audio signal processing apparatus and an audio signal processing method for accurately extracting information representing the characteristics of audio including pitch fluctuations are realized.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an acoustic parameter extractor according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating a configuration of a pitch extraction unit.
FIG. 3 is a diagram schematically illustrating the concept of a conventional rule composition method.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Voice data input part 2
26 Zero
Claims (9)
ピッチ波形信号に基づき、前記加工対象の音声信号の基本周波数成分及び高調波成分の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド抽出手段が生成したサブバンド信号をフィルタリングすることにより、当該サブバンド信号が表す基本周波数成分及び高調波成分の時間変化のうち所定周波数以上の成分を実質的に除去するフィルタ手段と、
前記フィルタ手段によりフィルタリングされたサブバンド信号を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成手段と、を備え、
前記出力用サブバンド情報生成手段は、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とする音声信号加工装置。A pitch waveform signal that acquires a voice signal to be processed representing a voice waveform and processes the voice signal into a pitch waveform signal by aligning the time length of the section corresponding to the unit pitch of the voice signal substantially the same. Generating means;
Subband extraction means for generating a subband signal representing a time change of the fundamental frequency component and the harmonic component of the audio signal to be processed based on the pitch waveform signal;
Filter means for substantially removing a component having a predetermined frequency or more from temporal changes of the fundamental frequency component and the harmonic component represented by the subband signal by filtering the subband signal generated by the subband extraction means;
Output subband information generating means for generating and outputting output subband information representing the result of nonlinear quantization of the subband signal filtered by the filter means, and
The output subband information generating means stores reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of reference audio, and the output subband information is included in the reference subband information. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
An audio signal processing apparatus.
ことを特徴とする請求項1に記載の音声信号加工装置。Based on the subband signal, it is determined whether or not the sound signal to be processed represents a friction sound, and when it is determined that the sound signal represents a friction sound, the spectrum of the pitch waveform signal before being filtered by the filter means Means for generating and outputting information representing the distribution;
The audio signal processing apparatus according to claim 1.
制御に従って周波数特性を変化させ、前記加工対象の音声信号をフィルタリングすることにより、加工する対象である音声の基本周波数成分を抽出する可変フィルタと、
前記可変フィルタにより抽出された基本周波数成分に基づいて前記音声の基本周波数を特定し、特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるように前記可変フィルタを制御するフィルタ特性決定手段と、
前記加工対象の音声信号を、当該音声信号の基本周波数成分の値に基づき、単位ピッチ分の音声信号からなる区間へと区切るピッチ抽出手段と、
前記加工対象の音声信号の各前記区間内を互いに実質的に同数の標本でサンプリングすることにより、各該区間内の時間長が実質的に同一に揃ったピッチ波形信号を生成するピッチ長固定部と、を備える、
ことを特徴とする請求項1又は2に記載の音声信号加工装置。The subband extracting means includes
A variable filter that extracts a fundamental frequency component of a voice to be processed by changing a frequency characteristic according to control and filtering the voice signal to be processed;
A filter characteristic that specifies the fundamental frequency of the voice based on the fundamental frequency component extracted by the variable filter, and controls the variable filter so as to have a frequency characteristic that blocks other components near the identified fundamental frequency. A determination means;
Pitch extraction means for dividing the audio signal to be processed into sections consisting of audio signals for a unit pitch based on the value of the fundamental frequency component of the audio signal;
A pitch length fixing unit that generates a pitch waveform signal in which the time lengths in each section are substantially the same by sampling each section of the speech signal to be processed with substantially the same number of samples. And comprising
Audio signal processing apparatus according to claim 1 or 2, characterized in that.
ことを特徴とする請求項3に記載の音声信号加工装置。Pitch information output means for generating and outputting pitch information for specifying the original time length of each section of the pitch waveform signal,
The audio signal processing apparatus according to claim 3 .
ことを特徴とする請求項3又は4に記載の音声信号加工装置。The filter characteristic determination means includes a cross detection means for specifying a period in which a timing at which the fundamental frequency component extracted by the variable filter reaches a predetermined value comes, and identifying the fundamental frequency based on the identified period.
The audio signal processing apparatus according to claim 3 or 4 ,
フィルタリングされる前の加工対象の音声信号に基づいて当該音声信号が表す音声のピッチの時間長を検出する平均ピッチ検出手段と、
前記クロス検出手段が特定した周期と前記平均ピッチ検出手段が特定したピッチの時間長とが互いに所定量以上異なっているか否かを判別して、異なっていないと判別したときは前記クロス検出手段が特定した基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御し、異なっていると判別したときは前記平均ピッチ検出手段が特定したピッチの時間長から特定される基本周波数近傍の成分以外が遮断されるような周波数特性になるよう前記可変フィルタを制御する判別手段と、を備える、
ことを特徴とする請求項5に記載の音声信号加工装置。The filter characteristic determining means includes
Average pitch detecting means for detecting the time length of the pitch of the voice represented by the voice signal based on the voice signal to be processed before being filtered;
It is determined whether or not the period specified by the cross detection means and the time length of the pitch specified by the average pitch detection means are different from each other by a predetermined amount or more. The variable filter is controlled so as to have a frequency characteristic such that components other than the component near the specified fundamental frequency are cut off, and when it is determined that they are different, the average pitch detecting means is specified from the time length of the specified pitch. A discriminating means for controlling the variable filter so as to have a frequency characteristic such that components other than components near the fundamental frequency are cut off,
The audio signal processing apparatus according to claim 5 .
前記可変フィルタによりフィルタリングされる前の加工対象の音声信号のケプストラムが極大値をとる周波数を求めるケプストラム分析手段と、
前記可変フィルタによりフィルタリングされる前の加工対象の音声信号の自己相関関数のピリオドグラムが極大値をとる周波数を求める自己相関分析手段と、
前記ケプストラム分析手段及び前記自己相関分析手段が求めた各周波数に基づいて当該加工対象の音声信号が表す音声のピッチの平均値を求め、求めた平均値を当該音声のピッチの時間長として特定する平均計算手段と、を備える、
ことを特徴とする請求項6に記載の音声信号加工装置。The average pitch detecting means is
Cepstrum analysis means for obtaining a frequency at which the cepstrum of the sound signal to be processed before being filtered by the variable filter takes a maximum value;
Autocorrelation analysis means for obtaining a frequency at which the periodogram of the autocorrelation function of the speech signal to be processed before being filtered by the variable filter takes a maximum value;
Based on each frequency obtained by the cepstrum analysis means and the autocorrelation analysis means, an average value of the pitch of the voice represented by the voice signal to be processed is obtained, and the obtained average value is specified as a time length of the pitch of the voice. An average calculating means,
The audio signal processing apparatus according to claim 6 .
ピッチ波形信号をフィルタリングすることにより、当該ピッチ波形信号のうち所定周波数以上の成分を実質的に除去するフィルタリングステップと、
フィルタリングされたピッチ波形信号より前記加工対象の音声信号の基本周波数成分及び高調波成分を抽出し、抽出した基本周波数成分及び高調波成分を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成ステップと、より構成されており、
前記出力用サブバンド情報生成ステップでは、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とする音声信号加工方法。Get the machining object of speech signal representing the speech waveform, by aligning the time length of the unit pitch corresponding to the interval of the audio signal substantially the same, the pitch waveform signal for processing the audio signal into a pitch waveform signal Generation step ;
A filtering step of substantially removing a component having a predetermined frequency or higher from the pitch waveform signal by filtering the pitch waveform signal;
Extracts the fundamental frequency component and harmonic component of the processed speech signal from the filtered pitch waveform signal, and generates output subband information representing the result of nonlinear quantization of the extracted fundamental frequency component and harmonic component. Output subband information generating step for outputting
In the output subband information generation step, reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of the reference sound is stored, and the output subband of the reference subband information is stored. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
An audio signal processing method characterized by the above.
音声の波形を表す加工対象の音声信号を取得し、当該音声信号の単位ピッチ分にあたる区間の時間長を実質的に同一に揃えることにより、当該音声信号をピッチ波形信号へと加工するピッチ波形信号生成手段と、
ピッチ波形信号をフィルタリングすることにより、当該ピッチ波形信号のうち所定周波数以上の成分を実質的に除去するフィルタ手段と、
前記フィルタ手段によりフィルタリングされたピッチ波形信号より前記加工対象の音声信号の基本周波数成分及び高調波成分を抽出し、抽出した基本周波数成分及び高調波成分を非線形量子化した結果を表す出力用サブバンド情報を生成して出力する出力用サブバンド情報生成手段と、
して機能させるためのプログラムであって、
前記出力用サブバンド情報生成手段は、参照用の音声の基本周波数成分及び高調波成分の時間変化を表す参照用サブバンド情報を記憶し、前記参照用サブバンド情報のうち、前記出力用サブバンド情報との間で一定程度以上の相関を示すものがあるか否かを判別し、あると判別したとき、前記出力用サブバンド情報に代えて、該当する参照用サブバンド情報を識別する識別情報を出力する、
ことを特徴とするプログラム。Computer
A pitch waveform signal that acquires a voice signal to be processed representing a voice waveform and processes the voice signal into a pitch waveform signal by aligning the time length of the section corresponding to the unit pitch of the voice signal substantially the same. Generating means;
Filter means for substantially removing a component having a predetermined frequency or higher from the pitch waveform signal by filtering the pitch waveform signal;
An output subband representing a result of extracting the fundamental frequency component and the harmonic component of the audio signal to be processed from the pitch waveform signal filtered by the filter means and nonlinearly quantizing the extracted fundamental frequency component and the harmonic component Output subband information generating means for generating and outputting information ;
A program to make it function ,
The output subband information generating means stores reference subband information representing temporal changes in the fundamental frequency component and the harmonic component of reference audio, and the output subband information is included in the reference subband information. It is determined whether or not there is a certain degree of correlation with the information, and when it is determined that there is, identification information for identifying the corresponding reference subband information instead of the output subband information Output,
A program characterized by that .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001298608A JP3976169B2 (en) | 2001-09-27 | 2001-09-27 | Audio signal processing apparatus, audio signal processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001298608A JP3976169B2 (en) | 2001-09-27 | 2001-09-27 | Audio signal processing apparatus, audio signal processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003108172A JP2003108172A (en) | 2003-04-11 |
JP3976169B2 true JP3976169B2 (en) | 2007-09-12 |
Family
ID=19119487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001298608A Expired - Lifetime JP3976169B2 (en) | 2001-09-27 | 2001-09-27 | Audio signal processing apparatus, audio signal processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3976169B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4599558B2 (en) | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | Pitch period equalizing apparatus, pitch period equalizing method, speech encoding apparatus, speech decoding apparatus, and speech encoding method |
MX2011001253A (en) * | 2008-08-08 | 2011-03-21 | Panasonic Corp | Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method. |
EP3742441B1 (en) * | 2018-01-17 | 2023-04-12 | Nippon Telegraph And Telephone Corporation | Encoding device, decoding device, fricative determination device, and method and program thereof |
-
2001
- 2001-09-27 JP JP2001298608A patent/JP3976169B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003108172A (en) | 2003-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7647226B2 (en) | Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals | |
US7676361B2 (en) | Apparatus, method and program for voice signal interpolation | |
EP1422693A1 (en) | PITCH WAVEFORM SIGNAL GENERATION APPARATUS, PITCH WAVEFORM SIGNAL GENERATION METHOD, AND PROGRAM | |
JPS6366600A (en) | Method and apparatus for obtaining normalized signal for subsequent processing by preprocessing of speaker,s voice | |
JP3976169B2 (en) | Audio signal processing apparatus, audio signal processing method and program | |
JP3955967B2 (en) | Audio signal noise elimination apparatus, audio signal noise elimination method, and program | |
JPH04358200A (en) | Speech synthesizer | |
JP4256189B2 (en) | Audio signal compression apparatus, audio signal compression method, and program | |
KR100766170B1 (en) | Apparatus and Method for Music Summary Using Multi-Level Quantization | |
JP3875890B2 (en) | Audio signal processing apparatus, audio signal processing method and program | |
JP4407305B2 (en) | Pitch waveform signal dividing device, speech signal compression device, speech synthesis device, pitch waveform signal division method, speech signal compression method, speech synthesis method, recording medium, and program | |
JP4736699B2 (en) | Audio signal compression apparatus, audio signal restoration apparatus, audio signal compression method, audio signal restoration method, and program | |
JP3994332B2 (en) | Audio signal compression apparatus, audio signal compression method, and program | |
JP3994333B2 (en) | Speech dictionary creation device, speech dictionary creation method, and program | |
US5899974A (en) | Compressing speech into a digital format | |
JP3806607B2 (en) | Phoneme data processing device, phoneme data processing method, and program | |
JP2007110451A (en) | Speech signal adjustment apparatus, speech signal adjustment method, and program | |
WO2007000816A1 (en) | Speech feature extracting device, speaker recognizer, program, and speech feature extracting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20010927 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20031217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20031217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070614 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3976169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110629 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130629 Year of fee payment: 6 |