JP5272141B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP5272141B2 JP5272141B2 JP2009126598A JP2009126598A JP5272141B2 JP 5272141 B2 JP5272141 B2 JP 5272141B2 JP 2009126598 A JP2009126598 A JP 2009126598A JP 2009126598 A JP2009126598 A JP 2009126598A JP 5272141 B2 JP5272141 B2 JP 5272141B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- value
- section
- speaker
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 94
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 101100334593 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD27 gene Proteins 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Description
図1は、本発明の第1実施形態に係る音声処理装置100Aのブロック図である。図1に示すように、音声処理装置100Aには、信号供給装置12と出力装置14とが接続される。信号供給装置12は、音声の時間軸上の波形を表す音声信号Vを音声処理装置100Aに供給する。例えば、周囲の音声を収音して音声信号Vを生成する収音機器や、各種の記録媒体から音声信号Vを取得する再生装置や、通信網から音声信号Vを受信する通信装置が、信号供給装置12として利用される。
次に、本発明の第2実施形態について説明する。第2実施形態においては、類否指標値Rの算定の対象が第1実施形態とは相違する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
次に、本発明の第3実施形態について説明する。話者認識のひとつの態様である話者識別は、音声の発声者が複数の登録者の何れであるのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理とに大別される。第1実施形態や第2実施形態では前者の話者識別を例示したが、第3実施形態では後者の話者識別を例示する。なお、以下では第1実施形態の構成を基礎として第3実施形態を説明するが、第2実施形態における成分付加部36を第3実施形態に追加することも当然に可能である。
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
第1実施形態では平均パワースペクトルPの逆フーリエ変換で自己相関数列AVを算定したが、時間領域の演算で音声信号Vから自己相関数列AVを算定する構成も採用される。ただし、周波数領域の演算で自己相関数列AVを算定する第1実施形態によれば、特徴抽出部32による演算量が削減されるという利点がある。また、低域抑圧部51の位置は任意に変更される。例えば、時間-周波数変換部52の後段に低域抑圧部51を配置して周波数スペクトルQのうちの低域側の成分を抑圧する構成も採用される。もっとも、低域抑圧部51は本発明において必須ではない。すなわち、音声信号Vのうちの低域側の成分の自己相関数列AVにも発声者に固有の特徴は現れるから、低域抑圧部51を省略した構成(すなわち、音声信号Vの全帯域を対象として自己相関数列AVを算定する構成)であっても、話者認識に利用できる自己相関数列AV(特徴量FV)を算定することは可能である。
以上の各形態においては自己相関数列(AV,AREF)を特徴量(FV,FREF,FC)として例示したが、第2実施形態や第3実施形態における特徴量(FV,FREF,FC)の種類は任意に変更される。例えば、音声の平均パワースペクトルP(周波数スペクトルQの絶対値の自乗の平均値)や、周波数スペクトルQから算定されるケプストラムの複数のフレームにわたる平均(平均ケプストラム)を特徴量(FV,FREF,FC)として利用することが可能である。
第2実施形態における特徴量(FV,FREF)として平均パワースペクトルPを採用した場合、成分付加部36は、音声信号Vの平均パワースペクトルPV(特徴量FV)と、各登録者の音声の平均パワースペクトルPREF(特徴量FREF)との各々に共通の補助成分Wpを付加する。指標算定部42は、平均パワースペクトルPVにおける周波数毎の強度(パワー)の数値と補助成分Wpの各数値とを数式(2)の各数値d1(i)に代入するとともに、平均パワースペクトルPREFにおける周波数毎の強度の数値と補助成分Wpの各数値とを数式(2)の各数値d2(i)に代入したときの相関係数Corを類否指標値Rとして算定する。
以上の各形態においては話者識別を例示したが、第1実施形態の音声処理装置100Aや第2実施形態の音声処理装置100Bは、音声信号Vの音声の発声者が正規の登録者に該当するか否かを判定する話者認証(話者照合)にも利用される。例えば、正規の登録者の音声から抽出された特徴量FREF(例えば自己相関数列AREF)が記憶装置24に格納され、指標算定部42は、音声信号Vから抽出された特徴量FV(例えば自己相関数列AV)と登録者の特徴量FREFとの類否指標値Rを算定する。認識処理部44は、類否指標値Rの大小に応じて音声信号Vの音声の発声者の正当性を判定する。具体的には、認識処理部44は、類否指標値Rが所定の閾値を上回る場合(特徴量FVと特徴量FREFとが類似する場合)には発声者の正当性を認証し、類否指標値Rが閾値を下回る場合には認証を否定する。
以上の各形態においては1種類の特徴量FVを利用したが、相異なる複数種の特徴量の組合せを特徴量FV(さらには特徴量FREF)として話者認識に利用する構成も好適である。例えば、自己相関数列AVと平均パワースペクトルPと平均ケプストラムとから選択された2種以上の特徴量の組合せを特徴抽出部32が特徴量FVとして抽出する。指標算定部42は、特徴量FVの特徴量毎に参照用の特徴量FREFとの類否指標値を算定するとともに各特徴量の類否指標値の加重和を話者認識用の類否指標値Rとして算定する。以上の構成によれば、特徴量FVと特徴量FREFとの類否の判断に音声の様々な観点(性質)が反映されるから、1種類の特徴量を利用する場合と比較して高精度な話者認識が実現されるという利点がある。また、各特徴量の類否指標値の加重和が類否指標値Rとして話者認識に利用されるから、特定の特徴量を他の特徴量に対して優先させるといった操作が可能である。
Claims (7)
- 複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出手段と、
複数の数値の系列で表わされる参照用の特徴量を記憶する記憶手段と、
前記特徴抽出手段が抽出した特徴量と前記参照用の特徴量との各々における相対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加手段と、
前記補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定手段と、
前記類否指標値を利用して話者認識を実行する認識処理手段と
を具備する音声処理装置。 - 前記特徴抽出手段は、前記音声信号のうち所定の周波数を上回る成分について特徴量を抽出する
請求項1の音声処理装置。 - 前記音声信号を複数の区間に区分する音声区分手段を具備し、
前記特徴抽出手段は、前記各区間について特徴量を抽出し、
前記指標算定手段は、前記各区間について類否指標値を算定し、
前記認識処理手段は、前記各区間の類否指標値を利用して前記複数の区間の各々を発声者毎の集合に分類する
請求項1または請求項2の音声処理装置。 - 前記指標算定手段は、前記特徴抽出手段が算定した一の区間の特徴量について、代表的な声質の音声サンプルから抽出されて前記記憶手段に記憶された参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する特徴量との類否を示す類否指標値とを算定し、
前記認識処理手段は、前記一の区間の特徴量が、前記参照用の特徴量に類似する場合に、前記一の区間を新規な集合に分類し、前記既存の集合の特徴量に類似する場合に、前記一の区間を前記既存の集合に分類する
請求項3の音声処理装置。 - 前記認識処理手段は、前記一の区間の特徴量が前記参照用の特徴量に類似する場合であっても、前記既存の集合の特徴量との類否指標値が所定の閾値に対して類似側の数値である場合には、前記一の区間を当該既存の集合に分類する
請求項4の音声処理装置。 - 前記認識処理手段は、前記一の区間の特徴量が前記既存の集合の特徴量に類似する場合であっても、前記既存の集合の特徴量との類否指標値が所定の閾値に対して非類似側の数値である場合には、前記一の区間を新規な集合に分類する
請求項4または請求項5の音声処理装置。 - 複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出処理と、
前記特徴抽出処理で抽出した特徴量と記憶手段に記憶される複数の数値の系列で表わされる参照用の特徴量との各々における対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加処理と、
前記補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定処理と、
前記類否指標値を利用した話者認識処理と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009126598A JP5272141B2 (ja) | 2009-05-26 | 2009-05-26 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009126598A JP5272141B2 (ja) | 2009-05-26 | 2009-05-26 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010276697A JP2010276697A (ja) | 2010-12-09 |
JP5272141B2 true JP5272141B2 (ja) | 2013-08-28 |
Family
ID=43423747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009126598A Expired - Fee Related JP5272141B2 (ja) | 2009-05-26 | 2009-05-26 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5272141B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429891B (zh) * | 2020-03-30 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6048040B2 (ja) * | 1977-10-20 | 1985-10-24 | 日本電信電話株式会社 | 音声認識における個人差の学習処理方法 |
EP0233285A4 (en) * | 1985-07-01 | 1987-12-01 | Ecco Ind | SPEAKER VERIFICATION SYSTEM. |
JP2504171B2 (ja) * | 1989-03-16 | 1996-06-05 | 日本電気株式会社 | 声門波形に基づく話者識別装置 |
EP0896712A4 (en) * | 1997-01-31 | 2000-01-26 | T Netix Inc | SYSTEM AND METHOD FOR DISCOVERING RECORDED LANGUAGE |
JP2001318691A (ja) * | 2000-05-09 | 2001-11-16 | Fuji Xerox Co Ltd | 個人識別装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
JP4244524B2 (ja) * | 2001-02-16 | 2009-03-25 | カシオ計算機株式会社 | 音声認証装置、音声認証方法、及びプログラム |
JP5418223B2 (ja) * | 2007-03-26 | 2014-02-19 | 日本電気株式会社 | 音声分類装置、音声分類方法、および音声分類用プログラム |
JP5109050B2 (ja) * | 2007-07-13 | 2012-12-26 | 学校法人早稲田大学 | 音声処理装置およびプログラム |
JP4973352B2 (ja) * | 2007-07-13 | 2012-07-11 | ヤマハ株式会社 | 音声処理装置およびプログラム |
-
2009
- 2009-05-26 JP JP2009126598A patent/JP5272141B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010276697A (ja) | 2010-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017157142A1 (zh) | 歌曲旋律信息处理方法、服务器和存储介质 | |
JP5961950B2 (ja) | 音声処理装置 | |
US8965766B1 (en) | Systems and methods for identifying music in a noisy environment | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
CN111243618B (zh) | 用于确定音频中的特定人声片段的方法、装置和电子设备 | |
JP2009008836A (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US10706867B1 (en) | Global frequency-warping transformation estimation for voice timbre approximation | |
Kamarudin et al. | Feature extraction using spectral centroid and Mel frequency cepstral coefficient for Quranic accent automatic identification | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JPWO2010097870A1 (ja) | 音楽検索装置 | |
JP2010210758A (ja) | 音声を含む信号の処理方法及び装置 | |
JP2017187676A (ja) | 音声判別装置、音声判別方法、コンピュータプログラム | |
Rajan et al. | Music genre classification by fusion of modified group delay and melodic features | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
JP6565548B2 (ja) | 音響解析装置 | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
Sinith et al. | Pattern recognition in South Indian classical music using a hybrid of HMM and DTW | |
JP6299140B2 (ja) | 音響処理装置および音響処理方法 | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP2023539121A (ja) | オーディオコンテンツの識別 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130410 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |