JP6087542B2

JP6087542B2 - 話者認識装置、話者認識方法及び話者認識プログラム

Info

Publication number: JP6087542B2
Application number: JP2012192394A
Authority: JP
Inventors: 康貴田中; 学川▲崎▼; 益巳谷本
Original assignee: SOHGO SECURITY SERVICES CO.,LTD.
Current assignee: SOHGO SECURITY SERVICES CO.,LTD.
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2017-03-01
Anticipated expiration: 2032-08-31
Also published as: JP2014048534A

Description

この発明は、音声データに基づいて該音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。

従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献１は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。

特開２００５−０９１７５８号公報

しかしながら、上述した従来の技術では、登録モデルデータを構築するために、長時間発声された音声を学習する必要があり、また、モデルの構築並びにモデルを用いた話者認識時に複雑な演算を必要とするため、安価に高速な処理を行なうことが困難であるという問題点があった。

また、上述した従来の技術では、照合対象者１人ずつのモデルを個別に構築しているが、照合対象者１人ずつのモデルを個別に構築するためには、各照合対象者の音声を別々に採取する必要があるため、照合対象者の登録が煩雑になるという問題点があった。

また、上述した従来の技術では、一連の発話をＮ個のフレームに分割し、それぞれ算出した特徴パラメータを平均した値を指標としているため、一連の発話が完了した後で話者認識を行なうこととなり、認識までに時間を要するという問題点があった。

このため、安価で高速な処理の実現、登録処理の簡易化、認識までの時間短縮等を実現し、話者認識の利便性を向上することが重要な課題となっていた。例えば、ホームセキュリティシステムの警備動作を利用者の音声により操作する場合を考えると、システム導入に要する費用を抑制するため、安価で高速な処理が求められる。また、操作権限の確認には、音声が複数の居住者のいずれかであることが判別できれば足り、複数の居住者の音声を一括して簡易に登録できることが求められる。さらに、話者をより早いタイミングで判別し、警備動作を速やかに制御することも求められる。

本発明は、上述した従来技術の課題を解決するためになされたものであって、登録及び認識に係る利便性を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力することを特徴とする。

また、請求項２に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力することを特徴とする。

また、請求項３に記載の発明は、請求項１又は２に記載の発明において、前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする。

また、請求項４に記載の発明は、請求項１〜３のいずれか一つに記載の発明において、前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする。

また、請求項５に記載の発明は、請求項１〜４のいずれか一つに記載の発明において、前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用することを特徴とする。

また、請求項６に記載の発明は、請求項１〜５のいずれか一つに記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記入力音声データに含まれる単語を判別する単語判別手段と、前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。

また、請求項７に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
また、請求項８に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。

また、請求項９に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
また、請求項１０に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。

本発明によれば、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出し、該類似度に基づいて、入力音声データの話者を認識するので、登録及び認識に係る利便性を向上することができる。

図１は、本実施例１に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図２は、図１に示した話者認識部の内部構成を示す内部構成図である。図３は、距離算出の概念を説明するための説明図である。図４は、話者照合部が用いる照合閾値について説明するための説明図である。図５は、登録モードにおける話者認識部の処理手順を示すフローチャートである。図６は、認識モードにおける話者認識部の処理手順を示すフローチャートである。図７は、実施例１に係る話者認識の実験結果を説明するための説明図である。図８は、実施例２に係る話者認識部の内部構成を示す内部構成図である。図９は、クラスタを用いた最小距離探索の説明図である。

以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例１及び２では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。

図１は、実施例１に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図１に示すホームセキュリティシステムは、監視装置６０にドア監視装置１１、窓監視装置１２、火災検知装置１３及び話者認識装置３０を接続し、話者認識装置３０にマイクロホン２０を接続した構成を有する。

ドア監視装置１１は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置１１は、ピッキングなどの侵入の試みを検知した場合には、監視装置６０に対して報知を行なう。

窓監視装置１２は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置１２は、窓に対する衝撃等を検知した場合には、監視装置６０に対して報知を行なう。

火災検知装置１３は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置１３は、火災の発生を検知した場合には、監視装置６０に対して報知を行なう。

マイクロホン２０は、玄関等の出入口に設置され、音響信号を取得して話者認識装置３０に出力する装置である。マイクロホン２０は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置３０は、任意の場所に設置可能である。また、マイクロホン２０を話者認識装置３０の筐体内に設けてもよい。

話者認識装置３０は、マイクロホン２０が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置６０に出力する。話者認識装置３０は、話者認識部３１及びテキスト判別部３２を有し、監視装置６０は、監視制御部３３及び監視部３４を有する。話者認識部３１は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置６０の監視制御部３３に出力する。また、テキスト判別部３２は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置６０の監視制御部３３に出力する。

監視制御部３３は、話者認識部３１により話者が居住者であると認識された場合に、テキスト判別部３２から出力されたテキスト情報に基づいて、監視部３４の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部３４による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部３４による監視動作を終了させる。

監視部３４は、ドア監視装置１１、窓監視装置１２及び火災検知装置１３の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部３４は、監視制御部３３から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置１１、窓監視装置１２又は火災検知装置１３から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部３３から終了指示を受けた場合に終了する。

このように、本実施例１に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。

次に、図１に示した話者認識部３１の内部構成について説明する。図２は、図１に示した話者認識部３１の内部構成を示す内部構成図である。図２に示すように、話者認識部３１は、ＡＤ変換部４１、音声区間抽出部４２、特徴パラメータ算出部４３、切替部４４、記憶部４５、最小距離探索部４６及び認識処理部４７を有する。

ＡＤ変換部４１は、マイクロホン２０が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部４２に出力する処理を行なう処理部である。

音声区間抽出部４２は、ＡＤ変換部４１によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。

特徴パラメータ算出部４３は、音声区間抽出部４２から出力された音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

切替部４４は、話者認識部３１の動作モードを切り替える処理部である。話者認識部３１の動作モードには、登録モードと認識モードとがある。切替部４４により登録モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、記憶部４５に登録データとして格納される。一方、切替部４４により認識モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、入力データとして最小距離探索部４６に出力される。

記憶部４５は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、登録データを記憶する。登録データは、登録処理の度に生成され、別データとして記憶される。図２では、記憶部４５は、登録データＲ¹及び登録データＲ²を記憶している。登録データに含まれる特徴パラメータは、単一の話者のもののみを含むものであってもよいし、複数の話者のものを含んでもよい。

最小距離探索部４６は、入力データと各登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、登録データの特徴パラメータであるＲは、

となる。ここで、分析フレームとは、登録音声データから部分登録音声データを切り出すための、一定のフレーム長の切り出し範囲である。すなわち、Ｎ個の登録音声データのそれぞれから、Ｍ個の部分登録音声データが切り出され、部分登録音声データのそれぞれについて算出された次数Ｋの特徴パラメータが登録データＲである。

また、入力データの特徴パラメータは、

となる。すなわち、入力音声データからは、Ｌ個の部分入力音声データが切り出され、部分入力音声データのそれぞれについて算出された次数Ｋの特徴パラメータが入力データである。

入力データと登録データＲとの距離ｄは、

により算出する。図３は、距離算出の概念を説明するための説明図である。図３に示すように、入力データの各フレームについて、登録データの全フレームに対する特徴パラメータとの距離を総当たりで算出し、入力フレーム毎の最小距離の平均値を、入力データと登録データとの距離とする。

入力データに対して最も距離が小さい登録データＩとその距離ｄは、

により求められる。最小距離探索部４６は、入力データに対して最も距離が小さい登録データと、その距離を認識処理部４７に出力する。

図２に示した認識処理部４７は、話者識別部４７ａと、話者照合部４７ｂとを有する。話者識別部４７ａは、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定する。

話者照合部４７ｂは、入力データに対して最も距離が小さい登録データについて、その距離を照合閾値と比較し、距離が照合閾値以下である場合に、その登録データの話者と入力データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。

次に、話者照合部４７ｂが用いる照合閾値について説明する。図４は、話者照合部４７ｂが用いる照合閾値について説明するための説明図である。照合閾値を求める際には、予め登録データ間で距離を算出し、図４（ａ）に示すように、同一の話者である場合の距離の分布である話者内距離分布と、異なる話者である場合の距離の分布である話者間距離分布とを求める。

この話者内距離分布及び話者間距離分布から、図４（ｂ）に示すように、話者を照合する際の誤り率が求められる。照合閾値を小さく、すなわち判定を厳しくすると、他人を誤って受け入れる他人受入率が低下するが、本人を誤って棄却する本人拒否率が増加する。そこで、他人受入率と本人拒否率が一致する値を照合閾値とすることが好適である。なお、必要に応じて、他人受入率を減らすなどの調整を照合閾値に対して行なってもよい。

次に、話者認識部３１の処理手順について説明する。図５は、登録モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により登録モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ１０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ１０２）。

特徴パラメータ算出部４３は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ１０３）。そして、算出した特徴パラメータを記憶部４５に登録データとして蓄積し（ステップＳ１０４）、登録処理を終了する。

図６は、認識モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により認識モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ２０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ２０２）。

特徴パラメータ算出部４３は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ２０３）。

最小距離探索部４６は、入力データと各登録データとの距離を算出し、入力データに対して最も距離が小さい登録データと、その距離を探索する（ステップＳ２０４）。認識処理部４７は、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定し、その距離が照合閾値以下である場合に登録データの話者と入力データの話者とが一致すると判定して（ステップＳ２０５）、推定及び判定の結果を監視制御部３３に出力し（ステップＳ２０６）、認識処理を終了する。

次に、本実施例に係る話者認識の実験結果について説明する。図７は、実施例１に係る話者認識の実験結果を説明するための説明図である。図７に示すように、登録データ（登録音声）の長さを５秒から２０秒まで５秒刻みで４種類使用し、入力データ（入力音声）の長さを０．１秒から１．５秒まで０．１秒刻みで１５種類使用して、話者識別及び話者照合実験を行った。音声の特徴パラメータ算出にはＬＰＣケプストラム係数（分析フレーム長３２ミリ秒、分析フレームシフト１６ミリ秒、次数３２）を使用し、話者照合における照合閾値は、本人拒否率と他人受入率とが同じになる距離とした。

図７（ａ）は、話者識別の実験結果である。図７（ａ）に示すように、入力音声の発声時間長が０．１秒であれば、登録音声の発声時間長が５秒である場合に平均話者識別率が８２％、登録音声の発声時間長が１０秒である場合に平均話者識別率が８６％、登録音声の発声時間長が１５秒である場合に平均話者識別率が８９％、登録音声の発声時間長が２０秒である場合に平均話者識別率が９１％となる。

これらの平均話者識別率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が０．７秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者識別率は９９％以上となる。

図７（ｂ）は、話者照合の実験結果である。図７（ｂ）に示すように、入力音声の発声時間長が０．１秒であれば、登録音声の発声時間長が５秒である場合に平均話者照合率が９３．５％、登録音声の発声時間長が１０秒である場合に平均話者照合率が９４％、登録音声の発声時間長が１５秒である場合に平均話者照合率が９５％、登録音声の発声時間長が２０秒である場合に平均話者照合率が９５％となる。

これらの平均話者照合率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が０．７秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者照合率は９８％以上となる。

このように、入力音声の発声時間長が０．７秒以上であれば、話者識別と話者照合の双方において、高い精度の認識が可能である。また入力音声の発声時間長が０．１秒から０．７秒の短時間の発話であったとしても、十分な認識精度が得られる。

上述してきたように、本実施例１では、話者認識部３１は、登録音声からフレーム単位で算出した特徴パラメータを保存しておき、入力音声の特徴パラメータとの最小距離の小ささを類似度の高さとして用いることから、予め統計モデル等を構築する必要がない。これにより、簡易な演算で話者認識をすることが可能となる。

また、登録音声のデータに複数の登録話者の音声が含まれている場合であっても、登録音声から切り出した複数のフレームのうち、入力音声に最も近いフレームとの距離を登録音声との距離として採用するので、該フレーム間では単一の登録話者との距離を求めたこととなる。そのため、入力音声の話者が登録音声に含まれる複数人のいずれかであるという認識をすることが可能である。

また、本実施例１では、入力音声の１フレームと、登録音声の全フレームとの最小距離を求め、入力音声のフレームが増えるごとに平均していくことから、入力音声のフレーム数が少ない、すなわち入力音声が短時間である場合にも、話者認識が可能である。そして、入力音声のフレーム数が増えれば、より高精度に話者認識が可能となる。

上記実施例１では、登録データの分析フレームを全て使用する場合について説明を行なったが、登録データの分析フレーム数が十分であるならば、その一部のみを使用することで処理を高速化することができる。そこで、本実施例２では、使用する分析フレームを選択することで効率的な処理を行なう話者認識について説明する。

図８は、実施例２に係る話者認識部１３１の内部構成を示す内部構成図である。図８に示す記憶部４５は、複数の話者の音声の特徴パラメータが含まれる可能性のある登録データをグループ登録データ群として格納し、単一の話者の音声のみが含まれる登録データを個人登録データ群として格納する。

また、話者認識部１３１は、登録処理部５２及びクラスタ設定部５３をさらに備えるとともに、最小距離探索部５１の動作が実施例１に示した最小距離探索部４６と異なる。その他の構成及び動作は、実施例１と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。

登録処理部５２は、認識処理部４７の話者照合部４７ｂにより入力データの話者が登録データの話者と一致すると判定された場合に、該入力データを個人登録データ群に属する登録データとして登録する処理部である。

登録処理部５２は、入力データの話者が、グループ登録データ群に属する登録データの話者と一致した場合には、該入力データを新規の登録データとして登録する。新規の登録データとするのは、グループ登録データ群に属する登録データは、複数の話者の音声を含む可能性があり、その中のいずれの話者の音声と一致したが判別できないためである。一方、認識処理に使用した入力データは、話者が単独であると推定できるので、かかる入力データは、個人登録データ群に属する登録データとして登録する。

登録処理部５２は、入力データの話者が、個人登録データ群に属する登録データの話者と一致した場合には、該入力データを一致した登録データに追加して登録する。個人登録データ群に属する登録データは、単一の話者の音声により構成されるためである。このように、個人登録データ群に属する登録データの数、並びに個人登録データ群に属する登録データの分析フレーム数は、認識処理により増加し、より高精度な認識が可能となる。

クラスタ設定部５３は、登録データについて、クラスタリングを行なう処理部である。具体的には、十分な数の分析フレームが蓄積された登録データについて、分析フレームをその特徴パラメータの類似性から複数のクラスタに分類する。クラスタの数は、登録データのデータ量などから任意に設定可能である。また、各クラスタについて、該クラスタに属する分析フレームの特徴パラメータの代表値を算出する。代表値としては、平均値等、任意の値を用いることができる。

クラスタ設定部５３は、登録データの各分析フレームについて、該分析フレームが属するクラスタを関連付けるとともに、登録データに対して各クラスタの代表値を関連付ける。

クラスタ設定部５３による処理は、任意のタイミングで行なうことができる。例えば、登録データに対して変更が行なわれた場合に、変更が行なわれた登録データに対して処理を行なうことが好ましい。

最小距離探索部５１は、入力データと各登録データとの距離を類似度として算出する。使用する登録データは、グループ登録データ群と個人登録データ群のいずれに属するかを問わず、全ての登録データである。

最小距離探索部５１は、登録データと入力データとの距離を算出する際には、まず、入力データのフレームと各クラスタの代表値との距離を算出する。そして、距離が最も小さいクラスタに属する各分析フレームとの距離を総当たりで算出し、最も小さい距離を登録データに対する最小距離とする。

このように、登録データとの距離を算出する場合に、クラスタを限定して処理を行なうことにより、最小距離の探索を高速化することが可能である。なお、クラスタの限定は、距離の最も小さいクラスタのみを用いる他、距離が最大となるクラスタを除外するなど、任意に選択可能である。

図９は、クラスタを用いた最小距離探索の説明図である。分析フレームの特徴パラメータの次数は、実際には３２次元等を用いるが、図９では説明を簡明にするため、２次元とする。

図９では、登録データの分析フレームに対する特徴パラメータ（Ｘ，Ｙ）の値をＸＹ平面上にプロットしている。そして、ＸＹ平面は、クラスタＡ１〜Ａ３の３つのクラスタに分類される。さらに、クラスタＡ１〜Ａ３について、該クラスタに属する分析フレームの代表値を求めている。

入力データとの距離を求める場合には、入力データの分析フレームに対する特徴パラメータと、クラスタＡ１〜Ａ３の代表値との距離を求める。図９では、クラスタＡ３との距離が最小となる。このため、クラスタＡ３に属する各分析フレームに対する特徴パラメータとの距離を総当たりで算出し、最も小さい距離が登録データに対する最小距離となる。

上述してきたように、本実施例２では、登録データをクラスタに分類し、該クラスタを用いて話者認識に使用する分析フレームを制限することで効率的な処理を行なうことができる。また、認識処理の結果を用いて話者が単一の登録データを生成するので、話者の最新の音声の特徴を保持し、話者認識の精度を向上することができる。

なお、上記実施例では、登録時に音声データから特徴パラメータを算出し、特徴パラメータを記憶部４５に格納する構成について説明したが、記憶部４５に音声データ自体を格納し、認識時に適宜特徴パラメータを算出するよう構成してもよい。

また、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。

また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。

また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、小さい処理負荷で高い認識精度を得られる本発明は有用である。

また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部３１，１３１の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。

以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、話者認識の利便性向上に適している。

１１ドア監視装置
１２窓監視装置
１３火災検知装置
２０マイクロホン
３０話者認識装置
３１、１３１話者認識部
３２テキスト判別部
３３監視制御部
３４監視部
４１ＡＤ変換部
４２音声区間抽出部
４３特徴パラメータ算出部
４４切替部
４５記憶部
４６、５１最小距離探索部
４７認識処理部
４７ａ話者識別部
４７ｂ話者照合部
５２登録処理部
５３クラスタ設定部
６０監視装置

Claims

音声データに基づいて該音声データの話者を認識する話者認識装置であって、
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、
前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、
前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。
音声データに基づいて該音声データの話者を認識する話者認識装置であって、
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、
前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。
前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、
前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする請求項１又は２に記載の話者認識装置。
前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする請求項１〜３のいずれか一つに記載の話者認識装置。
前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、
前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用する
ことを特徴とする請求項１〜４のいずれか一つに記載の話者認識装置。
監視対象に対する監視動作を行なう監視手段と、
前記入力音声データに含まれる単語を判別する単語判別手段と、
前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項１〜５のいずれか一つに記載の話者認識装置。
音声データに基づいて該音声データの話者を認識する話者認識方法であって、
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。
音声データに基づいて該音声データの話者を認識する話者認識方法であって、
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。
音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。
音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。