[go: up one dir, main page]

JP6087542B2 - 話者認識装置、話者認識方法及び話者認識プログラム - Google Patents

話者認識装置、話者認識方法及び話者認識プログラム Download PDF

Info

Publication number
JP6087542B2
JP6087542B2 JP2012192394A JP2012192394A JP6087542B2 JP 6087542 B2 JP6087542 B2 JP 6087542B2 JP 2012192394 A JP2012192394 A JP 2012192394A JP 2012192394 A JP2012192394 A JP 2012192394A JP 6087542 B2 JP6087542 B2 JP 6087542B2
Authority
JP
Japan
Prior art keywords
voice data
registration
speaker
input
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012192394A
Other languages
English (en)
Other versions
JP2014048534A (ja
Inventor
康貴 田中
康貴 田中
学 川▲崎▼
学 川▲崎▼
益巳 谷本
益巳 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2012192394A priority Critical patent/JP6087542B2/ja
Publication of JP2014048534A publication Critical patent/JP2014048534A/ja
Application granted granted Critical
Publication of JP6087542B2 publication Critical patent/JP6087542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Alarm Systems (AREA)

Description

この発明は、音声データに基づいて該音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。
従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献1は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。
特開2005−091758号公報
しかしながら、上述した従来の技術では、登録モデルデータを構築するために、長時間発声された音声を学習する必要があり、また、モデルの構築並びにモデルを用いた話者認識時に複雑な演算を必要とするため、安価に高速な処理を行なうことが困難であるという問題点があった。
また、上述した従来の技術では、照合対象者1人ずつのモデルを個別に構築しているが、照合対象者1人ずつのモデルを個別に構築するためには、各照合対象者の音声を別々に採取する必要があるため、照合対象者の登録が煩雑になるという問題点があった。
また、上述した従来の技術では、一連の発話をN個のフレームに分割し、それぞれ算出した特徴パラメータを平均した値を指標としているため、一連の発話が完了した後で話者認識を行なうこととなり、認識までに時間を要するという問題点があった。
このため、安価で高速な処理の実現、登録処理の簡易化、認識までの時間短縮等を実現し、話者認識の利便性を向上することが重要な課題となっていた。例えば、ホームセキュリティシステムの警備動作を利用者の音声により操作する場合を考えると、システム導入に要する費用を抑制するため、安価で高速な処理が求められる。また、操作権限の確認には、音声が複数の居住者のいずれかであることが判別できれば足り、複数の居住者の音声を一括して簡易に登録できることが求められる。さらに、話者をより早いタイミングで判別し、警備動作を速やかに制御することも求められる。
本発明は、上述した従来技術の課題を解決するためになされたものであって、登録及び認識に係る利便性を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力するとを特徴とする。
また、請求項2に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の発明において、前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする。
また、請求項4に記載の発明は、請求項1〜3のいずれか一つに記載の発明において、前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする。
また、請求項5に記載の発明は、請求項1〜4のいずれか一つに記載の発明において、前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用することを特徴とする。
また、請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記入力音声データに含まれる単語を判別する単語判別手段と、前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。
また、請求項7に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
また、請求項8に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
また、請求項9に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
また、請求項10に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
本発明によれば、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出し、該類似度に基づいて、入力音声データの話者を認識するので、登録及び認識に係る利便性を向上することができる。
図1は、本実施例1に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。 図2は、図1に示した話者認識部の内部構成を示す内部構成図である。 図3は、距離算出の概念を説明するための説明図である。 図4は、話者照合部が用いる照合閾値について説明するための説明図である。 図5は、登録モードにおける話者認識部の処理手順を示すフローチャートである。 図6は、認識モードにおける話者認識部の処理手順を示すフローチャートである。 図7は、実施例1に係る話者認識の実験結果を説明するための説明図である。 図8は、実施例2に係る話者認識部の内部構成を示す内部構成図である。 図9は、クラスタを用いた最小距離探索の説明図である。
以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例1及び2では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。
図1は、実施例1に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20を接続した構成を有する。
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行なう。
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行なう。
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行なう。
マイクロホン20は、玄関等の出入口に設置され、音響信号を取得して話者認識装置30に出力する装置である。マイクロホン20は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
話者認識装置30は、マイクロホン20が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有し、監視装置60は、監視制御部33及び監視部34を有する。話者認識部31は、マイクロホン20が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置60の監視制御部33に出力する。
監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11、窓監視装置12又は火災検知装置13から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
このように、本実施例1に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。
次に、図1に示した話者認識部31の内部構成について説明する。図2は、図1に示した話者認識部31の内部構成を示す内部構成図である。図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、最小距離探索部46及び認識処理部47を有する。
AD変換部41は、マイクロホン20が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行なう処理部である。
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。
特徴パラメータ算出部43は、音声区間抽出部42から出力された音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31の動作モードには、登録モードと認識モードとがある。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、記憶部45に登録データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力データとして最小距離探索部46に出力される。
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、登録データを記憶する。登録データは、登録処理の度に生成され、別データとして記憶される。図2では、記憶部45は、登録データR1及び登録データR2を記憶している。登録データに含まれる特徴パラメータは、単一の話者のもののみを含むものであってもよいし、複数の話者のものを含んでもよい。
最小距離探索部46は、入力データと各登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、登録データの特徴パラメータであるRは、
Figure 0006087542
となる。ここで、分析フレームとは、登録音声データから部分登録音声データを切り出すための、一定のフレーム長の切り出し範囲である。すなわち、N個の登録音声データのそれぞれから、M個の部分登録音声データが切り出され、部分登録音声データのそれぞれについて算出された次数Kの特徴パラメータが登録データRである。
また、入力データの特徴パラメータは、
Figure 0006087542
となる。すなわち、入力音声データからは、L個の部分入力音声データが切り出され、部分入力音声データのそれぞれについて算出された次数Kの特徴パラメータが入力データである。
入力データと登録データRとの距離dは、
Figure 0006087542
により算出する。図3は、距離算出の概念を説明するための説明図である。図3に示すように、入力データの各フレームについて、登録データの全フレームに対する特徴パラメータとの距離を総当たりで算出し、入力フレーム毎の最小距離の平均値を、入力データと登録データとの距離とする。
入力データに対して最も距離が小さい登録データIとその距離dは、
Figure 0006087542
により求められる。最小距離探索部46は、入力データに対して最も距離が小さい登録データと、その距離を認識処理部47に出力する。
図2に示した認識処理部47は、話者識別部47aと、話者照合部47bとを有する。話者識別部47aは、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定する。
話者照合部47bは、入力データに対して最も距離が小さい登録データについて、その距離を照合閾値と比較し、距離が照合閾値以下である場合に、その登録データの話者と入力データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。
次に、話者照合部47bが用いる照合閾値について説明する。図4は、話者照合部47bが用いる照合閾値について説明するための説明図である。照合閾値を求める際には、予め登録データ間で距離を算出し、図4(a)に示すように、同一の話者である場合の距離の分布である話者内距離分布と、異なる話者である場合の距離の分布である話者間距離分布とを求める。
この話者内距離分布及び話者間距離分布から、図4(b)に示すように、話者を照合する際の誤り率が求められる。照合閾値を小さく、すなわち判定を厳しくすると、他人を誤って受け入れる他人受入率が低下するが、本人を誤って棄却する本人拒否率が増加する。そこで、他人受入率と本人拒否率が一致する値を照合閾値とすることが好適である。なお、必要に応じて、他人受入率を減らすなどの調整を照合閾値に対して行なってもよい。
次に、話者認識部31の処理手順について説明する。図5は、登録モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
まず、マイクロホン20が音響信号を取得する(ステップS101)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS102)。
特徴パラメータ算出部43は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。そして、算出した特徴パラメータを記憶部45に登録データとして蓄積し(ステップS104)、登録処理を終了する。
図6は、認識モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
まず、マイクロホン20が音響信号を取得する(ステップS201)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS202)。
特徴パラメータ算出部43は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
最小距離探索部46は、入力データと各登録データとの距離を算出し、入力データに対して最も距離が小さい登録データと、その距離を探索する(ステップS204)。認識処理部47は、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定し、その距離が照合閾値以下である場合に登録データの話者と入力データの話者とが一致すると判定して(ステップS205)、推定及び判定の結果を監視制御部33に出力し(ステップS206)、認識処理を終了する。
次に、本実施例に係る話者認識の実験結果について説明する。図7は、実施例1に係る話者認識の実験結果を説明するための説明図である。図7に示すように、登録データ(登録音声)の長さを5秒から20秒まで5秒刻みで4種類使用し、入力データ(入力音声)の長さを0.1秒から1.5秒まで0.1秒刻みで15種類使用して、話者識別及び話者照合実験を行った。音声の特徴パラメータ算出にはLPCケプストラム係数(分析フレーム長32ミリ秒、分析フレームシフト16ミリ秒、次数32)を使用し、話者照合における照合閾値は、本人拒否率と他人受入率とが同じになる距離とした。
図7(a)は、話者識別の実験結果である。図7(a)に示すように、入力音声の発声時間長が0.1秒であれば、登録音声の発声時間長が5秒である場合に平均話者識別率が82%、登録音声の発声時間長が10秒である場合に平均話者識別率が86%、登録音声の発声時間長が15秒である場合に平均話者識別率が89%、登録音声の発声時間長が20秒である場合に平均話者識別率が91%となる。
これらの平均話者識別率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が0.7秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者識別率は99%以上となる。
図7(b)は、話者照合の実験結果である。図7(b)に示すように、入力音声の発声時間長が0.1秒であれば、登録音声の発声時間長が5秒である場合に平均話者照合率が93.5%、登録音声の発声時間長が10秒である場合に平均話者照合率が94%、登録音声の発声時間長が15秒である場合に平均話者照合率が95%、登録音声の発声時間長が20秒である場合に平均話者照合率が95%となる。
これらの平均話者照合率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が0.7秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者照合率は98%以上となる。
このように、入力音声の発声時間長が0.7秒以上であれば、話者識別と話者照合の双方において、高い精度の認識が可能である。また入力音声の発声時間長が0.1秒から0.7秒の短時間の発話であったとしても、十分な認識精度が得られる。
上述してきたように、本実施例1では、話者認識部31は、登録音声からフレーム単位で算出した特徴パラメータを保存しておき、入力音声の特徴パラメータとの最小距離の小ささを類似度の高さとして用いることから、予め統計モデル等を構築する必要がない。これにより、簡易な演算で話者認識をすることが可能となる。
また、登録音声のデータに複数の登録話者の音声が含まれている場合であっても、登録音声から切り出した複数のフレームのうち、入力音声に最も近いフレームとの距離を登録音声との距離として採用するので、該フレーム間では単一の登録話者との距離を求めたこととなる。そのため、入力音声の話者が登録音声に含まれる複数人のいずれかであるという認識をすることが可能である。
また、本実施例1では、入力音声の1フレームと、登録音声の全フレームとの最小距離を求め、入力音声のフレームが増えるごとに平均していくことから、入力音声のフレーム数が少ない、すなわち入力音声が短時間である場合にも、話者認識が可能である。そして、入力音声のフレーム数が増えれば、より高精度に話者認識が可能となる。
上記実施例1では、登録データの分析フレームを全て使用する場合について説明を行なったが、登録データの分析フレーム数が十分であるならば、その一部のみを使用することで処理を高速化することができる。そこで、本実施例2では、使用する分析フレームを選択することで効率的な処理を行なう話者認識について説明する。
図8は、実施例2に係る話者認識部131の内部構成を示す内部構成図である。図8に示す記憶部45は、複数の話者の音声の特徴パラメータが含まれる可能性のある登録データをグループ登録データ群として格納し、単一の話者の音声のみが含まれる登録データを個人登録データ群として格納する。
また、話者認識部131は、登録処理部52及びクラスタ設定部53をさらに備えるとともに、最小距離探索部51の動作が実施例1に示した最小距離探索部46と異なる。その他の構成及び動作は、実施例1と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
登録処理部52は、認識処理部47の話者照合部47bにより入力データの話者が登録データの話者と一致すると判定された場合に、該入力データを個人登録データ群に属する登録データとして登録する処理部である。
登録処理部52は、入力データの話者が、グループ登録データ群に属する登録データの話者と一致した場合には、該入力データを新規の登録データとして登録する。新規の登録データとするのは、グループ登録データ群に属する登録データは、複数の話者の音声を含む可能性があり、その中のいずれの話者の音声と一致したが判別できないためである。一方、認識処理に使用した入力データは、話者が単独であると推定できるので、かかる入力データは、個人登録データ群に属する登録データとして登録する。
登録処理部52は、入力データの話者が、個人登録データ群に属する登録データの話者と一致した場合には、該入力データを一致した登録データに追加して登録する。個人登録データ群に属する登録データは、単一の話者の音声により構成されるためである。このように、個人登録データ群に属する登録データの数、並びに個人登録データ群に属する登録データの分析フレーム数は、認識処理により増加し、より高精度な認識が可能となる。
クラスタ設定部53は、登録データについて、クラスタリングを行なう処理部である。具体的には、十分な数の分析フレームが蓄積された登録データについて、分析フレームをその特徴パラメータの類似性から複数のクラスタに分類する。クラスタの数は、登録データのデータ量などから任意に設定可能である。また、各クラスタについて、該クラスタに属する分析フレームの特徴パラメータの代表値を算出する。代表値としては、平均値等、任意の値を用いることができる。
クラスタ設定部53は、登録データの各分析フレームについて、該分析フレームが属するクラスタを関連付けるとともに、登録データに対して各クラスタの代表値を関連付ける。
クラスタ設定部53による処理は、任意のタイミングで行なうことができる。例えば、登録データに対して変更が行なわれた場合に、変更が行なわれた登録データに対して処理を行なうことが好ましい。
最小距離探索部51は、入力データと各登録データとの距離を類似度として算出する。使用する登録データは、グループ登録データ群と個人登録データ群のいずれに属するかを問わず、全ての登録データである。
最小距離探索部51は、登録データと入力データとの距離を算出する際には、まず、入力データのフレームと各クラスタの代表値との距離を算出する。そして、距離が最も小さいクラスタに属する各分析フレームとの距離を総当たりで算出し、最も小さい距離を登録データに対する最小距離とする。
このように、登録データとの距離を算出する場合に、クラスタを限定して処理を行なうことにより、最小距離の探索を高速化することが可能である。なお、クラスタの限定は、距離の最も小さいクラスタのみを用いる他、距離が最大となるクラスタを除外するなど、任意に選択可能である。
図9は、クラスタを用いた最小距離探索の説明図である。分析フレームの特徴パラメータの次数は、実際には32次元等を用いるが、図9では説明を簡明にするため、2次元とする。
図9では、登録データの分析フレームに対する特徴パラメータ(X,Y)の値をXY平面上にプロットしている。そして、XY平面は、クラスタA1〜A3の3つのクラスタに分類される。さらに、クラスタA1〜A3について、該クラスタに属する分析フレームの代表値を求めている。
入力データとの距離を求める場合には、入力データの分析フレームに対する特徴パラメータと、クラスタA1〜A3の代表値との距離を求める。図9では、クラスタA3との距離が最小となる。このため、クラスタA3に属する各分析フレームに対する特徴パラメータとの距離を総当たりで算出し、最も小さい距離が登録データに対する最小距離となる。
上述してきたように、本実施例2では、登録データをクラスタに分類し、該クラスタを用いて話者認識に使用する分析フレームを制限することで効率的な処理を行なうことができる。また、認識処理の結果を用いて話者が単一の登録データを生成するので、話者の最新の音声の特徴を保持し、話者認識の精度を向上することができる。
なお、上記実施例では、登録時に音声データから特徴パラメータを算出し、特徴パラメータを記憶部45に格納する構成について説明したが、記憶部45に音声データ自体を格納し、認識時に適宜特徴パラメータを算出するよう構成してもよい。
また、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。
また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、小さい処理負荷で高い認識精度を得られる本発明は有用である。
また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部31,131の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。
以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、話者認識の利便性向上に適している。
11 ドア監視装置
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31、131 話者認識部
32 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46、51 最小距離探索部
47 認識処理部
47a 話者識別部
47b 話者照合部
52 登録処理部
53 クラスタ設定部
60 監視装置

Claims (10)

  1. 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
    登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
    前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
    を備え、
    前記登録音声データは、複数の登録対象者の音声を含み、
    前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、
    前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、
    前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
    ことを特徴とする話者認識装置。
  2. 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
    登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
    前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
    を備え、
    前記登録音声データは、複数の登録対象者の音声を含み、
    前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、
    前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
    ことを特徴とする話者認識装置。
  3. 前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、
    前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする請求項1又は2に記載の話者認識装置。
  4. 前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする請求項1〜3のいずれか一つに記載の話者認識装置。
  5. 前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、
    前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用する
    ことを特徴とする請求項1〜4のいずれか一つに記載の話者認識装置。
  6. 監視対象に対する監視動作を行なう監視手段と、
    前記入力音声データに含まれる単語を判別する単語判別手段と、
    前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段と
    をさらに備えたことを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。
  7. 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
    複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
    認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
    複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、
    前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
    を含んだことを特徴とする話者認識方法。
  8. 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
    複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
    認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
    同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、
    前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
    を含んだことを特徴とする話者認識方法。
  9. 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
    複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
    認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
    複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、
    前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
    をコンピュータに実行させることを特徴とする話者認識プログラム。
  10. 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
    複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
    認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
    同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、
    前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
    をコンピュータに実行させることを特徴とする話者認識プログラム。
JP2012192394A 2012-08-31 2012-08-31 話者認識装置、話者認識方法及び話者認識プログラム Active JP6087542B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012192394A JP6087542B2 (ja) 2012-08-31 2012-08-31 話者認識装置、話者認識方法及び話者認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012192394A JP6087542B2 (ja) 2012-08-31 2012-08-31 話者認識装置、話者認識方法及び話者認識プログラム

Publications (2)

Publication Number Publication Date
JP2014048534A JP2014048534A (ja) 2014-03-17
JP6087542B2 true JP6087542B2 (ja) 2017-03-01

Family

ID=50608255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012192394A Active JP6087542B2 (ja) 2012-08-31 2012-08-31 話者認識装置、話者認識方法及び話者認識プログラム

Country Status (1)

Country Link
JP (1) JP6087542B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11301512B2 (en) 2017-10-24 2022-04-12 Panasonic Intellectual Property Management Co., Ltd. Content management device, content management system, and control method
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN109101801B (zh) 2018-07-12 2021-04-27 北京百度网讯科技有限公司 用于身份认证的方法、装置、设备和计算机可读存储介质
CN109785846B (zh) * 2019-01-07 2024-05-28 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置
CN115315746A (zh) * 2020-03-27 2022-11-08 松下电器(美国)知识产权公司 说话人识别方法、识别装置、识别程序、性别识别模型生成方法以及说话人识别模型生成方法
JPWO2022113218A1 (ja) * 2020-11-25 2022-06-02

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6086696A (ja) * 1983-10-19 1985-05-16 日本電気株式会社 住宅警備システム
JP3859884B2 (ja) * 1998-10-19 2006-12-20 株式会社東芝 話者認識方法および話者認識装置
JP2003283659A (ja) * 2002-03-22 2003-10-03 Ntt Docomo Tokai Inc 認証用音声データの登録方法
JP3980988B2 (ja) * 2002-10-28 2007-09-26 日本電信電話株式会社 音声発生区間検索方法,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
JP2005301022A (ja) * 2004-04-14 2005-10-27 Toshiba Tec Corp 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法
JP4157077B2 (ja) * 2004-05-28 2008-09-24 東芝テック株式会社 電話機
JP4254753B2 (ja) * 2005-06-30 2009-04-15 ヤマハ株式会社 話者認識方法

Also Published As

Publication number Publication date
JP2014048534A (ja) 2014-03-17

Similar Documents

Publication Publication Date Title
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
US7620547B2 (en) Spoken man-machine interface with speaker identification
KR102371697B1 (ko) 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US20190295540A1 (en) Voice trigger validator
US9633652B2 (en) Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
WO2018018906A1 (zh) 一种语音门禁和安静环境监控方法及系统
US20160266910A1 (en) Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events
JP2019533193A (ja) 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
CN107958669B (zh) 一种声纹识别的方法及装置
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JPH10319988A (ja) 話者識別方法および話者認識装置
CN111656440A (zh) 说话人辨识
US11200903B2 (en) Systems and methods for speaker verification using summarized extracted features
JP5549506B2 (ja) 音声認識装置及び音声認識方法
US12039970B1 (en) System and method for source authentication in voice-controlled automation
KR101697651B1 (ko) 음성 신호의 검출 방법 및 장치
CN103811014B (zh) 语音干扰的滤除方法和语音干扰的滤除系统
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2015055835A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
US10950227B2 (en) Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170202

R150 Certificate of patent or registration of utility model

Ref document number: 6087542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250