[go: up one dir, main page]

JP2017097188A - 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム - Google Patents

話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム Download PDF

Info

Publication number
JP2017097188A
JP2017097188A JP2015229670A JP2015229670A JP2017097188A JP 2017097188 A JP2017097188 A JP 2017097188A JP 2015229670 A JP2015229670 A JP 2015229670A JP 2015229670 A JP2015229670 A JP 2015229670A JP 2017097188 A JP2017097188 A JP 2017097188A
Authority
JP
Japan
Prior art keywords
speaker
utterance
registered
similarity
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015229670A
Other languages
English (en)
Inventor
厚志 安藤
Atsushi Ando
厚志 安藤
太一 浅見
Taichi Asami
太一 浅見
義和 山口
Yoshikazu Yamaguchi
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015229670A priority Critical patent/JP2017097188A/ja
Publication of JP2017097188A publication Critical patent/JP2017097188A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】登録発話と認識発話の長さが極端に異なる場合であっても、頑健に話者を認識するための話者特徴ベクトルの類似度計算をする話者らしさ評価装置を提供する。
【解決手段】登録発話から登録発話の区間より短い区間を有する分割済登録発話を生成し、分割済登録発話から分割済登録発話話者特徴ベクトルを算出する分割済登録発話話者特徴ベクトル算出部1001と、認識発話から認識発話話者特徴ベクトルを算出する認識発話話者特徴ベクトル算出部1002と、認識発話話者特徴ベクトルと分割済登録発話話者特徴ベクトルを用いて認識発話と分割済登録発話の類似度を計算する類似度計算部150とを有する。
【選択図】図10

Description

本発明は、音声による話者認識技術に関するものであり、特に話者特徴ベクトルの類似度を用いて話者認識する技術に関する。
音声による話者認識(以下、単に話者認識という)は、話者識別と話者照合に大別される。話者識別は、入力音声に対してその話者が事前登録した話者のうち誰にあたるかを判定する技術であり、例えば音声記録から犯罪者の声を探すことに利用されている。一方、話者照合は、入力音声に対してその話者が事前登録した話者であるかどうかを判定する技術であり、例えば本人確認に利用されている。また、話者照合と話者識別の両方を兼ね備える場合もあり、入力音声が事前登録話者に含まれるかを判定し(照合)、含まれる場合はどの登録話者かを判定する(識別)といった利用法も考えられる。いずれの場合も話者ごとに一発話以上の音声をシステムに事前登録する必要がある。
話者認識には、テキスト依存型とテキスト非依存型が存在する。テキスト依存型では、認識の際にユーザは所定の言葉を発する必要がある。一方、テキスト非依存型では、認識の際にユーザは任意の言葉を発してよい。
話者認識では、入力された音声信号全体から一つの話者特徴ベクトルを算出する技術が利用される。話者特徴ベクトルの求め方を以下に示す。入力された音声信号を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べた音響特徴量ベクトル系列を作成する。音響特徴量ベクトル系列から、事前学習しておいた話者特徴量抽出モデル、所定の混合正規分布(UBMモデル)に対して計算した0次統計量および1次統計量を利用して一つの話者特徴ベクトルを求める。これらの手順は、例えば非特許文献1に開示されている。話者特徴ベクトルは、話者特徴量抽出モデルの事前学習の際に個々の音声信号に対して話者を示すラベルが不要であるために学習が容易であること、どんな音声信号からも一つの話者特徴ベクトルを算出するため、言葉の種類や長さが異なるテキスト非依存型の話者認識でも利用可能であることなどの利点があり、話者認識において広く利用されている。
個々の入力音声から話者特徴ベクトルを算出できれば、話者認識は既存のクラス分類技術や外れ値検出技術を用いて簡単に実現できる。例えば、話者識別は、登録された話者特徴ベクトルと入力音声の話者特徴ベクトルとのコサイン類似度を求め、類似度が最大の登録された話者特徴ベクトルの話者名を返すことで実現できる。話者照合は、登録された話者特徴ベクトルと入力音声の話者特徴ベクトルとのコサイン類似度を求め、類似度の最大値が閾値以上であれば登録話者であると判定することで実現できる。
以下、図1〜図3を参照して従来技術の話者識別装置の概略を説明する。図1は、従来技術の話者識別装置800の構成を示すブロック図である。図2は、従来技術の話者識別装置800の動作を示すフローチャートである。図3は、従来技術の話者識別装置800による識別発話の推定話者識別の例を示す図である。図1に示すように話者識別装置800は、音響分析部820−1と、話者特徴ベクトル算出部830−1と、話者登録部840と、登録発話記録部803と、音響分析部820−2と、話者特徴ベクトル算出部830−2と、類似度計算部850と、話者識別部870を含む。話者識別装置800は、UBMモデル記録部801と、話者特徴量抽出モデル記録部802とに接続している。
話者特徴ベクトルには、非特許文献1に記載のi−vectorを用いる。非特許文献1にあるように、i−vectorの算出にはUBMモデル、話者特徴量抽出モデルが必要となるが、これらのモデルは事前に学習しておき、それぞれUBMモデル記録部801、話者特徴量抽出モデル記録部802に記録しておく。なお、UBMモデル、話者特徴量抽出モデルはそれぞれ非特許文献1のT、Σに対応するものである。
まず、登録発話を事前に記録する処理について説明する。登録発話とは、事前登録しておきたい話者の発話の音声信号のことであり、識別発話の話者を識別するために用いる。登録発話は1以上あるものとし、この登録発話をまとめて登録発話集合という。音響分析部820−1は、登録発話から登録発話の音響特徴量ベクトル系列を算出する(S820−1)。音響特徴量ベクトル系列は、先述の通り、登録発話を数十ミリ秒の音響分析フレームに分割し、各音響分析フレームから抽出した音響特徴量ベクトルを時間順に並べたものとして算出すればよい。話者特徴ベクトル算出部830−1は、音響分析部820−1の出力である登録発話の音響特徴量ベクトル系列から、UBMモデル記録部801、話者特徴量抽出モデル記録部802に記録しておいたUBMモデル、話者特徴量抽出モデルを用いて登録発話の話者特徴ベクトルを算出する(S830−1)。話者特徴ベクトルの算出手順は先述の通りである。話者登録部840は、話者特徴ベクトル算出部830−1の出力である登録発話の話者特徴ベクトルと当該登録発話に対応する話者名とを組にして登録発話記録部803の登録発話データベースに登録する(S840)。話者名は先ほどの登録発話の話者を特定するための情報であり、人手で与えられるものである。
続いて、識別発話を識別する処理について説明する。識別発話とは、識別対象となる話者の発話の音声信号のことである。音響分析部820−2は、識別発話から識別発話の音響特徴量ベクトル系列を算出する(S820−2)。音響特徴量ベクトル系列の算出手順はS820−1と同様である。話者特徴ベクトル算出部830−2は、音響分析部820−2の出力である識別発話の音響特徴量ベクトル系列から、UBMモデル記録部801、話者特徴量抽出モデル記録部802に記録しておいたUBMモデル、話者特徴量抽出モデルを用いて識別発話の話者特徴ベクトルを算出する(S830−2)。話者特徴ベクトルの算出手順はS830−1と同様である。類似度計算部850は、話者特徴ベクトル算出部830−2の出力である識別発話の話者特徴ベクトルと、登録発話データベースの各登録発話の話者特徴ベクトルとの類似度を計算する(S850)。類似度の計算には、例えば非特許文献1に記載のコサイン類似度を利用すればよい。w, wをそれぞれ識別発話の話者特徴ベクトル、登録発話の話者特徴ベクトルとすると、コサイン類似度cは以下の式により与えられる。
Figure 2017097188
ここで、は転置を表す。つまり、類似度とは話者らしさを示す指標となるものであり、類似度としてコサイン類似度を採用した場合は類似度が大きいほど比較対象となる話者らしい(話者に似ている)といえる。類似度計算部850は、計算した類似度と登録発話の話者名とを組にして出力する。話者識別部870は、類似度計算部850の出力である類似度の中で最大となる類似度に登録発話の話者名を選択し、識別結果として出力する(S870)。
次に、図4〜図6を参照して従来技術の話者照合装置の概略を説明する。なお、話者識別装置800の構成部と同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。図4は、従来技術の話者照合装置900の構成を示すブロック図である。図5は、従来技術の話者照合装置900の動作を示すフローチャートである。図6は、従来技術の話者照合装置900による照合発話の照合の例を示す図である。図4に示すように話者照合装置900は、音響分析部820−1と、話者特徴ベクトル算出部830−1と、話者登録部940と、登録発話記録部903と、音響分析部820−2と、話者特徴ベクトル算出部830−2と、類似度計算部950と、話者照合部970を含む。話者照合装置900は、話者識別装置800と同様、UBMモデル記録部801と、話者特徴量抽出モデル記録部802とに接続している。
まず、登録発話を事前に記録する処理について説明する。音響分析部820−1及び話者特徴ベクトル算出部830−1は、話者識別装置800のそれと同様の処理を行う(S820−1、S830−1)。話者登録部940は、話者特徴ベクトル算出部830−1の出力である登録発話の話者特徴ベクトルを登録発話記録部903の登録発話データベースに登録する(S940)。
続いて、照合発話を照合する処理について説明する。照合発話とは、照合対象となる話者の発話の音声信号のことであり、登録発話と照合されるものである。音響分析部820−2及び話者特徴ベクトル算出部830−2も、話者識別装置800のそれと同様の処理を行う(S820−2、S830−2)。類似度計算部950は、話者特徴ベクトル算出部830−2の出力である照合発話の話者特徴ベクトルと、登録発話データベースの各登録発話の話者特徴ベクトルとの類似度を計算する(S950)。類似度計算部950は、類似度計算部850と異なり、類似度のみを出力する。話者照合部970は、類似度計算部950の出力である類似度の中で最大となる類似度が閾値よりも大きい場合(あるいは閾値以上である場合)に登録発話の話者であるとの照合結果を生成し、出力する(S970)。または、類似度計算部950の出力である類似度各々について閾値との比較を行い、一つでも閾値より大きい(閾値以上の)ものがある場合に登録発話の話者であるとの照合結果を生成し、出力するようにしてもよい(S970)。
小川哲司、塩田さやか、"i−vectorを用いた話者認識"、日本音響学会誌、2014年6月、70巻6号、pp.332−339.
話者特徴ベクトルには、発話長が長くなるほど話者情報が強く表れるという性質があることが知られている。この性質から、同じ話者による音声でも発話長が異なるほど話者特徴ベクトルの類似度が低下する傾向にある。
話者認識では、登録発話が文章読み上げである一方、認識発話(識別発話または照合発話)は単語読み上げであることが多い。このため、登録発話が例えば10秒以上と長くなるのに対し、認識発話は例えば1.5秒以下と短くなり、その結果、登録発話に比べて認識発話が極端に短くなる。このため、発話長の違いにより両発話の話者特徴ベクトルの類似度が低下する。このような話者特徴ベクトルを用いて話者認識を行う場合、どの話者も類似度が低くなるために話者ごとの類似度の違いが表れにくくなり、認識精度が低下する。
そこで本発明では、登録発話と認識発話の長さが極端に異なる場合であっても、頑健に話者を認識するための話者特徴ベクトルの類似度計算をする話者らしさ評価装置を提供することを目的とする。
本発明の一態様は、話者識別または話者照合の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、前記登録発話から当該登録発話の区間より短い区間を有する分割済登録発話を生成し、当該分割済登録発話から分割済登録発話話者特徴ベクトルを算出する分割済登録発話話者特徴ベクトル算出部と、前記認識発話から認識発話話者特徴ベクトルを算出する認識発話話者特徴ベクトル算出部と、前記認識発話話者特徴ベクトルと前記分割済登録発話話者特徴ベクトルを用いて前記認識発話と前記分割済登録発話の類似度を計算する類似度計算部とを有する話者らしさ評価装置である。
本発明によれば、登録発話と認識発話の長さが極端に異なる場合においても、精度よく話者を認識するための話者特徴ベクトルの類似度を計算することが可能となる。
従来技術の話者識別装置800の構成を示すブロック図。 従来技術の話者識別装置800の動作を示すフローチャート。 従来技術の話者識別装置800による識別発話の推定話者識別の例を示す図。 従来技術の話者照合装置900の構成を示すブロック図。 従来技術の話者照合装置900の動作を示すフローチャート。 従来技術の話者照合装置900による照合発話の照合の例を示す図。 実施例1の話者識別装置100の構成を示すブロック図。 実施例1の話者識別装置100の詳細な動作を示すフローチャート。 実施例1の話者識別装置100による識別発話の推定話者識別の例を示す図。 実施例2の話者識別装置200の構成を示すブロック図。 実施例2の話者識別装置200の詳細な動作を示すフローチャート。 実施例3の話者識別装置300の構成を示すブロック図。 実施例3の話者識別装置300の詳細な動作を示すフローチャート。 実施例3(変形)の話者識別装置300’の構成を示すブロック図。 実施例4の話者照合装置400の構成を示すブロック図。 実施例4の話者照合装置400の詳細な動作を示すフローチャート。 実施例4の話者照合装置400による照合発話の照合の例を示す図。 実施例5の話者照合装置500の構成を示すブロック図。 実施例5の話者照合装置500の詳細な動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
また、以下の説明でも識別発話または照合発話のことを認識発話、1以上の登録発話を要素とする登録発話の集合を登録発話集合という。
<本願発明の要点>
話者特徴ベクトルには、発話長が長くなるほど話者情報が強く表れるという性質以外に、話者情報だけでなく発話に含まれる言葉の情報にも依存するという性質もあることが知られている。この性質から、同程度の発話長でも発話に含まれる言葉が異なるほど話者特徴ベクトルの類似度が低下する傾向にある。例えば「おとな」と「おとこ」という発話の話者特徴ベクトルの類似度は高く、「おとな」と「こども」という発話の話者特徴ベクトルの類似度は低くなりやすいという傾向がある。
話者特徴ベクトルが有するこれらの性質に起因して類似度が低下する問題に対応するための本願発明のポイントは、(1)発話登録時に認識発話と同程度の発話長となるよう登録発話の音声を分割し、分割後の発話である分割済登録発話各々に対して話者特徴ベクトルを算出すること、(2)話者認識の際には話者特徴ベクトルの類似度の最大値ではなく類似度の話者ごとの平均値の最大値を話者認識の基準とすることの二点である。ポイント(1)により、発話長の違いを原因とする話者特徴ベクトルの類似度低下を防ぐことを可能とする。ポイント(2)は、様々な言葉を含む登録発話と認識発話の話者特徴ベクトルの類似度をすべて考慮して話者を判定することに相当し、登録発話に含まれる言葉の違いによる類似度の変化が話者認識に与える影響を低減することを可能とする。
以下、図7〜図9を参照して実施例1の話者識別装置を説明する。図7は、実施例1の話者識別装置100の構成を示すブロック図である。図8は、実施例1の話者識別装置100の動作を示すフローチャートである。図9は、話者識別装置100による識別発話の推定話者識別の様子を示す図である。図7に示すように話者識別装置100は、発話分割部110と、音響分析部820−1と、話者特徴ベクトル算出部830−1と、話者登録部840と、登録発話記録部803と、音響分析部820−2と、話者特徴ベクトル算出部830−2と、正規化あり類似度計算部150と、類似度平均化部160と、話者識別部870と、音響分析部820−3と、話者特徴ベクトル算出部830−3と、話者特徴ベクトル正規化行列学習部180と、話者特徴ベクトル正規化行列記録部106を含む。話者識別装置100は、UBMモデル記録部801と、話者特徴量抽出モデル記録部802と、正規化行列学習用発話記録部104と、正規化行列学習用話者名記録部105とに接続している。
なお、図7に点線で図示する通り、発話分割部110、音響分析部820−1、話者特徴ベクトル算出部830−1をまとめて分割済登録発話話者特徴ベクトル算出部1001と、音響分析部820−2、話者特徴ベクトル算出部830−2をまとめて認識発話話者特徴ベクトル算出部1002という。
話者識別装置100では話者特徴ベクトル正規化行列を用いて類似度計算を行う。この正規化行列を用いる手法はWCCNと呼ばれ、発話に含まれる言葉の違いによる類似度の変動を低減させることが知られている(参考非特許文献2)。WCCNを用いると、非特許文献1のコサイン類似度を用いる場合に比べて識別発話・登録発話に含まれる言葉の違いの影響をより受けにくくなり、話者識別精度が向上する。
(参考非特許文献2:A. O. Hatch, S. Kajarekar, A. Stolcke, “Within-Class Covariance Normalization for SVM-based Speaker Recognition”, Proc. Interspeech 2006, pp.1471-1474, 2006.)
話者識別装置100での処理は大きく登録発話の登録、話者特徴ベクトル正規化行列の学習、識別発話の識別の3つに分かれる。
登録発話の登録処理フローの概略は以下の通りである。
1.登録発話の音声を短時間ごと(識別発話と同程度の長さが好ましい)に分割し、分割後の各音声(分割済登録発話という)に対して話者特徴ベクトルを算出する(S110、S820−1、S830−1)。
2.話者特徴ベクトルと登録発話の話者名を組にして登録発話データベースに登録する(S840)。
話者特徴ベクトル正規化行列の学習処理フローの概略は以下の通りである。
1.正規化行列学習用発話の音声に対して話者特徴ベクトルを算出する(S820−3、S830−3)。
2.話者ごとに話者特徴ベクトルの分散共分散行列を求め、これらの行列の平均をとることで話者特徴ベクトル正規化行列を学習する(S180)。
なお、話者特徴ベクトル正規化行列の学習に用いる正規化行列学習用発話、正規化行列学習用話者名は、学習開始前に正規化行列学習用発話記録部104、正規化行列学習用話者名記録部105にそれぞれ記録しておく。
識別発話の識別処理フローの概略は以下の通りである。
1.識別発話の音声に対して話者特徴ベクトルを算出する(S820−2、S830−2)。
2.識別発話の話者特徴ベクトルと各分割済登録発話の話者特徴ベクトルとの類似度を計算する(S150)。
3.2.で求めた類似度を話者ごとに平均化し、話者ごとの平均類似度を計算する(S160)。
4.話者ごとの平均類似度の最大値に対応する話者名を識別発話の話者(識別結果)として返す(S870)。
以下、構成部ごとに入力、出力、動作について説明する。
<発話分割部110>
入力:登録発話
出力:分割済登録発話
登録発話集合の各登録発話を短時間ごとに分割し、分割済登録発話を生成する(S110)。分割時、区間の重複は許すものとする。つまり、図9にあるように分割済登録発話の音声には重なりがある。分割時の窓幅は、話者識別の利用時に想定される識別発話と同程度となるようにし、例えば1.5秒とする。シフト幅は例えば0.5秒とする。
区間の重複を許すことにより、より多くの分割済登録発話が生成されることとなり、本願発明のポイント(2)の効果、言葉の違いに起因する影響をより抑制することが可能となる。
なお、ここでの処理は、典型的には、識別発話と同程度の長さの分割済登録発話を複数生成することになるが、登録発話の長さより少なくとも短くなる分割済登録発話を1つだけ生成するのでもよい。
<音響分析部820−1、820−2、820−3>
入力:分割済登録発話、認識発話、正規化行列学習用発話
出力:音響特徴量ベクトル系列
各発話から音響特徴量ベクトル系列を算出する(S820−1、S820−2、S820−3)。算出した音響特徴量ベクトル系列をそれぞれ分割済登録発話音響特徴量ベクトル系列、認識発話音響特徴量ベクトル系列、正規化行列学習用発話音響特徴量ベクトル系列という。話者識別装置の音響分析部820−2に識別発話が入力されること、話者照合装置の音響分析部820−2に照合発話が入力されることに対応して、認識発話音響特徴量ベクトル系列のことをそれぞれ識別発話音響特徴量ベクトル系列、照合発話音響特徴量ベクトル系列という。
ここでは、音響特徴量としてMFCCを利用する。MFCCは短時間ごとのスペクトル包絡を表現し、音声認識を始めとする音声関連技術において広く利用されている。MFCCの各次元の値をベクトル表記したものを音響特徴量ベクトルとし、MFCCベクトルを時間方向に並べたものを音響特徴量ベクトル系列とする。MFCCの抽出方法は参考非特許文献3に記載されている。MFCC抽出のフレーム幅は例えば25msとし、シフト幅は例えば10msとする。また、MFCCの動的特徴量も音響特徴量ベクトルに含める。
(参考非特許文献3:鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、“IT Text 音声認識システム”、pp.13-14、オーム社、2001)
<話者特徴ベクトル算出部830−1、830−2、830−3>
入力:音響特徴量ベクトル系列、UBMモデル、話者特徴量抽出モデル
出力:話者特徴ベクトル
各音響特徴量ベクトルからUBMモデル、話者特徴量抽出モデルを用いて話者特徴ベクトルを算出する(S830−1、S830−2、S830−3)。算出した話者特徴ベクトルをそれぞれ分割済登録発話話者特徴ベクトル、認識発話話者特徴ベクトル、正規化行列学習用発話話者特徴ベクトルという。話者特徴ベクトルとして、話者識別装置800と同じく、i−vectorを用いる。音響分析部820−2と同様、話者特徴ベクトル算出部830−2の入力が識別発話音響特徴量ベクトル系列、照合発話音響特徴量ベクトル系列であることに対応して、認識発話話者特徴ベクトルのことをそれぞれ識別発話話者特徴ベクトル、照合発話話者特徴ベクトルという。
<話者登録部840>
入力:分割済登録発話話者特徴ベクトル、話者名
出力先:登録発話データベース
分割済登録発話話者特徴ベクトルとそれに対応する話者名(分割元となった登録発話の話者名)を組とし、登録発話記録部803の登録発話データベースへ追加する(S840)。話者名は、先述の通り、人手で与えるものとする。つまり、登録発話データベースには登録発話集合の各登録発話に対して1つ以上の分割済登録発話話者特徴ベクトルが登録されることとなる。
<話者特徴ベクトル正規化行列学習部180>
入力:正規化行列学習用話者特徴ベクトル、正規化行列学習用話者名
出力:話者特徴ベクトル正規化行列
話者特徴ベクトル正規化行列の学習を行う(S180)。話者特徴ベクトル正規化行列は、話者ごとに(つまり、正規化行列学習用話者名が同一の正規化行列学習用話者特徴ベクトル群から)話者特徴ベクトルの分散共分散行列を求め、求めた分散共分散行列を全話者で平均化することで得られる。
<正規化あり類似度計算部150>
入力:話者特徴ベクトル正規化行列、識別発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル、話者名
出力:類似度、話者名
識別発話話者特徴ベクトルと登録発話データベースに含まれるすべての分割済登録発話話者特徴ベクトルとの類似度を計算する(S150)。計算した類似度は、分割済登録発話話者特徴ベクトルに対応する話者名と組にして出力される。
ベクトルの類似度として、話者識別装置800と同じく、コサイン類似度を用いる。ただしここでは、コサイン類似度計算の際に話者特徴ベクトル正規化行列を利用する。具体的には、コサイン類似度cは以下の式により与えられる。
Figure 2017097188
ここで、w, wはそれぞれ識別発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル、Wは話者特徴ベクトル正規化行列を表す。なお、は転置、−1は逆行列を表す。
<類似度平均化部160>
入力:類似度、話者名
出力:話者ごとの平均類似度、話者名
類似度を話者ごとに平均化し、話者ごとの平均類似度を求める(S160)。計算した平均類似度は、分割済登録発話話者特徴ベクトルに対応する話者名と組にして出力される。話者ごとの平均をとるために、例えば、分割元を同じくする分割済登録発話話者特徴ベクトルとの類似度の範囲で平均をとるなどすればよい。また、同一話者による複数の登録発話が話者識別装置100に入力され、当該登録発話から算出される分割済登録発話話者特徴ベクトルが登録データベースに登録されている場合は、同一の話者名と組になっているこれらの分割済登録発話話者特徴ベクトルのすべてあるいは一部を用いて平均類似度を求めるようにしてもよい。
なお、発話分割部110の処理において分割済登録発話が1つだけ生成される場合は、話者識別装置100は類似度平均化部160を持たない形で構成することになる。
<話者識別部870>
入力:話者ごとの平均類似度、話者名
出力:識別結果(話者名)
話者ごとの平均類似度のうち、最大となる平均類似度に対応する話者名(つまり、分割元となった登録発話の話者名)を選択、識別結果として返す(S870)。
また、分割済登録発話話者特徴ベクトル算出部1001、認識発話話者特徴ベクトル算出部1002の入力、出力、動作としてまとめると、以下のようになる。
<分割済登録発話話者特徴ベクトル算出部1001>
入力:登録発話、UBMモデル、話者特徴量抽出モデル
出力:分割済登録発話話者特徴ベクトル
登録発話から生成した分割済登録発話から、UBMモデルと話者特徴量抽出モデルを用いて分割済登録発話話者特徴ベクトルを算出する(S110、S820−1、S830−1)。
<認識発話話者特徴ベクトル算出部1002>
入力:認識発話、UBMモデル、話者特徴量抽出モデル
出力:認識発話話者特徴ベクトル
認識発話から、UBMモデルと話者特徴量抽出モデルを用いて認識発話話者特徴ベクトルを算出する(S820−2、S830−2)。
登録発話に比べて識別発話が極端に短い場合でも正しく話者識別を行うため、同一話者であれば話者特徴ベクトルの類似度を上げ、別話者であれば類似度を下げる必要がある。発話長の違いへの最も単純な対処方法として、例えば登録発話から識別発話と同程度の発話長となるような一部区間を抽出し、その区間のみから話者特徴ベクトルを算出して類似度を求める方法が考えられる。しかしこの方法では、抽出する区間の言葉の情報の影響を受けて類似度が変化するため、たまたま登録発話と識別発話が似た言葉を含む区間を登録発話から抽出した場合には、異なる話者でも類似度が高くなってしまう。
したがって、発話長の違いへの対処と同時に、発話に含まれる言葉の影響による話者特徴ベクトルの変化も考慮する必要がある。実施例1の発明では、発話分割部110を備えることにより発話長の違いへ対処し、類似度平均化部160を備えることにより発話に含まれる言葉の影響に対処する。
これにより、登録発話に比べて識別発話が極端に短い場合でも、話者識別精度が向上する。また、テキスト依存型、テキスト非依存型のいずれに対しても話者識別精度が向上する。
実施例1では、話者特徴ベクトル正規化行列を用いて類似度を計算したが、話者識別装置800と同様、非特許文献1に記載の方法で類似度を計算してもよい。
以下、図10〜図11を参照して実施例2の話者識別装置を説明する。図10は、実施例2の話者識別装置200の構成を示すブロック図である。図11は、実施例2の話者識別装置200の動作を示すフローチャートである。実施例1の話者識別装置100との違いは、話者特徴ベクトル正規化行列の学習に関係する構成部がないこと、正規化あり類似度計算部150に替えて類似度計算部850が追加されていることである。
なお、図10に点線で図示する通り、実施例1と同様、発話分割部110、音響分析部820−1、話者特徴ベクトル算出部830−1をまとめて分割済登録発話話者特徴ベクトル算出部1001と、音響分析部820−2、話者特徴ベクトル算出部830−2をまとめて認識発話話者特徴ベクトル算出部1002という。
以下、実施例1と相違する類似度計算部850の入力、出力、動作について説明する。
<類似度計算部850>
入力:識別発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル、話者名
出力:類似度、話者名
識別発話話者特徴ベクトルと登録発話データベースに含まれるすべての分割済登録発話話者特徴ベクトルとの類似度を計算する(S850)。類似度は非特許文献1のコサイン類似度とする。計算した類似度は、分割済登録発話話者特徴ベクトルに対応する話者名と組にして出力される。
実施例1の発明と同様、登録発話に比べて識別発話が極端に短い場合でも、話者識別精度が向上する。また、テキスト依存型、テキスト非依存型のいずれに対しても話者識別精度が向上する。
実施例3では、実施例1または実施例2の話者識別装置での処理に加えて、閾値を用いた登録外話者判定処理(閾値処理)を行う。識別発話の話者が登録発話データベースにいる場合(閾値処理の結果、所定の要件を満たすと判断される場合)は実施例1または実施例2の話者識別装置での処理結果である話者名を識別結果として出力し、識別発話の話者が登録発話データベースにない場合(閾値処理の結果、所定の要件を満たされないと判断される場合)は登録外話者と判定する。ここで、登録外話者とは、登録発話データベースに話者名が登録されていない話者をいう。
以下、図12〜図14を参照して実施例3の話者識別装置を説明する。図12は、実施例3の話者照合装置300の構成を示すブロック図である。図13は、実施例3の話者照合装置300の動作を示すフローチャートである。図14は、実施例3(変形)の話者照合装置300’の構成を示すブロック図である。話者照合装置300が実施例1の話者照合装置100をベースにしたもの、話者照合装置300’が実施例2の話者照合装置200をベースにしたものである。話者照合装置300及び話者照合装置300’では、登録外話者判定部310が追加される。
なお、図12及び図14に点線で図示する通り、実施例1と同様、発話分割部110、音響分析部820−1、話者特徴ベクトル算出部830−1をまとめて分割済登録発話話者特徴ベクトル算出部1001と、音響分析部820−2、話者特徴ベクトル算出部830−2をまとめて認識発話話者特徴ベクトル算出部1002という。
以下、実施例1または実施例2と相違する話者識別部875、登録外話者判定部310の入力、出力、動作について説明する。
<話者識別部875>
入力:話者ごとの平均類似度、話者名
出力:平均類似度の最大値に対応する話者名、平均類似度の最大値
話者ごとの平均類似度のうち、最大となる平均類似度に対応する話者名を選択、選択した話者名に対応する平均類似度(つまり、平均類似度の最大値)を出力する(S875)。話者識別部870では平均類似度の最大値に対応する話者名を識別結果として出力したが、話者識別部875では平均類似度の最大値もあわせて出力する。
<登録外話者判定部310>
入力:平均類似度の最大値に対応する話者名、平均類似度の最大値、閾値
出力:識別結果
識別発話の話者が登録外話者かを判定し、識別発話の話者が登録発話データベースにいる場合は話者名を、識別発話の話者が登録発話データベースにない場合は登録外話者である旨を識別結果として出力する(S310)。登録外話者の判定は、平均類似度の最大値の閾値処理により実現する。閾値は事前に設定されているものとする。
一般に、登録話者本人であるかを判定する場合、類似度を閾値処理する方法、すなわち類似度が閾値よりも大きい場合は登録話者本人であるとみなし、閾値よりも小さい場合は登録話者でないとみなす方法を用いる。複数の話者の登録発話が登録発話データベースに登録されている場合、すべての登録話者に対して閾値処理を行い、類似度が閾値よりも大きい登録話者が一人でもいれば登録話者、一人もいないのであれば登録外話者と判定することも可能である。
しかし、平均類似度の最大値のみを閾値処理することでも、登録外話者の判定を実現することができる。平均類似度の最大値が閾値よりも大きい場合は少なくとも一人以上が登録話者であると判定されるが、閾値よりも小さい場合はその他の話者も平均類似度が閾値よりも小さいことから、すべての登録話者に対して本人でない(登録外話者である)と判定されることとなる。このことから、ここでは、平均類似度の最大値と閾値を用いて、平均類似度の最大値が閾値よりも大きい場合は登録外話者でないと判定し、平均類似度の最大値に対応する話者名を、平均類似度の最大値が閾値よりも小さい場合は登録外話者と判定し、登録外話者であるという情報を識別結果として返す。
なお、閾値以上であるか否かにより閾値処理を行ってもよい。また、平均類似度の最大値があらかじめ設定した閾値より大きいことまたは閾値以上であることを、平均類似度の最大値が大きいことを示す所定の範囲にあるという。
実施例1の発明と同様、登録発話に比べて識別発話が極端に短い場合でも、話者識別精度が向上する。また、テキスト依存型、テキスト非依存型のいずれに対しても話者識別精度が向上する。
以下、図15〜図17を参照して実施例4の話者照合装置を説明する。図15は、実施例4の話者照合装置400の構成を示すブロック図である。図16は、実施例4の話者照合装置400の動作を示すフローチャートである。図17は、話者照合装置400による照合発話の照合の様子を示す図である。図15に示すように話者照合装置400は、発話分割部110と、音響分析部820−1と、話者特徴ベクトル算出部830−1と、話者登録部940と、登録発話記録部903と、音響分析部820−2と、話者特徴ベクトル算出部830−2と、正規化あり類似度計算部450と、類似度平均化部460と、話者照合部970と、音響分析部820−3と、話者特徴ベクトル算出部830−3と、話者特徴ベクトル正規化行列学習部180と、話者特徴ベクトル正規化行列記録部106を含む。話者照合装置400は、UBMモデル記録部801と、話者特徴量抽出モデル記録部802と、正規化行列学習用発話記録部104と、正規化行列学習用話者名記録部105とに接続している。
なお、図15に点線で図示する通り、実施例1と同様、発話分割部110、音響分析部820−1、話者特徴ベクトル算出部830−1をまとめて分割済登録発話話者特徴ベクトル算出部1001と、音響分析部820−2、話者特徴ベクトル算出部830−2をまとめて認識発話話者特徴ベクトル算出部1002という。
話者照合装置400では、実施例1と同様、話者特徴ベクトル正規化行列を用いて類似度計算を行う。
話者照合装置400での処理は大きく登録発話の登録、話者特徴ベクトル正規化行列の学習、照合発話の照合の3つに分かれる。
登録発話の登録処理フローの概略は以下の通りである。
1.登録発話の音声を短時間ごと(識別発話と同程度の長さが好ましい)に分割し、分割後の各音声(分割済登録発話という)に対して話者特徴ベクトルを算出する(S110、S820−1、S830−1)。
2.話者特徴ベクトルを登録発話データベースに登録する(S940)。
話者特徴ベクトル正規化行列の学習処理フローは実施例1で説明した通りであるのでここでは省略する。
照合発話の照合処理フローの概略は以下の通りである。
1.照合発話の音声に対して話者特徴ベクトルを算出する(S820−2、S830−2)。
2.照合発話の話者特徴ベクトルと各分割済登録発話の話者特徴ベクトルとの類似度を計算する(S450)。
3.2.で求めた類似度を登録発話ごとに平均化し、登録発話ごとの平均類似度を計算する(S460)。
4.平均類似度の最大値が閾値より大きいかに基づき、登録話者本人であるかを判定し、照合結果を返す(S970)。
以下では、構成部ごとに入力、出力、動作について説明する。
<話者登録部940>
入力:分割済登録発話話者特徴ベクトル
出力先:登録発話データベース
分割済登録発話話者特徴ベクトルを登録発話記録部903の登録発話データベースへ追加する(S940)。実施例1と同様、登録発話データベースには登録発話集合の各登録発話に対して1つ以上の分割済登録発話話者特徴ベクトルが登録されることとなる。
なお、類似度平均化部460における処理(類似度の平均化)ができるように(図17参照)、分割済登録発話話者特徴ベクトルには同一の話者の発話に由来するものであるか否かの判断に利用できる情報が付与されている必要がある。例えば、分割元となった登録発話を示す識別子を用いればよい。もちろん、話者識別装置同様、話者名を登録発話データベースに登録しておき、話者名をキーとして平均値を計算する範囲を特定してもよい。
<正規化あり類似度計算部450>
入力:話者特徴ベクトル正規化行列、照合発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル
出力:類似度
照合発話話者特徴ベクトルと登録発話データベースに含まれるすべての分割済登録発話話者特徴ベクトルとの類似度を計算する(S450)。正規化あり類似度計算部150との違いは、話者名を入出力としない点である。
<類似度平均化部460>
入力:類似度
出力:平均類似度
類似度を登録発話ごとに平均化し、登録発話ごとの平均類似度を求める(S460)。類似度平均化部160との違いは、話者名を入出力としない点である。平均値を計算する範囲を登録発話単位ではなく、同一の話者の発話に由来するものであるか否かの判断に利用できる情報で特定できる範囲としてもよい。
<話者照合部970>
入力:平均類似度、閾値
出力:照合結果
平均類似度の最大値が閾値よりも大きい場合は登録発話の話者と同一話者、閾値よりも小さい場合は別話者であると判定し、照合結果として返す(S970)。または、類似度計算部950の出力である類似度各々について閾値との比較を行い、一つでも閾値より大きいものがある場合に登録発話の話者であるとの照合結果を生成し、出力するようにしてもよい(S970)。登録外話者判定部310と同様、閾値以上であるか否かにより閾値処理を行ってもよい。
テキスト非依存型の話者照合において話者特徴ベクトルを利用する場合、上述の話者特徴ベクトルの性質から、識別発話の発話長や含まれる言葉により類似度が変化し、照合精度が低下する。例えば、ある言葉が照合発話に含まれる場合、必ず登録話者だと判断される、といった事態が発生することもある。発話長や単語の変化に対して頑健な話者照合を行うための、発話長や単語の違いへの最も単純な対処方法として、例えば照合発話と同程度の発話長となるよう登録発話の一部区間を抽出し、その区間のみから話者特徴ベクトルを算出して類似度を求める方法が考えられる。しかしこの方法では、抽出する区間の言葉の情報の影響を受けて類似度が変化するため、たまたま登録発話と照合発話が似た言葉を含む区間を登録発話から抽出した場合には、異なる話者でも類似度が高くなってしまう。
したがって、発話長の違いへの対処と同時に、発話に含まれる言葉の影響による話者特徴ベクトルの変化も考慮する必要がある。実施例4の発明では、発話分割部110を備えることにより発話長の違いへ対処し、類似度平均化部460を備えることにより発話に含まれる言葉の影響に対処する。
これにより、テキスト非依存型の話者照合においても、発話長や単語の変化に対して頑健な、閾値を用いた話者照合が可能となる。
実施例4では、話者特徴ベクトル正規化行列を用いて類似度を計算したが、話者照合装置900と同様、非特許文献1に記載の方法で類似度を計算してもよい。
以下、図18〜図19を参照して実施例5の話者照合装置を説明する。図18は、実施例5の話者照合装置500の構成を示すブロック図である。図19は、実施例5の話者照合装置500の動作を示すフローチャートである。実施例4の話者照合装置400との違いは、話者特徴ベクトル正規化行列の学習に関係する構成部がないこと、正規化あり類似度計算部450に替えて類似度計算部950が追加されていることである。
なお、図18に点線で図示する通り、実施例1と同様、発話分割部110、音響分析部820−1、話者特徴ベクトル算出部830−1をまとめて分割済登録発話話者特徴ベクトル算出部1001と、音響分析部820−2、話者特徴ベクトル算出部830−2をまとめて認識発話話者特徴ベクトル算出部1002という。
以下、実施例4と相違する類似度計算部950の入力、出力、動作について説明する。
<類似度計算部950>
入力:照合発話話者特徴ベクトル、分割済登録発話話者特徴ベクトル
出力:類似度
照合発話話者特徴ベクトルと登録発話データベースに含まれるすべての分割済登録発話話者特徴ベクトルとの類似度を計算する(S950)。類似度は非特許文献1のコサイン類似度とする。類似度計算部850との違いは、話者名を入出力としない点である。
実施例4の発明と同様、テキスト非依存型の話者照合においても、発話長や単語の変化に対して頑健な、閾値を用いた話者照合が可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 話者識別または話者照合の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
    前記登録発話から当該登録発話の区間より短い区間を有する分割済登録発話を生成し、当該分割済登録発話から分割済登録発話話者特徴ベクトルを算出する分割済登録発話話者特徴ベクトル算出部と、
    前記認識発話から認識発話話者特徴ベクトルを算出する認識発話話者特徴ベクトル算出部と、
    前記認識発話話者特徴ベクトルと前記分割済登録発話話者特徴ベクトルを用いて前記認識発話と前記分割済登録発話の類似度を計算する類似度計算部と
    を有する話者らしさ評価装置。
  2. 請求項1に記載の話者らしさ評価装置であって、
    前記分割済登録発話話者特徴ベクトル算出部は、2以上の分割済登録発話を生成するものであり、
    前記類似度計算部は、前記2以上の分割済登録発話の各々に対して前記類似度を計算するものであり、
    さらに、
    前記類似度の平均値である平均類似度を計算する類似度平均化部と
    を有する話者らしさ評価装置。
  3. 話者識別の対象となる話者の発話音声を識別発話、1以上の登録発話を要素とする登録発話の集合を登録発話集合とし、
    前記識別発話と前記登録発話集合の登録発話の各々に対して請求項1または請求項2に記載の話者らしさ評価装置を用いて計算した前記類似度または前記平均類似度から、前記識別発話の識別結果を生成する話者識別装置であって、
    前記類似度または前記平均類似度の最大値に対応する登録発話の話者名を選択し、前記話者名を前記識別結果とする話者識別部と
    を有する話者識別装置。
  4. 話者識別の対象となる話者の発話音声を識別発話、1以上の登録発話を要素とする登録発話の集合を登録発話集合とし、
    前記識別発話と前記登録発話集合の登録発話の各々に対して請求項1または請求項2に記載の話者らしさ評価装置を用いて計算した前記類似度または前記平均類似度から、前記識別発話の識別結果を生成する話者識別装置であって、
    前記類似度または前記平均類似度の最大値に対応する登録発話の話者名と当該最大値を選択する話者識別部と、
    前記最大値が大きいことを示す所定の範囲にある場合に前記話者名を前記識別結果とする登録外話者判定部と
    を有する話者識別装置。
  5. 話者照合の対象となる話者の発話音声を照合発話、1以上の登録発話を要素とする登録発話の集合を登録発話集合とし、
    前記照合発話と前記登録発話集合の登録発話の各々に対して請求項1または請求項2に記載の話者らしさ評価装置を用いて計算した前記類似度または前記平均類似度から、前記照合発話の照合結果を生成する話者照合装置であって、
    前記最大値が大きいことを示す所定の範囲にある場合に前記登録発話の話者であるとの照合結果を生成する話者照合部と
    を有する話者照合装置。
  6. 話者識別または話者照合の対象となる話者の発話音声を認識発話、前記話者を認識するために用いる発話音声を登録発話とし、
    前記登録発話から当該登録発話の区間より短い区間を有する分割済登録発話を生成し、当該分割済登録発話から分割済登録発話話者特徴ベクトルを算出する分割済登録発話話者特徴ベクトル算出ステップと、
    前記認識発話から認識発話話者特徴ベクトルを算出する認識発話話者特徴ベクトル算出ステップと、
    前記認識発話話者特徴ベクトルと前記分割済登録発話話者特徴ベクトルを用いて前記認識発話と前記分割済登録発話の類似度を計算する類似度計算ステップと
    を実行する話者らしさ評価方法。
  7. 請求項6に記載の話者らしさ評価方法であって、
    前記分割済登録発話話者特徴ベクトル算出ステップは、2以上の分割済登録発話を生成するものであり、
    前記類似度計算ステップは、前記2以上の分割済登録発話の各々に対して前記類似度を計算するものであり、
    さらに、
    前記類似度の平均値である平均類似度を計算する類似度平均化ステップと
    を実行する話者らしさ評価方法。
  8. 請求項6または7に記載の話者らしさ評価方法をコンピュータに実行させるためのプログラム。
JP2015229670A 2015-11-25 2015-11-25 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム Pending JP2017097188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015229670A JP2017097188A (ja) 2015-11-25 2015-11-25 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015229670A JP2017097188A (ja) 2015-11-25 2015-11-25 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム

Publications (1)

Publication Number Publication Date
JP2017097188A true JP2017097188A (ja) 2017-06-01

Family

ID=58817786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015229670A Pending JP2017097188A (ja) 2015-11-25 2015-11-25 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム

Country Status (1)

Country Link
JP (1) JP2017097188A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086430A (ja) * 2018-11-19 2020-06-04 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別装置、話者識別方法、及び、プログラム
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111816184A (zh) * 2019-04-12 2020-10-23 松下电器(美国)知识产权公司 讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质
WO2022113218A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 話者認識方法、話者認識装置および話者認識プログラム
JP7473910B2 (ja) 2020-03-27 2024-04-24 株式会社フュートレック 話者認識装置、話者認識方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064928A (ja) * 2006-09-06 2008-03-21 Yamaha Corp 生体認証装置、生体認証方法およびプログラム
JP2009294307A (ja) * 2008-06-03 2009-12-17 Sony Corp 話者認識装置と話者認識方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064928A (ja) * 2006-09-06 2008-03-21 Yamaha Corp 生体認証装置、生体認証方法およびプログラム
JP2009294307A (ja) * 2008-06-03 2009-12-17 Sony Corp 話者認識装置と話者認識方法およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086430A (ja) * 2018-11-19 2020-06-04 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別装置、話者識別方法、及び、プログラム
JP7353839B2 (ja) 2018-11-19 2023-10-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別装置、話者識別方法、及び、プログラム
CN111816184A (zh) * 2019-04-12 2020-10-23 松下电器(美国)知识产权公司 讲话人识别方法、识别装置以及记录介质、数据库生成方法、生成装置以及记录介质
CN111816184B (zh) * 2019-04-12 2024-02-23 松下电器(美国)知识产权公司 讲话人识别方法、识别装置以及记录介质
CN111462762A (zh) * 2020-03-25 2020-07-28 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
JP7473910B2 (ja) 2020-03-27 2024-04-24 株式会社フュートレック 話者認識装置、話者認識方法およびプログラム
WO2022113218A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 話者認識方法、話者認識装置および話者認識プログラム
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20160071520A1 (en) Speaker indexing device and speaker indexing method
JPWO2014112375A1 (ja) 話者識別装置、話者識別方法、および話者識別用プログラム
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP2016180917A (ja) 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
US20230069908A1 (en) Recognition apparatus, learning apparatus, methods and programs for the same
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
JP2019008131A (ja) 話者判定装置、話者判定情報生成方法、プログラム
JP6636374B2 (ja) 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
US12057105B2 (en) Speech recognition device, speech recognition method, and program
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
Nguyen et al. Resident identification in smart home by voice biometrics
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US12125474B2 (en) Learning apparatus, estimation apparatus, methods and programs for the same
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
WO2006027844A1 (ja) 話者照合装置
JP2012118441A (ja) 音響モデル作成方法とその装置とプログラム
JP2012242590A (ja) 話者分類装置、話者分類方法、プログラム
Mamodiya et al. Exploring acoustic factor analysis for limited test data speaker verification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190416