JP5708155B2 - 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム - Google Patents
話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP5708155B2 JP5708155B2 JP2011079902A JP2011079902A JP5708155B2 JP 5708155 B2 JP5708155 B2 JP 5708155B2 JP 2011079902 A JP2011079902 A JP 2011079902A JP 2011079902 A JP2011079902 A JP 2011079902A JP 5708155 B2 JP5708155 B2 JP 5708155B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- speaker
- utterance
- interval
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
例えば、被測定者の表情、姿勢、脳波または被測定者に取り付けられた心電計からの信号などに基づいて、被測定者の状態を判定する技術が提案されている(例えば、特許文献1、非特許文献1及び2を参照)。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
発明者は、鋭意研究の結果、複数の話者が対話する場合、各話者が発した音声間の重なり度合い、またはその音声間の間隔が、話者の状態に影響されるという知見を得た。
なお、第1の音声データと第2の音声データとは、それら音声データに含まれる各話者が声を発したタイミング同士の関係が、実際に各話者が声を発したタイミング同士の関係と一致するように、処理部6により同期化される。
また出力部5は、検出結果情報を、通信ネットワークを介して話者状態装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、この場合、通信部3と出力部5は同一の回路であってもよい。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、それぞれ、別個の回路として、話者状態検出装置1に実装されてもよい。
発話間隔検出部11は、各話者の発話区間を時系列順に比較する。発話間隔検出部11は、一方の話者の注目する発話区間の開始時刻と終了時刻の間に、他方の話者の何れかの発話区間の開始時刻が含まれていれば、発話区間同士が重畳していると判定する。そして発話間隔検出部11は、その重畳している二つの発話区間のうち、時間的に後の発話区間の開始時刻から、何れかの発話区間の終了時刻までを重畳期間とする。
また、一方の話者の注目する発話区間の開始時刻と終了時刻の間に、他方の話者の何れの発話区間の開始時刻も含まれていないこともある。このような場合、発話間隔検出部11は、その注目する発話区間の終了時刻から、その終了時刻後における他方の話者の最初の発話区間の開始時刻までの期間を発話間隔とする。
なお、以下では、便宜上、重畳期間または発話間隔に対応する二つの発話区間のうち、開始時刻が先の発話区間を影響者の発話区間と呼び、開始時刻が後の発話区間を被影響者の発話区間と呼ぶ。
図3(a)に示されたパターンは、影響者の発話区間と被影響者の発話区間が重畳しておらず、かつ、発話間隔が短い、若しくは発話間隔が無いパターンである。便宜上、このようなパターンを'Ds'と表記する。図3(b)に示されたパターンは、影響者の発話区間と被影響者の発話区間が重畳しておらず、かつ、発話間隔が長いパターンである。便宜上、このようなパターンを'Dl'と表記する。また図3(c)に示されたパターンは、影響者の発話区間の一部と被影響者の発話区間の一部が重畳しており、かつ、その重畳期間が短いパターンである。便宜上、このようなパターンを'Ms'と表記する。図3(d)に示されたパターンは、影響者の発話区間の一部と被影響者の発話区間の一部が重畳しており、かつ、その重畳期間が長いパターンである。便宜上、このようなパターンを'Ml'と表記する。そして図3(e)に示されたパターンは、被影響者の発話区間全体が、影響者の発話区間と重畳しており、かつ、被影響者の発話区間、すなわち、重畳期間が影響者の発話区間よりも短いパターンである。便宜上、このような一方の発話区間が他方の発話区間に被覆される重畳期間のパターンを'Mc'と表記する。
発話間隔検出部11は、重畳期間及び発話間隔ごとに、その開始時刻と終了時刻とを、その重畳期間または発話間隔が分類されたパターンを表す識別情報とともに記憶部4に記憶する。
次に、状態情報抽出部12は、抽出した高域成分の単位時間(例えば、1フレーム長)ごとの変動度合いを求める。この変動度合いは、例えば、以下の式に従って算出される。
変動度合い = log(高域成分のパワースペクトルの幾何平均)/log(高域成分のパワースペクトルの算術平均)
あるいは、状態情報抽出部12は、変動度合いを次式に従って算出してもよい。
変動度合い =高域成分のパワースペクトルの幾何平均/高域成分のパワースペクトルの算術平均
状態情報抽出部12は、上記で得られた変動度合いの発話区間内の統計量、例えば、発話区間内に含まれるフレームごとの変動度合いの平均値、中央値、分散あるいは最頻値を求める。
状態情報抽出部12は、発話区間ごとに得られた状態情報を、対応する発話区間と関連付けて記憶部4に記憶する。
そのために、1次状態検出部13は、例えば、状態情報の組と発話者の状態(例えば、怒り、喜び、悲しみといった状態)との関係を表す状態データベースを参照することにより、得られた状態情報に対する話者の状態を検出する。このような状態データベースは、予め記憶部4に記憶される。なお、状態データベースは、例えば、予め話者の状態が分かっている複数の音声データのサンプルについて発話区間ごとに状態情報を求めて、状態情報の組ごとに話者の状態の頻度分布を求め、頻度が最も高い状態をその状態情報の組と対応付けることで作成される。そのような音声データのサンプルに関して、話者の状態は、例えば、その音声データの収集時に話者の脈拍、心電計のデータ、話者の顔を撮影した画像といった生体情報を別途取得し、その生体情報に基づいて被測定者の状態を求める様々な技術の何れかに従って求められてもよい。また状態データベースは、話者状態検出装置1以外の装置によって予め作成されてもよい。
さらにまた、1次状態検出部13は、発話区間中の、話者が声を発した期間の長さを信号とし、話者の声以外の音がする期間の長さをノイズとする信号対ノイズ比を、その発話区間における状態の確度としてもよい。この場合、話者が声を発した期間は、例えば、人の声に相当する周波数帯域のスペクトルのパワーが所定の閾値以上となる期間とすることができる。
また、1次状態検出部13は、音声データから抽出した状態情報に基づいて話者の状態を判定する、他の様々な方法の何れかに従って、発話区間ごとの話者の状態を求めてもよい。
1次状態検出部13は、検出した状態及びその状態に対する確度を状態再判定部14へ出力する。
状態再判定部14は、注目する発話区間に対応する状態の確度を状態の再判定を行うか否かを決めるための再判定閾値以下か否か判定する(ステップS101)。
ここで、再判定閾値は、例えば、以下に説明するように予め決定される。先ず、処理部6は、1次状態検出部13が出力し得る確度の最大値と最小値の差を、例えば100で割ったインクリメント値を最小値に加えて仮の閾値とする。なお、インクリメント値を求めるための、確度の最大値と最小値の差を割る値は、確度の有効桁数に応じて1000または10000としてもよい。そして処理部6は、予め話者の状態が分かっている複数の音声データのサンプルについて、その仮の閾値より確度が小さい発話区間に対する、1次状態検出部13による話者の状態の検出結果の誤り率を求める。処理部6は、仮の閾値にインクリメント値を順次加えることによって仮の閾値を変更しつつ、仮の閾値ごとにその誤り率を求める。そして処理部6は、その誤り率が最大となるときの仮の閾値を再判定閾値とする。なお、再判定閾値を決定するための上記の手順は、話者状態検出装置1以外の装置によって実行されてもよい。
p = p(ca|cb,Pdm)
ここで、caは、注目する発話区間における被影響者の状態を表し、cbは、影響者の発話区間における影響者の状態を表す。またPdm(∈{Dl,Ds,Mc,Ml,Ms})は、重畳期間または発話間隔のパターンである。例えば、caが“侘び”であり、cbが“怒り”であり、PdmがMsであるときに、p=0.6であれば、対話において影響者が怒っているときの発話の後に短く重畳している被影響者の発話が“侘び”である確率が0.6であることが表されている。
また個別再判定閾値は、関連する状態影響モデルを用いて話者の状態を再判定するか否かを判定するための閾値である。
なお、変形例によれば、状態再判定部14は、注目する発話区間における被影響者の話者の状態の確度が再判定閾値以下であれば、ステップS104及びS105の手順を省略し、直接ステップS106の手順を実行してもよい。
P("怯え"|"怒り",Mc)=0.4
P("侘び"|"怒り",Mc)=0.2
P("怒り"|"怒り",Mc)=0.3
P("平静"|"怒り",Mc)=0.1
この場合、状態"怯え"についての条件付き確率が最大となる。そこで、図6(c)に示されるように、状態再判定部14は、発話区間601における話者Bの状態を"侘び"から"怯え"に修正する。
予め話者の状態が分かっている、二人の話者が対話している複数の音声データのサンプルについて、発話間隔検出部11による処理と同様の処理を行って、時系列順に各話者の発話区間の重畳期間及び発話間隔のパターンが求められる。そして、影響者の取り得る状態と重畳期間及び発話間隔のパターンの組み合わせごとに、被影響者の取り得るそれぞれの状態の頻度が求められる。そしてその頻度の合計で、被影響者の各状態の頻度を割ることにより、影響者の取り得る状態と重畳期間及び発話間隔のパターンの組み合わせごとの被影響者の各状態の条件付き確率が求められる。
予め話者の状態が分かっている、二人の話者が対話している複数の音声データのサンプルについて、状態情報抽出部12及び1次状態検出部13と同様の処理を行うことで発話区間ごとの話者の状態が検出され、発話区間と話者の状態の組のそれぞれが一つのテストデータとなる。ただし、これらのサンプルは、条件付き確率の算出に用いたサンプルとは異なることが好ましい。
そして、0.01刻みで0.01から0.99までの仮の閾値が設定される。仮の閾値ごとに、各テストデータの発話区間の被影響者の状態に対する状態影響モデルに含まれる条件付き確率が、その仮の閾値より低い値となるテストデータが抽出される。抽出されたテストデータのそれぞれについて、そのテストデータにおける、被影響者たる話者の状態を判定する条件と同一の条件を持つ条件付き確率のうちで、その確率が最大となる被影響者の状態が、変更後の話者の状態となる。なお、ここでいう条件は、影響者の状態と重畳期間及び発話間隔のパターンの組み合わせを意味する。そして以下の式にしたがって、再現率及び適合率が算出される。再現率は、話者の状態を変更した発話区間のうち、話者の状態の変更結果が正しい割合を表す。また適合率は、話者の状態を変更すべき発話区間のうち、実際に話者の状態が変更された割合を表す。
そして上記の各仮の閾値のうち、再現率と適合率の調和平均が最大となる閾値が、個別判定閾値として決定される。また、個別判定閾値は、影響者の状態と重畳期間または発話間隔のパターンの組毎に決定されてもよい。状態影響モデルに含まれる条件付き確率及び個別再判定閾値は、話者状態検出装置1以外の装置によって、上記の手順に従って予め決定されてもよい。
処理部6は、音声入力部2及び通信部3を介して各話者の音声データを取得する(ステップS201)。処理部6は、各話者の音声データを同期化し、その音声データを一時的に記憶部4に記憶する。次に、処理部6の発話間隔検出部11は、各話者の音声データのそれぞれについて、発話区間を検出する。そして発話間隔検出部11は、話者間での発話区間同士の重畳期間または発話間隔を時系列順に求め、その重畳期間または発話間隔を複数のパターンのうちの何れかに分類する(ステップS202)。発話間隔検出部11は、各発話区間の開始時刻と終了時刻を記憶部4に記憶する。また発話間隔検出部11は、重畳期間または発話間隔のパターンの開始時刻と終了時刻、及びそのパターンを表す識別情報を記憶部4に記憶する。
その後、処理部6は、話者状態検出処理を終了する。
以下では、第2の実施形態による話者状態検出装置の各要素のうち、第1の実施形態による話者状態検出装置と異なる点について説明する。
なお、第1及び第2の角度範囲は、各話者の位置と、各マイクロホンの位置関係に応じて予め定められる。
話者識別部15は、話者ごとに、区分された音声データを発話間隔検出部11へ渡す。
図9(a)において、横軸は時間を表す。また発話区間901、902は、それぞれ、話者Aの発話区間であり、発話区間911〜913は、それぞれ、話者Bの発話区間である。発話区間901及び902における話者Aの状態は、それぞれ"怒り"と判定されている。また発話区間911、912における話者Bの状態は、それぞれ、"無関心"、"怯え"と判定されている。これらの各発話区間における話者の状態は、状態再判定部14により判定された結果である。そして最後の発話区間である発話区間913における話者Bの状態は、1次状態検出部13にて"侘び"と判定されている。
図10(a)において、横軸は時間を表す。また発話区間1001は、話者Aの発話区間であり、発話区間1011及び1012は、話者Bの発話区間である。そして発話区間1021は、話者Cの発話区間である。発話区間1001における話者Aの状態は"怒り"と判定されており、発話区間1011における話者Bの状態、および発話区間1021における話者Cの状態は、それぞれ、"怯え"、"侘び"と判定されている。これらの各発話区間における話者の状態は、状態再判定部14により判定された結果である。そして最後の発話区間である発話区間1012における話者Bの状態は、1次状態検出部13にて"侘び"と判定されている。
P=P(ca|G)
ここで、caは、注目する発話区間における被影響者の状態を表し、Gは、影響者の各発話区間の状態と、重畳期間または発話間隔のパターンの組み合わせを表すグラフパターンの行列表記である。例えば、図10(b)に示されたグラフパターン1040は、以下のように表記される。
ただし、条件付き確率を決定する際には、予め話者の状態が分かっている、二人以上の話者が対話している複数の音声データのサンプルから、様々なグラフパターンごとに、被影響者の取り得るそれぞれの状態の頻度が求められる。そしてその頻度の合計で、被影響者の各状態の頻度を割ることにより、グラフパターンごとの被影響者の各状態の条件付き確率が求められる。
第3の実施形態による話者状態検出装置は、第1の実施形態による話者状態検出装置と比較して、処理部により実行される機能の一部のみが異なる。そこで以下では、処理部について説明する。
選択用閾値は、再判定閾値以上の値を持ち、例えば、以下に説明するように決定される。先ず、処理部6は、1次状態検出部13が出力し得る確度の最大値と最小値の差を、例えば100で割ったインクリメント値を最小値に加えて仮の閾値とする。なお、インクリメント値を求めるための、確度の最大値と最小値の差を割る値は、確度の有効桁数に応じて1000または10000としてもよい。そして処理部6は、予め話者の状態が分かっている複数の音声データのサンプルについて、その仮の閾値より確度が高い発話区間に対する、1次状態検出部13による話者の状態の検出結果の誤り率を求める。処理部6は、仮の閾値にインクリメント値を順次加えることによって仮の閾値を変更しつつ、仮の閾値ごとにその誤り率を求め、その誤り率が最小となるときの仮の閾値を選択用閾値とする。なお、話者状態検出装置以外の装置が、上記の手順に従って予め選択用閾値を決定してもよい。
学習部16は、例えば、前回の状態影響モデルの更新時以降に追加的に記憶された学習サンプルのみを用いて、影響者の発話区間における影響者の状態と重畳期間または発話間隔のパターンとの組ごとに、被影響者の取り得る各状態について条件付き確率を算出する。その際、学習部16は、第1の実施形態における状態再判定部において説明した状態影響モデルの作成方法と同様の方法に従って、条件付き確率を算出する。そして学習部16は、同一の条件を持つ被影響者の状態についての条件付き確率ごとに、新たに算出された条件付き確率と状態影響モデルに含まれる条件付き確率との平均値を求め、その平均値で状態影響モデルに含まれる条件付き確率の値を更新する。
また学習部は、第3の実施形態による学習部と同様の処理を行って、状態影響モデルを更新すればよい。
第4の実施形態による話者状態検出装置は、第1の実施形態による話者状態検出装置と比較して、処理部により実行される機能の一部のみが異なる。そこで以下では、処理部について説明する。
そして状態検出部17は、注目する発話区間について抽出された状態情報の組と、注目する発話区間とその直前の発話区間の重畳期間または発話間隔のパターンを識別器に入力することによって注目する発話区間における話者の状態を求めることができる。なお、入力パラメータには、影響者の発話区間におけるその影響者の話者の状態がさらに含まれていてもよい。
(付記1)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得する音声入力部と、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出する発話間隔検出部と、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出する状態情報抽出部と、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する状態検出部と、
を有する話者状態検出装置。
(付記2)
時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶する記憶部をさらに有し、
前記状態情報抽出部は、前記第2の発話区間から前記第2の話者の状態を表す第2の状態情報を抽出し、
前記状態検出部は、前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を抽出し、かつ、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態との組に対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
を有する付記1に記載の話者状態検出装置。
(付記3)
前記状態再判定部は、前記確度が前記再判定閾値以上の値を持つ選択用閾値よりも大きい場合に、当該確度に対応する前記第1の発話区間における前記第1の話者の状態と、前記第2の発話区間における前記第2の話者の状態と、前記重畳期間または前記間隔との組を学習用サンプルとして前記記憶部に記憶し、
前記学習用サンプルを用いて前記状態影響モデルを更新する学習部をさらに有する、付記2に記載の話者状態検出装置。
(付記4)
前記学習部は、前記記憶部に記憶された前記学習用サンプルが所定数に達すると、当該所定数の前記学習用サンプルにおける前記第2の話者の状態と前記重畳期間または前記間隔との組に対する前記第1の話者の取り得る状態ごとの頻度を該頻度の合計で割ることによって該取り得る状態ごとの確率の更新値を求め、前記状態影響モデルに含まれる、前記後の発話区間に音声を発した話者の取り得る状態ごとの確率を、当該状態に対応する前記確率の更新値を用いて更新する、付記3に記載の話者状態検出装置。
(付記5)
少なくとも2以上の音声に含まれるn個の発話区間のうちの時間的に連続する二つの発話区間ごとの重畳期間または間隔と、当該n個の発話区間のうちの最後の発話区間以外の各発話区間に音声を発した話者の状態との組に対して、前記最後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶し、前記nは3以上の整数である記憶部をさらに有し、
前記状態情報抽出部は、前記少なくとも第1の音声及び第2の音声における、前記第2の発話区間を含む、時間的に連続した(n-1)個の発話区間から、それぞれ、当該発話区間に対応する話者の状態を表す第2の状態情報を抽出し、
前記状態検出部は、前記第2の状態情報に基づいて前記(n-1)個の発話区間のそれぞれに対応する話者の状態を抽出し、かつ、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記少なくとも第1の音声及び第2の音声における、前記第1及び第2の発話区間を含む、時間的に連続した前記n個の発話区間のうちの時間的に連続する二つの発話区間ごとの重畳期間または間隔と、当該n個の発話区間のうちの前記第1の発話区間以外の各発話区間における話者の状態との組に対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
を有する付記1に記載の話者状態検出装置。
(付記6)
前記状態検出部は、前記重畳期間または前記間隔と前記第1の状態情報の取り得る複数の組み合わせのそれぞれに対する前記第1の発話区間における前記第1の話者の状態を規定する識別器に、前記重畳期間または前記間隔と前記第1の状態情報とを入力することにより前記第1の発話区間における前記第1の話者の状態を検出する、付記1に記載の話者状態検出装置。
(付記7)
前記音声入力部は、前記第1の音声を集音するマイクロホンと、前記第2の音声を通信回線を介して受信する通信部とを有する、付記1〜6の何れか一項に記載の話者状態検出装置。
(付記8)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出し、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する、
ことを含む話者状態検出方法。
(付記9)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出し、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する、
ことをコンピュータに実行させる話者状態検出用コンピュータプログラム。
2 音声入力部
3 通信部
4 記憶部
5 出力部
6 処理部
7 表示装置
11 発話間隔検出部
12 状態情報抽出部
13 1次状態検出部
14 状態再判定部
15 話者識別部
16 学習部
17 状態検出部
Claims (4)
- 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得する音声入力部と、
時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶する記憶部と、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出する発話間隔検出部と、
前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、かつ、前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出する状態情報抽出部と、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する状態検出部と、
を有し、
前記状態検出部は、前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、かつ、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
を有する話者状態検出装置。 - 前記状態再判定部は、前記確度が前記再判定閾値以上の値を持つ選択用閾値よりも大きい場合に、当該確度に対応する前記第1の発話区間における前記第1の話者の状態と、前記第2の発話区間における前記第2の話者の状態と、前記重畳期間または前記間隔との組を学習用サンプルとして前記記憶部に記憶し、
前記学習用サンプルを用いて前記状態影響モデルを更新する学習部をさらに有する、請求項1に記載の話者状態検出装置。 - 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、
前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出し、
前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求め、
前記確度が再判定閾値より高い場合、前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とすることを含み、
前記状態影響モデルは、時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む
話者状態検出方法。 - 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、
前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出し、
前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求め、
前記確度が再判定閾値より高い場合、前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を、時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする、
ことをコンピュータに実行させる話者状態検出用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011079902A JP5708155B2 (ja) | 2011-03-31 | 2011-03-31 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
US13/365,662 US9002704B2 (en) | 2011-03-31 | 2012-02-03 | Speaker state detecting apparatus and speaker state detecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011079902A JP5708155B2 (ja) | 2011-03-31 | 2011-03-31 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012215668A JP2012215668A (ja) | 2012-11-08 |
JP5708155B2 true JP5708155B2 (ja) | 2015-04-30 |
Family
ID=46928418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011079902A Expired - Fee Related JP5708155B2 (ja) | 2011-03-31 | 2011-03-31 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9002704B2 (ja) |
JP (1) | JP5708155B2 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014069075A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 不満会話判定装置及び不満会話判定方法 |
US20150310877A1 (en) * | 2012-10-31 | 2015-10-29 | Nec Corporation | Conversation analysis device and conversation analysis method |
US20150262574A1 (en) * | 2012-10-31 | 2015-09-17 | Nec Corporation | Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium |
JP6448171B2 (ja) * | 2013-02-25 | 2019-01-09 | 東日本高速道路株式会社 | 車両事故予測(危険走行車両検出)装置 |
US9875236B2 (en) * | 2013-08-07 | 2018-01-23 | Nec Corporation | Analysis object determination device and analysis object determination method |
US10164921B2 (en) * | 2014-03-12 | 2018-12-25 | Stephen Davies | System and method for voice networking |
US9922667B2 (en) * | 2014-04-17 | 2018-03-20 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
US10529359B2 (en) * | 2014-04-17 | 2020-01-07 | Microsoft Technology Licensing, Llc | Conversation detection |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
JP6524674B2 (ja) * | 2015-01-22 | 2019-06-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
US9911410B2 (en) * | 2015-08-19 | 2018-03-06 | International Business Machines Corporation | Adaptation of speech recognition |
JP6552928B2 (ja) * | 2015-09-11 | 2019-07-31 | 株式会社東芝 | 気象予測装置、気象予測方法およびプログラム |
US11222278B2 (en) * | 2016-09-08 | 2022-01-11 | Fujitsu Limited | Estimating conditional probabilities |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
JP2019101385A (ja) * | 2017-12-08 | 2019-06-24 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
JP7330066B2 (ja) * | 2019-03-27 | 2023-08-21 | パナソニックホールディングス株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
US11308966B2 (en) * | 2019-03-27 | 2022-04-19 | Panasonic Intellectual Property Corporation Of America | Speech input device, speech input method, and recording medium |
CN113327620B (zh) * | 2020-02-29 | 2024-10-11 | 华为技术有限公司 | 声纹识别的方法和装置 |
CN111292763B (zh) * | 2020-05-11 | 2020-08-18 | 新东方教育科技集团有限公司 | 重音检测方法及装置、非瞬时性存储介质 |
CN111681681A (zh) * | 2020-05-22 | 2020-09-18 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3676969B2 (ja) | 2000-09-13 | 2005-07-27 | 株式会社エイ・ジー・アイ | 感情検出方法及び感情検出装置ならびに記録媒体 |
TWI221574B (en) * | 2000-09-13 | 2004-10-01 | Agi Inc | Sentiment sensing method, perception generation method and device thereof and software |
JP2004259238A (ja) | 2003-02-25 | 2004-09-16 | Kazuhiko Tsuda | 自然言語解析における感情理解システム |
US7999857B2 (en) * | 2003-07-25 | 2011-08-16 | Stresscam Operations and Systems Ltd. | Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system |
JP2006130121A (ja) | 2004-11-08 | 2006-05-25 | Univ Nihon | 生体情報に基づく感情認識方法 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
KR100735556B1 (ko) * | 2005-10-17 | 2007-07-04 | 삼성전자주식회사 | 이벤트 인덱스를 이용한 멀티미디어 제공 방법 및 장치 |
KR100763236B1 (ko) * | 2006-05-09 | 2007-10-04 | 삼성전자주식회사 | 생체 신호를 이용하는 동영상 편집 장치 및 방법 |
CN101346758B (zh) * | 2006-06-23 | 2011-07-27 | 松下电器产业株式会社 | 感情识别装置 |
US20090043586A1 (en) * | 2007-08-08 | 2009-02-12 | Macauslan Joel | Detecting a Physiological State Based on Speech |
WO2010013371A1 (ja) * | 2008-07-28 | 2010-02-04 | 日本電気株式会社 | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体 |
JP4972107B2 (ja) * | 2009-01-28 | 2012-07-11 | 日本電信電話株式会社 | 通話状態判定装置、通話状態判定方法、プログラム、記録媒体 |
-
2011
- 2011-03-31 JP JP2011079902A patent/JP5708155B2/ja not_active Expired - Fee Related
-
2012
- 2012-02-03 US US13/365,662 patent/US9002704B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20120253807A1 (en) | 2012-10-04 |
US9002704B2 (en) | 2015-04-07 |
JP2012215668A (ja) | 2012-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
US10540979B2 (en) | User interface for secure access to a device using speaker verification | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
Prasanna et al. | Significance of vowel-like regions for speaker verification under degraded conditions | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
Chapaneri | Spoken digits recognition using weighted MFCC and improved features for dynamic time warping | |
US20120232899A1 (en) | System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization | |
CN107871499B (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
WO2018025025A1 (en) | Speaker recognition | |
JP2013156524A (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
KR101022519B1 (ko) | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 | |
Lee et al. | Detecting pathological speech using contour modeling of harmonic-to-noise ratio | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
CN113241059B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
JP2019053233A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP2012155301A (ja) | 状況認知型音声認識方法 | |
TWI297487B (en) | A method for speech recognition | |
Kumari et al. | Deep convolution neural network based Parkinson’s disease detection using line spectral frequency spectrum of running speech | |
CN118588064B (zh) | 一种非接触式留置谈话虚假音频检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5708155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |