[go: up one dir, main page]

JP5708155B2 - 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム - Google Patents

話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム Download PDF

Info

Publication number
JP5708155B2
JP5708155B2 JP2011079902A JP2011079902A JP5708155B2 JP 5708155 B2 JP5708155 B2 JP 5708155B2 JP 2011079902 A JP2011079902 A JP 2011079902A JP 2011079902 A JP2011079902 A JP 2011079902A JP 5708155 B2 JP5708155 B2 JP 5708155B2
Authority
JP
Japan
Prior art keywords
state
speaker
utterance
interval
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011079902A
Other languages
English (en)
Other versions
JP2012215668A (ja
Inventor
晃 釜野
晃 釜野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011079902A priority Critical patent/JP5708155B2/ja
Priority to US13/365,662 priority patent/US9002704B2/en
Publication of JP2012215668A publication Critical patent/JP2012215668A/ja
Application granted granted Critical
Publication of JP5708155B2 publication Critical patent/JP5708155B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、例えば、対話中の複数の話者が発する音声に基づいて、何れかの話者の状態を判定する話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラムに関する。
近年、感情、ストレス感または疲労感の有無といった、被測定者の状態を、その被測定者の様々な生体情報を解析することによって識別する技術が研究されている。
例えば、被測定者の表情、姿勢、脳波または被測定者に取り付けられた心電計からの信号などに基づいて、被測定者の状態を判定する技術が提案されている(例えば、特許文献1、非特許文献1及び2を参照)。
また、被測定者が発する音声または会話に基づいて、被測定者の感情を判定する技術が提案されている(例えば、特許文献2及び3を参照)。例えば、特許文献2に開示された感情検出装置は、被測定者の音声の強度、テンポ及び抑揚の変化量をそれぞれ求め、その変化量に基づいて、少なくとも怒り、悲しみ及び喜びのそれぞれの感情状態を表す信号を生成する。また特許文献3に開示された感情理解システムは、対話文を解析することによって、発話者と受話者の感情を理解する。
特開2006−130121号公報 特開2002−91482号公報 特開2004−259238号公報
濱治世、鈴木直人、濱保久共著、「感情心理学への招待 感情・情緒へのアプローチ」、初版、サイエンス社、2001年12月10日、p.137-174 M.F.ベアー、B.W.コノーズ、M.A.パラディーソ共著、「神経科学 脳の探求」、初版、西村書店、2007年6月5日、p.437-452
被測定者の状態を検出するために、心電計のデータまたは被測定者の脳波を解析する技術では、被測定者に脳波などを測定するための計器が取り付けられる。そのため、この技術は、そのような計器が設置できる場所でしか適用できない。また、被測定者の表情または姿勢に基づいて被測定者の状態を検出するためには、被測定者の顔または全身を撮影した画像が用いられる。そのため、表情または姿勢に基づいて被測定者の状態を検出する技術は、被測定者がカメラの撮影範囲内にいなければ適用できない。これに対し、音声に基づいて被測定者の状態を検出する技術は、マイクロホンが被測定者の声を集音可能な範囲に被測定者がいればよいので、広く応用可能である。
しかしながら、特許文献2に開示された装置では、被測定者の音声のみに基づいて被測定者の状態を検出する。そのため、この装置は被測定者が他者と会話している場合でも、被測定者の状態が他者から受ける影響を考慮することはできない。また、特許文献3に開示されたシステムは、会話の音声を例えば音声認識システムを用いてテキスト情報に変換してから、そのテキスト情報を解析する。しかし、音声がテキストに変換されることによって、声の抑揚または強さなど、テキストに変換されない様々な非言語的な情報が失われるので、このシステムは、被測定者の状態を正確に検出できないおそれがあった。
そこで本明細書は、対話中の複数の話者のうちの少なくとも一人の状態を、その対話の際の音声に基づいて正確に検出可能な話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラムを提供することを目的とする。
一つの実施形態によれば、話者状態検出装置が提供される。この話者状態検出装置は、少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得する音声入力部と、第1の音声に含まれる第1の話者の第1の発話区間と、第2の音声に含まれ、第1の発話区間よりも前に開始される第2の話者の第2の発話区間との重畳期間、または第1の発話区間と第2の発話区間の間隔を検出する発話間隔検出部と、第1の発話区間から第1の話者の状態を表す第1の状態情報を抽出する状態情報抽出部と、重畳期間または間隔と第1の状態情報とに基づいて第1の発話区間における第1の話者の状態を検出する状態検出部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラムは、対話中の複数の話者のうちの少なくとも一人の状態を、その対話の際の音声に基づいて正確に検出できる。
第1の実施形態による話者状態検出装置の概略構成図である。 第1の実施形態による話者状態検出装置が有する処理部の機能ブロック図である。 (a)〜(e)は、それぞれ、重畳期間または発話間隔のパターンの一例を表す模式図である。 二人の話者間の会話における重畳期間または発話間隔のパターンを時系列順に並べた模式図である。 話者状態再判定処理の動作フローチャートである。 (a)〜(c)は、状態再判定の一例の説明図である。 話者状態検出処理の動作フローチャートである。 第2の実施形態による話者状態検出装置の処理部の機能ブロック図である。 (a)は、二人の話者間の会話に含まれる複数の発話区間及び各発話区間における話者の状態と発話区間の重畳期間または発話間隔のパターンの一例を示す模式図である。(b)は、(a)における最後の発話区間に対して適用される状態影響モデルで考慮される影響者の状態及び重畳期間または発話間隔の組み合わせのグラフパターンの一例を示す図である。 (a)は、3人の話者間の会話に含まれる複数の発話区間及び各発話区間における話者の状態と発話区間の重畳期間または発話間隔のパターンの一例を示す模式図である。(b)は、(a)における最後の発話区間に対して適用される状態影響モデルで考慮される影響者の状態及び重畳期間または発話間隔の組み合わせのグラフパターンの一例を示す図である。 第3の実施形態による話者状態検出装置の処理部の機能ブロック図である。 第4の実施形態による話者状態検出装置の処理部の機能ブロック図である。
以下、図を参照しつつ、様々な実施形態による話者状態検出装置について説明する。
発明者は、鋭意研究の結果、複数の話者が対話する場合、各話者が発した音声間の重なり度合い、またはその音声間の間隔が、話者の状態に影響されるという知見を得た。
そこで、この話者状態検出装置は、各話者が発した音声が重畳する期間、またはその音声間の間隔を検出し、その重畳期間または間隔に基づいて少なくとも一人の話者の状態を検出する。なお、本明細書において、話者の状態とは、その話者の感情といった精神的な状態と、その話者の疲労感といった肉体的な状態とを含む概念である。
本実施形態において、話者状態検出装置は、電話機に組み込まれ、電話回線を通じて会話する複数の話者のうちの少なくとも一人の話者の状態を検出する。なお、話者状態検出装置は、この例に限られず、例えば、複数の話者が直接あるいは電話回線などの通信回線を通じて会話する会話音声を録音した音声データを読み込んで、その複数の話者のうちの少なくとも一人の話者の状態を検出してもよい。さらにまた、話者状態検出装置は、直接対話する複数の話者の音声をマイクロホンで集音し、各話者の音声を分離して、各話者の音声を解析することにより、少なくとも一人の話者の状態を検出してもよい。
図1は、一つの実施形態による話者状態装置の概略構成図である。本実施形態では、話者状態装置1は、音声入力部2と、通信部3と、記憶部4と、出力部5と、処理部6とを有する。
音声入力部2は、第1の話者が発した音声のデータを取得する。そのために、音声入力部2は、例えば、少なくとも1本のマイクロホン(図示せず)とマイクロホンに接続されたアナログ−デジタル変換器(図示せず)とを有する。この場合、マイクロホンは、マイクロホン周囲にいる一方の話者が発する音声を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器へ出力する。アナログ−デジタル変換器は、アナログ音声信号を所定のサンプリング周期でサンプリングしてデジタル化することにより第1の音声データを生成する。そしてアナログ−デジタル変換器は、第1の音声データをアナログ−デジタル変換器と接続された処理部6へ出力する。
通信部3は、音声入力部の他の一例であり、話者状態検出装置1を電話回線に接続するためのインターフェース回路を有する。そして通信部3は、電話回線を介して、第2の話者が発した音声を電気信号化した第2の音声データを含むデータストリームを受信する。そして通信部3は、そのデータストリームから第2の音声データを抽出する。なお、第2の音声データが所定の通信路符号化方式にて符号化されている場合には、通信部3は、符号化された第2の音声データをその通信路符号化方式に従って復号する。そして通信部3は、第2の音声データを処理部6へ出力する。
なお、第1の音声データと第2の音声データとは、それら音声データに含まれる各話者が声を発したタイミング同士の関係が、実際に各話者が声を発したタイミング同士の関係と一致するように、処理部6により同期化される。
記憶部4は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部4は、処理部6で用いられる各種コンピュータプログラム及び話者状態検出処理に用いられる各種のデータを記憶する。さらに記憶部4は、音声入力部2または通信部3を介して取得された音声データを記憶してもよい。
記憶部4に記憶される、話者状態検出処理に用いられるデータには、例えば、一旦検出された話者の状態を修正する場合に用いられる状態影響モデルが含まれる。状態影響モデルの詳細は後述する。
出力部5は、処理部6から受け取った話者状態の検出結果を表す検出結果情報を、液晶ディスプレイといった表示装置7へ出力する。そのために、出力部5は、例えば、表示装置7を話者状態検出装置1と接続するためのビデオインターフェース回路を有する。
また出力部5は、検出結果情報を、通信ネットワークを介して話者状態装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、この場合、通信部3と出力部5は同一の回路であってもよい。
処理部6は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部6は、音声入力部2から受け取った第1の音声データ及び通信部3から受け取った第2の音声データを一時的に記憶部4に記憶する。そして処理部6は、各話者の音声データに基づいて、少なくとも一方の話者の状態を検出する。そのために、処理部6は、発話間隔検出部11と、状態情報抽出部12と、1次状態検出部13と、状態再判定部14とを有する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、それぞれ、別個の回路として、話者状態検出装置1に実装されてもよい。
発話間隔検出部11は、一方の話者の音声と他方の話者の音声とが重畳している期間、または一方話者の音声と他方の話者の音声間の間隔を検出する。そのために、発話間隔検出部11は、第1の音声データから、音量が所定の音量閾値以上となる区間が連続する有音区間を検出する。そして発話間隔検出部11は、その有音区間が検出される度に、その有音区間を第1の話者の一つの発話区間とする。同様に、発話間隔検出部11は、第2の音声データから、音量が所定の音量閾値以上となる区間が連続する有音区間を検出し、その有音区間を第2の話者の一つの発話区間とする。なお、音量閾値は、例えば、話者状態検出装置1が組み込まれた電話機を介して会話する際に話者が発する声の音量の想定される最小値に設定される。また、発話間隔検出部11は、音量が音量閾値未満となる無音区間でその前後の二つの有音区間が区切られていても、無音区間の長さが所定期間よりも短い場合には、その二つの有音区間を一つの有音区間としてもよい。この場合、所定期間は、例えば、話者の息継ぎに相当する期間、例えば、0.5秒〜1秒程度に設定される。
また、発話間隔検出部11は、音声データ中で人の声に相当する周波数が含まれる周波数帯域のスペクトルのパワーを調べることによって有音区間を検出してもよい。例えば、発話間隔検出部11は、所定のフレーム長(例えば、64ミリ秒)ごとに第1の音声データ及び第2の音声データをフーリエ変換あるいはコサイン変換することで、フレーム単位の各音声データの周波数スペクトルを求める。発話間隔検出部11は、フレームごとに、各音声データの周波数スペクトルのうち、人の声に相当する周波数が含まれる周波数帯域(例えば、約100Hz〜約1kHz)のスペクトルのパワーを算出する。そして発話間隔検出部11は、そのパワーが所定のパワー閾値以上となるフレームが連続する区間を有音区間とする。
発話間隔検出部11は、各話者の発話区間を時系列順に整列できるように、発話区間ごとに、その発話区間の開始時刻と終了時刻とを記憶部4に記憶する。
発話間隔検出部11は、各話者の発話区間を時系列順に比較する。発話間隔検出部11は、一方の話者の注目する発話区間の開始時刻と終了時刻の間に、他方の話者の何れかの発話区間の開始時刻が含まれていれば、発話区間同士が重畳していると判定する。そして発話間隔検出部11は、その重畳している二つの発話区間のうち、時間的に後の発話区間の開始時刻から、何れかの発話区間の終了時刻までを重畳期間とする。
また、一方の話者の注目する発話区間の開始時刻と終了時刻の間に、他方の話者の何れの発話区間の開始時刻も含まれていないこともある。このような場合、発話間隔検出部11は、その注目する発話区間の終了時刻から、その終了時刻後における他方の話者の最初の発話区間の開始時刻までの期間を発話間隔とする。
なお、以下では、便宜上、重畳期間または発話間隔に対応する二つの発話区間のうち、開始時刻が先の発話区間を影響者の発話区間と呼び、開始時刻が後の発話区間を被影響者の発話区間と呼ぶ。
さらに発話間隔検出部11は、重畳期間及び発話間隔の長さに応じて、重畳期間または発話間隔を、被影響者の状態と関連する複数のパターンの何れかに分類する。
図3(a)〜図3(e)は、それぞれ、重畳期間または発話間隔のパターンの一例を表す。図3(a)〜図3(e)において、横軸は時間を表す。また上側に示された発話区間301は影響者の発話区間であり、一方、下側に示された発話区間302は被影響者の発話区間である。
図3(a)に示されたパターンは、影響者の発話区間と被影響者の発話区間が重畳しておらず、かつ、発話間隔が短い、若しくは発話間隔が無いパターンである。便宜上、このようなパターンを'Ds'と表記する。図3(b)に示されたパターンは、影響者の発話区間と被影響者の発話区間が重畳しておらず、かつ、発話間隔が長いパターンである。便宜上、このようなパターンを'Dl'と表記する。また図3(c)に示されたパターンは、影響者の発話区間の一部と被影響者の発話区間の一部が重畳しており、かつ、その重畳期間が短いパターンである。便宜上、このようなパターンを'Ms'と表記する。図3(d)に示されたパターンは、影響者の発話区間の一部と被影響者の発話区間の一部が重畳しており、かつ、その重畳期間が長いパターンである。便宜上、このようなパターンを'Ml'と表記する。そして図3(e)に示されたパターンは、被影響者の発話区間全体が、影響者の発話区間と重畳しており、かつ、被影響者の発話区間、すなわち、重畳期間が影響者の発話区間よりも短いパターンである。便宜上、このような一方の発話区間が他方の発話区間に被覆される重畳期間のパターンを'Mc'と表記する。
なお、発話間隔検出部11は、重畳期間の長さが所定の重畳期間閾値以上であれば、その重畳期間は長いと判定し、一方、重畳期間の長さが所定の重畳期間閾値未満であれば、その重畳期間は短いと判定する。また、発話間隔検出部11は、発話間隔の長さが所定の間隔閾値以上であれば、その発話間隔は長いと判定し、一方、発話間隔の長さが所定の間隔閾値未満であれば、その発話間隔は短いと判定する。ここで、重畳期間閾値は、例えば、2.5秒に設定され、間隔閾値は、例えば、1秒に設定される。
図4は、二人の話者間の会話の一例における重畳期間または発話間隔のパターンを時系列順に並べた模式図である。図4において、横軸は時間を表す。また発話区間401〜403は、それぞれ、話者Aの発話区間であり、発話区間411〜413は、それぞれ、話者Bの発話区間である。なお、話者A、話者Bのうちの何れの音声が音声入力部2により集音されるものであってもよい。そしてパターン421〜425は、それぞれ、一つの重畳期間または発話間隔に対応している。
この例では、発話区間401と発話区間411が重畳しており、その重畳期間は長い。そのため、その重畳期間に対応するパターン421は、"長い重畳期間(Ml)"に分類される。次に、発話区間411と発話区間402が重畳しておらず、その発話間隔は短い。そのため、その発話間隔に対応するパターン422は、"短い発話間隔(Ds)"に分類される。同様に、発話区間402と発話区間412の重畳期間、発話区間402と発話区間413の重畳期間に対応するパターン423、424は、それぞれ、"被覆された重畳期間(Mc)"、"短い重畳期間(Ms)"に分類される。さらに、発話区間413と発話区間403間の発話間隔に対応するパターン425は、"長い発話間隔(Dl)"に分類される。なお、パターン421、423及び424に関しては、話者Aが影響者であり、話者Bが被影響者となる。またパターン422及び425に関しては、話者Bが影響者であり、話者Aが被影響者となる。
発話間隔検出部11は、重畳期間及び発話間隔ごとに、その開始時刻と終了時刻とを、その重畳期間または発話間隔が分類されたパターンを表す識別情報とともに記憶部4に記憶する。
状態情報抽出部12は、少なくとも一方の話者の音声からその話者の状態に関連する状態情報を抽出する。本実施形態では、状態情報抽出部12は、発話区間ごとに、状態情報として音声のパワー、テンポ、抑揚及び所定の周波数成分の時間的な変動度合いの統計量うちの少なくとも一つを状態情報として抽出する。
例えば、状態情報抽出部12は、音声のパワーを求めるために、発話区間に含まれる一方の話者の音声を所定のフレーム長単位でフーリエ変換、コサイン変換といった周波数変換して、その音声の周波数スペクトルを求める。そして状態情報抽出部12は、周波数スペクトルのうち、人の声に相当する周波数帯域のスペクトルの振幅の2乗平均値を求め、さらにフレームごとの2乗平均値を発話区間全体で平均することにより、音声のパワーを求める。
また、状態情報抽出部12は、発話区間内の音声に含まれる音素ごとの区切りを、例えば、音素単位の隠れマルコフモデルを用いて検出し、単位時間当たりに含まれる音素の数をテンポとして検出する。単位時間は、通常の会話において複数の音素が含まれる期間、例えば、数秒〜10秒に設定される。
また、状態情報抽出部12は、発話区間内の音声に含まれる各単語を検出し、単語内または発話区間内の音声の特徴的なパターンを抑揚を表す情報として検出する。そのために、状態情報抽出部12は、例えば、単語辞書またはN-gramを用いて単語を検出する。また状態情報抽出部12は、発話区間内の音声を、例えば、QMFフィルタバンクを用いて時間周波数変換することにより、時刻ごとの周波数スペクトルを求める。そして状態情報抽出部12は、各時刻の周波数スペクトルから、例えば、抑揚との相関性が高い周波数帯域、例えば、800Hz〜1200Hzのスペクトルを抽出する。そして状態情報抽出部12は、抽出されたスペクトルの2乗をその時刻のパワースペクトルとして求める。状態情報抽出部12は、そのパワースペクトルが所定の閾値以上となる時刻、すなわち、抑揚と関連する周波数帯域の音の強さがある程度以上大きい時刻を検出する。この閾値は、例えば、判別分析法を用いて適応的に決定されてもよく、あるいは予め固定的に設定された値でもよい。状態情報抽出部12は、検出された時刻間の間隔を抑揚のパターンを表すパラメータとして求める。そして状態情報抽出部12は、単語ごとに、あるいは発話区間ごとに、そのパラメータの平均値を求めて、その平均値を抑揚を表す情報とする。
また、状態情報抽出部12は、所定の周波数成分の時間的な変動度合いを求めるために、発話区間に含まれる音声のフレーム単位の周波数スペクトルから、人の声の高域成分に相当する周波数帯域のスペクトルを抽出する。高域成分に相当する周波数帯域は、例えば、2kHz〜3kHzとすることができる。
次に、状態情報抽出部12は、抽出した高域成分の単位時間(例えば、1フレーム長)ごとの変動度合いを求める。この変動度合いは、例えば、以下の式に従って算出される。
変動度合い = log(高域成分のパワースペクトルの幾何平均)/log(高域成分のパワースペクトルの算術平均)
あるいは、状態情報抽出部12は、変動度合いを次式に従って算出してもよい。
変動度合い =高域成分のパワースペクトルの幾何平均/高域成分のパワースペクトルの算術平均
状態情報抽出部12は、上記で得られた変動度合いの発話区間内の統計量、例えば、発話区間内に含まれるフレームごとの変動度合いの平均値、中央値、分散あるいは最頻値を求める。
なお、状態情報抽出部12は、上記の状態情報以外の状態情報を発話区間ごとに抽出してもよい。
状態情報抽出部12は、発話区間ごとに得られた状態情報を、対応する発話区間と関連付けて記憶部4に記憶する。
1次状態検出部13は、発話区間ごとの状態情報に基づいて、少なくとも一方の話者の状態を、例えば、その話者の発話区間ごとに検出する。
そのために、1次状態検出部13は、例えば、状態情報の組と発話者の状態(例えば、怒り、喜び、悲しみといった状態)との関係を表す状態データベースを参照することにより、得られた状態情報に対する話者の状態を検出する。このような状態データベースは、予め記憶部4に記憶される。なお、状態データベースは、例えば、予め話者の状態が分かっている複数の音声データのサンプルについて発話区間ごとに状態情報を求めて、状態情報の組ごとに話者の状態の頻度分布を求め、頻度が最も高い状態をその状態情報の組と対応付けることで作成される。そのような音声データのサンプルに関して、話者の状態は、例えば、その音声データの収集時に話者の脈拍、心電計のデータ、話者の顔を撮影した画像といった生体情報を別途取得し、その生体情報に基づいて被測定者の状態を求める様々な技術の何れかに従って求められてもよい。また状態データベースは、話者状態検出装置1以外の装置によって予め作成されてもよい。
さらに、1次状態検出部13は、検出した状態の確からしさを表す確度を求める。本実施形態では、確度は0〜1の範囲内の値であり、値が大きいほど検出した状態は確からしい。ただし、確度が取り得る値の範囲は、0〜10など、任意の範囲に設定可能である。1次状態検出部13は、例えば、状態情報の組を入力とし、検出された状態に対する確度を出力とする関数に、状態情報の組を入力することによって確度を求める。そのような関数は、例えば、予め記憶部4に記憶される。
あるいは、1次状態検出部13は、状態情報の組を入力とし、話者の取り得る状態の確度を出力とする関数に、状態情報の組をそれぞれ入力することにより、取り得る状態の全てについてそれぞれ確度を求めてもよい。そして1次状態検出部13は、最も確度が高い状態を話者の状態として検出する。この場合、1次状態検出部13は、その最も高い確度を検出された状態の確度としてもよい。あるいは、1次状態検出部13は、取り得る状態の全てについて算出された確度の合計で、それぞれの状態の確度を割ることによって得られる正規化された確度を確率分布とみなし、その確率分布のエントロピーの逆数を改めて確度として算出してもよい。
さらにまた、1次状態検出部13は、発話区間中の、話者が声を発した期間の長さを信号とし、話者の声以外の音がする期間の長さをノイズとする信号対ノイズ比を、その発話区間における状態の確度としてもよい。この場合、話者が声を発した期間は、例えば、人の声に相当する周波数帯域のスペクトルのパワーが所定の閾値以上となる期間とすることができる。
さらにまた、1次状態検出部13は、状態情報の組を入力とし、話者の取り得る各状態の条件付き確率を出力する確率モデルに、注目する発話区間から抽出された状態情報の組を入力することによって、話者のそれぞれの状態の条件付き確率を求めてもよい。この場合、1次状態検出部13は、条件付き確率の最高値に対応する状態を注目する発話区間における話者の状態として検出する。また1次状態検出部13は、その最も高い条件付き確率を確度とする。
1次状態検出部13は、確率モデルとして、例えば、ベイジアンネットワークを用いることができる。この場合、ベイジアンネットワークは、話者の状態が分かっている複数の音声データのサンプルに基づいて、話者の各状態の条件付確率を決定するために予め学習される。例えば、1次状態検出部13は、状態情報の何れかが入力される入力ノードと、話者の取り得る状態のそれぞれの条件付き確率を出力する出力ノードとを有する2層のベイジアンネットワークを使用する。この場合、話者の各状態に対応する、サンプルから抽出された状態情報の組の頻度がそれぞれ求められる。そして、状態情報の組と話者の状態の組み合わせごとに、その組み合わせの頻度を、頻度の合計で割ることによって、話者の各状態の条件付き確率が決定される。
また、1次状態検出部13は、音声データから抽出した状態情報に基づいて話者の状態を判定する、他の様々な方法の何れかに従って、発話区間ごとの話者の状態を求めてもよい。
1次状態検出部13は、検出した状態及びその状態に対する確度を状態再判定部14へ出力する。
状態再判定部14は、1次状態検出部13による少なくとも一方の話者の状態の判定結果と、発話間隔検出部11により検出された重畳期間または間隔とに基づいて、その話者の状態を再判定する。なお、1次状態検出部13及び状態再判定部14は、状態検出部の一例である。
図5は、状態再判定部14により実行される話者状態再判定処理の動作フローチャートである。状態再判定部14は、発話区間ごとに、時系列順にこの話者状態再判定処理を実行する。
状態再判定部14は、注目する発話区間に対応する状態の確度を状態の再判定を行うか否かを決めるための再判定閾値以下か否か判定する(ステップS101)。
ここで、再判定閾値は、例えば、以下に説明するように予め決定される。先ず、処理部6は、1次状態検出部13が出力し得る確度の最大値と最小値の差を、例えば100で割ったインクリメント値を最小値に加えて仮の閾値とする。なお、インクリメント値を求めるための、確度の最大値と最小値の差を割る値は、確度の有効桁数に応じて1000または10000としてもよい。そして処理部6は、予め話者の状態が分かっている複数の音声データのサンプルについて、その仮の閾値より確度が小さい発話区間に対する、1次状態検出部13による話者の状態の検出結果の誤り率を求める。処理部6は、仮の閾値にインクリメント値を順次加えることによって仮の閾値を変更しつつ、仮の閾値ごとにその誤り率を求める。そして処理部6は、その誤り率が最大となるときの仮の閾値を再判定閾値とする。なお、再判定閾値を決定するための上記の手順は、話者状態検出装置1以外の装置によって実行されてもよい。
確度が再判定閾値よりも大きければ(ステップS101−No)、状態再判定部14は、その発話区間の状態の再判定を行わず、1次状態検出部13により検出された状態を、その発話区間における話者の状態とする。そして状態再判定部14は話者状態再判定処理を終了する。一方、その確度が再判定閾値以下であれば(ステップS101−Yes)、状態再判定部14は、注目する発話区間を被影響者の発話区間としたときの、その発話区間以前の影響者の発話区間が存在するか否かを判定する(ステップS102)。例えば、状態再判定部14は、記憶4に記憶されている注目する発話区間の開始時刻とその注目する発話区間より前の他方の話者の発話区間の開始時刻などを参照することによりその判定を行うことができる。影響者の発話区間が無ければ(ステップS102−No)、状態再判定部14は、その発話区間の状態の再判定を行わず、1次状態検出部13により検出された状態を、その発話区間における話者の状態とする。そして状態再判定部14は話者状態再判定処理を終了する。
一方、影響者の発話区間が存在すれば(ステップS102−Yes)、状態再判定部14は、その影響者の発話区間と注目する被影響者の発話区間とに対応する重畳期間または発話間隔のパターンの識別情報を記憶部4から読み出す。さらに状態再判定部14は、そのパターンと、影響者の発話区間における影響者の状態との組に対応する状態影響モデルを特定し、その特定した状態影響モデルを記憶部4から読み込む(ステップS103)。
状態影響モデルは、重畳期間または発話間隔のパターンと影響者の発話区間におけるその影響者の状態との組を条件としたときに被影響者の発話区間における話者の取り得る状態ごとの条件付き確率と、個別再判定閾値との組み合わせによって表されるモデルである。状態影響モデルに含まれる条件付き確率pは、例えば、以下の式で表される。
p = p(ca|cb,Pdm)
ここで、caは、注目する発話区間における被影響者の状態を表し、cbは、影響者の発話区間における影響者の状態を表す。またPdm(∈{Dl,Ds,Mc,Ml,Ms})は、重畳期間または発話間隔のパターンである。例えば、caが“侘び”であり、cbが“怒り”であり、PdmがMsであるときに、p=0.6であれば、対話において影響者が怒っているときの発話の後に短く重畳している被影響者の発話が“侘び”である確率が0.6であることが表されている。
また個別再判定閾値は、関連する状態影響モデルを用いて話者の状態を再判定するか否かを判定するための閾値である。
状態再判定部14は、読み込んだ状態影響モデルに含まれる、注目する発話区間についての1次状態検出部13により検出された話者の状態に対応する条件付き確率を求める(ステップS104)。そして状態再判定部14は、その条件付き確率が個別再判定閾値以下か否か判定する(ステップS105)。その条件付き確率がその状態影響モデルの個別再判定閾値より大きい場合には(ステップS105−No)、状態再判定部14は、1次状態検出部13により検出された状態をその発話区間における話者の状態とする。そして状態再判定部14は話者状態再判定処理を終了する。
一方、その条件付き確率がその状態影響モデルの個別再判定閾値以下である場合には(ステップS105−Yes)、状態再判定部14は、影響者の発話区間におけるその影響者の状態と重畳期間または発話間隔のパターンの組み合わせを求める。そして状態再判定部14は、読み込んだ状態影響モデルを参照してその組み合わせを条件とする条件付き確率が最大となる被影響者の状態を求め、その状態を注目する発話区間における話者の状態とする(ステップS106)。そして状態再判定部14は話者状態再判定処理を終了する。
なお、変形例によれば、状態再判定部14は、注目する発話区間における被影響者の話者の状態の確度が再判定閾値以下であれば、ステップS104及びS105の手順を省略し、直接ステップS106の手順を実行してもよい。
図6(a)〜図6(c)を参照しつつ、状態再判定の例について説明する。図6(a)〜図6(c)において、横軸は時間であり、発話区間601は、話者Bによる発話区間であり、かつ、この例における、再判定の対象となる発話区間である。また話者Aによる発話区間602は、発話区間601に影響する影響者の発話区間である。発話区間602における話者Aの状態は"怒り"と判定されている。
この場合において、図6(a)に示されるように、発話区間602について、1次状態検出部13により、話者Bの状態は"侘び"と判定されており、その確度は0.3である。ここで再判定閾値が、その確度よりも大きい値、例えば0.5であれば、話者Bの発話区間601よりも先に開始される話者Aの発話区間602が存在するので、発話区間601の話者の状態は再判定の対象となる。
次に、状態再判定部14は、発話区間601についての状態影響モデルを特定する。この場合、発話区間601に影響する話者Aの発話区間602における話者Aの状態は"怒り"であり、発話区間601は発話区間602に被覆されているので、重畳期間または発話間隔のパターンは"Mc"である。そのため、状態再判定部14は、条件{"怒り",Mc}に対応する状態影響モデルを記憶部4から読み込み、その状態影響モデルに含まれる条件付き確率P("侘び"|"怒り",Mc)を個別再判定閾値と比較する。例えば、条件付き確率Pが0.2で、個別再判定閾値がその条件付き確率よりも大きい値、例えば0.3であれば、状態再判定部14は、{"怒り",Mc}を条件とする、被影響者の取り得る状態についての条件付き確率の中で最大値を求める。例えば、状態影響モデルにおいて、"怒り"とパターン"Mc"の組み合わせを条件として、状態"怯え"、"侘び"、"怒り"、"平静"のそれぞれについての条件付確率が以下のように求められているとする。
P("怯え"|"怒り",Mc)=0.4
P("侘び"|"怒り",Mc)=0.2
P("怒り"|"怒り",Mc)=0.3
P("平静"|"怒り",Mc)=0.1
この場合、状態"怯え"についての条件付き確率が最大となる。そこで、図6(c)に示されるように、状態再判定部14は、発話区間601における話者Bの状態を"侘び"から"怯え"に修正する。
なお、条件付き確率は、例えば以下のように、予め決定される。
予め話者の状態が分かっている、二人の話者が対話している複数の音声データのサンプルについて、発話間隔検出部11による処理と同様の処理を行って、時系列順に各話者の発話区間の重畳期間及び発話間隔のパターンが求められる。そして、影響者の取り得る状態と重畳期間及び発話間隔のパターンの組み合わせごとに、被影響者の取り得るそれぞれの状態の頻度が求められる。そしてその頻度の合計で、被影響者の各状態の頻度を割ることにより、影響者の取り得る状態と重畳期間及び発話間隔のパターンの組み合わせごとの被影響者の各状態の条件付き確率が求められる。
また個別再判定閾値は、例えば以下のように、予め決定される。
予め話者の状態が分かっている、二人の話者が対話している複数の音声データのサンプルについて、状態情報抽出部12及び1次状態検出部13と同様の処理を行うことで発話区間ごとの話者の状態が検出され、発話区間と話者の状態の組のそれぞれが一つのテストデータとなる。ただし、これらのサンプルは、条件付き確率の算出に用いたサンプルとは異なることが好ましい。
そして、0.01刻みで0.01から0.99までの仮の閾値が設定される。仮の閾値ごとに、各テストデータの発話区間の被影響者の状態に対する状態影響モデルに含まれる条件付き確率が、その仮の閾値より低い値となるテストデータが抽出される。抽出されたテストデータのそれぞれについて、そのテストデータにおける、被影響者たる話者の状態を判定する条件と同一の条件を持つ条件付き確率のうちで、その確率が最大となる被影響者の状態が、変更後の話者の状態となる。なお、ここでいう条件は、影響者の状態と重畳期間及び発話間隔のパターンの組み合わせを意味する。そして以下の式にしたがって、再現率及び適合率が算出される。再現率は、話者の状態を変更した発話区間のうち、話者の状態の変更結果が正しい割合を表す。また適合率は、話者の状態を変更すべき発話区間のうち、実際に話者の状態が変更された割合を表す。
Figure 0005708155
なお、テストデータについて元々既知である話者の状態と、変更後の話者の状態とが一致する場合、話者の状態が正しい状態に変更されたとみなされる。また、状態を変更すべき発話区間の数は、状態情報抽出部12及び1次状態検出部13と同様の処理を行うことで検出された話者の状態が誤っている発話区間の数である。
そして上記の各仮の閾値のうち、再現率と適合率の調和平均が最大となる閾値が、個別判定閾値として決定される。また、個別判定閾値は、影響者の状態と重畳期間または発話間隔のパターンの組毎に決定されてもよい。状態影響モデルに含まれる条件付き確率及び個別再判定閾値は、話者状態検出装置1以外の装置によって、上記の手順に従って予め決定されてもよい。
状態再判定部14は、発話区間ごとに、話者の状態の判定結果を、その対応する発話区間の開始時刻及び終了時刻と関連付けて記憶部4に記憶する。また状態再判定部14は、その話者の状態の判定結果を、出力部5を介して表示装置7または他の機器へ出力してもよい。
図7は、話者状態検出装置1の処理部6により実行される話者状態検出処理の動作フローチャートを示す。
処理部6は、音声入力部2及び通信部3を介して各話者の音声データを取得する(ステップS201)。処理部6は、各話者の音声データを同期化し、その音声データを一時的に記憶部4に記憶する。次に、処理部6の発話間隔検出部11は、各話者の音声データのそれぞれについて、発話区間を検出する。そして発話間隔検出部11は、話者間での発話区間同士の重畳期間または発話間隔を時系列順に求め、その重畳期間または発話間隔を複数のパターンのうちの何れかに分類する(ステップS202)。発話間隔検出部11は、各発話区間の開始時刻と終了時刻を記憶部4に記憶する。また発話間隔検出部11は、重畳期間または発話間隔のパターンの開始時刻と終了時刻、及びそのパターンを表す識別情報を記憶部4に記憶する。
また処理部6の状態情報抽出部12は、発話区間ごとに状態情報を抽出する(ステップS203)。そして状態情報抽出部12は、発話区間ごとに得られた状態情報を、対応する発話区間と関連付けて記憶部4に記憶する。処理部6の1次状態検出部13は、発話区間ごとに、対応する状態情報に基づいてその発話区間における、その発話区間で音声を発した話者の状態を検出し、その状態の確度を算出する(ステップS204)。1次状態検出部13は、検出した状態及びその状態に対する確度を処理部6の状態再判定部14へ出力する。
状態再判定部14は、発話区間ごとに、時系列順に状態再判定処理を実行する(ステップS205)。そして状態再判定部14は、発話区間ごとの話者の状態を、対応する発話区間の開始時刻及び終了時刻とともに出力部5を介して表示装置または他の機器へ出力する。また状態再判定部14は、発話区間ごとの話者の状態を、対応する発話区間の開始時刻及び終了時刻と関連付けて記憶部4に記憶する。
その後、処理部6は、話者状態検出処理を終了する。
以上に説明してきたように、この話者状態検出装置は、話者の状態との関連性が有る、一方の話者の発話区間と他方の話者の発話区間との重畳期間または発話間隔を用いて、話者の状態を検出する。そのため、この話者状態検出装置は、話者の状態の検出精度を向上できる。
変形例によれば、話者状態検出装置の音声入力部は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から二人の話者の会話を録音した、デジタル化された音声データを読み込み、その音声データを処理部へ出力してもよい。あるいは、話者状態検出装置は、通信部を介して、他の機器から二人の話者の会話を録音した、デジタル化された音声データを取得してもよい。そして話者状態検出装置は、その音声データに基づいて各話者の発話区間ごとの状態を検出してもよい。
この場合、処理部は、発話区間ごとに話者を識別する。例えば、音声データが、会話をステレオで録音したものである場合、処理部は、発話区間に含まれる信号が左右何れのチャネルの信号かを判定することにより話者を識別できる。そこで、処理部は、注目する発話区間の開始時刻から終了時刻までの信号の平均強度を各チャネルについて求める。そして処理部は、左側のチャネルの平均強度が右側のチャネルの平均強度よりも高い場合、その発話区間の話者を第1の話者とし、一方、右側のチャネルの平均強度が左側のチャネルの平均強度よりも高い場合、その発話区間の話者を第2の話者とする。なお、左側のチャネルの平均強度と右側のチャネルの平均強度が何れも所定の閾値よりも大きい場合、両方の話者が話していると推定される。そこでこの場合、処理部は、その発話区間の話者は第1及び第2の話者の両方とする。なお、所定の閾値は、例えば、誰も話していない場合の音量の最大値に設定される。
また他の変形例によれば、重畳期間閾値及び間隔閾値は、予め話者の状態が分かっている複数の音声データのサンプルに基づいて定められてもよい。例えば、重畳期間閾値及び間隔閾値を0.5秒から5秒の間で0.1秒ずつ変化させつつ、影響者の話者の状態と重畳期間または話者間隔のパターンの組み合わせに対する被影響者の話者の条件付き確率をサンプルデータに基づいて算出する。そしてそれぞれの条件付き確率の分布について、例えばエントロピーが最小となるときの重畳期間閾値及び間隔閾値を、発話間隔検出部11は使用してもよい。
次に、第2の実施形態による話者状態検出装置について説明する。第2の実施形態による話者状態検出装置は、注目する発話区間の一つ前の他者の発話区間だけでなく、それ以前の複数の発話区間における話者の状態、発話区間同士の重畳期間または発話間隔のパターンに基づいて、注目する発話区間における話者の状態を再判定する。さらにこの話者状態検出装置は、話者が3人以上いてもよい。
以下では、第2の実施形態による話者状態検出装置の各要素のうち、第1の実施形態による話者状態検出装置と異なる点について説明する。
第2の実施形態による話者状態検出装置も、図1に示された話者状態検出装置と同様に、音声入力部2と、通信部3と、記憶部4と、出力部5と、処理部6とを有する。ただし、この実施形態では、音声入力部2は、複数の話者が存在する場合に、音声入力部2が集音した音声のデータから話者を識別できるように、異なる位置に配置された複数のマイクロホンを有する。そして各マイクロホンからの音声信号は処理部6へ送られる。またこの実施形態では、通信部3は省略されてもよい。
図8は、第2の実施形態による話者状態検出装置の処理部の機能ブロック図である。処理部6は、発話間隔検出部11と、状態情報抽出部12と、1次状態検出部13と、状態再判定部14と、話者識別部15とを有する。このうち、発話間隔検出部11、状態情報抽出部12、1次状態検出部13及び状態再判定部14における処理は、第1の実施形態による処理部6の対応する構成要素の処理と同様である。そのため、以下では、話者識別部15及び状態再判定部14で使用される状態影響モデルについて説明する。
話者識別部15は、音声入力部2から入力された音声データを、話者ごとに区分する。例えば、音声入力部2が有する各マイクが、それぞれ、複数の話者の何れか一人の近くに設置されている場合には、話者識別部15は、各マイクにより生成された音声データを、そのマイクの最も近くにいる話者の音声データとする。
また、話者識別部15は、各マイクロホンに到達した音の時間差に基づいて音の到来方向を推定することにより、話者を識別してもよい。例えば、3人の話者がいる場合において、話者識別部15は、全てのマイクロホンで集音された音の強度が所定の閾値以上に達した時点で音の到来方向を求める。そして話者識別部15は、音の到来方向が複数のマイクロホンが設置された位置の中点を基準とした所定の第1の角度範囲内に含まれるとき、その時点から、各マイクロホンで集音された音の強度がその閾値未満となるまでの期間の話者を第1の話者とする。一方、その期間についての音の到来方向がその第1の角度範囲から外れ、かつ第2の角度範囲に含まれるとき、話者識別部15は、その期間の話者を第2の話者とする。さらに、期間についての音の到来方向がその第1及び第2の角度範囲から外れるときは、話者識別部15は、その期間の話者を第3の話者とする。
なお、第1及び第2の角度範囲は、各話者の位置と、各マイクロホンの位置関係に応じて予め定められる。
話者識別部15は、話者ごとに、区分された音声データを発話間隔検出部11へ渡す。
状態再判定部14は、3人以上の話者の発話区間が関連する状態影響モデル、あるいは、注目する発話区間よりも前の複数の発話区間が関連する状態影響モデルに基づいて、その注目する発話区間について1次状態検出部により検出された話者の状態を再判定してもよい。
図9(a)は、二人の話者間の会話に含まれる複数の発話区間及び各発話区間の状態と発話区間の重畳期間または発話間隔のパターンの一例を示す。図9(b)は、図9(a)における最後の発話区間に対して適用される状態影響モデルで考慮される影響者の状態及び重畳期間または発話間隔の組み合わせのグラフパターンの一例を示す図である。
図9(a)において、横軸は時間を表す。また発話区間901、902は、それぞれ、話者Aの発話区間であり、発話区間911〜913は、それぞれ、話者Bの発話区間である。発話区間901及び902における話者Aの状態は、それぞれ"怒り"と判定されている。また発話区間911、912における話者Bの状態は、それぞれ、"無関心"、"怯え"と判定されている。これらの各発話区間における話者の状態は、状態再判定部14により判定された結果である。そして最後の発話区間である発話区間913における話者Bの状態は、1次状態検出部13にて"侘び"と判定されている。
この例では、発話区間913が被影響者の発話区間であり、発話区間913の状態の再判定において考慮される全ての発話区間は、話者A、話者Bの何れによる発話区間かにかかわらず、影響者の発話区間となる。そして図9(b)に示されるように、発話区間913に対するグラフパターン920は、各発話区間を表すノードと、時間的に連続する二つの発話区間同士の重畳期間または発話間隔のパターンを表す、その二つの発話区間に相当するノード間を結ぶ矢印とを含む。またこの矢印の根元側のノードに相当する発話区間の開始時刻の方が、矢印の先端側のノードに相当する発話区間の開始時刻よりも早い。例えば、ノード921〜925は、それぞれ、発話区間901、911、902、912及び913に対応する。また矢印931、933は、それぞれ、発話区間901と911間、及び発話区間911と902間の重畳期間または発話間隔のパターンであり、この例では、"短い発話間隔(Ds)"である。また、矢印932、934、937は、それぞれ、発話区間901と902間、発話区間911と912間及び発話区間912と913間の重畳期間または発話間隔のパターンであり、この例では、"同一人物の発話間隔(P)"である。同様に、矢印935は、発話区間902と912間の重畳期間または発話間隔のパターンであり、この例では、"被覆された重畳期間(Mc)"である。そして矢印937は、発話区間902と913間の重畳期間または発話間隔のパターンであり、この例では、"長い発話間隔(Dl)"である。
図10(a)は、3人の話者間の会話に含まれる複数の発話区間及び各発話区間の状態と発話区間の重畳期間または発話間隔のパターンの一例を示す。図10(b)は、図10(a)における最後の発話区間に対して適用される状態影響モデルで考慮される影響者の状態及び重畳期間または発話間隔の組み合わせのグラフパターンの一例を示す図である。
図10(a)において、横軸は時間を表す。また発話区間1001は、話者Aの発話区間であり、発話区間1011及び1012は、話者Bの発話区間である。そして発話区間1021は、話者Cの発話区間である。発話区間1001における話者Aの状態は"怒り"と判定されており、発話区間1011における話者Bの状態、および発話区間1021における話者Cの状態は、それぞれ、"怯え"、"侘び"と判定されている。これらの各発話区間における話者の状態は、状態再判定部14により判定された結果である。そして最後の発話区間である発話区間1012における話者Bの状態は、1次状態検出部13にて"侘び"と判定されている。
この例でも、最後の発話区間1012が被影響者の発話区間であり、発話区間1012の状態の再判定において考慮される全ての発話区間は、話者A〜Cの何れによる発話区間かにかかわらず、影響者の発話区間となる。そして図10(b)に示されるように、発話区間1012に対するグラフパターン1030は、各発話区間を表すノードと、時間的に連続する二つの発話区間同士の重畳期間または発話間隔のパターンを表す、その二つの発話区間に相当するノード間を結ぶ矢印とを含む。例えば、ノード1031〜1034は、それぞれ、発話区間1001、1011、1021及び1012に対応する。また矢印1041〜1043は、それぞれ、発話区間1001と1011間、発話区間1001と1021間及び発話区間1001と1012間の重畳期間または発話間隔のパターンであり、それぞれ、"被覆された重畳期間(Mc)"、"長い重畳期間(Ml)"及び"長い発話間隔(Dl)"である。また矢印1044、1045は、発話区間1011と1021間、発話区間1011と1012間の重畳期間または発話間隔のパターンであり、この例では、"短い発話間隔(Ds)"及び"同一人物の発話間隔(P)"である。そして、矢印1046は、発話区間1021と1012間の重畳期間または発話間隔のパターンであり、この例では、"短い重畳期間(Ms)"である。
グラフパターンを生成する際、状態再判定部14は、状態の再判定処理の対象となる発話区間を被影響者の発話区間とし、その発話区間から開始時刻の逆順に一つずつ遡って予め設定された(n-1)個の発話区間の状態を記憶部4から読み込む。ただし、nはノード数であり、3以上の整数である。また状態再判定部14は、そのノード数分の発話区間に対して、全ての発話区間同士の重畳期間または発話間隔のパターンを記憶部4から読み込む。そして状態再判定部14は、発話区間ごとに一つのノードを設定し、図9(b)または図10(b)のように、連続する二つの発話区間同士の重畳期間または発話間隔のパターンをその二つの発話区間を結ぶ矢印として設定することで、グラフパターンを生成できる。
これらの例に示されるように、グラフパターンを生成する際には、同一の話者の連続する二つの発話区間の関係も、重畳期間または発話間隔のパターンの一例に含めてもよい。あるいは、同一の話者の連続する二つの発話区間の関係は、グラフパターンから除外されてもよい。また、影響者の発話区間として参照される発話区間の数(すなわち、(n-1))の上限は、例えば、処理部6の処理能力に応じて予め決定され、例えば、2〜10程度に設定される。あるいは、被影響者の発話区間よりも前にある、音声データに含まれる会話の区切りのうち、最後の会話の区切り以降、かつ被影響者の発話区間より前の全ての発話区間が影響者の発話区間とされてもよい。なお、状態再判定部14は、例えば、全ての話者の音声データにおける音声信号の強度が所定の閾値未満となる区間が所定期間以上連続するところを会話の区切りとして検出してもよい。この場合、所定期間は、例えば、10秒〜1分に設定される。また所定の閾値は、例えば、想定される背景音の強度の最大値に設定される。
状態再判定部14は、図5に示された状態再判定処理のステップS105において、上記のようなグラフパターンで表される影響者の各発話区間の状態と、重畳期間または発話間隔のパターンとの組を条件とする。そして状態再判定部14は、状態影響モデルを参照して、その条件下において1次状態検出部13により検出された被影響者の状態となる条件付き確率を個別再判定閾値と比較する。そして状態再判定部14は、その条件付き確率が個別際判定閾値未満であれば、状態影響モデルを参照することにより、そのグラフパターンで表された組み合わせを条件とする条件付き確率が最大値となる被影響者の状態を求める。そして状態再判定部14は、被影響者の状態をその最大値に対応する状態に修正する。なお、この実施形態では、条件付き確率Pは、例えば、以下のように表される。
P=P(ca|G)
ここで、caは、注目する発話区間における被影響者の状態を表し、Gは、影響者の各発話区間の状態と、重畳期間または発話間隔のパターンの組み合わせを表すグラフパターンの行列表記である。例えば、図10(b)に示されたグラフパターン1040は、以下のように表記される。
Figure 0005708155
行列Gの左上端の対角要素は、被影響者の発話区間の状態を表す。ただし、被影響者の発話区間の状態は確定していないので、この例では、左上端の対角要素は、未知であることを表す記号'x'で表記される。また行列Gのその他の対角要素は、左上に近い要素ほど、被影響者の発話区間に近い発話区間における影響者の状態を表す。そして、対角要素よりも右上に位置する、i行j列(i<j)の要素は、対角要素iに相当する発話区間と対角要素j(i<j)に相当する発話区間との重畳期間または発話間隔のパターンを表す。一方、対角要素よりも左下側に位置する各要素、及び対応する重畳期間または発話間隔のパターンが存在しない要素は、パターンが存在しないことを表す記号(この例ではφ)で表される。なお、このようにグラフパターンを行列表記する場合には、この行列は上三角行列となる。そのため、状態影響モデルを生成または参照する際、上三角行列で有効な値を持つ要素についてのみ、記憶部4に記憶し、また参照されてもよい。
またこの実施形態においても、状態影響モデルに含まれる、様々なグラフパターンを条件とするときに、話者が特定の状態となる条件付き確率、及び個別再判定閾値は、第1の実施形態による状態影響モデルを決定する手順と同様の手順によって決定される。
ただし、条件付き確率を決定する際には、予め話者の状態が分かっている、二人以上の話者が対話している複数の音声データのサンプルから、様々なグラフパターンごとに、被影響者の取り得るそれぞれの状態の頻度が求められる。そしてその頻度の合計で、被影響者の各状態の頻度を割ることにより、グラフパターンごとの被影響者の各状態の条件付き確率が求められる。
この第2の実施形態による話者状態検出装置は、注目する発話区間の前の複数の発話区間における話者の状態及びそれら複数の発話区間同士の重畳期間または発話間隔を、注目する発話区間の話者の状態の判定に利用できる。このように、話者の状態の判定に有用な情報をより多く利用できるので、第2の実施形態による話者状態検出装置は、話者の状態の検出精度をより向上できる。
次に、第3の実施形態による話者状態検出装置について説明する。第3の実施形態による話者状態検出装置は、発話区間について検出された話者の状態及び関連する重畳期間または発話間隔のパターンなどを学習用のサンプルとして記憶しておき、そのサンプルを利用して状態影響モデルを更新する。
第3の実施形態による話者状態検出装置は、第1の実施形態による話者状態検出装置と比較して、処理部により実行される機能の一部のみが異なる。そこで以下では、処理部について説明する。
図11は、第3の実施形態による話者状態検出装置の処理部の機能ブロック図である。処理部6は、発話間隔検出部11と、状態情報抽出部12と、1次状態検出部13と、状態再判定部14と、学習部16とを有する。このうち、発話間隔検出部11、状態情報抽出部12、1次状態検出部13における処理は、第1の実施形態による処理部6の対応する構成要素の処理と同様である。そのため、以下では、状態再判定部14及び学習部16について説明する。
状態再判定部14は、発話区間ごとの話者の状態を、第1の実施形態による状態再判定部14の処理と同様の処理を行って再判定する。ここで、話者の状態の判定結果が確からしい場合、その判定結果に対応する発話区間に関する情報は、状態影響モデルの精度を向上するのに有用な情報となる。特に、話者状態検出装置が携帯電話に実装される場合のように、少なくとも一方の話者が特定の話者に限定される使用環境では、話者状態検出装置は、状態影響モデルをその特定の話者に関する情報を用いて最適化することで、話者の状態の検出精度を向上できる。そこで状態再判定部14は、検出された話者の状態が確からしい場合、対応する発話区間を被影響者の発話区間とし、直前の他者の発話区間を影響者の発話区間とする。そして状態再判定部14は、各発話区間における話者の状態と、重畳期間及び発話間隔のパターンとの組を学習用サンプルとして記憶部4に追加的に記憶する。
なお、状態再判定部14は、例えば、注目する発話区間について検出された話者の状態の確度が再判定閾値よりも高い場合、その話者の状態は確からしいとする。あるいは、状態再判定部14は、再判定閾値と別個に、学習用サンプルとして保存するか否かを判定するための選択用閾値を用いてもよい。この場合、状態再判定部14は、注目する発話区間について検出された話者の状態の確度が選択用閾値よりも高い場合、その話者の状態は確からしいとする。
選択用閾値は、再判定閾値以上の値を持ち、例えば、以下に説明するように決定される。先ず、処理部6は、1次状態検出部13が出力し得る確度の最大値と最小値の差を、例えば100で割ったインクリメント値を最小値に加えて仮の閾値とする。なお、インクリメント値を求めるための、確度の最大値と最小値の差を割る値は、確度の有効桁数に応じて1000または10000としてもよい。そして処理部6は、予め話者の状態が分かっている複数の音声データのサンプルについて、その仮の閾値より確度が高い発話区間に対する、1次状態検出部13による話者の状態の検出結果の誤り率を求める。処理部6は、仮の閾値にインクリメント値を順次加えることによって仮の閾値を変更しつつ、仮の閾値ごとにその誤り率を求め、その誤り率が最小となるときの仮の閾値を選択用閾値とする。なお、話者状態検出装置以外の装置が、上記の手順に従って予め選択用閾値を決定してもよい。
学習部16は、記憶部4に追加記憶された学習用サンプルの数が所定数増える度に、その学習用サンプルを用いて状態影響モデルを更新する。なお、所定数は、例えば、100〜10000の間の何れかの値に設定される。
学習部16は、例えば、前回の状態影響モデルの更新時以降に追加的に記憶された学習サンプルのみを用いて、影響者の発話区間における影響者の状態と重畳期間または発話間隔のパターンとの組ごとに、被影響者の取り得る各状態について条件付き確率を算出する。その際、学習部16は、第1の実施形態における状態再判定部において説明した状態影響モデルの作成方法と同様の方法に従って、条件付き確率を算出する。そして学習部16は、同一の条件を持つ被影響者の状態についての条件付き確率ごとに、新たに算出された条件付き確率と状態影響モデルに含まれる条件付き確率との平均値を求め、その平均値で状態影響モデルに含まれる条件付き確率の値を更新する。
あるいは、記憶部4に、状態影響モデルを最初に作成する際に用いられた学習用サンプルが予め記憶されていてもよい。学習部16は、予め記憶されている学習用サンプルと、追加的に記憶された学習用サンプルとを用いて、影響者の発話区間における影響者の状態と重畳期間または発話間隔のパターンとの組ごとに、被影響者の取り得る各状態の条件付き確率を算出する。そして学習部16は、算出された条件付き確率で状態影響モデルに含まれる条件付き確率の値を更新してもよい。
この第3の実施形態による話者状態検出装置は、話者の状態の検出結果が確からしいときのその状態に対応する発話区間及びそれ以前の発話区間に関する情報を学習用サンプルとして使用して状態影響モデルを更新する。これにより、この話者状態検出装置は、話者状態検出装置を使用する特定の話者に応じて状態影響モデルを適正化できる。そのため、この話者状態検出装置は、話者の状態の検出精度をより向上できる。
なお、変形例によれば、第2の実施形態による処理部が、第3の実施形態による処理部の学習部の機能を有していてもよい。この場合も、処理部の状態再判定部は、検出された話者の状態が確からしい場合、対応する発話区間を被影響者の発話区間とし、その直前の複数の発話区間を影響者の発話区間とする。そして状態再判定部は、各発話区間における話者の状態と、重畳期間及び発話間隔のパターンとの組を学習用サンプルとして記憶部4に追加的に記憶する。
また学習部は、第3の実施形態による学習部と同様の処理を行って、状態影響モデルを更新すればよい。
次に、第4の実施形態による話者状態検出装置について説明する。第4の実施形態による話者状態検出装置は、発話区間同士の重畳期間または発話間隔のパターンも、発話区間における話者の状態を検出するための一つの特徴量として使用することにより、少なくとも一人の話者の状態を検出する。
第4の実施形態による話者状態検出装置は、第1の実施形態による話者状態検出装置と比較して、処理部により実行される機能の一部のみが異なる。そこで以下では、処理部について説明する。
図12は、第4の実施形態による話者状態検出装置の処理部の機能ブロック図である。処理部6は、発話間隔検出部11と、状態情報抽出部12と、状態検出部17とを有する。このうち、発話間隔検出部11及び状態情報抽出部12における処理は、第1の実施形態による処理部6の対応する構成要素の処理と同様である。そのため、以下では、状態検出部17について説明する。
状態検出部17は、状態情報抽出部12により抽出された状態情報の組と、発話間隔検出部11により検出された発話区間同士の重畳期間または発話間隔のパターンを入力パラメータとし、話者の状態を出力する識別器を使用する。
そして状態検出部17は、注目する発話区間について抽出された状態情報の組と、注目する発話区間とその直前の発話区間の重畳期間または発話間隔のパターンを識別器に入力することによって注目する発話区間における話者の状態を求めることができる。なお、入力パラメータには、影響者の発話区間におけるその影響者の話者の状態がさらに含まれていてもよい。
このような識別器は、例えば、予め記憶部4に記憶される。例えば、識別器として、話者の取り得る状態ごとに、入力パラメータに対してその話者の状態の条件付き確率を出力する確率モデルが用いられる。また確率モデルは、例えば、ベイジアンネットワークとすることができる。この場合、状態検出部17は、注目する発話区間について抽出された状態情報の組と、注目する発話区間とその直前の発話区間の重畳期間または発話間隔のパターンを確率モデルに入力することによって、話者が取り得る各状態の条件付き確率を求める。そして状態検出部17は、得られた条件付き確率が最も高い状態を話者の状態として検出する。この場合、確率モデルは、例えば、第1の実施形態による1次状態検出部で使用可能な確率モデルの学習方法と同様の学習方法に従って予め作成される。
また、状態検出部17は、識別器として、機械学習により作成される他の識別器、例えば、多層パーセプトロンを用いてもよい。この場合、多層パーセプトロンは、予め発話区間ごとの話者の状態が分かっている複数の音声データから得られる入力パラメータと話者の状態の組を学習用サンプルとして、例えば、バックプロパゲーション法により学習される。
なお、この実施形態では、状態検出部17は、確度に基づく話者の状態の再判定を行わないので、検出された状態の確度を求めなくてもよい。
この第4の実施形態による話者状態検出装置は、発話区間同士の重畳期間または発話間隔のパターンを、他の状態情報とともに用いて一度に話者の状態を求めることができ、話者の状態の再判定を行わなくてよい。そのため、この話者状態検出装置は、話者状態の検出に要する演算時間を短縮できる。
さらに、上記の各実施形態による話者状態検出装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得する音声入力部と、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出する発話間隔検出部と、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出する状態情報抽出部と、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する状態検出部と、
を有する話者状態検出装置。
(付記2)
時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶する記憶部をさらに有し、
前記状態情報抽出部は、前記第2の発話区間から前記第2の話者の状態を表す第2の状態情報を抽出し、
前記状態検出部は、前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を抽出し、かつ、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態との組に対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
を有する付記1に記載の話者状態検出装置。
(付記3)
前記状態再判定部は、前記確度が前記再判定閾値以上の値を持つ選択用閾値よりも大きい場合に、当該確度に対応する前記第1の発話区間における前記第1の話者の状態と、前記第2の発話区間における前記第2の話者の状態と、前記重畳期間または前記間隔との組を学習用サンプルとして前記記憶部に記憶し、
前記学習用サンプルを用いて前記状態影響モデルを更新する学習部をさらに有する、付記2に記載の話者状態検出装置。
(付記4)
前記学習部は、前記記憶部に記憶された前記学習用サンプルが所定数に達すると、当該所定数の前記学習用サンプルにおける前記第2の話者の状態と前記重畳期間または前記間隔との組に対する前記第1の話者の取り得る状態ごとの頻度を該頻度の合計で割ることによって該取り得る状態ごとの確率の更新値を求め、前記状態影響モデルに含まれる、前記後の発話区間に音声を発した話者の取り得る状態ごとの確率を、当該状態に対応する前記確率の更新値を用いて更新する、付記3に記載の話者状態検出装置。
(付記5)
少なくとも2以上の音声に含まれるn個の発話区間のうちの時間的に連続する二つの発話区間ごとの重畳期間または間隔と、当該n個の発話区間のうちの最後の発話区間以外の各発話区間に音声を発した話者の状態との組に対して、前記最後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶し、前記nは3以上の整数である記憶部をさらに有し、
前記状態情報抽出部は、前記少なくとも第1の音声及び第2の音声における、前記第2の発話区間を含む、時間的に連続した(n-1)個の発話区間から、それぞれ、当該発話区間に対応する話者の状態を表す第2の状態情報を抽出し、
前記状態検出部は、前記第2の状態情報に基づいて前記(n-1)個の発話区間のそれぞれに対応する話者の状態を抽出し、かつ、
前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記少なくとも第1の音声及び第2の音声における、前記第1及び第2の発話区間を含む、時間的に連続した前記n個の発話区間のうちの時間的に連続する二つの発話区間ごとの重畳期間または間隔と、当該n個の発話区間のうちの前記第1の発話区間以外の各発話区間における話者の状態との組に対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
を有する付記1に記載の話者状態検出装置。
(付記6)
前記状態検出部は、前記重畳期間または前記間隔と前記第1の状態情報の取り得る複数の組み合わせのそれぞれに対する前記第1の発話区間における前記第1の話者の状態を規定する識別器に、前記重畳期間または前記間隔と前記第1の状態情報とを入力することにより前記第1の発話区間における前記第1の話者の状態を検出する、付記1に記載の話者状態検出装置。
(付記7)
前記音声入力部は、前記第1の音声を集音するマイクロホンと、前記第2の音声を通信回線を介して受信する通信部とを有する、付記1〜6の何れか一項に記載の話者状態検出装置。
(付記8)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出し、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する、
ことを含む話者状態検出方法。
(付記9)
少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
前記第1の発話区間から前記第1の話者の状態を表す第1の状態情報を抽出し、
前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する、
ことをコンピュータに実行させる話者状態検出用コンピュータプログラム。
1 話者状態検出装置
2 音声入力部
3 通信部
4 記憶部
5 出力部
6 処理部
7 表示装置
11 発話間隔検出部
12 状態情報抽出部
13 1次状態検出部
14 状態再判定部
15 話者識別部
16 学習部
17 状態検出部

Claims (4)

  1. 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得する音声入力部と、
    時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルを記憶する記憶部と、
    前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出する発話間隔検出部と、
    前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、かつ、前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出する状態情報抽出部と、
    前記重畳期間または前記間隔と前記第1の状態情報とに基づいて前記第1の発話区間における前記第1の話者の状態を検出する状態検出部と、
    を有し、
    前記状態検出部は、前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、かつ、
    前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求める1次状態検出部と、
    前記確度が再判定閾値より高い場合、前記1次状態検出部により検出された前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を前記状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする状態再判定部と、
    を有する話者状態検出装置。
  2. 前記状態再判定部は、前記確度が前記再判定閾値以上の値を持つ選択用閾値よりも大きい場合に、当該確度に対応する前記第1の発話区間における前記第1の話者の状態と、前記第2の発話区間における前記第2の話者の状態と、前記重畳期間または前記間隔との組を学習用サンプルとして前記記憶部に記憶し、
    前記学習用サンプルを用いて前記状態影響モデルを更新する学習部をさらに有する、請求項に記載の話者状態検出装置。
  3. 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
    前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
    前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、
    前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出し、
    前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、
    前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求め、
    前記確度が再判定閾値より高い場合、前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とすることを含み、
    前記状態影響モデルは、時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む
    話者状態検出方法。
  4. 少なくとも第1の話者の発した第1の音声及び第2の話者の発した第2の音声を取得し、
    前記第1の音声に含まれる前記第1の話者の第1の発話区間と、前記第2の音声に含まれ、該第1の発話区間よりも前に開始される前記第2の話者の第2の発話区間との重畳期間、または該第1の発話区間と該第2の発話区間の間隔を検出し、
    前記第1の発話区間から前記第1の話者の状態に応じた値を持つ第1の状態情報を抽出し、
    前記第2の発話区間から前記第2の話者の状態に応じた値を持つ第2の状態情報を抽出し、
    前記第2の状態情報に基づいて前記第2の発話区間における前記第2の話者の状態を検出し、
    前記第1の状態情報に基づいて前記第1の発話区間における前記第1の話者の状態を検出し、かつ、当該状態の確からしさを表す確度を求め、
    前記確度が再判定閾値より高い場合、前記第1の話者の状態を、前記第1の発話区間における前記第1の話者の状態とし、一方、前記確度が前記再判定閾値以下である場合、前記重畳期間または前記間隔と、前記第2の発話区間における前記第2の話者の状態とに対応する前記第1の話者の取り得る複数の状態のそれぞれとなる確率を、時間的に連続する二つの発話区間同士の重畳期間または間隔と、当該二つの発話区間のうちの先の発話区間に音声を発した話者の状態との組に対して、当該二つの発話区間のうちの後の発話区間に音声を発した話者の取り得る複数の状態のそれぞれとなる確率を含む状態影響モデルに従って求め、前記第1の話者の取り得る前記複数の状態のうち、当該確率が最大となる状態を、前記第1の発話区間における前記第1の話者の状態とする、
    ことをコンピュータに実行させる話者状態検出用コンピュータプログラム。
JP2011079902A 2011-03-31 2011-03-31 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム Expired - Fee Related JP5708155B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011079902A JP5708155B2 (ja) 2011-03-31 2011-03-31 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
US13/365,662 US9002704B2 (en) 2011-03-31 2012-02-03 Speaker state detecting apparatus and speaker state detecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011079902A JP5708155B2 (ja) 2011-03-31 2011-03-31 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012215668A JP2012215668A (ja) 2012-11-08
JP5708155B2 true JP5708155B2 (ja) 2015-04-30

Family

ID=46928418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011079902A Expired - Fee Related JP5708155B2 (ja) 2011-03-31 2011-03-31 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム

Country Status (2)

Country Link
US (1) US9002704B2 (ja)
JP (1) JP5708155B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069075A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 不満会話判定装置及び不満会話判定方法
US20150310877A1 (en) * 2012-10-31 2015-10-29 Nec Corporation Conversation analysis device and conversation analysis method
US20150262574A1 (en) * 2012-10-31 2015-09-17 Nec Corporation Expression classification device, expression classification method, dissatisfaction detection device, dissatisfaction detection method, and medium
JP6448171B2 (ja) * 2013-02-25 2019-01-09 東日本高速道路株式会社 車両事故予測(危険走行車両検出)装置
US9875236B2 (en) * 2013-08-07 2018-01-23 Nec Corporation Analysis object determination device and analysis object determination method
US10164921B2 (en) * 2014-03-12 2018-12-25 Stephen Davies System and method for voice networking
US9922667B2 (en) * 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US10529359B2 (en) * 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
JP6552928B2 (ja) * 2015-09-11 2019-07-31 株式会社東芝 気象予測装置、気象予測方法およびプログラム
US11222278B2 (en) * 2016-09-08 2022-01-11 Fujitsu Limited Estimating conditional probabilities
GB201801875D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Audio processing
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
JP7330066B2 (ja) * 2019-03-27 2023-08-21 パナソニックホールディングス株式会社 音声認識装置、音声認識方法及びそのプログラム
US11308966B2 (en) * 2019-03-27 2022-04-19 Panasonic Intellectual Property Corporation Of America Speech input device, speech input method, and recording medium
CN113327620B (zh) * 2020-02-29 2024-10-11 华为技术有限公司 声纹识别的方法和装置
CN111292763B (zh) * 2020-05-11 2020-08-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质
CN111681681A (zh) * 2020-05-22 2020-09-18 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3676969B2 (ja) 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
JP2004259238A (ja) 2003-02-25 2004-09-16 Kazuhiko Tsuda 自然言語解析における感情理解システム
US7999857B2 (en) * 2003-07-25 2011-08-16 Stresscam Operations and Systems Ltd. Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system
JP2006130121A (ja) 2004-11-08 2006-05-25 Univ Nihon 生体情報に基づく感情認識方法
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
KR100735556B1 (ko) * 2005-10-17 2007-07-04 삼성전자주식회사 이벤트 인덱스를 이용한 멀티미디어 제공 방법 및 장치
KR100763236B1 (ko) * 2006-05-09 2007-10-04 삼성전자주식회사 생체 신호를 이용하는 동영상 편집 장치 및 방법
CN101346758B (zh) * 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
US20090043586A1 (en) * 2007-08-08 2009-02-12 Macauslan Joel Detecting a Physiological State Based on Speech
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
JP4972107B2 (ja) * 2009-01-28 2012-07-11 日本電信電話株式会社 通話状態判定装置、通話状態判定方法、プログラム、記録媒体

Also Published As

Publication number Publication date
US20120253807A1 (en) 2012-10-04
US9002704B2 (en) 2015-04-07
JP2012215668A (ja) 2012-11-08

Similar Documents

Publication Publication Date Title
JP5708155B2 (ja) 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
US10540979B2 (en) User interface for secure access to a device using speaker verification
US9536547B2 (en) Speaker change detection device and speaker change detection method
Prasanna et al. Significance of vowel-like regions for speaker verification under degraded conditions
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
US20120232899A1 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
WO2018025025A1 (en) Speaker recognition
JP2013156524A (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN113782032B (zh) 一种声纹识别方法及相关装置
KR101022519B1 (ko) 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
Lee et al. Detecting pathological speech using contour modeling of harmonic-to-noise ratio
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
JP2019053233A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
Bhukya et al. End point detection using speech-specific knowledge for text-dependent speaker verification
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
JP2012155301A (ja) 状況認知型音声認識方法
TWI297487B (en) A method for speech recognition
Kumari et al. Deep convolution neural network based Parkinson’s disease detection using line spectral frequency spectrum of running speech
CN118588064B (zh) 一种非接触式留置谈话虚假音频检测方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5708155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees