[go: up one dir, main page]

JP7143574B2 - 評価プログラム、評価方法および評価装置 - Google Patents

評価プログラム、評価方法および評価装置 Download PDF

Info

Publication number
JP7143574B2
JP7143574B2 JP2017139228A JP2017139228A JP7143574B2 JP 7143574 B2 JP7143574 B2 JP 7143574B2 JP 2017139228 A JP2017139228 A JP 2017139228A JP 2017139228 A JP2017139228 A JP 2017139228A JP 7143574 B2 JP7143574 B2 JP 7143574B2
Authority
JP
Japan
Prior art keywords
signal level
audio signal
evaluation
signal
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017139228A
Other languages
English (en)
Other versions
JP2019020600A (ja
Inventor
太郎 外川
紗友梨 中山
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017139228A priority Critical patent/JP7143574B2/ja
Priority to US16/035,153 priority patent/US10741198B2/en
Priority to EP18183373.2A priority patent/EP3432302B1/en
Publication of JP2019020600A publication Critical patent/JP2019020600A/ja
Application granted granted Critical
Publication of JP7143574B2 publication Critical patent/JP7143574B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、評価プログラム等に関する。
近年、円滑なコミュニケーションを行うことを支援するために、話者間の音声から、会話の印象を評価する従来技術がある。
図14は、従来技術の一例を説明する図である。ここでは一例として、話者Aと話者Bとの会話の印象を評価する場合について説明する。図14に示すように、従来技術の装置10は、発話区間検出部11a,11b、重複時間算出部12、判定部13を有する。
発話区間検出部11aは、話者Aの音声から話者Aの発話区間を検出する処理部である。発話区間検出部11aは、話者Aの発話区間の情報を重複時間算出部12に出力する。
発話区間検出部11bは、話者Bの音声から話者Bの発話区間を検出する処理部である。発話区間検出部11bは、話者Bの発話区間の情報を重複時間算出部12に出力する。
重複時間算出部12は、話者Aの発話区間と、話者Bの発話区間との重複時間を算出する処理部である。図15は、重複時間算出部の処理を説明するための図である。図15に示すように、話者Aの発話区間をTa1からTa2とし、話者Bの発話区間をTb1からTb2とすると、重複時間は、Tb2-Tb1となる。重複時間算出部12は、重複時間の情報を、判定部13に出力する。
判定部13は、重複時間に基づいて、話者A,B間の会話を評価する処理部である。たとえば、判定部13は、重複時間が所定時間以上である場合には、話者Aの発話を話者Bが遮っている、または、話者Bの発話を話者Aが遮っていると評価する。
特開2016-133774号公報 特開2006-209332号公報 特開2011-254342号公報 特開2002-278547号公報 米国特許出願公開第2016/0217791号明細書 米国特許出願公開第2002/0172372号明細書
しかしながら、上述した従来技術では、遮りに関する会話の印象を評価することができないという問題がある。
たとえば、話者Aおよび話者Bが同時に話す場合に、話者Aの音声が大きいほど、話者Bは自分の発話を遮られたという印象を受ける傾向がある。
また、人は長い音声を発話する際に、自身の会話が遮られていると感じると、音声の一部の単語やフレーズなどの重要な区間を特に大きな声で話すことが多い。たとえば、話者Aおよび話者Bが同時に話している間に、話者Aの音声が大きい区間では、話者Aは、自分の発話を遮られたという印象を受ける傾向がある。
上記の遮りに関する会話の印象を、従来技術のように、重複時間と閾値との比較により検出することは難しい。
1つの側面では、本発明は、会話の印象を評価することができる評価プログラム、評価方法および評価装置を提供することを目的とする。
第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出する。コンピュータは、算出した第1の信号レベルと第2の信号レベルとの積算値、または平均値に基づいて、第1の音声信号または第2の音声信号を評価する。
遮りに関する会話の印象を評価することができる。
図1は、本実施例1に係るシステムの一例を示す図である。 図2は、本実施例1に係る評価装置の構成を示す機能ブロック図である。 図3は、本実施例1に係る評価テーブルの一例を示す図である。 図4は、本実施例1に係る評価装置の処理手順を示すフローチャートである。 図5は、本実施例2に係るシステムの一例を示す図である。 図6は、本実施例2に係る評価装置の構成を示す機能ブロック図である。 図7は、本実施例2に係る評価テーブルの一例を示す図である。 図8は、本実施例2に係る評価装置の処理手順を示すフローチャートである。 図9は、本実施例3に係るシステムの一例を示す図である。 図10は、本実施例3に係る評価装置の構成を示す機能ブロック図である。 図11は、自己相関とシフト量との関係を示す図である。 図12は、本実施例3に係る評価装置の処理手順を示すフローチャートである。 図13は、評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図14は、従来技術の一例を説明する図である。 図15は、重複時間算出部の処理を説明するための図である。
以下に、本願の開示する評価プログラム、評価方法および評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1に係るシステムの一例を示す図である。図1に示すように、このシステムは、端末装置50a、端末装置50b、評価装置100を有する。端末装置50a、端末装置50b、評価装置100は相互に接続される。
端末装置50aは、話者Aが話者Bと会話を行う場合に使用する端末装置である。端末装置50aは、スピーカ20aおよびマイク25aに接続される。端末装置50aは、受信部51aと、送信部52aとを有する。
受信部51aは、端末装置50bから、話者Bの音声信号を受信する処理部である。受信部51aは、話者Bの音声信号を、スピーカ20aに出力することで、話者Bの音声を出力させる。
送信部52aは、マイク25aが集音した話者Aの音声信号を取得し、取得した話者Aの音声信号を、端末装置50bに出力する処理部である。
端末装置50bは、話者Bが話者Aと会話を行う場合に使用する端末装置である。端末装置50bは、スピーカ20bおよびマイク25bに接続される。端末装置50bは、受信部51bと、送信部52bとを有する。
受信部51bは、端末装置50aから、話者Aの音声信号を受信する処理部である。受信部51bは、話者Aの音声信号を、スピーカ20bに出力することで、話者Aの音声を出力させる。
送信部52bは、マイク25bが集音した話者Bの音声信号を取得し、取得した話者Bの音声信号を、端末装置50aに出力する処理部である。
以下の説明では、話者Aの音声信号を「第1音声信号」と表記する。話者Bの音声信号を「第2音声信号」と表記する。
評価装置100は、第1音声信号および第2音声信号を取得し、第1音声信号と第2音声信号とを基にして、話者Aおよび話者Bの会話の印象を評価する装置である。
図2は、本実施例1に係る評価装置の構成を示す機能ブロック図である。図2に示すように、この評価装置100は、受付部110a,110b、記憶部120、取得部130a,130b、信号レベル算出部140a,140bを有する。評価装置100は、加算部150、評価部160、表示部170を有する。
受付部110aは、端末装置50aから、第1音声信号を受け付ける処理部である。受付部110aは、第1音声信号を、記憶部120の音声バッファ120aに登録する。
受付部110bは、端末装置50bから、第2音声信号を受け付ける処理部である。受付部110bは、第2音声信号を、記憶部120の音声バッファ120bに登録する。
記憶部120は、音声バッファ120aと音声バッファ120bとを有する。記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
音声バッファ120aは、第1音声信号を保持するバッファである。音声バッファ120bは、第2音声信号を保持するバッファである。
取得部130aは、音声バッファ120aに格納された第1音声信号を取得し、取得した第1音声信号を、信号レベル算出部140aに出力する処理部である。
取得部130bは、音声バッファ120bに格納された第2音声信号を取得し、取得した第2音声信号を、信号レベル算出部140bに出力する処理部である。
信号レベル算出部140aは、第1音声信号のパワーを算出する処理部である。たとえば、信号レベル算出部140aは、第1音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーS(n)を算出する処理部である。信号レベル算出部140aは、パワーS(n)を、加算部150に出力する。
たとえば、信号レベル算出部140aは、式(1)に基づいて、パワーS(n)を算出する。式(1)において、C(t)は、時刻tにおける第1音声信号の値を示す。nは、フレーム番号を示す。Mは、1フレームの時間長を示す。たとえば、1フレームの時間長を、20msとする。
Figure 0007143574000001
なお、信号レベル算出部140aは、所定の平滑化係数を用いて、パワーS(n)を時間平滑化し、時間平滑化したパワーS(n)を、加算部150に出力しても良い。
信号レベル算出部140bは、第2音声信号のパワーを算出する処理部である。たとえば、信号レベル算出部140bは、第2音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーS(n)を算出する処理部である。信号レベル算出部140bは、パワーS(n)を、加算部150に出力する。
たとえば、信号レベル算出部140bは、式(2)に基づいて、パワーS(n)を算出する。式(2)において、C(t)は、時刻tにおける第2音声信号の値を示す。nは、フレーム番号を示す。Mは、1フレームの時間長を示す。たとえば、1フレームの時間長は、20msとなる。
Figure 0007143574000002
なお、信号レベル算出部140bは、所定の平滑化係数を用いて、パワーS(n)を時間平滑化し、時間平滑化したパワーS(n)を、加算部150に出力しても良い。
加算部150は、第1音声信号のパワーS(n)と、第2音声信号のパワーS(n)とを加算する処理部である。たとえば、加算部150は、式(3)に基づいて、フレーム毎の合計値S(n)を算出する。加算部150は、合計値S(n)を、評価部160に出力する。
S(n)=S(n)+S(n)・・・(3)
評価部160は、合計値S(n)が閾値TH1を上回る継続時間を特定し、特定した継続時間に基づいて、第1音声信号または第2音声信号の印象を評価する処理部である。評価部160は、評価結果を、表示部170に出力する。以下において、評価部160の処理の一例について説明する。
評価部160は、合計値S(n)が閾値TH1を上回る開始フレームTsを算出する。たとえば、評価部160は、条件1を満たすフレーム番号nを特定し、特定したフレーム番号nを、開始フレームTsとする。閾値TH1を、20dBとする。
{S(n-1)≦TH1}∧{S(n)>TH1}・・・(条件1)
評価部160は、開始フレームTsを特定した後に、閾値TH1以下となる終了フレームTeを算出する。たとえば、評価部160は、条件2を満たすフレーム番号nを特定し、フレーム番号n-1を、終了フレームTeとする。
{S(n-1)>TH1}∧{S(n)≦TH1}・・・(条件2)
評価部160は、開始フレームTsと終了フレームTeとの差に基づいて、継続時間CLを算出する。たとえば、評価部160は、式(4)に基づいて、継続時間CLを算出する。
継続時間CL=Te-Ts・・・(4)
評価部160は、継続時間CLと、所定閾値との比較により、話者Aの発話の印象を評価する。たとえば、評価部160は、評価テーブルを用いて、話者Aの発話の印象を評価する。なお、評価部160は、第1音声信号および第2音声信号のパワーの比率を算出し、比率に基づいて評価対象の話者を特定することができる。例えば、話者Aに対応する第1音声信号のパワーの比率が高い場合、話者Aに対して発話の印象を評価することができる。
図3は、本実施例1に係る評価テーブルの一例を示す図である。図3に示すように、評価部160は、継続時間の長さ(CL)が「0以上、2秒未満」の場合には、話者Aの発話の印象が「普通」であると評価する。評価部160は、継続時間の長さ(CL)が「2以上、4秒未満」の場合には、話者Aの発話の印象が「やや悪い」であると評価する。評価部160は、継続時間の長さ(CL)が「4秒以上」の場合には、話者Aの発話の印象が「非常に悪い」であると評価する。
図3に示した評価テーブルの継続時間の長さは一例であり、管理者が適宜更新しても良い。また、評価部160は、話者Aと同様にして、話者Bの発話の印象を評価しても良い。
表示部170は、評価部160の評価結果を表示する表示装置である。たとえば、表示部170は、液晶ディスプレイやタッチパネルなどに対応する。
たとえば、上記の受付部110a,110b、取得部130a,130b、信号レベル算出部140a,140b、加算部150、評価部160は、制御部に対応する。制御部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
次に、本実施例1に係る評価装置100の処理手順の一例について説明する。図4は、本実施例1に係る評価装置の処理手順を示すフローチャートである。図4に示すように、評価装置100の受付部110a,110bが、第1音声信号および第2音声信号を、記憶部120の音声バッファ120a,120bに記録する(ステップS101)。
評価装置100の信号レベル算出部140aは、パワーS(n)を算出する(ステップS102)。評価装置100の信号レベル算出部140bは、パワーS(n)を算出する(ステップS103)。
評価装置100の加算部150は、パワーS(n)とパワーS(n)との合計値S(n)を算出する(ステップS104)。評価装置100の評価部160は、合計値S(n)が閾値TH1を上回る継続時間CLを算出する(ステップS105)。
評価部160は、継続時間CLと評価テーブルとを比較し、話者A(あるいは話者B)の会話の印象を評価する(ステップS106)。評価装置100の表示部170は、評価結果を表示する(ステップS107)。
次に、本実施例1に係る評価装置100の効果について説明する。評価装置100は、第1音声信号のパワーS(n)と第2音声信号のパワーS(n)との合計値S(n)が閾値TH1を上回る継続時間CLを特定し、継続時間CLを基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。話者A、話者Bの声の大きさの合計値と、遮りの印象は相関しており、たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、大きさの合計値が閾値TH1を上回る時間が大きい場合には、会話の印象が悪いと言え、評価装置100は、かかる評価をもれなく検出可能である。
ところで、上記の加算部150は、合計値S(n)を2で割ることで平均値S’(n)を算出しても良い。この場合には、評価部160は、平均値S’(n)が閾値TH1’を上回る継続時間を特定し、特定した継続時間に基づいて、第1音声信号または第2音声信号の印象を評価する。
また、評価装置100は、更に下記の処理を実行しても良い。たとえば、話者Aおよび話者Bが同時に話す場合に、話者Aの音声が大きいほど、話者Bは自分の発話を遮られたという印象を受ける傾向がある。このため、評価部160は、継続時間CLと、評価テーブルとを比較して、評価結果が「やや悪い、あるいは、非常に悪い」と判定した場合には、第1音声信号と第2音声信号との大小関係を基にして、話者A、話者Bのいずれの印象が悪いのかを区別しても良い。たとえば、評価部160は、第1音声信号が、第2音声信号よりも大きい場合に、話者Aの印象が悪いと評価する。一方、評価部160は、第2音声信号が、第1音声信号よりも大きい場合に、話者Bの印象が悪いと評価する。
図5は、本実施例2に係るシステムの一例を示す図である。図5に示すように、このシステムは、端末装置50a、端末装置50b、評価装置200を有する。端末装置50a、端末装置50b、評価装置200は相互に接続される。
端末装置50a,50bに関する説明は、実施例1で説明した端末装置50a,50bに関する説明と同様である。
評価装置200は、第1音声信号および第2音声信号を取得し、第1音声信号と第2音声信号とを基にして、話者Aおよび話者Bの会話の印象を評価する装置である。
図6は、本実施例2に係る評価装置の構成を示す機能ブロック図である。図6に示すように、この評価装置200は、受付部210a,210b、記憶部220、取得部230a,230b、信号レベル算出部240a,240bを有する。評価装置200は、加算部250、評価部260、表示部270を有する。
受付部210aは、端末装置50aから、第1音声信号を受け付ける処理部である。受付部210aは、第1音声信号を、記憶部220の音声バッファ220aに登録する。
受付部210bは、端末装置50bから、第2音声信号を受け付ける処理部である。受付部210bは、第2音声信号を、記憶部220の音声バッファ220bに登録する。
記憶部220は、音声バッファ220aと音声バッファ220bとを有する。記憶部220は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声バッファ220aは、第1音声信号を保持するバッファである。音声バッファ220bは、第2音声信号を保持するバッファである。
取得部230aは、音声バッファ220aに格納された第1音声信号を取得し、取得した第1音声信号を、信号レベル算出部240aに出力する処理部である。
取得部230bは、音声バッファ220bに格納された第2音声信号を取得し、取得した第2音声信号を、信号レベル算出部240bに出力する処理部である。
信号レベル算出部240aは、第1音声信号のSNR(Signal to Noise Ratio)を算出する処理部である。以下において、信号レベル算出部240aの処理の一例について説明する。
信号レベル算出部240aは、第1音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーS(n)を算出する。信号レベル算出部240aは、信号レベル算出部140aと同様に、式(1)に基づいて、パワーS(n)を算出する。
信号レベル算出部240aは、パワーS(n)に基づいて、発話区間の有無を判定する。たとえば、信号レベル算出部240aは、条件3を満たす場合に、n番目のフレームは、発話「有」であると判定する。一方、信号レベル算出部240aは、条件3を満たさない場合に、n番目のフレームは、発話「無」であると判定する。
(n)>TH1・・・(条件3)
信号レベル算出部240aは、発話の有無を基にして、雑音レベルN(n)を更新する。具体的に、信号レベル算出部240aは、発話が「有」である場合には、式(5)に基づいて、雑音レベルN(n)を更新する。信号レベル算出部240aは、発話が「無」である場合には、式(6)に基づいて、雑音レベルN(n)を更新する。式(5)において、COFは、パワーの長期平均を算出するための忘却係数である。たとえば、COFを「0.9」とする。この忘却係数により、発話なしフレームのパワーの長期平均値が雑音レベルとして算出される。
(n)=N(n-1)×COF+S(n)×(1-COF)・・・(5)
(n)=N(n-1)・・・(6)
信号レベル算出部240aは、パワーS(n)と、雑音レベルN(n)との差からSNR(n)を算出する。すなわち、信号レベル算出部240aは、式(7)に基づいて、SNR(n)を算出する。信号レベル算出部240aは、SNR(n)を加算部250に出力する。
SNR(n)=S(n)-N(n)・・・(7)
信号レベル算出部240bは、第2音声信号のSNRを算出する処理部である。以下において、信号レベル算出部240bの処理の一例について説明する。
信号レベル算出部240bは、第2音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーS(n)を算出する。信号レベル算出部240bは、信号レベル算出部140bと同様に、式(2)に基づいて、パワーS(n)を算出する。
信号レベル算出部240bは、パワーS(n)に基づいて、発話区間の有無を判定する。たとえば、信号レベル算出部240bは、条件4を満たす場合に、n番目のフレームは、発話「有」であると判定する。一方、信号レベル算出部240bは、条件4を満たさない場合に、n番目のフレームは、発話「無」であると判定する。
(n)>TH1・・・(条件4)
信号レベル算出部240bは、発話の有無を基にして、雑音レベルN(n)を更新する。具体的に、信号レベル算出部240bは、発話が「有」である場合には、式(8)に基づいて、雑音レベルN(n)を更新する。信号レベル算出部240bは、発話が「無」である場合には、式(9)に基づいて、雑音レベルN(n)を更新する。式(8)において、COFは、パワーの長期平均を算出するための忘却係数である。たとえば、COFを「0.9」とする。
(n)=N(n-1)×COF+S(n)×(1-COF)・・・(8)
(n)=N(n-1)・・・(9)
信号レベル算出部240bは、パワーS(n)と、雑音レベルN(n)との差からSNR(n)を算出する。すなわち、信号レベル算出部240bは、式(10)に基づいて、SNR(n)を算出する。信号レベル算出部240bは、SNR(n)を加算部250に出力する。
SNR(n)=S(n)-N(n)・・・(10)
加算部250は、SNR(n)とSNR(n)とを加算する処理部である。たとえば、加算部250は、式(11)に基づいて、SNR(n)とSNR(n)との合計値SNR(n)を算出する。加算部250は、合計値SNR(n)を、評価部260に出力する。
SNR(n)=SNR(n)+SNR(n)・・・(11)
評価部260は、合計値SNR(n)が、閾値TH2を上回る頻度を算出し、頻度を基にして、第1音声信号または第2音声信号の印象を評価する処理部である。評価部260は、評価結果を、表示部270に出力する。以下において、評価部260の処理の一例について説明する。
評価部260は、式(12)に基づいて、頻度R(i)を算出する。式(12)において、iは、単位時間の通し番号に対応する。Lは単位時間のフレーム長に対応する。たとえば、単位時間のフレーム長を、10秒とする。
Figure 0007143574000003
なお、評価部260は、式(12)の代わりに、式(13)を用いて、頻度R(i)を算出しても良い。たとえば、i番目の単位時間Lの全フレーム数を500とする。
R(i)=i番目の単位時間Lにおいて、合計値SNR(n)が閾値TH2を上回るフレームの数/i番目の単位時間Lの全フレーム数・・・(13)
評価部260は、頻度R(i)と、所定閾値との比較により、話者Aの発話の印象を評価する。たとえば、評価部260は、評価テーブルを用いて、話者Aの発話の印象を評価する。
図7は、本実施例2に係る評価テーブルの一例を示す図である。図7に示すように、評価部260は、頻度R(i)が「X1以上、かつ、X2未満」の場合には、話者Aの発話の印象が「普通」であると評価する。評価部260は、頻度R(i)が「X2以上、かつ、X3未満」の場合には、話者Aの発話の印象が「やや悪い」であると評価する。評価部260は、頻度R(i)が「X3以上」の場合には、話者Aの発話の印象が「非常に悪い」であると評価する。たとえば、図7において、X1、X2、X3の大小関係を、X1<X2<X3とする。
評価部260は、話者Aと同様にして、話者Bの発話の印象を評価しても良い。
ところで、評価部260は、合計値SNR(n)が閾値TH2を上回る継続時間が、所定閾値(たとえば、1秒)を下回る区間を予め除外した上で、上記の頻度R(i)を算出しても良い。閾値TH2を上回る継続時間が、所定閾値(たとえば、1秒)を下回る区間は、「はい」、「ええ」のような相槌などの短い発話によるものであるため、かかる区間の発話を除外することで、印象評価の精度を向上させることができる。
表示部270は、評価部260の評価結果を表示する表示装置である。たとえば、表示部270は、液晶ディスプレイやタッチパネルなどに対応する。
たとえば、上記の受付部210a,210b、取得部230a,230b、信号レベル算出部240a,240b、加算部250、評価部260は、制御部に対応する。制御部は、CPUやMPUなどによって実現できる。また、制御部は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
次に、本実施例2に係る評価装置200の処理手順の一例について説明する。図8は、本実施例2に係る評価装置の処理手順を示すフローチャートである。図8に示すように、評価装置200の受付部210a,210bが、第1音声信号および第2音声信号を、記憶部220の音声バッファ220a,220bに記録する(ステップS201)。
評価装置200の信号レベル算出部240aは、SNR(n)を算出する(ステップS202)。評価装置200の信号レベル算出部240bは、SNR(n)を算出する(ステップS203)。
評価装置200の加算部250は、SNR(n)とSNR(n)との合計値SNR(n)を算出する(ステップS204)。評価装置200の評価部260は、合計値SNR(n)が閾値TH2を上回る頻度R(i)を算出する(ステップS205)。
評価部260は、頻度R(i)と評価テーブルとを比較し、話者A(あるいは話者B)の会話の印象を評価する(ステップS206)。評価装置200の表示部270は、評価結果を表示する(ステップS207)。
次に、本実施例2に係る評価装置200の効果について説明する。評価装置200は、第1音声信号のSNR(n)と第2音声信号のSNR(n)との合計値SNR(n)が閾値TH2を上回る頻度R(i)を特定し、頻度R(i)を基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、合計値SNR(n)が閾値TH2を上回る頻度が大きい場合には、会話の印象が悪いと言え、評価装置200は、かかる評価をもれなく検出可能である。
ところで、上記の加算部250は、合計値SNR(n)を2で割ることで平均値SNR’(n)を算出しても良い。この場合には、評価部260は、平均値SNR’(n)が閾値TH2’を上回る頻度を特定し、特定した頻度に基づいて、第1音声信号または第2音声信号の印象を評価する。
また、評価部260は、発話区間の先頭の所定期間および末尾の所定期間を除いて、頻度を算出しても良い。たとえば、評価部260は、発話区間の開始時刻から所定時間後の第1時刻と、発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、合計値SNR(n)または平均値SNR’(n)が所定閾値を上回る頻度を特定する。
図9は、本実施例3に係るシステムの一例を示す図である。図9に示すように、このシステムは、端末装置50a、端末装置50b、評価装置300を有する。端末装置50a、端末装置50b、評価装置300は相互に接続される。本実施例3では一例として、話者Aをオペレータとし、話者Bを顧客とする。
端末装置50a,50bに関する説明は、実施例1で説明した端末装置50a,50bに関する説明と同様である。
評価装置300は、第1音声信号および第2音声信号を取得し、第1音声信号と第2音声信号とを基にして、話者Aおよび話者Bの会話の印象を評価する装置である。
図10は、本実施例3に係る評価装置の構成を示す機能ブロック図である。図10に示すように、この評価装置300は、受付部310a,310b、記憶部320、取得部330a,330b、信号レベル算出部340a,340bを有する。評価装置300は、加算部350、評価部360、表示部370を有する。
受付部310aは、端末装置50aから、第1音声信号を受け付ける処理部である。受付部310aは、第1音声信号を、記憶部320の音声バッファ320aに登録する。
受付部310bは、端末装置50bから、第2音声信号を受け付ける処理部である。受付部310bは、第2音声信号を、記憶部320の音声バッファ320bに登録する。
記憶部320は、音声バッファ320aと音声バッファ320bとを有する。記憶部320は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声バッファ320aは、第1音声信号を保持するバッファである。音声バッファ320bは、第2音声信号を保持するバッファである。
取得部330aは、音声バッファ320aに格納された第1音声信号を取得し、取得した第1音声信号を、信号レベル算出部340aに出力する処理部である。
取得部330bは、音声バッファ320bに格納された第2音声信号を取得し、取得した第2音声信号を、信号レベル算出部340bに出力する処理部である。
信号レベル算出部340aは、第1音声信号の自己相関の値を算出する処理部である。たとえば、信号レベル算出部340aは、第1音声信号の自己相関を算出し、所定範囲のシフト量における最大の自己相関値AC(n)を算出する。信号レベル算出部340aは、式(14)に基づいて、自己相関値AC(n)を算出する。式(14)のC(t)は、時刻tにおける第1音声信号の値を示す。jは、シフト量に対応する。
Figure 0007143574000004
図11は、自己相関とシフト量との関係を示す図である。図11の縦軸は自己相関の値に対応する軸であり、横軸はシフト量に対応する軸である。図11に示す例では、シフト量がjαとなる場合に、自己相関は最大値(自己相関値AC(n))となる。信号レベル算出部340aは、自己相関値AC(n)を、加算部350に出力する。
信号レベル算出部340bは、第2音声信号の自己相関の値を算出する処理部である。たとえば、信号レベル算出部340bは、第2音声信号の自己相関を算出し、所定範囲のシフト量における最大の自己相関値AC(n)を算出する。信号レベル算出部340bは、式(15)に基づいて、自己相関値AC(n)を算出する。式(15)のC(t)は、時刻tにおける第2音声信号の値を示す。jは、シフト量に対応する。
Figure 0007143574000005
信号レベル算出部340bは、自己相関値AC(n)を、加算部350に出力する。
加算部350は、自己相関値AC(n)および自己相関値AC(n)についてそれぞれ重み付けを行った後に、自己相関値AC(n)と自己相関値AC(n)とを加算する処理部である。たとえば、加算部350は、式(16)に基づいて、合計値AC(n)を算出する。加算部350は、合計値AC(n)を、評価部360に出力する。
AC(n)=k×AC(n)+k×AC(n)・・・(16)
式(16)において、kおよびkは重み係数である。たとえば、k=1.5、k=0.5とする。
評価部360は、合計値AC(n)が、閾値TH3を上回る頻度を算出し、頻度を基にして、第1音声信号または第2音声信号の印象を評価する処理部である。評価部360は、評価結果を、表示部370に出力する。以下において、評価部360の処理の一例について説明する。
評価部360は、式(17)に基づいて、頻度R(i)を算出する。式(17)において、iは、単位時間の通し番号に対応する。Lは単位時間のフレーム長に対応する。たとえば、単位時間のフレーム長を、10秒とする。
Figure 0007143574000006
なお、評価部360は、式(17)の代わりに、式(18)を用いて、頻度R(i)を算出しても良い。たとえば、i番目の単位時間Lの全フレーム数を500とする。
R(i)=i番目の単位時間Lにおいて、合計値AC(n)が閾値TH3を上回るフレームの数/i番目の単位時間Lの全フレーム数・・・(18)
評価部360は、頻度R(i)と、所定閾値との比較により、話者Aの発話の印象を評価する。たとえば、評価部360は、評価テーブルを用いて、話者Aの発話の印象を評価する。たとえば、評価テーブルは、図7で説明した評価テーブルに対応する。
評価部260は、話者Aと同様にして、話者Bの発話の印象を評価しても良い。
ところで、評価部360は、合計値AC(n)が閾値TH3を上回る継続時間が、所定閾値(たとえば、1秒)を下回る区間を予め除外した上で、上記の頻度R(i)を算出しても良い。閾値TH3を上回る継続時間が、所定閾値(たとえば、1秒)を下回る区間は、「はい」、「ええ」のような相槌などの短い発話によるものであるため、かかる区間の発話を除外することで、印象評価の精度を向上させることができる。
表示部370は、評価部360の評価結果を表示する表示装置である。たとえば、表示部370は、液晶ディスプレイやタッチパネルなどに対応する。
たとえば、上記の受付部310a,310b、取得部330a,330b、信号レベル算出部340a,340b、加算部350、評価部360は、制御部に対応する。制御部は、CPUやMPUなどによって実現できる。また、制御部は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
次に、本実施例3に係る評価装置300の処理手順の一例について説明する。図12は、本実施例3に係る評価装置の処理手順を示すフローチャートである。図12に示すように、評価装置300の受付部310a,310bが、第1音声信号および第2音声信号を、記憶部320の音声バッファ320a,320bに記録する(ステップS301)。
評価装置300の信号レベル算出部340aは、AC(n)を算出する(ステップS302)。評価装置300の信号レベル算出部340bは、AC(n)を算出する(ステップS303)。
評価装置300の加算部350は、AC(n)に重みkを乗算する(ステップS304)。加算部350は、AC(n)に重みkを乗算する(ステップS305)。加算部350は、合計値AC(n)を算出する(ステップS306)。
評価装置300の評価部360は、合計値AC(n)が閾値TH3を上回る頻度R(i)を算出する(ステップS307)。
評価部360は、頻度R(i)と評価テーブルとを比較し、話者A(あるいは話者B)の会話の印象を評価する(ステップS308)。評価装置300の表示部370は、評価結果を表示する(ステップS309)。
次に、本実施例3に係る評価装置300の効果について説明する。評価装置300は、第1音声信号のAC(n)と第2音声信号のAC(n)との合計値AC(n)が閾値TH3を上回る頻度R(i)を特定し、頻度R(i)を基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、合計値AC(n)が閾値TH3を上回る頻度が大きい場合には、会話の印象が悪いと言え、評価装置300は、かかる評価をもれなく検出可能である。
また、話者A(オペレータ)の第1音声信号に対する自己相関値AC(n)の重みkを、話者B(顧客)の第2音声信号に対する自己相関値AC(n)の重みkよりも大きくすることで、次の様になる。すなわち、顧客がオペレータの音声を遮る影響よりも、オペレータが顧客の音声を遮る影響を重視した印象評価を行うことができ、オペレータの応対教育に効果的に活用することが期待できる。
なお、上記の加算部350は、合計値AC(n)を2で割ることで平均値AC’(n)を算出しても良い。この場合には、評価部360は、平均値AC’(n)が閾値TH3’を上回る頻度を特定し、特定した頻度に基づいて、第1音声信号または第2音声信号の印象を評価する。
次に、上記実施例に示した評価装置100(200,300)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図13は、評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図13に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る読み取り装置404と、外部装置との間でデータの授受を行うインターフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。
ハードディスク装置407は、信号レベル算出プログラム407a、加算プログラム407b、評価プログラム407cを有する。CPU401は、信号レベル算出プログラム407a、加算プログラム407b、評価プログラム407cを読み出してRAM406に展開する。
信号レベル算出プログラム407aは、信号レベル算出プロセス406aとして機能する。加算プログラム407bは、加算プロセス406bとして機能する。評価プログラム407cは、評価プロセス406cとして機能する。
信号レベル算出プロセス406aの処理は、信号レベル算出部140a,140b(240a,240b、340a,340b)の処理に対応する。加算プロセス406bの処理は、加算部150(250,350)の処理に対応する。評価プロセス406cの処理は、評価部160(260,360)の処理に対応する。
なお、各プログラム407a~407cについては、必ずしも最初からハードディスク装置407に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム407a~407cを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行させることを特徴とする評価プログラム。
(付記2)前記第1の信号レベルと前記第2の信号レベルとの比率を算出する処理を更に実行させ、前記評価する処理は、前記比率に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記1に記載の評価プログラム。
(付記3)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記1または2に記載の評価プログラム。
(付記4)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記2に記載の評価プログラム。
(付記5)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記4に記載の評価プログラム。
(付記6)前記評価する処理は、発話区間の開始時刻から所定時間後の第1時刻と、前記発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記4または5に記載の評価プログラム。
(付記7)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号のパワーを、前記第1の信号レベルとして算出し、前記第2の音声信号のパワーを、前記第2の信号レベルとして算出することを特徴とする付記1~6のいずれか一つに記載の評価プログラム。
(付記8)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の信号対雑音比を、前記第1の信号レベルとして算出し、前記第2の音声信号の信号対雑音比を、前記第2の信号レベルとして算出することを特徴とする付記1~6のいずれか一つに記載の評価プログラム。
(付記9)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の自己相関の値を、前記第1の信号レベルとして算出し、前記第2の音声信号の自己相関の値を、前記第2の信号レベルとして算出することを特徴とする付記1~6のいずれか一つに記載の評価プログラム。
(付記10)前記積算値または前記平均値を算出する処理は、前記第1の信号レベルに第1係数を乗算し、前記第2の信号レベルに前記第1係数とは異なる第2係数を乗算した後に、前記第1の信号レベルと前記第2の信号レベルとの積算値または平均値を算出することを特徴とする付記1~9のいずれか一つに記載の評価プログラム。
(付記11)コンピュータが実行する評価方法であって、
第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行することを特徴とする評価方法。
(付記12)前記第1の信号レベルと前記第2の信号レベルとの比率を算出する処理を更に実行し、前記評価する処理は、前記比率に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記11に記載の評価方法。
(付記13)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第1の音声信号または前記第2の音声信号を評価することを特徴とする付記11または12に記載の評価方法。
(付記14)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記11または12に記載の評価方法。
(付記15)前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記14に記載の評価方法。
(付記16)前記評価する処理は、発話区間の開始時刻から所定時間後の第1時刻と、前記発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記14に記載の評価方法。
(付記17)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号のパワーを、前記第1の信号レベルとして算出し、前記第2の音声信号のパワーを、前記第2の信号レベルとして算出することを特徴とする付記11~16のいずれか一つに記載の評価方法。
(付記18)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の信号対雑音比を、前記第1の信号レベルとして算出し、前記第2の音声信号の信号対雑音比を、前記第2の信号レベルとして算出することを特徴とする付記11~16のいずれか一つに記載の評価方法。
(付記19)前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の自己相関の値を、前記第1の信号レベルとして算出し、前記第2の音声信号の自己相関の値を、前記第2の信号レベルとして算出することを特徴とする付記11~16のいずれか一つに記載の評価方法。
(付記20)前記積算値または前記平均値を算出する処理は、前記第1の信号レベルに第1係数を乗算し、前記第2の信号レベルに前記第1係数とは異なる第2係数を乗算した後に、前記第1の信号レベルと前記第2の信号レベルとの積算値または平均値を算出することを特徴とする付記11~19のいずれか一つに記載の評価方法。
(付記21)第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出する信号レベル算出部と、
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する評価部と
を有することを特徴とする評価装置。
(付記22)前記第1の信号レベルと前記第2の信号レベルとの比率を算出する加算部を更に有し、前記評価部は、前記比率に基づいて、前記第1の音声信号または前記第2の音声信号を評価することを特徴とする付記21に記載の評価装置。
(付記23)前記評価部は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記21または22に記載の評価装置。
(付記24)前記評価部は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする付記21または22に記載の評価装置。
(付記25)前記評価部は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記24に記載の評価装置。
(付記26)前記評価部は、発話区間の開始時刻から所定時間後の第1時刻と、前記発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記24に記載の評価装置。
(付記27)前記信号レベル算出部は、前記第1の音声信号のパワーを、前記第1の信号レベルとして算出し、前記第2の音声信号のパワーを、前記第2の信号レベルとして算出することを特徴とする付記21~26のいずれか一つに記載の評価装置。
(付記28)前記信号レベル算出部は、前記第1の音声信号の信号対雑音比を、前記第1の信号レベルとして算出し、前記第2の音声信号の信号対雑音比を、前記第2の信号レベルとして算出することを特徴とする付記21~26のいずれか一つに記載の評価装置。
(付記29)前記信号レベル算出部は、前記第1の音声信号の自己相関の値を、前記第1の信号レベルとして算出し、前記第2の音声信号の自己相関の値を、前記第2の信号レベルとして算出することを特徴とする付記21~26のいずれか一つに記載の評価装置。
(付記30)前記加算部は、前記第1の信号レベルに第1係数を乗算し、前記第2の信号レベルに前記第1係数とは異なる第2係数を乗算した後に、前記第1の信号レベルと前記第2の信号レベルとの合計値または平均値を算出することを特徴とする付記21~29のいずれか一つに記載の評価装置。
50a,50b 端末装置
100,200,300 評価装置

Claims (11)

  1. 第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
    前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、
    前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、
    算出された前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する
    処理を実行させることを特徴とする評価プログラム。
  2. 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする請求項1に記載の評価プログラム。
  3. 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする請求項1に記載の評価プログラム。
  4. 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項3に記載の評価プログラム。
  5. 前記評価する処理は、発話区間の開始時刻から所定時間後の第1時刻と、前記発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項3または4に記載の評価プログラム。
  6. 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号のパワーを、前記第1の信号レベルとして算出し、前記第2の音声信号のパワーを、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
  7. 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の信号対雑音比を、前記第1の信号レベルとして算出し、前記第2の音声信号の信号対雑音比を、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
  8. 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の自己相関の値を、前記第1の信号レベルとして算出し、前記第2の音声信号の自己相関の値を、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
  9. 前記合計値または前記平均値を算出する処理は、前記第1の信号レベルに第1係数を乗算し、前記第2の信号レベルに前記第1係数とは異なる第2係数を乗算した後に、前記第1の信号レベルと前記第2の信号レベルとの合計値または平均値を算出することを特徴とする請求項1~8のいずれか一つに記載の評価プログラム。
  10. コンピュータが実行する評価方法であって、
    第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
    前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、
    前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、
    算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する
    処理を実行することを特徴とする評価方法。
  11. 第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出する信号レベル算出部と、
    前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する評価部と
    を有することを特徴とする評価装置。
JP2017139228A 2017-07-18 2017-07-18 評価プログラム、評価方法および評価装置 Active JP7143574B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017139228A JP7143574B2 (ja) 2017-07-18 2017-07-18 評価プログラム、評価方法および評価装置
US16/035,153 US10741198B2 (en) 2017-07-18 2018-07-13 Information processing apparatus, method and non-transitory computer-readable storage medium
EP18183373.2A EP3432302B1 (en) 2017-07-18 2018-07-13 Information processing apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017139228A JP7143574B2 (ja) 2017-07-18 2017-07-18 評価プログラム、評価方法および評価装置

Publications (2)

Publication Number Publication Date
JP2019020600A JP2019020600A (ja) 2019-02-07
JP7143574B2 true JP7143574B2 (ja) 2022-09-29

Family

ID=63103750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017139228A Active JP7143574B2 (ja) 2017-07-18 2017-07-18 評価プログラム、評価方法および評価装置

Country Status (3)

Country Link
US (1) US10741198B2 (ja)
EP (1) EP3432302B1 (ja)
JP (1) JP7143574B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095975A1 (fr) 2001-05-22 2002-11-28 Mitsubishi Denki Kabushiki Kaisha Appareil de traitement d'echos
JP2009124634A (ja) 2007-11-19 2009-06-04 Nippon Telegr & Teleph Corp <Ntt> 客観品質評価装置および方法
JP2010259691A (ja) 2009-05-11 2010-11-18 Panasonic Corp ストレス測定装置
US8897437B1 (en) 2013-01-08 2014-11-25 Prosodica, LLC Method and system for improving call-participant behavior through game mechanics
JP2016133774A (ja) 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US20160232920A1 (en) 2013-09-27 2016-08-11 Nuance Communications, Inc. Methods and Apparatus for Robust Speaker Activity Detection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317567A (en) * 1991-09-12 1994-05-31 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
US5737405A (en) * 1995-07-25 1998-04-07 Rockwell International Corporation Apparatus and method for detecting conversation interruptions in a telephonic switch
JP4027051B2 (ja) 2001-03-22 2007-12-26 松下電器産業株式会社 楽曲登録装置、楽曲登録方法、及びそのプログラムと記録媒体
US7373209B2 (en) 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same
US6833810B2 (en) * 2002-01-18 2004-12-21 Raytheon Company Combining signals exhibiting multiple types of diversity
JP4541911B2 (ja) 2005-01-26 2010-09-08 日本電信電話株式会社 価値観推定装置およびそのプログラム
US7596498B2 (en) 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
US7881234B2 (en) * 2006-10-19 2011-02-01 International Business Machines Corporation Detecting interruptions in audio conversations and conferences, and using a conversation marker indicative of the interrupted conversation
JP2011254342A (ja) 2010-06-03 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> 映像編集方法,映像編集装置および映像編集プログラム
US9865281B2 (en) * 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095975A1 (fr) 2001-05-22 2002-11-28 Mitsubishi Denki Kabushiki Kaisha Appareil de traitement d'echos
JP2009124634A (ja) 2007-11-19 2009-06-04 Nippon Telegr & Teleph Corp <Ntt> 客観品質評価装置および方法
JP2010259691A (ja) 2009-05-11 2010-11-18 Panasonic Corp ストレス測定装置
US8897437B1 (en) 2013-01-08 2014-11-25 Prosodica, LLC Method and system for improving call-participant behavior through game mechanics
US20160232920A1 (en) 2013-09-27 2016-08-11 Nuance Communications, Inc. Methods and Apparatus for Robust Speaker Activity Detection
JP2016133774A (ja) 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kofi BOAKYE, et al.,OVERLAPPED SPEECH DETECTION FOR IMPROVED SPEAKER DIARIZATION IN MULTIPARTY MEETINGS,ICASSP 2008,IEEE,2008年03月,p.4353-4356

Also Published As

Publication number Publication date
US10741198B2 (en) 2020-08-11
US20190027165A1 (en) 2019-01-24
JP2019020600A (ja) 2019-02-07
EP3432302A1 (en) 2019-01-23
EP3432302B1 (en) 2021-10-20

Similar Documents

Publication Publication Date Title
US20220093111A1 (en) Analysing speech signals
US10867620B2 (en) Sibilance detection and mitigation
JP6636937B2 (ja) 状況に応じた過渡抑制
CN105118522B (zh) 噪声检测方法及装置
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US9754606B2 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
CN105825869B (zh) 语音处理装置和语音处理方法
CN107274892A (zh) 说话人识别方法及装置
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP7143574B2 (ja) 評価プログラム、評価方法および評価装置
Tian et al. Spoofing detection under noisy conditions: a preliminary investigation and an initial database
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP2008131593A (ja) ダブルトーク状態判定方法、その方法を用いた反響消去装置、そのプログラム及びその記録媒体
JP2018081277A (ja) 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
EP3261089B1 (en) Sibilance detection and mitigation
JP6904198B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7143574

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150