JP7143574B2

JP7143574B2 - 評価プログラム、評価方法および評価装置

Info

Publication number: JP7143574B2
Application number: JP2017139228A
Authority: JP
Inventors: 太郎外川; 紗友梨中山; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2022-09-29
Anticipated expiration: 2037-07-18
Also published as: US10741198B2; US20190027165A1; JP2019020600A; EP3432302A1; EP3432302B1

Description

本発明は、評価プログラム等に関する。

近年、円滑なコミュニケーションを行うことを支援するために、話者間の音声から、会話の印象を評価する従来技術がある。

図１４は、従来技術の一例を説明する図である。ここでは一例として、話者Ａと話者Ｂとの会話の印象を評価する場合について説明する。図１４に示すように、従来技術の装置１０は、発話区間検出部１１ａ，１１ｂ、重複時間算出部１２、判定部１３を有する。

発話区間検出部１１ａは、話者Ａの音声から話者Ａの発話区間を検出する処理部である。発話区間検出部１１ａは、話者Ａの発話区間の情報を重複時間算出部１２に出力する。

発話区間検出部１１ｂは、話者Ｂの音声から話者Ｂの発話区間を検出する処理部である。発話区間検出部１１ｂは、話者Ｂの発話区間の情報を重複時間算出部１２に出力する。

重複時間算出部１２は、話者Ａの発話区間と、話者Ｂの発話区間との重複時間を算出する処理部である。図１５は、重複時間算出部の処理を説明するための図である。図１５に示すように、話者Ａの発話区間をＴ_ａ１からＴ_ａ２とし、話者Ｂの発話区間をＴ_ｂ１からＴ_ｂ２とすると、重複時間は、Ｔ_ｂ２－Ｔ_ｂ１となる。重複時間算出部１２は、重複時間の情報を、判定部１３に出力する。

判定部１３は、重複時間に基づいて、話者Ａ，Ｂ間の会話を評価する処理部である。たとえば、判定部１３は、重複時間が所定時間以上である場合には、話者Ａの発話を話者Ｂが遮っている、または、話者Ｂの発話を話者Ａが遮っていると評価する。

特開２０１６－１３３７７４号公報特開２００６－２０９３３２号公報特開２０１１－２５４３４２号公報特開２００２－２７８５４７号公報米国特許出願公開第２０１６／０２１７７９１号明細書米国特許出願公開第２００２／０１７２３７２号明細書

しかしながら、上述した従来技術では、遮りに関する会話の印象を評価することができないという問題がある。

たとえば、話者Ａおよび話者Ｂが同時に話す場合に、話者Ａの音声が大きいほど、話者Ｂは自分の発話を遮られたという印象を受ける傾向がある。

また、人は長い音声を発話する際に、自身の会話が遮られていると感じると、音声の一部の単語やフレーズなどの重要な区間を特に大きな声で話すことが多い。たとえば、話者Ａおよび話者Ｂが同時に話している間に、話者Ａの音声が大きい区間では、話者Ａは、自分の発話を遮られたという印象を受ける傾向がある。

上記の遮りに関する会話の印象を、従来技術のように、重複時間と閾値との比較により検出することは難しい。

１つの側面では、本発明は、会話の印象を評価することができる評価プログラム、評価方法および評価装置を提供することを目的とする。

第１の案では、コンピュータに下記の処理を実行させる。コンピュータは、第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出する。コンピュータは、算出した第１の信号レベルと第２の信号レベルとの積算値、または平均値に基づいて、第１の音声信号または第２の音声信号を評価する。

遮りに関する会話の印象を評価することができる。

図１は、本実施例１に係るシステムの一例を示す図である。図２は、本実施例１に係る評価装置の構成を示す機能ブロック図である。図３は、本実施例１に係る評価テーブルの一例を示す図である。図４は、本実施例１に係る評価装置の処理手順を示すフローチャートである。図５は、本実施例２に係るシステムの一例を示す図である。図６は、本実施例２に係る評価装置の構成を示す機能ブロック図である。図７は、本実施例２に係る評価テーブルの一例を示す図である。図８は、本実施例２に係る評価装置の処理手順を示すフローチャートである。図９は、本実施例３に係るシステムの一例を示す図である。図１０は、本実施例３に係る評価装置の構成を示す機能ブロック図である。図１１は、自己相関とシフト量との関係を示す図である。図１２は、本実施例３に係る評価装置の処理手順を示すフローチャートである。図１３は、評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１４は、従来技術の一例を説明する図である。図１５は、重複時間算出部の処理を説明するための図である。

以下に、本願の開示する評価プログラム、評価方法および評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係るシステムの一例を示す図である。図１に示すように、このシステムは、端末装置５０ａ、端末装置５０ｂ、評価装置１００を有する。端末装置５０ａ、端末装置５０ｂ、評価装置１００は相互に接続される。

端末装置５０ａは、話者Ａが話者Ｂと会話を行う場合に使用する端末装置である。端末装置５０ａは、スピーカ２０ａおよびマイク２５ａに接続される。端末装置５０ａは、受信部５１ａと、送信部５２ａとを有する。

受信部５１ａは、端末装置５０ｂから、話者Ｂの音声信号を受信する処理部である。受信部５１ａは、話者Ｂの音声信号を、スピーカ２０ａに出力することで、話者Ｂの音声を出力させる。

送信部５２ａは、マイク２５ａが集音した話者Ａの音声信号を取得し、取得した話者Ａの音声信号を、端末装置５０ｂに出力する処理部である。

端末装置５０ｂは、話者Ｂが話者Ａと会話を行う場合に使用する端末装置である。端末装置５０ｂは、スピーカ２０ｂおよびマイク２５ｂに接続される。端末装置５０ｂは、受信部５１ｂと、送信部５２ｂとを有する。

受信部５１ｂは、端末装置５０ａから、話者Ａの音声信号を受信する処理部である。受信部５１ｂは、話者Ａの音声信号を、スピーカ２０ｂに出力することで、話者Ａの音声を出力させる。

送信部５２ｂは、マイク２５ｂが集音した話者Ｂの音声信号を取得し、取得した話者Ｂの音声信号を、端末装置５０ａに出力する処理部である。

以下の説明では、話者Ａの音声信号を「第１音声信号」と表記する。話者Ｂの音声信号を「第２音声信号」と表記する。

評価装置１００は、第１音声信号および第２音声信号を取得し、第１音声信号と第２音声信号とを基にして、話者Ａおよび話者Ｂの会話の印象を評価する装置である。

図２は、本実施例１に係る評価装置の構成を示す機能ブロック図である。図２に示すように、この評価装置１００は、受付部１１０ａ，１１０ｂ、記憶部１２０、取得部１３０ａ，１３０ｂ、信号レベル算出部１４０ａ，１４０ｂを有する。評価装置１００は、加算部１５０、評価部１６０、表示部１７０を有する。

受付部１１０ａは、端末装置５０ａから、第１音声信号を受け付ける処理部である。受付部１１０ａは、第１音声信号を、記憶部１２０の音声バッファ１２０ａに登録する。

受付部１１０ｂは、端末装置５０ｂから、第２音声信号を受け付ける処理部である。受付部１１０ｂは、第２音声信号を、記憶部１２０の音声バッファ１２０ｂに登録する。

記憶部１２０は、音声バッファ１２０ａと音声バッファ１２０ｂとを有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声バッファ１２０ａは、第１音声信号を保持するバッファである。音声バッファ１２０ｂは、第２音声信号を保持するバッファである。

取得部１３０ａは、音声バッファ１２０ａに格納された第１音声信号を取得し、取得した第１音声信号を、信号レベル算出部１４０ａに出力する処理部である。

取得部１３０ｂは、音声バッファ１２０ｂに格納された第２音声信号を取得し、取得した第２音声信号を、信号レベル算出部１４０ｂに出力する処理部である。

信号レベル算出部１４０ａは、第１音声信号のパワーを算出する処理部である。たとえば、信号レベル算出部１４０ａは、第１音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーＳ_１（ｎ）を算出する処理部である。信号レベル算出部１４０ａは、パワーＳ_１（ｎ）を、加算部１５０に出力する。

たとえば、信号レベル算出部１４０ａは、式（１）に基づいて、パワーＳ_１（ｎ）を算出する。式（１）において、Ｃ_１（ｔ）は、時刻ｔにおける第１音声信号の値を示す。ｎは、フレーム番号を示す。Ｍは、１フレームの時間長を示す。たとえば、１フレームの時間長を、２０ｍｓとする。

なお、信号レベル算出部１４０ａは、所定の平滑化係数を用いて、パワーＳ_１（ｎ）を時間平滑化し、時間平滑化したパワーＳ_１（ｎ）を、加算部１５０に出力しても良い。

信号レベル算出部１４０ｂは、第２音声信号のパワーを算出する処理部である。たとえば、信号レベル算出部１４０ｂは、第２音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーＳ_２（ｎ）を算出する処理部である。信号レベル算出部１４０ｂは、パワーＳ_２（ｎ）を、加算部１５０に出力する。

たとえば、信号レベル算出部１４０ｂは、式（２）に基づいて、パワーＳ_２（ｎ）を算出する。式（２）において、Ｃ_２（ｔ）は、時刻ｔにおける第２音声信号の値を示す。ｎは、フレーム番号を示す。Ｍは、１フレームの時間長を示す。たとえば、１フレームの時間長は、２０ｍｓとなる。

なお、信号レベル算出部１４０ｂは、所定の平滑化係数を用いて、パワーＳ_２（ｎ）を時間平滑化し、時間平滑化したパワーＳ_２（ｎ）を、加算部１５０に出力しても良い。

加算部１５０は、第１音声信号のパワーＳ_１（ｎ）と、第２音声信号のパワーＳ_２（ｎ）とを加算する処理部である。たとえば、加算部１５０は、式（３）に基づいて、フレーム毎の合計値Ｓ（ｎ）を算出する。加算部１５０は、合計値Ｓ（ｎ）を、評価部１６０に出力する。

Ｓ（ｎ）＝Ｓ_１（ｎ）＋Ｓ_２（ｎ）・・・（３）

評価部１６０は、合計値Ｓ（ｎ）が閾値ＴＨ１を上回る継続時間を特定し、特定した継続時間に基づいて、第１音声信号または第２音声信号の印象を評価する処理部である。評価部１６０は、評価結果を、表示部１７０に出力する。以下において、評価部１６０の処理の一例について説明する。

評価部１６０は、合計値Ｓ（ｎ）が閾値ＴＨ１を上回る開始フレームＴｓを算出する。たとえば、評価部１６０は、条件１を満たすフレーム番号ｎを特定し、特定したフレーム番号ｎを、開始フレームＴｓとする。閾値ＴＨ１を、２０ｄＢとする。

｛Ｓ（ｎ－１）≦ＴＨ１｝∧｛Ｓ（ｎ）＞ＴＨ１｝・・・（条件１）

評価部１６０は、開始フレームＴｓを特定した後に、閾値ＴＨ１以下となる終了フレームＴｅを算出する。たとえば、評価部１６０は、条件２を満たすフレーム番号ｎを特定し、フレーム番号ｎ－１を、終了フレームＴｅとする。

｛Ｓ（ｎ－１）＞ＴＨ１｝∧｛Ｓ（ｎ）≦ＴＨ１｝・・・（条件２）

評価部１６０は、開始フレームＴｓと終了フレームＴｅとの差に基づいて、継続時間ＣＬを算出する。たとえば、評価部１６０は、式（４）に基づいて、継続時間ＣＬを算出する。

継続時間ＣＬ＝Ｔｅ－Ｔｓ・・・（４）

評価部１６０は、継続時間ＣＬと、所定閾値との比較により、話者Ａの発話の印象を評価する。たとえば、評価部１６０は、評価テーブルを用いて、話者Ａの発話の印象を評価する。なお、評価部１６０は、第１音声信号および第２音声信号のパワーの比率を算出し、比率に基づいて評価対象の話者を特定することができる。例えば、話者Ａに対応する第１音声信号のパワーの比率が高い場合、話者Ａに対して発話の印象を評価することができる。

図３は、本実施例１に係る評価テーブルの一例を示す図である。図３に示すように、評価部１６０は、継続時間の長さ（ＣＬ）が「０以上、２秒未満」の場合には、話者Ａの発話の印象が「普通」であると評価する。評価部１６０は、継続時間の長さ（ＣＬ）が「２以上、４秒未満」の場合には、話者Ａの発話の印象が「やや悪い」であると評価する。評価部１６０は、継続時間の長さ（ＣＬ）が「４秒以上」の場合には、話者Ａの発話の印象が「非常に悪い」であると評価する。

図３に示した評価テーブルの継続時間の長さは一例であり、管理者が適宜更新しても良い。また、評価部１６０は、話者Ａと同様にして、話者Ｂの発話の印象を評価しても良い。

表示部１７０は、評価部１６０の評価結果を表示する表示装置である。たとえば、表示部１７０は、液晶ディスプレイやタッチパネルなどに対応する。

たとえば、上記の受付部１１０ａ，１１０ｂ、取得部１３０ａ，１３０ｂ、信号レベル算出部１４０ａ，１４０ｂ、加算部１５０、評価部１６０は、制御部に対応する。制御部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

次に、本実施例１に係る評価装置１００の処理手順の一例について説明する。図４は、本実施例１に係る評価装置の処理手順を示すフローチャートである。図４に示すように、評価装置１００の受付部１１０ａ，１１０ｂが、第１音声信号および第２音声信号を、記憶部１２０の音声バッファ１２０ａ，１２０ｂに記録する（ステップＳ１０１）。

評価装置１００の信号レベル算出部１４０ａは、パワーＳ_１（ｎ）を算出する（ステップＳ１０２）。評価装置１００の信号レベル算出部１４０ｂは、パワーＳ_２（ｎ）を算出する（ステップＳ１０３）。

評価装置１００の加算部１５０は、パワーＳ_１（ｎ）とパワーＳ_２（ｎ）との合計値Ｓ（ｎ）を算出する（ステップＳ１０４）。評価装置１００の評価部１６０は、合計値Ｓ（ｎ）が閾値ＴＨ１を上回る継続時間ＣＬを算出する（ステップＳ１０５）。

評価部１６０は、継続時間ＣＬと評価テーブルとを比較し、話者Ａ（あるいは話者Ｂ）の会話の印象を評価する（ステップＳ１０６）。評価装置１００の表示部１７０は、評価結果を表示する（ステップＳ１０７）。

次に、本実施例１に係る評価装置１００の効果について説明する。評価装置１００は、第１音声信号のパワーＳ_１（ｎ）と第２音声信号のパワーＳ_２（ｎ）との合計値Ｓ（ｎ）が閾値ＴＨ１を上回る継続時間ＣＬを特定し、継続時間ＣＬを基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。話者Ａ、話者Ｂの声の大きさの合計値と、遮りの印象は相関しており、たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、大きさの合計値が閾値ＴＨ１を上回る時間が大きい場合には、会話の印象が悪いと言え、評価装置１００は、かかる評価をもれなく検出可能である。

ところで、上記の加算部１５０は、合計値Ｓ（ｎ）を２で割ることで平均値Ｓ’（ｎ）を算出しても良い。この場合には、評価部１６０は、平均値Ｓ’（ｎ）が閾値ＴＨ１’を上回る継続時間を特定し、特定した継続時間に基づいて、第１音声信号または第２音声信号の印象を評価する。

また、評価装置１００は、更に下記の処理を実行しても良い。たとえば、話者Ａおよび話者Ｂが同時に話す場合に、話者Ａの音声が大きいほど、話者Ｂは自分の発話を遮られたという印象を受ける傾向がある。このため、評価部１６０は、継続時間ＣＬと、評価テーブルとを比較して、評価結果が「やや悪い、あるいは、非常に悪い」と判定した場合には、第１音声信号と第２音声信号との大小関係を基にして、話者Ａ、話者Ｂのいずれの印象が悪いのかを区別しても良い。たとえば、評価部１６０は、第１音声信号が、第２音声信号よりも大きい場合に、話者Ａの印象が悪いと評価する。一方、評価部１６０は、第２音声信号が、第１音声信号よりも大きい場合に、話者Ｂの印象が悪いと評価する。

図５は、本実施例２に係るシステムの一例を示す図である。図５に示すように、このシステムは、端末装置５０ａ、端末装置５０ｂ、評価装置２００を有する。端末装置５０ａ、端末装置５０ｂ、評価装置２００は相互に接続される。

端末装置５０ａ，５０ｂに関する説明は、実施例１で説明した端末装置５０ａ，５０ｂに関する説明と同様である。

評価装置２００は、第１音声信号および第２音声信号を取得し、第１音声信号と第２音声信号とを基にして、話者Ａおよび話者Ｂの会話の印象を評価する装置である。

図６は、本実施例２に係る評価装置の構成を示す機能ブロック図である。図６に示すように、この評価装置２００は、受付部２１０ａ，２１０ｂ、記憶部２２０、取得部２３０ａ，２３０ｂ、信号レベル算出部２４０ａ，２４０ｂを有する。評価装置２００は、加算部２５０、評価部２６０、表示部２７０を有する。

受付部２１０ａは、端末装置５０ａから、第１音声信号を受け付ける処理部である。受付部２１０ａは、第１音声信号を、記憶部２２０の音声バッファ２２０ａに登録する。

受付部２１０ｂは、端末装置５０ｂから、第２音声信号を受け付ける処理部である。受付部２１０ｂは、第２音声信号を、記憶部２２０の音声バッファ２２０ｂに登録する。

記憶部２２０は、音声バッファ２２０ａと音声バッファ２２０ｂとを有する。記憶部２２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声バッファ２２０ａは、第１音声信号を保持するバッファである。音声バッファ２２０ｂは、第２音声信号を保持するバッファである。

取得部２３０ａは、音声バッファ２２０ａに格納された第１音声信号を取得し、取得した第１音声信号を、信号レベル算出部２４０ａに出力する処理部である。

取得部２３０ｂは、音声バッファ２２０ｂに格納された第２音声信号を取得し、取得した第２音声信号を、信号レベル算出部２４０ｂに出力する処理部である。

信号レベル算出部２４０ａは、第１音声信号のＳＮＲ（Signal to Noise Ratio）を算出する処理部である。以下において、信号レベル算出部２４０ａの処理の一例について説明する。

信号レベル算出部２４０ａは、第１音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーＳ_１（ｎ）を算出する。信号レベル算出部２４０ａは、信号レベル算出部１４０ａと同様に、式（１）に基づいて、パワーＳ_１（ｎ）を算出する。

信号レベル算出部２４０ａは、パワーＳ_１（ｎ）に基づいて、発話区間の有無を判定する。たとえば、信号レベル算出部２４０ａは、条件３を満たす場合に、ｎ番目のフレームは、発話「有」であると判定する。一方、信号レベル算出部２４０ａは、条件３を満たさない場合に、ｎ番目のフレームは、発話「無」であると判定する。

Ｓ_１（ｎ）＞ＴＨ１・・・（条件３）

信号レベル算出部２４０ａは、発話の有無を基にして、雑音レベルＮ_１（ｎ）を更新する。具体的に、信号レベル算出部２４０ａは、発話が「有」である場合には、式（５）に基づいて、雑音レベルＮ_１（ｎ）を更新する。信号レベル算出部２４０ａは、発話が「無」である場合には、式（６）に基づいて、雑音レベルＮ_１（ｎ）を更新する。式（５）において、ＣＯＦ_１は、パワーの長期平均を算出するための忘却係数である。たとえば、ＣＯＦ_１を「０．９」とする。この忘却係数により、発話なしフレームのパワーの長期平均値が雑音レベルとして算出される。

Ｎ_１（ｎ）＝Ｎ_１（ｎ－１）×ＣＯＦ_１＋Ｓ_１（ｎ）×（１－ＣＯＦ_１）・・・（５）

Ｎ_１（ｎ）＝Ｎ_１（ｎ－１）・・・（６）

信号レベル算出部２４０ａは、パワーＳ_１（ｎ）と、雑音レベルＮ_１（ｎ）との差からＳＮＲ_１（ｎ）を算出する。すなわち、信号レベル算出部２４０ａは、式（７）に基づいて、ＳＮＲ_１（ｎ）を算出する。信号レベル算出部２４０ａは、ＳＮＲ_１（ｎ）を加算部２５０に出力する。

ＳＮＲ_１（ｎ）＝Ｓ_１（ｎ）－Ｎ_１（ｎ）・・・（７）

信号レベル算出部２４０ｂは、第２音声信号のＳＮＲを算出する処理部である。以下において、信号レベル算出部２４０ｂの処理の一例について説明する。

信号レベル算出部２４０ｂは、第２音声信号を複数の所定長のフレームに分割し、フレーム毎に、パワーＳ_２（ｎ）を算出する。信号レベル算出部２４０ｂは、信号レベル算出部１４０ｂと同様に、式（２）に基づいて、パワーＳ_２（ｎ）を算出する。

信号レベル算出部２４０ｂは、パワーＳ_２（ｎ）に基づいて、発話区間の有無を判定する。たとえば、信号レベル算出部２４０ｂは、条件４を満たす場合に、ｎ番目のフレームは、発話「有」であると判定する。一方、信号レベル算出部２４０ｂは、条件４を満たさない場合に、ｎ番目のフレームは、発話「無」であると判定する。

Ｓ_２（ｎ）＞ＴＨ１・・・（条件４）

信号レベル算出部２４０ｂは、発話の有無を基にして、雑音レベルＮ_２（ｎ）を更新する。具体的に、信号レベル算出部２４０ｂは、発話が「有」である場合には、式（８）に基づいて、雑音レベルＮ_２（ｎ）を更新する。信号レベル算出部２４０ｂは、発話が「無」である場合には、式（９）に基づいて、雑音レベルＮ_２（ｎ）を更新する。式（８）において、ＣＯＦ_２は、パワーの長期平均を算出するための忘却係数である。たとえば、ＣＯＦ_２を「０．９」とする。

Ｎ_２（ｎ）＝Ｎ_２（ｎ－１）×ＣＯＦ_２＋Ｓ_２（ｎ）×（１－ＣＯＦ_２）・・・（８）

Ｎ_２（ｎ）＝Ｎ_２（ｎ－１）・・・（９）

信号レベル算出部２４０ｂは、パワーＳ_２（ｎ）と、雑音レベルＮ_２（ｎ）との差からＳＮＲ_２（ｎ）を算出する。すなわち、信号レベル算出部２４０ｂは、式（１０）に基づいて、ＳＮＲ_２（ｎ）を算出する。信号レベル算出部２４０ｂは、ＳＮＲ_２（ｎ）を加算部２５０に出力する。

ＳＮＲ_２（ｎ）＝Ｓ_２（ｎ）－Ｎ_２（ｎ）・・・（１０）

加算部２５０は、ＳＮＲ_１（ｎ）とＳＮＲ_２（ｎ）とを加算する処理部である。たとえば、加算部２５０は、式（１１）に基づいて、ＳＮＲ_１（ｎ）とＳＮＲ_２（ｎ）との合計値ＳＮＲ（ｎ）を算出する。加算部２５０は、合計値ＳＮＲ（ｎ）を、評価部２６０に出力する。

ＳＮＲ（ｎ）＝ＳＮＲ_１（ｎ）＋ＳＮＲ_２（ｎ）・・・（１１）

評価部２６０は、合計値ＳＮＲ（ｎ）が、閾値ＴＨ２を上回る頻度を算出し、頻度を基にして、第１音声信号または第２音声信号の印象を評価する処理部である。評価部２６０は、評価結果を、表示部２７０に出力する。以下において、評価部２６０の処理の一例について説明する。

評価部２６０は、式（１２）に基づいて、頻度Ｒ（ｉ）を算出する。式（１２）において、ｉは、単位時間の通し番号に対応する。Ｌは単位時間のフレーム長に対応する。たとえば、単位時間のフレーム長を、１０秒とする。

なお、評価部２６０は、式（１２）の代わりに、式（１３）を用いて、頻度Ｒ（ｉ）を算出しても良い。たとえば、ｉ番目の単位時間Ｌの全フレーム数を５００とする。

Ｒ（ｉ）＝ｉ番目の単位時間Ｌにおいて、合計値ＳＮＲ（ｎ）が閾値ＴＨ２を上回るフレームの数／ｉ番目の単位時間Ｌの全フレーム数・・・（１３）

評価部２６０は、頻度Ｒ（ｉ）と、所定閾値との比較により、話者Ａの発話の印象を評価する。たとえば、評価部２６０は、評価テーブルを用いて、話者Ａの発話の印象を評価する。

図７は、本実施例２に係る評価テーブルの一例を示す図である。図７に示すように、評価部２６０は、頻度Ｒ（ｉ）が「Ｘ１以上、かつ、Ｘ２未満」の場合には、話者Ａの発話の印象が「普通」であると評価する。評価部２６０は、頻度Ｒ（ｉ）が「Ｘ２以上、かつ、Ｘ３未満」の場合には、話者Ａの発話の印象が「やや悪い」であると評価する。評価部２６０は、頻度Ｒ（ｉ）が「Ｘ３以上」の場合には、話者Ａの発話の印象が「非常に悪い」であると評価する。たとえば、図７において、Ｘ１、Ｘ２、Ｘ３の大小関係を、Ｘ１＜Ｘ２＜Ｘ３とする。

評価部２６０は、話者Ａと同様にして、話者Ｂの発話の印象を評価しても良い。

ところで、評価部２６０は、合計値ＳＮＲ（ｎ）が閾値ＴＨ２を上回る継続時間が、所定閾値（たとえば、１秒）を下回る区間を予め除外した上で、上記の頻度Ｒ（ｉ）を算出しても良い。閾値ＴＨ２を上回る継続時間が、所定閾値（たとえば、１秒）を下回る区間は、「はい」、「ええ」のような相槌などの短い発話によるものであるため、かかる区間の発話を除外することで、印象評価の精度を向上させることができる。

表示部２７０は、評価部２６０の評価結果を表示する表示装置である。たとえば、表示部２７０は、液晶ディスプレイやタッチパネルなどに対応する。

たとえば、上記の受付部２１０ａ，２１０ｂ、取得部２３０ａ，２３０ｂ、信号レベル算出部２４０ａ，２４０ｂ、加算部２５０、評価部２６０は、制御部に対応する。制御部は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

次に、本実施例２に係る評価装置２００の処理手順の一例について説明する。図８は、本実施例２に係る評価装置の処理手順を示すフローチャートである。図８に示すように、評価装置２００の受付部２１０ａ，２１０ｂが、第１音声信号および第２音声信号を、記憶部２２０の音声バッファ２２０ａ，２２０ｂに記録する（ステップＳ２０１）。

評価装置２００の信号レベル算出部２４０ａは、ＳＮＲ_１（ｎ）を算出する（ステップＳ２０２）。評価装置２００の信号レベル算出部２４０ｂは、ＳＮＲ_２（ｎ）を算出する（ステップＳ２０３）。

評価装置２００の加算部２５０は、ＳＮＲ_１（ｎ）とＳＮＲ_２（ｎ）との合計値ＳＮＲ（ｎ）を算出する（ステップＳ２０４）。評価装置２００の評価部２６０は、合計値ＳＮＲ（ｎ）が閾値ＴＨ２を上回る頻度Ｒ（ｉ）を算出する（ステップＳ２０５）。

評価部２６０は、頻度Ｒ（ｉ）と評価テーブルとを比較し、話者Ａ（あるいは話者Ｂ）の会話の印象を評価する（ステップＳ２０６）。評価装置２００の表示部２７０は、評価結果を表示する（ステップＳ２０７）。

次に、本実施例２に係る評価装置２００の効果について説明する。評価装置２００は、第１音声信号のＳＮＲ_１（ｎ）と第２音声信号のＳＮＲ_２（ｎ）との合計値ＳＮＲ（ｎ）が閾値ＴＨ２を上回る頻度Ｒ（ｉ）を特定し、頻度Ｒ（ｉ）を基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、合計値ＳＮＲ（ｎ）が閾値ＴＨ２を上回る頻度が大きい場合には、会話の印象が悪いと言え、評価装置２００は、かかる評価をもれなく検出可能である。

ところで、上記の加算部２５０は、合計値ＳＮＲ（ｎ）を２で割ることで平均値ＳＮＲ’（ｎ）を算出しても良い。この場合には、評価部２６０は、平均値ＳＮＲ’（ｎ）が閾値ＴＨ２’を上回る頻度を特定し、特定した頻度に基づいて、第１音声信号または第２音声信号の印象を評価する。

また、評価部２６０は、発話区間の先頭の所定期間および末尾の所定期間を除いて、頻度を算出しても良い。たとえば、評価部２６０は、発話区間の開始時刻から所定時間後の第１時刻と、発話区間の終了時刻から所定時間前の第２時刻との間の時間帯において、合計値ＳＮＲ（ｎ）または平均値ＳＮＲ’（ｎ）が所定閾値を上回る頻度を特定する。

図９は、本実施例３に係るシステムの一例を示す図である。図９に示すように、このシステムは、端末装置５０ａ、端末装置５０ｂ、評価装置３００を有する。端末装置５０ａ、端末装置５０ｂ、評価装置３００は相互に接続される。本実施例３では一例として、話者Ａをオペレータとし、話者Ｂを顧客とする。

評価装置３００は、第１音声信号および第２音声信号を取得し、第１音声信号と第２音声信号とを基にして、話者Ａおよび話者Ｂの会話の印象を評価する装置である。

図１０は、本実施例３に係る評価装置の構成を示す機能ブロック図である。図１０に示すように、この評価装置３００は、受付部３１０ａ，３１０ｂ、記憶部３２０、取得部３３０ａ，３３０ｂ、信号レベル算出部３４０ａ，３４０ｂを有する。評価装置３００は、加算部３５０、評価部３６０、表示部３７０を有する。

受付部３１０ａは、端末装置５０ａから、第１音声信号を受け付ける処理部である。受付部３１０ａは、第１音声信号を、記憶部３２０の音声バッファ３２０ａに登録する。

受付部３１０ｂは、端末装置５０ｂから、第２音声信号を受け付ける処理部である。受付部３１０ｂは、第２音声信号を、記憶部３２０の音声バッファ３２０ｂに登録する。

記憶部３２０は、音声バッファ３２０ａと音声バッファ３２０ｂとを有する。記憶部３２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声バッファ３２０ａは、第１音声信号を保持するバッファである。音声バッファ３２０ｂは、第２音声信号を保持するバッファである。

取得部３３０ａは、音声バッファ３２０ａに格納された第１音声信号を取得し、取得した第１音声信号を、信号レベル算出部３４０ａに出力する処理部である。

取得部３３０ｂは、音声バッファ３２０ｂに格納された第２音声信号を取得し、取得した第２音声信号を、信号レベル算出部３４０ｂに出力する処理部である。

信号レベル算出部３４０ａは、第１音声信号の自己相関の値を算出する処理部である。たとえば、信号レベル算出部３４０ａは、第１音声信号の自己相関を算出し、所定範囲のシフト量における最大の自己相関値ＡＣ_１（ｎ）を算出する。信号レベル算出部３４０ａは、式（１４）に基づいて、自己相関値ＡＣ_１（ｎ）を算出する。式（１４）のＣ_１（ｔ）は、時刻ｔにおける第１音声信号の値を示す。ｊは、シフト量に対応する。

図１１は、自己相関とシフト量との関係を示す図である。図１１の縦軸は自己相関の値に対応する軸であり、横軸はシフト量に対応する軸である。図１１に示す例では、シフト量がｊαとなる場合に、自己相関は最大値（自己相関値ＡＣ_１（ｎ））となる。信号レベル算出部３４０ａは、自己相関値ＡＣ_１（ｎ）を、加算部３５０に出力する。

信号レベル算出部３４０ｂは、第２音声信号の自己相関の値を算出する処理部である。たとえば、信号レベル算出部３４０ｂは、第２音声信号の自己相関を算出し、所定範囲のシフト量における最大の自己相関値ＡＣ_２（ｎ）を算出する。信号レベル算出部３４０ｂは、式（１５）に基づいて、自己相関値ＡＣ_２（ｎ）を算出する。式（１５）のＣ_２（ｔ）は、時刻ｔにおける第２音声信号の値を示す。ｊは、シフト量に対応する。

信号レベル算出部３４０ｂは、自己相関値ＡＣ_２（ｎ）を、加算部３５０に出力する。

加算部３５０は、自己相関値ＡＣ_１（ｎ）および自己相関値ＡＣ_２（ｎ）についてそれぞれ重み付けを行った後に、自己相関値ＡＣ_１（ｎ）と自己相関値ＡＣ_２（ｎ）とを加算する処理部である。たとえば、加算部３５０は、式（１６）に基づいて、合計値ＡＣ（ｎ）を算出する。加算部３５０は、合計値ＡＣ（ｎ）を、評価部３６０に出力する。

ＡＣ（ｎ）＝ｋ_１×ＡＣ_１（ｎ）＋ｋ_２×ＡＣ_２（ｎ）・・・（１６）

式（１６）において、ｋ_１およびｋ_２は重み係数である。たとえば、ｋ_１＝１．５、ｋ_２＝０．５とする。

評価部３６０は、合計値ＡＣ（ｎ）が、閾値ＴＨ３を上回る頻度を算出し、頻度を基にして、第１音声信号または第２音声信号の印象を評価する処理部である。評価部３６０は、評価結果を、表示部３７０に出力する。以下において、評価部３６０の処理の一例について説明する。

評価部３６０は、式（１７）に基づいて、頻度Ｒ（ｉ）を算出する。式（１７）において、ｉは、単位時間の通し番号に対応する。Ｌは単位時間のフレーム長に対応する。たとえば、単位時間のフレーム長を、１０秒とする。

なお、評価部３６０は、式（１７）の代わりに、式（１８）を用いて、頻度Ｒ（ｉ）を算出しても良い。たとえば、ｉ番目の単位時間Ｌの全フレーム数を５００とする。

Ｒ（ｉ）＝ｉ番目の単位時間Ｌにおいて、合計値ＡＣ（ｎ）が閾値ＴＨ３を上回るフレームの数／ｉ番目の単位時間Ｌの全フレーム数・・・（１８）

評価部３６０は、頻度Ｒ（ｉ）と、所定閾値との比較により、話者Ａの発話の印象を評価する。たとえば、評価部３６０は、評価テーブルを用いて、話者Ａの発話の印象を評価する。たとえば、評価テーブルは、図７で説明した評価テーブルに対応する。

ところで、評価部３６０は、合計値ＡＣ（ｎ）が閾値ＴＨ３を上回る継続時間が、所定閾値（たとえば、１秒）を下回る区間を予め除外した上で、上記の頻度Ｒ（ｉ）を算出しても良い。閾値ＴＨ３を上回る継続時間が、所定閾値（たとえば、１秒）を下回る区間は、「はい」、「ええ」のような相槌などの短い発話によるものであるため、かかる区間の発話を除外することで、印象評価の精度を向上させることができる。

表示部３７０は、評価部３６０の評価結果を表示する表示装置である。たとえば、表示部３７０は、液晶ディスプレイやタッチパネルなどに対応する。

たとえば、上記の受付部３１０ａ，３１０ｂ、取得部３３０ａ，３３０ｂ、信号レベル算出部３４０ａ，３４０ｂ、加算部３５０、評価部３６０は、制御部に対応する。制御部は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

次に、本実施例３に係る評価装置３００の処理手順の一例について説明する。図１２は、本実施例３に係る評価装置の処理手順を示すフローチャートである。図１２に示すように、評価装置３００の受付部３１０ａ，３１０ｂが、第１音声信号および第２音声信号を、記憶部３２０の音声バッファ３２０ａ，３２０ｂに記録する（ステップＳ３０１）。

評価装置３００の信号レベル算出部３４０ａは、ＡＣ_１（ｎ）を算出する（ステップＳ３０２）。評価装置３００の信号レベル算出部３４０ｂは、ＡＣ_２（ｎ）を算出する（ステップＳ３０３）。

評価装置３００の加算部３５０は、ＡＣ_１（ｎ）に重みｋ_１を乗算する（ステップＳ３０４）。加算部３５０は、ＡＣ_２（ｎ）に重みｋ_２を乗算する（ステップＳ３０５）。加算部３５０は、合計値ＡＣ（ｎ）を算出する（ステップＳ３０６）。

評価装置３００の評価部３６０は、合計値ＡＣ（ｎ）が閾値ＴＨ３を上回る頻度Ｒ（ｉ）を算出する（ステップＳ３０７）。

評価部３６０は、頻度Ｒ（ｉ）と評価テーブルとを比較し、話者Ａ（あるいは話者Ｂ）の会話の印象を評価する（ステップＳ３０８）。評価装置３００の表示部３７０は、評価結果を表示する（ステップＳ３０９）。

次に、本実施例３に係る評価装置３００の効果について説明する。評価装置３００は、第１音声信号のＡＣ_１（ｎ）と第２音声信号のＡＣ_２（ｎ）との合計値ＡＣ（ｎ）が閾値ＴＨ３を上回る頻度Ｒ（ｉ）を特定し、頻度Ｒ（ｉ）を基にして、会話の印象の評価を行う。これにより、会話の印象を精度良く評価することができる。たとえば、一方の話者の声が大きく、他方の話者の声が小さい場合でも、合計値ＡＣ（ｎ）が閾値ＴＨ３を上回る頻度が大きい場合には、会話の印象が悪いと言え、評価装置３００は、かかる評価をもれなく検出可能である。

また、話者Ａ（オペレータ）の第１音声信号に対する自己相関値ＡＣ_１（ｎ）の重みｋ_１を、話者Ｂ（顧客）の第２音声信号に対する自己相関値ＡＣ_２（ｎ）の重みｋ_２よりも大きくすることで、次の様になる。すなわち、顧客がオペレータの音声を遮る影響よりも、オペレータが顧客の音声を遮る影響を重視した印象評価を行うことができ、オペレータの応対教育に効果的に活用することが期待できる。

なお、上記の加算部３５０は、合計値ＡＣ（ｎ）を２で割ることで平均値ＡＣ’（ｎ）を算出しても良い。この場合には、評価部３６０は、平均値ＡＣ’（ｎ）が閾値ＴＨ３’を上回る頻度を特定し、特定した頻度に基づいて、第１音声信号または第２音声信号の印象を評価する。

次に、上記実施例に示した評価装置１００（２００，３００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１３は、評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１３に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る読み取り装置４０４と、外部装置との間でデータの授受を行うインターフェース装置４０５とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１～４０７は、バス４０８に接続される。

ハードディスク装置４０７は、信号レベル算出プログラム４０７ａ、加算プログラム４０７ｂ、評価プログラム４０７ｃを有する。ＣＰＵ４０１は、信号レベル算出プログラム４０７ａ、加算プログラム４０７ｂ、評価プログラム４０７ｃを読み出してＲＡＭ４０６に展開する。

信号レベル算出プログラム４０７ａは、信号レベル算出プロセス４０６ａとして機能する。加算プログラム４０７ｂは、加算プロセス４０６ｂとして機能する。評価プログラム４０７ｃは、評価プロセス４０６ｃとして機能する。

信号レベル算出プロセス４０６ａの処理は、信号レベル算出部１４０ａ，１４０ｂ（２４０ａ，２４０ｂ、３４０ａ，３４０ｂ）の処理に対応する。加算プロセス４０６ｂの処理は、加算部１５０（２５０，３５０）の処理に対応する。評価プロセス４０６ｃの処理は、評価部１６０（２６０，３６０）の処理に対応する。

なお、各プログラム４０７ａ～４０７ｃについては、必ずしも最初からハードディスク装置４０７に記憶させておかなくても良い。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム４０７ａ～４０７ｃを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出し、
算出した前記第１の信号レベルと前記第２の信号レベルとの積算値、または平均値に基づいて、前記第１の音声信号または前記第２の音声信号を評価する
処理を実行させることを特徴とする評価プログラム。

（付記２）前記第１の信号レベルと前記第２の信号レベルとの比率を算出する処理を更に実行させ、前記評価する処理は、前記比率に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記１に記載の評価プログラム。

（付記３）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記１または２に記載の評価プログラム。

（付記４）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記２に記載の評価プログラム。

（付記５）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記４に記載の評価プログラム。

（付記６）前記評価する処理は、発話区間の開始時刻から所定時間後の第１時刻と、前記発話区間の終了時刻から所定時間前の第２時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記４または５に記載の評価プログラム。

（付記７）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号のパワーを、前記第１の信号レベルとして算出し、前記第２の音声信号のパワーを、前記第２の信号レベルとして算出することを特徴とする付記１～６のいずれか一つに記載の評価プログラム。

（付記８）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の信号対雑音比を、前記第１の信号レベルとして算出し、前記第２の音声信号の信号対雑音比を、前記第２の信号レベルとして算出することを特徴とする付記１～６のいずれか一つに記載の評価プログラム。

（付記９）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の自己相関の値を、前記第１の信号レベルとして算出し、前記第２の音声信号の自己相関の値を、前記第２の信号レベルとして算出することを特徴とする付記１～６のいずれか一つに記載の評価プログラム。

（付記１０）前記積算値または前記平均値を算出する処理は、前記第１の信号レベルに第１係数を乗算し、前記第２の信号レベルに前記第１係数とは異なる第２係数を乗算した後に、前記第１の信号レベルと前記第２の信号レベルとの積算値または平均値を算出することを特徴とする付記１～９のいずれか一つに記載の評価プログラム。

（付記１１）コンピュータが実行する評価方法であって、
第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出し、
算出した前記第１の信号レベルと前記第２の信号レベルとの積算値、または平均値に基づいて、前記第１の音声信号または前記第２の音声信号を評価する
処理を実行することを特徴とする評価方法。

（付記１２）前記第１の信号レベルと前記第２の信号レベルとの比率を算出する処理を更に実行し、前記評価する処理は、前記比率に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記１１に記載の評価方法。

（付記１３）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第１の音声信号または前記第２の音声信号を評価することを特徴とする付記１１または１２に記載の評価方法。

（付記１４）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記１１または１２に記載の評価方法。

（付記１５）前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記１４に記載の評価方法。

（付記１６）前記評価する処理は、発話区間の開始時刻から所定時間後の第１時刻と、前記発話区間の終了時刻から所定時間前の第２時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記１４に記載の評価方法。

（付記１７）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号のパワーを、前記第１の信号レベルとして算出し、前記第２の音声信号のパワーを、前記第２の信号レベルとして算出することを特徴とする付記１１～１６のいずれか一つに記載の評価方法。

（付記１８）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の信号対雑音比を、前記第１の信号レベルとして算出し、前記第２の音声信号の信号対雑音比を、前記第２の信号レベルとして算出することを特徴とする付記１１～１６のいずれか一つに記載の評価方法。

（付記１９）前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の自己相関の値を、前記第１の信号レベルとして算出し、前記第２の音声信号の自己相関の値を、前記第２の信号レベルとして算出することを特徴とする付記１１～１６のいずれか一つに記載の評価方法。

（付記２０）前記積算値または前記平均値を算出する処理は、前記第１の信号レベルに第１係数を乗算し、前記第２の信号レベルに前記第１係数とは異なる第２係数を乗算した後に、前記第１の信号レベルと前記第２の信号レベルとの積算値または平均値を算出することを特徴とする付記１１～１９のいずれか一つに記載の評価方法。

（付記２１）第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出する信号レベル算出部と、
算出した前記第１の信号レベルと前記第２の信号レベルとの積算値、または平均値に基づいて、前記第１の音声信号または前記第２の音声信号を評価する評価部と
を有することを特徴とする評価装置。

（付記２２）前記第１の信号レベルと前記第２の信号レベルとの比率を算出する加算部を更に有し、前記評価部は、前記比率に基づいて、前記第１の音声信号または前記第２の音声信号を評価することを特徴とする付記２１に記載の評価装置。

（付記２３）前記評価部は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記２１または２２に記載の評価装置。

（付記２４）前記評価部は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする付記２１または２２に記載の評価装置。

（付記２５）前記評価部は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記２４に記載の評価装置。

（付記２６）前記評価部は、発話区間の開始時刻から所定時間後の第１時刻と、前記発話区間の終了時刻から所定時間前の第２時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする付記２４に記載の評価装置。

（付記２７）前記信号レベル算出部は、前記第１の音声信号のパワーを、前記第１の信号レベルとして算出し、前記第２の音声信号のパワーを、前記第２の信号レベルとして算出することを特徴とする付記２１～２６のいずれか一つに記載の評価装置。

（付記２８）前記信号レベル算出部は、前記第１の音声信号の信号対雑音比を、前記第１の信号レベルとして算出し、前記第２の音声信号の信号対雑音比を、前記第２の信号レベルとして算出することを特徴とする付記２１～２６のいずれか一つに記載の評価装置。

（付記２９）前記信号レベル算出部は、前記第１の音声信号の自己相関の値を、前記第１の信号レベルとして算出し、前記第２の音声信号の自己相関の値を、前記第２の信号レベルとして算出することを特徴とする付記２１～２６のいずれか一つに記載の評価装置。

（付記３０）前記加算部は、前記第１の信号レベルに第１係数を乗算し、前記第２の信号レベルに前記第１係数とは異なる第２係数を乗算した後に、前記第１の信号レベルと前記第２の信号レベルとの合計値または平均値を算出することを特徴とする付記２１～２９のいずれか一つに記載の評価装置。

５０ａ，５０ｂ端末装置
１００，２００，３００評価装置

Claims

第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出し、
前記第１の信号レベルと前記第２の信号レベルとの比率を算出し、
前記第１の信号レベルと前記第２の信号レベルとの合計値、または、平均値を算出し、
算出された前記比率と、前記合計値、または、前記平均値とに基づいて、前記第１の音声信号または前記第２の音声信号を評価する
処理を実行させることを特徴とする評価プログラム。
前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする請求項１に記載の評価プログラム。
前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第１の音声信号または前記第２の音声信号の印象を評価することを特徴とする請求項１に記載の評価プログラム。
前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項３に記載の評価プログラム。
前記評価する処理は、発話区間の開始時刻から所定時間後の第１時刻と、前記発話区間の終了時刻から所定時間前の第２時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項３または４に記載の評価プログラム。
前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号のパワーを、前記第１の信号レベルとして算出し、前記第２の音声信号のパワーを、前記第２の信号レベルとして算出することを特徴とする請求項１～５のいずれか一つに記載の評価プログラム。
前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の信号対雑音比を、前記第１の信号レベルとして算出し、前記第２の音声信号の信号対雑音比を、前記第２の信号レベルとして算出することを特徴とする請求項１～５のいずれか一つに記載の評価プログラム。
前記第１の信号レベルおよび前記第２の信号レベルを算出する処理は、前記第１の音声信号の自己相関の値を、前記第１の信号レベルとして算出し、前記第２の音声信号の自己相関の値を、前記第２の信号レベルとして算出することを特徴とする請求項１～５のいずれか一つに記載の評価プログラム。
前記合計値または前記平均値を算出する処理は、前記第１の信号レベルに第１係数を乗算し、前記第２の信号レベルに前記第１係数とは異なる第２係数を乗算した後に、前記第１の信号レベルと前記第２の信号レベルとの合計値または平均値を算出することを特徴とする請求項１～８のいずれか一つに記載の評価プログラム。
コンピュータが実行する評価方法であって、
第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出し、
前記第１の信号レベルと前記第２の信号レベルとの比率を算出し、
前記第１の信号レベルと前記第２の信号レベルとの合計値、または、平均値を算出し、
算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第１の音声信号または前記第２の音声信号を評価する
処理を実行することを特徴とする評価方法。
第１の音声信号の第１の信号レベルを算出するとともに、第２の音声信号の第２の信号レベルを算出する信号レベル算出部と、
前記第１の信号レベルと前記第２の信号レベルとの比率を算出し、前記第１の信号レベルと前記第２の信号レベルとの合計値、または、平均値を算出し、算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第１の音声信号または前記第２の音声信号を評価する評価部と
を有することを特徴とする評価装置。