JP6524674B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP6524674B2 JP6524674B2 JP2015010342A JP2015010342A JP6524674B2 JP 6524674 B2 JP6524674 B2 JP 6524674B2 JP 2015010342 A JP2015010342 A JP 2015010342A JP 2015010342 A JP2015010342 A JP 2015010342A JP 6524674 B2 JP6524674 B2 JP 6524674B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- utterance
- section
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、規定部4、算出部5、評価部6を有する。図2は、音声処理装置1の音声処理のフローチャートである。実施例1においては、図2に示す音声処理装置1による音声処理のフローを、図1に示す音声処理装置1の機能ブロック図の各機能の説明に対応付けて説明する。
(数1)
ここで、nは、第1音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(nは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、第1音声の振幅(電力)を示す。
雑音推定部10は、フレームnにおける雑音の大きさ(電力)N(n)を、フレームnにおける音量S(n)、前フレーム(n−1)における音量S(n−1)ならびに、雑音の大きさN(n−1)に基づいて、次式を用いて推定することが出来る。
(数2)
ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数2)において、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化しない場合には、フレームnの雑音電力N(n)が更新される。一方、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化する場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。なお、雑音電力N(n)を上述の雑音推定結果と称しても良い。
雑音推定部10は、雑音の大きさの更新を、次式の(数3)を用いて、フレームnの音量S(n)と、1つ前のフレームn−1の雑音電力N(n−1)との比に基づいて実施しても良い。
(数3)
ここで、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数3)において、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍未満である場合には、フレームnの雑音電力N(n)を更新する。一方、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍以上である場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。
(数4)
ここで、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
(数5)
上述の(数5)において、tはフレーム番号を示す。なお、1フレームは、例えば、20msである。また、上述の(数5)においては、tフレーム目の第1音声が発話区間と判定された場合はv1(t)=1が代入され、tフレーム目の第1音声が無音区間と判定された場合はv1(t)=0と代入されることを意味する。区間決定部12は、v1(t)=1を連続して満たすフレーム区間を第1発話区間として出力する。なお、区間決定部12は、第2音声に関する判定結果v2(t)をv1(t)と同様の手法を用いて算出し、第2発話区間を出力する。
(数6)
上述の(数6)は、第1ユーザの第1音声と第2ユーザの第2音声の何れかが無音区間(非発話区間)と判定されるフレームに対しては重複時間を0(重複区間の発現無し)と規定し、第1ユーザの第1音声と第2ユーザの第2音声の双方が発話区間と判定されるフレームに対しては直前のフレームまでの重複時間に1フレーム加算することで、重複が連続するフレーム数(重複区間)を算出することを意味する。規定部4は、規定した重複区間を算出部5に出力する。
(数7)
上述の(数7)は、L(t)≧TH_Lの条件を満たす場合は、重複区間が発生して、算出部5が重複区間の始点Tsを算出することを示し、L(t)≧TH_Lの条件を満たさない場合は、重複区間が発生していないことを示す。
(数8)
上述の(数8)は、直前フレーム(t−1)が、発話区間と判定され、かつ、現フレーム(t)が、無音区間(非発話区間)と判定された場合に発話終了と判定し、直前フレーム(t−1)を第1発話区間の終点となる時刻Teとして算出することを意味する。また、それ以外の場合は、発話区間が継続中または非発話区間であるため、発話終了時刻Teをリセットすることを意味する。
(数9)
CL=Te−Ts
図1の規定部4は、第1発話区間または第2発話区間に含まれる母音数を算出し、当該第1発話区間と第2発話区間が所定の第2閾値(例えば、第2閾値=5)以上の母音数で重複する場合に、重複区間を規定しても良い。換言すると、例えば、「はい」、「いいえ」、「うんうん」、「本当?」、「そうです」等の一般的に相槌に該当する単語の大半の母音数は、例えば、4である為、規定部4は、第1発話区間または第2発話区間に含まれる母音数が第2閾値未満であれば、単なる相槌であり、会話の妨げにならない為、第1発話区間と第2発話区間の重複区間として取扱わないことが出来る。なお、算出部5は、フォルマント分布に基づく母音数の検出方法として、例えば特開2009−258366号公報に記載の方法を用いることが出来る。
図1の規定部4は、第1発話区間と、第2発話区間のいずれか早い区間の開始時刻から任意の第5閾値(例えば、第5閾値=30秒)の時間経過後に、重複区間を規定しても良い。会話の開始直後は、重複時間が長くても発話印象に影響を与えない挨拶の発話が多いため、発話の印象を判定する対象区間から除外することで判定精度を改善できる。また、規定部4は、第1発話区間と、第2発話区間のいずれか遅い区間の終了時刻から当該第5閾値の経過前に重複区間を規定しても良い。会話終了直前は、重複時間が長くても発話印象に影響を与えない挨拶の発話が多いため、発話の印象を判定する対象区間から除外することで判定精度を改善できる。なお、音声処理装置1は、実施例1ないし実施例3の処理を任意に組み合わせた音声処理を行うことが出来る。実施例3における音声処理装置1によれば、第2ユーザの第1ユーザに対する発話の印象をより高い精度で評価することが可能となる。
図1の検出部3は、第1音声と第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、規定部4は、第1信号品質と第2信号品質が第3閾値(例えば、第3閾値=−60dBov)以上であり、かつ、第1発話区間と第2発話区間が重複する区間を重複区間として規定しても良い。なお、第1信号品質または第2信号品質は、第1音声または第2音声のパワーまたは信号対雑音比であれば良い。例えば、規定部4は、第1ユーザと第2ユーザが共に所定のパワー(音量)以上で発話している場合に、重複区間を規定しても良い。これは、第1ユーザと第2ユーザの何れか一方が、比較的低いパワーで発話している場合、発話の印象に大きな影響を与えないことも想定される為である。検出部3は、上述の(数1)に加えて、次式に基づいて、第1発話区間または、第2発話区間の平均パワーP1とP2を算出することが出来る。なお、平均パワーP1とP2は、それぞれ、第1信号品質と第2信号品質と称しても良い。
(数10)
上述の(数10)において、s1(t)とs2(t)は、それぞれ第1音声と第2音声の振幅を表す。規定部4は、第1発話区間ならびに第2発話区間の平均パワーと、任意の閾値TH_P(第3閾値と称しても良い)との比較結果に基づき、重複区間の発生を判定し、重複区間の始点時刻Tsを規定することが出来る。具体的には、第1発話区間の平均パワーと第2発話区間の平均パワーが、任意の閾値TH_P以上の場合は、第1ユーザと第2ユーザがともに所定以上のパワー(大きな音声)で発話している状況である為、発話区間の重複が発生したと判定し、規定部4は、重複区間の始点時刻Tsを規定する。それ以外の場合は、第1ユーザまたは第2ユーザの何れか一方が小さな声で発話している状況であるため、重複区間が発生していないものとして判定し、規定部4は、重複区間の始点時刻Tsをリセットする。なお、任意の閾値TH_Pは例えば、−60[dBov]とすれば良い。なお、規定部4は、次式に基づいて重複区間を算出することが出来る。
(数11)
上述の(数11)において、Ts=t−TH_Lは重複区間の発生が有ることを意味し、Ts=−1は重複区間の発生が無いことを示す。
(数12)
上述の(数12)において、Ts=t−TH_Lは重複区間の発生が有ることを意味し、Ts=−1は重複区間の発生が無いことを示す。なお、音声処理装置1は、実施例1ないし実施例4の処理を任意に組み合わせた音声処理を行うことが出来る。実施例4における音声処理装置1によれば、第2ユーザの第1ユーザに対する発話の印象をより高い精度で評価することが可能となる。
検出部3は、第1音声と第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、規定部4は、第1信号品質と第2信号品質が第3閾値(例えば、第3閾値=10dB)以上であり、かつ、第1発話区間と第2発話区間が重複する区間を重複区間として規定しても良い。なお、第1信号品質または第2信号品質は、第1音声または第2音声のパワーまたは信号対雑音比であれば良い。例えば、検出部3は、第1発話区間に関する判定結果v1(t)に応じて、次式に基づく雑音パワーN1(t)を更新する。例えば、t番目のフレームが非発話区間と判定された場合は、検出部3は、フレームパワーに忘却係数COEF1を乗じた値を加算することで、雑音パワーを更新する。なお、忘却係数COEF1は、例えば0.05と規定することが出来る。
(数13)
上述の(数13)において、上段はv1(t)=0の場合であり、下段は上記以外の場合を示す。また、検出部3は、第2発話区間に関する判定結果v2(t)に応じて、雑音パワーN1(t)と同様に雑音パワーN2(t)を更新する。次に、規定部4は、重複区間の長さが上述の第1閾値TH_L以上であり、第1発話区間の第1信号品質の一例となるSNR1(t)と、第2発話区間の第2信号品質のSNR2(t)が第3閾値TH_SNR(例えば10dB)以上である場合に、重複区間の発生を検出し、重複区間の発生時刻Tsを次式に基づいて規定する。
(数14)
なお、上述の(数14)において、Ts=t−TH_Lは重複区間の発生が有ることを意味し、Ts=−1は重複区間の発生が無いことを示す。
(数15)
上述の(数15)において、Ts=t−TH_Lは重複区間の発生が有ることを意味し、Ts=−1は重複区間の発生が無いことを示す。なお、音声処理装置1は、実施例1ないし実施例5の処理を任意に組み合わせた音声処理を行うことが出来る。実施例5における音声処理装置1によれば、第2ユーザの第1ユーザに対する発話の印象をより高い精度で評価することが可能となる。
図7は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、端末インタフェース部34、マイク35、スピーカ36、制御部37、主記憶部38、補助記憶部39を有する。
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
タ端末とのインタフェース処理を行う。
図8は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図8に示す通り、音声処理装置1は、コンピュータ100、およびコンピュータ100に接続する入出力装置(周辺機器)を含んで構成される。
(付記1)
第1ユーザの第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出する検出部と、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定する規定部と、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出する算出部と、
少なくとも前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する評価部
を備えることを特徴とする音声処理装置。
(付記2)
前記規定部は、前記第1発話区間と前記第2発話区間が第1閾値以上の長さで重複する場合に、前記重複区間を規定することを特徴とする付記1記載の音声処理装置。
(付記3)
前記規定部は、前記第1発話区間または前記第2発話区間に含まれる母音数を算出し、
前記第1発話区間と前記第2発話区間が第2閾値以上の前記母音数で重複する場合に、前記重複区間を規定することを特徴とする付記1または付記2記載の音声処理装置。
(付記4)
前記検出部は、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定部は、前記第1信号品質と前記第2信号品質が第3閾値以上であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する付記1ないし付記3の何れか一つに記載の音声処理装置。
(付記5)
前記検出部は、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定部は、前記第1信号品質と前記第2信号品質の差が第4閾値未満であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する付記1ないし付記3の何れか一つに記載の音声処理装置。
(付記6)
前記第1信号品質または前記第2信号品質は、前記第1音声または前記第2音声のパワーまたは信号対雑音比であることを特徴とする付記3ないし付記5の何れか一つに記載の音声処理装置。
(付記7)
前記規定部は、前記第1発話区間と、前記第2発話区間のいずれか早い区間の開始時刻から第5閾値の時間経過後に前記重複区間を規定することを特徴とする付記1ないし付記6の何れか一つに記載の音声処理装置。
(付記8)
前記規定部は、前記第1発話区間と、前記第2発話区間のいずれか遅い区間の終了時刻から前記第5閾値の時間経過前に前記重複区間を規定することを特徴とする付記1ないし付記7の何れか一つに記載の音声処理装置。
(付記9)
前記第1音声または前記第2音声は、送話音声または受話音声であることを特徴とする付記1ないし付記8の何れか一つに記載の音声処理装置。
(付記10)
前記評価部は、前記第1発話継続区間の長さが第6閾値以上の場合に、前記印象を悪い印象と評価することを特徴とする付記1ないし付記9の何れか一つに記載の音声処理装置。
(付記11)
第1ユーザの前記第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出し、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定し、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出し、
少なくとも前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する
ことを含むことを特徴とする音声処理方法。
(付記12)
前記規定することは、前記第1発話区間と前記第2発話区間が第1閾値以上の長さで重複する場合に、前記重複区間を規定することを特徴とする付記11記載の音声処理方法。
(付記13)
前記規定することは、前記第1発話区間または前記第2発話区間に含まれる母音数を算出し、
前記第1発話区間と前記第2発話区間が第2閾値以上の前記母音数で重複する場合に、前記重複区間を規定することを特徴とする付記11または付記12記載の音声処理方法。
(付記14)
前記検出することは、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定することは、前記第1信号品質と前記第2信号品質が第3閾値以上であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する付記11ないし付記13の何れか一つに記載の音声処理方法。
(付記15)
前記検出することは、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定することは、前記第1信号品質と前記第2信号品質の差が第4閾値未満であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する付記11ないし付記13の何れか一つに記載の音声処理方法。
(付記16)
前記第1信号品質または前記第2信号品質は、前記第1音声または前記第2音声のパワーまたは信号対雑音比であることを特徴とする付記13ないし付記15の何れか一つに記載の音声処理方法。
(付記17)
前記規定することは、前記第1発話区間と、前記第2発話区間のいずれか早い区間の開始時刻から第5閾値の時間経過後に前記重複区間を規定することを特徴とする付記11ないし付記16の何れか一つに記載の音声処理方法。
(付記18)
前記規定することは、前記第1発話区間と、前記第2発話区間のいずれか遅い区間の終了時刻から前記第5閾値の時間経過前に前記重複区間を規定することを特徴とする付記11ないし付記17の何れか一つに記載の音声処理方法。
(付記19)
前記第1音声または前記第2音声は、送話音声または受話音声であることを特徴とする付記11ないし付記18の何れか一つに記載の音声処理方法。
(付記20)
前記評価することは、前記第1発話継続区間の長さが第6閾値以上の場合に、前記印象を悪い印象と評価することを特徴とする付記11ないし付記19の何れか一つに記載の音声処理方法。
(付記21)
コンピュータに、
第1ユーザの第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出し、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定し、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出し、
少なくとも前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する
ことを実行させることを特徴とする音声処理プログラム。
2 取得部
3 検出部
4 規定部
5 算出部
6 評価部
Claims (12)
- 第1ユーザの第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出する検出部と、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定する規定部と、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出する算出部と、
前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する評価部
を備えることを特徴とする音声処理装置。 - 前記規定部は、前記第1発話区間と前記第2発話区間が第1閾値以上の長さで重複する場合に、前記重複区間を規定することを特徴とする請求項1記載の音声処理装置。
- 前記規定部は、前記第1発話区間または前記第2発話区間に含まれる母音数を算出し、
前記第1発話区間と前記第2発話区間が第2閾値以上の前記母音数で重複する場合に、前記重複区間を規定することを特徴とする請求項1または請求項2記載の音声処理装置。 - 前記検出部は、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定部は、前記第1信号品質と前記第2信号品質が第3閾値以上であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する請求項1ないし請求項3の何れか一項に記載の音声処理装置。 - 前記検出部は、前記第1音声と前記第2音声に含まれる複数のフレームの第1信号品質と第2信号品質をそれぞれ検出し、
前記規定部は、前記第1信号品質と前記第2信号品質の差が第4閾値未満であり、かつ、前記第1発話区間と前記第2発話区間が重複する区間を前記重複区間として規定する請求項1ないし請求項3の何れか一項に記載の音声処理装置。 - 前記第1信号品質または前記第2信号品質は、前記第1音声または前記第2音声のパワーまたは信号対雑音比であることを特徴とする請求項4または請求項5に記載の音声処理装置。
- 前記規定部は、前記第1発話区間と、前記第2発話区間のいずれか早い区間の開始時刻から第5閾値の時間経過後に前記重複区間を規定することを特徴とする請求項1ないし請求項6の何れか一項に記載の音声処理装置。
- 前記規定部は、前記第1発話区間と、前記第2発話区間のいずれか遅い区間の終了時刻から前記第5閾値の時間経過前に前記重複区間を規定することを特徴とする請求項1ないし請求項7の何れか一項に記載の音声処理装置。
- 前記第1音声または前記第2音声は、送話音声または受話音声であることを特徴とする請求項1ないし請求項8の何れか一項に記載の音声処理装置。
- 前記評価部は、前記第1発話継続区間の長さが第6閾値以上の場合に、前記印象を悪い印象と評価することを特徴とする請求項1ないし請求項9の何れか一項に記載の音声処理装置。
- 第1ユーザの第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出し、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定し、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出し、
前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する
ことを含むことを特徴とする音声処理方法。 - コンピュータに、
第1ユーザの第1音声に含まれる第1発話区間と、第2ユーザの第2音声に含まれる第2発話区間を検出し、
前記第1発話区間と前記第2発話区間が重複する重複区間を規定し、
前記重複区間の始点から前記第1発話区間の終点までの第1発話継続区間を算出し、
前記第1発話継続区間の長さに関する情報に基づいて、前記第1音声に対する印象を評価する
ことを実行させることを特徴とする音声処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015010342A JP6524674B2 (ja) | 2015-01-22 | 2015-01-22 | 音声処理装置、音声処理方法および音声処理プログラム |
US14/952,446 US10403289B2 (en) | 2015-01-22 | 2015-11-25 | Voice processing device and voice processing method for impression evaluation |
CN201510920109.1A CN105825869B (zh) | 2015-01-22 | 2015-12-11 | 语音处理装置和语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015010342A JP6524674B2 (ja) | 2015-01-22 | 2015-01-22 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016133774A JP2016133774A (ja) | 2016-07-25 |
JP6524674B2 true JP6524674B2 (ja) | 2019-06-05 |
Family
ID=56434138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015010342A Expired - Fee Related JP6524674B2 (ja) | 2015-01-22 | 2015-01-22 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10403289B2 (ja) |
JP (1) | JP6524674B2 (ja) |
CN (1) | CN105825869B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6641832B2 (ja) * | 2015-09-24 | 2020-02-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
CN107028524A (zh) * | 2015-12-08 | 2017-08-11 | 太琦科技股份有限公司 | 语音控制型洗浴系统及其操作方法 |
KR102668438B1 (ko) * | 2016-12-26 | 2024-05-24 | 현대자동차주식회사 | 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법 |
JP7143574B2 (ja) | 2017-07-18 | 2022-09-29 | 富士通株式会社 | 評価プログラム、評価方法および評価装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2808906B2 (ja) | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
JPH0836396A (ja) * | 1994-07-21 | 1996-02-06 | Hitachi Ltd | 音声認識装置 |
US6363145B1 (en) * | 1998-08-17 | 2002-03-26 | Siemens Information And Communication Networks, Inc. | Apparatus and method for automated voice analysis in ACD silent call monitoring |
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
JP4150798B2 (ja) * | 2004-07-28 | 2008-09-17 | 国立大学法人徳島大学 | デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体 |
US7571104B2 (en) * | 2005-05-26 | 2009-08-04 | Qnx Software Systems (Wavemakers), Inc. | Dynamic real-time cross-fading of voice prompts |
JP4567606B2 (ja) | 2006-01-05 | 2010-10-20 | 富士通株式会社 | 音声データの聞き出し部分特定処理プログラムおよび処理装置 |
CN101458927A (zh) * | 2007-12-11 | 2009-06-17 | 财团法人资讯工业策进会 | 产生及侦测混淆音的方法及系统 |
JP4906776B2 (ja) | 2008-04-16 | 2012-03-28 | 株式会社アルカディア | 音声制御装置 |
WO2009145192A1 (ja) | 2008-05-28 | 2009-12-03 | 日本電気株式会社 | 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体 |
JP5347455B2 (ja) | 2008-11-28 | 2013-11-20 | 富士通株式会社 | 会話異常検知装置、会話異常検知方法、及び会話異常検知プログラム |
JP4972107B2 (ja) * | 2009-01-28 | 2012-07-11 | 日本電信電話株式会社 | 通話状態判定装置、通話状態判定方法、プログラム、記録媒体 |
JP2010175984A (ja) | 2009-01-30 | 2010-08-12 | Kyocera Mita Corp | 画像形成装置 |
WO2011105003A1 (ja) * | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | 信号処理装置及び信号処理方法 |
US20110282662A1 (en) * | 2010-05-11 | 2011-11-17 | Seiko Epson Corporation | Customer Service Data Recording Device, Customer Service Data Recording Method, and Recording Medium |
JP5477153B2 (ja) * | 2010-05-11 | 2014-04-23 | セイコーエプソン株式会社 | 接客データ記録装置、接客データ記録方法およびプログラム |
CN102014126B (zh) * | 2010-10-26 | 2013-06-26 | 同济大学 | 一种基于QoS的语音体验质量评测平台及评测方法 |
CN102682760B (zh) * | 2011-03-07 | 2014-06-25 | 株式会社理光 | 重叠语音检测方法和系统 |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
US8694307B2 (en) * | 2011-05-19 | 2014-04-08 | Nice Systems Ltd. | Method and apparatus for temporal speech scoring |
JP2014123813A (ja) | 2012-12-20 | 2014-07-03 | Ntt Comware Corp | オペレータ対顧客会話自動採点装置およびその動作方法 |
-
2015
- 2015-01-22 JP JP2015010342A patent/JP6524674B2/ja not_active Expired - Fee Related
- 2015-11-25 US US14/952,446 patent/US10403289B2/en active Active
- 2015-12-11 CN CN201510920109.1A patent/CN105825869B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016133774A (ja) | 2016-07-25 |
US10403289B2 (en) | 2019-09-03 |
US20160217791A1 (en) | 2016-07-28 |
CN105825869A (zh) | 2016-08-03 |
CN105825869B (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US9293133B2 (en) | Improving voice communication over a network | |
JP6524674B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US20230317096A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
CN112071328B (zh) | 音频降噪 | |
EP2816558B1 (en) | Speech processing device and method | |
CN106098078B (zh) | 一种可过滤扬声器噪音的语音识别方法及其系统 | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP6641832B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2011248025A (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
US20140350937A1 (en) | Voice processing device and voice processing method | |
US9489958B2 (en) | System and method to reduce transmission bandwidth via improved discontinuous transmission | |
US20150340048A1 (en) | Voice processing device and voice processsing method | |
US9972338B2 (en) | Noise suppression device and noise suppression method | |
JP6394103B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN112071324B (zh) | 应用语音级别估计模型来选择输出通道的方法、系统 | |
JP6260138B2 (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
JP2014106247A (ja) | 信号処理装置、信号処理方法および信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171215 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20180528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6524674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |