JP7143574B2 - 評価プログラム、評価方法および評価装置 - Google Patents
評価プログラム、評価方法および評価装置 Download PDFInfo
- Publication number
- JP7143574B2 JP7143574B2 JP2017139228A JP2017139228A JP7143574B2 JP 7143574 B2 JP7143574 B2 JP 7143574B2 JP 2017139228 A JP2017139228 A JP 2017139228A JP 2017139228 A JP2017139228 A JP 2017139228A JP 7143574 B2 JP7143574 B2 JP 7143574B2
- Authority
- JP
- Japan
- Prior art keywords
- signal level
- audio signal
- evaluation
- signal
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行させることを特徴とする評価プログラム。
第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行することを特徴とする評価方法。
算出した前記第1の信号レベルと前記第2の信号レベルとの積算値、または平均値に基づいて、前記第1の音声信号または前記第2の音声信号を評価する評価部と
を有することを特徴とする評価装置。
100,200,300 評価装置
Claims (11)
- 第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、
前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、
算出された前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行させることを特徴とする評価プログラム。 - 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする請求項1に記載の評価プログラム。
- 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る頻度に基づいて、前記第1の音声信号または前記第2の音声信号の印象を評価することを特徴とする請求項1に記載の評価プログラム。
- 前記評価する処理は、前記合計値または前記平均値が所定閾値を上回る継続時間が所定継続時間よりも短い時間帯を除いて、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項3に記載の評価プログラム。
- 前記評価する処理は、発話区間の開始時刻から所定時間後の第1時刻と、前記発話区間の終了時刻から所定時間前の第2時刻との間の時間帯において、前記合計値または前記平均値が所定閾値を上回る頻度を特定することを特徴とする請求項3または4に記載の評価プログラム。
- 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号のパワーを、前記第1の信号レベルとして算出し、前記第2の音声信号のパワーを、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
- 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の信号対雑音比を、前記第1の信号レベルとして算出し、前記第2の音声信号の信号対雑音比を、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
- 前記第1の信号レベルおよび前記第2の信号レベルを算出する処理は、前記第1の音声信号の自己相関の値を、前記第1の信号レベルとして算出し、前記第2の音声信号の自己相関の値を、前記第2の信号レベルとして算出することを特徴とする請求項1~5のいずれか一つに記載の評価プログラム。
- 前記合計値または前記平均値を算出する処理は、前記第1の信号レベルに第1係数を乗算し、前記第2の信号レベルに前記第1係数とは異なる第2係数を乗算した後に、前記第1の信号レベルと前記第2の信号レベルとの合計値または平均値を算出することを特徴とする請求項1~8のいずれか一つに記載の評価プログラム。
- コンピュータが実行する評価方法であって、
第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出し、
前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、
前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、
算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する
処理を実行することを特徴とする評価方法。 - 第1の音声信号の第1の信号レベルを算出するとともに、第2の音声信号の第2の信号レベルを算出する信号レベル算出部と、
前記第1の信号レベルと前記第2の信号レベルとの比率を算出し、前記第1の信号レベルと前記第2の信号レベルとの合計値、または、平均値を算出し、算出した前記比率と、前記合計値、または、前記平均値とに基づいて、前記第1の音声信号または前記第2の音声信号を評価する評価部と
を有することを特徴とする評価装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017139228A JP7143574B2 (ja) | 2017-07-18 | 2017-07-18 | 評価プログラム、評価方法および評価装置 |
US16/035,153 US10741198B2 (en) | 2017-07-18 | 2018-07-13 | Information processing apparatus, method and non-transitory computer-readable storage medium |
EP18183373.2A EP3432302B1 (en) | 2017-07-18 | 2018-07-13 | Information processing apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017139228A JP7143574B2 (ja) | 2017-07-18 | 2017-07-18 | 評価プログラム、評価方法および評価装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019020600A JP2019020600A (ja) | 2019-02-07 |
JP7143574B2 true JP7143574B2 (ja) | 2022-09-29 |
Family
ID=63103750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017139228A Active JP7143574B2 (ja) | 2017-07-18 | 2017-07-18 | 評価プログラム、評価方法および評価装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10741198B2 (ja) |
EP (1) | EP3432302B1 (ja) |
JP (1) | JP7143574B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095975A1 (fr) | 2001-05-22 | 2002-11-28 | Mitsubishi Denki Kabushiki Kaisha | Appareil de traitement d'echos |
JP2009124634A (ja) | 2007-11-19 | 2009-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 客観品質評価装置および方法 |
JP2010259691A (ja) | 2009-05-11 | 2010-11-18 | Panasonic Corp | ストレス測定装置 |
US8897437B1 (en) | 2013-01-08 | 2014-11-25 | Prosodica, LLC | Method and system for improving call-participant behavior through game mechanics |
JP2016133774A (ja) | 2015-01-22 | 2016-07-25 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
US20160232920A1 (en) | 2013-09-27 | 2016-08-11 | Nuance Communications, Inc. | Methods and Apparatus for Robust Speaker Activity Detection |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317567A (en) * | 1991-09-12 | 1994-05-31 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-speaker conferencing over narrowband channels |
US5737405A (en) * | 1995-07-25 | 1998-04-07 | Rockwell International Corporation | Apparatus and method for detecting conversation interruptions in a telephonic switch |
JP4027051B2 (ja) | 2001-03-22 | 2007-12-26 | 松下電器産業株式会社 | 楽曲登録装置、楽曲登録方法、及びそのプログラムと記録媒体 |
US7373209B2 (en) | 2001-03-22 | 2008-05-13 | Matsushita Electric Industrial Co., Ltd. | Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same |
US6833810B2 (en) * | 2002-01-18 | 2004-12-21 | Raytheon Company | Combining signals exhibiting multiple types of diversity |
JP4541911B2 (ja) | 2005-01-26 | 2010-09-08 | 日本電信電話株式会社 | 価値観推定装置およびそのプログラム |
US7596498B2 (en) | 2005-09-02 | 2009-09-29 | Microsoft Corporation | Monitoring, mining, and classifying electronically recordable conversations |
US7881234B2 (en) * | 2006-10-19 | 2011-02-01 | International Business Machines Corporation | Detecting interruptions in audio conversations and conferences, and using a conversation marker indicative of the interrupted conversation |
JP2011254342A (ja) | 2010-06-03 | 2011-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 映像編集方法,映像編集装置および映像編集プログラム |
US9865281B2 (en) * | 2015-09-02 | 2018-01-09 | International Business Machines Corporation | Conversational analytics |
JP6641832B2 (ja) * | 2015-09-24 | 2020-02-05 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
-
2017
- 2017-07-18 JP JP2017139228A patent/JP7143574B2/ja active Active
-
2018
- 2018-07-13 EP EP18183373.2A patent/EP3432302B1/en active Active
- 2018-07-13 US US16/035,153 patent/US10741198B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095975A1 (fr) | 2001-05-22 | 2002-11-28 | Mitsubishi Denki Kabushiki Kaisha | Appareil de traitement d'echos |
JP2009124634A (ja) | 2007-11-19 | 2009-06-04 | Nippon Telegr & Teleph Corp <Ntt> | 客観品質評価装置および方法 |
JP2010259691A (ja) | 2009-05-11 | 2010-11-18 | Panasonic Corp | ストレス測定装置 |
US8897437B1 (en) | 2013-01-08 | 2014-11-25 | Prosodica, LLC | Method and system for improving call-participant behavior through game mechanics |
US20160232920A1 (en) | 2013-09-27 | 2016-08-11 | Nuance Communications, Inc. | Methods and Apparatus for Robust Speaker Activity Detection |
JP2016133774A (ja) | 2015-01-22 | 2016-07-25 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
Non-Patent Citations (1)
Title |
---|
Kofi BOAKYE, et al.,OVERLAPPED SPEECH DETECTION FOR IMPROVED SPEAKER DIARIZATION IN MULTIPARTY MEETINGS,ICASSP 2008,IEEE,2008年03月,p.4353-4356 |
Also Published As
Publication number | Publication date |
---|---|
US10741198B2 (en) | 2020-08-11 |
US20190027165A1 (en) | 2019-01-24 |
JP2019020600A (ja) | 2019-02-07 |
EP3432302A1 (en) | 2019-01-23 |
EP3432302B1 (en) | 2021-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220093111A1 (en) | Analysing speech signals | |
US10867620B2 (en) | Sibilance detection and mitigation | |
JP6636937B2 (ja) | 状況に応じた過渡抑制 | |
CN105118522B (zh) | 噪声检测方法及装置 | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US9754606B2 (en) | Processing apparatus, processing method, program, computer readable information recording medium and processing system | |
CN105825869B (zh) | 语音处理装置和语音处理方法 | |
CN107274892A (zh) | 说话人识别方法及装置 | |
JP2015169827A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP7143574B2 (ja) | 評価プログラム、評価方法および評価装置 | |
Tian et al. | Spoofing detection under noisy conditions: a preliminary investigation and an initial database | |
JP6544439B2 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
JP2008131593A (ja) | ダブルトーク状態判定方法、その方法を用いた反響消去装置、そのプログラム及びその記録媒体 | |
JP2018081277A (ja) | 音声区間検出方法、音声区間検出装置および音声区間検出プログラム | |
EP3261089B1 (en) | Sibilance detection and mitigation | |
JP6904198B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
JP4395105B2 (ja) | 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体 | |
JP2016080767A (ja) | 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム | |
WO2016203753A1 (ja) | 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体 | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7143574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |