JP2010112995A - 通話音声処理装置、通話音声処理方法およびプログラム - Google Patents
通話音声処理装置、通話音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP2010112995A JP2010112995A JP2008283068A JP2008283068A JP2010112995A JP 2010112995 A JP2010112995 A JP 2010112995A JP 2008283068 A JP2008283068 A JP 2008283068A JP 2008283068 A JP2008283068 A JP 2008283068A JP 2010112995 A JP2010112995 A JP 2010112995A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- sound
- unit
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】通話音声処理装置10は、第1の入力装置から入力される第1の入力音声の特性を、第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部104と、第2の入力音声を複数の音声に分離する音声分離部112と、音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部122と、音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部120と、混合比算出部により算出された混合比で音声分離部により分離された複数の音声を混合する音声混合部124と、音声混合部により混合された混合音声を用いて、入力補正部により補正された第1の入力音声から特定の音声を抽出する抽出部106と、を備える。
【選択図】図1
Description
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、異なる特性のマイクを用いて通話音声を強調することが可能な、新規かつ改良された通話音声処理装置、通話音声処理方法およびプログラムを提供することにある。
〔1〕本実施形態の目的
〔2〕本発明の第1実施形態にかかる音声処理装置の説明
〔2−1〕本実施形態にかかる音声処理装置の機能構成
〔2−2〕本実施形態にかかる音声処理装置の動作
〔3〕本発明の第2実施形態にかかる音声処理装置の説明
〔3−1〕本実施形態にかかる音声処理装置の機能構成
まず、本発明の実施形態の目的について説明する。通常、携帯電話等の通信装置においては、単一の通話用マイクのみを利用して通話を行っている。このため、複数のマイクを用いてマイク間の空間伝達特性の相違を利用した高音質化を行うことができなかった。単一音声を用いて雑音除去を行う場合には、スペクトルサブトラクション等、出力音声に歪みを付加する手法を用いる以外の選択肢が存在しなかった。
次に、本実施形態にかかる通話音声処理装置の一例として、通話音声処理装置10の機能構成および動作について説明する。
図1を参照して、通話音声処理装置10の機能構成について説明する。本実施形態にかかる通話音声処理装置10は、上記したように、異なる特性のマイクを用いて通話音声を強調することができる。通話音声処理装置10は、例えば、撮像用カメラを搭載した携帯電話等の通信装置を例示できる。
以上、本実施形態にかかる通話音声処理装置10の機能構成について説明した。次に、図8を参照して、通話音声処理装置10において実行される通話音声処理方法について説明する。図8は、本実施形態にかかる通話音声処理装置10において実行される音声処理方法の流れを示したフローチャートである。図8に示したように、まず、通話音声処理装置10の第1音声収音部102は、第1の入力音声である通話音声を収音する。また第2音声収音部110は、第2の入力音声である撮像時の音声を収音する(S102)。
上記したように、第1の実施形態では、第2の入力音声の音声分離を行って、分離された第2の入力音声の再混合を行っていた。しかし、第2の実施形態では、第2の入力音声だけでなく第1の入力音声も用いて入力音声の分離を行う。したがって、抽出部106においては、第1の入力音声も含まれた混合音声を用いて通話音声の抽出が行われる。以下では、第1実施形態と異なる部分について特に詳細に説明し、第1実施形態と同様の構成については詳細な説明を省略する。
図9を参照して、本実施形態にかかる通話音声処理装置11の機能構成について説明する。上記したように、本実施形態にかかる通話音声処理装置11は、通話マイクから入力される第1の入力音声と撮像マイクから入力された第2の入力音声の双方を用いて入力音声の分離を行う。
102 第1音声収音部
104 入力補正部
106 抽出部
108 音声判定部
110 第2音声収音部
112 音声分離部
114 記録部
116 記憶部
118 同一性判断部
120 混合比算出部
122 音声種別推定部
124 音声混合部
Claims (17)
- 第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離する音声分離部と、
前記音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、
前記音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、
前記混合比算出部により算出された混合比で前記音声分離部により分離された前記複数の音声を混合する音声混合部と、
前記音声混合部により混合された混合音声を用いて、前記入力補正部により補正された前記第1の入力音声から特定の音声を抽出する抽出部と、
を備える、通話音声処理装置。 - 前記第1の入力装置は通話マイクであり、前記第2の入力装置は撮像マイクであり、
前記抽出部により抽出される前記特定の音声は通話者の音声である、請求項1に記載の通話音声処理装置。 - 前記音声分離部は、
前記第1の入力音声および前記第2の入力音声を複数の音声に分離する、請求項1および2のいずれかに記載の通話音声処理装置。 - 前記第1の入力音声に通話者の音声が含まれるか否かを判定する音声判定部を備える、請求項1〜3のいずれかに記載の通話音声処理装置。
- 前記音声判定部は、
入力音声の音量、スペクトル、複数入力音声の位相差、離散時間における振幅情報の分布のうちのいずれか1つ以上を用いて、音源の方向、距離、音色を特定し、通話者音源が含まれているか否かを判定する、請求項4に記載の通話音声処理装置。 - 前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声の周波数特性を補正する、請求項1〜5のいずれかに記載の通話音声処理装置。
- 前記入力補正部は、前記第1の入力音声および/または前記第2の入力音声のサンプリングレート変換を行う、請求項1〜6のいずれかに記載の通話音声処理装置。
- 前記入力補正部は、前記第1の入力音声と前記第2の入力音声とのA/D変換による遅延の相違を補正する、請求項1〜7のいずれかに記載の通話音声処理装置。
- 前記音声分離部は、ブロック単位で前記入力音声を複数の音声に分離し、
前記音声分離部により分離された音声が複数のブロック間で同一か否かを判断する同一性判断部と、
前記音声分離部により分離された音声をブロック単位で記録する記録部と、
を備える、請求項1〜8のいずれかに記載の通話音声処理装置。 - 前記音声分離部は、音声の統計的な独立性と空間伝達特性の相違を用いて、前記入力音声を複数の音声に分離する、請求項1〜9のいずれかに記載の通話音声処理装置。
- 前記音声分離部は、音源の時間周波数成分間の重なりの少なさを用いて特定音源から発せられた音声とそれ以外の音声とを分離する、請求項1〜10のいずれかに記載の通話音声処理装置。
- 前記音声種別推定部は、前記入力音声の離散時間における振幅情報の分布、方向、音量、ゼロ交差数等を用いて、前記入力音声が定常音声か非定常音声かを推定する、請求項1〜11のいずれかに記載の通話音声処理装置。
- 前記音声種別推定部は、前記非定常音声であると推定された音声がノイズ音声か人の発した音声かを推定する、請求項11に記載の通話音声処理装置。
- 前記混合比算出部は、前記音声種別推定部により、定常音声であると推定された音声の音量が大きく変化しない混合比を算出する、請求項11に記載の通話音声処理装置。
- 前記混合比算出部は、前記音声種別推定部によりノイズ音声であると推定された音声の音量を低減し、人の発した音声であると推定された音声の音量を低減しなし混合比を算出する、請求項12に記載の通話音声処理装置。
- 第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正するステップと、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離するステップと、
前記分離された複数の音声の音声種別を推定するステップと、
前記推定された音声種別に応じて各音声の混合比を算出するステップと、
前記算出された混合比で前記分離された複数の音声を混合するステップと、
前記混合された混合音声を用いて、前記補正された前記第1の入力音声から特定の音声を抽出するステップと、
を含む、通話音声処理方法。 - コンピュータを、
第1の入力装置から入力される第1の入力音声の特性を、前記第1の入力音声と特性の異なる第2の入力装置から入力される第2の入力音声の特性に補正する入力補正部と、
前記第2の入力音声に複数の音声が含まれている場合に、前記第2の入力音声を複数の音声に分離する音声分離部と、
前記音声分離部により分離された複数の音声の音声種別を推定する音源種別推定部と、
前記音声種別推定部により推定された音声種別に応じて各音声の混合比を算出する混合比算出部と、
前記混合比算出部により算出された混合比で前記音声分離部により分離された前記複数の音声を混合する音声混合部と、
前記音声混合部により混合された混合音声を用いて、前記入力補正部により補正された前記第1の入力音声から特定の音声を抽出する抽出部と、
を備える、通話音声処理装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008283068A JP4816711B2 (ja) | 2008-11-04 | 2008-11-04 | 通話音声処理装置および通話音声処理方法 |
US12/611,908 US20100111290A1 (en) | 2008-11-04 | 2009-11-03 | Call Voice Processing Apparatus, Call Voice Processing Method and Program |
CN2009102093334A CN101740035B (zh) | 2008-11-04 | 2009-11-04 | 通话语音处理装置、通话语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008283068A JP4816711B2 (ja) | 2008-11-04 | 2008-11-04 | 通話音声処理装置および通話音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010112995A true JP2010112995A (ja) | 2010-05-20 |
JP4816711B2 JP4816711B2 (ja) | 2011-11-16 |
Family
ID=42131412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008283068A Expired - Fee Related JP4816711B2 (ja) | 2008-11-04 | 2008-11-04 | 通話音声処理装置および通話音声処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100111290A1 (ja) |
JP (1) | JP4816711B2 (ja) |
CN (1) | CN101740035B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020195924A1 (ja) | 2019-03-27 | 2020-10-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102710542B (zh) * | 2012-05-07 | 2015-04-01 | 苏州阔地网络科技有限公司 | 一种声音处理的方法及系统 |
CN102710604B (zh) * | 2012-05-07 | 2015-04-01 | 苏州阔地网络科技有限公司 | 一种声音提取的方法及系统 |
JP6289936B2 (ja) * | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
FR3067511A1 (fr) * | 2017-06-09 | 2018-12-14 | Orange | Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal |
CN107613134B (zh) * | 2017-09-29 | 2021-04-20 | 惠州Tcl移动通信有限公司 | 一种通话音量的控制方法、移动终端及存储介质 |
CN107819964B (zh) * | 2017-11-10 | 2021-04-06 | Oppo广东移动通信有限公司 | 提高通话质量的方法、装置、终端和计算机可读存储介质 |
CN110430330A (zh) * | 2019-08-08 | 2019-11-08 | 北京云中融信网络科技有限公司 | 一种基于通话的音频数据处理方法及装置 |
CN111883166B (zh) * | 2020-07-17 | 2024-05-10 | 北京百度网讯科技有限公司 | 一种语音信号处理方法、装置、设备以及存储介质 |
CN116990755A (zh) * | 2023-09-22 | 2023-11-03 | 海宁市微纳感知计算技术有限公司 | 一种鸣笛声源定位方法、系统、电子设备及可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02277308A (ja) * | 1989-04-18 | 1990-11-13 | Yamaha Corp | デジタルミキシング回路 |
JPH08316751A (ja) * | 1995-05-19 | 1996-11-29 | Sony United Kingdom Ltd | 音声ミキシング操作卓 |
JP2002099297A (ja) * | 2000-09-22 | 2002-04-05 | Tokai Rika Co Ltd | マイクロフォン装置 |
JP2004304560A (ja) * | 2003-03-31 | 2004-10-28 | Fujitsu Ltd | 電子装置 |
JP2005308771A (ja) * | 2004-04-16 | 2005-11-04 | Nec Corp | 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム |
JP2006178314A (ja) * | 2004-12-24 | 2006-07-06 | Tech Res & Dev Inst Of Japan Def Agency | 混合信号分離・抽出装置 |
JP2006211570A (ja) * | 2005-01-31 | 2006-08-10 | Matsushita Electric Ind Co Ltd | 撮影装置 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JP2008197577A (ja) * | 2007-02-15 | 2008-08-28 | Sony Corp | 音声処理装置、音声処理方法およびプログラム |
JP2008236077A (ja) * | 2007-03-16 | 2008-10-02 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム |
JP2008258808A (ja) * | 2007-04-03 | 2008-10-23 | Toshiba Corp | 信号分離抽出装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
US8259926B1 (en) * | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
KR101456866B1 (ko) * | 2007-10-12 | 2014-11-03 | 삼성전자주식회사 | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 |
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
-
2008
- 2008-11-04 JP JP2008283068A patent/JP4816711B2/ja not_active Expired - Fee Related
-
2009
- 2009-11-03 US US12/611,908 patent/US20100111290A1/en not_active Abandoned
- 2009-11-04 CN CN2009102093334A patent/CN101740035B/zh not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02277308A (ja) * | 1989-04-18 | 1990-11-13 | Yamaha Corp | デジタルミキシング回路 |
JPH08316751A (ja) * | 1995-05-19 | 1996-11-29 | Sony United Kingdom Ltd | 音声ミキシング操作卓 |
JP2002099297A (ja) * | 2000-09-22 | 2002-04-05 | Tokai Rika Co Ltd | マイクロフォン装置 |
JP2004304560A (ja) * | 2003-03-31 | 2004-10-28 | Fujitsu Ltd | 電子装置 |
JP2005308771A (ja) * | 2004-04-16 | 2005-11-04 | Nec Corp | 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム |
JP2006178314A (ja) * | 2004-12-24 | 2006-07-06 | Tech Res & Dev Inst Of Japan Def Agency | 混合信号分離・抽出装置 |
JP2006211570A (ja) * | 2005-01-31 | 2006-08-10 | Matsushita Electric Ind Co Ltd | 撮影装置 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JP2008197577A (ja) * | 2007-02-15 | 2008-08-28 | Sony Corp | 音声処理装置、音声処理方法およびプログラム |
JP2008236077A (ja) * | 2007-03-16 | 2008-10-02 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム |
JP2008258808A (ja) * | 2007-04-03 | 2008-10-23 | Toshiba Corp | 信号分離抽出装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020195924A1 (ja) | 2019-03-27 | 2020-10-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
KR20210145733A (ko) | 2019-03-27 | 2021-12-02 | 소니그룹주식회사 | 신호 처리 장치 및 방법, 그리고 프로그램 |
US11862141B2 (en) | 2019-03-27 | 2024-01-02 | Sony Group Corporation | Signal processing device and signal processing method |
Also Published As
Publication number | Publication date |
---|---|
US20100111290A1 (en) | 2010-05-06 |
JP4816711B2 (ja) | 2011-11-16 |
CN101740035B (zh) | 2012-10-31 |
CN101740035A (zh) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4816711B2 (ja) | 通話音声処理装置および通話音声処理方法 | |
JP4952698B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
US10251005B2 (en) | Method and apparatus for wind noise detection | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
US8065115B2 (en) | Method and system for identifying audible noise as wind noise in a hearing aid apparatus | |
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
EP3526979B1 (en) | Method and apparatus for output signal equalization between microphones | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US8422696B2 (en) | Apparatus and method for removing noise | |
KR20190130533A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
US20160027438A1 (en) | Concurrent Segmentation of Multiple Similar Vocalizations | |
WO2017045512A1 (zh) | 一种语音识别的方法、装置、终端及语音识别设备 | |
CN108389590B (zh) | 一种时频联合的语音削顶检测方法 | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
JP6314475B2 (ja) | 音声信号処理装置及びプログラム | |
US11528556B2 (en) | Method and apparatus for output signal equalization between microphones | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
JP2005284016A (ja) | 音声信号の雑音推定方法およびそれを用いた雑音除去装置 | |
KR101817421B1 (ko) | 두 채널 구조에 기초하는 사전 음성 부재 확률의 추정 방법 | |
JP6221463B2 (ja) | 音声信号処理装置及びプログラム | |
KR20050019686A (ko) | 인간 청각 모델을 이용한 부가잡음 제거장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4816711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |