JP2006343644A - Speech recognition method, speech recognition apparatus, program, and recording medium - Google Patents
Speech recognition method, speech recognition apparatus, program, and recording medium Download PDFInfo
- Publication number
- JP2006343644A JP2006343644A JP2005170836A JP2005170836A JP2006343644A JP 2006343644 A JP2006343644 A JP 2006343644A JP 2005170836 A JP2005170836 A JP 2005170836A JP 2005170836 A JP2005170836 A JP 2005170836A JP 2006343644 A JP2006343644 A JP 2006343644A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- tone
- speech recognition
- received signal
- maximum amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】電話機の送話信号と受話信号とを別々に音声認識する音声認識方法において、受話信号に回り込む側音成分に起因する音声認識率の低下を改善する。
【解決手段】電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識する音声認識装置において、送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、受話信号の最大振幅を推定する受話信号最大振幅推定部と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧処理部と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識処理部とを備える。
【選択図】図1In a speech recognition method for recognizing separately a speech signal and a reception signal of a telephone, a reduction in speech recognition rate due to a side sound component that wraps around the reception signal is improved.
In a speech recognition apparatus that extracts a transmission signal and a reception signal from a telephone and recognizes the transmission signal and the reception signal separately, a side-tone gain estimation for estimating a gain that the transmission signal wraps around the reception signal. A reception signal maximum amplitude estimation unit that estimates the maximum amplitude of the reception signal, a side sound signal estimation unit that estimates a side sound signal for the transmission signal using the estimated side sound gain and reception signal maximum amplitude, A side-tone suppression processing unit that suppresses the side-tone signal from the received signal by the received side-tone signal, and a voice recognition processing unit that recognizes the received voice and the transmitted voice after the side-tone suppression processing separately.
[Selection] Figure 1
Description
本発明は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号とを別々に音声認識するための音声認識方法、音声認識装置、音声認識プログラム、このプログラムを記録した記録媒体に関する。 The present invention relates to a voice recognition method, a voice recognition device, a voice recognition program, and a recording medium on which this program is recorded, for taking out a transmission signal and a reception signal from a telephone and recognizing the transmission signal and the reception signal separately. About.
図3に示すように電話機19とハンドセット18の間の回線から、ハンドセット18のマイク部11に接続した送話信号に相当する回路と、ハンドセット18のスピーカ部12に接続した受話信号に相当する回線を分岐する分岐装置20(例えば特許文献1)があり、この分岐装置20の送話端子及び受話端子をそれぞれ分けて送話信号と受話信号とを別々に音声認識する音声認識装置110は容易に考えられる。この従来の分岐装置20により送話信号のみを取り出すことは可能である。
通常の電話機19では、電話機19の内部の側音回路15で送話信号が受話信号に回り込んだ側音が受話信号に重畳することになり、受話信号のみを取り出すのは難しい課題がある。また送話信号のレベルが比較的大きく、又は側音回路15の利得が高いために送話信号が受話信号に側音信号として回り込むレベルが高い場合、或いは、側音レベルが受話信号の最大振幅レベルに達してサチュレーションを起こしてしまうような場合には、サチュレーション区間でエコーキャンセラに用いられている適応フィルタの学習がうまく進まず、従って、側音信号のゲインが推定できない状態に陥る。この結果としてエコーキャンセラを用いて側音信号を抑圧処理することは難しく、送話音声と比較して受話音声の音声認識率が低い欠点がある。
In the normal telephone set 19, the side sound in which the transmission signal wraps around the reception signal in the
この発明の目的は送話音声と受話音声とを別々に音声認識する音声認識方法及び装置において、受話音声の音声認識率を向上することができる音声認識方法、及び装置を提供しようとするものである。 An object of the present invention is to provide a speech recognition method and apparatus capable of improving the speech recognition rate of received speech in a speech recognition method and device for recognizing separately transmitted speech and received speech. is there.
この発明による音声認識装置は電話機から送話信号と受話信号とを取り出し、これら送話信号と受話信号を別々に音声認識するための音声認識装置において、送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、受話信号の最大振幅を推定する受話信号最大振幅推定部と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧部と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識部とを含むことを特徴とする。 A voice recognition apparatus according to the present invention extracts a transmission signal and a reception signal from a telephone, and estimates a gain at which the transmission signal wraps around the reception signal in a voice recognition apparatus for recognizing the transmission signal and the reception signal separately. Side-tone gain estimating section, received-signal maximum amplitude estimating section for estimating the maximum amplitude of the received signal, and side-tone signal for estimating the side-tone signal for the transmitted signal using the estimated side-tone gain and received-signal maximum amplitude An estimation unit, a side tone suppression unit that suppresses the side tone signal from the received signal based on the estimated side tone signal, and a voice recognition unit that separately recognizes the received voice and the transmitted voice after the side tone suppression processing It is characterized by that.
この発明による音声認識装置によれば、常時側音ゲインレベルを推定するから、受話信号から側音と呼ばれる送話信号成分を抑圧することで、送話信号と受話信号を可能な限り分けて音声認識することが可能となる。つまり、受話信号に対して音声認識処理を施す場合でも、側音成分を含んだ信号よりも側音成分を除去した信号に対して音声認識処理を施した方が高い認識性能が得られる。また、サチュレーションを起こしてしまうような側音信号に対しても、側音レベルゲインの推定を行っているため、側音信号の抑圧処理が可能であり、これにより受話信号の音声認識率の低減を抑制することができる。 According to the speech recognition apparatus of the present invention, since the side sound gain level is always estimated, the transmitted signal component called the side sound is suppressed from the received signal, so that the transmitted signal and the received signal are separated as much as possible. It becomes possible to recognize. That is, even when the speech recognition process is performed on the received signal, higher recognition performance can be obtained by performing the speech recognition process on the signal from which the side sound component is removed than the signal including the side sound component. In addition, side sound level gain is estimated even for side sound signals that cause saturation, so side sound signal suppression processing is possible, thereby reducing the speech recognition rate of the received signal. Can be suppressed.
この発明による音声認識方法及び音声認識装置はハードウェアによって実現することも可能であるが、それよりも簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータにこの発明による音声認識方法を実行させる実施形態が最良の実施形態である。
コンピュータにこの発明による音声認識方法を実行させるには、コンピュータを以下の手順で動作させればよい。
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定過程と、受話信号の最大振幅を推定する受話信号最大振幅推定過程と、推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定過程と、推定した側音信号により受話信号から側音信号を抑圧する側音抑圧過程と、側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識過程とを実行させ、音声認識装置として機能させる。
The speech recognition method and speech recognition apparatus according to the present invention can be realized by hardware. However, in order to achieve a simpler implementation, the speech recognition program according to the present invention is installed in a computer, and the speech according to the present invention is installed in the computer. The embodiment in which the recognition method is executed is the best embodiment.
In order for a computer to execute the speech recognition method according to the present invention, the computer may be operated according to the following procedure.
Sidetone gain estimation process for estimating the gain that the transmitted signal wraps around the received signal, received signal maximum amplitude estimation process for estimating the maximum amplitude of the received signal, and transmission using the estimated sidetone gain and received signal maximum amplitude Side sound signal estimation process for estimating the side sound signal for the signal, side sound suppression process for suppressing the side sound signal from the received signal by the estimated side sound signal, and the received voice and the transmitted voice after the side sound suppression processing. A voice recognition process is performed separately for voice recognition to function as a voice recognition device.
図1にこの発明による音声認識装置の実施例を示す。図3と対応する部分には同一の符号を付して示す。この実施例でも分岐装置20から送話信号と受話信号とを別々に取り出し、音声認識装置110に入力する点は図3の場合と同じである。
この発明では音声認識装置110に分岐装置20から取り出した受話信号から受話信号最大振幅を推定する受話信号最大振幅推定部21と、側音ゲイン推定部22と、側音抑圧処理部23とが設けられる。
FIG. 1 shows an embodiment of a speech recognition apparatus according to the present invention. Parts corresponding to those in FIG. 3 are denoted by the same reference numerals. In this embodiment, the transmission signal and the reception signal are separately extracted from the
In the present invention, the
受話信号最大振幅推定部21は受話信号をある程度の時間(例えば1秒程度以上)蓄積したデータ系列から最大振幅レベルを推定する。側音ゲイン推定部22では受話信号最大振幅推定部21で推定した最大振幅レベルを手掛かりに最大振幅レベルに達していない非最大振幅レベル区間を検出し、この非最大振幅レベル区間において送話信号と受話信号の関係から側音ゲインを推定する。
The received signal maximum
側音抑圧処理部23では側音ゲイン推定部22で推定した側音ゲインと、最大振幅レベルとから送話信号に対する側音信号を推定し、受話信号に対して側音信号の抑圧処理を施すことで側音信号を含まない受話信号を得る。
側音信号と送話信号の間の時間の遅れは比較的少なく、時間遅れを無視してもある程度の抑圧性能が得られる。最大振幅レベルや、側音ゲインに関しては、フレーム毎に更新していくことで、信号の長さに応じて精度が向上していく。
The side tone
The time delay between the side sound signal and the transmission signal is relatively small, and a certain degree of suppression performance can be obtained even if the time delay is ignored. By updating the maximum amplitude level and sidetone gain for each frame, the accuracy is improved according to the signal length.
側音信号がサチュレーションを起こしてしまっている区間に対して、送られて来た受話信号が重畳している場合は、抑圧処理に大きな歪みが生じてしまう可能性もあるが、元々サチュレーション区間の信号は信頼性も低くクリーン信号に戻すのは困難であり、音声認識性能も期待できないが、この発明では送話信号に起因する側音によりサチュレーションとなる区間が分かるので、例えば、信号を0詰めしてしまうような音声認識に悪影響が起き難いような抑圧処理も可能である。 If the received signal is superimposed on the section where the side sound signal has been saturated, there is a possibility that a large distortion will occur in the suppression process. The signal is low in reliability and difficult to return to a clean signal, and speech recognition performance cannot be expected. However, in the present invention, since a section where saturation is caused by a side sound caused by a transmission signal is known, for example, the signal is padded with zeros. Therefore, it is possible to perform suppression processing that hardly causes adverse effects on voice recognition.
図2にこの発明による音声認識プログラムの概要を説明するためのフローチャートを示す。
受話信号から受話信号最大振幅推定部21で最大振幅レベルを推定する(ステップS1、S2)。
受話信号最大振幅レベルより低い受話信号の区間の送話/受話信号から、側音ゲイン推定部22で、側音ゲイン(受話/送話信号比)を計算、推定し(ステップS3、S4)。
側音抑圧処理部23で、送話信号に推定された側音ゲインを乗算した後、受話信号最大振幅レベルを上限とした振幅となるように側音信号を推定し(ステップS5)。
FIG. 2 shows a flowchart for explaining the outline of the speech recognition program according to the present invention.
The received signal maximum
The side-tone
After the side sound
受話信号から側音信号を減算することで側音信号の抑圧を行う(ステップS6)。最後に抑圧処理後の信号に対して認識処理を行う(ステップS7)。
以上説明したように、この発明によれば受話信号から側音信号を抑圧することで送話信号と受話信号を可能な限り分けて音声認識することが可能となる。従って、受話信号に対して音声認識処理を施す場合でも、側音信号を含んだ信号よりも側音成分を除去した信号に対して音声認識処理を施した方が高い認識性能が得られる。またサチュレーションを起こしてしまうような側音信号に対しても側音レベルゲインの推定を行っているため、抑圧処理が可能となる。
The side tone signal is suppressed by subtracting the side tone signal from the received signal (step S6). Finally, recognition processing is performed on the signal after suppression processing (step S7).
As described above, according to the present invention, by suppressing the side sound signal from the reception signal, it is possible to recognize the voice by dividing the transmission signal and the reception signal as much as possible. Therefore, even when the speech recognition process is performed on the received signal, higher recognition performance can be obtained by performing the speech recognition process on the signal from which the side sound component is removed than the signal including the side sound signal. Further, since the side sound level gain is estimated even for the side sound signal that causes saturation, suppression processing can be performed.
上述したこの発明による音声認識方法及びこの音声認識方法で定める手順に従って動作する音声認識装置はハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータにこの発明による音声認識プログラムをインストールし、コンピュータに音声認識装置として機能させる実施形態が最良である。
この発明による音声認識プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク或いはCD−ROMのような記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。インストールされたプログラムがコンピュータに備えられたCPUで解読されることにより、コンピュータは図2に示した手順に従って音声認識動作を実行する。
The speech recognition method according to the present invention and the speech recognition apparatus that operates according to the procedure defined by the speech recognition method can be configured by hardware. However, in order to realize the simplest, the speech recognition program according to the present invention is installed in a computer. However, the embodiment in which the computer functions as a voice recognition device is the best.
The voice recognition program according to the present invention is written in a computer-readable program language, recorded on a recording medium such as a magnetic disk or CD-ROM that can be read by the computer, and installed in the computer from these recording media or through a communication line. Is done. When the installed program is decoded by a CPU provided in the computer, the computer executes a speech recognition operation in accordance with the procedure shown in FIG.
この発明による音声認識方法及び音声認識装置は例えば自動案内装置或いは自動予約装置等の分野で活用される。 The speech recognition method and speech recognition device according to the present invention are utilized in the field of, for example, an automatic guidance device or an automatic reservation device.
11 マイク部 19 電話機
12 スピーカ部 20 分岐装置
13 送信部 21 受話信号最大振幅推定部
14 受信部 22 側音ゲイン推定部
15 側音回路 23 側音抑圧処理部
16 送話信号録音部 110 音声認識装置
17 受話信号録音部 111 音声認識処理部
18 ハンドセット
DESCRIPTION OF SYMBOLS 11
17 Received
Claims (8)
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定過程と、
受話信号の最大振幅を推定する受話信号最大振幅推定過程と、
推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する過程と、
推定した側音信号により受話信号から側音信号を抑圧する側音抑圧過程と、
側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識過程と、
を含むことを特徴とする音声認識方法。 In a voice recognition method for taking out a transmission signal and a reception signal from a telephone and recognizing these transmission signals and reception signals separately,
Sidetone gain estimation process for estimating the gain that the transmitted signal wraps around the received signal;
A process for estimating the maximum amplitude of the received signal for estimating the maximum amplitude of the received signal;
Using the estimated sidetone gain and received signal maximum amplitude to estimate the sidetone signal for the transmitted signal;
A side-tone suppression process that suppresses the side-tone signal from the received signal based on the estimated side-tone signal;
A speech recognition process for recognizing the received speech and the transmitted speech separately after side-tone suppression processing;
A speech recognition method comprising:
送話信号が受話信号に回り込むゲインを推定する側音ゲイン推定部と、
受話信号の最大振幅を推定する受話信号最大振幅推定部と、
推定した側音ゲインと受話信号最大振幅を用いて送話信号に対する側音信号を推定する側音信号推定部と、
推定した側音信号により受話信号から側音信号を抑圧する側音抑圧処理部と、
側音抑圧処理後の受話音声と送話音声とを別々に音声認識する音声認識処理部と、
を備えることを特徴とする音声認識装置。 In a voice recognition device for taking out a transmission signal and a reception signal from a telephone and recognizing these transmission signals and reception signals separately,
A sidetone gain estimator that estimates the gain that the transmitted signal wraps around the received signal;
A received signal maximum amplitude estimating unit for estimating the maximum amplitude of the received signal;
A side-tone signal estimating unit that estimates a side-tone signal with respect to the transmitted signal using the estimated side-tone gain and the maximum amplitude of the received signal;
A side-tone suppression processing unit that suppresses the side-tone signal from the received signal based on the estimated side-tone signal;
A voice recognition processing unit for recognizing separately the received voice and the transmitted voice after the side-tone suppression processing;
A speech recognition apparatus comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005170836A JP2006343644A (en) | 2005-06-10 | 2005-06-10 | Speech recognition method, speech recognition apparatus, program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005170836A JP2006343644A (en) | 2005-06-10 | 2005-06-10 | Speech recognition method, speech recognition apparatus, program, and recording medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006343644A true JP2006343644A (en) | 2006-12-21 |
Family
ID=37640643
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005170836A Pending JP2006343644A (en) | 2005-06-10 | 2005-06-10 | Speech recognition method, speech recognition apparatus, program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006343644A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10028787B2 (en) | 2010-02-26 | 2018-07-24 | Covidien Lp | Tunable microwave ablation probe |
| US12318133B2 (en) | 2008-01-23 | 2025-06-03 | Covidien Lp | Choked microwave antenna |
| US12318135B2 (en) | 2013-03-29 | 2025-06-03 | Covidien Lp | Step-down coaxial microwave ablation applicators and methods for manufacturing same |
| US12357369B2 (en) | 2013-09-30 | 2025-07-15 | Covidien Lp | Bipolar electrosurgical instrument with movable electrode and related systems and methods |
-
2005
- 2005-06-10 JP JP2005170836A patent/JP2006343644A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12318133B2 (en) | 2008-01-23 | 2025-06-03 | Covidien Lp | Choked microwave antenna |
| US10028787B2 (en) | 2010-02-26 | 2018-07-24 | Covidien Lp | Tunable microwave ablation probe |
| US12318135B2 (en) | 2013-03-29 | 2025-06-03 | Covidien Lp | Step-down coaxial microwave ablation applicators and methods for manufacturing same |
| US12357369B2 (en) | 2013-09-30 | 2025-07-15 | Covidien Lp | Bipolar electrosurgical instrument with movable electrode and related systems and methods |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5332733B2 (en) | Echo canceller | |
| JP5923994B2 (en) | Audio processing apparatus and audio processing method | |
| EP2982101B1 (en) | Noise reduction | |
| CN103997561B (en) | Communication device and voice processing method thereof | |
| US9343073B1 (en) | Robust noise suppression system in adverse echo conditions | |
| CN104050971A (en) | Acoustic echo mitigating apparatus and method, audio processing apparatus, and voice communication terminal | |
| CN104427068B (en) | A kind of audio communication method and device | |
| JP2007003702A (en) | Noise removal apparatus, communication terminal, and noise removal method | |
| KR20160076059A (en) | Display apparatus and method for echo cancellation thereof | |
| JP2011215421A (en) | Speech dialog apparatus | |
| CN110782914A (en) | Signal processing method and device, terminal equipment and storage medium | |
| JP2002084212A (en) | Echo suppression method, echo suppression device and echo suppression program storage medium | |
| KR20150032562A (en) | Method and deivce for eliminating noise, and mobile terminal | |
| JP2005051744A (en) | Speech communication apparatus | |
| JP2006343644A (en) | Speech recognition method, speech recognition apparatus, program, and recording medium | |
| JP4678349B2 (en) | Call determination device | |
| JP4888262B2 (en) | Call state determination device and echo canceller having the call state determination device | |
| KR100949910B1 (en) | Acoustic echo cancellation method and apparatus using spectral subtraction | |
| JP5963077B2 (en) | Telephone device | |
| JP7196002B2 (en) | Echo suppression device, echo suppression method and echo suppression program | |
| JP4403491B2 (en) | Echo canceller, echo cancellation method and echo cancellation program | |
| KR20130005805A (en) | Apparatus and method for suppressing a residual voice echo | |
| JP5020057B2 (en) | Echo canceller | |
| JP4743085B2 (en) | Echo canceller | |
| JP6369192B2 (en) | Echo suppression device, echo suppression program, echo suppression method, and communication terminal |