JP4932530B2 - Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program - Google Patents
Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program Download PDFInfo
- Publication number
- JP4932530B2 JP4932530B2 JP2007044081A JP2007044081A JP4932530B2 JP 4932530 B2 JP4932530 B2 JP 4932530B2 JP 2007044081 A JP2007044081 A JP 2007044081A JP 2007044081 A JP2007044081 A JP 2007044081A JP 4932530 B2 JP4932530 B2 JP 4932530B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic feature
- feature amount
- acoustic
- quantization
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims 4
- 238000012795 verification Methods 0.000 title claims 4
- 238000000034 method Methods 0.000 claims 27
- 238000013139 quantization Methods 0.000 claims 13
- 230000006835 compression Effects 0.000 claims 10
- 238000007906 compression Methods 0.000 claims 10
- 238000000605 extraction Methods 0.000 claims 3
- 230000006837 decompression Effects 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 1
Images
Description
この発明は、入力音声を音響処理して伝送する音響処理装置、音響処理方法及び音響処理プログラムと、符号化信号を照合処理して音声認識結果を出力する照合処理装置、照合処理方法及び照合処理プログラムに関するものである。 The present invention relates to an acoustic processing device, an acoustic processing method, and an acoustic processing program for acoustically processing and transmitting input speech, and a verification processing device, a verification processing method, and a verification processing for verifying an encoded signal and outputting a speech recognition result It is about the program.
図15は例えば“Compression of Acoustic Features for Speech Recognition in Network Environments”,G.N.Ramaswamy,P.S.Gopalakrishnan(International Conference of Acoustics,Speech and Signal Processing,ICASSP−98),PP.977−980,1998に示された従来の音響処理装置及び照合処理装置を示す構成図であり、図において、1は認識対象の音声信号を入力し、その音声信号をA/D変換する音声入力部、2は音声入力部1から出力されたディジタルの音声信号を一定時間周期毎にフレームに区切って分析し、その音声信号の音声的な特徴を表す音響特徴量を算出する音響特徴量算出部である。 FIG. 15 shows, for example, “Compression of Acoustic Features for Speech Recognition in Network Environments”, G.A. N. Ramawamy, P.M. S. Gopalakrishnan (International Conference of Acoustics, Speech and Signal Processing, ICASSP-98), PP. 977-980, 1998 is a block diagram showing a conventional acoustic processing apparatus and collation processing apparatus, in which 1 is a speech input for inputting a speech signal to be recognized and A / D converting the speech signal. And 2, an acoustic feature quantity calculation unit that analyzes the digital voice signal output from the voice input section 1 by dividing the digital voice signal into frames at regular time intervals, and calculates an acoustic feature quantity that represents the voice characteristics of the voice signal. It is.
3は所定の情報圧縮方式にしたがって当該音響特徴量を信号圧縮する音響特徴量圧縮部、4は量子化テーブル、5は量子化テーブル4を参照しながら、所定の量子化・符号化方式にしたがって当該音響特徴量の量子化及び符号化を行う量子化・符号化部、6は量子化・符号化部5により符号化された音響特徴量を照合処理装置に送信する符号出力部である。
3 is an acoustic feature amount compression unit that compresses the acoustic feature amount in accordance with a predetermined information compression method, 4 is a quantization table, 5 is referring to the quantization table 4, and is according to a predetermined quantization / encoding method. A quantization /
11は音響処理装置から送信された符号化信号である音響特徴量を入力する符号入力部、12は量子化テーブル、13は量子化テーブル12を参照しながら、所定の復号化・逆量子化方式にしたがって当該音響特徴量の復号化及び逆量子化を行う復号化・逆量子化部、14は所定の情報復元方式にしたがって当該音響特徴量の信号圧縮を解除し、元の音響特徴量を復元する音響特徴量復元部、15は認識対象を構成する単位の音響特徴量の性質を示す標準パタン、16は言語辞書、17は音響特徴量復元部14により復元された音響特徴量を標準パタン15及び言語辞書16と照合する照合部、18は照合部17による音声の認識結果を出力する認識結果出力部である。
なお、図16は音響処理装置の処理内容を示すフローチャート、図17は照合処理装置の処理内容を示すフローチャートである。
16 is a flowchart showing the processing contents of the acoustic processing apparatus, and FIG. 17 is a flowchart showing the processing contents of the collation processing apparatus.
次に動作について説明する。
まず、音響処理装置の音声入力部1は、認識対象の音声信号Sを入力すると、その音声信号SをA/D変換する(ステップST1)。
S=[s(1),・・・,s(N)] (1)
Next, the operation will be described.
First, when a speech signal S to be recognized is input, the speech input unit 1 of the acoustic processing device performs A / D conversion on the speech signal S (step ST1).
S = [s (1), ..., s (N)] (1)
音響特徴量算出部2は、音声入力部1がディジタルの音声信号Sを出力すると、その音声信号Sを一定時間周期毎にフレームに区切って分析し、その音声信号Sの音声的な特徴を表す音響特徴量を算出する(ステップST2)。
即ち、分析周期をTサンプルとする場合、標本数Nの音声信号Sを、n=N=Tであるnフレームの音響特徴量ベクトルの時系列Cに変換する。
C=[c(1),・・・,c(n)] (2)
When the voice input unit 1 outputs the digital voice signal S, the acoustic feature
That is, when the analysis cycle is T samples, the N number of audio signals S are converted into a time series C of acoustic feature vector vectors of n frames where n = N = T.
C = [c (1),..., C (n)] (2)
ここで、音声認識に用いる音響特徴量の詳細は、“「音声認識の基礎(上,下)」L.R.Rabiner,B.H.Juang(古井監訳),1995年11月,NTTアドバンステクノロジ(文献1)”の上巻で詳細に説明されている。
例えば、音響特徴量として、メルFFTケプストラムを用いることができる。メルFFTケプストラムとは、音声の短時間対数スペクトルをメル尺度と呼ばれる人間の聴覚特性に合わせた周波数スケールに置き換えて、逆フーリエ変換したものである。
Here, the details of the acoustic feature used for speech recognition are described in ““ Basics of Speech Recognition (Upper and Lower) ” R. Rabiner, B.M. H. Jung (translated by Furui), November 1995, described in detail in the first volume of “NTT Advanced Technology (Reference 1)”.
For example, a mel FFT cepstrum can be used as the acoustic feature quantity. The mel FFT cepstrum is obtained by performing an inverse Fourier transform by replacing the short-time logarithmic spectrum of a voice with a frequency scale that matches a human auditory characteristic called a mel scale.
音響特徴量圧縮部3は、音響特徴量算出部2が音響特徴量を算出すると、所定の情報圧縮方式にしたがって音響特徴量を信号圧縮する(ステップST3)。
即ち、予め設定したK次の線形予測係数A=[a(1),・・・,a(k)]を用いて、音響特徴量ベクトル時系列Cから予測残差ベクトル時系列Vを求める。ここで、予測残差ベクトル時系列Vは式(3)のように表すことができる。
V=[v(1),・・・,v(n)] (3)
When the acoustic feature
That is, the prediction residual vector time series V is obtained from the acoustic feature vector time series C using a preset K-th order linear prediction coefficient A = [a (1),..., A (k)]. Here, the prediction residual vector time series V can be expressed as shown in Equation (3).
V = [v (1),..., V (n)] (3)
また、時刻tにおける予測残差の算出は、式(4)のように表すことができる(tが1未満のとき、c(t)=0と仮定する)。
量子化・符号化部5は、音響特徴量圧縮部3が音響特徴量を信号圧縮すると、量子化テーブル4を参照しながら、所定の量子化・符号化方式にしたがって当該音響特徴量の量子化及び符号化を行う(ステップST4)。
なお、量子化テーブル4は、ベクトル量子化あるいはスカラ量子化のために量子化・符号化部5が参照するテーブルであり、以降の説明では、ベクトル量子化はスカラ量子化を含むものとする。
When the acoustic feature value compression unit 3 compresses the acoustic feature value, the quantization / coding unit 5 quantizes the acoustic feature value according to a predetermined quantization / coding method with reference to the quantization table 4. Then, encoding is performed (step ST4).
The quantization table 4 is a table that is referred to by the quantization / encoding unit 5 for vector quantization or scalar quantization. In the following description, it is assumed that vector quantization includes scalar quantization.
具体的には、量子化・符号化部5は、量子化テーブル4を参照して、予測残差ベクトル時系列Vをベクトル量子化および符号化した符号Q[q(1),・・・,q(n)]に変換する。ベクトル量子化およびスカラ量子化の方法は、例えば、上記文献1の上巻に詳述されている。
符号出力部6は、量子化・符号化部5により符号化された音響特徴量を照合処理装置に送信する(ステップST5)。
Specifically, the quantization / encoding unit 5 refers to the quantization table 4 and codes Q [q (1),..., Vector quantization and encoding of the prediction residual vector time series V. q (n)]. Vector quantization and scalar quantization methods are described in detail, for example, in the first volume of Document 1 above.
The
次に、照合処理装置の符号入力部11は、音響処理装置から送信された符号化信号である音響特徴量を入力する(ステップST11)。即ち、音響処理装置から符号Q[q(1),・・・,q(n)]を受信する。
復号化・逆量子化部13は、符号入力部11が音響特徴量を入力すると、量子化テーブル12を参照しながら、所定の復号化・逆量子化方式にしたがって音響特徴量の復号化及び逆量子化を行う(ステップST12)。
即ち、量子化テーブル12を参照して、符号Qを復号化及び逆量子化して、信号圧縮された音響特徴量V’を求める。音響特徴量V’は一般に元の信号Vに対して量子化による量子化誤差を含む。
V’=[v’(1),・・・,v’(n)] (5)
Next, the
When the
That is, with reference to the quantization table 12, the code Q is decoded and inversely quantized to obtain a signal-compressed acoustic feature value V ′. The acoustic feature amount V ′ generally includes a quantization error due to quantization with respect to the original signal V.
V ′ = [v ′ (1),..., V ′ (n)] (5)
音響特徴量復元部14は、復号化・逆量子化部13が信号圧縮された音響特徴量V’を求めると、所定の情報復元方式にしたがって音響特徴量V’の信号圧縮を解除し、元の音響特徴量を復元する(ステップST13)。
即ち、信号圧縮された音響特徴量V’に対して、音響特徴量圧縮部3による変換と逆の変換を施して、音響特徴量C’を復元する。
C’=[c’(1),・・・,c’(n)] (6)
なお、式(6)に対応する逆変換は式(7)となる。
That is, the acoustic feature quantity C ′ is restored by performing a conversion opposite to the conversion by the acoustic feature quantity compression unit 3 on the signal-compressed acoustic feature quantity V ′.
C ′ = [c ′ (1),..., C ′ (n)] (6)
Note that the inverse transformation corresponding to Equation (6) is Equation (7).
照合部17は、音響特徴量復元部14が音響特徴量C’を復元すると、その音響特徴量C’を標準パタン15及び言語辞書16と照合して、入力音声に対する認識結果を取得する(ステップST14,ST15)。
照合手順は次の通りである。ただし、標準パタン15は、認識対象を構成する単位の音響特徴量の性質を示し、標準パタンの単位として、例えば、言語的な単位である音素を用いる。また、標準パタンの認識単位と音響特徴量の対応付けは、例えばHMM(隠れマルコフモデル)を用いて表現する。言語辞書16は、標準パタンが示す認識単位と認識対象全体の言語表現の対応を示すものである。
When the acoustic feature value restoration unit 14 restores the acoustic feature value C ′, the
The verification procedure is as follows. However, the
図18は単語音声認識における言語辞書の記述例である。この例では、認識対象は「赤」「青」「黄色」の3単語であり、それぞれについて標準パタンとの対応及び単語の出現確率を記している。ここでは、標準パタンに示された認識単位を音素(日本語では概ねローマ字書きした場合の一文字に対応)としている。出現確率は、事前に分かっている認識対象単語の出現確率である。 FIG. 18 shows a description example of a language dictionary in word speech recognition. In this example, the recognition target is three words of “red”, “blue”, and “yellow”, and the correspondence with the standard pattern and the appearance probability of the word are described for each. Here, the recognition unit shown in the standard pattern is a phoneme (corresponding to one character when written in Roman characters in Japanese). The appearance probability is an appearance probability of a recognition target word that is known in advance.
照合部17の照合手順
(1)音響特徴量C’と認識候補を構成する標準パタン15のエントリを照合して照合スコアを求める。
(2)それぞれの認識候補について、部分あるいは終端に到達するまでの累積スコアを求める。
(3)音響特徴量C’の終端フレームに到達したら、最終的に最も高い累積スコアを持つ単語を音声認識結果とする。
Collation Procedure of Collation Unit 17 (1) The collation score is obtained by collating the acoustic feature quantity C ′ with the entry of the
(2) For each recognition candidate, a cumulative score until reaching the part or the end is obtained.
(3) When the terminal frame of the acoustic feature quantity C ′ is reached, the word having the highest cumulative score is determined as the speech recognition result.
認識結果出力部18は、照合部17が上記のようにして音声認識結果を得ると、その音声認識結果を出力する(ステップST16)。
When the
従来の音響処理装置は以上のように構成されているので、音声認識精度の劣化を招くことなく、音響特徴量を圧縮することができる。しかし、音声の局所的な性質,音声の種類,符号伝達の際の伝送状況や認識タスクの困難さを考慮することなく、常に同一の方式にしたがって音響特徴量の信号圧縮を行っているので、音響特徴量を必ずしも十分に圧縮することができないなどの課題があった。 Since the conventional acoustic processing apparatus is configured as described above, it is possible to compress the acoustic feature amount without causing deterioration of the speech recognition accuracy. However, the signal compression of acoustic features is always performed according to the same method without considering the local nature of the speech, the type of speech, the transmission situation at the time of code transmission and the difficulty of the recognition task, There has been a problem that the acoustic feature amount cannot always be sufficiently compressed.
この発明は上記のような課題を解決するためになされたもので、音声認識精度の劣化を招くことなく、音響特徴量の圧縮度を高めることができる音響処理装置、音響処理方法及び音響処理プログラムを得ることを目的とする。
また、この発明は、圧縮度の高い音響特徴量から音声認識結果を得ることができる照合処理装置、照合処理方法及び照合処理プログラムを得ることを目的とする。
The present invention has been made to solve the above-described problems, and an acoustic processing device, an acoustic processing method, and an acoustic processing program capable of increasing the compression degree of an acoustic feature amount without causing deterioration of speech recognition accuracy. The purpose is to obtain.
Another object of the present invention is to obtain a collation processing device, a collation processing method, and a collation processing program that can obtain a speech recognition result from an acoustic feature quantity having a high degree of compression.
この発明に係る音響処理装置は、出力対象判定手段が、特徴量抽出手段により抽出された音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行うようにしたものである。 In the acoustic processing device according to the present invention, when the output target determination unit has a smaller variation amount of the acoustic feature amount extracted by the feature amount extraction unit than the reference variation amount, the acoustic feature amount is not included in the output target, When the variation amount of the feature amount is larger than the reference variation amount, it is determined that the acoustic feature amount is included in the output target.
この発明に係る音響処理方法は、音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行うようにしたものである。 In the acoustic processing method according to the present invention, when the variation amount of the acoustic feature amount is smaller than the reference variation amount, the acoustic feature amount is not included in the output target, and when the variation amount of the acoustic feature amount is larger than the reference variation amount, It is determined that the acoustic feature amount is included in the output target .
この発明に係る照合処理方法は、符号化信号に音響特徴量が含まれているか否かを判定するようにしたものである。 In the verification processing method according to the present invention, it is determined whether or not an acoustic feature is included in the encoded signal.
この発明に係る音響処理プログラムは、特徴量抽出処理手順により抽出された音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行う出力対象判定処理手順を設けたものである。 The acoustic processing program according to the present invention does not include the acoustic feature amount as an output target when the variation amount of the acoustic feature amount extracted by the feature amount extraction processing procedure is smaller than the reference variation amount, and the variation amount of the acoustic feature amount Is greater than the reference variation amount, an output target determination processing procedure for determining that the acoustic feature value is included in the output target is provided.
この発明に係る照合処理プログラムは、符号化信号に音響特徴量が含まれているか否かを判定する包含判定処理手順を設けたものである。 The collation processing program according to the present invention is provided with an inclusion determination processing procedure for determining whether or not an acoustic feature is included in an encoded signal.
この発明によれば、出力対象判定手段が、特徴量抽出手段により抽出された音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行うように構成したので、変化が小さい部分の音響特徴量を出力対象から除外できるようになり、その結果、効率よく伝送情報を削減することができる効果がある。また、構成の複雑化を招くことなく、音響特徴量を出力対象に含める旨の判定を行うことができる効果がある。 According to this invention, when the variation amount of the acoustic feature amount extracted by the feature amount extraction unit is smaller than the reference variation amount, the output target determination unit does not include the acoustic feature amount in the output target, and the acoustic feature amount When the fluctuation amount is larger than the reference fluctuation amount, since it is configured to determine that the acoustic feature amount is included in the output target, it is possible to exclude the acoustic feature amount of the portion where the change is small from the output target, and as a result The transmission information can be efficiently reduced. In addition, there is an effect that it is possible to determine that the acoustic feature amount is included in the output target without complicating the configuration.
この発明によれば、符号化信号に音響特徴量が含まれているか否かを判定する包含判定手段を設けるように構成したので、圧縮度の高い音響特徴量から音声認識結果を得ることができる効果がある。 According to the present invention, since the inclusion determining means for determining whether or not an acoustic feature is included in the encoded signal is provided, a speech recognition result can be obtained from the acoustic feature having a high degree of compression. effective.
この発明によれば、音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行うように構成したので、変化が小さい部分の音響特徴量を出力対象から除外できるようになり、その結果、効率よく伝送情報を削減することができる効果がある。また、構成の複雑化を招くことなく、音響特徴量を出力対象に含める旨の判定を行うことができる効果がある。 According to this invention, when the variation amount of the acoustic feature amount is smaller than the reference variation amount, the acoustic feature amount is not included in the output target, and when the variation amount of the acoustic feature amount is larger than the reference variation amount, the acoustic feature amount Is determined to be included in the output target, so that it is possible to exclude the acoustic feature amount of the portion with a small change from the output target, and as a result, it is possible to efficiently reduce transmission information. . In addition, there is an effect that it is possible to determine that the acoustic feature amount is included in the output target without complicating the configuration.
この発明によれば、符号化信号に音響特徴量が含まれているか否かを判定するように構成したので、圧縮度の高い音響特徴量から音声認識結果を得ることができる効果がある。 According to the present invention, since it is configured to determine whether or not an acoustic feature is included in the encoded signal, there is an effect that a speech recognition result can be obtained from an acoustic feature having a high degree of compression.
この発明によれば、特徴量抽出処理手順により抽出された音響特徴量の変動量が基準変動量より小さい場合、その音響特徴量を出力対象に含めず、その音響特徴量の変動量が基準変動量より大きい場合、その音響特徴量を出力対象に含める旨の判定を行う出力対象判定処理手順を設けるように構成したので、変化が小さい部分の音響特徴量を出力対象から除外できるようになり、その結果、効率よく伝送情報を削減することができる効果がある。また、構成の複雑化を招くことなく、音響特徴量を出力対象に含める旨の判定を行うことができる効果がある。
According to the present invention, when the variation amount of the acoustic feature amount extracted by the feature amount extraction processing procedure is smaller than the reference variation amount, the acoustic feature amount is not included in the output target, and the variation amount of the acoustic feature amount is the reference variation amount. If it is larger than the amount, since it is configured to provide an output target determination processing procedure for determining that the acoustic feature amount is included in the output target, it becomes possible to exclude the acoustic feature amount of the portion with a small change from the output target, As a result, there is an effect that transmission information can be efficiently reduced. In addition, there is an effect that it is possible to determine that the acoustic feature amount is included in the output target without complicating the configuration.
この発明によれば、符号化信号に音響特徴量が含まれているか否かを判定する包含判定処理手順を設けるように構成したので、圧縮度の高い音響特徴量から音声認識結果を得ることができる効果がある。 According to the present invention, since the inclusion determination processing procedure for determining whether or not an acoustic feature is included in the encoded signal is provided, a speech recognition result can be obtained from an acoustic feature having a high degree of compression. There is an effect that can be done.
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音響処理装置及び照合処理装置を示す構成図であり、図において、21は認識対象の音声信号を入力し、その音声信号をA/D変換する音声入力部、22は音声入力部21から出力されたディジタルの音声信号を一定時間周期毎にフレームに区切って分析し、その音声信号の音声的な特徴を表す音響特徴量を算出する音響特徴量算出部(特徴量抽出手段)、23は音響特徴量算出部22により算出された音響特徴量の情報圧縮方式と量子化・符号化方式を決定する方式決定部(方式決定手段)、24は方式決定部23により決定された情報圧縮方式にしたがって音響特徴量を信号圧縮する音響特徴量圧縮部(信号圧縮手段)、25は量子化テーブル、26は量子化テーブル25を参照しながら、方式決定部23により決定された量子化・符号化方式にしたがって音響特徴量の量子化及び符号化を行う量子化・符号化部(量子化・符号化手段)、27は量子化・符号化部26により符号化された音響特徴量を照合処理装置に送信する符号出力部である。
An embodiment of the present invention will be described below.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing an acoustic processing device and a collation processing device according to Embodiment 1 of the present invention. In FIG. 1,
31は音響処理装置から送信された符号化信号である音響特徴量を入力する符号入力部、32は符号入力部31により入力された音響特徴量の情報圧縮方式と量子化・符号化方式を判別する方式判定部(方式判別手段)、33は量子化テーブル、34は量子化テーブル33を参照しながら、方式判定部32により判別された量子化・符号化方式に対応する復号化・逆量子化方式にしたがって音響特徴量の復号化及び逆量子化を行う復号化・逆量子化部(復号化・逆量子化手段)、35は方式判定部32により判別された情報圧縮方式に対応する情報復元方式にしたがって音響特徴量の信号圧縮を解除して、元の音響特徴量を復元する音響特徴量復元部(圧縮解除手段)、36は認識対象を構成する単位の音響特徴量の性質を示す標準パタン、37は言語辞書、38は音響特徴量復元部35により復元された音響特徴量を標準パタン36及び言語辞書37と照合する照合部(照合手段)、39は照合部38による音声の認識結果を出力する認識結果出力部である。
図2はこの発明の実施の形態1による音響処理方法を示すフローチャート、図3はこの発明の実施の形態1による照合処理方法を示すフローチャートである。
因みに、図1における音響処理装置及び照合処理装置の各構成要素をハードウエアを用いて構成してもよいが、各構成要素の処理内容が記述されたプログラムを用意して、図示せぬコンピュータが当該プログラムを実行するようにしてもよい。なお、以下に示す他の実施の形態においても同様である。
FIG. 2 is a flowchart showing an acoustic processing method according to Embodiment 1 of the present invention, and FIG. 3 is a flowchart showing a collation processing method according to Embodiment 1 of the present invention.
Incidentally, each component of the sound processing device and the matching processing device in FIG. 1 may be configured using hardware, but a computer (not shown) is prepared by preparing a program describing the processing contents of each component. The program may be executed. The same applies to other embodiments described below.
次に動作について説明する。
まず、音響処理装置の音声入力部21は、従来の音声入力部1と同様に、認識対象の音声信号Sを入力すると、その音声信号SをA/D変換する(ステップST21)。
音響特徴量算出部22は、音声入力部21がディジタルの音声信号Sを出力すると、従来の音響特徴量算出部2と同様に、その音声信号Sを一定時間周期毎にフレームに区切って分析し、その音声信号Sの音声的な特徴を表す音響特徴量を算出する(ステップST22)。
Next, the operation will be described.
First, when the speech signal S to be recognized is input, the
When the
方式決定部23は、音響特徴量算出部22が音響特徴量を算出すると、現在及び過去の音響特徴量を参照して、現在の音響特徴量の情報圧縮方式と量子化・符号化方式を決定する(ステップST23)。
例えば、時刻tのフレームにおける音響特徴量c(t)の情報圧縮方式を決定する場合(ただし、この例では、音響特徴量c(t)の情報圧縮方式が決定されれば、一義的に量子化・符号化方式が決定されるものとする)、K時刻前のフレームまでの音響特徴量による線形予測残差v(t)の2乗値|v(t)|2 を計算し(Kについては、式(4)を参照)、その2乗値|v(t)|2 と適当に設定された閾値thとを比較する。
When the acoustic feature
For example, when the information compression method of the acoustic feature value c (t) in the frame at time t is determined (however, in this example, if the information compression method of the acoustic feature value c (t) is determined, it is uniquely quantum. And the square value | v (t) | 2 of the linear prediction residual v (t) based on the acoustic feature quantity up to the frame before K time is calculated (about K). (See equation (4)), the square value | v (t) | 2 is compared with a suitably set threshold th.
そして、|v(t)|2 ≧thである場合、線形予測により音響特徴量c(t)を効率的に信号圧縮できないと判定し、音響特徴量c(t)を信号圧縮しないで、量子化及び符号化を行う方式を採用する。
一方、|v(t)|2 <thである場合、線形予測により音響特徴量c(t)を効率的に信号圧縮することが可能であると判定し、線形予測残差v(t)のみを量子化及び符号化を行う方式を採用する。
If | v (t) | 2 ≧ th, it is determined by linear prediction that the acoustic feature quantity c (t) cannot be efficiently signal-compressed, and the acoustic feature quantity c (t) is quantum-quantized without signal compression. A method for performing encoding and encoding is adopted.
On the other hand, if | v (t) | 2 <th, it is determined that the acoustic feature quantity c (t) can be efficiently signal-compressed by linear prediction, and only the linear prediction residual v (t) is obtained. A method of performing quantization and encoding is adopted.
音響特徴量圧縮部24は、方式決定部23が情報圧縮方式を決定すると、その情報圧縮方式にしたがって音響特徴量算出部22により算出された音響特徴量を信号圧縮する(ステップST24)。方式決定部23により決定された情報圧縮方式を用いること以外は、従来の音響特徴量圧縮部3と同様である。
量子化・符号化部26は、音響特徴量圧縮部24が音響特徴量を信号圧縮すると、量子化テーブル25を参照しながら、方式決定部23により決定された量子化・符号化方式にしたがって音響特徴量の量子化及び符号化を行う(ステップST25)。方式決定部23により決定された量子化・符号化方式を用いること以外は、従来の量子化・符号化部5と同様である。
When the
When the acoustic feature value compression unit 24 compresses the acoustic feature value, the quantization /
符号出力部27は、量子化・符号化部26により符号化された音響特徴量を照合処理装置に送信する(ステップST26)。
ただし、符号化された音響特徴量を送信する際、図4に示すように、方式決定部23により決定された情報圧縮方式を示すヘッダ情報を付加して送信する。上述したように、音響特徴量c(t)の情報圧縮方式が決定されれば、一義的に量子化・符号化方式が決定される場合には、情報圧縮方式を示すヘッダ情報を送信すれば、照合側では音響特徴量c(t)の量子化・符号化方式を特定することができる。
なお、音響特徴量の変動が線形予測される値から小さな変動範囲であれば、線形予測残差は音響特徴量の符号より短い符号長に変換することができる。
The
However, when transmitting the encoded acoustic feature amount, as shown in FIG. 4, the header information indicating the information compression method determined by the
If the fluctuation of the acoustic feature value is within a small fluctuation range from the linearly predicted value, the linear prediction residual can be converted to a code length shorter than the code of the acoustic feature quantity.
次に、照合処理装置の符号入力部31は、従来の符号入力部11と同様に、音響処理装置から送信された符号化信号である音響特徴量を入力する(ステップST31)。
方式判定部32は、符号入力部31が音響特徴量を入力すると、その音響特徴量に付加されたヘッダ情報を参照して、その音響特徴量の情報圧縮方式と量子化・符号化方式を判別する(ステップST32)。
Next, similarly to the conventional
When the
復号化・逆量子化部34は、方式判定部32が量子化・符号化方式を判別すると、量子化テーブル33を参照しながら、その量子化・符号化方式に対応する復号化・逆量子化方式にしたがって符号入力部31により入力された音響特徴量の復号化及び逆量子化を行う(ステップST33)。方式判定部32により判別された量子化・符号化方式に対応する復号化・逆量子化方式を用いること以外は、従来の復号化・逆量子化部13と同様である。
When the
音響特徴量復元部35は、復号化・逆量子化部34が音響特徴量の復号化及び逆量子化を行うと、方式判定部32により判別された情報圧縮方式に対応する情報復元方式にしたがって音響特徴量の信号圧縮を解除し、元の音響特徴量を復元する(ステップST34)。方式判定部32により判別された情報圧縮方式に対応する情報復元方式を用いること以外は、従来の音響特徴量復元部14と同様である。
When the decoding /
照合部38は、音響特徴量復元部35が元の音響特徴量を復元すると、従来の照合部17と同様に、その音響特徴量を標準パタン36及び言語辞書37と照合して、入力音声に対する認識結果を取得する(ステップST35,ST36)。
認識結果出力部39は、照合部38が音声認識結果を得ると、その音声認識結果を出力する(ステップST37)。
When the acoustic feature
When the
以上で明らかなように、この実施の形態1によれば、音響特徴量算出部22により抽出された音響特徴量の情報圧縮方式と量子化・符号化方式を決定するように構成したので、音声認識精度の劣化を招くことなく、音響特徴量の圧縮度を高めることができる効果を奏する。
As is apparent from the above, according to the first embodiment, the information compression method and the quantization / coding method of the acoustic feature amount extracted by the acoustic feature
実施の形態2.
図5はこの発明の実施の形態2による音響処理装置及び照合処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
41は出力伝送路の回線状況を考慮して、音響特徴量の情報圧縮方式と量子化・符号化方式を決定する伝送回線状況判定部(方式決定手段)である。
図6はこの発明の実施の形態2による音響処理方法を示すフローチャートである。
FIG. 5 is a block diagram showing an acoustic processing apparatus and a collation processing apparatus according to
FIG. 6 is a flowchart showing an acoustic processing method according to
次に動作について説明する。
上記実施の形態1では、方式決定部23が現在及び過去の音響特徴量を参照して、現在の音響特徴量の情報圧縮方式と量子化・符号化方式を決定するものについて示したが、伝送回線状況判定部41が出力伝送路の回線状況や音響特徴量の変動を考慮して、音響特徴量の情報圧縮方式と量子化・符号化方式を決定するようにしてもよい(ステップST41,ST42)。
Next, the operation will be described.
In the first embodiment, the
具体的には、伝送回線状況判定部41が出力伝送回線の符号誤り率と実質的な伝送容量を計測する。
そして、伝送回線状況判定部41が当該計測結果に応じて音響特徴量の情報圧縮方式と量子化・符号化方式を決定する。
Specifically, the transmission line
Then, the transmission line
例えば、符号誤り率が基準値より大きい場合、単一の時間フレームの内容のみから音響特徴量フレームを復元可能な情報圧縮方式と量子化・符号化方式を採用する。
また、伝送容量が基準容量より小さい場合、隣接フレーム間の音響特徴量から線形予測残差を計算し、圧縮効率の高い情報圧縮方式と量子化・符号化方式を採用する。
なお、伝送回線状況判定部41は、伝送回線の誤り率や伝達容量の判定を時刻フレーム毎に判定する必要はない。例えば、一回の音声に対して誤り率と伝達容量を1度判定し、後は同一の状態であるとする。
For example, when the code error rate is larger than the reference value, an information compression method and a quantization / coding method capable of restoring an acoustic feature amount frame only from the contents of a single time frame are adopted.
If the transmission capacity is smaller than the reference capacity, a linear prediction residual is calculated from the acoustic feature quantity between adjacent frames, and an information compression method and a quantization / coding method with high compression efficiency are adopted.
The transmission line
実施の形態3.
図7はこの発明の実施の形態3による音響処理装置及び照合処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
42は入力音声の認識困難度を考慮して、音響特徴量の情報圧縮方式と量子化・符号化方式を決定するタスク困難度判定部(方式決定手段)である。
図8はこの発明の実施の形態3による音響処理方法を示すフローチャートである。
Embodiment 3 FIG.
FIG. 7 is a block diagram showing an acoustic processing device and a matching processing device according to Embodiment 3 of the present invention. In the figure, the same reference numerals as those in FIG.
Reference numeral 42 denotes a task difficulty level determination unit (method determination unit) that determines the information compression method and quantization / encoding method of the acoustic feature amount in consideration of the recognition difficulty level of the input speech.
FIG. 8 is a flowchart showing an acoustic processing method according to Embodiment 3 of the present invention.
次に動作について説明する。
上記実施の形態1では、方式決定部23が現在及び過去の音響特徴量を参照して、現在の音響特徴量の情報圧縮方式と量子化・符号化方式を決定するものについて示したが、タスク困難度判定部42が入力音声の認識困難度を考慮して、音響特徴量の情報圧縮方式と量子化・符号化方式を決定するようにしてもよい(ステップST43,ST44)。
Next, the operation will be described.
In the first embodiment, the
具体的には、タスク困難度判定部42が入力音声の認識困難度を示す指標を求め、その指標に応じて音響特徴量の情報圧縮方式と量子化・符号化方式を決定する。
音声認識対象の難しさを測る代表的な指標としては、音声入力時の背景騒音レベルや同時認識単語数に相当する単語パープレキシティの大きさを用いることができる。
Specifically, the task difficulty level determination unit 42 obtains an index indicating the recognition difficulty level of the input speech, and determines the information compression method and the quantization / coding method of the acoustic feature amount according to the index.
As a representative index for measuring the difficulty of a speech recognition target, the background noise level at the time of speech input and the size of word perplexity corresponding to the number of simultaneously recognized words can be used.
その指標に対応する情報圧縮方式と量子化・符号化方式の決定は、認識対象が容易であれば、大きな情報圧縮が可能な情報圧縮方式と量子化・符号化方式を採用する。一方、認識対象が困難な場合は、情報圧縮による歪みが小さい情報圧縮方式と量子化・符号化方式を採用する。
次に、これらを考慮して、適当な信号圧縮方式と量子化ビット数を確定する。情報圧縮方式と量子化・符号化方式の決定は、時刻フレーム毎に行う必要はなく、一回の発話あるいは認識タスクを通して決めておいてもよい。適当な信号圧縮方式と量子化ビット数の決定は、認識条件毎に、あらかじめ調査しておくようにする。
For the determination of the information compression method and the quantization / encoding method corresponding to the index, an information compression method and a quantization / encoding method capable of large information compression are adopted if the recognition target is easy. On the other hand, when the recognition target is difficult, an information compression method and a quantization / encoding method with small distortion due to information compression are adopted.
Next, considering these, an appropriate signal compression method and the number of quantization bits are determined. The information compression method and the quantization / coding method need not be determined for each time frame, but may be determined through a single utterance or recognition task. The appropriate signal compression method and the number of quantization bits are determined in advance for each recognition condition.
実施の形態4.
図9はこの発明の実施の形態4による音響処理装置及び照合処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
43は音響特徴量算出部22により算出された音響特徴量を出力対象に含めるか否かを判定する時間フレーム間引き部(出力対象判定手段)、44は対象フレームの音響特徴量が省略されているか否かを判定するフレーム周期判定部(包含判定手段)、45はフレーム周期判定部44の判定結果が省略されていない旨を示す場合、音響特徴量復元部35から出力された音響特徴量を標準パタン36及び言語辞書37と照合し、その判定結果が省略されている旨を示す場合、他の音響特徴量に係る照合結果を流用する照合部(照合手段)である。
図10はこの発明の実施の形態4による音響処理方法を示すフローチャート、図11はこの発明の実施の形態4による照合処理方法を示すフローチャートである。
Embodiment 4 FIG.
FIG. 9 is a block diagram showing an acoustic processing apparatus and a collation processing apparatus according to Embodiment 4 of the present invention. In the figure, the same reference numerals as those in FIG.
43 is a time frame decimation unit (output target determination unit) that determines whether or not the acoustic feature value calculated by the acoustic feature
FIG. 10 is a flowchart showing an acoustic processing method according to Embodiment 4 of the present invention, and FIG. 11 is a flowchart showing a collation processing method according to Embodiment 4 of the present invention.
次に動作について説明する。
時間フレーム間引き部43は、上記実施の形態1と同様にして、音響特徴量算出部22が音響特徴量を算出すると、その音響特徴量を出力対象に含めるか否かを判定する。
即ち、時間フレーム間引き部43は、前後の時刻と比較した対象時刻の音響特徴量の性質を調べて、対象時刻のフレームの音響特徴量を省略した場合に、照合側での音声認識精度へ与える影響が小さいか否かを判定するため、まず、省略せず出力した最後の音響特徴量c(τ)と現時刻の音響特徴量c(t)の変動量dを求める(ステップST51)。
Next, the operation will be described.
Similar to the first embodiment, when the acoustic feature
That is, the time frame thinning unit 43 examines the characteristics of the acoustic feature quantity at the target time compared with the previous and subsequent times, and gives the speech recognition accuracy on the collation side when the acoustic feature quantity of the frame at the target time is omitted. In order to determine whether or not the influence is small, first, the variation d of the last acoustic feature value c (τ) and the acoustic feature value c (t) output without being omitted is obtained (step ST51).
時間フレーム間引き部43は、音響特徴量の変動量d(t)が閾値thhを上回る場合、音声認識精度へ与える影響が大きいため間引きフラグを“0”にして、その音響特徴量を省略しない旨を明示する(ステップST52,ST53)。
この場合、音響特徴量圧縮部24は、所定の情報圧縮方式にしたがって音響特徴量算出部22により算出された音響特徴量を信号圧縮し(ステップST54)、量子化・符号化部26は、量子化テーブル25を参照しながら、所定の量子化・符号化方式にしたがって音響特徴量の量子化及び符号化を行う(ステップST55)。
そして、符号出力部27は、量子化・符号化部26により符号化された音響特徴量と上記間引きフラグを照合処理装置に送信する(ステップST56)。
The time frame decimation unit 43 sets the decimation flag to “0” and does not omit the acoustic feature amount when the variation amount d (t) of the acoustic feature amount exceeds the threshold thh because the influence on the speech recognition accuracy is large. Is clearly indicated (steps ST52 and ST53).
In this case, the acoustic feature quantity compression unit 24 performs signal compression on the acoustic feature quantity calculated by the acoustic feature
Then, the
時間フレーム間引き部43は、音響特徴量の変動量d(t)が閾値thhを下回る場合、音声認識精度へ与える影響が小さいため間引きフラグを“1”にして、その音響特徴量を省略する旨を明示する(ステップST52,ST57)。
この場合、音響特徴量圧縮部24は、当該音響特徴量に対する信号圧縮処理を実施せず、量子化・符号化部26は、当該音響特徴量に対する量子化及び符号化処理を実施しない。
そして、符号出力部27は、上記間引きフラグを照合処理装置に送信する。
The time frame decimation unit 43 sets the decimation flag to “1” and omits the acoustic feature amount when the variation d (t) of the acoustic feature amount is less than the threshold thh because the influence on the speech recognition accuracy is small. Is clearly indicated (steps ST52 and ST57).
In this case, the acoustic feature amount compression unit 24 does not perform signal compression processing on the acoustic feature amount, and the quantization /
Then, the
ここで、音響特徴量の変動量d(t)としては、例えば、式(8)で定義した音響パラメータベクトル間の分散重み付きユークリッド距離を用いる。
照合処理装置のフレーム周期判定部44は、符号入力部31が間引きフラグを入力すると、その間引きフラグを参照して、対象フレームの音響特徴量が省略されているか否かを判定する(ステップST61,ST62)。
When the
対象フレームの音響特徴量が省略されていない場合、即ち、間引きフラグが“0”の場合、復号化・逆量子化部34は、量子化テーブル33を参照しながら、所定の復号化・逆量子化方式にしたがって符号入力部31により入力された音響特徴量の復号化及び逆量子化を実行し(ステップST63)、音響特徴量復元部35は、所定の情報復元方式にしたがって音響特徴量の信号圧縮を解除し、元の音響特徴量を復元する(ステップST64)。
When the acoustic feature value of the target frame is not omitted, that is, when the decimation flag is “0”, the decoding /
そして、照合部45は、上記実施の形態1における照合部17と同様の手順により照合処理を実施する(ステップST65,ST66)。
照合部45の照合手順
(1)音響特徴量C’と認識候補を構成する標準パタン36のエントリを照合して照合スコアを求める。
(2)それぞれの認識候補について、部分あるいは終端に到達するまでの累積スコアを求める。
(3)音響特徴量C’の終端フレームに到達したら、最終的に最も高い累積スコアを持つ単語を音声認識結果とする。
And the
Collation procedure of collation unit 45 (1) Collation score is obtained by collating the acoustic feature quantity C ′ with the entry of the
(2) For each recognition candidate, a cumulative score until reaching the part or the end is obtained.
(3) When the terminal frame of the acoustic feature quantity C ′ is reached, the word having the highest cumulative score is determined as the speech recognition result.
一方、対象フレームの音響特徴量が省略されている場合、即ち、間引きフラグが“1”の場合、復号化・逆量子化部34は、音響特徴量の復号化及び逆量子化処理を実施せず、音響特徴量復元部35は、音響特徴量の信号圧縮の解除処理を実施しない。
On the other hand, when the acoustic feature value of the target frame is omitted, that is, when the thinning flag is “1”, the decoding /
そして、照合部45は、他の音響特徴量に係る照合結果を流用する。
即ち、省略されたフレームの照合スコアを補間して、累積スコアを更新する。補間された照合のスコアは、例えば、最後に入力された音響特徴量に対する照合スコアとする。この処理を音響特徴量の終端フレームまで続け、最終的に最も高い累積照合スコアを持つ単語を音声認識結果とする。
And the
That is, the accumulated score is updated by interpolating the matching score of the omitted frame. The interpolated matching score is, for example, a matching score for the acoustic feature amount input last. This process is continued until the end frame of the acoustic feature value, and the word having the highest cumulative collation score is finally used as the speech recognition result.
以上で明らかなように、この実施の形態4によれば、音響特徴量算出部22により算出された音響特徴量を出力対象に含めるか否かを判定するように構成したので、変化が小さい部分の音響特徴量を出力対象から除外できるようになり、その結果、効率よく伝送情報を削減することができる効果を奏する。
As apparent from the above, according to the fourth embodiment, since it is configured to determine whether or not the acoustic feature amount calculated by the acoustic feature
実施の形態5.
図12はこの発明の実施の形態5による音響処理装置及び照合処理装置を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。
46は音響特徴量算出部22により算出された音響特徴量が無音状態であるか否かを判別して、その音響特徴量を出力対象に含めるか否かを判定する無音判定部(出力対象判定手段)、47は対象フレームの音響特徴量が省略されているか否かを判定する無音フレーム判定部(包含判定手段)である。
図13はこの発明の実施の形態5による音響処理方法を示すフローチャート、図14はこの発明の実施の形態5による照合処理方法を示すフローチャートである。
Embodiment 5 FIG.
FIG. 12 is a block diagram showing an acoustic processing apparatus and a collation processing apparatus according to Embodiment 5 of the present invention. In the figure, the same reference numerals as those in FIG.
46 is a silence determination unit (output target determination) that determines whether or not the acoustic feature amount calculated by the acoustic feature
FIG. 13 is a flowchart showing an acoustic processing method according to Embodiment 5 of the present invention, and FIG. 14 is a flowchart showing a collation processing method according to Embodiment 5 of the present invention.
次に動作について説明する。
上記実施の形態4では、時間フレーム間引き部43が音響特徴量の変動量d(t)と閾値thhを比較して、その音響特徴量を出力対象に含めるか否かを判定するものについて示したが、無音判定部46が、音響特徴量が無音状態であるか否かを判別して、その音響特徴量を出力対象に含めるか否かを判定するようにしてもよい。
Next, the operation will be described.
In the fourth embodiment, the time frame thinning unit 43 compares the acoustic feature amount variation d (t) with the threshold thh to determine whether or not to include the acoustic feature amount in the output target. However, the
即ち、無音判定部46は、例えば、対象音声フレームの音声の短時間パワーやゼロ交差回数を計測することにより、対象音声フレームが有音区間であるか、無音区間であるかを判定する(ステップST71)。
そして、対象音声フレームが有音区間である場合は、無音フラグを“0”にして、その音響特徴量を省略しない旨を明示する(ステップST72)。
以下、上記実施の形態4と同様に、ステップST54〜ST56の処理を実行する。
That is, the
If the target speech frame is a sound section, the silence flag is set to “0” to clearly indicate that the acoustic feature amount is not omitted (step ST72).
Thereafter, similarly to the fourth embodiment, the processes of steps ST54 to ST56 are executed.
一方、対象音声フレームが無音区間である場合は、無音フラグを“1”にして、その音響特徴量を省略する旨を明示する(ステップST73)。
これにより、符号出力部27から無音フラグが照合処理装置に送信される。
On the other hand, if the target speech frame is a silent section, the silence flag is set to “1” to clearly indicate that the acoustic feature amount is omitted (step ST73).
Thereby, the silence flag is transmitted from the
照合処理装置の無音フレーム判定部47は、符号入力部31が無音フラグを入力すると、その無音フラグを参照して、対象フレームの音響特徴量が省略されているか否かを判定する(ステップST81,ST82)。
When the
対象フレームの音響特徴量が省略されていない場合、即ち、無音フラグが“0”の場合、上記実施の形態4と同様に、ステップST63,ST64の処理を実行し、対象フレームの音響特徴量が省略されている場合、即ち、無音フラグが“1”の場合、上記実施の形態4と同様に、ステップST63,ST64の処理を実行しない。
以下、上記実施の形態4と同様のため説明を省略する。
When the acoustic feature quantity of the target frame is not omitted, that is, when the silence flag is “0”, the processing of steps ST63 and ST64 is executed as in the fourth embodiment, and the acoustic feature quantity of the target frame is When omitted, that is, when the silence flag is “1”, the processes of steps ST63 and ST64 are not executed as in the fourth embodiment.
Hereinafter, since it is the same as that of the said Embodiment 4, description is abbreviate | omitted.
1 音声入力部、2 音響特徴量算出部、3 音響特徴量圧縮部、4 量子化テーブル、5 量子化・符号化部、6 符号出力部、11 符号入力部、12 量子化テーブル、13 復号化・逆量子化部、14 音響特徴量復元部、15 標準パタン、16 言語辞書、17 照合部、18 認識結果出力部、21 音声入力部、22 音響特徴量算出部(特徴量抽出手段)、23 方式決定部(方式決定手段)、24 音響特徴量圧縮部(信号圧縮手段)、25 量子化テーブル、26 量子化・符号化部(量子化・符号化手段)、27 符号出力部、31 符号入力部、32 方式判定部(方式判別手段)、33 量子化テーブル、34 復号化・逆量子化部(復号化・逆量子化手段)、35 音響特徴量復元部(圧縮解除手段)、36 標準パタン、37 言語辞書、38 照合部(照合手段)、39 認識結果出力部、41 伝送回線状況判定部(方式決定手段)、42 タスク困難度判定部(方式決定手段)、43 時間フレーム間引き部(出力対象判定手段)、44 フレーム周期判定部(包含判定手段)、45 照合部(照合手段)、46 無音判定部(出力対象判定手段)、47 無音フレーム判定部(包含判定手段)。 DESCRIPTION OF SYMBOLS 1 Audio | voice input part, 2 Acoustic feature-value calculation part, 3 Acoustic feature-value compression part, 4 Quantization table, 5 Quantization and encoding part, 6 Code output part, 11 Code input part, 12 Quantization table, 13 Decoding Inverse quantization unit, 14 acoustic feature amount restoration unit, 15 standard pattern, 16 language dictionary, 17 collation unit, 18 recognition result output unit, 21 speech input unit, 22 acoustic feature amount calculation unit (feature amount extraction unit), 23 Method determination unit (method determination unit), 24 Acoustic feature value compression unit (signal compression unit), 25 Quantization table, 26 Quantization / encoding unit (quantization / encoding unit), 27 Code output unit, 31 Code input 32, method determination unit (method determination unit), 33 quantization table, 34 decoding / dequantization unit (decoding / dequantization unit), 35 acoustic feature amount restoration unit (decompression unit), 36 standard pattern , 37 Language dictionary, 38 verification unit (verification unit), 39 recognition result output unit, 41 transmission line status determination unit (method determination unit), 42 task difficulty level determination unit (method determination unit), 43 time frame thinning unit (output target determination) Means), 44 frame period determination section (inclusion determination means), 45 collation section (collation means), 46 silence determination section (output target determination means), 47 silence frame determination section (inclusion determination means).
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007044081A JP4932530B2 (en) | 2007-02-23 | 2007-02-23 | Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007044081A JP4932530B2 (en) | 2007-02-23 | 2007-02-23 | Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001294532A Division JP2003099097A (en) | 2001-09-26 | 2001-09-26 | Acoustic processor, acoustic processing method, acoustic processing program, collation processing apparatus, collation processing method and collation processing program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007179072A JP2007179072A (en) | 2007-07-12 |
JP2007179072A5 JP2007179072A5 (en) | 2008-11-06 |
JP4932530B2 true JP4932530B2 (en) | 2012-05-16 |
Family
ID=38304243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007044081A Expired - Fee Related JP4932530B2 (en) | 2007-02-23 | 2007-02-23 | Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4932530B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5244663B2 (en) * | 2009-03-18 | 2013-07-24 | Kddi株式会社 | Speech recognition processing method and system for inputting text by speech |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07273738A (en) * | 1994-03-28 | 1995-10-20 | Toshiba Corp | Voice transmission control circuit |
AU766016B2 (en) * | 1998-11-24 | 2003-10-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems |
EP1143229A1 (en) * | 1998-12-07 | 2001-10-10 | Mitsubishi Denki Kabushiki Kaisha | Sound decoding device and sound decoding method |
JP3327240B2 (en) * | 1999-02-10 | 2002-09-24 | 日本電気株式会社 | Image and audio coding device |
-
2007
- 2007-02-23 JP JP2007044081A patent/JP4932530B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007179072A (en) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100923896B1 (en) | Method and apparatus for transmitting voice activity in distributed speech recognition system | |
CA2179759C (en) | Distributed voice recognition system | |
KR100647336B1 (en) | Adaptive Time / Frequency-based Audio Coding / Decoding Apparatus and Method | |
US7747430B2 (en) | Coding model selection | |
CN101510424B (en) | Method and system for encoding and synthesizing speech based on speech primitive | |
CN103247293B (en) | Coding method and decoding method for voice data | |
EP2439737B1 (en) | Compression coding and decoding method, coder, decoder and coding device | |
US6678655B2 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
KR101350285B1 (en) | Signal coding, decoding method and device, system thereof | |
US7315819B2 (en) | Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof | |
US20030101051A1 (en) | Distributed speech recognition with codec parameters | |
JP4932530B2 (en) | Acoustic processing device, acoustic processing method, acoustic processing program, verification processing device, verification processing method, and verification processing program | |
US7346508B2 (en) | Information retrieving method and apparatus | |
JP3348759B2 (en) | Transform coding method and transform decoding method | |
JP2003099097A (en) | Acoustic processor, acoustic processing method, acoustic processing program, collation processing apparatus, collation processing method and collation processing program | |
KR20060067016A (en) | Speech coding apparatus and method | |
JP5524131B2 (en) | Text and speech feature collection method, system and program | |
KR100701253B1 (en) | Voice Encoding Method and Apparatus for Server-based Speech Recognition in Mobile Communication Environments | |
Yoon et al. | A MFCC-based CELP speech coder for server-based speech recognition in network environments | |
JP3700310B2 (en) | Vector quantization apparatus and vector quantization method | |
KR20100006491A (en) | Method and apparatus for encoding and decoding silence signal | |
WO2008001991A1 (en) | Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding | |
Lee et al. | Design of a speech coder utilizing speech recognition parameters for server-based wireless speech recognition | |
JPH10149190A (en) | Voice recognition method and voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071130 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071130 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080919 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |