JP6444490B2 - Speech segment detection apparatus and speech segment detection method - Google Patents
Speech segment detection apparatus and speech segment detection method Download PDFInfo
- Publication number
- JP6444490B2 JP6444490B2 JP2017504528A JP2017504528A JP6444490B2 JP 6444490 B2 JP6444490 B2 JP 6444490B2 JP 2017504528 A JP2017504528 A JP 2017504528A JP 2017504528 A JP2017504528 A JP 2017504528A JP 6444490 B2 JP6444490 B2 JP 6444490B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- time
- feature amount
- feature
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 112
- 238000004364 calculation method Methods 0.000 claims description 56
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 description 26
- 238000003909 pattern recognition Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 6
- 102100036848 C-C motif chemokine 20 Human genes 0.000 description 3
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Description
この発明は、複数の特徴量を用いて入力信号の中から音声区間を検出する技術に関するものである。 The present invention relates to a technique for detecting a speech section from an input signal using a plurality of feature amounts.
入力信号中から音声が存在する区間を抽出する音声区間検出処理は、音声認識の前処理として非常に重要な処理である。一般的に、音声認識処理は、音声区間検出処理によって検出された区間を対象としてパターン認識を行って認識結果を得ることから、音声区間の検出に誤りがあると音声認識処理の認識精度が大きく低下する。音声区間検出の基本的な方法として、入力信号のパワーを算出し、算出したパワーが設定された閾値以上の区間を音声区間として検出する方法がある。当該検出方法は、背景騒音が小さい場合および定常的な音声区間の検出処理において比較的良好に動作する。 The voice section detection process for extracting a section where voice is present from the input signal is a very important process as a pre-process for voice recognition. In general, since the speech recognition process performs pattern recognition on the section detected by the speech section detection process to obtain a recognition result, the recognition accuracy of the speech recognition process increases if there is an error in the speech section detection. descend. As a basic method of speech section detection, there is a method of calculating the power of an input signal and detecting a section where the calculated power is equal to or greater than a set threshold as a speech section. The detection method operates relatively well when the background noise is small and in the detection process of a stationary speech section.
一方、プラント設備の保守作業などにおける点検結果の入力、および各種FA(Factory Automation)機器などの操作支援として、ユーザがハンズフリーで利用可能な音声認識は非常に有効なユーザインタフェースである。しかし、プラント設備の保守作業環境およびFA機器の動作環境は、タービン音およびハンマーの打音など、非定常な騒音が発生する環境であることが多い。そのため、上述した入力信号から算出したパワーのみを用いて音声区間を検出する方法では、非定常な騒音が音声として誤検出されるため、音声区間の検出精度が低下し、その後の音声認識処理において十分な認識性能が得られないという問題がある。 On the other hand, speech recognition that can be used by the user in a hands-free manner is an extremely effective user interface for inputting inspection results in maintenance work of plant facilities and the like, and for supporting operation of various FA (Factory Automation) devices. However, in many cases, the maintenance work environment of the plant equipment and the operating environment of the FA equipment are environments in which unsteady noises such as turbine noise and hammering noise are generated. Therefore, in the method of detecting a speech section using only the power calculated from the input signal described above, since non-stationary noise is erroneously detected as speech, the detection accuracy of the speech section decreases, and in subsequent speech recognition processing There is a problem that sufficient recognition performance cannot be obtained.
上述した問題に対し、例えば特許文献1には、音声区間検出に用いる特徴量として、入力信号のパワーに換えて、入力信号のスペクトル特徴を表現するケプストラムを用い、当該ケプストラムをパラメータとしたHMM(Hidden Markov Model)を用いた音声区間検出方法が開示されている。具体的には、音声と騒音のそれぞれについて幾つかのHMMを学習しておき、音声区間の開始点である始端を検出する際に各HMMの尤度を計算し、12フレーム(120msec)中で計算したHMMの尤度が最も高いフレームが4フレーム以上存在する場合に、当該12フレームの先頭フレームを音声区間の始端として検出している。 In response to the above-described problem, for example, in Patent Document 1, a cepstrum that represents a spectral feature of an input signal is used instead of the power of the input signal as a feature amount used for speech segment detection, and the HMM ( A speech segment detection method using Hidden Markov Model) is disclosed. Specifically, several HMMs are learned for each of speech and noise, and the likelihood of each HMM is calculated when detecting the start point that is the start point of the speech section. In 12 frames (120 msec) When there are four or more frames with the highest likelihood of the calculated HMM, the first frame of the 12 frames is detected as the start end of the speech section.
しかしながら、上述した特許文献1に開示された技術では、入力信号のスペクトル特徴を表現する特徴量を用いて音声区間検出を行うことから、音声とはスペクトル特徴が異なる騒音を音声として誤検出するのを抑制することは可能であるが、無声子音(p,t,k,s,sh,h,f)などは騒音とスペクトル特徴が類似していることから、当該無声子音などと騒音とを正確に識別して検出することができない場合があるという課題があった。 However, in the technique disclosed in Patent Document 1 described above, since voice section detection is performed using a feature amount that represents a spectral feature of an input signal, noise having a spectral feature different from that of speech is erroneously detected as speech. However, unvoiced consonants (p, t, k, s, sh, h, f), etc. are similar in noise and spectrum characteristics, so the unvoiced consonants, etc. and noise can be accurately There is a problem in that it cannot be identified and detected.
この発明は、上記のような課題を解決するためになされたもので、非定常な騒音を音声として誤検出するのを抑制し、音声の語頭および語尾の無声子音の検出精度を向上させることを目的とする。 The present invention has been made to solve the above-described problems, and suppresses erroneous detection of unsteady noise as speech, and improves the detection accuracy of unvoiced consonants at the beginning and end of speech. Objective.
この発明に係る音声区間検出装置は、入力信号からスペクトル特徴を示す第1の特徴量を算出する第1の特徴量算出部と、入力信号から第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出する第2の特徴量算出部と、入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、第1の特徴量算出部が算出した第1の特徴量に基づいて、入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、第2の特徴量算出部が算出した第2の特徴量と閾値との比較に基づいて、音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えるものである。 The speech section detection apparatus according to the present invention includes a first feature amount calculation unit that calculates a first feature amount indicating a spectral feature from an input signal, and a feature amount of speech that is different from the first feature amount from the input signal. The first feature amount calculation unit calculates the first feature amount calculation unit using a second feature amount calculation unit that calculates the second feature amount to be shown and a recognition model for identifying speech and noise included in the input signal. On the basis of the feature amount, a speech section detection unit that detects a start time indicating a start point of a speech section and an end time indicating an end point included in the input signal, and a second feature amount calculated by the second feature amount calculation unit A start / end correction unit that corrects the start time and the end time detected by the speech section detection unit based on the comparison between the feature amount and the threshold value is provided.
この発明によれば、非定常な騒音を音声区間として誤検出するのを抑制することができ、さらに音声の語頭および語尾の無声子音の検出精度を向上させることができる。 According to the present invention, it is possible to suppress erroneous detection of unsteady noise as a speech section, and it is possible to further improve the accuracy of detecting unvoiced consonants at the beginning and end of speech.
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声区間検出装置10の構成を示すブロック図である。
音声区間検出装置10は、第1の特徴量算出部1、第2の特徴量算出部2、パターン認識モデル蓄積部3、音声区間検出部4および始終端補正部5で構成されている。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration of a speech
The speech
第1の特徴量算出部1は、外部から入力される入力信号の音響分析を行い、スペクトル特徴を表現する特徴量(以下、第1の特徴量と称する)の時系列を算出する。第1の特徴量は、例えばMFCC(Mel Frequency Cepstral Coefficient)の1〜12次元までのデータである。なお、以下では説明の簡潔化のため、MFCCの1から12次元までのデータを単にMFCCと称する。 The first feature amount calculation unit 1 performs acoustic analysis of an input signal input from the outside, and calculates a time series of feature amounts (hereinafter referred to as first feature amounts) expressing spectral features. The first feature amount is, for example, data of 1 to 12 dimensions of MFCC (Mel Frequency Cepstral Coefficient). In the following, for simplification of description, data of 1 to 12 dimensions of MFCC is simply referred to as MFCC.
第2の特徴量算出部2は、第1の特徴量算出部1が変換した第1の特徴量とは異なる特徴量であり、第1の特徴量では識別が困難な音声の検出に適した特徴量(以下、第2の特徴量と称する)の時系列を算出する。例えば、第1の特徴量では騒音との識別が困難な音声の無声子音などの検出に適した特徴量の時系列を算出する。ここで、無声子音はp,t,k,s,sh,h,fなどである。一般的に、無声子音は音声の高域にパワーが集中していることから、例えば高域を強調したパワーを第2の特徴量として算出する。
The second feature
パターン認識モデル蓄積部3は、入力信号中の音声と騒音を識別するためのパターン認識モデルを蓄積する。この実施の形態1ではモデルとしてGMM(Gaussian Mixture Model)を用いる場合を例に説明を行う。具体的には、音声をモデル化した1つのGMM(以下、音声GMMと称する)と、騒音をモデル化した1つのGMM(以下、騒音GMMと称する)とから、パターン認識モデルを構成する。音声GMMおよび騒音GMMのパラメータは、例えば最尤度推定法などを用いた学習によって予め求めておく。音声GMMのパラメータの学習は多様な音声のMFCCを用いて行われ、騒音GMMのパラメータの学習は多様な騒音のMFCCを用いて行われる。
The pattern recognition
音声区間検出部4は、パターン認識モデル蓄積部3に蓄積されたパターン認識モデルを参照し、第1の特徴量算出部1が算出した第1の特徴量のパターンマッチングを行い、入力信号中の音声区間の開始点を示す暫定の始端時刻(以下、仮始端時刻と称する)および暫定の終了点を示す終端時刻(以下、仮終端時刻と称する)を検出する。始終端補正部5は、音声区間検出部4が検出した仮始端時刻および仮終端時刻を、第2の特徴量に基づいて補正して始端時刻および終端時刻を確定する。始終端補正部5は、得られた始端時刻および終端時刻を、入力信号中の音声区間の時間情報として出力する。
The speech section detection unit 4 refers to the pattern recognition model stored in the pattern recognition
図2は、実施の形態1に係る音声区間検出装置10のハードウェア構成を示す図である。
音声区間検出装置10の第1の特徴量算出部1、第2の特徴量算出部2、音声区間検出部4および始終端補正部5は、プロセッサ20がメモリ30に記憶されたプログラムを実行することにより、実現される。パターン認識モデル蓄積部3は、メモリ30を構成する。また、複数のプロセッサ20および複数のメモリ30が連携して上述した機能を実行するように構成してもよい。FIG. 2 is a diagram illustrating a hardware configuration of the speech
The first feature amount calculation unit 1, the second feature
次に、音声区間検出装置10の動作について説明する。
図3Aおよび図3Bは、実施の形態1に係る音声区間検出装置10の動作を示すフローチャートである。
信号が入力されると(ステップST1)、第1の特徴量算出部1は、入力信号を設定した時間区間(以下、フレームと称する)に分割し、分割したフレームごとに入力信号の変換を行い第1の特徴量を算出する(ステップST2)。なお、フレームの分割では隣接するフレーム同士で時間区間が重複していてもよい。例えば、フレームの時間区間長を30ミリ秒とし、フレームを10ミリ秒ずつずらしながら入力信号を変換して第1の特徴量を算出する。第1の特徴量は上述のようにMFCCとする。即ち、ステップST2の処理では、第1の特徴量算出部1が10ミリ秒の間隔でMFCCの時系列を算出し、出力する。Next, the operation of the speech
3A and 3B are flowcharts showing the operation of the speech
When a signal is input (step ST1), the first feature quantity calculation unit 1 divides the input signal into set time intervals (hereinafter referred to as frames), and converts the input signal for each divided frame. A first feature amount is calculated (step ST2). In the frame division, adjacent time frames may overlap with each other. For example, the time interval length of the frame is set to 30 milliseconds, and the first feature value is calculated by converting the input signal while shifting the frame by 10 milliseconds. The first feature amount is MFCC as described above. That is, in the process of step ST2, the first feature quantity calculation unit 1 calculates and outputs the MFCC time series at intervals of 10 milliseconds.
第2の特徴量算出部2は、第1の特徴量算出部1と同一のフレーム間隔で入力信号を分割し、分割したフレームごとに入力信号を変換して第2の特徴量を算出する(ステップST3)。なお、ステップST3では第2の特徴量として高域を強調したパワーを算出するものとして、以下説明を行う。第2の特徴量算出部2は、入力信号の最初のKフレーム(例えば、K=10)を音声が存在しない騒音区間とみなし、当該Kフレームの区間で音声のパワーの平均を算出し、ノイズレベルとする(ステップST4)。さらに、第2の特徴量算出部2は、各フレームごとにステップST3で算出した高域を強調したパワーからステップST4で算出したノイズレベルを減算し、高域強調差分パワーを算出する(ステップST5)。ステップST5の処理では、第2の特徴量算出部2が10ミリ秒間隔で高域強調差分パワーの時系列を算出し、出力する。
The second feature
音声区間検出部4は、ステップST2で算出された第1の特徴量、即ちMFCCの時系列を入力とし、パターン認識モデル蓄積部3に蓄積されたパターン認識モデルを参照し、各フレームごとに音声GMMの尤度Lsおよび騒音GMMの対数尤度Lnを算出する(ステップST6)。音声区間検出部4は、ステップST6で算出した音声GMMの尤度Lsおよび騒音GMMの対数尤度Lnを用いて、以下の式(1)に基づいて対数尤度差Sを算出する(ステップST7)。
S=Ls−Ln (1)The speech section detection unit 4 receives the first feature amount calculated in step ST2, that is, the MFCC time series, and refers to the pattern recognition model stored in the pattern recognition
S = Ls−Ln (1)
音声区間検出部4は、ステップST7で算出した対数尤度差Sが、設定された閾値Th_S以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を時間軸の順方向に探索する(ステップST8)。音声区間検出部4は、ステップST8で探索した区間について、対数尤度差Sが時間軸の順方向に最初に閾値Th_S以上となったフレームの時刻を取得し、音声区間の仮始端時刻Tb´とする(ステップST9)。 The speech section detection unit 4 searches in the forward direction of the time axis for a section in which the frames having the log likelihood difference S calculated in step ST7 equal to or greater than the set threshold Th_S continue for the set frame count threshold Th_T1. (Step ST8). The speech section detection unit 4 obtains the time of the frame in which the log likelihood difference S first becomes equal to or greater than the threshold Th_S in the forward direction of the time axis for the section searched in step ST8, and the temporary start time Tb ′ of the speech section (Step ST9).
次に音声区間検出部4は、ステップST7で算出した対数尤度差Sが、設定された閾値Th_S未満となるフレームが、設定されたフレーム数の閾値Th_T2以上連続する区間を時間軸の順方向に探索する(ステップST10)。音声区間検出部4は、ステップST10で探索した区間について、対数尤度差Sが時間軸の順方向に最初に閾値Th_S未満となったフレームの時刻を取得し、音声区間の仮終端時刻Te´とする(ステップST11)。なお、上述したステップST8およびステップST10の探索処理は、目的とするフレームが探索されるまで継続するものとする。 Next, the speech section detection unit 4 forwards a section in which a frame in which the log likelihood difference S calculated in step ST7 is less than the set threshold value Th_S continues for the set frame number threshold Th_T2 or more in the forward direction of the time axis. (Step ST10). The speech section detection unit 4 obtains the time of the frame in which the log likelihood difference S first becomes less than the threshold Th_S in the forward direction of the time axis for the section searched in step ST10, and the temporary termination time Te ′ of the speech section (Step ST11). Note that the above-described search processing in step ST8 and step ST10 is continued until the target frame is searched.
始終端補正部5は、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST9で検出した音声区間の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーが閾値Th_P1以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST12)。始終端補正部5は、ステップST12の処理で区間が探索されたか否か判定を行う(ステップST13)。区間が探索された場合(ステップST13;YES)、始終端補正部5は探索された区間において時間軸の順方向に最初に高域強調差分パワーが閾値Th_P1以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST14)。一方、区間が探索されなかった場合(ステップST13;NO)、始終端補正部5はステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。
The start /
次に始終端補正部5は、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST11で検出した音声区間の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの区間で、高域強調差分パワーが閾値Th_P1以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の逆方向に探索する(ステップST16)。始終端補正部5は、ステップST16の処理で区間が探索されたか否か判定を行う(ステップST17)。区間が探索された場合(ステップST17;YES)、始終端補正部5は探索された区間において時間軸の逆方向に最初に高域強調差分パワーが閾値Th_P1以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST18)。一方、区間が探索されなかった場合(ステップST17;NO)、始終端補正部5はステップST11で検出された仮終端時刻Te´を終端時刻Teとする(ステップST19)。
Next, the start /
始終端補正部5は、ステップST14またはステップST15で取得した始端時刻Tbと、ステップST18またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。
なお、上述した閾値Th_S、閾値Th_P1、閾値Th_T1および閾値Th_T2は、予め設定した0以上の定数である。The start /
Note that the threshold value Th_S, threshold value Th_P1, threshold value Th_T1, and threshold value Th_T2 described above are preset constants of 0 or more.
図4は、実施の形態1の音声区間検出装置10の始終端補正部5による探索区間を示す図である。
図4では、横軸が時間を示し、縦軸が音声GMMと騒音GMMとの対数尤度差Sの強度を示している。図4において、時刻Tb´はステップST9で算出された仮始端時刻Tb´であり、時刻Te´はステップST11で算出された仮終端時刻Te´である。区間Aは、仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から後方に位置するフレームb2の時刻Tb2までの区間を示しており、始終端補正部5が始端時刻補正のための探索を行う探索区間を示している。矢印Bは、始終端補正部5が区間Aを探索する際の探索方向を示しており、時間軸の順方向に探索することを示している。FIG. 4 is a diagram illustrating a search section by the start /
In FIG. 4, the horizontal axis indicates time, and the vertical axis indicates the strength of the log likelihood difference S between the speech GMM and the noise GMM. In FIG. 4, time Tb ′ is the temporary start time Tb ′ calculated in step ST9, and time Te ′ is the temporary end time Te ′ calculated in step ST11. A section A shows a section from the time Tb1 of the frame b1 located in front of the time series of the temporary start time Tb ′ to the time Tb2 of the frame b2 located behind, so that the start /
さらに、区間Cは仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から前方に位置するフレームe1の時刻Te1までの区間を示しており、始終端補正部5が終端時刻補正のための探索を行う探索区間を示している。矢印Dは、始終端補正部5が区間Cを探索する際の探索方向を示しており、時間軸の逆方向に探索することを示している。
具体例を示すと、例えば、仮始端時刻Tb´から25フレーム前方に時刻Tb1を設定し、仮始端時刻Tb´から10フレーム後方に時刻Tb2を設定し、仮終端時刻Te´から10フレーム前方に時刻Te1を設定し、仮始端時刻Te´から30フレーム後方に時刻Te2を設定する。なお、Tb2を仮始端時刻Tb´から0フレームに設定し、さらにTe1を仮終端時刻Te´から0フレームに設定し、第1の特徴量で検出された音声区間の前方への補正を行わないように構成することも可能である。Further, the section C shows a section from the time Te2 of the frame e2 located behind the temporary end time Te ′ in time series to the time Te1 of the frame e1 located ahead, and the start /
Specifically, for example, time Tb1 is set 25 frames ahead of the temporary start time Tb ′, time Tb2 is set 10 frames behind the temporary start time Tb ′, and 10 frames ahead of the temporary end time Te ′. Time Te1 is set, and time Te2 is set 30 frames behind the provisional start time Te ′. Note that Tb2 is set to 0 frame from the temporary start time Tb ′, and Te1 is set to 0 frame from the temporary end time Te ′, so that the speech section detected by the first feature amount is not corrected forward. It is also possible to configure as described above.
以上のように、この実施の形態1によれば、入力信号の第1の特徴量を算出する第1の特徴量算出部1と、第1の特徴量では騒音との識別が困難な音声の検出に適した第2の特徴量を入力信号から算出する第2の特徴量算出部2と、第1の特徴量についてパターン認識手法を用いて音声と騒音とを判別して仮始端時刻および仮終端時刻を算出する音声区間検出部4と、第2の特徴量を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部5とを備えるように構成したので、音声区間検出部4の処理によって、スペクトル特徴量が異なる非定常騒音が音声区間として検出されるのを抑制し、さらに始終端補正部5の処理によって、スペクトル特徴量では騒音との識別が困難な音声の検出漏れを抑制し、音声区間の検出精度を向上させることができる。
As described above, according to the first embodiment, the first feature amount calculation unit 1 that calculates the first feature amount of the input signal, and the voice that is difficult to distinguish from noise by the first feature amount. A second feature
また、この実施の形態1によれば、第2の特徴量算出部2がスペクトル特徴量からでは騒音の識別が困難な無声子音の検出に適した高域強調差分パワーを第2の特徴量として算出し、始終端補正部5が当該高域強調差分パワーの時系列を用いて仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得するように構成したので、無声子音の検出漏れを抑制し、音声区間の検出精度を向上させることができる。
Further, according to the first embodiment, the second feature
なお、上述した実施の形態1では、パターン認識モデル蓄積部3に蓄積したパターン認識モデルを構成する音声GMMおよび騒音GMMのパラメータ学習には、最尤度推定法を用いる場合を例に示したが、音声と騒音とを積極的に識別するパラメータ学習、例えば相互情報最大化推定法を適用してもよい。
In the first embodiment described above, the maximum likelihood estimation method is used as an example for parameter learning of the speech GMM and noise GMM constituting the pattern recognition model stored in the pattern recognition
また、上述した実施の形態1では、パターン認識モデル蓄積部3に蓄積したパターン認識モデルを構成するGMMとして音声GMMおよび騒音GMMをそれぞれ1つずつ用いる構成を示したが、それぞれ複数個のGMMを用いてもよい。その場合、音声GMMの対数尤度は、複数個の音声GMMの対数尤度の最大値または加重平均した値とすれば良い。同様に、騒音GMMの対数尤度は、複数個の騒音GMMの対数尤度の最大値または加重平均した値とする。
In the first embodiment described above, a configuration in which one voice GMM and one noise GMM are used as GMMs constituting the pattern recognition model stored in the pattern recognition
また、上述した実施の形態1では、パターン認識モデル蓄積部3が蓄積したパターン認識モデルとしてGMMを用いる場合を示したが、HMMを用いてもよい。また、ロジスティック回帰モデル、サポートベクトルマシンおよびニューラルネットワークなどのパターン認識手法を用いてもよい。
In the first embodiment described above, the GMM is used as the pattern recognition model accumulated by the pattern recognition
また、上述した実施の形態1では、第2の特徴量算出部2が無声子音の検出に適した特徴量として高域強調差分パワーを算出する構成を示したが、無声子音の検出に適した特徴量、即ち無声子音に特徴的な特徴量であれば、任意の特徴量を適用することができる。例えば、入力信号のパワーを周波数帯域ごとに算出し、周波数帯域が2KHz未満のパワーと、2KHz以上のパワーを算出し、両パワーの比などを特徴量として適用することができる。
Moreover, in Embodiment 1 mentioned above, although the 2nd feature-
実施の形態2.
上述した実施の形態1では、始終端補正部5が高域強調差分パワーと閾値とを比較する際に、予め設定した閾値Th_P1を用いる構成を示したが、この実施の形態2では、高域強調差分パワーの比較対象となる閾値を高域強調差分パワーの標準偏差を用いて算出する構成を示す。
図5は、実施の形態2に係る音声区間検出装置10aの構成を示すブロック図である。
実施の形態2の音声区間検出装置10aは、実施の形態1で示した音声区間検出装置10に閾値算出部6を追加して設けている。
図6は、実施の形態2に係る音声区間検出装置10aの始終端補正部5aによる探索区間および閾値算出部6による閾値算出区間を示す図である。
なお、以下では、実施の形態1に係る音声区間検出装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
In the first embodiment described above, the start /
FIG. 5 is a block diagram illustrating a configuration of the speech
The speech
FIG. 6 is a diagram illustrating a search section by the start / end correction unit 5a and a threshold calculation section by the
In the following, the same or corresponding parts as those of the speech
閾値算出部6は、第2の特徴量算出部2が算出した第2の特徴量、すなわち高域強調差分パワーの時系列と、音声区間検出部4が検出した仮始端時刻Tb´とに基づいて、始終端補正部5aが参照する閾値を算出する。図6を参照して説明すると、閾値算出部6は仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1からさらにフレーム数Tv遡った時刻をTb0とし、当該時刻Tb0から時刻Tb1までの区間Eで、以下の式(2)に基づいて高域強調差分パワーの標準偏差sdを算出する。
式(2)において、mpは時刻Tb0から時刻Tb1の区間Eの高域差分パワーの平均値、piは時刻iにおける高域差分パワー、sqrt()は平方根をとる関数を示している。なお、フレーム数Tvは予め設定した定数であり、例えば50フレームとする。The threshold
In Expression (2), mp represents an average value of the high-frequency difference power in the section E from time Tb0 to time Tb1, pi represents the high-frequency difference power at time i, and sqrt () represents a function that takes a square root. The number of frames Tv is a preset constant, for example, 50 frames.
閾値算出部6は、式(2)に基づいて算出した高域強調差分パワーの標準偏差sdを用いて、以下の式(3)に基づいて始終端補正用閾値Th_P2を算出する。
Th_P2=α*sd+β (3)
式(3)において、αとβは予め定めた0以上の定数である。閾値算出部6が算出した始終端補正用閾値Th_P2は、始終端補正部5aに出力される。The
Th_P2 = α * sd + β (3)
In Expression (3), α and β are constants equal to or greater than 0. The start / end correction threshold Th_P2 calculated by the
次に、音声区間検出装置10aの動作について説明する。
図7Aおよび図7Bは、実施の形態2に係る音声区間検出装置10aの動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声区間検出装置10と同一のステップには図3Aおよび図3Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。Next, the operation of the speech
7A and 7B are flowcharts illustrating the operation of the speech
In the following, the same steps as those in speech
ステップST11において音声区間検出部4が音声の仮終端時刻Te´を検出すると、閾値算出部6は、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、さらにフレーム数Tv遡った時刻Tb0を算出する(ステップST31)。閾値算出部6は、ステップST31で算出した時刻Tb0から時刻Tb1の区間について、上述した式(2)に基づいて高域強調差分パワーの標準偏差sdを算出する(ステップST32)。さらに閾値算出部6は、ステップST32で算出した高域強調差分パワーの標準偏差sdを用いて、上述した式(3)に基づいて始終端補正用閾値Th_P2を算出する(ステップST33)。
When the speech section detection unit 4 detects the temporary termination time Te ′ of the speech in step ST11, the
始終端補正部5aは、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーがステップST33で算出した始終端補正用閾値Th_P2以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST34)。 The start / end correction unit 5a refers to the time series of the high frequency emphasis difference power calculated in step ST5, and starts from the time Tb1 of the frame b1 positioned in front of the time series of the temporary start time Tb ′ of the speech detected in step ST9. A frame in which the high-frequency emphasis differential power is equal to or higher than the start / end correction threshold Th_P2 calculated in step ST33 is set in a section up to the time Tb2 of the frame b2 located behind the time series of the audio temporary start time Tb ′. A section that is equal to or greater than the threshold Th_T1 of the number of frames is searched in the forward direction of the time axis (step ST34).
始終端補正部5aは、ステップST34の処理で区間が探索されたか否か判定を行う(ステップST35)。区間が探索された場合(ステップST35;YES)、始終端補正部5aは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST36)。一方、区間が探索されなかった場合(ステップST35;NO)、始終端補正部5aはステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。 The start / end correction unit 5a determines whether or not a section is searched in the process of step ST34 (step ST35). When the section is searched (step ST35; YES), the start / end correction unit 5a first acquires the time of the frame in which the high frequency emphasis difference power is equal to or higher than the start / end correction threshold Th_P2 in the searched section. Time Tb is set (step ST36). On the other hand, when the section is not searched (step ST35; NO), the start / end correction unit 5a sets the temporary start end time Tb ′ detected in step ST9 as the start end time Tb (step ST15).
次に始終端補正部5aは、ステップST5で算出された高域強調差分パワーの時系列を参照し、ステップST11で検出した音声の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの範囲で、高域強調差分パワーが始終端補正用閾値Th_P2以上となるフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の逆方向に探索する(ステップST37)。始終端補正部5aは、ステップST37の処理で区間が検出されたか否か判定を行う(ステップST38)。区間が探索された場合(ステップST38;YES)、始終端補正部5aは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST39)。一方、区間が探索されなかった場合(ステップST38;NO)、始終端補正部5aはステップST11で検出された終端時刻Te´を終端時刻Teとする(ステップST19)。 Next, the start / end correction unit 5a refers to the time series of the high-frequency emphasis difference power calculated in step ST5, and the time of the frame e2 located behind the temporary end time Te ′ of the speech detected in step ST11. The number of frames in which the high frequency emphasis differential power is equal to or greater than the start / end correction threshold Th_P2 in the range from Te2 to the time Te1 of the frame e1 located in front of the time series of the speech temporary end time Te ′ Are searched for in the reverse direction of the time axis (step ST37). The start / end correction unit 5a determines whether or not a section is detected in the process of step ST37 (step ST38). When the section is searched (step ST38; YES), the start / end correction unit 5a first acquires the time of the frame in which the high frequency emphasis difference power is equal to or higher than the start / end correction threshold Th_P2 in the searched section. Time Te is set (step ST39). On the other hand, when the section is not searched (step ST38; NO), the start / end correction unit 5a sets the end time Te ′ detected in step ST11 as the end time Te (step ST19).
始終端補正部5aは、ステップST36またはステップST15で取得した始端時刻Tbと、ステップST39またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。 The start / end correction unit 5a outputs the start end time Tb acquired in step ST36 or step ST15 and the end time Te acquired in step ST39 or step ST19 as time information of the speech section (step ST20), and ends the process. To do.
以上のように、この実施の形態2によれば、仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1からさらにフレーム数Tv遡った時刻をTb0とし、当該時刻Tb0から時刻Tb1までの区間で算出した高域強調差分パワーの標準偏差sdを用いて始終端補正用閾値Th_P2を算出する閾値算出部6と、算出された始終端補正用閾値Th_P2、および高域強調差分パワーの時系列に基づいて、仮始端時刻および仮終端時刻を補正し、音声区間の時間情報を取得する始終端補正部5aとを備えるように構成したので、高域強調差分パワーの標準偏差の値が小さく、定常的な騒音環境に対しては、低い始終端補正用閾値を設定することが可能となり、微弱な無声子音の検出性能を向上させることができる。一方、高域強調差分パワーの標準偏差の値が大きく、非定常的な騒音環境に対しては、高い始終端補正用閾値を設定することが可能となり、騒音を音声として誤検出するのを抑制することができる。
As described above, according to the second embodiment, the time Tb0 further from the time Tb1 of the frame b1 located in front of the temporary start time Tb ′ in time series is defined as Tb0, and from the time Tb0 to the time Tb1. The
実施の形態3.
この実施の形態3では、第2の特徴量算出部2が算出した高域強調差分パワーの時系列に加えて、音声区間検出部4が検出した対数尤度差Sの時系列も考慮して始終端時刻を補正する構成を示す。
図8は、実施の形態3に係る音声区間検出装置10bの構成を示すブロック図である。
実施の形態3の音声区間検出装置10bは、実施の形態2で示した音声区間検出装置10aの構成と同一である。以下では、実施の形態2に係る音声区間検出装置10aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
In the third embodiment, in addition to the time series of the high frequency emphasis difference power calculated by the second feature
FIG. 8 is a block diagram illustrating a configuration of the speech segment detection device 10b according to the third embodiment.
The speech segment detection device 10b of the third embodiment has the same configuration as the speech
音声区間検出部4は、実施の形態1および実施の形態2と同様に、仮始端時刻Tb´および仮終端時刻Te´を始終端補正部5bに出力する。さらに音声区間検出部4は、上述した式(1)に基づいて算出された音声GMMと騒音GMMの対数尤度差Sを各フレームごと、即ち対数尤度差Sの時系列を始終端補正部5bに出力する。閾値算出部6は、実施の形態2と同様に、第2の特徴量算出部2から入力される高域強調差分パワーの時系列と、音声区間検出部4が検出した仮始端時刻Tb´とに基づいて、始終端補正部5bが参照する閾値である始終端補正用閾値Th_P2を算出する。
Similar to the first and second embodiments, the voice section detection unit 4 outputs the temporary start time Tb ′ and the temporary end time Te ′ to the start /
始終端補正部5bは、音声区間検出部4が検出した仮始端時刻Tb´および仮終端時刻Te´を、第2の特徴量算出部2から入力される高域強調差分パワーの時系列と、音声区間検出部4から入力される対数尤度差Sの時系列と、閾値算出部6から入力される始終端補正用閾値Th_P2に基づいて補正し、始端時刻Tbおよび終端時刻Teを取得する。
The start /
次に、音声区間検出装置10bの動作について説明する。
図9Aおよび図9Bは、実施の形態3に係る音声区間検出装置10bの動作を示すフローチャートである。
なお、以下では実施の形態2に係る音声区間検出装置10aと同一のステップには図7Aおよび図7Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。Next, the operation of the speech segment detection device 10b will be described.
9A and 9B are flowcharts showing the operation of the speech segment detection device 10b according to
In the following, the same steps as those in speech
ステップST33において閾値算出部6が始終端補正用閾値Th_P2を算出すると、始終端補正部5bは、ステップST5で算出された高域強調差分パワーの時系列、およびステップST7で算出された対数尤度差Sの時系列を参照し、ステップST9で検出した音声の仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から、音声の仮始端時刻Tb´の時系列後方に位置するフレームb2の時刻Tb2までの区間で、高域強調差分パワーがステップST33で算出された始終端補正用閾値Th_P2以上、且つ対数尤度差Sが設定された閾値Th_S2以上のフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を、時間軸の順方向に探索する(ステップST41)。
ここで、上述した閾値Th_S2は予め定められた0以上の定数であって、且つ閾値Th_Sよりも小さい値であるものとする。When the
Here, it is assumed that the above-described threshold Th_S2 is a predetermined constant equal to or larger than 0 and smaller than the threshold Th_S.
始終端補正部5bは、ステップST41の処理で区間が探索されたか否か判定を行う(ステップST42)。区間が探索された場合(ステップST42;YES)、始終端補正部5bは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが閾値Th_S2以上となったフレームの時刻を取得し、始端時刻Tbとする(ステップST43)。一方、区間が探索されなかった場合(ステップST42;NO)、始終端補正部5bはステップST9で検出された仮始端時刻Tb´を始端時刻Tbとする(ステップST15)。
The start /
次に始終端補正部5bは、ステップST5で算出された高域強調差分パワーの時系列、およびステップST7で算出された対数尤度差Sの時系列を参照し、ステップST11で検出した音声の仮終端時刻Te´の時系列後方に位置するフレームe2の時刻Te2から、音声の仮終端時刻Te´の時系列前方に位置するフレームe1の時刻Te1までの区間で、高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが設定された閾値Th_S2以上のフレームが、設定されたフレーム数の閾値Th_T1以上連続する区間を時間軸の逆方向に探索する(ステップST44)。
Next, the start /
始終端補正部5bは、ステップST44の処理で区間が検出されたか否か判定を行う(ステップST45)。区間が探索された場合(ステップST45;YES)、始終端補正部5bは探索された区間において最初に高域強調差分パワーが始終端補正用閾値Th_P2以上、且つ対数尤度差Sが閾値Th_S2以上となったフレームの時刻を取得し、終端時刻Teとする(ステップST46)。一方、区間が探索されなかった場合(ステップST45;NO)、始終端補正部5bはステップST11で検出された仮終端時刻Te´を終端時刻Teとする(ステップST19)。
The start /
始終端補正部5bは、ステップST43またはステップST15で取得した始端時刻Tbと、ステップST46またはステップST19で取得した終端時刻Teとを、音声区間の時間情報として出力し(ステップST20)、処理を終了する。
上述のように、閾値Th_S2を閾値Th_Sよりも小さい値に設定することにより、仮始端時刻Tb´および仮終端時刻Te´の検出時には検出することができなかった微弱な無声子音などの検出が容易となる。なお、高域強調差分パワーの時系列を用いず、対数尤度差Sの時系列のみを用いて、閾値Th_S2を閾値Th_Sよりも小さい値に設定して探索処理を行うと、騒音をご検出する可能性が大きくなるが、高域強調差分パワーの時系列と対数尤度差Sの時系列とを用いて両者の特徴量が共に閾値以上となった場合にのみ、仮始端時刻Tb´および仮終端時刻Te´を補正することにより、補正精度を向上させることができる。The start /
As described above, by setting the threshold value Th_S2 to a value smaller than the threshold value Th_S, it is easy to detect weak unvoiced consonants that could not be detected at the time of detecting the temporary start time Tb ′ and the temporary end time Te ′. It becomes. Note that noise is detected when the threshold value Th_S2 is set to a value smaller than the threshold value Th_S using only the time series of the log likelihood difference S without using the time series of the high frequency emphasis difference power. However, only when both of the feature quantities are equal to or greater than the threshold using the time series of the high frequency emphasis difference power and the time series of the log likelihood difference S, the temporary start time Tb ′ and Correction accuracy can be improved by correcting the provisional termination time Te ′.
始終端補正部5bにおいて、高域強調差分パワーに加えて対数尤度差に基づいて始終端時刻の補正を行うことにより、仮始端時刻検出時には検出できなかった微弱な無声子音などを容易に検出することができる。ただし、対数尤度差のみを用いて閾値を低く設定して始終端時刻の補正を行うと、騒音を音声として誤検出する可能性が高くなる。そのため、対数尤度差とその他の特徴量とを併用して両者の特徴量が共に閾値以上となった場合にのみ、始終端時刻を補正する構成とし、補正精度を向上させる。
In the start /
以上のように、この実施の形態3によれば、第2の特徴量算出部2が算出した高域強調差分パワーの時系列、および音声区間検出部4が検出した対数尤度差の時系列、および閾値算出部6から入力される始終端補正用閾値に基づいて、音声区間検出部4が検出した仮始端時刻および仮終端時刻を補正する始終端補正部5bを備えるように構成したので、騒音を音声として誤検出して補正することを抑制し、音声の開始点および音声の終了点の補正精度を向上させることができる。
As described above, according to the third embodiment, the time series of the high frequency emphasis difference power calculated by the second feature
また、この実施の形態3によれば、閾値Th_S2を閾値Th_Sよりも小さい値に設定するように構成したので、仮始端時刻Tb´および仮終端時刻Te´の検出時には検出することができなかった微弱な無声子音などを容易に検出することができる。 Further, according to the third embodiment, since the threshold value Th_S2 is set to a value smaller than the threshold value Th_S, it cannot be detected at the time of detecting the temporary start time Tb ′ and the temporary end time Te ′. A weak unvoiced consonant can be easily detected.
なお、上述した実施の形態3では、実施の形態2で示した音声区間検出装置10aに始終端補正部5bを適用する構成を示したが、実施の形態1で示した音声区間検出装置10に始終端補正部5bを適応して構成してもよい。
In the above-described third embodiment, the configuration in which the start /
上述した実施の形態1から実施の形態3では、第1の特徴量では騒音との識別が困難な音声の検出として、無声子音の検出を例に説明を行ったが、無声子音以外にも、無声子化した母音の検出を行うように構成することも可能である。さらに、濁音の子音部などの有声子音の検出や母音の検出など、発話が不明瞭な場合に、第1の特徴量では騒音との識別が困難になると予測される音声の検出を行うように構成することも可能である。
In Embodiment 1 to
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In addition to the above, within the scope of the present invention, the present invention can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.
この発明に係る音声区間検出装置は、音声区間検出が必要となる装置、例えば音声認識装置に適用可能であり、非定常な騒音を音声として誤検出することを防ぎ、且つ語頭や語尾の無声子音の検出精度を改善することができる。 The speech segment detection device according to the present invention is applicable to a device that requires speech segment detection, for example, a speech recognition device, prevents erroneous detection of unsteady noise as speech, and voiceless consonants at the beginning or end of a word. Detection accuracy can be improved.
1 第1の特徴量算出部、2 第2の特徴量算出部、3 パターン認識モデル蓄積部、4 音声区間検出部、5,5a,5b 始終端補正部、6 閾値算出部、10,10a,10b 音声区間検出装置。
DESCRIPTION OF SYMBOLS 1 1st feature-value calculation part, 2nd feature-value calculation part, 3 pattern recognition model storage part, 4 audio | voice area detection part, 5, 5a, 5b start / end correction | amendment part, 6 threshold
Claims (5)
前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出する第2の特徴量算出部と、
前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量算出部が算出した第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、
前記第2の特徴量算出部が算出した第2の特徴量と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えた音声区間検出装置。A first feature amount calculation unit for calculating a first feature amount indicating a spectral feature from an input signal;
A second feature quantity calculation unit for calculating a second feature quantity indicating a feature quantity of speech different from the first feature quantity from the input signal;
Based on the first feature amount calculated by the first feature amount calculation unit using a recognition model for identifying speech and noise included in the input signal, the speech section included in the input signal A voice interval detection unit that detects a start time indicating a start point and an end time indicating an end point;
A voice including a start / end correction unit that corrects the start time and the end time detected by the voice section detection unit based on a comparison between the second feature value calculated by the second feature value calculation unit and a threshold value. Section detection device.
前記始終端補正部は、前記第2の特徴量と閾値との比較に加えて、前記音声区間検出部が算出した前記尤度差と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正することを特徴とする請求項1記載の音声区間検出装置。The speech section detection unit refers to the recognition model, calculates a likelihood difference between a speech model that models the speech and a noise model that models the noise,
The start / end correction unit is detected by the speech segment detection unit based on the comparison between the likelihood difference calculated by the speech segment detection unit and the threshold value in addition to the comparison between the second feature amount and the threshold value. The speech section detection device according to claim 1, wherein the start time and end time are corrected.
第2の特徴量算出部が、前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出し、
音声区間検出部が、前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出し、
始終端補正部が、前記第2の特徴量と閾値との比較に基づいて、前記始端時刻および終端時刻を補正する音声区間検出方法。A first feature amount calculating unit that calculates a first feature amount indicating a spectral feature from the input signal;
A second feature amount calculation unit calculates a second feature amount indicating a feature amount of speech different from the first feature amount from the input signal;
The speech section detection unit indicates a start point of the speech section included in the input signal based on the first feature amount using a recognition model for identifying speech and noise included in the input signal. Detect end time indicating start time and end point,
A speech section detection method in which a start / end correction unit corrects the start time and end time based on a comparison between the second feature amount and a threshold value.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/057333 WO2016143125A1 (en) | 2015-03-12 | 2015-03-12 | Speech segment detection device and method for detecting speech segment |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016143125A1 JPWO2016143125A1 (en) | 2017-06-01 |
JP6444490B2 true JP6444490B2 (en) | 2018-12-26 |
Family
ID=56878608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017504528A Active JP6444490B2 (en) | 2015-03-12 | 2015-03-12 | Speech segment detection apparatus and speech segment detection method |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6444490B2 (en) |
TW (1) | TW201633291A (en) |
WO (1) | WO2016143125A1 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6392950B1 (en) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | Detection apparatus, detection method, and detection program |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN111788629B (en) * | 2018-02-20 | 2023-08-15 | 三菱电机株式会社 | Learning device, voice section detection device, and voice section detection method |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
CN108877778B (en) * | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | Sound end detecting method and equipment |
CN108877779B (en) * | 2018-08-22 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | Method and device for detecting voice tail point |
JP7565041B2 (en) | 2020-08-20 | 2024-10-10 | 国立大学法人秋田大学 | Speech section extraction method, speech section extraction program, and speech section extraction device |
CN116997961A (en) | 2021-04-07 | 2023-11-03 | 三菱电机株式会社 | Information processing apparatus, output method, and output program |
CN119183594A (en) | 2022-05-20 | 2024-12-24 | 三菱电机株式会社 | Information processing device, program, and information processing method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5710196A (en) * | 1980-06-20 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice signal detector |
JPH03290700A (en) * | 1990-04-09 | 1991-12-20 | Toshiba Corp | Sound detector |
JP2007017620A (en) * | 2005-07-06 | 2007-01-25 | Kyoto Univ | Utterance section detection apparatus, computer program and recording medium therefor |
JP5076974B2 (en) * | 2008-03-03 | 2012-11-21 | ヤマハ株式会社 | Sound processing apparatus and program |
EP2491549A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | Detector and method for voice activity detection |
WO2011070972A1 (en) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | Voice recognition system, voice recognition method and voice recognition program |
HUE038398T2 (en) * | 2012-08-31 | 2018-10-29 | Ericsson Telefon Ab L M | Method and device for voice activity detection |
-
2015
- 2015-03-12 JP JP2017504528A patent/JP6444490B2/en active Active
- 2015-03-12 WO PCT/JP2015/057333 patent/WO2016143125A1/en active Application Filing
- 2015-06-16 TW TW104119363A patent/TW201633291A/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2016143125A1 (en) | 2016-09-15 |
JPWO2016143125A1 (en) | 2017-06-01 |
TW201633291A (en) | 2016-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6444490B2 (en) | Speech segment detection apparatus and speech segment detection method | |
JP5229234B2 (en) | Non-speech segment detection method and non-speech segment detection apparatus | |
US7991614B2 (en) | Correction of matching results for speech recognition | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
JP7143916B2 (en) | Information processing device, information processing method, and program | |
US20060287856A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
JP2006146090A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
EP4018439B1 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
WO2010128560A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
CN110447068A (en) | Speech recognition equipment and audio recognition method | |
JP4340685B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2007292940A (en) | Voice identification device and voice identification method | |
CN110875034B (en) | Template training method for voice recognition, voice recognition method and system thereof | |
JP5369079B2 (en) | Acoustic model creation method and apparatus and program thereof | |
KR100755483B1 (en) | Viterbi decoding method with word boundary detection error compensation | |
US20210398521A1 (en) | Method and device for providing voice recognition service | |
JP7159655B2 (en) | Emotion estimation system and program | |
JP5166195B2 (en) | Acoustic analysis parameter generation method and apparatus, program, and recording medium | |
Togneri et al. | A state-space model with neural-network prediction for recovering vocal tract resonances in fluent speech from Mel-cepstral coefficients | |
US20240029713A1 (en) | Threshold generation method, threshold generation device, and computer program product | |
JP2005242182A (en) | Speech detecting device, speech recognizing device, speech detecting method, and speech recognizing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6444490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |