[go: up one dir, main page]

JPS5936300A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS5936300A
JPS5936300A JP57146408A JP14640882A JPS5936300A JP S5936300 A JPS5936300 A JP S5936300A JP 57146408 A JP57146408 A JP 57146408A JP 14640882 A JP14640882 A JP 14640882A JP S5936300 A JPS5936300 A JP S5936300A
Authority
JP
Japan
Prior art keywords
speech
candidate
section
recognition
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57146408A
Other languages
Japanese (ja)
Other versions
JPH0376475B2 (en
Inventor
篠田 英範
洋一 竹林
坂田 富生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP57146408A priority Critical patent/JPS5936300A/en
Publication of JPS5936300A publication Critical patent/JPS5936300A/en
Publication of JPH0376475B2 publication Critical patent/JPH0376475B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は離散的に発声された単語音声を効果的に認識す
ることのできる音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention relates to a speech recognition device that can effectively recognize discretely uttered word sounds.

〔発明の技術的背景とその問題点〕[Technical background of the invention and its problems]

離散的に発声された単語音声を認識する場合、入力音声
信号系列中から上記単語音声が存在する音声区間を検出
することが、その前処理として非常に重要である。しか
して従来では一般に入力音声のエネルギ変化を利用して
、上記音声区間を検出することが行われている。このよ
うな音声区間検出法は非常に簡便であ、ると云う利点を
有しているが、発声された単語音声に多くの雑音が付加
されるような音声入力環境にある場合等、上記雑音を除
去して上記単語音声を安定に認識することが非常に困難
であった。これは認識対象とする音声の存在区間に近い
位置に雑音が加わると、前述したエーネルギだけでは上
記単語音声と雑音とが区別できず、雑音も音声の一部で
あるとして認識処理に取込んでしまう為である。このよ
うな問題を克服するものとして、端点フリーのDPマツ
チング法等の処理方式が種々考えられているが、認識処
理量が膨大となって実用性に乏しい等の問題があった。
When recognizing word sounds that are discretely uttered, it is very important as preprocessing to detect a sound section in which the word sound exists from an input sound signal sequence. Conventionally, however, the above-mentioned voice section has generally been detected using energy changes in the input voice. This method of detecting speech intervals has the advantage of being very simple, but in situations where the speech input environment is such that a lot of noise is added to the uttered word sounds, the above-mentioned noise It was extremely difficult to stably recognize the above word sounds by removing them. This is because if noise is added near the area where the speech to be recognized exists, it will not be possible to distinguish between the word speech and the noise using just the energy described above, and the noise will be considered part of the speech and incorporated into the recognition process. This is to put it away. Various processing methods, such as endpoint-free DP matching, have been considered to overcome these problems, but these methods have had problems such as an enormous amount of recognition processing, making them impractical.

〔発明の目的〕[Purpose of the invention]

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、離散的に発声された単語音声を
雑音によって妨害されることなしに安定に認識すること
のできる簡易で実用性の高い音声認識装置を提供するこ
とにある。
The present invention was made in consideration of these circumstances, and its purpose is to provide a simple and practical method that can stably recognize discretely uttered word sounds without being disturbed by noise. The purpose of the present invention is to provide a voice recognition device with high performance.

〔発明の概要〕[Summary of the invention]

本発明は入力された音声信号を音響分析し、この音響分
析結果から例えばそのエネルギ変化と音韻的特徴を抽出
し、これらの*’;徴に従って前記音声信号の始端候補
点および終端候補点とをそれぞれ検出する。そしてこれ
らの始端候補点と終端候補点との可能な全ての組合せか
ら求められる複数の音声候補区間における前記音声信号
の認識処理に必要な特徴をそれぞれリサンプル抽出し、
これらのりサンプル抽出された特徴に従って音声認識を
行うようにしたものである。
The present invention acoustically analyzes an input speech signal, extracts, for example, its energy changes and phonetic features from the acoustic analysis results, and identifies starting and ending candidate points of the speech signal according to these *'; characteristics. Detect each. Then, resampling and extracting the features necessary for recognition processing of the audio signal in a plurality of audio candidate sections obtained from all possible combinations of these starting end candidate points and end end candidate points,
Speech recognition is performed according to these sampled features.

〔発明の効果〕〔Effect of the invention〕

従って本発明によれは、複数の音声候補区間においてそ
れぞれリサンプル抽出された特徴を用いてそれぞれ音声
認識処理し、その中の最も信頼性の高い認識結果を抽出
することによって、雑音成分を含んで検出される音声候
補区間の情報を除去し、ここに安定な音声認識を簡易に
行わしめることが=r能となる。
Therefore, according to the present invention, speech recognition processing is performed using features resampled in each of a plurality of speech candidate sections, and the most reliable recognition result is extracted from the speech recognition results, including noise components. It is possible to remove the information of the detected voice candidate section and easily perform stable voice recognition there.

〔発明の実施例〕[Embodiments of the invention]

以下、図面を参照して本発明の一実施例装置につき説明
する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

第1図は実施例装置の概略構成図である。離散的に発声
される単語音声は、音声入力部1において音響電気変換
され、適度な信号レベルに増幅されたのちA/D変換し
て取込捷れる。音響分析処理部2は、上記音声入力部I
を介して入力された音声信号を、ディノタルバンドパス
フィルタを通して予め定められたフレーム周期毎にスペ
クトル分解してその音響分析を行っている。しかして、
特徴抽出部3は、上記スペクトル分解された音声信号デ
ータを入力し、これを上記フレーム単位で処理して前記
音声信号の特徴を抽出している。即ち、特徴抽出部3は
、上記フレーム毎にその音韻特徴を抽出し、例えば母音
性フレームに対してはその母音種類を示すラベルを付し
、鼻音声フレームに対しては鼻音のffj M k−示
すラベルを付し、更にその他の子音については、破裂性
、有声熱押性、無音性、摩擦性等のラベルを付している
。これにより、入力音声信号の各フレーム毎に付された
ラベルの系列からなる音声特徴時系列が求められる。尚
、上記母音・鼻音の種類のラベル付けは、フレーム単位
で求められるスにクトルのパターンデータと、予め辞書
登録されている母音および鼻音の各種類毎の標準スペク
トルデーターンとの類似度を計算する等してそのラベル
を決定して行われる。また、上述した子音の種類分けは
、各フレーム毎に求められるスペクトルデーターンの概
略形状を調べる等して行われる。即ち、上記ス〈クトル
ノ9ターンが周波数に沿って単調増和している場合には
、これを摩擦性として判定し、またス〈クトルパターン
が所謂釣鐘状に中央部が高くなっている場合には、これ
を破裂性として判定する等して行われる。
FIG. 1 is a schematic configuration diagram of an embodiment device. Discretely uttered word sounds are acoustoelectrically converted in the audio input section 1, amplified to an appropriate signal level, and then A/D converted and captured. The acoustic analysis processing section 2 includes the above-mentioned audio input section I.
The audio signal inputted through the system is spectrally decomposed into each predetermined frame period through a dinotal bandpass filter, and its acoustic analysis is performed. However,
The feature extraction unit 3 receives the spectrally decomposed audio signal data and processes it in units of frames to extract features of the audio signal. That is, the feature extracting unit 3 extracts the phonetic feature for each frame, and for example, attaches a label indicating the vowel type to a vowel frame, and attaches a label indicating the vowel type to a nasal frame, and assigns a label indicating the vowel type to a nasal frame. For other consonants, labels such as plosive, voiced, voiceless, fricative, etc. are attached. As a result, an audio feature time series consisting of a series of labels attached to each frame of the input audio signal is obtained. In addition, the above-mentioned labeling of vowel/nasal sounds types is done by calculating the similarity between the basic spectral pattern data obtained for each frame and the standard spectral data for each type of vowel/nasal sound registered in advance in the dictionary. This is done by determining its label. Further, the above-mentioned consonant type classification is performed by examining the approximate shape of the spectral dataan obtained for each frame. In other words, if the 9 turns of the above-mentioned scuttle pattern increase monotonically along the frequency, this is determined to be frictional, and if the scuttle pattern has a so-called bell-like shape where the central part is higher, then this is judged as frictional. This is done by determining that this is rupturable.

音声区間検出回路4は、上記の如くして特徴抽出部3が
求めたラベル系列からなる音声信号の特徴時系列と、前
記音響分析処理部2が求めた音声信号のスペクトルデー
タ、およびそのエネルギデータとを入力し、これらの情
報に従って入力音声信号の始端候補点Sおよび終端候補
点Eとを求め、これらの始端候補点Sと終端候補点Eと
の可能な組合せにより極数の音声候補区間を検出してい
る。即ち今、数字「1」なる音声が「イチ」と発声され
、その前後に雑音が伴って入力するl゛と、その音声信
号波形は例えば第2図に示すようKなる。このような入
力音声信号に対して、上述した特徴時系列、スペクトル
データ、エネルギデータに従って始端候補点””I +
 82 + 83を求め、壕だ終端候補点E I +F
’2+E3を求める。これらの始端および終端の候補点
の組合せから求められる音声候補区間は、上記始端候補
点が終端候補点よシも時間的に必ず前に存在することが
ら第2図に示す例では次のように求められる。
The speech section detection circuit 4 extracts the feature time series of the speech signal consisting of the label sequence obtained by the feature extraction section 3 as described above, the spectrum data of the speech signal obtained by the acoustic analysis processing section 2, and its energy data. is input, the starting end candidate point S and the ending end candidate point E are found for the input audio signal according to this information, and the possible combinations of these starting end candidate points S and end end candidate points E are used to create the number of poles of audio candidate sections. Detected. That is, if the number "1" is now uttered as "ichi" and noise is inputted before and after the sound, the sound signal waveform becomes K as shown in FIG. 2, for example. For such an input audio signal, the starting point candidate point ""I +
Find 82 + 83 and find the end candidate point E I +F
' Find 2+E3. In the example shown in Fig. 2, the speech candidate section found from the combination of these starting and ending candidate points is as follows, since the starting point is always before the ending candidate point in time. Desired.

CS+ + Et 3.[:S+ l E2 L[Sl
+ E3:]CS2 + Et 〕tcSz + E2
 、l、[Sa l E3’3〔Ss + Es :] 尚、上記音声候補区間のうち(sz、Et)。
CS+ + Et 3. [:S+ l E2 L[Sl
+ E3: ]CS2 + Et ]tcSz + E2
, l, [Sa l E3'3 [Ss + Es:] (sz, Et) among the voice candidate sections.

(:s3.E3’)に関しては、1つの音声フレームに
満たない長さであることから、これを処理対象とする候
補区間から除くようにしてもよい。
As for (:s3.E3'), since its length is less than one audio frame, it may be excluded from the candidate sections to be processed.

このようにして求められる音声候補区間のそれぞれにつ
いて、認識部5は音声信号の特徴である例えばスペクト
ル情報を入力する。そして、各音声候補区間の音声信号
スペクトル情報系列をリサンプル抽出し、その特徴パタ
ーンベクトルを求めて、辞書として予め登録された複数
の音声カテゴリの各標準−リーンベクトルとの類似度計
算を行う等して、音声認識処理が行われる。認識部5は
、前記の如く求められた複数の音声候補区間について、
上記認識処理をそれぞれ行い、その認識結果を制御部6
に出方している。この制御部6は、前述した各処理部2
,3゜4.5をそれぞれ制御し乍ら、上記認識部5が求
めた各音声候補区間における認識結果を入力して、これ
を総合判定している。そして、音声候補区間が雑音を含
む場合、これ罠よって上記認識結果(類似度値)が当然
悪くなることを利用してこれを除去し、最も信頼性の高
い認識結果毛−抽出して、前記音声信号に対する正しい
認識結果であるとして出方している。かくしてここに、
信頼性の高い音声候補区間より求められた認識結果が得
られることになり、音声の前後に付加された雑音を含む
情報から得られる認識結果が効果的に排除されることに
なる。っまシ袂数の音声候補区間のうちがh1雑音を含
まない音声候補区間における情報のみが有効に取出さh
、で認識されることになる。
For each of the voice candidate sections obtained in this way, the recognition unit 5 inputs, for example, spectrum information that is a characteristic of the voice signal. Then, the audio signal spectrum information sequence of each audio candidate section is resampled, its feature pattern vector is determined, and the similarity is calculated with each standard-lean vector of multiple audio categories registered in advance as a dictionary. Then, voice recognition processing is performed. Regarding the plurality of speech candidate sections obtained as described above, the recognition unit 5
Each of the above recognition processes is performed and the recognition results are sent to the control unit 6.
He is appearing in This control unit 6 includes each of the processing units 2 described above.
, 3°4.5, and input the recognition results obtained by the recognition section 5 for each speech candidate section to make a comprehensive judgment. Then, if the speech candidate section includes noise, this noise naturally deteriorates the recognition result (similarity value), so this is removed, the most reliable recognition result is extracted, and the This is being presented as a correct recognition result for audio signals. Thus here,
Recognition results obtained from highly reliable speech candidate sections are obtained, and recognition results obtained from information containing noise added before and after the speech are effectively eliminated. Only the information in the speech candidate sections that do not contain h1 noise among the number of speech candidate sections is effectively extracted.
, will be recognized.

尚、前記認識部5における各音声候補区間の音声認識処
理は、従来よシ提唱されている種々の方式を適宜用いれ
ばよい。捷たこの認識処理に用いられる音声の特徴も、
種々採用可能なことは云うまでもない。
Note that the speech recognition process for each speech candidate section in the recognition section 5 may be performed using various conventionally proposed methods as appropriate. The characteristics of the voice used in Katakotako's recognition process are also
Needless to say, various methods can be adopted.

ところで、本装置が最も特徴とするところの、音声信号
に対する始端候補点Sおよび終端候補点Eの検出と、こ
れらの始端および終端候補点S、Eの組合せから求め争
れる音声候補区間の検出処理は、音声区間抽出回路4 
VCよって次のように行われる。第3図はその処理過程
の一例を示す流れ図である。この処理は、先ず処理制御
カラ/り値をイニシャライズしたのち、第nフレームの
音声信号エネルギを入力して行われる。しかるのち、例
えば仮りに設定した閾値に従って音声信号を無音クラス
、音声クラスに分け、各クラス間の縁間分散を求めてそ
の値が最大巧なるべく最適閾値Ethを設定し、その閾
値Ethと入力音声エネルギE(n)とを比較する。そ
の後、入力音声エネルギE(n)が上記閾値FEthを
越える時点をS’(1)として始・端の第1候補点とす
る。そして、次に上記入力音声エネルギE(n)が上記
閾値Ethを下回る時点を検出し、これを終端の第1候
補点E’(1)とする。しかるのち、このようにして求
められた始端および終端の候補点間の間隔を Tk ” I S’(lc)  E’(k) lとして
求め、Hr定の間1♀6 T’thを越えるか否かを判
定して音声候補区間を求める。これによって、断片的に
得られる誤った音声族++!i区間が除去される。そし
て、上述した音声候補区間の検出を、入力された音声信
号の全てのフレームに亘って順次入力し、その5’f能
な全ての組合せについてチェックし、全ての音声候補区
間を求める。
By the way, the main feature of this device is the detection of the starting point candidate point S and the ending point candidate point E for the audio signal, and the detection process of the audio candidate section that can be determined from the combination of these starting point and ending point candidate points S and E. is the voice section extraction circuit 4
This is done by the VC as follows. FIG. 3 is a flowchart showing an example of the processing process. This processing is performed by first initializing the processing control color value and then inputting the audio signal energy of the nth frame. After that, for example, divide the audio signal into a silence class and a voice class according to the temporarily set threshold, find the edge variance between each class, set the optimal threshold Eth that maximizes the value, and calculate the threshold Eth and the input audio. The energy E(n) is compared. Thereafter, the time point at which the input audio energy E(n) exceeds the threshold value FEth is defined as S'(1) and is set as the first candidate point for the start/end. Then, the point in time when the input audio energy E(n) falls below the threshold Eth is detected, and this is set as the first candidate point E'(1) of the termination point. Then, find the interval between the starting and ending candidate points found in this way as Tk '' I S'(lc) E'(k) l, and determine whether it exceeds 1♀6 T'th while Hr is constant. The speech candidate section is determined by determining whether or not the speech candidate section is the same.As a result, the erroneous speech family ++!i section that is obtained fragmentarily is removed. All frames are sequentially input, all possible combinations of 5'f are checked, and all voice candidate sections are obtained.

しかるのち、上記音声候補区間の音声特徴を調べ、その
区間に雑音性成分が含まれるか否かを判定して、雑音性
成分を含む音声11分補区間を認識対象から除去する。
Thereafter, the speech characteristics of the speech candidate section are examined, it is determined whether or not the section contains a noisy component, and the 11-minute complementary section of speech containing the noisy component is removed from the recognition target.

その後、発声の終了を、例えばE(n)〈Ethの区間
かn(定の期間Mthだけ続くことから検出し、こtl
までに検出された音声候補区間における音声特徴と、予
め登録されている単語の発声形状とを比較して、最終的
な音声候補区間を決定する。このようにして決定された
音声候補区間の全てについて、例えば複合類似度法を用
いて辞書登録さハた単語辞書との類似度をそれぞれ求め
、その類似度値を相互に比較して、最も信頼性の高い結
果を認識結果として出力する。
After that, the end of the utterance is detected, for example, from the interval E(n)<Eth or n(which continues for a certain period Mth, and this
The final speech candidate section is determined by comparing the speech features in the speech candidate section detected so far with the utterance shape of the word registered in advance. For all of the speech candidate sections determined in this way, for example, the composite similarity method is used to calculate the degree of similarity with the word dictionary registered in the dictionary, and the similarity values are compared with each other to find the most reliable one. Outputs highly accurate results as recognition results.

以上のような認識処理によれは、単語音声が含まれる候
補区間のそれぞれにおいて求められるt3識結果を相互
に比較して、最も信頼性の高いものを抽出するので、最
終的に離散的に発声された音声そのものの特徴から求め
られる認識結果を信頼性良く得ることができる。つ捷り
音声区間の検出と、その認識処理とを相互に関連して行
うことになるので、安定に認識処理を行い得ると云う実
用上多大なる効果が奏せられる。
The recognition process described above compares the t3 identification results obtained for each candidate section containing the word sound and extracts the most reliable one, so the final utterance is discretely uttered. The recognition results obtained from the characteristics of the voice itself can be obtained with high reliability. Since the detection of the distorted speech section and the recognition process are performed in conjunction with each other, a great practical effect is achieved in that the recognition process can be performed stably.

尚、本発明は上記実施例に限定されるものではない。例
えば始端候補点および終端候補点の検出処理自体、また
これらの組合せによって求める音声候補区間の抽出処理
更には認識処理法は、種々の方式を適宜採用することが
できる。
Note that the present invention is not limited to the above embodiments. For example, various methods can be employed as appropriate for the process of detecting the start end candidate point and the end candidate point, the process of extracting the voice candidate section obtained by a combination of these, and the recognition process.

まだ上述した処理に使用する音声の特徴についても特に
限定されない。吸するに本発明はその要旨を逸脱しない
範囲で種々変形して実施することができる。
There are no particular limitations on the characteristics of the audio used in the above-described processing. In other words, the present invention can be modified in various ways without departing from the spirit thereof.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例装置の概略構成図、第2図は
実施例装置の処理を斤、す音声信号波形と始端および終
端候補点とその音声候補区間を示す図、第3図は実施例
装置における認識処理の流れを示す図である。 !・・・音声入力部、2・・・音響分析処理部、3・・
・特徴抽出部、4・・・音声区間検出回路、5・・・認
識部、6・・・制御部。
FIG. 1 is a schematic configuration diagram of a device according to an embodiment of the present invention, FIG. 2 is a diagram showing an audio signal waveform, start and end candidate points, and its audio candidate section, which shows the processing of the embodiment device. FIG. 2 is a diagram showing the flow of recognition processing in the embodiment device. ! ...Audio input section, 2...Acoustic analysis processing section, 3...
・Feature extraction unit, 4... Voice section detection circuit, 5... Recognition unit, 6... Control unit.

Claims (1)

【特許請求の範囲】[Claims] 音声信号を入力して音響分析する手段と、この音響分析
結果から上記音声信号の特徴を抽出する手段と、この特
徴と前記音響分析結果とに従って前記音声信号の始端候
補点と終端候補点とをそれぞれ検出する手段と、上記始
端候補点と終端候補点との全ての可能な組合せによって
求められる複数の音声候補区間における前記音声信号の
特徴をそれぞれリサングル抽出する手段と、これらのり
サンプル抽出された特徴を用いて前記音声信号中に含ま
れる音声を認識する手段とを具備したことを特徴とする
音声認識装置。
means for inputting and acoustically analyzing an audio signal; means for extracting features of the audio signal from the acoustic analysis results; and determining start and end candidate points of the audio signal according to the features and the acoustic analysis results. means for respectively detecting, means for resampling and extracting the features of the audio signal in a plurality of audio candidate sections obtained by all possible combinations of the starting end candidate point and the ending end candidate point, and the resampled features of these resampled features. A speech recognition device comprising: means for recognizing speech included in the speech signal using the speech recognition apparatus.
JP57146408A 1982-08-24 1982-08-24 Voice recognition equipment Granted JPS5936300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57146408A JPS5936300A (en) 1982-08-24 1982-08-24 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57146408A JPS5936300A (en) 1982-08-24 1982-08-24 Voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS5936300A true JPS5936300A (en) 1984-02-28
JPH0376475B2 JPH0376475B2 (en) 1991-12-05

Family

ID=15407019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57146408A Granted JPS5936300A (en) 1982-08-24 1982-08-24 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS5936300A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696041A (en) * 1983-01-31 1987-09-22 Tokyo Shibaura Denki Kabushiki Kaisha Apparatus for detecting an utterance boundary

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696041A (en) * 1983-01-31 1987-09-22 Tokyo Shibaura Denki Kabushiki Kaisha Apparatus for detecting an utterance boundary

Also Published As

Publication number Publication date
JPH0376475B2 (en) 1991-12-05

Similar Documents

Publication Publication Date Title
JPH0352640B2 (en)
JPS6336676B2 (en)
JPS62217295A (en) Voice recognition system
JPS62232691A (en) Voice recognition equipment
Lakshmi et al. A syllable based continuous speech recognizer for Tamil
CN111429921B (en) Voiceprint recognition method, system, mobile terminal and storage medium
JPS6138479B2 (en)
JPH0558553B2 (en)
Abdo et al. MFC peak based segmentation for continuous Arabic audio signal
JPS5936300A (en) Voice recognition equipment
JP2813209B2 (en) Large vocabulary speech recognition device
JPS58108590A (en) Voice recognition equipment
Lachachi Unsupervised phoneme segmentation based on main energy change for arabic speech
Geetha et al. Syllable segmentation of tamil speech signals using vowel onset point and spectral transition measure
JPH045198B2 (en)
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
Muthusamy et al. A review of research in automatic language identification
JP2664136B2 (en) Voice recognition device
JPH0682275B2 (en) Voice recognizer
Anabeza et al. DTW Threshold Determination for English Word Utterances in Filipino Accent using MFCC
CN118398016A (en) Locomotive driver term specification discriminating system
CN113035190A (en) Method for determining self-defined awakening words of ceiling lamp
JPH0640274B2 (en) Voice recognizer
KASUYA et al. Automatic Detection of Vowel Centers from Continuous Speech
JPH0120440B2 (en)