[go: up one dir, main page]

JPH0511796A - Voice recognizer - Google Patents

Voice recognizer

Info

Publication number
JPH0511796A
JPH0511796A JP3162889A JP16288991A JPH0511796A JP H0511796 A JPH0511796 A JP H0511796A JP 3162889 A JP3162889 A JP 3162889A JP 16288991 A JP16288991 A JP 16288991A JP H0511796 A JPH0511796 A JP H0511796A
Authority
JP
Japan
Prior art keywords
voice
unit
input
voice recognition
input unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3162889A
Other languages
Japanese (ja)
Inventor
Kikumi Kaburagi
喜久美 鏑木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3162889A priority Critical patent/JPH0511796A/en
Publication of JPH0511796A publication Critical patent/JPH0511796A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声の単位に左右されることなく、様々
な音声入力単位に対して安定な音声認識処理を行うこと
が出来る音声認識装置を実現することである。 【構成】 音声認識装置は入力された音声に対し、音声
入力単位識別情報を基に、音声入力単位識別部12にお
いて音声入力単位を識別し、その音声入力単位識別結果
に合った辞書情報を選択し音声認識処理に用いて音声認
識処理を行う。
(57) [Abstract] [Purpose] To realize a voice recognition device capable of performing stable voice recognition processing for various voice input units without being influenced by the unit of input voice. A voice recognition device identifies a voice input unit in a voice input unit identification unit 12 based on voice input unit identification information for an input voice, and selects dictionary information suitable for the voice input unit identification result. Then, the voice recognition process is performed using the voice recognition process.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】音声認識装置に係わる。[Industrial application] The present invention relates to a voice recognition device.

【0002】[0002]

【従来の技術】従来の音声認識装置について図3を用い
て説明する。
2. Description of the Related Art A conventional voice recognition device will be described with reference to FIG.

【0003】従来の音声認識装置では、音響分析部1に
おいて入力された音声の分析を行い、特徴を出力する。
音響分析部1からの出力に基づいて、音声認識部2にお
いて音声認識用辞書とマッチングすることによって入力
音声の認識を行う。音声認識部2にて認識された結果は
操作者が確認できるように出力される。入力音声を分析
した特徴抽出の結果は、記憶部3に記憶される。
In the conventional voice recognition device, the voice input by the acoustic analysis unit 1 is analyzed and the characteristics are output.
Based on the output from the acoustic analysis unit 1, the voice recognition unit 2 matches the voice recognition dictionary to recognize the input voice. The result recognized by the voice recognition unit 2 is output so that the operator can confirm it. The result of the feature extraction that analyzes the input voice is stored in the storage unit 3.

【0004】[0004]

【発明が解決しようとする課題】音声による入力は、キ
ー入力操作をすることなくデータ入力を行うことがで
き、キー入力装置のキー配置位置、キー操作方法等を知
る必要がなく、誰でもが簡便に使用できる入力方法であ
る。しかし、音声による入力方法は、キー操作による入
力方法と異なり、操作者が正確に発話をしても誤って認
識される場合がある。
In voice input, data input can be performed without key input operation, and there is no need to know the key arrangement position of the key input device, the key operation method, etc. This is a convenient input method. However, the voice input method is different from the key input method, and may be erroneously recognized even if the operator speaks accurately.

【0005】音声認識装置における音声認識誤りは認識
の対象となる発話の文法的な単位が「音節」、「単
語」、「文節」、「文章」と複雑になるにつれて多くな
る。また、その認識装置の使用環境における背景雑音の
レベルが上がるにつれても多くなる。
Speech recognition errors in the speech recognition apparatus increase as the grammatical unit of speech to be recognized becomes complicated, such as "syllable", "word", "bunsetsu", and "sentence". Further, the background noise level increases in the environment in which the recognition device is used.

【0006】音声認識単位が「音節」、「単語」である
場合は、認識処理は単なるパタンマッチング処理である
と考えられる。一方、音声認識単位が「文節」、「文
章」となると、これは単なるパタンマッチングであると
考える訳にはいかなくなる。
When the voice recognition unit is "syllable" or "word", the recognition process is considered to be a simple pattern matching process. On the other hand, when the speech recognition unit is "bunsetsu" or "sentence", this cannot be considered as merely pattern matching.

【0007】音声認識装置に「文節」、「文章」等の文
法的な単位で音声入力を行った場合に、音声認識率の低
下の原因を招く一つの原因として助詞の問題がある。単
純な音素、音節や単語単位での音声認識率は高いのだ
が、文章あるいは文節単位での入力を受け付けた場合
に、極端に音声認識率が下がってしまうような場合は、
正に助詞の取り扱いが原因であると思われる。助詞は他
の品詞に比べ、はっきりと明快に発音されることは少な
く、助詞にアクセントが付けられることはない。このた
め、単語単位での音声入力に対する音声認識処理とは異
なる助詞に対する意味的、文法的な知識が有効になる。
When a voice is input to a voice recognition device in a grammatical unit such as "bunsetsu" or "sentence", there is a problem of a particle as one of the causes of a decrease in the voice recognition rate. Although the voice recognition rate for simple phonemes, syllables, and words is high, if the voice recognition rate is extremely reduced when input is accepted for sentences or syllables,
It seems that the reason is the handling of particles. Particles are less pronounced clearly and clearly than other parts of speech, and particles are not accented. For this reason, semantic and grammatical knowledge for particles, which is different from the voice recognition processing for voice input in word units, is effective.

【0008】文章単位の入力に対して音声認識率が低下
する他の原因としては、文章単位での入力音声に対し
て、文法的知識や文の意味的知識を用いて処理していな
い点が挙げられる。
Another cause of the decrease in the voice recognition rate with respect to sentence-based input is that input speech in sentence units is not processed using grammatical knowledge or sentence semantic knowledge. Can be mentioned.

【0009】このように認識単位が「文節」、「文章」
である場合には、より複雑な認識処理が要求される。ま
た、背景雑音のレベルが上昇すると誤認識率も急激に上
昇する。しかし、音声認識のための条件が良く、「文
節」、「文章」を認識単位としても充分な認識が得られ
る場合には、「文節」、「文章」を認識単位とした音声
認識装置は「音節」、「単語」を認識単位としたものよ
りも格段に使いやすいものである。
As described above, the recognition units are “bunsetsu” and “sentence”.
Then a more complex recognition process is required. Also, as the background noise level rises, the false recognition rate also rises sharply. However, if the conditions for speech recognition are good and sufficient recognition can be obtained even with “bunsetsu” and “sentence” as recognition units, a speech recognition device using “bunsetsu” and “sentence” as recognition units It is much easier to use than the one using syllables and words as recognition units.

【0010】従来技術を用いた音声認識装置において
は、入力音声の文法的な単位が「音節」、「単語」、
「文節」、「文章」等と変化しても、音声入力単位に基
づく固有の情報を利用することなく、音声の音響的な特
徴のみによって音声認識処理が行われていた。また、そ
のような音声認識単位は、その音声認識装置の使用にお
いて固定されたものであり、環境に応じて変化させられ
るものではなかった。そのため、従来技術を用いた音声
認識装置では、音声入力単位に依存して音声認識率が大
きく変動したり、操作者が音声を入力した単位と異なっ
た単位での入力として音声認識をする場合があり、きわ
めて奇怪な音声認識結果を出力することがあった。
In the speech recognition apparatus using the prior art, the grammatical unit of the input speech is "syllable", "word",
Even if it changes to "bunsetsu", "sentence", etc., the voice recognition processing is performed only by the acoustic characteristics of the voice without using the unique information based on the voice input unit. Moreover, such a voice recognition unit is fixed in use of the voice recognition device, and cannot be changed according to the environment. Therefore, in the voice recognition device using the conventional technology, the voice recognition rate may greatly change depending on the voice input unit, or the voice recognition may be performed as an input in a unit different from the unit in which the operator inputs the voice. There was a case where a very strange voice recognition result was output.

【0011】[0011]

【課題を解決するための手段】本発明の音声認識装置
は、入力された音声の特徴を出力する音響分析部と、前
記入力された音声の文法的な単位を判断する音声入力単
位識別部と、前記音声入力単位識別部の出力を手がかり
に前記音響分析部の出力を符号列に変換する音声認識部
と、前記音響分析部の出力を記憶する音響分析記憶部
と、前記音声認識部の出力を記憶する音声認識記憶部と
からなることを特徴とする。
A speech recognition apparatus according to the present invention comprises an acoustic analysis section for outputting the characteristics of an input speech, and a speech input unit identification section for determining a grammatical unit of the input speech. A voice recognition unit that converts the output of the acoustic analysis unit into a code string based on the output of the voice input unit identification unit; an acoustic analysis storage unit that stores the output of the acoustic analysis unit; and an output of the voice recognition unit And a voice recognition storage unit for storing

【0012】[0012]

【実施例】以下、本発明について実施例に基づいて詳細
に説明する。
EXAMPLES The present invention will be described in detail below based on examples.

【0013】(実施例1)図1は本発明の音声認識装置
の原理ブロック図である。
(Embodiment 1) FIG. 1 is a block diagram showing the principle of a voice recognition apparatus according to the present invention.

【0014】図2は本発明の音声認識装置のブロック図
である。
FIG. 2 is a block diagram of the voice recognition apparatus of the present invention.

【0015】人間が発話出来る音声の文法的な単位とし
ては、「音節」、「単語」、「文節」、「文章」等が考
えられる。本発明において図1音声入力単位識別部12
において識別を行っている単位とは、これらの文法的な
単位を示している。
As grammatical units of speech that can be spoken by humans, "syllable", "word", "bunsetsu", "sentence", etc. can be considered. In the present invention, FIG.
The unit which is identified in (1) means these grammatical units.

【0016】入力された音声は、図1音響分析部11の
構成要素であるマイク、高域強調フィルタ、AD変換器
より構成される図2音声入力部21によってデジタル信
号としてサンプリングされる。更に同じく図1音響分析
部11の構成要素である図2特徴抽出回路22におい
て、デジタル信号に変換された音声信号を周波数変換
し、周波数領域での特徴パラメータを抽出し、発声され
た単語の特徴パラメータ列として表される。図2特徴抽
出回路22で抽出された入力音声の特徴パラメータ列
は、図2特徴パラメータ列記憶回路23に記憶される。
The input voice is sampled as a digital signal by the voice input unit 21 shown in FIG. 2, which includes a microphone, a high-frequency emphasis filter, and an AD converter, which are components of the acoustic analysis unit 11 shown in FIG. Further, in the feature extraction circuit 22 of FIG. 2 which is also a component of the acoustic analysis unit 11 of FIG. 1, the voice signal converted into a digital signal is frequency-converted, the feature parameters in the frequency domain are extracted, and the feature of the uttered word is extracted. It is represented as a parameter string. The characteristic parameter sequence of the input voice extracted by the characteristic extraction circuit 22 of FIG. 2 is stored in the characteristic parameter sequence storage circuit 23 of FIG.

【0017】特徴パラメータに変換された入力音声は、
図2マッチング回路25において図2音声入力単位識別
情報24を用いて音声入力単位の識別が行われる。図2
音声入力単位識別情報24と図2マッチング回路25は
図1音声入力単位識別部12を構成している。図2マッ
チング回路25において判断された音声入力単位は、図
2音声入力単位記憶回路26に記憶される。そして、次
の音声入力に関しては、図2音声入力単位記憶回路26
の情報を基に音声認識処理を行い、図1音声入力単位識
別部12での処理は行わない。図2音声入力単位記憶回
路26の情報を基に音声認識処理を行った結果が失敗に
終わった際に、再び図1音声入力単位識別部12におい
て入力単位の識別から処理を進める。
The input voice converted into the characteristic parameter is
In the FIG. 2 matching circuit 25, the voice input unit is identified using the voice input unit identification information 24 of FIG. Figure 2
The voice input unit identification information 24 and the matching circuit 25 of FIG. 2 constitute the voice input unit identification unit 12 of FIG. The voice input unit determined by the matching circuit 25 of FIG. 2 is stored in the voice input unit storage circuit 26 of FIG. Then, regarding the next voice input, the voice input unit storage circuit 26 shown in FIG.
The voice recognition processing is performed on the basis of the above information, and the processing in the voice input unit identification unit 12 in FIG. 1 is not performed. When the result of the voice recognition processing based on the information of the voice input unit storage circuit 26 in FIG. 2 is unsuccessful, the voice input unit identification unit 12 in FIG.

【0018】この処理の流れは、人間が雑音レベルの高
い環境で電話をする場合と類似している。例えば、「明
日の3時に成田に着く。」と発話して、相手が聞き取れ
なかった場合に、「明日の」、「3時に」、「成田
に」、「着く」と文節で発話したりする。或は、それで
も聞き取れなかった場合には単に、「明日」、「3
時」、「成田」と発話し、更に相手が「成田」と「羽
田」を聞き間違えた場合は「ナ」、「リ」、「タ」と音
節で発話したりする。
The flow of this processing is similar to the case where a person makes a call in an environment with a high noise level. For example, if you say "I will arrive at Narita at 3 o'clock tomorrow" and the other party cannot hear you, say "Tomorrow", "3 o'clock", "To Narita", or "Arrived" in a phrase. .. Or, if you still can't hear, simply say "Tomorrow", "3
When the other person mistakenly hears "Narita" and "Haneda", he or she speaks "na", "ri", and "ta" in syllables.

【0019】本発明の音声認識装置はこれらの発話単位
を識別し、それに最適の手法で音声認識処理を行う。
The speech recognition apparatus of the present invention identifies these utterance units and performs speech recognition processing by an optimum method.

【0020】図1音声入力単位識別部12において音声
の入力単位が識別された結果にそった情報を備えている
のが、図2音声認識用辞書28である。図2音声認識用
辞書28は、図2音声認識情報32、図2文法情報3
3、図2意味情報34を備えている。図2DPマッチン
グ回路27において、図2特徴パラメータ列記憶回路2
3に記憶された結果と、図2音声認識用辞書28とをD
Pマッチングし、符号列として音声認識する。図2DP
マッチング回路27は図1音声認識部13を構成してい
る。また図2DPマッチング27において音声認識され
た結果は、図2音声認識記憶回路29に記憶される。図
2音声認識記憶回路29は、図1音声認識記憶部14を
構成する。
The voice recognition dictionary 28 shown in FIG. 2 is provided with information according to the result of the voice input unit identifying section 12 identifying the voice input unit. The voice recognition dictionary 28 shown in FIG. 2 includes the voice recognition information 32 shown in FIG.
3, the FIG. 2 semantic information 34 is provided. In the DP matching circuit 27 shown in FIG.
The result stored in FIG. 3 and the voice recognition dictionary 28 shown in FIG.
P matching is performed and voice recognition is performed as a code string. Figure 2DP
The matching circuit 27 constitutes the voice recognition unit 13 in FIG. The result of voice recognition in the DP matching 27 of FIG. 2 is stored in the voice recognition storage circuit 29 of FIG. The voice recognition storage circuit 29 shown in FIG. 2 constitutes the voice recognition storage unit 14 shown in FIG.

【0021】音声認識処理の結果は、図2音声認識記憶
回路29に記憶されるとともに、図2表示部制御回路3
0の制御により図2表示部31に出力され、操作者が確
認することが出来る。
The result of the voice recognition processing is stored in the voice recognition storage circuit 29 shown in FIG.
It is output to the display unit 31 shown in FIG. 2 under the control of 0 and can be confirmed by the operator.

【0022】本発明の構成要素である図1音声入力単位
識別部12について、さらに詳しく説明する。
The voice input unit identification unit 12 shown in FIG. 1, which is a constituent element of the present invention, will be described in more detail.

【0023】図1音声入力単位識別部12は先述のとお
り、図2音声入力単位識別情報24と図2マッチング回
路25よりなる。図2音声入力単位識別情報24におい
て用いている情報は、入力音声の時間の長さ情報、及び
入力音声が含む音素数情報等である。
As described above, the voice input unit identification section 12 of FIG. 1 comprises the voice input unit identification information 24 of FIG. 2 and the matching circuit 25 of FIG. The information used in the voice input unit identification information 24 in FIG. 2 is time length information of the input voice, phoneme number information included in the input voice, and the like.

【0024】これらの図2音声入力単位識別情報24を
用いて、入力音声時間の長さ情報があるしきい値以下の
長さであれば、「単語」或はそれよりも小さい単位での
入力であると判断する。また、入力音声時間の長さ情報
があるしきい値以上の長さであれば、「単語」よりも大
きな単位での入力であると判断する。
If the length information of the input voice time is less than a certain threshold value by using the voice input unit identification information 24 shown in FIG. 2, the input is made by a "word" or a unit smaller than that. It is determined that If the length information of the input voice time is longer than a certain threshold value, it is determined that the input is in a unit larger than the "word".

【0025】さらに、入力音声の単位が入力音声時間長
では識別しにくい場合には、入力音声が含む音素個数に
よっても音声入力単位を識別することが出来る。入力さ
れた音声のなかに存在する音素個数が、ある個数の範囲
であれば、「単語」、他の範囲であれば「文節」等と判
断できるように、音素数によっても入力単位をさらに限
定し、識別することが出来る。このようにして、容易に
しかも正確に入力音声の単位を識別することが出来る。
Furthermore, if the input voice unit is difficult to identify by the input voice time length, the voice input unit can also be identified by the number of phonemes included in the input voice. The input unit is further limited by the number of phonemes so that it can be determined as "word" if the number of phonemes existing in the input speech is within a certain number range and "bunsetsu" if it is within another range. Can be identified. In this way, the unit of the input voice can be identified easily and accurately.

【0026】図1音声入力単位識別部12において識別
された入力単位の情報に基づいて、図1音声認識部13
において音声認識処理に用いる知識を選択する。つま
り、図2音声入力単位識別部12において、音声入力単
位が「単語」であると判断された場合には、図2音声認
識用辞書28に記憶されている「単語」に関する情報
を、つまり、図2音声認識情報32の中の「単語」に関
する情報を用いて音声認識処理を行い、図2文法情報3
3、図2意味情報34は用いない。また、音声入力単位
が「文節」と識別されれば、「文節」に関する情報を、
つまり図2音声認識情報32、図2文法情報33、図2
意味情報34の「文節」に関する情報を用いて、図2D
Pマッチング回路27において音声認識処理が行われ
る。
Based on the information of the input unit identified by the voice input unit identification unit 12 of FIG. 1, the voice recognition unit 13 of FIG.
In, the knowledge used for the voice recognition process is selected. That is, when the voice input unit identification unit 12 in FIG. 2 determines that the voice input unit is a “word”, the information regarding the “word” stored in the voice recognition dictionary 28 in FIG. FIG. 2 The grammatical information 3 shown in FIG.
3, the semantic information 34 of FIG. 2 is not used. Also, if the voice input unit is identified as "bunsetsu", information about "bunsetsu"
That is, FIG. 2 voice recognition information 32, FIG. 2 grammar information 33, FIG.
2D using the information about the “bunsetsu” of the semantic information 34.
A voice recognition process is performed in the P matching circuit 27.

【0027】本発明について、本発明の(実施例1)に
基づいて更に説明する。本発明の一実施例である音声認
識装置に、単語単位で入力した場合の処理について説明
する。 操作者が音声認識装置に「花笠音頭」と単語単
位で音声入力を行った。入力された音声は図2音声入力
部21より受け付けられ、図2特徴抽出回路22におい
て音声の特徴を抽出され、図2特徴パラメータ列記憶回
路23に記憶される。音声特徴のひとつである音声入力
時間長は、この音声パワーの情報を用いてノイズと明ら
かに異なる音声パワーが観測された時間を計測すること
で、容易に知ることが出来る。ここで入力された音声の
音声入力時間長は0.8秒である。この音声入力時間の
情報によって、音声入力単位は単語もしくは、単語より
も小さな単位であると識別される。
The present invention will be further described based on (Example 1) of the present invention. Processing when inputting in units of words in the voice recognition device that is an embodiment of the present invention will be described. The operator inputs a voice into the voice recognition device in units of words "Hanagasha Ondo". The input voice is received from the voice input unit 21 of FIG. 2, the feature of the voice is extracted by the feature extraction circuit 22 of FIG. 2, and is stored in the feature parameter string storage circuit 23 of FIG. The voice input time length, which is one of the voice characteristics, can be easily known by measuring the time when the voice power obviously different from noise is observed by using the voice power information. The voice input time length of the voice input here is 0.8 seconds. The voice input time information identifies the voice input unit as a word or a unit smaller than the word.

【0028】次に音声入力単位識別情報の一つである入
力音声中に存在する音素数を調べる。7音素が存在して
いることが分かった。この情報からも音声入力単位が単
語もしくは、単語よりも小さな単位であると判定され
る。
Next, the number of phonemes present in the input voice, which is one of the voice input unit identification information, is checked. It turns out that seven phonemes exist. Also from this information, it is determined that the voice input unit is a word or a unit smaller than the word.

【0029】そこで、図1音声入力単位識別部12より
得られた入力単位情報をもとに、図2音声認識用辞書2
8から音声入力単位にそった情報を選び、図1音声認識
部13において音声認識処理が進められる。ここでは、
音声入力単位として識別された結果が「単語」であるか
ら、図2音声認識用辞書28の中の図2音声認識情報3
2の単語に関する情報を用いて、図2DPマッチング回
路27において図2特徴パラメータ列記憶回路23に記
憶されていた特徴パラメータ列とDPマッチングし、入
力音声は符号列として認識処理される。この際に、音声
入力単位が「文節」、「文章」単位の場合にのみ有効で
ある、情報は一切使用せずに音声認識処理を進めること
ができ、非常に効率的である。
Therefore, based on the input unit information obtained from the voice input unit identifying section 12 of FIG. 1, the voice recognition dictionary 2 of FIG.
The information corresponding to the voice input unit is selected from 8, and the voice recognition processing is performed in the voice recognition unit 13 in FIG. here,
Since the result identified as the voice input unit is a “word”, the voice recognition information 3 of FIG. 2 in the voice recognition dictionary 28 of FIG.
The DP matching circuit 27 in FIG. 2 performs DP matching with the feature parameter sequence stored in the feature parameter sequence storage circuit 23 using the information about the two words, and the input speech is recognized as a code sequence. At this time, it is effective only when the voice input unit is a “bunsetsu” or “sentence” unit. The voice recognition process can proceed without using any information, which is very efficient.

【0030】以上述べてきたような処理を経て入力音声
は音声認識され、図2表示部制御回路30の制御におい
て、図2表示部31より操作者が確認できる形態で出力
される。
The input voice is voice-recognized through the processing as described above and is output from the display unit 31 of FIG. 2 in a form that can be confirmed by the operator under the control of the display unit control circuit 30 of FIG.

【0031】また、音声入力単位を識別しない従来の音
声認識装置に、同じく「花笠音頭」と入力した場合に
は、「花が左辺だ」という意味がまったくとおらない非
文を音声認識結果として出力してしまう場合もある。こ
のように誤った音声認識結果を出力する原因は、音声入
力単位に対して不適切な辞書、知識が用いられ、音声認
識処理が進められたことであると考えられる。
When "Hanakasa Ondo" is also input to the conventional voice recognition device which does not identify the voice input unit, a non-sentence meaning "flower is on the left side" is not recognized at all as a voice recognition result. It may be output. It is considered that the cause of outputting the erroneous voice recognition result is that the voice recognition processing is advanced due to the use of an inappropriate dictionary or knowledge for the voice input unit.

【0032】尚、(実施例1)では音声入力部として、
マイク、高域強調フィルタ、AD変換器より構成し、デ
ジタル信号としてサンプリングしたものを用いたが、迅
速に入力音声をサンプリングできるものであれば、それ
以外の構成であってもかまわない。また、特徴抽出回路
では、デジタル信号に変換された音声信号を周波数変換
し、周波数領域での特徴パラメータを抽出し、発声され
た単語の特徴パラメータ列として表す方法を用いたが、
これ以外の方法であっても特徴を的確に抽出できる方法
であればかまわない。また、音声入力単位を識別する情
報として、音声入力時間情報、音素個数情報を用いる方
法を示したが、迅速に正確に音声入力単位を識別できる
方法であれば、これ以外の方法であってもかまわない。
また、音声認識結果を操作者に知らせる手段として、
(実施例1)では表示部に音声認識結果を表示する方法
を用いたが、これ以外の方法であっても、音声認識結果
を迅速に操作者に知らせることが出来る方法であれば構
わない。
In the first embodiment, as the voice input section,
A microphone, a high-frequency emphasis filter, and an AD converter, which are sampled as a digital signal, are used, but any other structure may be used as long as the input voice can be sampled quickly. Further, in the feature extraction circuit, the method of frequency-converting the voice signal converted into the digital signal, extracting the feature parameter in the frequency domain, and expressing it as the feature parameter string of the uttered word is used.
Any other method may be used as long as it can accurately extract the features. Although the method of using the voice input time information and the phoneme number information as the information for identifying the voice input unit is shown, any other method may be used as long as it is a method capable of quickly and accurately identifying the voice input unit. I don't care.
Also, as a means of notifying the operator of the voice recognition result,
Although the method of displaying the voice recognition result on the display unit is used in the first embodiment, any method other than this may be used as long as it can promptly notify the operator of the voice recognition result.

【0033】[0033]

【発明の効果】以上述べてきたように本発明の音声認識
装置は、入力音声の入力単位を識別し、音声入力単位に
あった的確な情報のみを用いることで、極めて速やかに
音声認識処理を行うことが出来るようになった。そのた
め、音声認識装置に異なった入力単位で音声入力を行う
ことが可能になり、使用環境の変化や、音声入力データ
の変化により、音声入力単位が頻繁に変化するような状
況にも非常に柔軟に対応できるようになり、音声入力装
置使用の用途を大幅に広げることが出来るようになっ
た。
As described above, the voice recognition apparatus of the present invention recognizes the input unit of the input voice, and uses only the correct information that is in the voice input unit, so that the voice recognition process can be performed very quickly. I can do it now. As a result, it is possible to input voice to the voice recognition device in different input units, and it is very flexible even in situations where the voice input unit changes frequently due to changes in the usage environment or voice input data. Now, it is possible to greatly expand the use of voice input devices.

【0034】また、あらゆる単位での音声入力を迅速に
使用できるため、音声認識装置を使用する操作者が音声
入力操作方法を修得するために要する時間が極めて削減
できるようになった。そのため、多くの人が音声認識装
置を使用する環境ができやすくなった。
Further, since the voice input in every unit can be quickly used, the time required for the operator using the voice recognition device to master the voice input operation method can be extremely reduced. Therefore, it has become easier for many people to create an environment in which the voice recognition device is used.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の音声認識装置の原理ブロック図であ
る。
FIG. 1 is a principle block diagram of a voice recognition device of the present invention.

【図2】 本発明の一実施例のブロック図である。FIG. 2 is a block diagram of an embodiment of the present invention.

【図3】 従来の音声認識訂正装置のブロック図であ
る。
FIG. 3 is a block diagram of a conventional voice recognition correction device.

【符号の説明】[Explanation of symbols]

1 音響分析部 2 音声認識部 3 記憶部 11 音響分析部 12 音声入力単位識別部 13 音声認識部 14 音声認識記憶部 21 音声入力部 22 特徴抽出回路 23 特徴パラメータ列記憶回路 24 音声入力単位識別情報 25 マッチング回路 26 音声入力単位記憶回路 27 DPマッチング回路 28 音声認識用辞書 29 音声認識記憶回路 30 表示部制御回路 31 表示部 32 音声認識情報 33 文法情報 34 意味情報 DESCRIPTION OF SYMBOLS 1 acoustic analysis unit 2 speech recognition unit 3 storage unit 11 acoustic analysis unit 12 speech input unit identification unit 13 speech recognition unit 14 speech recognition storage unit 21 speech input unit 22 feature extraction circuit 23 characteristic parameter sequence storage circuit 24 speech input unit identification information 25 Matching Circuit 26 Voice Input Unit Storage Circuit 27 DP Matching Circuit 28 Voice Recognition Dictionary 29 Voice Recognition Storage Circuit 30 Display Control Circuit 31 Display 32 Voice Recognition Information 33 Grammar Information 34 Semantic Information

Claims (1)

【特許請求の範囲】 【請求項1】 入力された音声の特徴を出力する音響分
析部と、前記入力された音声の文法的な単位を判断する
音声入力単位識別部と、前記音声入力単位識別部の出力
を手がかりに前記音響分析部の出力を符号列に変換する
音声認識部と、前記音響分析部の出力を記憶する音響分
析記憶部と、前記音声認識部の出力を記憶する音声認識
記憶部とからなることを特徴とする音声認識装置。
Claim: What is claimed is: 1. An acoustic analysis unit that outputs characteristics of an input voice, a voice input unit identification unit that determines a grammatical unit of the input voice, and the voice input unit identification. A speech recognition unit that converts the output of the acoustic analysis unit into a code string based on the output of the unit, an acoustic analysis storage unit that stores the output of the acoustic analysis unit, and a speech recognition storage that stores the output of the speech recognition unit. A voice recognition device comprising:
JP3162889A 1991-07-03 1991-07-03 Voice recognizer Pending JPH0511796A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3162889A JPH0511796A (en) 1991-07-03 1991-07-03 Voice recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3162889A JPH0511796A (en) 1991-07-03 1991-07-03 Voice recognizer

Publications (1)

Publication Number Publication Date
JPH0511796A true JPH0511796A (en) 1993-01-22

Family

ID=15763182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3162889A Pending JPH0511796A (en) 1991-07-03 1991-07-03 Voice recognizer

Country Status (1)

Country Link
JP (1) JPH0511796A (en)

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
RU2466468C1 (en) System and method of speech recognition
JPS6147440B2 (en)
JPH09500223A (en) Multilingual speech recognition system
KR101836430B1 (en) Voice recognition and translation method and, apparatus and server therefor
WO1996003741A1 (en) System and method for facilitating speech transcription
EP1460615B1 (en) Voice processing device and method, recording medium, and program
CN1178203C (en) Voice recognition rejection method
KR101122591B1 (en) Apparatus and method for speech recognition by keyword recognition
JP2996019B2 (en) Voice recognition device
WO2005098817A2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
KR20150014235A (en) Apparatus and method for automatic interpretation
JPH0511796A (en) Voice recognizer
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP2002372988A (en) Recognition dictionary preparing device and rejection dictionary and rejection dictionary generating method
JP2001005483A (en) Word voice recognizing method and word voice recognition device
JP2664785B2 (en) Voice recognition device
JP3259734B2 (en) Voice recognition device
JP3110025B2 (en) Utterance deformation detection device
JP3357752B2 (en) Pattern matching device
JP2005189294A (en) Voice recognition device
JP2002341891A (en) Speech recognition device and speech recognition method
JPS6370298A (en) Double consonant recognition equipment
Akintola et al. Speech Processing Algorithm for Automatic Speaker Recognition-Based Telephone Voice Dialing in Yorùbá

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 13

Free format text: PAYMENT UNTIL: 20071207

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081207

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees