[go: up one dir, main page]

JPS602998A - voice recognition device - Google Patents

voice recognition device

Info

Publication number
JPS602998A
JPS602998A JP58110683A JP11068383A JPS602998A JP S602998 A JPS602998 A JP S602998A JP 58110683 A JP58110683 A JP 58110683A JP 11068383 A JP11068383 A JP 11068383A JP S602998 A JPS602998 A JP S602998A
Authority
JP
Japan
Prior art keywords
speech
dictionaries
dictionary
sample
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58110683A
Other languages
Japanese (ja)
Other versions
JPH0430598B2 (en
Inventor
裕二 木島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58110683A priority Critical patent/JPS602998A/en
Publication of JPS602998A publication Critical patent/JPS602998A/en
Publication of JPH0430598B2 publication Critical patent/JPH0430598B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔発明の技術分針〕 本発明は、音声認識システムにおける話者適応方式に関
し、特に、複数の音声辞書の中から特定話者ごとに最適
の音声辞書を選択するための音声辞書構成方式に関する
0 〔技術の背景〕 一般に、音声認識システムでは、たとえば数百語以上の
多数の填語の認識を、何らの事前学習もなしで行なうこ
とは、現状ではなお認識率の点で問題がある。他方、多
数の単語を全て事前に発声して登録する方式は、認識精
度の点ですぐれているが、話者の負担が大きくなpすぎ
、実用的ではない。したがって、事前発声データはなる
べく少量にして話者に適した辞書を作成する手法が必要
である。
[Detailed Description of the Invention] [Technology of the Invention] The present invention relates to a speaker adaptation method in a speech recognition system, and in particular to a method for selecting an optimal speech dictionary for each specific speaker from among a plurality of speech dictionaries. 0 Regarding Speech Dictionary Construction Method [Technical Background] In general, in speech recognition systems, it is difficult to recognize a large number of filler words, for example, several hundred words or more, without any prior learning. There is a problem with this. On the other hand, a method in which a large number of words are all uttered in advance and registered is excellent in terms of recognition accuracy, but it imposes too much burden on the speaker and is not practical. Therefore, there is a need for a method of creating a dictionary suitable for the speaker by using as little pre-utterance data as possible.

その1つの手法として、予めI意した複数の辞書、たと
えば他の複数の話者が発声した音声にもとづいてそれぞ
れ作成した辞書から話者に最適な辞書を1つだけ選択す
る方式が考えられるが、話者に適した辞書の存在を保証
するためには、かなカ多数の辞書を用意しなければなら
ないという問題がある。
One possible method is to select only one dictionary most suitable for the speaker from among multiple dictionaries prepared in advance, for example, dictionaries each created based on the sounds uttered by multiple other speakers. However, in order to guarantee the existence of a dictionary suitable for each speaker, there is a problem in that a large number of dictionaries must be prepared.

〔発明の目的および構成〕[Object and structure of the invention]

本発明の目的は、音声認識システムを話者ごとに最適化
して認識精度を扁める話者適応方式において、事前学習
に対する話者の負担を少なくしてかつ最適の音声辞書を
容易に構成することができる手段を提供することにある
An object of the present invention is to reduce the burden on speakers in advance learning and easily construct an optimal speech dictionary in a speaker adaptive method that optimizes a speech recognition system for each speaker to improve recognition accuracy. The goal is to provide the means to do so.

一般に、与えられた複数の音声辞書のうち、入力話者に
最適な辞゛1誉を唯1個選択して用いたとしても、もと
の音声辞書の数が少なければ、入力話者によってはあt
b適した辞書が移転せず、したがって高認識率が得られ
ない場合がある。このような場合、複数の辞書の情報を
用いることにより、そのいずれの辞書を単独で使用した
場合よりも認識率を高くすることが可能である0 本発明は、この点に着目してなされたものであシ、少な
い数のサンプル音声データを辞書として用いた認識結果
によシ主の音声辞書の選択を行ない、比較的類似度の高
い音声辞書を複数個に絞って使用し、あるいはさらにそ
れから新たな辞書を作成することにより上記目的を達成
している。
In general, even if you select and use only one dictionary that is optimal for an input speaker from among a plurality of given speech dictionaries, if the number of original speech dictionaries is small, depending on the input speaker, At
b) A suitable dictionary may not be transferred, and therefore a high recognition rate may not be obtained. In such a case, by using information from multiple dictionaries, it is possible to increase the recognition rate higher than when using any of the dictionaries alone. The present invention was made with attention to this point. Alternatively, the main speech dictionary can be selected based on the recognition results using a small number of sample speech data as a dictionary, and the speech dictionaries with relatively high similarity can be narrowed down to a plurality of speech dictionaries, or even further. The above objective is achieved by creating a new dictionary.

本発明の構成は、それによシ (1) 複数の音声辞書をそなえた音声認識システムに
おいて、該複数の音声辞書のそれぞれごとに作成された
同じカテゴリ群からなるサンダル音声データ群と、該サ
ンプル音声データ群と認識対象の特定話者の音声データ
との間で類似度を計算する手段と、高い類似度を示した
上位複数のす、ングル音声データ群に対応する複数の音
声辞書のみを選嶽する手段とをそなえ、該選択された複
数の音声辞書を上記特定話者に対する音声辞書として使
用することを特徴とする。
The present invention has the following features: (1) In a speech recognition system equipped with a plurality of speech dictionaries, a sandal speech data group consisting of the same category group created for each of the plurality of speech dictionaries, and the sample speech A method for calculating the degree of similarity between a data group and the speech data of a specific speaker to be recognized, and a method for selecting only a plurality of speech dictionaries corresponding to a plurality of top group speech data groups showing a high degree of similarity. The selected plurality of speech dictionaries are used as speech dictionaries for the specific speaker.

12)複数の音声辞書をそなえた音声認識システムに、
おいて、該複数の音声辞書のそれぞれごとに作成された
同じカテゴリ群からなるサンプル音声データ群と、該サ
ンダル音声データ群と特定話者の音声データとの間で類
似度を計算する手段と、高い類似度を示した上位複数の
サンプル音声データ群に対応す為複数の音声辞書のみを
選択する手段と、該選択された複数の音声辞書を平均化
して新しい音声辞書を作成する手段・とをそなえ、該複
数の選択された音声辞書を平均化して作成された音声辞
書を、上記特定話者に対する音声辞書として使用するこ
とを特徴とするものである。
12) A voice recognition system equipped with multiple voice dictionaries,
means for calculating a degree of similarity between a sample voice data group made up of the same category group created for each of the plurality of voice dictionaries, the sandals voice data group and voice data of a specific speaker; Means for selecting only a plurality of speech dictionaries to correspond to a plurality of top sample speech data groups showing high similarity, and means for creating a new speech dictionary by averaging the plurality of selected speech dictionaries. The present invention is characterized in that a speech dictionary created by averaging the plurality of selected speech dictionaries is used as a speech dictionary for the specific speaker.

〔発明の実施例〕[Embodiments of the invention]

以下に、本発明の詳細を実施例にしたがって説−明する
The details of the present invention will be explained below based on examples.

一般には、他人の辞書を用いた場合は自身の辞書を用い
た場合に比べてIga識率がかなり下がるが、学習によ
シ改善を図ることができる0 他人の辞書の一部を自身の辞書と゛置き換えて新しい辞
書とした場合、使用している特徴量に個人差を表わす情
報が多く含まれていれば、認識率は、その置換量に応じ
て、例えば第1図の実線のグラフlのような変化を示す
In general, if you use someone else's dictionary, your Iga knowledge rate will be much lower than if you use your own dictionary, but you can improve it through learning. If a new dictionary is created by replacing ``,'' and the features used include a lot of information that represents individual differences, the recognition rate will change depending on the amount of replacement, for example, as shown in the solid line graph l in Figure 1. It shows a change like this.

すなわち、他人の辞書のうち少量を自身の辞書と置き換
えた場合には、認識率がかえって低下する傾向を示す0
この現象は、特徴量に個人情報が多く含まれている場合
には、他人の発声した同一の革語よフ、自身の発声した
別の牟語の方が類似性が高くなることにより起こるもの
である。この場合、 ■ 辞書の中で自身のデータと他人やデータとはあらが
↓め区別できるので、自身のデータに対して非類似性に
関する閾値を設定し、認識時点でこの閾値を超える自身
の辞書データを採用しないことにより、第1図の破線の
グラフ2のように、大体置換量に比例した認識率の増加
をみることができる。
In other words, if you replace a small amount of someone else's dictionary with your own dictionary, the recognition rate tends to decrease.
This phenomenon occurs because when the features contain a lot of personal information, the similarity between another foreign word uttered by oneself becomes higher than the same foreign word uttered by another person. It is. In this case, ■ Since it is possible to distinguish between one's own data and other people's data in the dictionary, a threshold regarding dissimilarity is set for one's own data, and the own dictionary that exceeds this threshold at the time of recognition. By not adopting the data, it is possible to see an increase in the recognition rate roughly proportional to the amount of replacement, as shown in broken line graph 2 in FIG.

■ また、予め多数の話者の辞書(多数対象と少数語粂
すなわちサンプル嗟案の2組:少数対案は多数対案の一
部としてもよい)を用意しておき、利用者は、上記サン
プル語案を発声して、その対案の範囲内で認識を行なう
。その結果、認識率が最も高かったサンプル語粂の話者
による多数対案の辞書を使用することにすれば、単に1
人の辞書を用意して全ての利用者がその辞書を使用する
場合にくらべて、平均認識率を高くすることができる0 ■ ■で認識率の最も高い辞書を1つ使用するかわυに
、認識率の高い辞tt−複数個使用する方法がある。
■ In addition, dictionaries for multiple speakers are prepared in advance (two sets of multiple target and minority target, i.e., sample target; the minority target can be a part of the multiple target), and the user uses the sample words mentioned above. Speak out the proposal and recognize it within the scope of the counter proposal. As a result, if we decide to use a dictionary with many countersuggestions by speakers of the sample word Kume, which had the highest recognition rate, we can simply
The average recognition rate can be increased compared to the case where a dictionary of people is prepared and all users use that dictionary.In addition to using one dictionary with the highest recognition rate in 0 ■ ■, υ There is a method of using multiple words tt with a high recognition rate.

複数辞書の使用法としては、従来、マルチテングレート
方式、平均ノJ?タン方式がよく用いられている〇 マルチテンプレート方式は、複数の辞書を単に平面的に
配列し、ひとまとめにして1つの辞書とするものである
。1つのカテゴリに複数(話者の人数)のデータが存在
することになフ、認識時点では、それら全てのデータの
中から最もよく似たデータを探す処理が行なわれる0 次に平均t44タン方は、同一のカテゴリ内の複数のデ
ータにおいて、対応する特徴ごとに特徴値を平均し、新
しい1つのデータとするものでおる0音声の場合にi、
時間長の変動がある為、一般には時間方向での対応付け
を行なった後、平均するO本実施例では、時間方向は単
語長を16等分するという形で時間長の正規化を行なっ
ているので、平均操作は簡単に行なうことができる。
Conventional methods of using multiple dictionaries include the multiten rate method, the average no J? The multi-template method, in which the tongue method is often used, simply arranges multiple dictionaries in a plane and combines them into a single dictionary. Since there are multiple pieces of data (number of speakers) in one category, at the time of recognition, a process is performed to find the most similar data among all the data. is the average of the feature values for each corresponding feature in multiple data in the same category to create one new data.In the case of 0 voice, i,
Since the time length varies, it is generally averaged after mapping in the time direction. In this embodiment, the time length is normalized by dividing the word length into 16 equal parts. Therefore, the averaging operation can be easily performed.

第2図は、マルチテングレート方式と平均/9タン方式
の効果を比較したものである。
FIG. 2 compares the effects of the multiten rate method and the average/9 tan method.

第2図は、40人のテスト対象話者のそれぞれについて
40個の辞書(語数200語)から類似度の高い上位1
 、3 、5 、10個の辞書を選択した場合を横軸に
とフ、縦軸には話者40人の平均認識率を示したもので
ある。グラフ3がマルチテングレートの場合、グラフ4
が平均バタン辞書の場合を示す0図から明らかなように
、平均パタン方式が′マルチテンプレート方式よりも優
れていることがわかる0これは、平均/ぐタン方式の場
合、個々の辞書に含まれる各個人情報部分が、平均化に
より希釈され、その反対に有効な特徴情報部分は強調さ
れることによるものである。他方、マルチテンプレート
方式の場合には、このような効果を生じさせることがで
きない。
Figure 2 shows the top 1 most similar words from 40 dictionaries (200 words) for each of the 40 test speakers.
, 3, 5, and 10 dictionaries are selected on the horizontal axis, and the vertical axis shows the average recognition rate of 40 speakers. If graph 3 is a multi-tenure rate, graph 4
It is clear from the figure that the average pattern method is superior to the multi-template method as shown in the figure where This is because each personal information portion is diluted by averaging, and on the other hand, effective characteristic information portions are emphasized. On the other hand, in the case of the multi-template method, such an effect cannot be produced.

第3図は、平均パタン方式の効果をさらに明確にするた
めの典型例のデータを示す。図は、100個の辞書(2
00語)から類似度の上位20個の辞書を選択したもの
を類似度順に横軸に配列し、これに対して5人の入力話
者A、B、C,D、Eの認識率を縦軸にとったものセあ
る′0各大入力者について、下方向に伸びる実線グラフ
が、上位20個の辞書のそれぞれを単一辞書として扱っ
たときの認識率を表わし、また上方向に伸びる点線グラ
フが上位3個、5個、 10個の辞書を平均したときの
認識率を表わす。
FIG. 3 shows typical example data to further clarify the effect of the average pattern method. The figure shows 100 dictionaries (2
The top 20 dictionaries with the highest similarity from 00 words) are arranged on the horizontal axis in order of similarity, and the recognition rates of the five input speakers A, B, C, D, and E are plotted vertically. For each large input user, the solid line graph extending downward represents the recognition rate when each of the top 20 dictionaries is treated as a single dictionary, and the dotted line graph extending upward The graph represents the recognition rate averaged over the top 3, 5, and 10 dictionaries.

■ 事前発声なしで認識を行なう為には、不特定話者用
辞書を用意する必要がある。特定の1人の辞書を不特定
話者用辞書として用いることは前述したように高い認識
率を得ることができない0ここでは与えられた複数の辞
書を平均して不特定話者用とする場合を考える0 あらかじめ20人分の辞書(1000語!りが登録され
ているものとする0 また、上記とは別の入力話者加入について、1000語
粂を対象に次の5種類の辞書で認識を行なった場合の認
識率データを第4図に示す0■ 用意されている20個
の辞書を平均した不特定話者用辞書 ■ 50語のサンゾル辞書で認識を行ない、認識率の高
い10個のサンプル辞書に対応する主の辞書(1000
語紮)金子均した平均辞書■ 100語のサンプル辞書
で認識を行ない、認識率の高い10個のサンプル辞書に
対応する主の辞−1:(1000語案)金子均した平均
辞誉@200語のサンゾル辞書で認識を行ない、認識率
の高い10個のサンプル辞書に対応する主の辞書(10
00語索)金子均した平均辞書■ 入力話者自身の発声
で登録された1000語粟の個人辞書 なお第4図のグラフは、入力話者20人分の平均認識率
を表わしている。
■ In order to perform recognition without prior utterance, it is necessary to prepare a speaker-independent dictionary. As mentioned above, it is not possible to obtain a high recognition rate if one specific person's dictionary is used as a dictionary for non-specific speakers.Here, when a plurality of given dictionaries are averaged and used for non-specific speakers. 0 It is assumed that 20 people's dictionaries (1000 words!) have been registered in advance.0 Also, regarding the addition of input speakers other than the above, the following 5 types of dictionaries are used to recognize 1000 words. Figure 4 shows the recognition rate data when performing recognition using a 50-word Sanzor dictionary. The main dictionary corresponding to the sample dictionary (1000
Word translation) Kaneko's average dictionary ■ Recognition is performed with a sample dictionary of 100 words, and the main words corresponding to the 10 sample dictionaries with high recognition rates - 1: (1000 word ideas) Kaneko's average dictionary @ 200 The main dictionary (10
00 word search) Kaneko's Average Dictionary■ A personal dictionary of 1000 words recorded by input speakers' own utterances.The graph in FIG. 4 shows the average recognition rate for 20 input speakers.

■、■、■のよう−に少数語案のサンプル辞書で学習し
、複数の主辞書の選択を行なってそれから平均辞書を作
成する方法によシ、■および■を結ぶ破線5が示す事前
発声語数に比例して向上する個人辞書の認識率をさらに
上回るところの、特性6で示す効果を上げることができ
る。
The pre-utterance shown by the dashed line 5 connecting ■, ■, and ■ is to study with a sample dictionary of minority word ideas, select multiple main dictionaries, and then create an average dictionary. It is possible to achieve the effect shown in characteristic 6, which further exceeds the recognition rate of personal dictionaries, which improves in proportion to the number of words.

第5図は上述した関係を総括したグラフである。FIG. 5 is a graph summarizing the above-mentioned relationships.

次に、本発明による音声認識システムの1実施例の構成
を、上述した@にもとづく音声辞書構成方式の場合を例
にして説明する。
Next, the configuration of one embodiment of the speech recognition system according to the present invention will be described using the above-mentioned @-based speech dictionary construction method as an example.

第6図はその構成図であシ、7は入力部、8は認識部、
9はサンプル辞書群ファイル、10は認識結果保持部、
11は選択部、 12は主辞書群ファイル、13は平均
辞書作成部、 14は平均辞書格納部、15はモード切
替スイッチ、16は出力部を表わす。
FIG. 6 is its configuration diagram, where 7 is an input section, 8 is a recognition section,
9 is a sample dictionary group file, 10 is a recognition result holding unit,
11 is a selection section, 12 is a main dictionary group file, 13 is an average dictionary creation section, 14 is an average dictionary storage section, 15 is a mode changeover switch, and 16 is an output section.

本実施例システムは、辞書構成モードと、認識処理モー
ドとの2つのモードで動作する〇まず、モード切替スイ
ッチ15をサンプル辞書群ファイル9側に設定し、辞書
構成モードにする0ここで利用者は、学習用の少数の単
語(100語)を発声する0この学習用発声にもとづく
音声データは、入力部7から人力され、認識部8で認識
される0このとき使用される辞書は、サンダル辞書群フ
ァイル9中のものであるO サンプル辞書群ファイル9には、複数(20人)の話者
によって発声されたサンプル辞−t(20個)があり、
かつ全てのサングル辞書は同一のカテコ゛り群(100
語粱語案らなり、このカテコ″1ノ群には上記学習用の
少数拳語が全て含まれている0このカテゴリ群は、後述
する主辞書群ファイル12と同一あるいはその一部であ
ってもよいし、無関係であっても工い0 認識結果保持部10は、上記サンプル辞書群ファイル9
中の各サンプル辞書ごとに認識結果を保持する。
The system of this embodiment operates in two modes: dictionary configuration mode and recognition processing mode. First, set the mode changeover switch 15 to the sample dictionary group file 9 side to switch to dictionary configuration mode. utters a small number of learning words (100 words) 0 Voice data based on this learning utterance is input manually from the input unit 7 and is recognized by the recognition unit 8 0 The dictionary used at this time is Sandals. O in the dictionary group file 9 The sample dictionary group file 9 includes sample words -t (20 pieces) uttered by a plurality of (20) speakers,
And all sample dictionaries have the same category group (100
This category group is the same as or a part of the main dictionary group file 12, which will be described later. The recognition result holding unit 10 stores the sample dictionary group file 9.
Recognition results are retained for each sample dictionary in the dictionary.

選択部11は、サンプル辞書群ファイル9中のサンプル
辞書のうち、認識率が高かったサンプル辞書を選択する
The selection unit 11 selects a sample dictionary with a high recognition rate from among the sample dictionaries in the sample dictionary group file 9.

主辞書群ファイ゛ルnには、サンプル辞書群ファイル9
のサンプル辞書データを発声し7’c複数の話者による
認識対象11.語群(1ooo語粟)を発声登録した辞
書が格納されている。
The main dictionary group file n contains the sample dictionary group file 9.
The sample dictionary data of 7'c is uttered and recognized by multiple speakers 11. A dictionary in which word groups (1ooo words) are registered as utterances is stored.

平均辞書作成部13は、選択部11で選択された複数の
サンプル辞書と同一の発声者による主辞荀・を主辞書群
ファイル12からとり出し、それらの辞書を平均した1
つの辞書を作成するO作成された平均辞書は、平均辞書
格納部14に格納される0ここでモード切替スイッチ1
5を、平均辞書格納部14側に設定変更し、認識処理モ
ードにする。牙U用時点では、人力部7から入力された
音声カニ、認識部8において、平均辞書格納部14に格
納されている辞書を用いて認識され、その結果が出力部
16から出力される0 なお、平均バタン方式の代シにマルチテンプレート方式
をとる場合には、主辞書群から選択した複数の辞書をそ
のまま認識処理用辞書とすればよい0〔発明の効果〕 以上述べたように、本発明によればあら25≧しめ用意
された複数の辞書から、話者に応じてそれらのいづれよ
りも認識率の高い辞書を作成することができるので、対
象語案を全て発声することなく、迅速かつ容易に高精度
の辞書を作成することlxできる0
The average dictionary creation unit 13 extracts the main dictionaries by the same speaker as the plurality of sample dictionaries selected by the selection unit 11 from the main dictionary group file 12, and averages these dictionaries.
The created average dictionary is stored in the average dictionary storage unit 14. Here, the mode changeover switch 1
5 is set to the average dictionary storage unit 14 side, and the recognition processing mode is set. At the time of Fang U, the voice input from the human power section 7 is recognized by the recognition section 8 using the dictionary stored in the average dictionary storage section 14, and the result is output from the output section 16. If the multi-template method is used instead of the average slam method, the plurality of dictionaries selected from the main dictionary group may be used as dictionaries for recognition processing. [Effects of the Invention] As described above, the present invention According to Arara25≧Multiple dictionaries, it is possible to create a dictionary with a higher recognition rate than any of the prepared dictionaries depending on the speaker, so it is possible to quickly and easily create a dictionary that has a higher recognition rate than any of them, depending on the speaker. You can easily create high-precision dictionaries.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は他人の辞書に対する学習効果の説明図、第2図
はマルチテングレート辞書と平均/ぐタン辞書につい′
ての選択辞書数の効果の説明図、第3図は選択対象辞書
の類似度順位の効果の説明図、第4図は不特定話者用辞
書についての学習効果の説明図“、第5図は第1図から
第4図までを総括した説明図、第6図は本発明の1実施
例システムの構成図である0 図中、7は入力部、8は認識部、9はサンダル辞書群フ
ァイル、10は認識結果保持部、11は選択部、νは主
辞書群ファイル、13は平均辞書作成部、14は平均辞
書格納部、15はモード切替スイッチ、16は出力部を
表わす。 特許出願人 富士通株式会社 代理人弁理士 長径用 文 廣 (外1名) 第 i 唱 1%) 認。 ジ 遅F+・トーーーーーーーーータ;船ジく度噛イヱーー
ーーーーーー“−・イ1c←−一瓜班肇
Figure 1 is an explanatory diagram of the learning effect on other people's dictionaries, and Figure 2 is an illustration of the learning effect on other people's dictionaries.
Figure 3 is an illustration of the effect of the similarity ranking of selected dictionaries, Figure 4 is an illustration of the learning effect for dictionaries for non-specific speakers, and Figure 5 is an illustration of the effect of the number of selected dictionaries. is an explanatory diagram summarizing FIGS. 1 to 4, and FIG. 6 is a configuration diagram of a system according to an embodiment of the present invention. In the figure, 7 is an input section, 8 is a recognition section, and 9 is a sandal dictionary group. 10 is a recognition result storage unit, 11 is a selection unit, ν is a main dictionary group file, 13 is an average dictionary creation unit, 14 is an average dictionary storage unit, 15 is a mode changeover switch, and 16 is an output unit.Patent application Person Fujitsu Ltd. Representative Patent Attorney For long diameter Hiroshi Fumi (1 other person) 1%) Approved.ーーー“-・I1c←−Ichigohan Hajime

Claims (2)

【特許請求の範囲】[Claims] (1)複数の音声辞書をそなえた音声認識システムにお
いて、該複数の音声辞書のそれぞれごとに作成された同
じ力゛テゴリ群からなるサンプル音声データ群と、該サ
ンプル音声データ群と認識対象の特定話者の音声データ
との間で類似度を計算する手段と、高い類似度を示した
上位複数のサンプル音声データ群に対応する複数の音声
辞書のみを選択する手段とをそなえ、該選択された複数
の音声辞書を上記特定話者に対する音声辞書として使用
することを特徴とする音声辞書構成方式。
(1) In a speech recognition system equipped with multiple speech dictionaries, a sample speech data group consisting of the same category group created for each of the plurality of speech dictionaries, and identification of the sample speech data group and the recognition target. The method includes a means for calculating the degree of similarity between the voice data of the speaker and a means for selecting only a plurality of voice dictionaries corresponding to a plurality of top sample voice data groups showing a high degree of similarity. A speech dictionary configuration method characterized in that a plurality of speech dictionaries are used as speech dictionaries for the specific speaker.
(2)複数の音声辞書をそなえた音声認識システムにお
いて、該複数の音声辞書のそれぞれごとに作成された同
じカディリ群からなるサンダル音声データ群と、該サン
ダル音声データ群と特定話者の音声データとの間で類似
度を計算する手段と、高い類似度を示した上位複数のサ
ンダル音声データ群に対応する複数の音声辞書のみを選
択する手段と、該選択された複数の音声辞書を平均化し
て新しい音声辞書を作成する手段とをそなえ、該複数の
選択された音声辞書を平均化して作成された音声辞書を
、上記特定話者に対する音声辞書として使用することを
特徴とする音声辞書構成方式0
(2) In a speech recognition system equipped with a plurality of speech dictionaries, a sandal speech data group consisting of the same Qadiri group created for each of the plurality of speech dictionaries, and the sandal speech data group and the speech data of a specific speaker. means for calculating the degree of similarity between the plurality of voice dictionaries, means for selecting only the plurality of voice dictionaries corresponding to the top plurality of sandal voice data groups showing a high degree of similarity, and means for averaging the plurality of selected voice dictionaries. and a means for creating a new speech dictionary using the plurality of selected speech dictionaries, and the speech dictionary created by averaging the plurality of selected speech dictionaries is used as the speech dictionary for the specific speaker. 0
JP58110683A 1983-06-20 1983-06-20 voice recognition device Granted JPS602998A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58110683A JPS602998A (en) 1983-06-20 1983-06-20 voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58110683A JPS602998A (en) 1983-06-20 1983-06-20 voice recognition device

Publications (2)

Publication Number Publication Date
JPS602998A true JPS602998A (en) 1985-01-09
JPH0430598B2 JPH0430598B2 (en) 1992-05-22

Family

ID=14541797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58110683A Granted JPS602998A (en) 1983-06-20 1983-06-20 voice recognition device

Country Status (1)

Country Link
JP (1) JPS602998A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023139769A1 (en) * 2022-01-21 2023-07-27 ファナック株式会社 Grammar adjustment device and computer-readable storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device
JPS57104193A (en) * 1980-12-19 1982-06-29 Matsushita Electric Ind Co Ltd Voice recognizer
JPS59192299A (en) * 1983-04-15 1984-10-31 松下電器産業株式会社 Voice recognition
JPS59201100A (en) * 1983-04-30 1984-11-14 富士通株式会社 Voice standard pattern registration system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56119199A (en) * 1980-02-26 1981-09-18 Sanyo Electric Co Voice identifying device
JPS57104193A (en) * 1980-12-19 1982-06-29 Matsushita Electric Ind Co Ltd Voice recognizer
JPS59192299A (en) * 1983-04-15 1984-10-31 松下電器産業株式会社 Voice recognition
JPS59201100A (en) * 1983-04-30 1984-11-14 富士通株式会社 Voice standard pattern registration system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023139769A1 (en) * 2022-01-21 2023-07-27 ファナック株式会社 Grammar adjustment device and computer-readable storage medium

Also Published As

Publication number Publication date
JPH0430598B2 (en) 1992-05-22

Similar Documents

Publication Publication Date Title
JP4369132B2 (en) Background learning of speaker voice
JP3948747B2 (en) Pattern recognition method and system based on tree configuration probability density
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
CN113874935A (en) Using context information with end-to-end models for speech recognition
US20200058300A1 (en) Proactive command framework
JPH0394299A (en) Voice recognition method and method of training of voice recognition apparatus
CN115428066A (en) Synthetic Speech Processing
CA2180392A1 (en) User Selectable Multiple Threshold Criteria for Voice Recognition
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
Christensen et al. Automatic selection of speakers for improved acoustic modelling: Recognition of disordered speech with sparse data
JP5454469B2 (en) Speech recognition dictionary creation support device, processing program, and processing method
JP2003535366A (en) Rank-based rejection for pattern classification
Chen et al. Active learning for domain classification in a commercial spoken personal assistant
JP3525082B2 (en) Statistical model creation method
JPS602998A (en) voice recognition device
JP4163979B2 (en) Speaker authentication device
JP3446666B2 (en) Apparatus and method for speaker adaptation of acoustic model for speech recognition
Kumaran et al. Attention shift decoding for conversational speech recognition.
JPH02300800A (en) Speech recognition device
JP2002196789A (en) Speech interactive device
JP3100208B2 (en) Voice recognition device
TW449734B (en) Keyword spotting method for mandarin speech without using filler models
JP2000122693A (en) Speaker recognizing method and speaker recognizing device
JPS6073592A (en) Speech recognition device for specific speakers
JPH01161399A (en) Method of suiting voice recognition apparatus to speaker