[go: up one dir, main page]

JPS59111699A - Speaker recognition method - Google Patents

Speaker recognition method

Info

Publication number
JPS59111699A
JPS59111699A JP57221652A JP22165282A JPS59111699A JP S59111699 A JPS59111699 A JP S59111699A JP 57221652 A JP57221652 A JP 57221652A JP 22165282 A JP22165282 A JP 22165282A JP S59111699 A JPS59111699 A JP S59111699A
Authority
JP
Japan
Prior art keywords
speaker
registered
voice
memory
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57221652A
Other languages
Japanese (ja)
Inventor
奈良 泰弘
小林 敦仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57221652A priority Critical patent/JPS59111699A/en
Publication of JPS59111699A publication Critical patent/JPS59111699A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 発明の技術分野 本発明は話者認識方式に係り、特に複数の人間が発音し
た音声が登録されているときに入力音声がこの登録され
ている複数の人間の音声のうちどれともつとも類似して
いるものか認識できるようにしたものに関する。
DETAILED DESCRIPTION OF THE INVENTION Technical Field of the Invention The present invention relates to a speaker recognition system, and in particular, when the voices pronounced by a plurality of people are registered, the input voice is recognized as one of the registered voices of the plurality of people. It relates to something that can be recognized to be similar to any one of them.

技術の背景 現在の音声認識装置では9話者が自分の声で登録した辞
書を使用した場合には高い認識率が得られるが、誰の声
でも認識できるものではなく、他人の声で登録された辞
書を使用した場合にはがなり認識率が低下する。したが
って9例えば電話で伝達された声により音声認識を行う
場合には、第1段階として電話での話者が誰であるのか
、あるいは複数登録話者のうちの誰に類似しているのか
を認識する9話者認識が必要であった。
Background of the Technology Current speech recognition devices can achieve a high recognition rate when nine speakers use a dictionary in which their own voices are registered, but they cannot recognize anyone's voice, and are unable to recognize anyone else's voice. If you use a different dictionary, the recognition rate will decrease. Therefore,9 For example, when performing speech recognition using a voice transmitted over the telephone, the first step is to recognize who the speaker is on the telephone, or to which of multiple registered speakers the speaker is similar. 9 speaker recognition was required.

従来技術と問題点 従来の話者認識法には「話し方」に着目する方法と、「
音質」に着目する方法がある。前者は。
Conventional techniques and problems Conventional speaker recognition methods include methods that focus on "speech style" and methods that focus on "speech style";
There is a way to focus on sound quality. The former.

例えば発声速度やイン)・ネーションの変化パターンに
注目する方法であるが、簡単な手法でdあるものの、登
録辞書には音質に関連するデータが多く登録されており
「話し方」のデータには音質に関する分析が不充分のた
め、音声認識装置の使用に先立つ辞書選びには適さない
。また後者は発声者の声帯の形状や口腔等共鳴器管の形
状により決まる音質に注目する方法であるが、既に登録
しである複数話者のうちの1人が発声し、それが誰であ
るかを判定する用途には精度の点で不向きである反面、
登録していない新らしい話者の声が誰のものに似かよっ
ているかを判定するには好適である。
For example, there is a method that focuses on patterns of changes in speech rate and in)/nation, but although it is a simple method, registered dictionaries contain a lot of data related to sound quality, and data on "speech style" includes sound quality. Because there is insufficient analysis regarding this, it is not suitable for selecting a dictionary prior to using a speech recognition device. The latter is a method that focuses on the sound quality determined by the shape of the speaker's vocal cords and the shape of the resonator tube such as the oral cavity. Although it is unsuitable in terms of accuracy for determining whether
This is suitable for determining whose voice the voice of a new speaker who has not been registered resembles.

音質に注目した従来の話者認識技術には2発声音の音質
をフレーム間隔毎に分析して%全パラメータを抽出して
からこの特徴パラメータを時間軸方向にたし合わせ平均
化したものを話者毎に比較するというものがおる。しか
しこの方法では平均化したパターンに発声法の影響、す
なわち照星の長短のような、音質の特徴以外に話し方の
%徴がかなり含まれており、正確な認識には不充分であ
った。
Conventional speaker recognition technology that focuses on sound quality analyzes the sound quality of two utterances at each frame interval, extracts % total parameters, and then adds up and averages these characteristic parameters along the time axis. There is a way to compare each person. However, with this method, the averaged pattern contained considerable percentage characteristics of speaking style, such as the influence of vocalization method, such as the length and shortness of the sun, in addition to sound quality characteristics, and was insufficient for accurate recognition.

発明の目的 本発明の目的はこのような問題を改善するために登録話
者の音声をフレーム間隔毎に分析し・で得られるパラメ
ータをメモリに格納しておき、入力音声の1フレーム毎
に登録話者の誰の声に似ているかを判断し、入力音声の
発声後に誰の声に似ているフレームが多かったかによっ
て総合判断を行うことにより発声法の影響を受けずに、
高精度に発声者の声が誰のものに類似しているかを判定
できるようにした話者認識方式を提供することにらる。
Purpose of the Invention The purpose of the present invention is to solve this problem by analyzing the voice of a registered speaker at each frame interval, storing the obtained parameters in memory, and registering them for each frame of the input voice. By determining whose voice the speaker's voice resembles, and making a comprehensive judgment based on which frame resembles the voice of the most people after the input voice is uttered, the system is not affected by the vocalization method.
It is an object of the present invention to provide a speaker recognition method that can highly accurately determine to whom a speaker's voice is similar.

発明の構成 この目的を遂行するため2本発明の話者認識方式では、
入間が発音した音声を処理し2発音者の声が登録者の誰
のものに似ているかを判定する話者認識装置において、
複数の人間が発声した音声をフレーム周期で分析したパ
ラメータ時系列を話者毎に保持する細分類音種パターン
メモリを設け。
Structure of the Invention In order to accomplish this purpose, the speaker recognition method of the present invention has two steps:
In a speaker recognition device that processes the voice pronounced by Iruma and determines which of the registrants the voice of the two speakers resembles,
A subclassified sound type pattern memory is provided to store a parameter time series for each speaker, which is obtained by analyzing the voices uttered by multiple people at frame intervals.

発声者の音声をフレーム周期で分析したパラメータ時系
列と細分類音柚パターンメモリのパラメータ時系列との
相関を演算してフレーム周期毎KMも相関の大きい登録
話者名を選択する選択手段を設け9発声後最も多数回選
択された登録話者名を決定してこれを話者認識結果とし
て出力するようにしたことを特徴とする。
A selection means is provided for calculating the correlation between the parameter time series obtained by analyzing the speaker's voice in frame cycles and the parameter time series of the subclassified sound pattern memory, and selecting a registered speaker name with a large correlation in KM for each frame cycle. The present invention is characterized in that the name of the registered speaker selected most times after nine utterances is determined and this is output as the speaker recognition result.

発明の要点 本発明ではあらかじめ複数基の話者が発声した音声をフ
レーム間隔毎に分析して得られるパターン群を話者毎E
C整理してメモリ(細分類音種メモリと呼ぶ)に格納し
ておく。そして話者認識すべき発声者の1フレームに対
する分析結果と、細分類音種メモリの全項目と相関(類
似度)を計算し。
Summary of the Invention In the present invention, a group of patterns obtained by analyzing voices uttered by a plurality of speakers for each frame interval is analyzed in advance for each speaker.
C are organized and stored in a memory (referred to as subclassification note type memory). Then, the correlation (degree of similarity) is calculated between the analysis result for one frame of the speaker to be recognized and all the items in the subclassified sound type memory.

最も類似度の高いパターンの発声省名を記録する。Record the vocalization name of the pattern with the highest degree of similarity.

このような処理を話者認識すべき発声者の音声の全フレ
ームに対して行ない、最も高い頻度で選択された発声者
名を話者認識結果とするものである。
Such processing is performed on all frames of the voice of the speaker to be recognized, and the name of the speaker selected most frequently is used as the speaker recognition result.

発明の史&4月 本発明の一実施例を添付図面にもとづき詳述する。History of invention & April An embodiment of the present invention will be described in detail based on the accompanying drawings.

図中、1はマイクロフォン、2は16チヤネルのバンド
パス・フィルタ拳バンク(以下バンドパス・フィルタと
いう)、3はマルチプレクサ。
In the figure, 1 is a microphone, 2 is a 16-channel band-pass filter bank (hereinafter referred to as a band-pass filter), and 3 is a multiplexer.

4はアナログ・ディジタル変換器(以下A/D変換器と
いう)、5は細分類音種メモリ、6はチェビシェフノル
ム計算回路、7は最小値演算部、8はデコーダ、9は登
録話者頻度記録部、ioI′i最大値演算部181.8
2はそれぞれスイッチ部である。
4 is an analog-to-digital converter (hereinafter referred to as an A/D converter), 5 is a subclassification note type memory, 6 is a Chebyshev norm calculation circuit, 7 is a minimum value calculation unit, 8 is a decoder, 9 is a registered speaker frequency record part, ioI'i maximum value calculation part 181.8
2 are switch parts.

バンドパス・フィルタ2はマイクロフォン1から入力さ
れた音声信号をf□〜f1gの16の周波数に分析する
ものであって、スペクトルの概形を表わす16チヤ卆I
4のアナログ信号を出力するものである。
The bandpass filter 2 analyzes the audio signal input from the microphone 1 into 16 frequencies from f□ to f1g, and the bandpass filter 2 analyzes the audio signal input from the microphone 1 into 16 frequencies from f□ to f1g.
It outputs 4 analog signals.

マルチプレクサ3は例えば10m5のサンプル周期毎に
1回、チ1ヤネ1t−1〜16のアナログ信号をスキャ
ンすることにより時分割サンプルを行うものである。そ
してこの時分割された1アナログ信号出力はA/D変換
器4によりティジタル量に変換されて1例えば16ワー
ド/フレームのディジタル出力される。したがって入力
発声長を例えば1秒間とすると、1発声について 1o
oフレ−ム×16ワードー1600ワードが出力される
ことになる。
The multiplexer 3 performs time-division sampling by scanning the analog signals of the channels 1t-1 to 16, for example, once every 10 m5 sampling period. This time-divided one analog signal output is converted into a digital quantity by the A/D converter 4, and is output as a digital quantity of, for example, 16 words/frame. Therefore, if the input utterance length is, for example, 1 second, then 1 o for 1 utterance.
o frames x 16 words - 1600 words will be output.

細分類音種メモリ5は登録者の特徴を保持するメモリで
あって、各登録者毎にその特徴を保持するために登録者
毎にこれを用意する。したがってこの例のように登録者
が10名いる場合には細分類音m第1メモリ5−0〜細
分類音m第10メモリ5−9を用意する。
The subclassified note type memory 5 is a memory that holds the characteristics of registrants, and is prepared for each registrant in order to hold the characteristics of each registrant. Therefore, when there are 10 registrants as in this example, the first memory 5-0 for subclassified sound m to the tenth memory 5-9 for subclassified sound m are prepared.

チェビシェフノルム計算回路6はフレームの類似度を計
算するものであって ΣlI+−D+1 −1 を割算するものである。ここでI、はA/D変換器4か
ら出力される第1チヤネルを表わし、Dlはスイッチ部
S2を経由して伝達される細分類音種メモリ5に保持さ
れている1辞書項目の第1ワードを示す。この計算結果
はA/D変換器4から送出される認識音声の1フレーム
データ(16ワード)と、スイッチ部S2を経由して細
分類音種メモリ5から送出される1辞書項目(16ワー
ド)の距離を表わすととKなる。チェビシェフノルム計
算面゛路6は10m秒に1回、A/D変換器4から1フ
レ一ム分のデータが伝達されると、スイッチ部S2を細
分類音種第1メモリ5−0〜細分類音種第10メモリ5
−9側に順次切換え、100項目×10(m−iooo
項目に対する距離計算を行うが、最小値演算部7はこの
1000回の計算結果の最小値を演算し、その最小値を
与えるデータが細分類音種第1メモリ5−0〜細分類音
種第10メモリ5−9のいずれから出力されたものであ
るかを示す4ビツトの識別コードをフレーム毎に出力す
る。すな1わち最小値演算部7は10m秒毎に1回、4
ビツトの識別コードを出力することになる。
The Chebyshev norm calculation circuit 6 calculates the similarity of frames and divides ΣlI+−D+1 −1. Here, I represents the first channel output from the A/D converter 4, and Dl represents the first channel of one dictionary item held in the subclassification note type memory 5 transmitted via the switch section S2. Indicates word. This calculation result is one frame data (16 words) of the recognized speech sent from the A/D converter 4 and one dictionary item (16 words) sent from the subclassification sound type memory 5 via the switch section S2. The distance is expressed as K. Once every 10 msec, when one frame worth of data is transmitted from the A/D converter 4, the Chebyshev norm calculation plane circuit 6 switches the switch section S2 to subdivide note type first memories 5-0 to 5-0. Classification sound type 10th memory 5
-9 side, 100 items x 10 (m-iooo
The distance calculation for the item is performed, and the minimum value calculation unit 7 calculates the minimum value of the 1000 calculation results, and the data giving the minimum value is stored in the subclass note type first memory 5-0 to subclass note type No. A 4-bit identification code indicating from which of the 10 memories 5-9 the frame is output is output for each frame. In other words, the minimum value calculation section 7 calculates 4 times once every 10 msec.
The bit identification code will be output.

デコーダ8はこの4ビツトの識別コードを解読して、そ
れが例えば細分類音種第17モリ5−0から出力された
データと比較したときに最小値が付与されたものである
ことを判読したとき、登録話者頻度記録部9の第1カウ
ンタ9−0に出力を送り、これを+1し9例えば細分類
音種第2メモリ5−1から出力されたものと判読したと
き第2カウンタ9−1に出力を送る。このようにして第
1カウンタ9−0〜第10カウンタ9−9には各フレー
ム毎にもつとも類似した登録話者がカウントされること
になり、これらのカウンタのうち最大値のものを最大値
演算部10で検出することにより認識音声が、登録話者
のどれともつとも類似しているのかを判別できる。
The decoder 8 deciphered this 4-bit identification code, and when it compared it with, for example, the data output from the subclassified note type No. 17 mori 5-0, it determined that the minimum value was assigned. At this time, the output is sent to the first counter 9-0 of the registered speaker frequency recording unit 9, and it is incremented by 1.9 When the output is interpreted as being output from the second memory 5-1 for subclassified note types, the second counter 9 Send output to -1. In this way, the first counter 9-0 to the tenth counter 9-9 count at least similar registered speakers for each frame, and the maximum value among these counters is calculated as the maximum value. By detecting it in the unit 10, it can be determined whether the recognized speech is extremely similar to any of the registered speakers.

次に添付図面により本発明の詳細な説明する。The present invention will now be described in detail with reference to the accompanying drawings.

(1)  登録時 登録時にはまずスイッチ部S1を細分類音種第1メモリ
5−0と接続し、第1番目の登録話者に例えばあらかじ
め定められた音声を発音させる。この音声はマイクロフ
ォン1から入力されてバンドパス・フィルタ2により1
6チヤネルに周波数分析され、16チヤネルのアナログ
信3が出力される。マルチプレクサ3により10n1秒
のサンプル周期に1回チャネル1〜16のアナログ信月
をスキャンすることにより時分割サンプルを行ない。
(1) At the time of registration At the time of registration, the switch section S1 is first connected to the subclassified sound type first memory 5-0, and the first registered speaker is made to emit, for example, a predetermined voice. This voice is input from microphone 1 and passed through bandpass filter 2.
The frequency is analyzed into 6 channels, and 16 channels of analog signals 3 are output. Time-division sampling is performed by scanning the analog signals of channels 1 to 16 once in a sampling period of 10n1 seconds using the multiplexer 3.

この出力はA、/ D変換器4によりディジタル量に変
換される。このようにしてA/D変換器4は10m秒毎
に1チヤネル毎に1ワードの9合計して16ワードのデ
ィジタル出力を生ずることになり、これが細分類音種第
1メモリ5−0に登録されることになる。したがって入
力発声長が1秒の場合には、1発声について100フレ
ーム×16ワードー1600ワードが登録されることに
なる。次に第2番目の登録話者が登録する場合、スイッ
チ部S1を細分類音種第2メモリ5−1側に接続して同
様の入力処理が行われるので、細分類音種第2メモIJ
 5−1には第2番目の登録話者の特徴が保持される。
This output is converted into a digital quantity by an A/D converter 4. In this way, the A/D converter 4 generates nine digital outputs, one word for each channel every 10 msec, totaling 16 words, which are registered in the subclassified note type first memory 5-0. will be done. Therefore, if the input utterance length is 1 second, 100 frames x 16 words (1600 words) will be registered for one utterance. Next, when a second registered speaker registers, the switch section S1 is connected to the subclassified note type second memory 5-1 side and similar input processing is performed, so that the subclassified note type second memorandum IJ
5-1 holds the characteristics of the second registered speaker.

このようなことが各登録話者毎に行われるので、登録話
者が10名いるときには細分類音種第10メモリ5−9
までに各登録話者の特徴が保持されることになる。
This is done for each registered speaker, so when there are 10 registered speakers, the 10th subclassification sound type memory 5-9
The characteristics of each registered speaker will be maintained until then.

(2)認識時 入力音声が登録話者の誰ともつとも類似しているかとい
うことを認識する場合には、スイッチ部S1を開放状態
にする。このとき入力される音声は。
(2) When recognizing whether the input speech is similar to any of the registered speakers, the switch section S1 is opened. What is the audio input at this time?

登録話者が細分類音種メモリ5に特徴を登録するときに
発声したものと同じ音声であることが望ましい。マイク
ロフォン1から入力されたこの被認識音声は、上記(1
)と同様に16チヤネルに周波数分析され、これらが1
0m秒のサンプル周期にスキャンされてディジタル量に
変換され、1フレーム16ワードのディジタル出力がチ
ェビシェフノルム計算回路乙に伝達される。このときス
イッチ部S2は細分類音種第1メモリ5−0と接続して
1ワードづつこのメモリの読出しを行ない、チェビシェ
フノルム計算回路6にて上記!l l I、−D、 l
 −c−1 表現される財力を行う。すなわち被認識音声及び細分類
音種メモリから得られた1項目16ワードのデータのそ
れぞれ対応する項の差の絶対値の和が引算されることに
なり、この計算結果がA/D変換器4から送られる1フ
レーム・データ(16ワード)と細分類音種メモリ5か
ら送出される1辞書項目(16ワード)の距離を表わす
ことになる。チェビシェフノルム計算回路6は10m秒
に1回、  A/I)変換器4から1フレ一ム分のデー
タが伝達されると、スイッチ部S2を細分類音種第1メ
モリ5−0〜細分類音種第10メモリ5−9側に順次切
換えて、100項×10組に対する距離計算を行うが、
最小値演算部7はこの1000回の計算結果の最小値を
演舞してその最小値を与えるデータが細分類音種第1メ
モリ5−0〜細分類音種第10メモリ5−9のいずれか
ら出力されたものかを示す例えば4ビツトの識別コード
を出力する。
It is desirable that the voice is the same as that uttered by the registered speaker when registering the characteristics in the subclassification sound type memory 5. This voice to be recognized inputted from microphone 1 is as described above (1).
), the frequency is analyzed into 16 channels, and these are divided into 1
It is scanned at a sampling period of 0 msec and converted into a digital quantity, and the digital output of 16 words per frame is transmitted to the Chebyshev norm calculation circuit B. At this time, the switch section S2 connects to the subclassified note type first memory 5-0, reads out this memory word by word, and uses the Chebyshev norm calculation circuit 6 to read out the above! l l I, -D, l
-c-1 Perform the financial power expressed. In other words, the sum of the absolute values of the differences between the corresponding terms of each item of 16 words of data obtained from the speech to be recognized and the subclassified sound type memory is subtracted, and this calculation result is sent to the A/D converter. This represents the distance between one frame of data (16 words) sent from 4 and one dictionary item (16 words) sent from subclassification note type memory 5. Once every 10 msec, when one frame worth of data is transmitted from the A/I) converter 4, the Chebyshev norm calculation circuit 6 sends the switch section S2 to the subclassification note type first memory 5-0 to subclassification. The distance is calculated for 100 terms x 10 sets by sequentially switching to the 10th note type memory 5-9 side.
The minimum value calculation unit 7 performs the minimum value of the 1000 calculation results and determines whether the data giving the minimum value is from any of the subclass note type first memory 5-0 to subclass note type tenth memory 5-9. For example, a 4-bit identification code indicating whether the output has been output is output.

すなわち最小値演算部7は10m秒に1回この識別コー
ドを出力するが、この識別コードはデコーダ8で解読さ
れ、これに対応する第1カウンタ9−〇〜第10カウン
タ9−9が選択的に+1されする信号がデ・−ダ8より
出力される。このようにして被認識音声の一発声が終っ
たとき、最大値演算部10はこの登録話者頻度記録部9
を構成している第1カウンタ9−0〜第10カウンタ9
−9の値を比較して、その値も大きな値を示しているカ
ウンタ゛の番号を話者認識結果として出力するとともに
、第1カウンタ9−〇〜第10カウンタ9−9をリセッ
トする。
That is, the minimum value calculation section 7 outputs this identification code once every 10 msec, but this identification code is decoded by the decoder 8, and the corresponding first counter 9-0 to tenth counter 9-9 selectively output the identification code. The de/-der 8 outputs a signal that is incremented by +1. When one voice to be recognized has been uttered in this manner, the maximum value calculation section 10 calculates the registered speaker frequency recording section 9.
The first counter 9-0 to the tenth counter 9 forming the
-9 is compared, and the counter number whose value is also large is output as the speaker recognition result, and the first counter 9-0 to the tenth counter 9-9 are reset.

なお上記説明ではバンドパス拳フィルタを16  ・チ
ャネルのものを使用した例について説明したが勿論この
チャネル数はこれに限定されるものではなく適当なnチ
ャネルにしたり、ディジタル・フィルターバンクを使用
するとともでき、またフレーム周期を10m秒ではなく
他の適当な時間に変更することもできる。勿論登録話者
は10人に限定されるものではなく任意の複数基に選定
できる。
In the above explanation, an example was explained in which a bandpass filter with 16 channels was used, but of course the number of channels is not limited to this, and it is possible to use an appropriate n channel or use a digital filter bank. It is also possible to change the frame period to another suitable time instead of 10 msec. Of course, the number of registered speakers is not limited to ten, and any number of speakers can be selected.

また話者認識のときに発声する音声は、特定のものでも
、登録時と認識時とが異なるものであってもよい。
Furthermore, the voice uttered during speaker recognition may be specific or may be different at the time of registration and at the time of recognition.

発明の効果 本発明によれば例えば語尾発声が長い短いというような
発声法に影脣されることなく、音質にもとづき話者認識
を行うことができるので、高精度の話者認識を行うこと
ができる。したがって、これによりもつとも類似した登
録話者の辞書を利用して不特定話者の音声認識率を高め
ることが可能となる。また電話を使用して入力される話
者に対しても2本発明により前処理を行って類似登録話
者を選定し、その後にその登録辞書を使用することによ
り高精度の音声認識を行うことができる。
Effects of the Invention According to the present invention, it is possible to perform speaker recognition based on sound quality without being affected by vocalization methods such as having long and short final utterances, so that highly accurate speaker recognition can be performed. can. Therefore, this makes it possible to improve the speech recognition rate for unspecified speakers by using dictionaries of similar registered speakers. Furthermore, the present invention performs preprocessing on speakers input using a telephone to select similar registered speakers, and then performs highly accurate speech recognition by using the registered dictionary. I can do it.

【図面の簡単な説明】[Brief explanation of drawings]

添付図面は本発明の一実施例構成図である。 図中、1はマイクロフォン、2はバンドパス・フィルタ
・バンク、3はマルチプレクサ、4はアナログ・ディジ
タル変換器、5は細分類音種メモリ、6はチェビシェフ
ノルム計算回路、7は最小値演算部、8はデコーダ、9
は登録話者頻度記録部、10は最大値演算部T Sl 
+ ”’2はそれぞれスイッチ部である。 特許出願人 富士通株式会社 代理人弁理士 山 谷 晧 榮
The accompanying drawing is a configuration diagram of an embodiment of the present invention. In the figure, 1 is a microphone, 2 is a band-pass filter bank, 3 is a multiplexer, 4 is an analog-to-digital converter, 5 is a subclassified note type memory, 6 is a Chebyshev norm calculation circuit, 7 is a minimum value calculation unit, 8 is a decoder, 9
10 is a registered speaker frequency recording unit, and 10 is a maximum value calculation unit TSL.
+ ”'2 are switch parts respectively. Patent applicant: Fujitsu Limited, representative patent attorney Akira Yamatani Sakae

Claims (1)

【特許請求の範囲】 人間が発音した音声を処理し9発音者の声が登録者の誰
のものに似ているかを判定する話者認識装置において、
複数の人間が発声した音声をフレーム周期で分析したパ
ラメータ時系列を話者毎に保持する細分類音種パターン
メモリを設け2発声者の音声をフレーム周期で分析した
パラメータ時系列と細分類音種パターンメモリのパラメ
ータ時系列との相関を演算してフレーム周期毎に最も相
関の大きい登録話者名を選択する選択手段を設け。 発声後爪も多数回選択された登録話者名を決定してこれ
を話者認識結果として出力するようにしたことを%鑓と
する話者認識方式。
[Claims] A speaker recognition device that processes speech produced by a human and determines which of the registrants the speaker's voice resembles,
A subclassification sound type pattern memory is provided to store a parameter time series for each speaker, which is obtained by analyzing the voices of multiple people at a frame period. A selection means is provided for calculating the correlation with the parameter time series of the pattern memory and selecting the registered speaker name with the highest correlation for each frame period. This speaker recognition method is characterized by determining the name of a registered speaker who has been selected many times after utterance and outputting this as the speaker recognition result.
JP57221652A 1982-12-17 1982-12-17 Speaker recognition method Pending JPS59111699A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57221652A JPS59111699A (en) 1982-12-17 1982-12-17 Speaker recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57221652A JPS59111699A (en) 1982-12-17 1982-12-17 Speaker recognition method

Publications (1)

Publication Number Publication Date
JPS59111699A true JPS59111699A (en) 1984-06-27

Family

ID=16770129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57221652A Pending JPS59111699A (en) 1982-12-17 1982-12-17 Speaker recognition method

Country Status (1)

Country Link
JP (1) JPS59111699A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02502606A (en) * 1987-12-09 1990-08-23 ビーチヤム・グループ・ピーエルシー new substance
JPH03276199A (en) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol Speaker recognizing system
JPH03276200A (en) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol Speaker recognizing system
JPH04293097A (en) * 1991-03-22 1992-10-16 Sharp Corp Speaker identification device
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722300A (en) * 1980-07-15 1982-02-05 Fujitsu Ltd Word voice recognizing and processing system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02502606A (en) * 1987-12-09 1990-08-23 ビーチヤム・グループ・ピーエルシー new substance
JPH03276199A (en) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol Speaker recognizing system
JPH03276200A (en) * 1990-03-27 1991-12-06 Agency Of Ind Science & Technol Speaker recognizing system
JPH04293097A (en) * 1991-03-22 1992-10-16 Sharp Corp Speaker identification device
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches

Similar Documents

Publication Publication Date Title
US4910784A (en) Low cost speech recognition system and method
US4811399A (en) Apparatus and method for automatic speech recognition
US5465318A (en) Method for generating a speech recognition model for a non-vocabulary utterance
US5167004A (en) Temporal decorrelation method for robust speaker verification
US4633499A (en) Speech recognition system
US4087632A (en) Speech recognition system
EP1159737B1 (en) Speaker recognition
JPH05232984A (en) Reference pattern forming method for voice analysis
JPH03501657A (en) Pattern recognition error reduction device
CA1329275C (en) Speaker identification
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPS59111699A (en) Speaker recognition method
US5751898A (en) Speech recognition method and apparatus for use therein
AU752317B2 (en) Cohort model selection apparatus and method
WO1983002190A1 (en) A system and method for recognizing speech
JP3049235B2 (en) Speech recognition system using complex grammar network
JPS645320B2 (en)
CN107945807B (en) Voice recognition method and system based on silence run
JP2792720B2 (en) Voice recognition device
JP2577891B2 (en) Word voice preliminary selection device
JPS59224900A (en) Voice recognition method
JPH04271397A (en) Voice recognizer
JPH02254498A (en) Phoneme classifying/symbolizing device
JPH06100920B2 (en) Voice recognizer
JPS59189398A (en) Continuous speech recognition method