[go: up one dir, main page]

JPS6225798A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6225798A
JPS6225798A JP16508085A JP16508085A JPS6225798A JP S6225798 A JPS6225798 A JP S6225798A JP 16508085 A JP16508085 A JP 16508085A JP 16508085 A JP16508085 A JP 16508085A JP S6225798 A JPS6225798 A JP S6225798A
Authority
JP
Japan
Prior art keywords
data
spectral
channel
trend
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP16508085A
Other languages
English (en)
Inventor
納田 重利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP16508085A priority Critical patent/JPS6225798A/ja
Publication of JPS6225798A publication Critical patent/JPS6225798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 ’E、−D 11月の11を寥■だ!φ日■〔産業上の
利用分野〕 この発明は、例えば特定話者の音声を単語単位で認識す
るのに適用される音声認識装置に関する。
〔発明の概要〕
この発明は、音声認識装置において、種々の原因により
変動するスペクトルの傾向を補正するための傾向値を算
出し、この傾向値に基づいてスペクトルの傾向を平坦化
することにより話者の個人差や周囲のノイズ等に影響さ
れることがないようにして認識率の向上を図るようにし
たものである。
〔従来の技術〕
従来の音声El m&装置としては、例えば音声入力部
としてのマイクロホン、前処理回路、音響分析器、特徴
データ抽出器、登録パターンメモリ及びパターンマツチ
ング判定器等により構成されるものが知られている。
この音声認識装置は、マイクロホンから入力される音声
信号を前処理回路において、音声認識に必′Wとされる
帯域に制限し、A/D変換器によりディジタル音声信号
とし、このディジタル音声信号を音響分析器に供給する
そして、音響分析器において、音声信号を周波数スペク
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値として周波数スペクトルを正規化
して、フレーム周期毎にNチャンネルのスペクトルデー
タにより構成されるフレームデータを特徴データ抽出器
に供給する。
特徴データ抽出器は、隣り合うフレームデータの距離を
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ヘクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を等
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データプロ、り(標準パターン)
として記憶し、認識時においては、入力音声信号を前述
した処理により、入力特徴データブロック(入カバター
ン)とし、パターンマツチング判定器に供給する。そし
てパターンマツチング判定器において、人力特徴データ
ブロックと登録特徴データブロックとの間でパターンマ
ツチングを行う。
パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入力特徴データブロックを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とし、他の
登録特徴データブロックに関しても同様にマツチング距
離を算出して、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語を認識結果として出力する。
〔発明が解決しようとする問題点〕
しかし、音声信号の周波数スペクトルは話者の個人差及
び周囲ノイズ等の混入によってその傾向が大きく変化す
るもので、この傾向を正規化しないと認識率が極めて低
下する。
例えば第5図Aに示すフレームデータが第5図B示すよ
うなスペクトル傾向を持つノイズにより変形され、第5
図Cに示すようなフレームデータとされたとする。パタ
ーンマツチング判定器において、第5図Aに示すフレー
ムと第5図Cに示すフレームとの距離が求められると、
そのフレーム間距離は大きな値として計算され、マツチ
ング距離が大きな誤差を含んだものとされて誤認識され
る可能性が高くなる。このため、スペクトルの傾向変動
を補正して、話者の個人差や周囲ノイズに影響されるこ
とがないようにスペクトルの傾向を平坦化(正規化)す
ることが提案されている。
例えば最小二乗法等でスペクトル傾向を一次関数で推定
し正規化する手法や所定のチャンネル幅間で部分的に平
均化した補正関数で正規化する手法が提案されているが
、前者の場合は、計算が複雑なばかりか傾向が曲線を描
く場合に適用することができず、また、後者の場合は、
スペクトルエンベロープがなめらかな場合に適用するこ
とができない欠点を有するものであった。
従って、この発明の目的は、簡単でかつ高速に任意のス
ペクトル傾向を正確に正規化することができる手段を有
した音声認識装置を堤供することにある。
〔問題点を解決するための手段〕
この発明は、Nチャンネルの周波数スペクトルに変換さ
れ、Nチャンネルの周波数スペクトルの時系列データが
入力される音声認識装置において、時系列データの各フ
レームのスペクトルデータに関して所定のチャンネルよ
り低い全てのチャンネルのスペクトルデータの第1の平
均値を算出すると共に、所定のチャンネルより高い全て
のチャンネルまでのスペクトルデータの第2の平均値を
算出し、第1の平均値と、第2の平均値との平均値を所
定チャンネルに対応する傾向値として算出し、スペクト
ルデータから傾向値を相殺し、傾向11一層化されたス
ベ、り)〜ルデータを得て入力音声信′弓をIL 識す
るよう;こしたことを特徴とする音声J、こ識装置であ
る。
〔作用] スペクトルの傾向を正規化する手段としてスペクトル傾
向正規化器6が設けられ、スペクトル傾向正規化器6シ
こおいて、時系列フレームデータのフレーム毎に、チャ
ンネルlから所定のチャンネルn(1≦n≦N)までの
スペクトルデータの平均値が求められると共に、所定の
チャンネルnから最大手ヤンネルNまでのスペクトルデ
ータの平均値が求め:J +1.、夫々の平均値の更に
平均値が求められて所定のチャンネルnに関する傾向値
とされ、各チャンネルのスペクトルデータと対応する傾
向値との間において夫々減算処理がなされることによQ
つスペクトル傾向が平坦化される。
(実施例〕 以下、この発明の一実施例を図面を参照して説明する。
第)1ン1は、この発明の一実協例を示すもので、第1
図においてlが音声入力部としてのマイクロホンを示し
ている。
マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えば力。
トオフ周波数7.5KHzのローパスフィルタであり、
音声信号がフィルタ2において、音声認識に必要とされ
る7、5 にHz以下の帯域乙こ制限され、この音声信
号がアンプ3を介してA/D変換器4に供給される。
A/D変換器4は、例えば、サンプリング周波数12.
5K)lzの8ビツトA/D変喚器であり、音声信号が
A/D変換器4において、アナログ−ディジタル変換さ
れて、8ビツトのディジタル信号とされ、音響分析器5
に供給される。
音響分析器5は、音声信号を周波数スペクトルQこ変換
して、例えばNチャンネルのスペクトルデータ列を発生
するものである。音響分析器5において、音声信号が演
算処理により周波数スペクトルに変換され、例えば、対
数軸上で一定間隔となるN fil+1の131波数を
代表値とするスペクトルデータ列が得られる。従って、
音声信号がNチャンネルの離散的な周波数スペクトルの
大きさによって表現される。そして、単位時間(フレー
ム周!IJl)毎乙こ\千ふン不ルのスペクトルデータ
列が一つのフレームデータとして出力される。即ち、フ
レーム1川回毎に音声信号がN次元ヘクトルにより表現
さ礼るパラメータとじて切り出され、スペクトル傾′向
[T−硯化器6に供給される。
例え:、と、音声区間の柊・端に対応するフレームを1
とした場合、第2図に示すように、各々がチャンネル1
〜ヂヤン不ルNのデータにより構成されるフレームデー
タが1フレームからlフレームまでスペクトル傾向正規
化器6に供給される。
スペクトル傾向正規化器6において、順次供給されるフ
レームデータ毎にスペクトルデータの傾向[F規化処理
がなされる。即ち、フレームデータを構成する各チャン
ネルのスペクトルデータに関して(中間変動を補正する
傾向値F7が下記の弐により算出さ種、る。
つまり、チャンネル1から所定のチャンネルn(1≦n
≦N)までのスペクトルデータの平均値が求められると
共に所定のチャンI、ルnから最大チャンネルNまでの
スペクトルデータの平均値が求められ、夫々の平均値の
史に平均が求められ、1頃向イ直F1とされる。各チャ
ンネルのスペクトルデータと対応する傾向値F1との闇
において減算がなされることにより、スペクトル傾向が
平坦化され、話者の個人差及び周囲ノイズ等に影響され
ることがないようにスペクトル傾向が正規化される。l
フレームから1フレームまで全てのフレームに関して同
様に傾向正規化処理がなされ、傾向正規化されたフレー
ムデータが特徴データ抽出器7に供給される。
特徴データ抽出器7において、【Aり合うフレームデー
タの距離が計算される。例えば、各チャンネルに関して
スペクトルデータの差の絶対値が夫々求められ、その総
和かフレーム間距離とされる。
史に、フレーム間距離の総和が求められ、音声信号の始
端フレームから終端フレームまでのN次元ヘクトルの軌
跡長が求められる。そして最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長が等分割され、その分割点に対応したフレームデー
タのみが特徴データとして抽出され、話者の音声の発生
速度変動に影響されることがないように時間軸が正規化
されて出力される。
この特徴データが登録時においては、登録パターンメモ
リ8に供給され、登録特徴データブロックとして記憶さ
れる。認識時においては、入力音声信号が前述した処理
を経て、入力特徴データプロ、りとされ、パターンマツ
チング判定器9に供給され、入力特徴データブロックと
全ての登録特徴データブロックとの間においてパターン
マツチングが行われる。
パターンマツチング判定器9において、入力特徴データ
ブロックを構成するフレームと比較の対象とされる登録
特徴データプロ、りを構成するフレームとの間において
、フレーム間距離が求められ、その総和がマツチング距
離とされる。そして全ての登録特徴データブロックに関
して求められたマツチング距離のうちで最小でかつ十分
に距離が近いものと判断される登録特徴データブロック
に対応する単語が認識結果として出力される。
上述のこの発明の一実施例におけるスペクトル傾向正規
化器6の動作を第3図に示すフローチャートを参照して
説明する。
音響分析器5から順次フレームデータがスペクトル傾向
正規化器6に供給され、各フレーム毎にステップ■〜■
の処理が行われる。
まず、チャンネル番号を示す変数nが1に初期設定され
る(ステップ■)。ステップ■において、チャンネル1
に関する補正関数の計算処理がなされ、傾向変動を補正
する傾向値F、が 2(N+1−1)  ・l により求めらね、る。
そして、正規化処理がステップ■においてなされ、チャ
ンネル1のスペクトルデータS1から傾向値F1が減算
され、この減算結果がチャンネルlのスペクトルデータ
S、とされる。
ステップ■において、チャンネル番号を示す変数n(−
1)と最大チャンネル数Nとの比較がなされ、nがイン
クリメントされて(n=2)  (ステップ■)とされ
、チャンネル2に関する計算処理に移行する。
傾向変動を補正する傾向値F2が 2 1+1−2)  ・2 により求められ(ステップ■)、チャンネル2のスペク
トルデータS2から傾向値F2が減算され、この減算結
果がナヤンネル2のスペクトルデータS2とされる。(
スーシーソプ■)。
更にnがインクリメントされながら、上述したステップ
■〜■の処理が繰り返し行われ、所定チャンネルに関し
ての傾向値F7が 2 (N+1−n)  ・n により求められ(ステップ■)、所定チャンネルのスペ
クトルデータS、、から(中間(直F、、が減算され、
このM算結果が所定チャンネルのスペクトルデータS1
とされる。チャンネル番号を示す変数nが最大チャンネ
ル数Nとされ、最大チャンネルNに関して傾向正規化処
理がなされると、一つのフレームに関する計算が終了さ
れる。
例えば、第5図Aに示すようなチャンネル1〜チヤンネ
ル16の16個のスペクトルデータにより構成され、各
チャンネルのスペクトルデータの大きさが(8,12,
16,17,12,14,18,16,12゜10、 
6.12. 9. 8. 6. 5 )とされるフレー
ムがあるとすると、チャンネル1〜チヤンネル16まで
の傾向値F、、は第4図Bに示す曲線を描き、傾向正規
化されたスペクトルデータは傾向値F1を基イ桿として
平坦化され、第41個Cに示すものとされる。このよう
に全てのフレームに関して傾向正規化処理がなされ、固
有の特徴的なスペクトルデータが保存されながらスペク
トル1頃向が平坦化される。
尚、この発明の一実施例においては、スペクトル傾向正
規化器6を特徴データ抽出器7の前段に設ける構成とし
て説明したが、スペクトル傾向正規化器6を特徴データ
抽出器7の後段に設ける構成としても良い。また、この
発明は、ハードワイヤードの構成に限らず、マイクロコ
ンピュータ又はマイクロプログラム方式を用いてソフト
ウェアにより処理を行うようにしても良い。
〔発明の効果〕
この発明では、スペクトルの傾向を正規化する手段とし
てスペクトル傾向正規化器が設けられ、スペクトル傾向
正規化器において、時系列フレームデータのフレーム毎
にチャンネルlから所定のチャンネルn(1≦n≦N)
までのスペクトルデータの平均値が求められると共に、
所定のチャンネルから最大チャンネルNまでのスペクト
ルデータの平均値が求められ、夫々の平均値の更に平均
値が求められて所定のチャンフルnに関する傾向値とさ
れ、各チャンネルのスペクトルデータと対応する傾向値
との間において夫々減算処理がなされることによりスペ
クトル傾向が平坦化される。
従って、この発明に依れば、薄型でかつ高速に任意のス
ペクトル傾向を正確に正規化することができ、計算処理
時間が短縮されると共にE’2− Rh率が向上される
また、従来の音声認3all装置においては、話者を特
定し、かつ周囲ノイズ等の異音の混入のないように制限
されていたが、この発明に依ればその必要がなくなる。
【図面の簡単な説明】
第1図はこの発明の一実施例の全体の構成のブロック図
、第2図はこの発明の一実施例にぢける時系列フレーム
データのデータ構成の説明に用いる路線図、第3図はこ
の発明の一実施例におけるスペクトル傾向正規化器の動
作説明に用いるフローチャート、第4図A、第4図B及
び第4図Cはこの発明の一実施例におけるスペクトル傾
向正規化器の動作説明に用いる路線図、第5図は従来の
技術の説明に用いる路線図である。 図面における主要な符号の説明 1−マイクロホン、  5:音響分析器。 6:スペクトル傾向正規化器。 7:特徴データ抽出器。 8:登録パターンメモリ。 9;パターンマツチング判定器。 代理人   弁理士 杉 浦 正 知 全1本0楕べ 第1図 ■〜糸り)」フし−ム子′ピタ 第2図 動イ乍をと開用の70−十や−ト 第3図 第4図A 口 第4図B 第4図C

Claims (1)

  1. 【特許請求の範囲】 入力音声信号がNチャンネルの周波数スペクトルに変換
    され、上記Nチャンネルの周波数スペクトルの時系列デ
    ータが入力される音声認識装置において、 上記時系列データの各フレームのスペクトルデータに関
    して所定のチャンネルより低い全てのチャンネルの上記
    スペクトルデータの第1の平均値を算出すると共に、上
    記所定のチャンネルより高い全てのチャンネルの上記ス
    ペクトルデータの第2の平均値を算出し、上記第1の平
    均値と上記第2の平均値との平均値を上記所定のチャン
    ネルにおける傾向値として算出し、上記スペクトルデー
    タから上記傾向値を相殺し、傾向正規化されたスペクト
    ルデータを得て上記入力音声信号を認識するようにした
    ことを特徴とする音声認識装置。
JP16508085A 1985-07-26 1985-07-26 音声認識装置 Pending JPS6225798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16508085A JPS6225798A (ja) 1985-07-26 1985-07-26 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16508085A JPS6225798A (ja) 1985-07-26 1985-07-26 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6225798A true JPS6225798A (ja) 1987-02-03

Family

ID=15805490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16508085A Pending JPS6225798A (ja) 1985-07-26 1985-07-26 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6225798A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008274396A (ja) * 2007-04-06 2008-11-13 Osaka Titanium Technologies Co Ltd スポンジチタンの反応容器とこれを用いるスポンジチタンの製造方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008274396A (ja) * 2007-04-06 2008-11-13 Osaka Titanium Technologies Co Ltd スポンジチタンの反応容器とこれを用いるスポンジチタンの製造方法

Similar Documents

Publication Publication Date Title
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
US4516215A (en) Recognition of speech or speech-like sounds
US20250037730A1 (en) Speech enhancement method and apparatus
EP0240329A2 (en) Noise compensation in speech recognition
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
JPS6225798A (ja) 音声認識装置
CN112634937A (zh) 一种无需数字特征提取计算的声音分类方法
JPH0449952B2 (ja)
JPS6225799A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
JP2668877B2 (ja) 音源正規化方法
JPS63104099A (ja) 音声認識装置
JPH056193A (ja) 音声区間検出方式及び音声認識装置
JPS62113197A (ja) 音声認識装置
JPS6286400A (ja) 音声認識装置
JP2606211B2 (ja) 音源正規化方法
JPS63121100A (ja) 音声認識装置における特徴パタ−ン抽出方法
JPS6334477B2 (ja)
JPH0454960B2 (ja)
JP3023135B2 (ja) 音声認識装置
JPS6295598A (ja) 音声認識装置
JPS625299A (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
JPS6210697A (ja) 音声認識装置
JPH0461359B2 (ja)