JPS58130396A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS58130396A JPS58130396A JP57012808A JP1280882A JPS58130396A JP S58130396 A JPS58130396 A JP S58130396A JP 57012808 A JP57012808 A JP 57012808A JP 1280882 A JP1280882 A JP 1280882A JP S58130396 A JPS58130396 A JP S58130396A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- feature vector
- sound
- feature
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
不発明は入力された音声係号のせ素を尚梢寝にg暉して
効率良く且つ経断的に上tir”、 k )” 18甥
を1障できる祈声昭誠装−二vCドする〔発明の技術的
背景〕 従来、特定話者を対尿としたり自相程度の半飴g鍬で9
丁、入力音声・ゼターンと、予め盆継された標準ノセタ
ーンとの率詣率位でのノイターン照合により、尚い!g
敵率が得らrLるよ′)&L ’/xっ゛(@た。しか
し、数十単語t−酩繊灼家としたり・あるいに不特定話
者を肘板とした音声誌隊では、単語坐位での餡鍼処理、
宇宙が非常VC囚録である。この為、音声の猶成登系で
ある音節や音素単位での嶋織を行い、しかるのちこれに
よって得られたb′曲情報と単略辞誓とを照合して単語
を略−ぜんとする廿声略陳鞍1幌の開発が強く望まれて
いる。%にこのような音声脳誠において、1繊の基本年
位全1素と1れは、理−的には20柚@程度のit系的
峰粕米を基本として、あらゆる音肖を認識することが―
1症となる。これ故、音声の分析やi塞防繊を数例に精
度良く行うかが極めてN要な課題となっている。
効率良く且つ経断的に上tir”、 k )” 18甥
を1障できる祈声昭誠装−二vCドする〔発明の技術的
背景〕 従来、特定話者を対尿としたり自相程度の半飴g鍬で9
丁、入力音声・ゼターンと、予め盆継された標準ノセタ
ーンとの率詣率位でのノイターン照合により、尚い!g
敵率が得らrLるよ′)&L ’/xっ゛(@た。しか
し、数十単語t−酩繊灼家としたり・あるいに不特定話
者を肘板とした音声誌隊では、単語坐位での餡鍼処理、
宇宙が非常VC囚録である。この為、音声の猶成登系で
ある音節や音素単位での嶋織を行い、しかるのちこれに
よって得られたb′曲情報と単略辞誓とを照合して単語
を略−ぜんとする廿声略陳鞍1幌の開発が強く望まれて
いる。%にこのような音声脳誠において、1繊の基本年
位全1素と1れは、理−的には20柚@程度のit系的
峰粕米を基本として、あらゆる音肖を認識することが―
1症となる。これ故、音声の分析やi塞防繊を数例に精
度良く行うかが極めてN要な課題となっている。
さて、酔声#i周知のように母音と子音との2柚類の材
木により惧敗さt’している。母音は比較的女定で持続
時間が長く、その%徴は時間的変化よりもむしろ周数数
スペクトルにより決にδれる・−力子音の%似に、母音
に軟べて伯号震化が早く、均阪畝スペクトルの動的ノリ
−ンによく机われる。
木により惧敗さt’している。母音は比較的女定で持続
時間が長く、その%徴は時間的変化よりもむしろ周数数
スペクトルにより決にδれる・−力子音の%似に、母音
に軟べて伯号震化が早く、均阪畝スペクトルの動的ノリ
−ンによく机われる。
ところが従来では、音声のが析帖米をフレーム(以下同
じ)°に分割し、lフレーム分の周数数スペクトル等の
特徴ノ臂うメータたけt++賊ベクトルとして甘木g#
を行っているので、4虹に対してはその酩藏率が良好で
あるが、千〇の認識雇が極めて悪いと云う問題がめった
。ft(−万では、音声46号を分析して得ら7t 6
w lHl・周波数スヘクトル、fターン骨の2フレ一
ム以上に亘る%似)ぐラメータを音素ベクトルとしてム
索17識する手段力【提唱されている。然し乍ら、特徴
ベクトルの次元数がφ大となり、ぞのIkc!陳処理に
幻する演其麺が非*に多くなると五つ問題がある。特に
統計的手法によって上記紹繊処理を行う場合、計算Vが
美大となって夫用件VC欠けると云う問題が生じた〇 〔発明の目的〕 本兄四はこのような争悄奮考慝してなさノ[罠もので、
その目的とするところは、首戸が市する性質を有効に利
用して廿脚1d号の首座でめる母音および子音tそれぞ
れ聞易に且つ相凝艮〈認識して効率の良い音声1繊を行
い得る実用性の高い音声ii4装置を提供することKあ
る。
じ)°に分割し、lフレーム分の周数数スペクトル等の
特徴ノ臂うメータたけt++賊ベクトルとして甘木g#
を行っているので、4虹に対してはその酩藏率が良好で
あるが、千〇の認識雇が極めて悪いと云う問題がめった
。ft(−万では、音声46号を分析して得ら7t 6
w lHl・周波数スヘクトル、fターン骨の2フレ一
ム以上に亘る%似)ぐラメータを音素ベクトルとしてム
索17識する手段力【提唱されている。然し乍ら、特徴
ベクトルの次元数がφ大となり、ぞのIkc!陳処理に
幻する演其麺が非*に多くなると五つ問題がある。特に
統計的手法によって上記紹繊処理を行う場合、計算Vが
美大となって夫用件VC欠けると云う問題が生じた〇 〔発明の目的〕 本兄四はこのような争悄奮考慝してなさノ[罠もので、
その目的とするところは、首戸が市する性質を有効に利
用して廿脚1d号の首座でめる母音および子音tそれぞ
れ聞易に且つ相凝艮〈認識して効率の良い音声1繊を行
い得る実用性の高い音声ii4装置を提供することKあ
る。
〔発明の1tt要〕
本発明に係る音声認g11!装置は入力された音声信号
を分析して、その特徴ノ臂うメータの時系列X =X1
1 x2 m ”・# xHt−求め、その1フレーム
の特徴ノ臂うメータxiを時間的変動を含まない第1の
音素特徴ベクトルとして求め前記音声信号の特徴/fラ
メータの時系列Y = 71 m ’12 m・・・y
oの複数のフレームに亘る特徴ノfラメータ)’i’F
i−1’〜’Fi−kを時間的変動を含む第2の音素特
徴ベクトルとして求め、これらの材木特徴ベクトルと音
素辞書に登録された音素との類似度を計算する等してf
累畷識したのち・ この音累蛯繊された音素時系列ノ母
ターンと単語辞書との照合により音声mmt−行うよう
にしたことを特徴とする本のである。
を分析して、その特徴ノ臂うメータの時系列X =X1
1 x2 m ”・# xHt−求め、その1フレーム
の特徴ノ臂うメータxiを時間的変動を含まない第1の
音素特徴ベクトルとして求め前記音声信号の特徴/fラ
メータの時系列Y = 71 m ’12 m・・・y
oの複数のフレームに亘る特徴ノfラメータ)’i’F
i−1’〜’Fi−kを時間的変動を含む第2の音素特
徴ベクトルとして求め、これらの材木特徴ベクトルと音
素辞書に登録された音素との類似度を計算する等してf
累畷識したのち・ この音累蛯繊された音素時系列ノ母
ターンと単語辞書との照合により音声mmt−行うよう
にしたことを特徴とする本のである。
即ち、音声信号を帯域フィルタ処理、離散的フーリエ変
換処理、ケプストラム分析処理、線形子側分析処理等し
て、その特徴パラメータの時系列X”Xl 、X2 m
”’ a XH−Y==y、 l F2#・・・m7
Hを求める。但し、これらの特徴・母うメータの時系列
X、Yは同じものであってもよい。
換処理、ケプストラム分析処理、線形子側分析処理等し
て、その特徴パラメータの時系列X”Xl 、X2 m
”’ a XH−Y==y、 l F2#・・・m7
Hを求める。但し、これらの特徴・母うメータの時系列
X、Yは同じものであってもよい。
しかして特徴/fラメータの時系列Xのうちの1セグメ
ントの特徴パラメータxiを第1のf木特徴ベクトルと
して抽出し、且つ%徴パラメータの時系列Yのうちの板
数セメ1フ1m亘る特徴・母うメータytayi−t’
〜yl−2を第2の音素特徴ベクトルとして抽出してそ
の音素g繊を行ったのち、音声認瞭を行うようにしたも
のである。特に上記第1の音素特徴ベクトルから母音又
は鼻音を認識し、且つ第2の音3に特徴ベクトルから子
音および半母音t−M繊す゛ることによって、その―繊
率の向上を図るようにしたことを特徴としている。
ントの特徴パラメータxiを第1のf木特徴ベクトルと
して抽出し、且つ%徴パラメータの時系列Yのうちの板
数セメ1フ1m亘る特徴・母うメータytayi−t’
〜yl−2を第2の音素特徴ベクトルとして抽出してそ
の音素g繊を行ったのち、音声認瞭を行うようにしたも
のである。特に上記第1の音素特徴ベクトルから母音又
は鼻音を認識し、且つ第2の音3に特徴ベクトルから子
音および半母音t−M繊す゛ることによって、その―繊
率の向上を図るようにしたことを特徴としている。
従って本発明によれば・音声1g号が南する性質を有効
に利用して、その母音および子音・半母音をそ八ぞれ精
度良く認識することが可能とな9、従って音声信号の餡
織率の同上を図ることが可能となる。しかも母音に対し
ては、その1フレーム毎に周波数分解能を高くして、ま
た子音・半母音に対しては周波数分解能を低くした数フ
レームに亘る音素の特徴ベクトルをそれぞれ用いて認識
を行うことにょシ、計算量の増大を招くことなく精度の
高い認識を行うことが可能となる。
に利用して、その母音および子音・半母音をそ八ぞれ精
度良く認識することが可能とな9、従って音声信号の餡
織率の同上を図ることが可能となる。しかも母音に対し
ては、その1フレーム毎に周波数分解能を高くして、ま
た子音・半母音に対しては周波数分解能を低くした数フ
レームに亘る音素の特徴ベクトルをそれぞれ用いて認識
を行うことにょシ、計算量の増大を招くことなく精度の
高い認識を行うことが可能となる。
以下、図面を参照して本発明の一実施例につき説明する
。
。
第1図は実施例装置の概略構成図である。入力された音
声信号は、本装置の主要部である分析回路1に入力され
、帯域フィルタ処理や離散的フーリエ変換処理、冬プス
トラム分析処理、線形予測分析処理等の信号分析処理が
なされる。
声信号は、本装置の主要部である分析回路1に入力され
、帯域フィルタ処理や離散的フーリエ変換処理、冬プス
トラム分析処理、線形予測分析処理等の信号分析処理が
なされる。
この分析処理は、例えばwJ2図(、)に示すように分
割された各セグメントの周波数スペクトルを求めたり、
また同図(b)に示すように複数のセグメントに亘る時
間・周波数スペクトルをその特徴ノ母うメータとして求
めるものである。この分析回路1は、具体的には後述す
るように・例えば第3図あるいは第4図に示す如く構成
される。
割された各セグメントの周波数スペクトルを求めたり、
また同図(b)に示すように複数のセグメントに亘る時
間・周波数スペクトルをその特徴ノ母うメータとして求
めるものである。この分析回路1は、具体的には後述す
るように・例えば第3図あるいは第4図に示す如く構成
される。
しかして、分析回路IFi、入力音声1M号の特徴・臂
うメータの時系列X==x、エ 、〜axN’に2 得ており、第2図(&)に示されるようなその1セグメ
ントの特徴ノ母うメータX1を第1の舊索%徴ベクトル
として音素特徴ベクトルメモリに一時記憶し、これを類
似度計算回路2に出力している。
うメータの時系列X==x、エ 、〜axN’に2 得ており、第2図(&)に示されるようなその1セグメ
ントの特徴ノ母うメータX1を第1の舊索%徴ベクトル
として音素特徴ベクトルメモリに一時記憶し、これを類
似度計算回路2に出力している。
また同時に分析回路1は、入力音声信号の持家パラメー
タの時系列Y=y、、y2〜yNを得、その複数セグメ
ントに亘る第2図(b)に示されるような%徴・fラメ
ータ)’1−F五−1.〜yi−kを纂2の音素特徴ベ
クトルとして特徴ベクトルメモリに一時記憶して、これ
を類似度計算回路3に出力している。っ筐り、入力音声
信号の二種類のf累特徴・やラメータを求めている。
タの時系列Y=y、、y2〜yNを得、その複数セグメ
ントに亘る第2図(b)に示されるような%徴・fラメ
ータ)’1−F五−1.〜yi−kを纂2の音素特徴ベ
クトルとして特徴ベクトルメモリに一時記憶して、これ
を類似度計算回路3に出力している。っ筐り、入力音声
信号の二種類のf累特徴・やラメータを求めている。
しかして類似度計算回路2u、を素辞書4 VC予め登
録された母音標準音素ノ母ターンと、fJrJ記音声信
号の音素特徴・母うメータxiとの類似度を計算して、
母音音素及び鼻音の−aを行っている・また類似度計算
回路3は、音素辞−1i5に登録された子音および半母
音の標準ノ譬ターンと前記入力音声信号の音素特徴ノ臂
うメータF1 ’Fi−1’〜#Fi−にとの類似度を
計算して、子音および半母音音素のy*t−行っている
。そして、これらの類似度計算回路2.3で認識された
前記音声信号の音素1繊結果の時系列は、つまり母音お
よび子音からなる音素・臂ターン(例えば音素記号系列
又は類似度値をそのまま)は、音素パターンメモリ6に
格納されたのち照合回路1に供給され、単語辞書8に登
録された単語標準ノ4ターンとの類似度針算勢により単
語照合されて音声認識される。
録された母音標準音素ノ母ターンと、fJrJ記音声信
号の音素特徴・母うメータxiとの類似度を計算して、
母音音素及び鼻音の−aを行っている・また類似度計算
回路3は、音素辞−1i5に登録された子音および半母
音の標準ノ譬ターンと前記入力音声信号の音素特徴ノ臂
うメータF1 ’Fi−1’〜#Fi−にとの類似度を
計算して、子音および半母音音素のy*t−行っている
。そして、これらの類似度計算回路2.3で認識された
前記音声信号の音素1繊結果の時系列は、つまり母音お
よび子音からなる音素・臂ターン(例えば音素記号系列
又は類似度値をそのまま)は、音素パターンメモリ6に
格納されたのち照合回路1に供給され、単語辞書8に登
録された単語標準ノ4ターンとの類似度針算勢により単
語照合されて音声認識される。
即ち、本装置1lVcあっては、音声信号の分析された
%徴ノ4ラメータの、例えば1フレームの周波数スペク
トルからなる特徴ノ4ラメータXlにより、音素静置4
を用いて上記音声信号の音素である母音が認識される。
%徴ノ4ラメータの、例えば1フレームの周波数スペク
トルからなる特徴ノ4ラメータXlにより、音素静置4
を用いて上記音声信号の音素である母音が認識される。
また分析されたQI徴ノぐラメータの、例えば被数フレ
ームに亘る2次元的な時間・周波数スペクトルからなる
%値パラメータ71 e yi−1〜”i−kによシ、
音素辞書5を用いて上記音声信号の音素である子音およ
び半母音が認識される。そして、これらの部数され次母
音・子音および半母音からなる音素ノ9ターン4を用い
て、単語照合がなされ、音声M&が行われることになる
。
ームに亘る2次元的な時間・周波数スペクトルからなる
%値パラメータ71 e yi−1〜”i−kによシ、
音素辞書5を用いて上記音声信号の音素である子音およ
び半母音が認識される。そして、これらの部数され次母
音・子音および半母音からなる音素ノ9ターン4を用い
て、単語照合がなされ、音声M&が行われることになる
。
さて、前記した分析回路1は、例えば−3図に示すよう
に構成される。この回路構成は、帯域フィルタを介した
筒波数分析処理を行うものである・例えば入力音声信号
はA/D亥侠器11を介して例えば10 m S@a毎
にディノタルf侠して取込まれ、並列的に設けられた複
数の帯域通過フィルタ(BPii’、〜BPF’、6)
群12に入力されている。これらのフィルタ群12は、
音声入力信号の周波数帯域を16分割してなる相互に異
なった狭帯域の周波数通過特性を有するものである。し
かしてこれらのフィルタ912の各フィルタを介した各
周波数帯域の信号取分は、絶対値二乗回路群13を各別
に介して抽出され次のち、低域通過フィルタ(LPF
)群14にてそ゛れぞれフィルタリングされて出力され
る。そして、これらの各周波数帯域のfi!r号成分X
11.!H〜!、61は、音素特徴ベクトルメモリ15
に格納される。従って、このベクトルメモリ15には成
る時点1の1フレームの周波数スペクトルを示す%徴・
ンラメータx1が格納されることになる。
に構成される。この回路構成は、帯域フィルタを介した
筒波数分析処理を行うものである・例えば入力音声信号
はA/D亥侠器11を介して例えば10 m S@a毎
にディノタルf侠して取込まれ、並列的に設けられた複
数の帯域通過フィルタ(BPii’、〜BPF’、6)
群12に入力されている。これらのフィルタ群12は、
音声入力信号の周波数帯域を16分割してなる相互に異
なった狭帯域の周波数通過特性を有するものである。し
かしてこれらのフィルタ912の各フィルタを介した各
周波数帯域の信号取分は、絶対値二乗回路群13を各別
に介して抽出され次のち、低域通過フィルタ(LPF
)群14にてそ゛れぞれフィルタリングされて出力され
る。そして、これらの各周波数帯域のfi!r号成分X
11.!H〜!、61は、音素特徴ベクトルメモリ15
に格納される。従って、このベクトルメモリ15には成
る時点1の1フレームの周波数スペクトルを示す%徴・
ンラメータx1が格納されることになる。
またlI前記各周波数帯域の信号成分は、隣接する4つ
の帯域毎にグルーピングされ、加算器16−1,16−
2 # 16−5 a 164によりそれぞれ加算され
ている。従って加算器16はそれぞれ、前記16分割さ
れた周波数帯域を統合してなる粗し分割周波数帯域の信
号成分を得ることになる・前記822群12による分割
周波数帯域をf、。
の帯域毎にグルーピングされ、加算器16−1,16−
2 # 16−5 a 164によりそれぞれ加算され
ている。従って加算器16はそれぞれ、前記16分割さ
れた周波数帯域を統合してなる粗し分割周波数帯域の信
号成分を得ることになる・前記822群12による分割
周波数帯域をf、。
f2〜’14とした場合、加算器16はF、冨f、+
f2+ f3+ f4 F’2=f5+f、+f、+f8 F、=f、+f、。+’11 +’12、F4 ” ’
15+’14+’15+’16なる粗い4分割された周
波数帯域の信号成分を得ることになる。そして、これら
の加算器16の出力信号は、4セグメントの音素特徴ベ
クトルメモリー1に順次格納される。従って、このベク
トルメモリー7には周波数分割ノやターンが粗いけれど
も、時間的要素が含$れる時間・周波数スペクトルの特
徴情報が格納されることになる。
f2+ f3+ f4 F’2=f5+f、+f、+f8 F、=f、+f、。+’11 +’12、F4 ” ’
15+’14+’15+’16なる粗い4分割された周
波数帯域の信号成分を得ることになる。そして、これら
の加算器16の出力信号は、4セグメントの音素特徴ベ
クトルメモリー1に順次格納される。従って、このベク
トルメモリー7には周波数分割ノやターンが粗いけれど
も、時間的要素が含$れる時間・周波数スペクトルの特
徴情報が格納されることになる。
かくしてここにベクトルメモリー5には、母音認識に適
した周波数分割の細かい周波数スペクトルからなる1次
元の特徴ノJ?ラメータxiが格納され、またベクトル
メモリー7には、鳩波数分割が粗いが時間経過要素を含
む時間・周波数スペクトルからなる子音および半母音の
部数に適した2次元の特徴ノ臂うメータ)’+)J1〜
yi−□が格納されることになる。そして、特にこれら
の特徴ベクトルの1!系数を等しく足めておけ社、これ
らの特徴イ母うメータを用いた音素認識処理の計算量が
さ#lど増えることがないので、実用上極めて有利であ
る。史には、音声信号の性質を有効に利用してt素紹繊
を、母音および子音・半母音についてそれぞれ行うので
、全体としてその計算量の削減を図り得る。またこのよ
うな母音と子音・半母音に対する各別の音素#It緻処
理によシ、その略識率の格段の向上を図ることが可能と
なる。
した周波数分割の細かい周波数スペクトルからなる1次
元の特徴ノJ?ラメータxiが格納され、またベクトル
メモリー7には、鳩波数分割が粗いが時間経過要素を含
む時間・周波数スペクトルからなる子音および半母音の
部数に適した2次元の特徴ノ臂うメータ)’+)J1〜
yi−□が格納されることになる。そして、特にこれら
の特徴ベクトルの1!系数を等しく足めておけ社、これ
らの特徴イ母うメータを用いた音素認識処理の計算量が
さ#lど増えることがないので、実用上極めて有利であ
る。史には、音声信号の性質を有効に利用してt素紹繊
を、母音および子音・半母音についてそれぞれ行うので
、全体としてその計算量の削減を図り得る。またこのよ
うな母音と子音・半母音に対する各別の音素#It緻処
理によシ、その略識率の格段の向上を図ることが可能と
なる。
さて、第4図はケグストラム分析を行う分析回路1の構
成例を示すものである。この場合KFi%A/Df換器
21t−介して入力された音声信号を離散的フーリエ変
換回路(DF’T ) 2 jを介して変換し、その出
力を絶対値回路23および対数変換回路24を介して抽
出する。そして、この抽出出力を離散的フーリエ逆変換
回路(IDFT)25を介してf換処理し、前記音声信
号の元42)%徴ノ臂うメータとして音素特徴ベクトル
メモリ26に格納し、筐た数フレームに亘るケプスをラ
ム係数C1i−cki、c2.−1〜cki−3等ヲ2
次元Of粂4を像、つまり動的な特徴I9ラメータと、
して音素特徴ベクトルメモリ27にに次格納するようK
すれ祉よい。
成例を示すものである。この場合KFi%A/Df換器
21t−介して入力された音声信号を離散的フーリエ変
換回路(DF’T ) 2 jを介して変換し、その出
力を絶対値回路23および対数変換回路24を介して抽
出する。そして、この抽出出力を離散的フーリエ逆変換
回路(IDFT)25を介してf換処理し、前記音声信
号の元42)%徴ノ臂うメータとして音素特徴ベクトル
メモリ26に格納し、筐た数フレームに亘るケプスをラ
ム係数C1i−cki、c2.−1〜cki−3等ヲ2
次元Of粂4を像、つまり動的な特徴I9ラメータと、
して音素特徴ベクトルメモリ27にに次格納するようK
すれ祉よい。
このケプストラム分析は、烏速フーリエ変換(FFT
)のアルプリズムに基づいてなされるもので、音声信号
の周波数スペクトルの上路特性を抽出するのに好適であ
る。しかして、ベクトルメモリ26に格納された16次
のケプストラム係数は、音声信号の細かく分析されたス
ペクトル飽絡特性を示す。従って母音ヲ蛤瞳するに好適
な特徴・母うメータであり、これ音用いて効率良く母音
認識することが可能となる。また上記ケグストラムは、
その係数が低次である程、スペクトルの大局的な情報を
示す。従って4次程度のケグストラム係数を数フレーム
に亘って抽出すれば、音声信号の動的な性質1[わす非
常に有用な特徴パラメータとなる。
)のアルプリズムに基づいてなされるもので、音声信号
の周波数スペクトルの上路特性を抽出するのに好適であ
る。しかして、ベクトルメモリ26に格納された16次
のケプストラム係数は、音声信号の細かく分析されたス
ペクトル飽絡特性を示す。従って母音ヲ蛤瞳するに好適
な特徴・母うメータであり、これ音用いて効率良く母音
認識することが可能となる。また上記ケグストラムは、
その係数が低次である程、スペクトルの大局的な情報を
示す。従って4次程度のケグストラム係数を数フレーム
に亘って抽出すれば、音声信号の動的な性質1[わす非
常に有用な特徴パラメータとなる。
従って、先の第3図に示す分析回路1で求められた音素
%微ベクトルと同様に、ケグストラム係数で示される音
素%徴・fラメータもt戸信号のt素装置に対して多大
な効果を奏することになる。
%微ベクトルと同様に、ケグストラム係数で示される音
素%徴・fラメータもt戸信号のt素装置に対して多大
な効果を奏することになる。
以上詳述したように本装置によれば・MII披数分解能
の高いlフレームの%徴ノ4ラメータを音素特徴ベクト
ルとして用いて母音等の静的音素の認識が行われ、また
動的要素の強い子音等の認識が同波数分鱗能の粗い複数
フレームの動的な特徴・9ラメータを音素特徴ベクトル
として行われる。これ故、高精度、且つ高速で、しかも
軽済的な音素認識が可能となり、不特定話者や多数単結
を対象とした高性能、安価な音声認識f−[t−実現す
ることが可能となる。
の高いlフレームの%徴ノ4ラメータを音素特徴ベクト
ルとして用いて母音等の静的音素の認識が行われ、また
動的要素の強い子音等の認識が同波数分鱗能の粗い複数
フレームの動的な特徴・9ラメータを音素特徴ベクトル
として行われる。これ故、高精度、且つ高速で、しかも
軽済的な音素認識が可能となり、不特定話者や多数単結
を対象とした高性能、安価な音声認識f−[t−実現す
ることが可能となる。
尚、本発明は上記実施例に限定されるものではない0例
えば第5図に示すように認識された音素全ベクトルメモ
IJ 31 、32にそれぞれ蓄えたのち、類似度計算
回路33.34にてその音素ベクトルに対して単語辞書
35.36を用いてそれぞれ類似度計算を行って各別に
単#I認識し、これらの認識結果を総合判定回路37に
て総合的に判定して正規の値繊結釆を得るようにしても
よい、また音素%9ベクトルの要素数は、仕様に応じて
定めればよいものである。また、3つ以上の音素特徴ベ
クトルを求めて音素認識することも可能である。壺する
に本発明はその要旨を逸脱しない範囲で種々変形して実
施することができる。
えば第5図に示すように認識された音素全ベクトルメモ
IJ 31 、32にそれぞれ蓄えたのち、類似度計算
回路33.34にてその音素ベクトルに対して単語辞書
35.36を用いてそれぞれ類似度計算を行って各別に
単#I認識し、これらの認識結果を総合判定回路37に
て総合的に判定して正規の値繊結釆を得るようにしても
よい、また音素%9ベクトルの要素数は、仕様に応じて
定めればよいものである。また、3つ以上の音素特徴ベ
クトルを求めて音素認識することも可能である。壺する
に本発明はその要旨を逸脱しない範囲で種々変形して実
施することができる。
第1図は本発明の一実施例を示す音声認識装置の概略構
成図、第2図(a) 、 (b)は音声信号の特徴ノ臂
うメータを示す図、第3図お工び篇4図はそれぞれ分析
回路の構成例を示す図、第5図は音声認識装置の他の構
成例を示す賢部構成図である。 1・・・分析回路、2,3・・・類似度計算回路、4゜
5・・・音素辞書、6・・・音素/9ターンメモリ、7
・・・照合回路、8・・・単語辞書、12・・・帯域フ
ィルタ群、15.17・・・音素%像ベクトルメモリ、
22・・・DF’l’、、?4・・・対数回路、2゛5
・・・IDFT。 26.21・・・音TA%徴ベクトルメモリ。
成図、第2図(a) 、 (b)は音声信号の特徴ノ臂
うメータを示す図、第3図お工び篇4図はそれぞれ分析
回路の構成例を示す図、第5図は音声認識装置の他の構
成例を示す賢部構成図である。 1・・・分析回路、2,3・・・類似度計算回路、4゜
5・・・音素辞書、6・・・音素/9ターンメモリ、7
・・・照合回路、8・・・単語辞書、12・・・帯域フ
ィルタ群、15.17・・・音素%像ベクトルメモリ、
22・・・DF’l’、、?4・・・対数回路、2゛5
・・・IDFT。 26.21・・・音TA%徴ベクトルメモリ。
Claims (4)
- (1) 入力された音声信号を分析して上記音声係号
の待似・臂うメータの時系列X ”” 11 a X
2 m・・・。 1w中の1フレ一ム分の%徴ノ”ラメータXiヲ時iJ
j的t ItIJk t 1ない第1の音素特徴ベクト
ルとして舶用する手段と、前記音用イ8号の特徴パラメ
ータの、時系夕IJY=y1.y2+・・・、yN中の
複数フレームに亘る特徴・ぜラメータy1.y−、・・
・、yi□K ?1 rl 時間的変動を含む第2の音−特徴ベクトルとして拍出す
る手段と、これら@1及び絹2の音素特徴ベクトルを大
々対応する廿素辞薔と照合して各フレーム毎に標準f素
との類似の程度を求める手段とこの手段により侍らnた
出力を用いて前記音声18号金鹸畝する手段とを備えた
ことを特徴とする音用ag#、鉄飯。 - (2) 特徴−fラメータxij=’!ひ11 +)’
i1 、”’ zyl−Kri、音声信号の同一の曾声
分析鮎朱から求められるものである%#fIv111水
の範d第1項rre献の音声認識装置。 - (3) 第1の音高特徴ベクトルと第2の首糸軸似ベ
クトルは、その景素数を同じくするものである’[’F
請求の範囲第1項ルビ賊の廿−餡自芸一゛。 - (4) 第1の祈索特徴ベクトルは母廿酩融又tよ鼻
音酩詭に、且つ8g2の音索待偵ベクトルは子音・半母
音認陳にそれぞれ用いられるものである特許請求の範囲
第1項6ピ載の唱tM配暉鉄−0
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012808A JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
US06/460,303 US4624010A (en) | 1982-01-29 | 1983-01-24 | Speech recognition apparatus |
EP83300429A EP0085543B1 (en) | 1982-01-29 | 1983-01-27 | Speech recognition apparatus |
DE8383300429T DE3364573D1 (en) | 1982-01-29 | 1983-01-27 | Speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57012808A JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58130396A true JPS58130396A (ja) | 1983-08-03 |
JPH036517B2 JPH036517B2 (ja) | 1991-01-30 |
Family
ID=11815683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57012808A Granted JPS58130396A (ja) | 1982-01-29 | 1982-01-29 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4624010A (ja) |
EP (1) | EP0085543B1 (ja) |
JP (1) | JPS58130396A (ja) |
DE (1) | DE3364573D1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6011898A (ja) * | 1983-06-30 | 1985-01-22 | 株式会社東芝 | 音声認識装置 |
JPS63274998A (ja) * | 1987-05-06 | 1988-11-11 | 三菱電機株式会社 | 単語音声認識装置 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
JPS60122475A (ja) * | 1983-11-15 | 1985-06-29 | Nec Corp | パタン認識装置 |
US4868879A (en) * | 1984-03-27 | 1989-09-19 | Oki Electric Industry Co., Ltd. | Apparatus and method for recognizing speech |
US4827519A (en) * | 1985-09-19 | 1989-05-02 | Ricoh Company, Ltd. | Voice recognition system using voice power patterns |
US5023911A (en) * | 1986-01-10 | 1991-06-11 | Motorola, Inc. | Word spotting in a speech recognition system without predetermined endpoint detection |
US4789934A (en) * | 1986-01-21 | 1988-12-06 | International Business Machines Corporation | Signature verification algorithm |
ES2019628B3 (es) * | 1986-02-15 | 1991-07-01 | Smiths Ind Public Ltd Company | Procesador de textos hablados y metodo.. |
US4856067A (en) * | 1986-08-21 | 1989-08-08 | Oki Electric Industry Co., Ltd. | Speech recognition system wherein the consonantal characteristics of input utterances are extracted |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
JP2739945B2 (ja) * | 1987-12-24 | 1998-04-15 | 株式会社東芝 | 音声認識方法 |
JP2745535B2 (ja) * | 1988-05-24 | 1998-04-28 | 日本電気株式会社 | 音声認識装置 |
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
US5175793A (en) * | 1989-02-01 | 1992-12-29 | Sharp Kabushiki Kaisha | Recognition apparatus using articulation positions for recognizing a voice |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
CA2063723A1 (en) * | 1989-07-28 | 1991-01-29 | Stephen J. Guerreri | Method and apparatus for language and speaker recognition |
US5189727A (en) * | 1989-07-28 | 1993-02-23 | Electronic Warfare Associates, Inc. | Method and apparatus for language and speaker recognition |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
JP2989211B2 (ja) * | 1990-03-26 | 1999-12-13 | 株式会社リコー | 音声認識装置における辞書制御方式 |
EP0474496B1 (en) * | 1990-09-07 | 1998-03-04 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
JP2808906B2 (ja) * | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5313522A (en) * | 1991-08-23 | 1994-05-17 | Slager Robert P | Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader |
US5305420A (en) * | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
KR100482313B1 (ko) * | 1996-12-30 | 2005-07-21 | 엘지전자 주식회사 | 이중유사도비교를통한음성인식방법 |
DE19718007A1 (de) * | 1997-04-29 | 1998-11-05 | Deutsche Telekom Ag | Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes |
US6493744B1 (en) | 1999-08-16 | 2002-12-10 | International Business Machines Corporation | Automatic rating and filtering of data files for objectionable content |
WO2001045089A1 (en) * | 1999-12-15 | 2001-06-21 | Bright Spark Technologies (Proprietary) Limited | Phonemes recognition in an audio signal |
US6836758B2 (en) * | 2001-01-09 | 2004-12-28 | Qualcomm Incorporated | System and method for hybrid voice recognition |
US7574362B2 (en) | 2001-03-14 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | Method for automated sentence planning in a task classification system |
WO2002073452A1 (en) | 2001-03-14 | 2002-09-19 | At & T Corp. | Method for automated sentence planning |
US7729918B2 (en) * | 2001-03-14 | 2010-06-01 | At&T Intellectual Property Ii, Lp | Trainable sentence planning system |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
US6898870B1 (en) | 2002-03-20 | 2005-05-31 | Nike, Inc. | Footwear sole having support elements with compressible apertures |
US7143033B2 (en) * | 2002-04-03 | 2006-11-28 | The United States Of America As Represented By The Secretary Of The Navy | Automatic multi-language phonetic transcribing system |
US20030115062A1 (en) * | 2002-10-29 | 2003-06-19 | Walker Marilyn A. | Method for automated sentence planning |
US7146319B2 (en) * | 2003-03-31 | 2006-12-05 | Novauris Technologies Ltd. | Phonetically based speech recognition system and method |
GB2428853A (en) * | 2005-07-22 | 2007-02-07 | Novauris Technologies Ltd | Speech recognition application specific dictionary |
US8380506B2 (en) * | 2006-01-27 | 2013-02-19 | Georgia Tech Research Corporation | Automatic pattern recognition using category dependent feature selection |
US10333696B2 (en) | 2015-01-12 | 2019-06-25 | X-Prime, Inc. | Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency |
US10943580B2 (en) * | 2018-05-11 | 2021-03-09 | International Business Machines Corporation | Phonological clustering |
US20230105362A1 (en) * | 2021-09-23 | 2023-04-06 | Siemens Healthcare Gmbh | Speech control of a medical apparatus |
EP4156178A1 (de) * | 2021-09-23 | 2023-03-29 | Siemens Healthcare GmbH | Sprachsteuerung einer medizinischen vorrichtung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS52142904A (en) * | 1976-05-24 | 1977-11-29 | Hiroya Fujisaki | Voice recognition system |
JPS57700A (en) * | 1980-06-03 | 1982-01-05 | Matsushita Electric Ind Co Ltd | Voice recognizing device |
-
1982
- 1982-01-29 JP JP57012808A patent/JPS58130396A/ja active Granted
-
1983
- 1983-01-24 US US06/460,303 patent/US4624010A/en not_active Expired - Fee Related
- 1983-01-27 DE DE8383300429T patent/DE3364573D1/de not_active Expired
- 1983-01-27 EP EP83300429A patent/EP0085543B1/en not_active Expired
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS52142904A (en) * | 1976-05-24 | 1977-11-29 | Hiroya Fujisaki | Voice recognition system |
JPS57700A (en) * | 1980-06-03 | 1982-01-05 | Matsushita Electric Ind Co Ltd | Voice recognizing device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6011898A (ja) * | 1983-06-30 | 1985-01-22 | 株式会社東芝 | 音声認識装置 |
JPH0469800B2 (ja) * | 1983-06-30 | 1992-11-09 | Tokyo Shibaura Electric Co | |
JPS63274998A (ja) * | 1987-05-06 | 1988-11-11 | 三菱電機株式会社 | 単語音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US4624010A (en) | 1986-11-18 |
DE3364573D1 (en) | 1986-08-28 |
EP0085543B1 (en) | 1986-07-23 |
EP0085543A2 (en) | 1983-08-10 |
EP0085543A3 (en) | 1983-08-24 |
JPH036517B2 (ja) | 1991-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130396A (ja) | 音声認識装置 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Wu et al. | Polyphonic music transcription with semantic segmentation | |
CN109256138A (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
Qazi et al. | A hybrid technique for speech segregation and classification using a sophisticated deep neural network | |
Zhu et al. | Y-vector: Multiscale waveform encoder for speaker embedding | |
Chaurasiya | Time-frequency representations: spectrogram, cochleogram and correlogram | |
Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
De Mori | A descriptive technique for automatic speech recognition | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Dutta et al. | Designing of gabor filters for spectro-temporal feature extraction to improve the performance of asr system | |
Chatterjee et al. | Auditory model-based design and optimization of feature vectors for automatic speech recognition | |
Thirumuru et al. | Improved vowel region detection from a continuous speech using post processing of vowel onset points and vowel end-points | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
Goki et al. | A Wavelet Transform Based Scheme to Extract Speech Pitch and Formant Frequencies | |
Lalitha et al. | An encapsulation of vital non-linear frequency features for various speech applications | |
Patel | Visual Bird Sound Denoising Using Advanced Image Segmentation Techniques | |
JP2806048B2 (ja) | 自動採譜装置 | |
NAMEIRAKPAM et al. | Singer identification using wavelet transform | |
JPS5915993A (ja) | 音声認識装置 | |
JP2658426B2 (ja) | 音声認識方法 | |
JP3012994B2 (ja) | 音韻識別方法 | |
Eshaghi | A New VAD Algorithm using Sparse Representation and Updated Dictionary in Spectrogram Domain |