[go: up one dir, main page]

JPS6255798B2 - - Google Patents

Info

Publication number
JPS6255798B2
JPS6255798B2 JP56193663A JP19366381A JPS6255798B2 JP S6255798 B2 JPS6255798 B2 JP S6255798B2 JP 56193663 A JP56193663 A JP 56193663A JP 19366381 A JP19366381 A JP 19366381A JP S6255798 B2 JPS6255798 B2 JP S6255798B2
Authority
JP
Japan
Prior art keywords
section
block
speech
output
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56193663A
Other languages
English (en)
Other versions
JPS5895797A (ja
Inventor
Kaneyoshi Mizuno
Isamu Nose
Yutaka Iizuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP56193663A priority Critical patent/JPS5895797A/ja
Publication of JPS5895797A publication Critical patent/JPS5895797A/ja
Publication of JPS6255798B2 publication Critical patent/JPS6255798B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
(発明の分野) 本発明は、音声認識装置において精度良く音声
区間の検出を行う音声区間検出に関するものであ
る。 (背景技術) 従来の音声認識装置のブロツク図を第1図に示
す。第1図において、1は信号入力端子、2は周
波数分析部、3は音声取込制御部、4は取込開始
信号、5は音声区間検出部、6は取込終了信号、
7は始端・終端情報、8は認識部、9は出力端子
の如く構成されており、以下各部の説明をする。 周波数分析部2は、第2図に示す如く構成され
ており、入力音声信号11は前置増幅器12によ
り適当なレベルに増幅され、約200Hzから600Hzま
でを対数尺度で等間隔に分割されたN個のバンド
パスフイルタ群13、全波整流器群14、および
ローパスフイルタ群15により分析され、さら
に、あらかじめ定められた時間周期(以後サンプ
ル周期と記す)毎にマルチプレクサ16を順次切
り換えながらAD変換器17によつて量子化さ
れ、サンプル周期毎にN個の分析結果18を出力
する。 音声取込制御部3は、取込開始信号4を受信し
たのち、周波数分析部2の分析結果18を音声区
間検出部5および認識部8へ一定時間、または確
かに音声の入力が終了したと判断するまで出力す
る。音声の入力終了の判断法としては、たとえ
ば、各サンプル周期毎のN個のデータの平均値
(以後フレームパワーと記す)を利用して、フレ
ームパワーがあらかじめ設定された閾値を越える
ものが、ある一定数存在したのち、閾値を越えな
いものが連続一定数続いたとき音声の入力が終了
したと判断する方法がある。 音声区間検出部5におけるブロツク図を第3図
に示す。第3図において、18は分析結果、21
はパラメータ演算部、6は取込終了信号、22は
ブロツク化部、23は音声区間判定部、7は始端
終端情報の如く構成され、以下詳細に説明する。 パラメータ演算部21は、分析結果18から音
声区間検出に使用する(1)式で定義されるパラメー
タを求める部分である。 Pj=ajj ………(1) ただし aj;第j番目の分析結果のスペクトル傾斜j ;第j番目の分析結果の平均値 また、スペクトル傾斜ajすなわち最少2乗近
似直線の傾きは、第j番目のN個の分析結果をx
ijとすると(i;N分割されたバンドパスフイル
タ群の周波数の低いものから順に付けられた番
号)、ajは(2)式によつて求められる。 (2)式においてNを固定すれば、
【式】及び
【式】は定数となり、
【式】及び
【式】と置き換えることが でき、(2)式は(3)式に変形される。 従つて、
【式】と
【式】を求めればaj を求めることができる。 また、j
【式】をNで除すことによつて 得られる。第4図は、Pjを演算するブロツク図
であり、以下図に従つて説明する。 第5番目のN個の分析結果Xij(i=1、2、
………N)が順番に出力されるものとすると、加
算器101およびレジスタ102によつてxij
累積
【式】をレジスタ102にセツトすること ができ、その結果を乗算器103と除算器106
に出力される。乗算器103で
【式】と
【式】との乗算を行ない、さらに補数器 104によつて
【式】の値を求め、加算 器105の一方に入力される。また、xijのデー
タ出力と同期して働くカウンタ107の出力と、
ijとの積i・xijを乗算器108によつて求
め、乗算器108の出力に接続されている加算器
109と、さらにそれに接続されているレジスタ
110によつて
【式】を求めることができ る。レジスタ110の出力
【式】は乗算器1 11の一方の入力に接続されており、乗算器11
1の他方の入力にはNがセツトされていて、乗算
器111では
【式】が演算され、加算 器105のもう一方に入力される。加算器105
では、
【式】が演算され、 除算器112に接続されている。除算器112で
は、
【式】をC2で除すこ とによつて、第j番目のサンプルデータのスペク
トル傾斜ajを求められ、その結果は乗算器11
3の一方の入力となる。また除算器106では、
【式】をNで除すことによつてjが求めら れ、その結果は乗算器113の他方の入力とな
り、乗算器113によつてPj(=ajj)を求
めることができる。以上の演算をサンプル周期毎
に行なつて、各サンプル時のPjの値を全て演算
することができる。 ブロツク化部22は、パラメータ演算部21の
結果Pjを取込終了信号6を検出するまで受け取
り、取込終了信号6を検出後、音声のブロツク化
(音声であると思われる部分のかたまりの検出)
を行なう部分で、第5図にブロツク図を示し、第
5図に従つて説明する。 パラメータ演算部21の各サンプル周期毎のP
jは、順次Pパラメータメモリ200に格納され
ているので、それを順番に読取し絶対値回路20
1によつて絶対値化され、|Pj|を比較器20
2の一方に入力する。比較器202の他方の入力
には、|Pj|の閾値PTHがセツトされている。
比較器202では、|Pj|≧PTHのときにはα
出力に、|Pj|<PTHのときにはβ出力にそれ
ぞれ有意信号を出力する。カウンタ203は、|
j|≧PTHのときカウントアツプし、|Pj|<
THのときクリアされるようになつており、|P
j|≧PTHとなる連続量をカウントする。また、
カウンタ203の出力は、常にレジスタ204に
セツトされている。レジスタ204にセツトされ
ている値(|Pj|≧PTHである連続数)は、比
較器205に入力され、比較器205の他方の入
力にはKがセツトされており、|Pj|≧PTH
ある連続量(以下ブロツク長と記す)がK以上の
とき、比較器205の出力Cに有意信号が出力さ
れる。 ブロツク長がK(K≧2の自然数)以上(C信
号出力時)で、かつ、比較器202のβ出力(|
j|<PTH)が表われたタイミングをAND回路
206によつて捕える。カウンタ207は、
AND回路206の出力から出力までのPjを読み
出した量を数えるもので、減算器208によつて
カウンタ7の出力からレジスタ204の結果(ブ
ロツク長)を差し引くことにより、ブロツク間の
距離(時間)を求めることができる。またカウン
タ209は、Pjの読出しと同期してカウントし
ており、減算器210によつてカウンタ209の
の結果からレジスタ204の出力(ブロツク長)
を引くことによつて、当該ブロツクの先頭を求め
られる。加算器211とレジスタ212により|
j|≧PTHの部分の累積を求め、ブロツクの大
きさを表わすSBなるものを求め、AND回路20
6の信号を検出したとき、レジスタ213にセツ
トすると同時に、レジスタ213の出力(以下ブ
ロツク量と記す)、減算器210の出力(ブロツ
ク先頭情報)、レジスタ204の出力(ブロツク
長)、および減算器208の出力(ブロツク間距
離)をブロツクテーブル214に登録する。この
ようにして取込んだ量全てについてブロツク化が
行なうことができる。 音声区間判定部23は、ブロツク化部22で得
られたブロツクテーブル213から、次のように
して音声区間の判定を行なつていた。すなわち、
ブロツク量の最大値となるブロツクを検出し、そ
れを音声区間の中心として前後のブロツクについ
て、ブロツク間距離が一定値以下であれば当該ブ
ロツクも音声区間に含めるという方法で、音声区
間の判定を行なつていた。 認識部8は、音声取込制御部3に取込開始信号
を送るとともに、音声取込制御部3からの分析結
果を格納しておき、さらに音声区間検出部5から
の始端終端情報7を受けると、あらかじめ用意さ
れている内容既知の標準パターンとの類似度演算
を行ない、最も類似度の高い標準パターンと同一
内容の音声が入力されたと判断し、その結果を出
力する。 しかしながら、上記従来の技術における音声区
間検出では、 (1) 入力音声の強弱によりスペクトル傾斜aj
変化するため、不安定なパラメータすなわち、
jが不安定なパラメータである。 (2) スペクトル傾斜ajは、音韻、話者による変
化とともにマイクの特性等によつて往往にし
て、音声部においても0に近い値を取り、結果
としてPjも0に近い値となり、ブロツク化を
誤まる。 (3) ノイズが大きい場合ノイズとの区別(特に子
音)がつけにくい。 という欠点があつた。 (発明の課題) 本発明の目的は、これらの欠点を除去すること
を目的とし、分析結果を対数変換した後のスペク
トル傾斜および平均値をそれぞれ独立なパラメー
タとして利用し、音声区間の検出をより精度良く
行なうように改良したもので、以下詳細に説明す
る。 (実施例) 第6図は本発明のブロツク図であり、1は入力
端子、2は周波数分析部、3は音声取込制御部、
4は取込開始信号、50は音声区間検出部、6は
取込終了信号、7は始端終端情報、8は認識部、
9は出力端子の如く構成されており、音声区間検
出部50以外は第1図と同様である。また音声区
間検出部50は第7図に示す。第7図において、
18は分析結果、71はパラメータ演算部、6は
取込終了信号、72はブロツク化部、23は音声
区間判定部、7は始端終端情報であり、パラメー
タ演算部71およびブロツク化部72以外は従来
と同様であるので、以下パラメータ演算部71お
よびブロツク化部72について以下詳細に説明す
る。 パラメータ演算部71は分析結果18を対数変
換し、対数データにおけるスペクトル傾斜a^j
よび平均値xjを各サンプル周期毎に求める部分
であり、第8図に従つて以下説明する。第j番目
のN個の分析結果xijは対数変換器100によつ
て対数化され、その結果をx^ijとする。x^ij
ら、スペクトル傾斜は(3)式と同様に求められ、ま
たxj
【式】で求められるので、従 来技術で説明したように、加算器101、レジス
タ102、乗算器103、補数器104、加算器
105、除算器106、カウンタ107、乗算器
108、加算器109、レジスタ110、乗算器
111、除算器112によつて求めることがで
き、除算器106の出力としてxjが、また除算
器112の出力としてa^j(対数データによるス
ペクトル傾斜)が得られる。 ブロツク化部72は、パラメータ演算部71に
よつて得られたサンプル周期毎の対数平均値x
j、および対数スペクトル傾斜a^jを取込終了信号
6を検出するまで受け取り、取込終了信号6を検
出後音声のブロツク化を行なう部分で、ブロツク
図を第9図に示し、以下第9図に従つて説明す
る。 Xパラメータメモリ301に格納されているx
jと、Aパラメータメモリ302に格納されてい
るa^jは、それぞれ比較器303と比較器304
の一方の入力に接続され、xjはさらに加算器2
11にも接続される。比較器303と比較器30
4のそれぞれの他方の入力には、それぞれの閾値
TH、ATHがセツトされており、比較器303で
はxj≧XTHのときにαに、他の場合にはβ
に有意信号を、比較器304ではa^j≧ATHのと
きにαに、他の場合にはβに有意信号をそれ
ぞれ出力する。R回路305でα信号とα
信号の論理和を取り、その結果αを出力する。ま
た、AND回路306ではβ信号とβ信号の
論理積を取り、その結果βを出力する。すなわ
ち、xj≧XTHまたはa^j≧ATHのうち、少なくと
もいずれかが成立した場合にはαに有意信号が、
いずれも成立しない場合にはβに有意信号が出力
される。以下は従来技術で説明したと同様の動作
により、ブロツクの加算値、ブロツク先頭情報、
ブロツク長、ブロツク間距離をブロツクテーブル
214に登録する。 すなわちブロツク化においては、xjがあらか
じめ定められた閾値(XTH)以上、またはa^j
あらかじめ定められた閾値(ATH)以上であり、
かつ連続K(K≧2)個以上続いたものをブロツ
クとし、ブロツクの大きさに相当するブロツク内
のxjの加算値、ブロツク長、ブロツクの先頭及
び直前のブロツクとの間隔を求める。 音声区間の判定は、ブロツク長がある一定値以
上のブロツクのうち、ブロツクの大きさに相当す
るブロツク内の加算値が最大となるブロツクの検
出を行ない、当該ブロツクを音声部とする。さら
に、直前のブロツクおよび直後のブロツクとのブ
ロツク間隔について、それぞれブロツク間隔があ
らかじめ定められた閾値(例えば200msecに相当
する間隔)以下であれば該当ブロツクも音声部と
判定し、音声部と判定された先頭のブロツクから
最後のブロツクまでを音声区間とする。 (発明の効果) 以上説明したように、分析結果を対数変換した
後のデータにより、各サンプル周期毎のパワーに
相当するxj、スペクトル傾斜a^jを独立に用いて
いるので、ノイズレベルと子音との区別を容易に
するとともに、ブロツク化において、xjとa^j
いずれか一方が閾値以上となれば、ブロツク候補
として計数されるので、音韻、話者によりa^j
0に近い値であつても悪影響を受けることなくブ
ロツク化ができる。SN比が悪いとき、ノイズレ
ベルとxjがさほど変らない子音(例えばSANの
Sの部分)でも、スペクトル傾斜a^jによつてノ
イズと区別することが可能となる。また、a^j
対数変換後のデータにより演算を行なつているの
で、音声の強弱に左右されない安定したパラメー
タである。 以上述べたような利点により、音声区間を精度
良く検出することができる。 本発明は、周波数分析結果を対数変換したのち
のxj、a^jを用い、ブロツク化処理による音声区
間検出を行なつているので、安定かつ精度良く音
声区間の検出ができるという利点があり、音声認
識装置に利用することができる。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロツク図、第
2図は第1図の周波数分析部の詳細ブロツク図、
第3図は第1図の音声区間検出部のブロツク図、
第4図は第3図のパラメータ演算部の詳細ブロツ
ク図、第5図は第3図のブロツク化部の詳細図で
あり、第6図は本発明の音声認識装置のブロツク
図、第7図は第6図における音声区間検出部のブ
ロツク図、第8図は第7図におけるパラメータ演
算部の詳細ブロツク図、第9図は第7図における
ブロツク化部の詳細ブロツク図である。 1……入力端子、2……周波数分析部、3……
音声取込制御部、4……取込開始信号、5……音
声区間検出部、6……取込終了信号、7……始
端・終端情報、8……認識部、9……出力端子、
11……入力音声信号、12……前置増幅器、1
3……バンドパスフイルタ群、14……全波整流
器群、15……ローパスフイルタ群、16……マ
ルチプレクサ、17……AD変換器、18……分
析結果、21……パラメータ演算部、22……ブ
ロツク化部、23……音声区間判定部、101,
105,109……加算器、102,110……
レジスタ、103,108,111,113……
乗算器、104……補数器、106,112……
除算器、107……カウンタ、200……Pパラ
メータメモリ、201……絶対値回路、202,
205……比較器、203,207,209……
カウンタ、204,212,213……レジス
タ、206……AND回路、208,210……
減算器、211……加算器、214……ブロツク
テーブル、50……音声区間検出部、71……パ
ラメータ演算部、72……ブロツク化部、100
……対数変換器、301……Xパラメータメモ
リ、302……Aパラメータメモリ、303,3
04……比較器、305……R回路、306…
…AND回路。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を周波数分析する手段と実音声
    部分の前後を含めて分析結果を格納する手段と、
    音声区間の始端、終端を検出する手段と、音声区
    間の分析結果より入力音声を認識する手段を有す
    る音声認識装置において、各分析周期毎(j)の対数
    スペクトルにおける平均値xjとスペクトル傾斜
    a^jを演算する手段を有し、xjおよびa^jを独立の
    パラメータとして、いずれかが所定の閾値(XT
    、ATH)を連続して所定数以上越えるものをブ
    ロツクとし、ブロツク長に従つて音声区間の検出
    を行なうことを特徴とする音声認識装置。
JP56193663A 1981-12-03 1981-12-03 音声認識装置 Granted JPS5895797A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56193663A JPS5895797A (ja) 1981-12-03 1981-12-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56193663A JPS5895797A (ja) 1981-12-03 1981-12-03 音声認識装置

Publications (2)

Publication Number Publication Date
JPS5895797A JPS5895797A (ja) 1983-06-07
JPS6255798B2 true JPS6255798B2 (ja) 1987-11-20

Family

ID=16311695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56193663A Granted JPS5895797A (ja) 1981-12-03 1981-12-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5895797A (ja)

Also Published As

Publication number Publication date
JPS5895797A (ja) 1983-06-07

Similar Documents

Publication Publication Date Title
AU2002252143A1 (en) Segmenting audio signals into auditory events
EP1393300A1 (en) Segmenting audio signals into auditory events
JPH10508389A (ja) 音声検出装置
CN113611330B (zh) 一种音频检测方法、装置、电子设备及存储介质
JPS6255798B2 (ja)
JPH0844395A (ja) 音声ピッチ検出装置
Akazawa et al. Adaptive threshold QRS detection algorithm for ambulatory ECG
JP2992324B2 (ja) 音声区間検出方法
JPH0424717B2 (ja)
EP0348888B1 (en) Overflow speech detecting apparatus
KR0176751B1 (ko) 음성인식 시스템의 특징추출방법
JP2648779B2 (ja) 通話信号識別装置
JPH07101354B2 (ja) 音声区間検出装置
JP3023135B2 (ja) 音声認識装置
JPH0573090A (ja) 音声認識方法
JPS62141595A (ja) 音声検出方式
JPH0114599B2 (ja)
JP2668877B2 (ja) 音源正規化方法
JPH0556520B2 (ja)
JP2658104B2 (ja) 音声認識装置
JPS60166993A (ja) 単語音声認識装置
JP2591802B2 (ja) 可聴音信号認識方法
CN118709038A (zh) 用户主体识别的睡眠事件检测方法、系统、设备及介质
JPH03253899A (ja) 音声区間検出方式
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置