JPS59147398A

JPS59147398A - 音声区間検出装置

Info

Publication number: JPS59147398A
Application number: JP2104483A
Authority: JP
Inventors: 米山　正秀
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1983-02-10
Filing date: 1983-02-10
Publication date: 1984-08-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は、音声認識等の音声信号処理装置に使用して好
適な音声区間検出装置に関する。

従来技や１１音声認識等を目的とした音声信号処理装置は既に周知で
あるが、該音声信号処理装置においては、その前処理と
して音声の存在する時間区間を検出することが必要であ
り、このためには、音声の開始時と終了時を明確に把握
することが大切である。

この前処理のため、従来は、例えば、振幅レベル比較器
等を用いて、マイクロフォンからの入力信号がある閾値
を越えた時点を開始時、また、ある閾値より下った時点
を終了時として認識していた。

しかしながら、一般に、音声信号は周囲雑音に重量され
ているので、雑音レベルによって開始、終了の検出時が
変動し、正しい音声区間の検出が困難であった。

１−一回本発明は、上述のごとき従来技術の欠点を解決するため
になされたもので、特に、音声入力の時間波形の処理に
加えて口唇の画像処理を併用することにより、入力信号
中の音声区間を正しく検出し得るようにしたものである
。

司エーーー戎本発明の構成について、以下、実施例に基づいて説明す
る。

第１図は、本発明の一実施例を説明するための構成図で
、図中、１は話者、２はマイクロフォン。

３は画（象センサで、図示のように、話者ｌから発声さ
れる音声波Ａを収音するマイクロフォン２に並へである
種の画像センサ３を０１置し、音声信号の収音と同時に
話者の口唇画像情報をも収集するようにしたものである
。ここで用いられる画像センサ３としては、原゛理的に
はいかなる種類のものでもよいが、リアルタイム処理性
を考えると、電気信号に変換されるものが望ましく乳剤
等を用いた写真乾板類は望ましくない。従って、小形ビ
ジコンやＣＣＤセンサを用いた撮像板が考えられるが、
本発明においては、解像度は要求されないので、比較的
素子数の少ないＣＣＤ板等の固体撮像索子等が適してい
る。本発明ｌま上記のごどき画像センサを用いて、話者
の口唇画像を得、これによって音声区間を検出するもの
である。つまり、発声区間においては１話者の［１唇は
たえず動いており、１］唇画像情報もたえず変化してい
るが、発声していない区間においては、話者の口唇は１
にまっており、１１唇画像も−゛定を保っている。従っ
て、−・般的に考えて、無声区間においては、１１脣画
像は高いフレーム相関値を示し、他方、発声区間に４５
いては、［１唇画而は比較的低いフレーム相関値を斤す
のて、この事に着目すれは、フレーム相関値が比＋１１
２的艮１１．７間高い値を保−）だ後、高→低へ激減す
る］１，７点を音声開始時点と判定でき、これに対し、
フレーｌ、相関値が低→高ど激増し、その後、長時間、
高い値を保つようであ扛ば、その変化時点を音声開始時
点とＩ’ｌ断することができる。こび）場合、正確に音
声区間を検出するためには、通常のテＬノビジョン画像
よりもはるかに短いフＬ／−７、周期（ｌ　ｒｎ　ｓ　
ｐ　ｃ：〜数Ｉｌｌ　Ｓ　ｅ　（：程度）ｈ；要；Ｒさ
Ｊしこ、が、本発明において１才、画素数が通常のテレ
ビジョンより著しく少なくしてよいので、簡ｒｔｉ−に
実況できることは明らかである。なお、月ノーム相関１
１−　つの手段でよ〕って、必ずしも、実用的１こ考え
でこ４Ｌが最良とは云えず、例えば、画像中のある部分
に注［（シてこの部分の変化の状態をみて検出部る３Ｌ
うにすることも可能である。

第２図は、本発明の他の実施例を示す要部構成図で、図
中、４は対物レンズ、５は光ファイノヘー、６は両偉セ
ンサ、７はスキャナーである。而して、この実施例は、
口唇の画像検出部において、音声波ピックアップ用マイ
クロフォンと一体化する部分を小形軽量にするために、
対物レンズ４を画像センリ゛部６と切り離し、対物レン
ズ４だけをマイクロフォンと−・体化し、画像センサ部
６を本体処理部にａまゼるようにし、この間を光ファイ
ノベー５゛Ｃ接続するようにしたものである。

なお１以上に、本発明の各実施例１′一つ（Ａてβ２明
したが、本発明は、」二記実施例しこ１；長足さＪする
ものではなく、例えば、音速と光速の違シ１番；よる（
Ｈｒｌずれが照視できない場合に１よ、これを有Ｕ正す
る手段を設けるようにすることも考えら４する。

幼−一−釆以トの説明から明らかなようしこ、本発明し；よると、
音声信号と口唇画像信号を音声処理のための情報源とす
るようにしたので、音声区■■を粘度よく検出すること
ができる。

【図面の簡単な説明】

第１図及び第２図は、それぞれ本発明の実施イ９１１を
説明するための構成図である。１・・・話者、２・・・マイクロフォン、３・・画（ｆ
ｉｆ（センサ、４・・・対物レンズ、５・・・光ファイ
ノ＜−６・・・画像センサ、７・・スキャナー。第　　ｌ　　図

Claims

【特許請求の範囲】

、括１５の音声波をピンクアップするマスクロッオンと
一体化して話者の口唇像を得る画像センサを有し、話者
の音声波及び口唇画像情報を音声認識等の音声処理のた
めの情報源にしたことを特徴とする音声区間検出装置