JPS59147398A - 音声区間検出装置 - Google Patents
音声区間検出装置Info
- Publication number
- JPS59147398A JPS59147398A JP2104483A JP2104483A JPS59147398A JP S59147398 A JPS59147398 A JP S59147398A JP 2104483 A JP2104483 A JP 2104483A JP 2104483 A JP2104483 A JP 2104483A JP S59147398 A JPS59147398 A JP S59147398A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- image
- voice section
- audio
- image sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Processing (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は、音声認識等の音声信号処理装置に使用して好
適な音声区間検出装置に関する。
適な音声区間検出装置に関する。
従来技や11
音声認識等を目的とした音声信号処理装置は既に周知で
あるが、該音声信号処理装置においては、その前処理と
して音声の存在する時間区間を検出することが必要であ
り、このためには、音声の開始時と終了時を明確に把握
することが大切である。
あるが、該音声信号処理装置においては、その前処理と
して音声の存在する時間区間を検出することが必要であ
り、このためには、音声の開始時と終了時を明確に把握
することが大切である。
この前処理のため、従来は、例えば、振幅レベル比較器
等を用いて、マイクロフォンからの入力信号がある閾値
を越えた時点を開始時、また、ある閾値より下った時点
を終了時として認識していた。
等を用いて、マイクロフォンからの入力信号がある閾値
を越えた時点を開始時、また、ある閾値より下った時点
を終了時として認識していた。
しかしながら、一般に、音声信号は周囲雑音に重量され
ているので、雑音レベルによって開始、終了の検出時が
変動し、正しい音声区間の検出が困難であった。
ているので、雑音レベルによって開始、終了の検出時が
変動し、正しい音声区間の検出が困難であった。
1−一回
本発明は、上述のごとき従来技術の欠点を解決するため
になされたもので、特に、音声入力の時間波形の処理に
加えて口唇の画像処理を併用することにより、入力信号
中の音声区間を正しく検出し得るようにしたものである
。
になされたもので、特に、音声入力の時間波形の処理に
加えて口唇の画像処理を併用することにより、入力信号
中の音声区間を正しく検出し得るようにしたものである
。
司エーーー戎
本発明の構成について、以下、実施例に基づいて説明す
る。
る。
第1図は、本発明の一実施例を説明するための構成図で
、図中、1は話者、2はマイクロフォン。
、図中、1は話者、2はマイクロフォン。
3は画(象センサで、図示のように、話者lから発声さ
れる音声波Aを収音するマイクロフォン2に並へである
種の画像センサ3を01置し、音声信号の収音と同時に
話者の口唇画像情報をも収集するようにしたものである
。ここで用いられる画像センサ3としては、原゛理的に
はいかなる種類のものでもよいが、リアルタイム処理性
を考えると、電気信号に変換されるものが望ましく乳剤
等を用いた写真乾板類は望ましくない。従って、小形ビ
ジコンやCCDセンサを用いた撮像板が考えられるが、
本発明においては、解像度は要求されないので、比較的
素子数の少ないCCD板等の固体撮像索子等が適してい
る。本発明lま上記のごどき画像センサを用いて、話者
の口唇画像を得、これによって音声区間を検出するもの
である。つまり、発声区間においては1話者の[1唇は
たえず動いており、1]唇画像情報もたえず変化してい
るが、発声していない区間においては、話者の口唇は1
にまっており、11唇画像も−゛定を保っている。従っ
て、−・般的に考えて、無声区間においては、11脣画
像は高いフレーム相関値を示し、他方、発声区間に45
いては、[1唇画而は比較的低いフレーム相関値を斤す
のて、この事に着目すれは、フレーム相関値が比+11
2的艮11.7間高い値を保−)だ後、高→低へ激減す
る]1,7点を音声開始時点と判定でき、これに対し、
フレーl、相関値が低→高ど激増し、その後、長時間、
高い値を保つようであ扛ば、その変化時点を音声開始時
点とI’l断することができる。こび)場合、正確に音
声区間を検出するためには、通常のテLノビジョン画像
よりもはるかに短いフL/−7、周期(l rn s
p c:〜数Ill S e (:程度)h;要;Rさ
Jしこ、が、本発明において1才、画素数が通常のテレ
ビジョンより著しく少なくしてよいので、簡rti−に
実況できることは明らかである。なお、月ノーム相関1
1− つの手段でよ〕って、必ずしも、実用的1こ考え
でこ4Lが最良とは云えず、例えば、画像中のある部分
に注[(シてこの部分の変化の状態をみて検出部る3L
うにすることも可能である。
れる音声波Aを収音するマイクロフォン2に並へである
種の画像センサ3を01置し、音声信号の収音と同時に
話者の口唇画像情報をも収集するようにしたものである
。ここで用いられる画像センサ3としては、原゛理的に
はいかなる種類のものでもよいが、リアルタイム処理性
を考えると、電気信号に変換されるものが望ましく乳剤
等を用いた写真乾板類は望ましくない。従って、小形ビ
ジコンやCCDセンサを用いた撮像板が考えられるが、
本発明においては、解像度は要求されないので、比較的
素子数の少ないCCD板等の固体撮像索子等が適してい
る。本発明lま上記のごどき画像センサを用いて、話者
の口唇画像を得、これによって音声区間を検出するもの
である。つまり、発声区間においては1話者の[1唇は
たえず動いており、1]唇画像情報もたえず変化してい
るが、発声していない区間においては、話者の口唇は1
にまっており、11唇画像も−゛定を保っている。従っ
て、−・般的に考えて、無声区間においては、11脣画
像は高いフレーム相関値を示し、他方、発声区間に45
いては、[1唇画而は比較的低いフレーム相関値を斤す
のて、この事に着目すれは、フレーム相関値が比+11
2的艮11.7間高い値を保−)だ後、高→低へ激減す
る]1,7点を音声開始時点と判定でき、これに対し、
フレーl、相関値が低→高ど激増し、その後、長時間、
高い値を保つようであ扛ば、その変化時点を音声開始時
点とI’l断することができる。こび)場合、正確に音
声区間を検出するためには、通常のテLノビジョン画像
よりもはるかに短いフL/−7、周期(l rn s
p c:〜数Ill S e (:程度)h;要;Rさ
Jしこ、が、本発明において1才、画素数が通常のテレ
ビジョンより著しく少なくしてよいので、簡rti−に
実況できることは明らかである。なお、月ノーム相関1
1− つの手段でよ〕って、必ずしも、実用的1こ考え
でこ4Lが最良とは云えず、例えば、画像中のある部分
に注[(シてこの部分の変化の状態をみて検出部る3L
うにすることも可能である。
第2図は、本発明の他の実施例を示す要部構成図で、図
中、4は対物レンズ、5は光ファイノヘー、6は両偉セ
ンサ、7はスキャナーである。而して、この実施例は、
口唇の画像検出部において、音声波ピックアップ用マイ
クロフォンと一体化する部分を小形軽量にするために、
対物レンズ4を画像センリ゛部6と切り離し、対物レン
ズ4だけをマイクロフォンと−・体化し、画像センサ部
6を本体処理部にaまゼるようにし、この間を光ファイ
ノベー5゛C接続するようにしたものである。
中、4は対物レンズ、5は光ファイノヘー、6は両偉セ
ンサ、7はスキャナーである。而して、この実施例は、
口唇の画像検出部において、音声波ピックアップ用マイ
クロフォンと一体化する部分を小形軽量にするために、
対物レンズ4を画像センリ゛部6と切り離し、対物レン
ズ4だけをマイクロフォンと−・体化し、画像センサ部
6を本体処理部にaまゼるようにし、この間を光ファイ
ノベー5゛C接続するようにしたものである。
なお1以上に、本発明の各実施例1′一つ(Aてβ2明
したが、本発明は、」二記実施例しこ1;長足さJする
ものではなく、例えば、音速と光速の違シ1番;よる(
Hrlずれが照視できない場合に1よ、これを有U正す
る手段を設けるようにすることも考えら4する。
したが、本発明は、」二記実施例しこ1;長足さJする
ものではなく、例えば、音速と光速の違シ1番;よる(
Hrlずれが照視できない場合に1よ、これを有U正す
る手段を設けるようにすることも考えら4する。
幼−一−釆
以トの説明から明らかなようしこ、本発明し;よると、
音声信号と口唇画像信号を音声処理のための情報源とす
るようにしたので、音声区■■を粘度よく検出すること
ができる。
音声信号と口唇画像信号を音声処理のための情報源とす
るようにしたので、音声区■■を粘度よく検出すること
ができる。
第1図及び第2図は、それぞれ本発明の実施イ911を
説明するための構成図である。 1・・・話者、2・・・マイクロフォン、3・・画(f
if(センサ、4・・・対物レンズ、5・・・光ファイ
ノ<−6・・・画像センサ、7・・スキャナー。 第 l 図
説明するための構成図である。 1・・・話者、2・・・マイクロフォン、3・・画(f
if(センサ、4・・・対物レンズ、5・・・光ファイ
ノ<−6・・・画像センサ、7・・スキャナー。 第 l 図
Claims (1)
- 、括15の音声波をピンクアップするマスクロッオンと
一体化して話者の口唇像を得る画像センサを有し、話者
の音声波及び口唇画像情報を音声認識等の音声処理のた
めの情報源にしたことを特徴とする音声区間検出装置
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2104483A JPS59147398A (ja) | 1983-02-10 | 1983-02-10 | 音声区間検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2104483A JPS59147398A (ja) | 1983-02-10 | 1983-02-10 | 音声区間検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59147398A true JPS59147398A (ja) | 1984-08-23 |
Family
ID=12043928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2104483A Pending JPS59147398A (ja) | 1983-02-10 | 1983-02-10 | 音声区間検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59147398A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011097268A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 再生装置、ヘッドホン及び再生方法 |
JP2014109770A (ja) * | 2012-12-04 | 2014-06-12 | Samsung R&D Institute Japan Co Ltd | 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム |
-
1983
- 1983-02-10 JP JP2104483A patent/JPS59147398A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011097268A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 再生装置、ヘッドホン及び再生方法 |
JP2014109770A (ja) * | 2012-12-04 | 2014-06-12 | Samsung R&D Institute Japan Co Ltd | 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4896838B2 (ja) | 撮像装置、画像検出装置及びプログラム | |
US8456542B2 (en) | Imaging apparatus that determines a band of sound and emphasizes the band in the sound | |
CN105578097A (zh) | 一种录像方法及终端 | |
JP2009141555A (ja) | 音声入力機能付き撮像装置及びその音声記録方法 | |
JP6610725B2 (ja) | 音処理装置および音処理プログラム | |
CN102572263B (zh) | 摄像设备和音频处理设备 | |
US9282229B2 (en) | Audio processing apparatus, audio processing method and imaging apparatus | |
JPS59147398A (ja) | 音声区間検出装置 | |
US20240404547A1 (en) | Sound source determining method and system, electronic device and readable storage medium | |
JPS6195203A (ja) | 光切断線検出装置 | |
CN109637555B (zh) | 一种商务会议用日语语音识别翻译系统 | |
CN113762110A (zh) | 一种执法即时证据固定方法及执法仪 | |
Yoshizawa et al. | Speech extraction with RGB-intensity gradient on rolling-shutter video | |
Yoshida et al. | Sound quality improvement of extracted sound from video with rolling-shuttered camera | |
Kiritani et al. | Simultaneous high-speed digital recording of vocal fold vibration and speech signal | |
JP2003298916A (ja) | 撮影装置、データ処理装置及び方法、プログラム | |
Shindo et al. | Noise-reducing sound capture based on exposure-time of still camera | |
JPS5949742A (ja) | 呼気力検出装置 | |
JP2002259990A (ja) | 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 | |
JPH04207668A (ja) | 画像処理装置 | |
KR960028203A (ko) | 비디오 카메라 장치 | |
JPS58178761U (ja) | 撮像装置の焦点調整装置 | |
JPH01310399A (ja) | 音声認識装置 | |
JPH04180096A (ja) | 音声認識装置 | |
JPS60238898A (ja) | 単音節認識方法 |