JP2002259990A - 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 - Google Patents
文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体Info
- Publication number
- JP2002259990A JP2002259990A JP2001054745A JP2001054745A JP2002259990A JP 2002259990 A JP2002259990 A JP 2002259990A JP 2001054745 A JP2001054745 A JP 2001054745A JP 2001054745 A JP2001054745 A JP 2001054745A JP 2002259990 A JP2002259990 A JP 2002259990A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- shape
- character input
- lip
- dimensional distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【課題】 画像情報を利用して、人間の発話を高精度に
認識して文字列を入力する文字入力方法及び装置を提供
する。 【解決手段】 まず、高速度画像入力手段1はカメラで
撮影した発話者の唇、又は唇と顎を含む領域の高速度画
像を入力する。次に、形状抽出手段2は該高速度画像か
ら唇を含む形状を抽出する。次に、形状変化抽出手段3
は抽出された唇を含む形状、及び該形状の時間的変化の
パターンを抽出する。次に、パターン分布算出手段4は
該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成する。最後に、発話単語認識手段5は
該パターンの3次元的な分布を照合辞書6と照合して発
話単語を認識する。該照合の際には、該パターンと発話
時の音声信号との時間的ずれを利用して、発話単語を認
識する。
認識して文字列を入力する文字入力方法及び装置を提供
する。 【解決手段】 まず、高速度画像入力手段1はカメラで
撮影した発話者の唇、又は唇と顎を含む領域の高速度画
像を入力する。次に、形状抽出手段2は該高速度画像か
ら唇を含む形状を抽出する。次に、形状変化抽出手段3
は抽出された唇を含む形状、及び該形状の時間的変化の
パターンを抽出する。次に、パターン分布算出手段4は
該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成する。最後に、発話単語認識手段5は
該パターンの3次元的な分布を照合辞書6と照合して発
話単語を認識する。該照合の際には、該パターンと発話
時の音声信号との時間的ずれを利用して、発話単語を認
識する。
Description
【0001】
【発明の属する技術分野】本発明は、PCや携帯端末な
どのコンピュータ、あるいは、電話やテレビなどの家電
の入力装置、発話障害者、難聴者のためのインタフェー
スなど、音声情報を扱うインタフェースを有する文字入
力方法及び装置に関するものである。
どのコンピュータ、あるいは、電話やテレビなどの家電
の入力装置、発話障害者、難聴者のためのインタフェー
スなど、音声情報を扱うインタフェースを有する文字入
力方法及び装置に関するものである。
【0002】
【従来の技術】上記分野で広く利用される文字入力イン
タフェースは音声信号を処理するものであるが、これら
の方式では、周囲の雑音を受けやすく、十分な精度の認
識を行うのが難しいという問題がある。また、周囲から
見ると独り言を言っているようで、インタフェースとし
て利用しづらいという問題もある。このような問題に対
して、これまで、画像情報を利用した文字入力に関する
技術がいくつか開発されている。例えば、特開平11−
149296号に記載の装置は、入力された画像情報か
ら唇の動きを追跡し、発話単語を認識するものである。
タフェースは音声信号を処理するものであるが、これら
の方式では、周囲の雑音を受けやすく、十分な精度の認
識を行うのが難しいという問題がある。また、周囲から
見ると独り言を言っているようで、インタフェースとし
て利用しづらいという問題もある。このような問題に対
して、これまで、画像情報を利用した文字入力に関する
技術がいくつか開発されている。例えば、特開平11−
149296号に記載の装置は、入力された画像情報か
ら唇の動きを追跡し、発話単語を認識するものである。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな画像情報は時間的な解像度が低いため、唇形状の変
化を高速度に取得することはできない。そのため、文字
入力に利用する場合、非常に高速に動く唇を対象にする
ことになるので、十分な精度の認識を行うことが難し
く、実用的に利用できないという問題がある。これに対
して、特開平6−12483号に記載の方法及び装置
は、筋電位波形を利用することで、こうした問題を解決
している。ところが、入力インタフェースを考えた場
合、このような装置は大掛かりなものとなってしまい、
また、離れた位置から簡単に画像情報を獲得できるとい
うカメラの利点を利用できなくなってしまうという問題
がある。
うな画像情報は時間的な解像度が低いため、唇形状の変
化を高速度に取得することはできない。そのため、文字
入力に利用する場合、非常に高速に動く唇を対象にする
ことになるので、十分な精度の認識を行うことが難し
く、実用的に利用できないという問題がある。これに対
して、特開平6−12483号に記載の方法及び装置
は、筋電位波形を利用することで、こうした問題を解決
している。ところが、入力インタフェースを考えた場
合、このような装置は大掛かりなものとなってしまい、
また、離れた位置から簡単に画像情報を獲得できるとい
うカメラの利点を利用できなくなってしまうという問題
がある。
【0004】本発明は上述したような従来技術が有する
問題点に鑑みてなされたものであって、画像情報を利用
して人間の発話を高精度に認識し文字列を入力する文字
入力方法及び装置を提供することを課題とする。
問題点に鑑みてなされたものであって、画像情報を利用
して人間の発話を高精度に認識し文字列を入力する文字
入力方法及び装置を提供することを課題とする。
【0005】
【課題を解決するための手段】上記の課題を解決するた
め、本発明による文字入力方法は、人間の発話を認識し
て文字列を入力する文字入力方法であって、少なくとも
発話者の唇を含む形状、及び該形状の時間的変化のパタ
ーンから、発話単語を認識することを特徴とする。
め、本発明による文字入力方法は、人間の発話を認識し
て文字列を入力する文字入力方法であって、少なくとも
発話者の唇を含む形状、及び該形状の時間的変化のパタ
ーンから、発話単語を認識することを特徴とする。
【0006】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、高速度撮影が可
能なカメラで撮影された唇、または唇及び顎を含む領域
の画像から抽出することを特徴とする。
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、高速度撮影が可
能なカメラで撮影された唇、または唇及び顎を含む領域
の画像から抽出することを特徴とする。
【0007】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、画像から抽出し
た特徴点の遷移量を高速度な時間間隔で算出することに
より算出することを特徴とする。
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、画像から抽出し
た特徴点の遷移量を高速度な時間間隔で算出することに
より算出することを特徴とする。
【0008】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記パターンの3次
元的な分布を照合することにより、発話単語を認識する
ことを特徴とする。
前記発話単語を認識する過程では、前記パターンの3次
元的な分布を照合することにより、発話単語を認識する
ことを特徴とする。
【0009】あるいは、上記の文字入力方法において、
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布を、画像の領域に含まれる
すべての特徴点で前記唇を含む形状、及び該形状の時間
的変化のパターンを算出することにより生成することを
特徴とする。
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布を、画像の領域に含まれる
すべての特徴点で前記唇を含む形状、及び該形状の時間
的変化のパターンを算出することにより生成することを
特徴とする。
【0010】あるいは、上記の文字入力方法において、
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布、及び発話時に獲得される
音声信号との時間的ずれを利用することを特徴とする。
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布、及び発話時に獲得される
音声信号との時間的ずれを利用することを特徴とする。
【0011】また、本発明による文字入力装置は、人間
の発話を認識して文字列を入力する文字入力装置であっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する高速度画像入力手段と、該高速
度画像から該唇を含む形状を抽出する形状抽出手段と、
該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手段と、該
パターンの3次元的な分布を照合して発話単語を認識す
る発話単語認識手段と、を備えることを特徴とする。
の発話を認識して文字列を入力する文字入力装置であっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する高速度画像入力手段と、該高速
度画像から該唇を含む形状を抽出する形状抽出手段と、
該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手段と、該
パターンの3次元的な分布を照合して発話単語を認識す
る発話単語認識手段と、を備えることを特徴とする。
【0012】あるいは、上記の文字入力装置において、
前記発話単語認識手段は、前記パターンの3次元的な分
布を照合する際、発話時に獲得される音声信号との時間
的ずれを利用して、発話単語を認識するものであること
を特徴とする。
前記発話単語認識手段は、前記パターンの3次元的な分
布を照合する際、発話時に獲得される音声信号との時間
的ずれを利用して、発話単語を認識するものであること
を特徴とする。
【0013】また、本発明による文字入力プログラム
は、人間の発話を認識して文字列を入力する文字入力方
法をコンピュータで実行するためのプログラムであっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する手順と、該高速度画像から該唇
を含む形状を抽出する手順と、該高速度画像から抽出さ
れた該唇を含む形状、及び該形状の時間的変化のパター
ンを抽出する手順と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手順と、該パターンの3次元的な分布を照合して
発話単語を認識する手順と、を備えることを特徴とす
る。
は、人間の発話を認識して文字列を入力する文字入力方
法をコンピュータで実行するためのプログラムであっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する手順と、該高速度画像から該唇
を含む形状を抽出する手順と、該高速度画像から抽出さ
れた該唇を含む形状、及び該形状の時間的変化のパター
ンを抽出する手順と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手順と、該パターンの3次元的な分布を照合して
発話単語を認識する手順と、を備えることを特徴とす
る。
【0014】あるいは、上記の文字入力プログラムにお
いて、前記発話単語を認識する手順では、前記パターン
の3次元的な分布を照合する際、発話時に獲得される音
声信号との時間的ずれを利用して、発話単語を認識する
ことを特徴とする。
いて、前記発話単語を認識する手順では、前記パターン
の3次元的な分布を照合する際、発話時に獲得される音
声信号との時間的ずれを利用して、発話単語を認識する
ことを特徴とする。
【0015】また、本発明による文字入力プログラムを
記憶した記憶媒体は、人間の発話を認識して文字列を入
力する文字入力方法をコンピュータで実行するためのプ
ログラムを記憶した記憶媒体であって、発話者の少なく
とも唇、または唇及び顎を含む領域の高速度画像を入力
する手順と、該高速度画像から該唇を含む形状を抽出す
る手順と、該高速度画像から抽出された該唇を含む形
状、及び該形状の時間的変化のパターンを抽出する手順
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手順と、該
パターンの3次元的な分布を照合して発話単語を認識す
る手順と、を備える文字入力プログラムを該コンピュー
タで実行するために、該コンピュータが読み取り可能な
記憶媒体に記憶したことを特徴とする。
記憶した記憶媒体は、人間の発話を認識して文字列を入
力する文字入力方法をコンピュータで実行するためのプ
ログラムを記憶した記憶媒体であって、発話者の少なく
とも唇、または唇及び顎を含む領域の高速度画像を入力
する手順と、該高速度画像から該唇を含む形状を抽出す
る手順と、該高速度画像から抽出された該唇を含む形
状、及び該形状の時間的変化のパターンを抽出する手順
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手順と、該
パターンの3次元的な分布を照合して発話単語を認識す
る手順と、を備える文字入力プログラムを該コンピュー
タで実行するために、該コンピュータが読み取り可能な
記憶媒体に記憶したことを特徴とする。
【0016】あるいは、上記の文字入力プログラムを記
憶した記憶媒体において、前記発話単語を認識する手順
では、前記パターンの3次元的な分布を照合する際、発
話時に獲得される音声信号との時間的ずれを利用して、
発話単語を認識することを特徴とする。
憶した記憶媒体において、前記発話単語を認識する手順
では、前記パターンの3次元的な分布を照合する際、発
話時に獲得される音声信号との時間的ずれを利用して、
発話単語を認識することを特徴とする。
【0017】本発明では、人間の発話を認識する際、例
えば、高速度撮影が可能なカメラで撮影された唇を含む
領域、または唇及び顎を含む領域の画像から抽出された
特徴点の遷移量を高速度な時間間隔で算出することによ
り、唇を含む形状、及び該形状の時間的変化のパターン
を算出できるようにし、カメラ等の撮像手段の画像を用
いた高精度な発話単語の認識を実現する。
えば、高速度撮影が可能なカメラで撮影された唇を含む
領域、または唇及び顎を含む領域の画像から抽出された
特徴点の遷移量を高速度な時間間隔で算出することによ
り、唇を含む形状、及び該形状の時間的変化のパターン
を算出できるようにし、カメラ等の撮像手段の画像を用
いた高精度な発話単語の認識を実現する。
【0018】また、前記唇を含む形状、及び該形状の時
間的変化のパターンの3次元的な分布、更には、発話時
に獲得される音声信号との時間的ずれを利用することに
より、発話単語を照合できるようにし、発話単語の認識
の際、照合におけるノイズを軽減し、効率の良い非常に
高速な処理を実現する。
間的変化のパターンの3次元的な分布、更には、発話時
に獲得される音声信号との時間的ずれを利用することに
より、発話単語を照合できるようにし、発話単語の認識
の際、照合におけるノイズを軽減し、効率の良い非常に
高速な処理を実現する。
【0019】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。
て図面を用いて説明する。
【0020】本発明による文字入力方法を実現する装置
の実施形態例を図1に示す。本実施形態例による装置
は、発話者の唇、及び顎を含む領域の高速度画像を入力
する高速度画像入力手段1と、該高速度画像から唇の形
状を抽出する形状抽出手段2と、該高速度画像から唇の
形状、及び該形状の時間的変化のパターンを抽出する形
状変化抽出手段3と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手段4と、該パターンの3次元的な分布から発話
単語を認識する発話単語認識手段5と、を備えている。
また、発話単語を認識するための、唇の形状、及び該形
状の時間的変化のパターンの3次元的な分布と該単語の
対応づけを記述している照合辞書6を備えている。
の実施形態例を図1に示す。本実施形態例による装置
は、発話者の唇、及び顎を含む領域の高速度画像を入力
する高速度画像入力手段1と、該高速度画像から唇の形
状を抽出する形状抽出手段2と、該高速度画像から唇の
形状、及び該形状の時間的変化のパターンを抽出する形
状変化抽出手段3と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手段4と、該パターンの3次元的な分布から発話
単語を認識する発話単語認識手段5と、を備えている。
また、発話単語を認識するための、唇の形状、及び該形
状の時間的変化のパターンの3次元的な分布と該単語の
対応づけを記述している照合辞書6を備えている。
【0021】まず、高速度画像入力手段1において、発
話者の唇、及び顎は、高速度カメラなどにより、高速度
な時間間隔で連続する2次元画像データとして入力され
る。入力対象となる領域は、唇、及び顎が確実に捕えら
れるように目の下あたりから咽のあたりまでの範囲であ
る。
話者の唇、及び顎は、高速度カメラなどにより、高速度
な時間間隔で連続する2次元画像データとして入力され
る。入力対象となる領域は、唇、及び顎が確実に捕えら
れるように目の下あたりから咽のあたりまでの範囲であ
る。
【0022】次に、形状抽出手段2により、得られた画
像デー夕から、唇、及び顎の輪郭などを示す特徴点の解
析が行われる。この形状解析の方法は種々あり、例え
ば、エッジ強調などの画像処理後、2値化して形状を求
める方法などがある。これらの手法は、従来の手法と特
に変わるところがないので、ここではその詳細な説明は
省略する。
像デー夕から、唇、及び顎の輪郭などを示す特徴点の解
析が行われる。この形状解析の方法は種々あり、例え
ば、エッジ強調などの画像処理後、2値化して形状を求
める方法などがある。これらの手法は、従来の手法と特
に変わるところがないので、ここではその詳細な説明は
省略する。
【0023】次に、こうして得られた唇、及び顎の輪郭
などを示す抽出した特徴点に対して、形状変化抽出手段
3において、その遷移量を高速度な時間間隔で算出し、
唇の形状、及び該形状の時間的変化のパターンが算出さ
れる。
などを示す抽出した特徴点に対して、形状変化抽出手段
3において、その遷移量を高速度な時間間隔で算出し、
唇の形状、及び該形状の時間的変化のパターンが算出さ
れる。
【0024】次に、パターン分布算出手段4において、
このパターンを処理対象領域に含まれるすべての特徴点
の遷移を積み重ねることにより、唇の形状、及び該形状
の時間的変化のパターンの3次元的な分布が生成され
る。
このパターンを処理対象領域に含まれるすべての特徴点
の遷移を積み重ねることにより、唇の形状、及び該形状
の時間的変化のパターンの3次元的な分布が生成され
る。
【0025】最後に、発話単語認識手段6において、こ
うして得られた3次元的なパターン分布を、あらかじめ
格納しておいたパターン分布の照合辞書6と照合するこ
とにより、出力として認識された文字列を得る。なお、
好ましくは、発話時に獲得される音声信号の時間的ずれ
を、この照合の際のパラメータとして処理するとしても
よい。
うして得られた3次元的なパターン分布を、あらかじめ
格納しておいたパターン分布の照合辞書6と照合するこ
とにより、出力として認識された文字列を得る。なお、
好ましくは、発話時に獲得される音声信号の時間的ずれ
を、この照合の際のパラメータとして処理するとしても
よい。
【0026】こうして得られた文字列は、いわゆるFE
Pなどの文字入力に関する処理に送られ、実際の文字の
入力が行われることになる。
Pなどの文字入力に関する処理に送られ、実際の文字の
入力が行われることになる。
【0027】以降では、上述した処理を実際のデータに
即して、具体的に示す。高速度画像入力手段1におい
て、発話者の唇、及び顎の2次元画像データが、高速度
カメラにより、500フレーム/秒入力されたとする。
例えば、図2に示すような画像が、高速度な時間間隔で
連続して入力されることになる。
即して、具体的に示す。高速度画像入力手段1におい
て、発話者の唇、及び顎の2次元画像データが、高速度
カメラにより、500フレーム/秒入力されたとする。
例えば、図2に示すような画像が、高速度な時間間隔で
連続して入力されることになる。
【0028】次に、形状抽出手段2により、唇、及び顎
の輪郭などの特徴点が算出される。例えば、図2に示す
2次元画像データから、図3に示すような特徴点が算出
されることになる。
の輪郭などの特徴点が算出される。例えば、図2に示す
2次元画像データから、図3に示すような特徴点が算出
されることになる。
【0029】次に、こうして得られた特徴点に対して、
形状変化抽出手段3において、その遷移量を高速度な時
間間隔で算出し、唇の形状、及び該形状の時間的変化の
パターンが算出される。例えば、図3の302に示す特
徴点の時間的変化のパターンを示すと、図4に示すよう
になる。
形状変化抽出手段3において、その遷移量を高速度な時
間間隔で算出し、唇の形状、及び該形状の時間的変化の
パターンが算出される。例えば、図3の302に示す特
徴点の時間的変化のパターンを示すと、図4に示すよう
になる。
【0030】次に、このようなパターンを、パターン分
布算出手段4において、処理対象領域に含まれるすべて
の特徴点の遷移を積み重ねることにより、唇の形状、及
び該形状の時間的変化のパターンの3次元的な分布を生
成する。例えば、この3次元的な分布を、特徴点の数を
絞って見やすく表示すると、図5に示すようになる。
布算出手段4において、処理対象領域に含まれるすべて
の特徴点の遷移を積み重ねることにより、唇の形状、及
び該形状の時間的変化のパターンの3次元的な分布を生
成する。例えば、この3次元的な分布を、特徴点の数を
絞って見やすく表示すると、図5に示すようになる。
【0031】このとき、発話時に獲得される音声信号と
図4のパターンを、時間軸を合わせて重畳表示すると、
図6のようになる。このように、唇の動き始めや終わり
は、音声信号が発せられるのと同じタイミングで行われ
るのではなく、時間的なずれが生じていることがわか
る。この時間的ずれ、及び算出されたパターンの3次元
的な分布を、発話単語認識手段5にて、あらかじめ格納
しておいたパターン分布の照合辞書6と照合して、文字
列を得ることになる。
図4のパターンを、時間軸を合わせて重畳表示すると、
図6のようになる。このように、唇の動き始めや終わり
は、音声信号が発せられるのと同じタイミングで行われ
るのではなく、時間的なずれが生じていることがわか
る。この時間的ずれ、及び算出されたパターンの3次元
的な分布を、発話単語認識手段5にて、あらかじめ格納
しておいたパターン分布の照合辞書6と照合して、文字
列を得ることになる。
【0032】なお、図1で示した処理の各部の一部もし
くは全部の処理機能を、コンピュータを用いて実現でき
ること、あるいは、その構成により実現される処理手順
をコンピュータに実行させることができることは言うま
でもなく、コンピュータでその各部の処理機能を実現す
るためのプログラム、あるいは、コンピュータにその処
理手順を実行させるためのプログラムを、そのコンピュ
ータが読み取り可能な記憶媒体、例えば、FD(フロッ
ピーディスク:登録商標)や、MO、ROM、メモリカ
ード、CD、DVD、リムーバルディスクなどに記録し
て、保存したり、提供したりすることが可能であり、ま
た、インターネットのような通信ネットワークを通じて
配布したりすることが可能である。
くは全部の処理機能を、コンピュータを用いて実現でき
ること、あるいは、その構成により実現される処理手順
をコンピュータに実行させることができることは言うま
でもなく、コンピュータでその各部の処理機能を実現す
るためのプログラム、あるいは、コンピュータにその処
理手順を実行させるためのプログラムを、そのコンピュ
ータが読み取り可能な記憶媒体、例えば、FD(フロッ
ピーディスク:登録商標)や、MO、ROM、メモリカ
ード、CD、DVD、リムーバルディスクなどに記録し
て、保存したり、提供したりすることが可能であり、ま
た、インターネットのような通信ネットワークを通じて
配布したりすることが可能である。
【0033】以上、本発明を実施形態例に基づき具体的
に説明したが、本発明は上記の実施形態例に限定される
ものではなく、その要旨を逸脱しない範囲で種々変更可
能であることはいうまでもない。また、本発明は、複数
の機器から構成されるシステムに適用しても、1つの機
器から成る装置に適用しても良い。また、本発明は、シ
ステム或は装置にプログラムを供給することによって達
成される場合にも適用できることは言うまでもない。
に説明したが、本発明は上記の実施形態例に限定される
ものではなく、その要旨を逸脱しない範囲で種々変更可
能であることはいうまでもない。また、本発明は、複数
の機器から構成されるシステムに適用しても、1つの機
器から成る装置に適用しても良い。また、本発明は、シ
ステム或は装置にプログラムを供給することによって達
成される場合にも適用できることは言うまでもない。
【0034】
【発明の効果】本発明によれば、人間の発話を認識する
際、例えば、高速度撮影が可能なカメラで撮影された
唇、または唇及び顎を含む領域の画像から抽出された特
徴点の遷移量を高速度な時間間隔で算出するなどして、
唇の形状、及び該形状の時間的変化のパターンを算出で
きるようにしたので、高精度な発話単語の認識を実現で
きる効果が得られる。
際、例えば、高速度撮影が可能なカメラで撮影された
唇、または唇及び顎を含む領域の画像から抽出された特
徴点の遷移量を高速度な時間間隔で算出するなどして、
唇の形状、及び該形状の時間的変化のパターンを算出で
きるようにしたので、高精度な発話単語の認識を実現で
きる効果が得られる。
【0035】また、前記唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布、更には、発話時に獲
得される音声信号との時間的ずれを利用することによ
り、発話単語を照合できるようにしたので、発話単語の
認識の際、照合におけるノイズを軽減し、効率の良い非
常に高速な処理を実現できる効果が得られる。
変化のパターンの3次元的な分布、更には、発話時に獲
得される音声信号との時間的ずれを利用することによ
り、発話単語を照合できるようにしたので、発話単語の
認識の際、照合におけるノイズを軽減し、効率の良い非
常に高速な処理を実現できる効果が得られる。
【図1】本発明の一実施形態における文字入力方法を実
現する装置の構成図である。
現する装置の構成図である。
【図2】本発明の一実施形態における高速度画像の一例
を説明するための図である。
を説明するための図である。
【図3】本発明の一実施形態における上記の高速度画像
から抽出された特徴点の一例を説明するための図であ
る。
から抽出された特徴点の一例を説明するための図であ
る。
【図4】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの一例を説明するための図である。
間的変化のパターンの一例を説明するための図である。
【図5】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの3次元分布の一例を説明するため
の図である。
間的変化のパターンの3次元分布の一例を説明するため
の図である。
【図6】本発明の一実施形態における上記の特徴点の時
間的変化のパターンと音声信号のタイミングのずれの一
例を説明するための図である。
間的変化のパターンと音声信号のタイミングのずれの一
例を説明するための図である。
1…高速度画像入力手段 2…形状抽出手段 4…形状変化抽出手段 5…パターン分布算出手段 6…発話単語認識手段 7…照合辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 有川 知彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B057 BA02 CA12 CA16 DA06 DB02 DC05 DC16 DC36 5D015 BB01 LL00 5L096 BA20 CA02 FA06 HA01 HA09 JA11
Claims (12)
- 【請求項1】 人間の発話を認識して文字列を入力する
文字入力方法であって、 少なくとも発話者の唇を含む形状、及び該形状の時間的
変化のパターンから、発話単語を認識することを特徴と
する文字入力方法。 - 【請求項2】 前記発話単語を認識する過程では、 前記唇を含む形状、及び該形状の時間的変化のパターン
を、高速度撮影が可能なカメラで撮影された唇、または
唇及び顎を含む領域の画像から抽出することを特徴とす
る請求項1記載の文字入力方法。 - 【請求項3】 前記発話単語を認識する過程では、 前記唇を含む形状、及び該形状の時間的変化のパターン
を、画像から抽出した特徴点の遷移量を高速度な時間間
隔で算出することにより算出することを特徴とする請求
項1または2記載の文字入力方法。 - 【請求項4】 前記発話単語を認識する過程では、 前記パターンの3次元的な分布を照合することにより、
発話単語を認識することを特徴とする請求項1から3ま
でのいずれか1項記載の文字入力方法。 - 【請求項5】 前記パターンの3次元的な分布を照合す
る過程では、 前記パターンの3次元的な分布を、画像の領域に含まれ
るすべての特徴点で前記唇を含む形状、及び該形状の時
間的変化のパターンを算出することにより生成すること
を特徴とする請求項4記載の文字入力方法。 - 【請求項6】 前記パターンの3次元的な分布を照合す
る過程では、 前記パターンの3次元的な分布、及び発話時に獲得され
る音声信号との時間的ずれを利用することを特徴とする
請求項4または5記載の文字入力方法。 - 【請求項7】 人間の発話を認識して文字列を入力する
文字入力装置であって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する高速度画像入力手段と、 該高速度画像から該唇を含む形状を抽出する形状抽出手
段と、 該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、 該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成するパターン分布算出手段と、 該パターンの3次元的な分布を照合して発話単語を認識
する発話単語認識手段と、を備えることを特徴とする文
字入力装置。 - 【請求項8】 前記発話単語認識手段は、 前記パターンの3次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識するものであることを特徴とする請求項7記載
の文字入力装置。 - 【請求項9】 人間の発話を認識して文字列を入力する
文字入力方法をコンピュータで実行するためのプログラ
ムであって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する手順と、 該高速度画像から該唇を含む形状を抽出する手順と、 該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する手順と、 該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成するパターン分布算出手順と、 該パターンの3次元的な分布を照合して発話単語を認識
する手順と、を備えることを特徴とする文字入力プログ
ラム。 - 【請求項10】 前記発話単語を認識する手順では、 前記パターンの3次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識することを特徴とする請求項9記載の文字入力
プログラム。 - 【請求項11】 人間の発話を認識して文字列を入力す
る文字入力方法をコンピュータで実行するためのプログ
ラムを記憶した記憶媒体であって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する手順と、 該高速度画像から該唇を含む形状を抽出する手順と、 該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する手順と、 該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成するパターン分布算出手順と、 該パターンの3次元的な分布を照合して発話単語を認識
する手順と、 を備える文字入力プログラムを該コンピュータで実行す
るために、該コンピュータが読み取り可能な記憶媒体に
記憶したことを特徴とする文字入力プログラムを記憶し
た記憶媒体。 - 【請求項12】 前記発話単語を認識する手順では、 前記パターンの3次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識することを特徴とする請求項11記載の文字入
力プログラムを記憶した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001054745A JP2002259990A (ja) | 2001-02-28 | 2001-02-28 | 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001054745A JP2002259990A (ja) | 2001-02-28 | 2001-02-28 | 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002259990A true JP2002259990A (ja) | 2002-09-13 |
Family
ID=18915031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001054745A Pending JP2002259990A (ja) | 2001-02-28 | 2001-02-28 | 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002259990A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240154A (ja) * | 2003-02-06 | 2004-08-26 | Hitachi Ltd | 情報認識装置 |
JP2006079456A (ja) * | 2004-09-10 | 2006-03-23 | Nippon Signal Co Ltd:The | 発話識別方法及びこれを用いたパスワード照合装置 |
JP2008140268A (ja) * | 2006-12-04 | 2008-06-19 | Denso Corp | 操作推定装置およびプログラム |
-
2001
- 2001-02-28 JP JP2001054745A patent/JP2002259990A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240154A (ja) * | 2003-02-06 | 2004-08-26 | Hitachi Ltd | 情報認識装置 |
JP2006079456A (ja) * | 2004-09-10 | 2006-03-23 | Nippon Signal Co Ltd:The | 発話識別方法及びこれを用いたパスワード照合装置 |
JP2008140268A (ja) * | 2006-12-04 | 2008-06-19 | Denso Corp | 操作推定装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112088402B (zh) | 用于说话者识别的联合神经网络 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US6959099B2 (en) | Method and apparatus for automatic face blurring | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US8254691B2 (en) | Facial expression recognition apparatus and method, and image capturing apparatus | |
CN114333896B (zh) | 语音分离方法、电子设备、芯片及计算机可读存储介质 | |
JPH09134194A (ja) | 読話のための画像認識システム | |
CN110941992B (zh) | 微笑表情检测方法、装置、计算机设备及存储介质 | |
JP2019200671A (ja) | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN111339806A (zh) | 唇语识别模型的训练方法、活体识别方法及装置 | |
CN112639964A (zh) | 利用深度信息识别语音的方法、系统及计算机可读介质 | |
CN117854507A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN112906544A (zh) | 一种适用于多目标的基于声纹和人脸的匹配方法 | |
JP7694709B2 (ja) | 遠隔会議実行プログラム、遠隔会議実行方法、及び遠隔会議実行装置 | |
US12142078B2 (en) | Emotion recognition and notification system | |
US11842745B2 (en) | Method, system, and computer-readable medium for purifying voice using depth information | |
CN113544735A (zh) | 人认证设备、控制方法和程序 | |
JP2023117068A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム | |
Korshunov et al. | Vulnerability of automatic identity recognition to audio-visual deepfakes | |
JP2002259990A (ja) | 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 | |
CN115394294A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
Ivanko et al. | A novel task-oriented approach toward automated lip-reading system implementation | |
Goecke | Current trends in joint audio-video signal processing: A review | |
JPH10149447A (ja) | ジェスチャー認識方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050809 |