JP2002259990A

JP2002259990A - 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Info

Publication number: JP2002259990A
Application number: JP2001054745A
Authority: JP
Inventors: Kensaku Fujii; 憲作藤井; Jun Shimamura; 潤島村; Tomohiko Arikawa; 知彦有川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-02-28
Filing date: 2001-02-28
Publication date: 2002-09-13

Abstract

(57)【要約】【課題】画像情報を利用して、人間の発話を高精度に
認識して文字列を入力する文字入力方法及び装置を提供
する。【解決手段】まず、高速度画像入力手段１はカメラで
撮影した発話者の唇、又は唇と顎を含む領域の高速度画
像を入力する。次に、形状抽出手段２は該高速度画像か
ら唇を含む形状を抽出する。次に、形状変化抽出手段３
は抽出された唇を含む形状、及び該形状の時間的変化の
パターンを抽出する。次に、パターン分布算出手段４は
該唇の形状、及び該形状の時間的変化のパターンの３次
元的な分布を生成する。最後に、発話単語認識手段５は
該パターンの３次元的な分布を照合辞書６と照合して発
話単語を認識する。該照合の際には、該パターンと発話
時の音声信号との時間的ずれを利用して、発話単語を認
識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＰＣや携帯端末な
どのコンピュータ、あるいは、電話やテレビなどの家電
の入力装置、発話障害者、難聴者のためのインタフェー
スなど、音声情報を扱うインタフェースを有する文字入
力方法及び装置に関するものである。

【０００２】

【従来の技術】上記分野で広く利用される文字入力イン
タフェースは音声信号を処理するものであるが、これら
の方式では、周囲の雑音を受けやすく、十分な精度の認
識を行うのが難しいという問題がある。また、周囲から
見ると独り言を言っているようで、インタフェースとし
て利用しづらいという問題もある。このような問題に対
して、これまで、画像情報を利用した文字入力に関する
技術がいくつか開発されている。例えば、特開平１１−
１４９２９６号に記載の装置は、入力された画像情報か
ら唇の動きを追跡し、発話単語を認識するものである。

【０００３】

【発明が解決しようとする課題】しかしながら、このよ
うな画像情報は時間的な解像度が低いため、唇形状の変
化を高速度に取得することはできない。そのため、文字
入力に利用する場合、非常に高速に動く唇を対象にする
ことになるので、十分な精度の認識を行うことが難し
く、実用的に利用できないという問題がある。これに対
して、特開平６−１２４８３号に記載の方法及び装置
は、筋電位波形を利用することで、こうした問題を解決
している。ところが、入力インタフェースを考えた場
合、このような装置は大掛かりなものとなってしまい、
また、離れた位置から簡単に画像情報を獲得できるとい
うカメラの利点を利用できなくなってしまうという問題
がある。

【０００４】本発明は上述したような従来技術が有する
問題点に鑑みてなされたものであって、画像情報を利用
して人間の発話を高精度に認識し文字列を入力する文字
入力方法及び装置を提供することを課題とする。

【０００５】

【課題を解決するための手段】上記の課題を解決するた
め、本発明による文字入力方法は、人間の発話を認識し
て文字列を入力する文字入力方法であって、少なくとも
発話者の唇を含む形状、及び該形状の時間的変化のパタ
ーンから、発話単語を認識することを特徴とする。

【０００６】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、高速度撮影が可
能なカメラで撮影された唇、または唇及び顎を含む領域
の画像から抽出することを特徴とする。

【０００７】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、画像から抽出し
た特徴点の遷移量を高速度な時間間隔で算出することに
より算出することを特徴とする。

【０００８】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記パターンの３次
元的な分布を照合することにより、発話単語を認識する
ことを特徴とする。

【０００９】あるいは、上記の文字入力方法において、
前記パターンの３次元的な分布を照合する過程では、前
記パターンの３次元的な分布を、画像の領域に含まれる
すべての特徴点で前記唇を含む形状、及び該形状の時間
的変化のパターンを算出することにより生成することを
特徴とする。

【００１０】あるいは、上記の文字入力方法において、
前記パターンの３次元的な分布を照合する過程では、前
記パターンの３次元的な分布、及び発話時に獲得される
音声信号との時間的ずれを利用することを特徴とする。

【００１１】また、本発明による文字入力装置は、人間
の発話を認識して文字列を入力する文字入力装置であっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する高速度画像入力手段と、該高速
度画像から該唇を含む形状を抽出する形状抽出手段と、
該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、該唇の形状、及び該形状の時間的変化のパターンの
３次元的な分布を生成するパターン分布算出手段と、該
パターンの３次元的な分布を照合して発話単語を認識す
る発話単語認識手段と、を備えることを特徴とする。

【００１２】あるいは、上記の文字入力装置において、
前記発話単語認識手段は、前記パターンの３次元的な分
布を照合する際、発話時に獲得される音声信号との時間
的ずれを利用して、発話単語を認識するものであること
を特徴とする。

【００１３】また、本発明による文字入力プログラム
は、人間の発話を認識して文字列を入力する文字入力方
法をコンピュータで実行するためのプログラムであっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する手順と、該高速度画像から該唇
を含む形状を抽出する手順と、該高速度画像から抽出さ
れた該唇を含む形状、及び該形状の時間的変化のパター
ンを抽出する手順と、該唇の形状、及び該形状の時間的
変化のパターンの３次元的な分布を生成するパターン分
布算出手順と、該パターンの３次元的な分布を照合して
発話単語を認識する手順と、を備えることを特徴とす
る。

【００１４】あるいは、上記の文字入力プログラムにお
いて、前記発話単語を認識する手順では、前記パターン
の３次元的な分布を照合する際、発話時に獲得される音
声信号との時間的ずれを利用して、発話単語を認識する
ことを特徴とする。

【００１５】また、本発明による文字入力プログラムを
記憶した記憶媒体は、人間の発話を認識して文字列を入
力する文字入力方法をコンピュータで実行するためのプ
ログラムを記憶した記憶媒体であって、発話者の少なく
とも唇、または唇及び顎を含む領域の高速度画像を入力
する手順と、該高速度画像から該唇を含む形状を抽出す
る手順と、該高速度画像から抽出された該唇を含む形
状、及び該形状の時間的変化のパターンを抽出する手順
と、該唇の形状、及び該形状の時間的変化のパターンの
３次元的な分布を生成するパターン分布算出手順と、該
パターンの３次元的な分布を照合して発話単語を認識す
る手順と、を備える文字入力プログラムを該コンピュー
タで実行するために、該コンピュータが読み取り可能な
記憶媒体に記憶したことを特徴とする。

【００１６】あるいは、上記の文字入力プログラムを記
憶した記憶媒体において、前記発話単語を認識する手順
では、前記パターンの３次元的な分布を照合する際、発
話時に獲得される音声信号との時間的ずれを利用して、
発話単語を認識することを特徴とする。

【００１７】本発明では、人間の発話を認識する際、例
えば、高速度撮影が可能なカメラで撮影された唇を含む
領域、または唇及び顎を含む領域の画像から抽出された
特徴点の遷移量を高速度な時間間隔で算出することによ
り、唇を含む形状、及び該形状の時間的変化のパターン
を算出できるようにし、カメラ等の撮像手段の画像を用
いた高精度な発話単語の認識を実現する。

【００１８】また、前記唇を含む形状、及び該形状の時
間的変化のパターンの３次元的な分布、更には、発話時
に獲得される音声信号との時間的ずれを利用することに
より、発話単語を照合できるようにし、発話単語の認識
の際、照合におけるノイズを軽減し、効率の良い非常に
高速な処理を実現する。

【００１９】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。

【００２０】本発明による文字入力方法を実現する装置
の実施形態例を図１に示す。本実施形態例による装置
は、発話者の唇、及び顎を含む領域の高速度画像を入力
する高速度画像入力手段１と、該高速度画像から唇の形
状を抽出する形状抽出手段２と、該高速度画像から唇の
形状、及び該形状の時間的変化のパターンを抽出する形
状変化抽出手段３と、該唇の形状、及び該形状の時間的
変化のパターンの３次元的な分布を生成するパターン分
布算出手段４と、該パターンの３次元的な分布から発話
単語を認識する発話単語認識手段５と、を備えている。
また、発話単語を認識するための、唇の形状、及び該形
状の時間的変化のパターンの３次元的な分布と該単語の
対応づけを記述している照合辞書６を備えている。

【００２１】まず、高速度画像入力手段１において、発
話者の唇、及び顎は、高速度カメラなどにより、高速度
な時間間隔で連続する２次元画像データとして入力され
る。入力対象となる領域は、唇、及び顎が確実に捕えら
れるように目の下あたりから咽のあたりまでの範囲であ
る。

【００２２】次に、形状抽出手段２により、得られた画
像デー夕から、唇、及び顎の輪郭などを示す特徴点の解
析が行われる。この形状解析の方法は種々あり、例え
ば、エッジ強調などの画像処理後、２値化して形状を求
める方法などがある。これらの手法は、従来の手法と特
に変わるところがないので、ここではその詳細な説明は
省略する。

【００２３】次に、こうして得られた唇、及び顎の輪郭
などを示す抽出した特徴点に対して、形状変化抽出手段
３において、その遷移量を高速度な時間間隔で算出し、
唇の形状、及び該形状の時間的変化のパターンが算出さ
れる。

【００２４】次に、パターン分布算出手段４において、
このパターンを処理対象領域に含まれるすべての特徴点
の遷移を積み重ねることにより、唇の形状、及び該形状
の時間的変化のパターンの３次元的な分布が生成され
る。

【００２５】最後に、発話単語認識手段６において、こ
うして得られた３次元的なパターン分布を、あらかじめ
格納しておいたパターン分布の照合辞書６と照合するこ
とにより、出力として認識された文字列を得る。なお、
好ましくは、発話時に獲得される音声信号の時間的ずれ
を、この照合の際のパラメータとして処理するとしても
よい。

【００２６】こうして得られた文字列は、いわゆるＦＥ
Ｐなどの文字入力に関する処理に送られ、実際の文字の
入力が行われることになる。

【００２７】以降では、上述した処理を実際のデータに
即して、具体的に示す。高速度画像入力手段１におい
て、発話者の唇、及び顎の２次元画像データが、高速度
カメラにより、５００フレーム／秒入力されたとする。
例えば、図２に示すような画像が、高速度な時間間隔で
連続して入力されることになる。

【００２８】次に、形状抽出手段２により、唇、及び顎
の輪郭などの特徴点が算出される。例えば、図２に示す
２次元画像データから、図３に示すような特徴点が算出
されることになる。

【００２９】次に、こうして得られた特徴点に対して、
形状変化抽出手段３において、その遷移量を高速度な時
間間隔で算出し、唇の形状、及び該形状の時間的変化の
パターンが算出される。例えば、図３の３０２に示す特
徴点の時間的変化のパターンを示すと、図４に示すよう
になる。

【００３０】次に、このようなパターンを、パターン分
布算出手段４において、処理対象領域に含まれるすべて
の特徴点の遷移を積み重ねることにより、唇の形状、及
び該形状の時間的変化のパターンの３次元的な分布を生
成する。例えば、この３次元的な分布を、特徴点の数を
絞って見やすく表示すると、図５に示すようになる。

【００３１】このとき、発話時に獲得される音声信号と
図４のパターンを、時間軸を合わせて重畳表示すると、
図６のようになる。このように、唇の動き始めや終わり
は、音声信号が発せられるのと同じタイミングで行われ
るのではなく、時間的なずれが生じていることがわか
る。この時間的ずれ、及び算出されたパターンの３次元
的な分布を、発話単語認識手段５にて、あらかじめ格納
しておいたパターン分布の照合辞書６と照合して、文字
列を得ることになる。

【００３２】なお、図１で示した処理の各部の一部もし
くは全部の処理機能を、コンピュータを用いて実現でき
ること、あるいは、その構成により実現される処理手順
をコンピュータに実行させることができることは言うま
でもなく、コンピュータでその各部の処理機能を実現す
るためのプログラム、あるいは、コンピュータにその処
理手順を実行させるためのプログラムを、そのコンピュ
ータが読み取り可能な記憶媒体、例えば、ＦＤ（フロッ
ピーディスク：登録商標）や、ＭＯ、ＲＯＭ、メモリカ
ード、ＣＤ、ＤＶＤ、リムーバルディスクなどに記録し
て、保存したり、提供したりすることが可能であり、ま
た、インターネットのような通信ネットワークを通じて
配布したりすることが可能である。

【００３３】以上、本発明を実施形態例に基づき具体的
に説明したが、本発明は上記の実施形態例に限定される
ものではなく、その要旨を逸脱しない範囲で種々変更可
能であることはいうまでもない。また、本発明は、複数
の機器から構成されるシステムに適用しても、１つの機
器から成る装置に適用しても良い。また、本発明は、シ
ステム或は装置にプログラムを供給することによって達
成される場合にも適用できることは言うまでもない。

【００３４】

【発明の効果】本発明によれば、人間の発話を認識する
際、例えば、高速度撮影が可能なカメラで撮影された
唇、または唇及び顎を含む領域の画像から抽出された特
徴点の遷移量を高速度な時間間隔で算出するなどして、
唇の形状、及び該形状の時間的変化のパターンを算出で
きるようにしたので、高精度な発話単語の認識を実現で
きる効果が得られる。

【００３５】また、前記唇の形状、及び該形状の時間的
変化のパターンの３次元的な分布、更には、発話時に獲
得される音声信号との時間的ずれを利用することによ
り、発話単語を照合できるようにしたので、発話単語の
認識の際、照合におけるノイズを軽減し、効率の良い非
常に高速な処理を実現できる効果が得られる。

【図面の簡単な説明】

【図１】本発明の一実施形態における文字入力方法を実
現する装置の構成図である。

【図２】本発明の一実施形態における高速度画像の一例
を説明するための図である。

【図３】本発明の一実施形態における上記の高速度画像
から抽出された特徴点の一例を説明するための図であ
る。

【図４】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの一例を説明するための図である。

【図５】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの３次元分布の一例を説明するため
の図である。

【図６】本発明の一実施形態における上記の特徴点の時
間的変化のパターンと音声信号のタイミングのずれの一
例を説明するための図である。

【符号の説明】

１…高速度画像入力手段２…形状抽出手段４…形状変化抽出手段５…パターン分布算出手段６…発話単語認識手段７…照合辞書

───────────────────────────────────────────────────── フロントページの続き (72)発明者有川知彦東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5B057 BA02 CA12 CA16 DA06 DB02 DC05 DC16 DC36 5D015 BB01 LL00 5L096 BA20 CA02 FA06 HA01 HA09 JA11

Claims

【特許請求の範囲】

【請求項１】人間の発話を認識して文字列を入力する
文字入力方法であって、少なくとも発話者の唇を含む形状、及び該形状の時間的
変化のパターンから、発話単語を認識することを特徴と
する文字入力方法。
【請求項２】前記発話単語を認識する過程では、前記唇を含む形状、及び該形状の時間的変化のパターン
を、高速度撮影が可能なカメラで撮影された唇、または
唇及び顎を含む領域の画像から抽出することを特徴とす
る請求項１記載の文字入力方法。
【請求項３】前記発話単語を認識する過程では、前記唇を含む形状、及び該形状の時間的変化のパターン
を、画像から抽出した特徴点の遷移量を高速度な時間間
隔で算出することにより算出することを特徴とする請求
項１または２記載の文字入力方法。
【請求項４】前記発話単語を認識する過程では、前記パターンの３次元的な分布を照合することにより、
発話単語を認識することを特徴とする請求項１から３ま
でのいずれか１項記載の文字入力方法。
【請求項５】前記パターンの３次元的な分布を照合す
る過程では、前記パターンの３次元的な分布を、画像の領域に含まれ
るすべての特徴点で前記唇を含む形状、及び該形状の時
間的変化のパターンを算出することにより生成すること
を特徴とする請求項４記載の文字入力方法。
【請求項６】前記パターンの３次元的な分布を照合す
る過程では、前記パターンの３次元的な分布、及び発話時に獲得され
る音声信号との時間的ずれを利用することを特徴とする
請求項４または５記載の文字入力方法。
【請求項７】人間の発話を認識して文字列を入力する
文字入力装置であって、発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する高速度画像入力手段と、該高速度画像から該唇を含む形状を抽出する形状抽出手
段と、該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、該唇の形状、及び該形状の時間的変化のパターンの３次
元的な分布を生成するパターン分布算出手段と、該パターンの３次元的な分布を照合して発話単語を認識
する発話単語認識手段と、を備えることを特徴とする文
字入力装置。
【請求項８】前記発話単語認識手段は、前記パターンの３次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識するものであることを特徴とする請求項７記載
の文字入力装置。
【請求項９】人間の発話を認識して文字列を入力する
文字入力方法をコンピュータで実行するためのプログラ
ムであって、発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する手順と、該高速度画像から該唇を含む形状を抽出する手順と、該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する手順と、該唇の形状、及び該形状の時間的変化のパターンの３次
元的な分布を生成するパターン分布算出手順と、該パターンの３次元的な分布を照合して発話単語を認識
する手順と、を備えることを特徴とする文字入力プログ
ラム。
【請求項１０】前記発話単語を認識する手順では、前記パターンの３次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識することを特徴とする請求項９記載の文字入力
プログラム。
【請求項１１】人間の発話を認識して文字列を入力す
る文字入力方法をコンピュータで実行するためのプログ
ラムを記憶した記憶媒体であって、発話者の少なくとも唇、または唇及び顎を含む領域の高
速度画像を入力する手順と、該高速度画像から該唇を含む形状を抽出する手順と、該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する手順と、該唇の形状、及び該形状の時間的変化のパターンの３次
元的な分布を生成するパターン分布算出手順と、該パターンの３次元的な分布を照合して発話単語を認識
する手順と、を備える文字入力プログラムを該コンピュータで実行す
るために、該コンピュータが読み取り可能な記憶媒体に
記憶したことを特徴とする文字入力プログラムを記憶し
た記憶媒体。
【請求項１２】前記発話単語を認識する手順では、前記パターンの３次元的な分布を照合する際、発話時に
獲得される音声信号との時間的ずれを利用して、発話単
語を認識することを特徴とする請求項１１記載の文字入
力プログラムを記憶した記憶媒体。