[go: up one dir, main page]

JP2002259990A - 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 - Google Patents

文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Info

Publication number
JP2002259990A
JP2002259990A JP2001054745A JP2001054745A JP2002259990A JP 2002259990 A JP2002259990 A JP 2002259990A JP 2001054745 A JP2001054745 A JP 2001054745A JP 2001054745 A JP2001054745 A JP 2001054745A JP 2002259990 A JP2002259990 A JP 2002259990A
Authority
JP
Japan
Prior art keywords
pattern
shape
character input
lip
dimensional distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001054745A
Other languages
English (en)
Inventor
Kensaku Fujii
憲作 藤井
Jun Shimamura
潤 島村
Tomohiko Arikawa
知彦 有川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001054745A priority Critical patent/JP2002259990A/ja
Publication of JP2002259990A publication Critical patent/JP2002259990A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 画像情報を利用して、人間の発話を高精度に
認識して文字列を入力する文字入力方法及び装置を提供
する。 【解決手段】 まず、高速度画像入力手段1はカメラで
撮影した発話者の唇、又は唇と顎を含む領域の高速度画
像を入力する。次に、形状抽出手段2は該高速度画像か
ら唇を含む形状を抽出する。次に、形状変化抽出手段3
は抽出された唇を含む形状、及び該形状の時間的変化の
パターンを抽出する。次に、パターン分布算出手段4は
該唇の形状、及び該形状の時間的変化のパターンの3次
元的な分布を生成する。最後に、発話単語認識手段5は
該パターンの3次元的な分布を照合辞書6と照合して発
話単語を認識する。該照合の際には、該パターンと発話
時の音声信号との時間的ずれを利用して、発話単語を認
識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、PCや携帯端末な
どのコンピュータ、あるいは、電話やテレビなどの家電
の入力装置、発話障害者、難聴者のためのインタフェー
スなど、音声情報を扱うインタフェースを有する文字入
力方法及び装置に関するものである。
【0002】
【従来の技術】上記分野で広く利用される文字入力イン
タフェースは音声信号を処理するものであるが、これら
の方式では、周囲の雑音を受けやすく、十分な精度の認
識を行うのが難しいという問題がある。また、周囲から
見ると独り言を言っているようで、インタフェースとし
て利用しづらいという問題もある。このような問題に対
して、これまで、画像情報を利用した文字入力に関する
技術がいくつか開発されている。例えば、特開平11−
149296号に記載の装置は、入力された画像情報か
ら唇の動きを追跡し、発話単語を認識するものである。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな画像情報は時間的な解像度が低いため、唇形状の変
化を高速度に取得することはできない。そのため、文字
入力に利用する場合、非常に高速に動く唇を対象にする
ことになるので、十分な精度の認識を行うことが難し
く、実用的に利用できないという問題がある。これに対
して、特開平6−12483号に記載の方法及び装置
は、筋電位波形を利用することで、こうした問題を解決
している。ところが、入力インタフェースを考えた場
合、このような装置は大掛かりなものとなってしまい、
また、離れた位置から簡単に画像情報を獲得できるとい
うカメラの利点を利用できなくなってしまうという問題
がある。
【0004】本発明は上述したような従来技術が有する
問題点に鑑みてなされたものであって、画像情報を利用
して人間の発話を高精度に認識し文字列を入力する文字
入力方法及び装置を提供することを課題とする。
【0005】
【課題を解決するための手段】上記の課題を解決するた
め、本発明による文字入力方法は、人間の発話を認識し
て文字列を入力する文字入力方法であって、少なくとも
発話者の唇を含む形状、及び該形状の時間的変化のパタ
ーンから、発話単語を認識することを特徴とする。
【0006】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、高速度撮影が可
能なカメラで撮影された唇、または唇及び顎を含む領域
の画像から抽出することを特徴とする。
【0007】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記唇を含む形状、
及び該形状の時間的変化のパターンを、画像から抽出し
た特徴点の遷移量を高速度な時間間隔で算出することに
より算出することを特徴とする。
【0008】あるいは、上記の文字入力方法において、
前記発話単語を認識する過程では、前記パターンの3次
元的な分布を照合することにより、発話単語を認識する
ことを特徴とする。
【0009】あるいは、上記の文字入力方法において、
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布を、画像の領域に含まれる
すべての特徴点で前記唇を含む形状、及び該形状の時間
的変化のパターンを算出することにより生成することを
特徴とする。
【0010】あるいは、上記の文字入力方法において、
前記パターンの3次元的な分布を照合する過程では、前
記パターンの3次元的な分布、及び発話時に獲得される
音声信号との時間的ずれを利用することを特徴とする。
【0011】また、本発明による文字入力装置は、人間
の発話を認識して文字列を入力する文字入力装置であっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する高速度画像入力手段と、該高速
度画像から該唇を含む形状を抽出する形状抽出手段と、
該高速度画像から抽出された該唇を含む形状、及び該形
状の時間的変化のパターンを抽出する形状変化抽出手段
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手段と、該
パターンの3次元的な分布を照合して発話単語を認識す
る発話単語認識手段と、を備えることを特徴とする。
【0012】あるいは、上記の文字入力装置において、
前記発話単語認識手段は、前記パターンの3次元的な分
布を照合する際、発話時に獲得される音声信号との時間
的ずれを利用して、発話単語を認識するものであること
を特徴とする。
【0013】また、本発明による文字入力プログラム
は、人間の発話を認識して文字列を入力する文字入力方
法をコンピュータで実行するためのプログラムであっ
て、発話者の少なくとも唇、または唇及び顎を含む領域
の高速度画像を入力する手順と、該高速度画像から該唇
を含む形状を抽出する手順と、該高速度画像から抽出さ
れた該唇を含む形状、及び該形状の時間的変化のパター
ンを抽出する手順と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手順と、該パターンの3次元的な分布を照合して
発話単語を認識する手順と、を備えることを特徴とす
る。
【0014】あるいは、上記の文字入力プログラムにお
いて、前記発話単語を認識する手順では、前記パターン
の3次元的な分布を照合する際、発話時に獲得される音
声信号との時間的ずれを利用して、発話単語を認識する
ことを特徴とする。
【0015】また、本発明による文字入力プログラムを
記憶した記憶媒体は、人間の発話を認識して文字列を入
力する文字入力方法をコンピュータで実行するためのプ
ログラムを記憶した記憶媒体であって、発話者の少なく
とも唇、または唇及び顎を含む領域の高速度画像を入力
する手順と、該高速度画像から該唇を含む形状を抽出す
る手順と、該高速度画像から抽出された該唇を含む形
状、及び該形状の時間的変化のパターンを抽出する手順
と、該唇の形状、及び該形状の時間的変化のパターンの
3次元的な分布を生成するパターン分布算出手順と、該
パターンの3次元的な分布を照合して発話単語を認識す
る手順と、を備える文字入力プログラムを該コンピュー
タで実行するために、該コンピュータが読み取り可能な
記憶媒体に記憶したことを特徴とする。
【0016】あるいは、上記の文字入力プログラムを記
憶した記憶媒体において、前記発話単語を認識する手順
では、前記パターンの3次元的な分布を照合する際、発
話時に獲得される音声信号との時間的ずれを利用して、
発話単語を認識することを特徴とする。
【0017】本発明では、人間の発話を認識する際、例
えば、高速度撮影が可能なカメラで撮影された唇を含む
領域、または唇及び顎を含む領域の画像から抽出された
特徴点の遷移量を高速度な時間間隔で算出することによ
り、唇を含む形状、及び該形状の時間的変化のパターン
を算出できるようにし、カメラ等の撮像手段の画像を用
いた高精度な発話単語の認識を実現する。
【0018】また、前記唇を含む形状、及び該形状の時
間的変化のパターンの3次元的な分布、更には、発話時
に獲得される音声信号との時間的ずれを利用することに
より、発話単語を照合できるようにし、発話単語の認識
の際、照合におけるノイズを軽減し、効率の良い非常に
高速な処理を実現する。
【0019】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。
【0020】本発明による文字入力方法を実現する装置
の実施形態例を図1に示す。本実施形態例による装置
は、発話者の唇、及び顎を含む領域の高速度画像を入力
する高速度画像入力手段1と、該高速度画像から唇の形
状を抽出する形状抽出手段2と、該高速度画像から唇の
形状、及び該形状の時間的変化のパターンを抽出する形
状変化抽出手段3と、該唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布を生成するパターン分
布算出手段4と、該パターンの3次元的な分布から発話
単語を認識する発話単語認識手段5と、を備えている。
また、発話単語を認識するための、唇の形状、及び該形
状の時間的変化のパターンの3次元的な分布と該単語の
対応づけを記述している照合辞書6を備えている。
【0021】まず、高速度画像入力手段1において、発
話者の唇、及び顎は、高速度カメラなどにより、高速度
な時間間隔で連続する2次元画像データとして入力され
る。入力対象となる領域は、唇、及び顎が確実に捕えら
れるように目の下あたりから咽のあたりまでの範囲であ
る。
【0022】次に、形状抽出手段2により、得られた画
像デー夕から、唇、及び顎の輪郭などを示す特徴点の解
析が行われる。この形状解析の方法は種々あり、例え
ば、エッジ強調などの画像処理後、2値化して形状を求
める方法などがある。これらの手法は、従来の手法と特
に変わるところがないので、ここではその詳細な説明は
省略する。
【0023】次に、こうして得られた唇、及び顎の輪郭
などを示す抽出した特徴点に対して、形状変化抽出手段
3において、その遷移量を高速度な時間間隔で算出し、
唇の形状、及び該形状の時間的変化のパターンが算出さ
れる。
【0024】次に、パターン分布算出手段4において、
このパターンを処理対象領域に含まれるすべての特徴点
の遷移を積み重ねることにより、唇の形状、及び該形状
の時間的変化のパターンの3次元的な分布が生成され
る。
【0025】最後に、発話単語認識手段6において、こ
うして得られた3次元的なパターン分布を、あらかじめ
格納しておいたパターン分布の照合辞書6と照合するこ
とにより、出力として認識された文字列を得る。なお、
好ましくは、発話時に獲得される音声信号の時間的ずれ
を、この照合の際のパラメータとして処理するとしても
よい。
【0026】こうして得られた文字列は、いわゆるFE
Pなどの文字入力に関する処理に送られ、実際の文字の
入力が行われることになる。
【0027】以降では、上述した処理を実際のデータに
即して、具体的に示す。高速度画像入力手段1におい
て、発話者の唇、及び顎の2次元画像データが、高速度
カメラにより、500フレーム/秒入力されたとする。
例えば、図2に示すような画像が、高速度な時間間隔で
連続して入力されることになる。
【0028】次に、形状抽出手段2により、唇、及び顎
の輪郭などの特徴点が算出される。例えば、図2に示す
2次元画像データから、図3に示すような特徴点が算出
されることになる。
【0029】次に、こうして得られた特徴点に対して、
形状変化抽出手段3において、その遷移量を高速度な時
間間隔で算出し、唇の形状、及び該形状の時間的変化の
パターンが算出される。例えば、図3の302に示す特
徴点の時間的変化のパターンを示すと、図4に示すよう
になる。
【0030】次に、このようなパターンを、パターン分
布算出手段4において、処理対象領域に含まれるすべて
の特徴点の遷移を積み重ねることにより、唇の形状、及
び該形状の時間的変化のパターンの3次元的な分布を生
成する。例えば、この3次元的な分布を、特徴点の数を
絞って見やすく表示すると、図5に示すようになる。
【0031】このとき、発話時に獲得される音声信号と
図4のパターンを、時間軸を合わせて重畳表示すると、
図6のようになる。このように、唇の動き始めや終わり
は、音声信号が発せられるのと同じタイミングで行われ
るのではなく、時間的なずれが生じていることがわか
る。この時間的ずれ、及び算出されたパターンの3次元
的な分布を、発話単語認識手段5にて、あらかじめ格納
しておいたパターン分布の照合辞書6と照合して、文字
列を得ることになる。
【0032】なお、図1で示した処理の各部の一部もし
くは全部の処理機能を、コンピュータを用いて実現でき
ること、あるいは、その構成により実現される処理手順
をコンピュータに実行させることができることは言うま
でもなく、コンピュータでその各部の処理機能を実現す
るためのプログラム、あるいは、コンピュータにその処
理手順を実行させるためのプログラムを、そのコンピュ
ータが読み取り可能な記憶媒体、例えば、FD(フロッ
ピーディスク:登録商標)や、MO、ROM、メモリカ
ード、CD、DVD、リムーバルディスクなどに記録し
て、保存したり、提供したりすることが可能であり、ま
た、インターネットのような通信ネットワークを通じて
配布したりすることが可能である。
【0033】以上、本発明を実施形態例に基づき具体的
に説明したが、本発明は上記の実施形態例に限定される
ものではなく、その要旨を逸脱しない範囲で種々変更可
能であることはいうまでもない。また、本発明は、複数
の機器から構成されるシステムに適用しても、1つの機
器から成る装置に適用しても良い。また、本発明は、シ
ステム或は装置にプログラムを供給することによって達
成される場合にも適用できることは言うまでもない。
【0034】
【発明の効果】本発明によれば、人間の発話を認識する
際、例えば、高速度撮影が可能なカメラで撮影された
唇、または唇及び顎を含む領域の画像から抽出された特
徴点の遷移量を高速度な時間間隔で算出するなどして、
唇の形状、及び該形状の時間的変化のパターンを算出で
きるようにしたので、高精度な発話単語の認識を実現で
きる効果が得られる。
【0035】また、前記唇の形状、及び該形状の時間的
変化のパターンの3次元的な分布、更には、発話時に獲
得される音声信号との時間的ずれを利用することによ
り、発話単語を照合できるようにしたので、発話単語の
認識の際、照合におけるノイズを軽減し、効率の良い非
常に高速な処理を実現できる効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施形態における文字入力方法を実
現する装置の構成図である。
【図2】本発明の一実施形態における高速度画像の一例
を説明するための図である。
【図3】本発明の一実施形態における上記の高速度画像
から抽出された特徴点の一例を説明するための図であ
る。
【図4】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの一例を説明するための図である。
【図5】本発明の一実施形態における上記の特徴点の時
間的変化のパターンの3次元分布の一例を説明するため
の図である。
【図6】本発明の一実施形態における上記の特徴点の時
間的変化のパターンと音声信号のタイミングのずれの一
例を説明するための図である。
【符号の説明】
1…高速度画像入力手段 2…形状抽出手段 4…形状変化抽出手段 5…パターン分布算出手段 6…発話単語認識手段 7…照合辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 有川 知彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B057 BA02 CA12 CA16 DA06 DB02 DC05 DC16 DC36 5D015 BB01 LL00 5L096 BA20 CA02 FA06 HA01 HA09 JA11

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 人間の発話を認識して文字列を入力する
    文字入力方法であって、 少なくとも発話者の唇を含む形状、及び該形状の時間的
    変化のパターンから、発話単語を認識することを特徴と
    する文字入力方法。
  2. 【請求項2】 前記発話単語を認識する過程では、 前記唇を含む形状、及び該形状の時間的変化のパターン
    を、高速度撮影が可能なカメラで撮影された唇、または
    唇及び顎を含む領域の画像から抽出することを特徴とす
    る請求項1記載の文字入力方法。
  3. 【請求項3】 前記発話単語を認識する過程では、 前記唇を含む形状、及び該形状の時間的変化のパターン
    を、画像から抽出した特徴点の遷移量を高速度な時間間
    隔で算出することにより算出することを特徴とする請求
    項1または2記載の文字入力方法。
  4. 【請求項4】 前記発話単語を認識する過程では、 前記パターンの3次元的な分布を照合することにより、
    発話単語を認識することを特徴とする請求項1から3ま
    でのいずれか1項記載の文字入力方法。
  5. 【請求項5】 前記パターンの3次元的な分布を照合す
    る過程では、 前記パターンの3次元的な分布を、画像の領域に含まれ
    るすべての特徴点で前記唇を含む形状、及び該形状の時
    間的変化のパターンを算出することにより生成すること
    を特徴とする請求項4記載の文字入力方法。
  6. 【請求項6】 前記パターンの3次元的な分布を照合す
    る過程では、 前記パターンの3次元的な分布、及び発話時に獲得され
    る音声信号との時間的ずれを利用することを特徴とする
    請求項4または5記載の文字入力方法。
  7. 【請求項7】 人間の発話を認識して文字列を入力する
    文字入力装置であって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
    速度画像を入力する高速度画像入力手段と、 該高速度画像から該唇を含む形状を抽出する形状抽出手
    段と、 該高速度画像から抽出された該唇を含む形状、及び該形
    状の時間的変化のパターンを抽出する形状変化抽出手段
    と、 該唇の形状、及び該形状の時間的変化のパターンの3次
    元的な分布を生成するパターン分布算出手段と、 該パターンの3次元的な分布を照合して発話単語を認識
    する発話単語認識手段と、を備えることを特徴とする文
    字入力装置。
  8. 【請求項8】 前記発話単語認識手段は、 前記パターンの3次元的な分布を照合する際、発話時に
    獲得される音声信号との時間的ずれを利用して、発話単
    語を認識するものであることを特徴とする請求項7記載
    の文字入力装置。
  9. 【請求項9】 人間の発話を認識して文字列を入力する
    文字入力方法をコンピュータで実行するためのプログラ
    ムであって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
    速度画像を入力する手順と、 該高速度画像から該唇を含む形状を抽出する手順と、 該高速度画像から抽出された該唇を含む形状、及び該形
    状の時間的変化のパターンを抽出する手順と、 該唇の形状、及び該形状の時間的変化のパターンの3次
    元的な分布を生成するパターン分布算出手順と、 該パターンの3次元的な分布を照合して発話単語を認識
    する手順と、を備えることを特徴とする文字入力プログ
    ラム。
  10. 【請求項10】 前記発話単語を認識する手順では、 前記パターンの3次元的な分布を照合する際、発話時に
    獲得される音声信号との時間的ずれを利用して、発話単
    語を認識することを特徴とする請求項9記載の文字入力
    プログラム。
  11. 【請求項11】 人間の発話を認識して文字列を入力す
    る文字入力方法をコンピュータで実行するためのプログ
    ラムを記憶した記憶媒体であって、 発話者の少なくとも唇、または唇及び顎を含む領域の高
    速度画像を入力する手順と、 該高速度画像から該唇を含む形状を抽出する手順と、 該高速度画像から抽出された該唇を含む形状、及び該形
    状の時間的変化のパターンを抽出する手順と、 該唇の形状、及び該形状の時間的変化のパターンの3次
    元的な分布を生成するパターン分布算出手順と、 該パターンの3次元的な分布を照合して発話単語を認識
    する手順と、 を備える文字入力プログラムを該コンピュータで実行す
    るために、該コンピュータが読み取り可能な記憶媒体に
    記憶したことを特徴とする文字入力プログラムを記憶し
    た記憶媒体。
  12. 【請求項12】 前記発話単語を認識する手順では、 前記パターンの3次元的な分布を照合する際、発話時に
    獲得される音声信号との時間的ずれを利用して、発話単
    語を認識することを特徴とする請求項11記載の文字入
    力プログラムを記憶した記憶媒体。
JP2001054745A 2001-02-28 2001-02-28 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体 Pending JP2002259990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001054745A JP2002259990A (ja) 2001-02-28 2001-02-28 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001054745A JP2002259990A (ja) 2001-02-28 2001-02-28 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2002259990A true JP2002259990A (ja) 2002-09-13

Family

ID=18915031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001054745A Pending JP2002259990A (ja) 2001-02-28 2001-02-28 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2002259990A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP2008140268A (ja) * 2006-12-04 2008-06-19 Denso Corp 操作推定装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP2008140268A (ja) * 2006-12-04 2008-06-19 Denso Corp 操作推定装置およびプログラム

Similar Documents

Publication Publication Date Title
CN112088402B (zh) 用于说话者识别的联合神经网络
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US6959099B2 (en) Method and apparatus for automatic face blurring
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US8254691B2 (en) Facial expression recognition apparatus and method, and image capturing apparatus
CN114333896B (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
JPH09134194A (ja) 読話のための画像認識システム
CN110941992B (zh) 微笑表情检测方法、装置、计算机设备及存储介质
JP2019200671A (ja) 学習装置、学習方法、プログラム、データ生成方法及び識別装置
US7257538B2 (en) Generating animation from visual and audio input
CN111339806A (zh) 唇语识别模型的训练方法、活体识别方法及装置
CN112639964A (zh) 利用深度信息识别语音的方法、系统及计算机可读介质
CN117854507A (zh) 语音识别方法、装置、电子设备及存储介质
CN112906544A (zh) 一种适用于多目标的基于声纹和人脸的匹配方法
JP7694709B2 (ja) 遠隔会議実行プログラム、遠隔会議実行方法、及び遠隔会議実行装置
US12142078B2 (en) Emotion recognition and notification system
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
CN113544735A (zh) 人认证设备、控制方法和程序
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
Korshunov et al. Vulnerability of automatic identity recognition to audio-visual deepfakes
JP2002259990A (ja) 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体
CN115394294A (zh) 一种语音识别方法、装置、设备及存储介质
Ivanko et al. A novel task-oriented approach toward automated lip-reading system implementation
Goecke Current trends in joint audio-video signal processing: A review
JPH10149447A (ja) ジェスチャー認識方法および装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050809