JP2003131683A - 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 - Google Patents
音声認識装置および音声認識方法、並びにプログラムおよび記録媒体Info
- Publication number
- JP2003131683A JP2003131683A JP2001323012A JP2001323012A JP2003131683A JP 2003131683 A JP2003131683 A JP 2003131683A JP 2001323012 A JP2001323012 A JP 2001323012A JP 2001323012 A JP2001323012 A JP 2001323012A JP 2003131683 A JP2003131683 A JP 2003131683A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- distance
- voice recognition
- unit
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 description 52
- 238000001514 detection method Methods 0.000 description 41
- 230000007246 mechanism Effects 0.000 description 35
- 210000003128 head Anatomy 0.000 description 29
- 230000036544 posture Effects 0.000 description 29
- 230000007704 transition Effects 0.000 description 26
- 239000013598 vector Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 230000008451 emotion Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 210000003414 extremity Anatomy 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- OOYGSFOGFJDDHP-KMCOLRRFSA-N kanamycin A sulfate Chemical group OS(O)(=O)=O.O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N OOYGSFOGFJDDHP-KMCOLRRFSA-N 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Toys (AREA)
- Traffic Control Systems (AREA)
- Manipulator (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Measurement Of Optical Distance (AREA)
- Closed-Circuit Television Systems (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
ーザからマイク21までの距離を求め、音声認識部41
Bに供給する。音声認識部41Bは、複数の異なる距離
だけ離れた位置から発せられた音声を収録した音声デー
タそれぞれから生成された音響モデルのセットを記憶し
ている。そして、音声認識部41Bは、その複数の音響
モデルのセットの中から、距離計算部47から供給され
る距離に最も近い距離の音響モデルのセットを選択し、
その音響モデルのセットを用いて、音声認識を行う。
Description
び音声認識方法、並びにプログラムおよび記録媒体に関
し、例えば、発話者から音声認識装置までの距離に対応
した音響モデルのセットを用いて音声認識処理を行うよ
うにすることで、音声認識精度を向上させることができ
るようにする音声認識装置および音声認識方法、並びに
プログラムおよび記録媒体に関する。
nit)の高速化や、メモリ等の大容量化等に伴い、大量の
音声データやテキストデータを用いた統計的なモデル化
手法を採用した数万語の語彙を対象とする大語彙音声認
識システムが実現されている。
認識システムでは、認識対象の音声が入力されるマイク
(マイクロフォン)に近い位置で発話された音声につい
ては、高い精度の音声認識が実現されている。
話された音声については、そのマイクからの距離が大き
くなるほど、雑音の混入等によって、音声認識精度が劣
化する。
野、「マイクロホンアレーとHMM分解・合成法による
雑音・残響下音声認識」、電子情報通信学会論文誌D-I
I, Vol.J83-DII No.11 pp.2206-2214, Nov.2000(以
下、適宜、文献1という)では、第1の方法として、マ
イクロホンアレーを用いることで、マイクから離れた位
置で発話された音声のSN(Signal Noise)比を向上させ
る音声認識方法が提案されている。
「空間音響特性を考慮したスペースダイバーシチ型ロバ
スト音声認識」、電子情報通信学会論文誌D-II, Vol.J8
3-DII No.11 pp.2448-2456, Nov.2000(以下、適宜、文
献2という)では、第2の方法として、複数のマイクを
室内に分散させて配置し、音源から各マイクまでの距離
に対応するインパルス応答それぞれを学習用の音声デー
タに畳み込んで得られる音声データを用いて学習を行う
ことにより、各距離のインパルス応答を考慮したHMM(Hi
dden Markov Model)を用意し、複数のマイクに入力され
た音声それぞれについて、各距離のインパルス応答を考
慮したHMMの尤度を計算する音声認識方法が提案されて
いる。
た第1や第2の方法では、マイクの設置に関して制約が
あり、その適用が困難な場合がある。
して、ユーザが発した音声を音声認識し、その音声認識
結果に基づいて、ある仕草をしたり、合成音を出力する
等の行動を自律的に行うロボット(本明細書において
は、ぬいぐるみ状のものを含む)が製品化されている
が、かかるロボットに、第1の方法による音声認識装置
を実装した場合、マイクロホンアレーを構成する複数の
マイクの設置間隔等の物理的制約が、ロボットの小型化
やデザインの自由度の障害になる。
認識装置を実装した場合、ロボットを使用する部屋ごと
に、複数のマイクを設置する必要があり、現実的ではな
い。さらに、第2の方法による場合には、複数のマイク
それぞれから入力された音声について、各距離のインパ
ルス応答を考慮したHMMの尤度を計算しなければなら
ず、音声認識処理に対して、大きな計算量が要求される
ことになる。
たものであり、音声認識処理に要求される計算量をほと
んど増大させることなく、マイクから離れた位置で発話
されたユーザの音声の認識精度を向上させることができ
るようにするものである。
装置は、音声の音源までの距離を求める距離算出手段
と、距離算出手段において求められた距離に対応する音
響モデルのセットを取得する取得手段と、取得手段にお
いて取得された音響モデルのセットを用いて、音声を認
識する音声認識手段とを備えることを特徴とする。
源までの距離を求める距離算出ステップと、距離算出ス
テップにおいて求められた距離に対応する音響モデルの
セットを取得する取得ステップと、取得ステップにおい
て取得された音響モデルのセットを用いて、音声を認識
する音声認識ステップとを備えることを特徴とする。
までの距離を求める距離算出ステップと、距離算出ステ
ップにおいて求められた距離に対応する音響モデルのセ
ットを取得する取得ステップと、取得ステップにおいて
取得された音響モデルのセットを用いて、音声を認識す
る音声認識ステップとを備えることを特徴とする。
での距離を求める距離算出ステップと、距離算出ステッ
プにおいて求められた距離に対応する音響モデルのセッ
トを取得する取得ステップと、取得ステップにおいて取
得された音響モデルのセットを用いて、音声を認識する
音声認識ステップとを備えるプログラムが記録されてい
ることを特徴とする。
源までの距離を求める距離算出手段と、距離算出手段に
おいて求められた距離に対応する周波数特性の逆フィル
タを実現するタップ係数を取得する取得手段と、取得手
段において取得されたタップ係数を用いて、音声をフィ
ルタリングするフィルタ手段と、フィルタ手段において
フィルタリングされた音声を、所定の音響モデルのセッ
トを用いて認識する音声認識手段とを備えることを特徴
とする。
源までの距離を求める距離算出ステップと、距離算出ス
テップにおいて求められた距離に対応する周波数特性の
逆フィルタを実現するタップ係数を取得する取得ステッ
プと、取得ステップにおいて取得されたタップ係数を用
いて、音声をフィルタリングするフィルタステップと、
フィルタステップにおいてフィルタリングされた音声
を、所定の音響モデルのセットを用いて認識する音声認
識ステップとを備えることを特徴とする。
までの距離を求める距離算出ステップと、距離算出ステ
ップにおいて求められた距離に対応する周波数特性の逆
フィルタを実現するタップ係数を取得する取得ステップ
と、取得ステップにおいて取得されたタップ係数を用い
て、音声をフィルタリングするフィルタステップと、フ
ィルタステップにおいてフィルタリングされた音声を、
所定の音響モデルのセットを用いて認識する音声認識ス
テップとを備えることを特徴とする。
での距離を求める距離算出ステップと、距離算出ステッ
プにおいて求められた距離に対応する周波数特性の逆フ
ィルタを実現するタップ係数を取得する取得ステップ
と、取得ステップにおいて取得されたタップ係数を用い
て、音声をフィルタリングするフィルタステップと、フ
ィルタステップにおいてフィルタリングされた音声を、
所定の音響モデルのセットを用いて認識する音声認識ス
テップとを備えるプログラムが記録されていることを特
徴とする。
識方法、並びにプログラムにおいては、音声の音源まで
の距離が求められ、その距離に対応する音響モデルのセ
ットが取得される。そして、その取得された音響モデル
のセットを用いて、音声が認識される。
識方法、並びにプログラムにおいては、音声の音源まで
の距離が求められ、その距離に対応する周波数特性の逆
フィルタを実現するタップ係数が取得される。そして、
その取得されたタップ係数を用いて、音声がフィルタリ
ングされ、そのフィルタリングされた音声が、所定の音
響モデルのセットを用いて認識される。
型ロボットの外観構成の例を示す斜視図であり、図2
は、その内部構成の例を示すブロック図である。
ットは、四つ足の動物型のロボットとされており、大き
くは、胴体部ユニット1、脚部ユニット2A,2B,2
C,2D、頭部ユニット3、および尻尾部ユニット4から
構成されている。
右には、それぞれ、脚に相当する脚部ユニット2A,2
B,2C,2Dが連結され、胴体部ユニット1の前端部と
後端部には、それぞれ、頭部に相当する頭部ユニット3
と尻尾に相当する尻尾部ユニット4が連結されている。
Aが設けられている。また、頭部ユニット3には、その
上部に頭センサ3Aが、下部に顎センサ3Bがそれぞれ
設けられている。なお、背中センサ1A、頭センサ3
A、顎センサ3Bは、いずれも圧力センサで構成され、
その部位に与えられる圧力を検知する。
対して、水平方向、および上下方向に揺動自在に取り付
けられている。
は、コントローラ11、A/D変換部12、D/A変換
部13、通信部14、半導体メモリ15、背中センサ1
A等が格納されている。
体の動作を制御するCPU11Aと、CPU11Aが各部を制御
するのに実行するOS(Operating System)、アプリケー
ションプログラム、その他の必要なデータ等が記憶され
ているメモリ11B等を内蔵している。
イク21、CCDカメラ22Lおよび22R、背中セン
サ1A、頭センサ3A、顎センサ3Bが出力するアナロ
グ信号をA/D変換することによりディジタル信号と
し、コントローラ11に供給する。D/A(Digital/Ana
log)変換部13は、コントローラ11から供給されるデ
ィジタル信号をD/A変換することによりアナログ信号
とし、スピーカ23に供給する。
信するときの通信制御を行う。これにより、OSやアプ
リケーションプログラムがバージョンアップされたとき
に、通信部14を介して、そのバージョンアップされた
OSやアプリケーションプログラムをダウンロードし
て、メモリ11Bに記憶させたり、また、所定のコマン
ドを、通信部14で受信し、CPU11Aに与えること
ができるようになっている。
M(Electrically Erasable Programmable Read-only Me
mory)等で構成され、胴体部ユニット1に設けられた図
示せぬスロットに対して、着脱可能になっている。半導
体メモリ15には、例えば、後述するような感情モデル
等が記憶される。
いて、ペット型ロボットの背中に対応する部位に設けら
れており、そこに与えられるユーザからの圧力を検出
し、その圧力に対応する圧力検出信号を、A/D変換部
12を介してコントローラ11に出力する。
えば、ペット型ロボットの動力源となるバッテリ(図示
せず)や、そのバッテリ残量を検出する回路等も格納さ
れている。
うに、外部からの刺激を感知するセンサとしての、音を
感知する「耳」に相当するマイク21、光を感知する
「左目」および「右目」に相当するCCD(Charge Coupled
Device)カメラ22Lおよび22R、並びにユーザが触
れること等により与えられる圧力を感知する触覚に相当
する頭センサ3A、および顎センサ3Bが、例えば、そ
れぞれ対応する部位に設けられている。また、頭部ユニ
ット3には、ペット型ロボットの「口」に相当するスピ
ーカ23が、例えば、対応する部位に設置されている。
部分、脚部ユニット2A乃至2Dのそれぞれと胴体部ユニ
ット1の連結部分、頭部ユニット3と胴体部ユニット1
の連結部分、並びに尻尾部ユニット4と胴体部ユニット
1の連結部分などには、アクチュエータが設置されてい
る。アクチュエータは、コントローラ11からの指示に
基づいて各部を動作させる。即ち、アクチュエータによ
って、例えば、脚部ユニット2A乃至2Dが動き、これ
により、ロボットが歩行する。
1は、ユーザからの発話を含む周囲の音声(音)を集音
し、得られた音声信号を、A/D変換部12を介してコ
ントローラ11に出力する。CCDカメラ22Lおよび2
2Rは、周囲の状況を撮像し、得られた画像信号を、A
/D変換部12を介してコントローラ11に出力する。
頭部ユニット3の上部に設けられた頭センサ3Aや、頭
部ユニット3の下部に設けられた顎センサ3Bは、例え
ば、ユーザからの「撫でる」や「叩く」といった物理的
な働きかけにより受けた圧力を検出し、その検出結果を
圧力検出信号として、A/D変換部12を介してコント
ローラ11に出力する。
メラ22Lおよび22R、背中センサ1A、頭センサ3
A、並びに顎センサ3Bから、A/D変換部12を介し
て与えられる音声信号、画像信号、圧力検出信号に基づ
いて、周囲の状況や、ユーザからの指令、ユーザからの
働きかけなどの有無を判断し、その判断結果に基づい
て、ペット型ロボットが次にとる行動を決定する。そし
て、コントローラ11は、その決定に基づいて、必要な
アクチュエータを駆動させ、これにより、頭部ユニット
3を上下左右に振らせたり、尻尾部ユニット4を動かせ
たり、各脚部ユニット2A乃至2Dを駆動して、ペット型
ロボットを歩行させるなどの行動をとらせる。
て、合成音を生成し、それを、D/A変換部13を介し
て、スピーカ23に供給して出力させたり、ペット型ロ
ボットの「目」の位置に設けられた、図示しないLED(Li
ght Emitting Diode)を点灯、消灯または点滅させる。
周囲の状況や、接してくるユーザに基づいて、自律的に
行動をとるようになっている。
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU11Aが、メモリ11Bに記憶されたOSおよ
びアプリケーションプログラムを実行することで実現さ
れる。また、図3では、A/D変換部12およびD/A
変換部13の図示を省略してある。
は、背中センサ1Aや、頭センサ3A、顎センサ3B、
マイク21、CCDカメラ22Lおよび22R等からそれ
ぞれ与えられる圧力検出信号、音声信号、画像信号等に
基づいて、特定の外部状態や、ユーザからの特定の働き
かけ、ユーザからの指示等を認識し、その認識結果を表
す状態認識情報を、モデル記憶部42および行動決定機
構部43に通知する。
部41A、音声認識部41B、および画像処理部41C
を有している。
センサ3A、または顎センサ3Bから与えられる圧力検
出信号を処理する。そして、圧力処理部41Aは、例え
ば、その処理の結果、所定の閾値以上で、かつ短時間の
圧力を検出したときには、「叩かれた(しかられた)」
と認識し、所定の閾値未満で、かつ長時間の圧力を検出
したときには、「なでられた(ほめられた)」と認識し
て、その認識結果を、状態認識情報として、モデル記憶
部42および行動決定機構部43に通知する。
られる音声信号を対象とした音声認識を行う。そして、
音声認識部41Bは、その音声認識結果としての、例え
ば、「歩け」、「伏せ」、「ボールを追いかけろ」等の
指令その他を、状態認識情報として、モデル記憶部42
および行動決定機構部43に通知する。なお、音声認識
部41Bには、後述する距離計算部47より、ユーザ等
の音源からマイク21までの距離が供給されるようにな
っており、音声認識部41Bは、この距離に基づいて音
声認識を行うようになっている。
よび22Rから与えられる画像信号を用いて、画像認識
処理を行う。そして、画像処理部41Cは、その処理の
結果、例えば、「赤い丸いもの」や、「地面に対して垂
直なかつ所定の高さ以上の平面」等を検出したときに
は、「ボールがある」や、「壁がある」等の画像認識結
果を、状態認識情報として、モデル記憶部42および行
動決定機構部43に通知する。
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶し、管理している。
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態(度合い)を、所定の範囲(例えば、−1.0乃至
1.0等)の値によってそれぞれ表し、センサ入力処理
部41からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。
欲」、「運動欲」等の本能による欲求の状態(度合い)
を、所定の範囲の値によってそれぞれ表し、センサ入力
処理部41からの状態認識情報や時間経過等に基づい
て、その値を変化させる。
年期」、「熟年期」、「老年期」等の成長の状態(度合
い)を、所定の範囲の値によってそれぞれ表し、センサ
入力処理部41からの状態認識情報や時間経過等に基づ
いて、その値を変化させる。
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部43に送出する。
処理部41から状態認識情報が供給される他に、行動決
定機構部43から、ペット型ロボットの現在または過去
の行動、具体的には、例えば、「長時間歩いた」などの
行動の内容を示す行動情報が供給されるようになってお
り、モデル記憶部42は、同一の状態認識情報が与えら
れても、行動情報が示すペット型ロボットの行動に応じ
て、異なる状態情報を生成するようになっている。
拶をし、ユーザに頭を撫でられた場合には、ユーザに挨
拶をしたという行動情報と、頭を撫でられたという状態
認識情報とが、モデル記憶部42に与えられ、この場
合、モデル記憶部42では、「うれしさ」を表す感情モ
デルの値が増加される。
41からの状態認識情報や、モデル記憶部42からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部44に出力する。
ボットがとり得る行動をステート(状態)(state)に対
応させた有限オートマトンを、ペット型ロボットの行動
を規定する行動モデルとして管理している。そして、行
動決定機構部43は、この行動モデルとしての有限オー
トマトンにおけるステートを、センサ入力処理部41か
らの状態認識情報や、モデル記憶部42における感情モ
デル、本能モデル、または成長モデルの値、時間経過等
に基づいて遷移させ、遷移後のステートに対応する行動
を、次にとるべき行動として決定する。
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部43は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部42から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。
うに、センサ入力処理部41からの状態認識情報だけで
なく、モデル記憶部42における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値(状態情報)によっては、ステートの遷移先は
異なるものとなる。
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部44に送出す
る。
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部44に送出する。
憶部42から供給される状態情報が示す感情や、本能、
成長の状態に基づいて、遷移先のステートに対応する行
動のパラメータとしての、例えば、歩行の速度や、手足
を動かす際の動きの大きさおよび速度などを決定させる
ことができ、この場合、それらのパラメータを含む行動
指令情報が、姿勢遷移機構部44に送出される。
ように、ペット型ロボットの頭部や手足等を動作させる
行動指令情報の他、ペット型ロボットに発話を行わせる
行動指令情報も、必要に応じて生成される。そして、ペ
ット型ロボットに発話させる行動指令情報は、音声合成
部46に供給されるようになっている。音声合成部46
は、行動指令情報を受信すると、その行動指令情報にし
たがって音声合成を行い、得られた合成音を、スピーカ
23から出力させる。
3から供給される行動指令情報に基づいて、ペット型ロ
ボットの姿勢を、現在の姿勢から次の姿勢に遷移させる
ための姿勢遷移情報を生成し、これを制御機構部45に
送出する。
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなペット型ロボットの物理的形状と、関節が
曲がる方向や角度のようなアクチュエータの機構とによ
って決定される。
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、4本足のペット型ロボットは、手足を大
きく投げ出して寝転んでいる状態から、伏せた状態へ直
接遷移することはできるが、立った状態へ直接遷移する
ことはできず、一旦、手足を胴体近くに引き寄せて伏せ
た姿勢になり、それから立ち上がるという2段階の動作
が必要である。また、安全に実行できない姿勢も存在す
る。例えば、4本足のペット型ロボットは、その4本足
で立っている姿勢から、両前足を挙げてバンザイをしよ
うとすると、簡単に転倒してしまう。
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部43から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を制御機構部4
5に送出する。
姿勢を示す場合には、姿勢遷移機構部44は、遷移可能
な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移さ
せるような姿勢遷移情報を生成し、制御機構部45に送
出する。これによりロボットが、遷移不可能な姿勢を無
理に実行しようとする事態や、転倒するような事態を回
避することができるようになっている。
らの姿勢遷移情報にしたがって、アクチュエータを駆動
するための制御信号を生成し、これを、各部のアクチュ
エータに送出する。
ら行動指令情報を受信し、その行動指令情報にしたがっ
て、例えば、規則音声合成を行い、得られた合成音を、
スピーカ23に供給して出力させる。
よび22Rが出力する画像信号が供給されるようになっ
ている。距離計算部47は、CCDカメラ22Lおよび2
2Rからの画像信号を用いてステレオ処理(ステレオマ
ッチング法による処理)を行うことにより、CCDカメラ
22Lおよび22Rによって撮像された画像に表示され
たユーザ等の音源から、マイク21までの距離を求め、
音声認識部41Bに供給する。
オ処理は、2つ以上の方向(異なる視線方向)からカメ
ラで同一対象物を撮影して得られる複数の画像間の画素
同士を対応付けることで、対応する画素間の視差情報
や、カメラから対象物までの距離を求めるものである。
を、それぞれ基準カメラ22Lと検出カメラ22Rとい
うとともに、それぞれが出力する画像を、基準カメラ画
像と検出カメラ画像というものとして、例えば、図4に
示すように、基準カメラ22Lおよび検出カメラ22R
で、撮像対象物としてのユーザを撮影すると、基準カメ
ラ22Lからはユーザの投影像を含む基準カメラ画像が
得られ、検出カメラ22Rからもユーザの投影像を含む
検出カメラ画像が得られる。そして、いま、例えば、ユ
ーザの口部上のある点Pが、基準カメラ画像および検出
カメラ画像の両方に表示されているとすると、その点P
が表示されている基準カメラ画像上の位置と、検出カメ
ラ画像上の位置、つまり対応点(対応画素)とから、視
差情報を求めることができ、さらに、三角測量の原理を
用いて、点Pの3次元空間における位置(3次元位置)
を求めることができる。
を検出することが必要となるが、その検出方法として
は、例えば、エピポーラライン(Epipolar Line)を用
いたエリアベースマッチング法などがある。
Lにおいては、ユーザ上の点Pは、その点Pと基準カメ
ラ22Lの光学中心(レンズ中心)O1とを結ぶ直線L
上の、基準カメラ1の撮像面S1との交点naに投影され
る。
ザ上の点Pは、その点Pと検出カメラ22Rの光学中心
(レンズ中心)O2とを結ぶ直線上の、検出カメラ22
Rの撮像面S2との交点nbに投影される。
O2、並びに点na(または点P)の3点を通る平面と、
検出カメラ画像が形成される撮像面S2との交線L2とし
て、撮像面S2上に投影される。点Pは、直線L上の点
であり、従って、撮像面S2において、点Pを投影した
点nbは、直線Lを投影した直線L2上に存在し、この直
線L2はエピポーララインと呼ばれる。即ち、点naの対
応点nbが存在する可能性のあるのは、エピポーラライ
ンL2上であり、従って、対応点nbの探索は、エピポー
ララインL2上を対象に行えば良い。
像面S1に形成される基準カメラ画像を構成する画素ご
とに考えることができるが、基準カメラ22Lと検出カ
メラ22Rの位置関係が既知であれば、その画素ごとに
存在するエピポーララインは、例えば計算によって求め
ることができる。
nbの検出は、例えば、次のようなエリアベースマッチ
ングによって行うことができる。
(A)に示すように、基準カメラ画像上の点naを中心
(例えば、対角線の交点)とする、例えば長方形状の小
ブロック(以下、適宜、基準ブロックという)が、基準
カメラ画像から抜き出されるとともに、図6(B)に示
すように、検出カメラ画像に投影されたエピポーラライ
ンL2上の、ある点を中心とする、基準ブロックと同一
の大きさの小ブロック(以下、適宜、検出ブロックとい
う)が、検出カメラ画像から抜き出される。
は、エピポーララインL2上に、検出ブロックの中心と
する点として、点nb1乃至nb6の6点が設けられてい
る。この6点nb1乃至nb6は、図5に示した3次元空間
における直線Lを、所定の一定距離ごとに区分する点、
即ち、基準カメラ22Lからの距離が、例えば、1m,
2m,3m,4m,5m,6mの点それぞれを、検出カ
メラ22Rの撮像面S2に投影した点で、従って、基準
カメラ22Lからの距離が1m,2m,3m,4m,5
m,6mの点にそれぞれ対応している。
画像から、エピポーララインL2上に設けられている点
nb1乃至nb6それぞれを中心とする検出ブロックが抜き
出され、各検出ブロックと、基準ブロックとの相関が、
所定の評価関数を用いて演算される。そして、点naを
中心とする基準ブロックとの相関が最も高い検出ブロッ
クの中心の点nbが、点naの対応点として求められる。
関が高いほど小さな値をとる関数を用いた場合に、エピ
ポーララインL2上の点nb1乃至nb6それぞれについ
て、例えば、図7に示すような評価値(評価関数の値)
が得られたとする。この場合、評価値が最も小さい(相
関が最も高い)点nb3が、点naの対応点として検出さ
れる。なお、図7において、点nb1乃至nb6それぞれに
ついて求められた評価値(図7において●印で示す)の
うちの最小値付近のものを用いて補間を行い、評価値が
より小さくなる点(図7において×印で示す)を求め
て、その点を、最終的な対応点として検出することも可
能である。
3次元空間における直線Lを所定の等距離ごとに区分す
る点を、検出カメラ22Rの撮像面S2に投影した点が
設定されているが、この設定は、例えば、基準カメラ2
2Lおよび検出カメラ22Rのキャリブレーション時に
行うことができる。そして、このような設定を、基準カ
メラ22Lの撮像面S1を構成する画素ごとに存在する
エピポーララインごとに行い、図8(A)に示すよう
に、エピポーラライン上に設定された点(以下、適宜、
設定点という)と、基準カメラ22Lからの距離とを対
応付ける設定点/距離テーブルをあらかじめ作成してお
けば、対応点となる設定点を検出し、設定点/距離テー
ブルを参照することで、即座に、基準カメラ22Lから
の距離(ユーザまでの距離)を求めることができる。即
ち、いわば、対応点から、直接、距離を求めることがで
きる。
て、検出カメラ画像上の対応点nbを検出すれば、その
2点naおよびnbの間の視差(視差情報)を求めること
ができる。さらに、基準カメラ22Lと検出カメラ22
Rの位置関係が既知であれば、2点naおよびnbの間の
視差から、三角測量の原理によって、ユーザまでの距離
を求めることができる。視差から距離の算出は、所定の
演算を行うことによって行うことができるが、あらかじ
めその演算を行っておき、図8(B)に示すように、視
差ζと距離との対応付ける視差/距離テーブルをあらか
じめ作成しておけば、対応点を検出し、視差を求め、視
差/距離テーブルを参照することで、やはり、即座に、
基準カメラ22Lからの距離を求めることができる。
対一に対応するものであり、従って、視差を求めること
とと、ユーザまでの距離を求めることとは、いわば等価
である。
び検出ブロックといった複数画素でなるブロックを用い
るのは、ノイズの影響を軽減し、基準カメラ画像上の画
素(点)naの周囲の画素のパターンの特徴と、検出カ
メラ画像上の対応点(画素)nbの周囲の画素のパター
ンの特徴との相関性を明確化して判断することにより、
対応点の検出の確実を期すためであり、特に、変化の少
ない基準カメラ画像および検出カメラ画像に対しては、
画像の相関性により、ブロックの大きさが大きければ大
きいほど対応点の検出の確実性が増す。
基準ブロックと検出ブロックとの相関性を評価する評価
関数としては、基準ブロックを構成する画素と、それぞ
れの画素に対応する、検出ブロックを構成する画素の画
素値の差分の絶対値の総和や、その差分の自乗和、正規
化された相互相関(normalized cross correlation)など
を用いることができる。
たが、ステレオ処理(ステレオマッチング法)について
は、その他、例えば、安居院、長尾、「C言語による画
像処理入門」、昭晃堂 pp.127ページなどにも記載され
ている。
構成例を示している。
を介して、音声認識部41Bに入力される音声データ
は、特徴抽出部101と音声区間検出部107に供給さ
れる。
らの音声データについて、適当なフレームごとに音響分
析処理を施し、これにより、例えば、MFCC(Mel Fre
quency Cepstrum Coefficient)等の特徴量としての特徴
ベクトルを抽出する。なお、特徴抽出部101では、そ
の他、例えば、スペクトルや、線形予測係数、ケプスト
ラム係数、線スペクトル対等の特徴ベクトル(特徴パラ
メータ)を抽出することが可能である。
得られる特徴ベクトルは、特徴ベクトルバッファ102
に順次供給されて記憶される。従って、特徴ベクトルバ
ッファ102では、フレームごとの特徴ベクトルが時系
列に記憶されていく。
えば、ある発話の開始から終了まで(音声区間)に得ら
れる時系列の特徴ベクトルを記憶する。
ファ102に記憶された特徴ベクトルを用いて、音響モ
デルデータベース104n(n=1,2,・・・,N
(Nは、2以上の整数)、辞書データベース105、お
よび文法データベース106を必要に応じて参照しなが
ら、マイク21に入力された音声(入力音声)を、例え
ば、連続分布HMM法等に基づいて音声認識する。
nは、音声認識する音声の言語における個々の音素や音
節などの所定の単位(PLU(Phonetic-Linguistic-Units))
ごとの音響的な特徴を表す音響モデルのセットを記憶し
ている。ここでは、連続分布HMM法に基づいて音声認
識を行うので、音響モデルとしては、例えば、ガウス分
布等の確率密度関数を用いたHMM(Hidden Markov Mod
el)が用いられる。辞書データベース105は、認識対
象の各単語(語彙)について、その発音に関する情報
(音韻情報)が記述された単語辞書を記憶している。文
法データベース106は、辞書データベース105の単
語辞書に登録されている各単語が、どのように連鎖する
(つながる)かを記述した文法規則(言語モデル)を記
憶している。ここで、文法規則としては、例えば、文脈
自由文法(CFG)や、正規文法(RG)、統計的な単
語連鎖確率(N−gram)などに基づく規則を用いる
ことができる。
105の単語辞書を参照することにより、音響モデルデ
ータベース104nに記憶されている音響モデルを接続
することで、単語の音響モデル(単語モデル)を構成す
る。さらに、マッチング部103は、幾つかの単語モデ
ルを、文法データベース106に記憶された文法規則を
参照することにより接続し、そのようにして接続された
単語モデルを用いて、時系列の特徴ベクトルとのマッチ
ングを、連続分布HMM法によって行い、マイク21に
入力された音声を認識する。即ち、マッチング部103
は、上述したようにして構成された各単語モデルの系列
から、特徴ベクトルバッファ102に記憶された時系列
の特徴ベクトルが観測される尤度を表すスコアを計算す
る。そして、マッチング部103は、例えば、そのスコ
アが最も高い単語モデルの系列を検出し、その単語モデ
ルの系列に対応する単語列を、音声の認識結果として出
力する。
が行われるため、マッチング部103は、音響的には、
接続された単語モデルに対応する単語列について、各特
徴ベクトルの出現確率を累積し、その累積値をスコアと
する。
計算は、音響モデルデータベース104に記憶された音
響モデルによって与えられる音響的なスコア(以下、適
宜、音響スコアという)と、文法データベース106に
記憶された文法規則によって与えられる言語的なスコア
(以下、適宜、言語スコアという)とを総合評価するこ
とで行われる。
M法による場合には、単語モデルを構成する音響モデル
から、特徴抽出部101が出力する特徴ベクトルの系列
が観測される確率(出現する確率)に基づいて、単語ご
とに計算される。また、言語スコアは、例えば、バイグ
ラムによる場合には、注目している単語と、その単語の
直前の単語とが連鎖(連接)する確率に基づいて求めら
れる。そして、各単語についての音響スコアと言語スコ
アとを総合評価して得られる最終的なスコア(以下、適
宜、最終スコアという)に基づいて、音声認識結果が確
定される。
ベース106を設けずに構成することも可能である。但
し、文法データベース106に記憶された規則によれ
ば、接続する単語モデルが制限され、その結果、マッチ
ング部103における音響スコアの計算の対象とする単
語数が限定されるので、マッチング部103の計算量を
低減し、処理速度を向上させることができる。
モデルデータベース1041,1042,・・・,104
Nが設けられているが、これらのN個の音響モデルデー
タベース1041乃至104Nには、マイクから複数の異
なる距離だけ離れた音源それぞれから発せられた音声を
用いて生成された、その複数の異なる距離ごとの音響モ
デルのセットがそれぞれ記憶されている。
ある学習用の音声の発話者までの距離を、D1,D2,・
・・,DN(但し、D1<D2<・・・<DNとする)とし
て、マイクから、各距離D1,D2,・・・,DNだけ離
れた位置から発話を行った発話者の音声を、そのマイク
で収録し、その収録した各距離に対する音声データを用
いて学習を行うことにより得られた、各距離D1,D2,
・・・,DNごとの音響モデル(ここではHMM)のセ
ットが、音響モデルデータベース1041,1042,・
・・,104Nにそれぞれ記憶されている。
には、マイクから、距離Dnだけ離れた位置から発話を
行った発話者の音声データから生成された音響モデルの
セットが記憶されている。
としては、例えば、0(実際にはユーザの口とマイクが
近接した状態)を採用することができ、最大値DNとし
ては、ここでは、例えば、ユーザがロボットに話しかけ
るであろうと予測される距離の最大値の統計値(例え
ば、多数のユーザに、最大で、どの程度離れた位置から
ロボットに話しかけるかのアンケートを行い、各ユーザ
が解答する距離の平均値など)を採用することができ
る。さらに、他の距離D2,D3,・・・,DN-1として
は、例えば、距離DNを等分する距離を採用することが
できる。
記憶させる距離Dnの音響モデルのセットは、マイクか
ら、距離Dnだけ離れた位置で、実際に行った発話の音
声データから生成することもできる他、マイクに近接し
て(マイクとの距離を0として)行われた発話を収録し
た音声データ(例えば、ヘッドセットマイクを使用して
収録された音声データ)に対して、マイクとそこから距
離Dnだけ離れた位置との間(空間)のインパルス応答
を畳み込むことにより得られる音声データから生成する
ことも可能である。なお、インパルス応答を用いて、所
定の距離だけ離れた位置で発話された音声をマイクで収
録した音声データを得ることについては、例えば、前述
の文献2に記載されている。
2の出力に基づいて、音声区間を検出し、その検出結果
を表すメッセージを、選択制御部108に供給する。こ
こで、音声区間を検出する方法としては、例えば、所定
のフレームごとに、A/D変換部12の出力のパワーを
計算し、そのパワーが所定の閾値以上であるかどうかを
判定する方法がある。
7から音声区間である旨のメッセージを受信すると、距
離計算部47(図3)に、マイク21から、発話を行っ
ているユーザまでの距離の算出を要求し、その要求に対
応して、距離計算部47から供給される距離を受信す
る。さらに、選択制御部108は、距離計算部47から
受信した距離に基づいて、セレクタ109を制御する。
算部47では、上述したステレオ処理によって、CCDカ
メラ22Lまたは22Rから、発話を行っているユーザ
までの距離が計算されるが、CCDカメラ22Lまたは2
2Rと、マイク21とは近い位置に設置されており、従
って、CCDカメラ22Lまたは22Rから、発話を行っ
ているユーザまでの距離は、マイク21から、発話を行
っているユーザまでの距離とみなせるものとする。但
し、CCDカメラ22Lおよび22Rと、マイク21との
位置関係が分かっている場合には、マイク21からユー
ザまでの距離は、CCDカメラ22Lまたは22Rからユ
ーザまでの距離に基づいて求めることが可能である。
の制御にしたがい、N個の音響モデルデータベース10
41乃至104Nのうちの1つである音響モデルデータベ
ース104nを選択する。さらに、セレクタ109は、
その選択した音響モデルデータベース104nに記憶さ
れた、距離Dnの音響モデルのセットを取得し、マッチ
ング部103に提供する。これにより、マッチング部1
03では、セレクタ109で取得された距離Dnの音響
モデルを用いて、音響スコアの計算が行われる。
て、図9の音声認識部41Bによる音声認識処理につい
て説明する。
区間検出部107は、ユーザからの音声入力があったか
どうかを判定する。即ち、音声区間検出部107は、音
声区間かどうかを判定し、音声区間であると判定した場
合には、ユーザからの音声入力があったと判定し、音声
区間でないと判定した場合には、ユーザからの音声入力
がなかったと判定する。
たと判定された場合、ステップS2乃至S5をスキップ
して、ステップS6に進む。
あったと判定された場合、即ち、音声区間検出部107
において、音声区間が検出され、その旨のメッセージが
選択制御部108に供給されるとともに、特徴抽出部1
01において、音声区間の音声データの特徴ベクトルの
抽出が開始され、さらに、特徴ベクトルバッファ102
において、その特徴ベクトルの記憶が開始された場合、
ステップS2に進み、選択制御部108は、距離計算部
47(図3)に対して、発話を行っているユーザまでの
距離の計算を要求する。これにより、距離計算部47
は、ステップS2において、発話を行っているユーザま
での距離を計算し、その距離を、選択制御部108に供
給する。
面方向から話しかけることが多いと予想されるため、ユ
ーザまでの距離を計算するためにそのユーザを撮像する
CCDカメラ22Lおよび22Rは、その撮像方向が、ロ
ボットの正面方向になるように、頭部ユニット3(図
2)設置されているものとする。
面方向からはずれた、例えば、側面や背面方向などから
話しかけてきた場合には、CCDカメラ22Lおよび22
Rにおいて、ユーザを撮像することができないことにな
る。そこで、例えば、マイク21として、CCDカメラ2
2Lおよび22Rの撮像方向と同一方向の指向性を有す
るマイクを採用し、マイク21に入力される音声レベル
が最大となる方向に、頭部ユニット3を動かし、これに
より、CCDカメラ22Lおよび22Rにおいて、ユーザ
を撮像することができるようにすることが可能である。
け、その複数のマイクに到達する音声信号のパワー差や
位相差から音源の方向を推定し、その方向に、その複数
のマイクのうち、最大の音声レベルが得られるものの方
向に、頭部ユニット3を動かすことによって、CCDカメ
ラ22Lおよび22Rにおいて、ユーザを撮像すること
ができるようにすることも可能である。なお、ロボット
に、複数のマイクを設ける場合には、例えば、最大の音
声レベルが得られるマイク(ロボットがユーザの方向を
向いた場合には、基本的には、正面方向に設けられてい
るマイク)が出力する音声データが、音声認識の対象と
される。
CCDカメラ22Lおよび22Rから得られる画像を用い
てステレオ処理を行うことにより、ユーザまでの距離を
計算するには、CCDカメラ22Lおよび22Rが出力す
る画像から、ユーザが表示されている画素(以下、適
宜、ユーザ画素という)を検出する必要があるが、例え
ば、いわゆる肌色などの所定の色が表示されている画素
を、ユーザ画素として検出するようにすることが可能で
ある。あるいは、また、例えば、CCDカメラ22Lや2
2Rによって、ユーザの顔を、あらかじめ撮像してお
き、その顔画像を標準パターンとして、画像認識を行う
ことにより、ユーザ画素を検出することも可能である。
3)から、ユーザまでの距離を受信すると、ステップS
3に進み、上述のN個の距離D1乃至DNの中から、ユー
ザまでの距離に最も近い距離Dnを検出し、その距離Dn
の音響モデルのセットを記憶している音響モデルデータ
ベース104nを選択するように、セレクタ109を制
御する。これにより、セレクタ109は、ステップS3
において、選択制御部108の制御にしたがい、音響モ
デルデータベース104nを選択し、ユーザまでの距離
に最も近い距離Dnの音響モデルのセットを取得して、
マッチング部103に供給し、ステップS4に進む。
は、特徴ベクトルバッファ102に記憶された、音声区
間の音声データから抽出された特徴ベクトルを用い、セ
レクタ109から供給される距離Dnの音響モデルのセ
ット、辞書データベース105に記憶された単語辞書、
および文法データベース106に記憶された文法規則を
参照することにより、音声認識結果の候補としての単語
列(単語)に対する言語スコアおよび音響スコアを計算
し、さらに、最終スコアを求め、最終スコアの最も大き
い単語列(単語)を、音声認識結果として確定する。
部103は、ステップS4で確定した音声認識結果を出
力し、ステップS6に進む。
るかどうかが判定され、終了しないと判定された場合、
ステップS1に戻り、以下、同様の処理が繰り返され
る。
理を終了すると判定された場合、即ち、例えば、ユーザ
によって、ロボットの電源がオフ状態とされた場合、音
声認識処理を終了する。
距離を計算し、その距離に最も近い距離Dnだけ離れた
位置で発話された音声を収録した音声データから生成さ
れた音響モデルのセット(距離Dnの音響モデルのセッ
ト)を用いて音声認識を行うようにしたので、マイクか
ら離れた位置で発話されたユーザの音声の認識精度を向
上させることができる。
音響環境に近い音響環境で収録された音声データを用い
て学習が行われた音響モデルのセットを用いて行われる
ため、音声認識精度を向上させることができる。
ットのうちの1セットを選択して音声認識が行われるの
で、音声認識処理に要求される計算量を(ほとんど)増
大させることはない。
までの距離の他、ノイズレベルや、残響特性その他の要
因によって変化するので、それらを考慮した音響モデル
のセットを用いることで、音声認識精度をより向上させ
ることが可能となる。
乃至DNの音響モデルのセットを記憶した音響モデルデ
ータベース1041乃至104Nから、ユーザまでの距離
に対応する音響モデルのセット(ユーザまでの距離に最
も近い距離の音響モデルのセット)を選択するようにし
たが、ユーザまでの距離に対応する音響モデルのセット
は、その他、例えば、ネットワークを介して取得するよ
うにすることなどが可能である。
の他の内部構成例を示すブロック図である。なお、図
中、図2における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。即ち、図11のペット型ロボットは、頭部ユニッ
ト3の中に、超音波センサ111が新たに設けられてい
る他は、図2における場合と基本的に同様に構成されて
いる。
イクを有し、図12に示すように、音源から、超音波パ
ルスを発する。さらに、超音波センサ111は、その超
音波パルスが障害物で反射され、返ってくる反射波を、
マイクで受信し、超音波パルスを発してから、反射波を
受信するまでの時間(以下、適宜、ラグ時間という)を
求め、コントローラ11に供給する。
1の機能的構成例を示している。なお、図中、図3にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下では、その説明は、適宜省略する。即ち、
図13のコントローラ11は、距離計算部47に対し
て、CCDカメラ22Lおよび22Rの出力に代えて、超
音波センサ111の出力が供給されるようになっている
他は、図3における場合と同様に構成されている。
が、超音波センサ111の出力に基づいて、ユーザまで
の距離を計算するようになっている。
えば、上述したような、マイク21として指向性を有す
るものを使用する方法、複数のマイクを使用する方法、
画像認識を利用する方法などによって、発話を行ってい
るユーザの方向を認識し、そのユーザの方向に、超音波
センサ111の音源が向くように、頭部ユニット3を動
かす。そして、超音波センサ111は、超音波パルス
を、ユーザに向けて発し、その反射波を受信すること
で、ラグ時間を求め、距離計算部47に供給する。距離
計算部47は、超音波センサ111から供給されるラグ
時間に基づいて、ユーザまでの距離を計算し、音声認識
部41Bに供給する。以後は、音声認識部41Bにおい
て、図9及び図10で説明した場合と同様の処理が行わ
れる。
認識部41Bの他の構成例を示している。なお、図中、
図9における場合と対応する部分については、同一の符
号を付してあり、以下では、その説明は、適宜省略す
る。
音響モデルのセットの中から、ユーザまでの距離に最も
近い距離の音響モデルのセットを選択し、その音響モデ
ルのセットを用いて音声認識を行うようになっていた
が、図14の実施の形態では、ユーザまでの距離に対応
する周波数特性の逆フィルタを用いて、マイク21から
出力される音声データをフィルタリングし、そのフィル
タリング後の音声データについて、所定の音響モデルの
セットを用い、音声認識を行うようになっている。
モデルデータベース104は、例えば、マイクに近接し
て(マイクとの距離を0として)行われた発話を収録し
た音声データから生成された音響モデルのセットを記憶
している。
22から供給されるタップ係数(以下、適宜、選択タッ
プ係数という)をタップ係数として動作するディジタル
フィルタで、A/D変換部12が出力する音声データを
フィルタリングし、特徴抽出部101に供給する。
部107から音声区間を検出した旨のメッセージを受信
すると、図3または図13の距離計算部47に、ユーザ
までの距離の計算を要求し、その要求に応じて、距離計
算部47から供給されるユーザまでの距離を受信する。
さらに、タップ係数選択部122は、ユーザまでの距離
に最も近い距離に対応する周波数特性の逆フィルタを実
現するタップ係数のセットを、タップ係数記憶部123
から読み出す。そして、タップ係数選択部122は、タ
ップ係数記憶部123から読み出したタップ係数を、選
択タップ係数として、フィルタ部121に供給し、その
タップ係数として設定する。
したN個の距離D1乃至DNそれぞれに対応する周波数特
性の逆の特性を有するディジタルフィルタとしての逆フ
ィルタを実現するタップ係数のセットを記憶している。
では、音声区間検出部107において音声区間であるこ
とが検出されると、タップ係数選択部122が、距離計
算部47(図3または図13)に対して、ユーザまでの
距離の計算を要求し、その要求に応じて、距離計算部4
7から供給されるユーザまでの距離を受信する。さら
に、タップ係数選択部122は、ユーザまでの距離に最
も近い距離に対応する周波数特性の逆フィルタを実現す
るタップ係数のセットを、タップ係数記憶部123から
読み出し、選択タップ係数として、フィルタ部121に
供給する。
を、そのタップ係数として、A/D変換部12が出力す
る音声データをフィルタリングし、これにより、マイク
21が出力する音声データの周波数成分からユーザまで
の距離に対応する周波数特性を除去した音声データ、即
ち、等価的に、マイク21に近接して行われた発話を収
録した音声データを得て、特徴抽出部101に供給す
る。
行われた発話を収録した音声データをx(t)(tは時
刻(時間)を表す)と、距離Dnだけ離れた位置で行わ
れた同一発話を収録した音声データをy(t)と、マイ
ク21から、距離Dnだけ離れた位置までの空間のイン
パルス応答をhn(t)と、それぞれ表すとともに、各
周波数をωとして、x(t),y(t),hn(t)そ
れぞれのフーリエ変換を、X(ω),Y(ω),H
n(ω)と表すこととすると、次式が成立する。
性を表すから、式(2)より、距離Dnに対応する周波
数特性Hn(ω)の逆の特性1/Hn(ω)を有するフィ
ルタである逆フィルタによって、マイク21から距離D
nだけ離れた位置で行われた発話を収録した音声データ
Y(ω)をフィルタリングすれば、等価的に、マイク2
1に近接して行われた発話を収録した音声データX
(ω)を得ることができる。
記憶部123は、各距離D1乃至DNに対応する周波数特
性H1(ω)乃至HN(ω)の逆の特性1/H1(ω)乃
至1/HN(ω)を有する逆フィルタを実現するタップ
係数を記憶しており、タップ係数選択部122におい
て、ユーザまでの距離に最も近い距離に対応する周波数
特性の逆フィルタを実現するタップ係数のセットを、タ
ップ係数記憶部123から読み出し、選択タップ係数と
して、フィルタ部121に供給する。
ップ係数を、そのタップ係数(ディジタルフィルタのタ
ップ係数)として、A/D変換部12が出力する音声デ
ータがフィルタリングされることにより、マイク21に
近接して行われた発話を収録した音声データが、等価的
に求められ、特徴抽出部101に供給される。
にマイク21に近接して行われた発話を収録した音声デ
ータについて、マイクに近接して行われた発話を収録し
た音声データから生成された音響モデルのセットを用い
て音声認識が行われるから、やはり、図9の実施の形態
における場合と同様に、マッチング部103の計算量を
増大させずに、音声認識精度を向上させることができ
る。
(ω)の逆の特性1/Hn(ω)は、マイクから距離Dn
だけ離れた位置から、理想的には、インパルスδ(t)
を発し、そのインパルスδ(t)を収録したマイクから
出力される音声データs(t)を観測することにより、
実用上はTSP(Time Stretched Pulse)信号を用いて計
測することによって、式(1)または(2)に示した関
係から求めることが可能である。
を収録するマイクとは、同一の周波数特性を有するもの
を用いるのが望ましい。
実体のあるロボットに適用した場合について説明した
が、本発明は、例えば、コンピュータ上に表示される仮
想的なロボットや、その他の任意の装置に適用可能であ
る。
えば、汎用のコンピュータに行わせることができ、この
場合、一連の音声認識処理を行うプログラムが、汎用の
コンピュータにインストールされることで、音声認識装
置が実現される。
ュータに内蔵されている記録媒体としてのハードディス
クやROM(Read Only Memory)に予め記録しておくこと
ができる。
ルディスク、CD-ROM(Compact DiscRead Only Memory),
MO(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体に、一時的あるいは永続的に格納(記録)し
ておくことができる。このようなリムーバブル記録媒体
は、いわゆるパッケージソフトウエアとして提供するこ
とができる。
ムーバブル記録媒体からコンピュータにインストールす
る他、ダウンロードサイトから、ディジタル衛星放送用
の人工衛星を介して、コンピュータに無線で転送した
り、LAN(Local Area Network)、インターネットといっ
たネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを受信し、内蔵するハードディスクにインス
トールすることができる。
(CPU)に各種の処理を行わせるためのプログラムを
記述する処理ステップは、必ずしもフローチャートとし
て記載された順序に沿って時系列に処理する必要はな
く、並列的あるいは個別に実行される処理(例えば、並
列処理あるいはオブジェクトによる処理)も含むもので
ある。
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
リズムによる音声認識にも適用可能である。
や、超音波センサによって、ユーザまでの距離を求める
ようにしたが、ユーザまでの距離は、その他の任意の方
法によって求めることが可能である。即ち、例えば、ユ
ーザまでの距離は、例えば、ユーザに、その距離を発話
してもらい、その発話を音声認識することによって求め
ること等が可能である。さらに、リモートコマンダに、
距離を入力するボタンを設け、そのボタンを、ユーザに
操作してもらうことにより、ロボットにおいて、ユーザ
までの距離を求めるようにすることが可能である。
認識方法、並びにプログラムによれば、音声の音源まで
の距離が求められ、その距離に対応する音響モデルのセ
ットが取得される。そして、その取得された音響モデル
のセットを用いて、音声が認識される。従って、音声認
識精度を向上させることができる。
識方法、並びにプログラムによれば、音声の音源までの
距離が求められ、その距離に対応する周波数特性の逆フ
ィルタを実現するタップ係数が取得される。そして、そ
の取得されたタップ係数を用いて、音声がフィルタリン
グされ、そのフィルタリングされた音声が、所定の音響
モデルのセットを用いて認識される。従って、音声認識
精度を向上させることができる。
例を示す斜視図である。
ブロック図である。
ク図である。
ユーザを撮影している状態を示す図である。
である。
ルを示す図である。
ある。
ャートである。
を示すブロック図である。
る。
ブロック図である。
図である。
2D 脚部ユニット,3 頭部ユニット, 3A 頭セ
ンサ, 3B 顎センサ, 4 尻尾部ユニット, 1
1 コントローラ, 11A CPU, 11B メモ
リ, 12A/D変換部, 13 D/A変換部, 1
4 通信部, 15 半導体メモリ, 21 マイク,
22L,22R CCDカメラ, 23 スピーカ,
41 センサ入力処理部, 41A 圧力処理部,
41B 音声認識部, 41C 画像処理部, 42
モデル記憶部, 43 行動決定機構部, 44 姿勢
遷移機構部, 45 制御機構部, 46 音声合成
部, 47 距離計算部, 101 特徴抽出部, 1
02 特徴ベクトルバッファ, 103 マッチング
部, 104,1041乃至104N 音響モデルデータ
ベース, 105辞書データベース, 106 文法デ
ータベース, 107 音声区間検出部,108 選択
制御部, 109 セレクタ, 111 超音波セン
サ, 121 フィルタ部, 122 タップ係数選択
部, 123 タップ係数記憶部
Claims (11)
- 【請求項1】 入力された音声を認識する音声認識装置
であって、 前記音声の音源までの距離を求める距離算出手段と、 前記距離算出手段において求められた距離に対応する音
響モデルのセットを取得する取得手段と、 前記取得手段において取得された前記音響モデルのセッ
トを用いて、前記音声を認識する音声認識手段とを備え
ることを特徴とする音声認識装置。 - 【請求項2】 複数の異なる距離だけ離れた音源それぞ
れから発せられた音声を用いて生成された、前記複数の
異なる距離ごとの音響モデルのセットを記憶している記
憶手段をさらに備え、 前記取得手段は、前記距離算出手段において求められた
距離に対応する音響モデルのセットを、前記記憶手段に
記憶された前記複数の異なる距離ごとの音響モデルのセ
ットの中から選択することを特徴とする請求項1に記載
の音声認識装置。 - 【請求項3】 前記距離算出手段は、画像を撮像する複
数の撮像手段が出力する画像を用いてステレオ処理を行
うことにより、前記音源までの距離を求めることを特徴
とする請求項1に記載の音声認識装置。 - 【請求項4】 前記距離算出手段は、超音波センサの出
力を用いて、前記音源までの距離を求めることを特徴と
する請求項1に記載の音声認識装置。 - 【請求項5】 入力された音声を認識する音声認識方法
であって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る音響モデルのセットを取得する取得ステップと、 前記取得ステップにおいて取得された前記音響モデルの
セットを用いて、前記音声を認識する音声認識ステップ
とを備えることを特徴とする音声認識方法。 - 【請求項6】 入力された音声を認識する音声認識処理
を、コンピュータに行わせるプログラムであって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る音響モデルのセットを取得する取得ステップと、 前記取得ステップにおいて取得された前記音響モデルの
セットを用いて、前記音声を認識する音声認識ステップ
とを備えることを特徴とするプログラム。 - 【請求項7】 入力された音声を認識する音声認識処理
を、コンピュータに行わせるプログラムが記録されてい
る記録媒体であって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る音響モデルのセットを取得する取得ステップと、 前記取得ステップにおいて取得された前記音響モデルの
セットを用いて、前記音声を認識する音声認識ステップ
とを備えるプログラムが記録されていることを特徴とす
る記録媒体。 - 【請求項8】 入力された音声を認識する音声認識装置
であって、 前記音声の音源までの距離を求める距離算出手段と、 前記距離算出手段において求められた距離に対応する周
波数特性の逆フィルタを実現するタップ係数を取得する
取得手段と、 前記取得手段において取得された前記タップ係数を用い
て、前記音声をフィルタリングするフィルタ手段と、 前記フィルタ手段においてフィルタリングされた前記音
声を、所定の音響モデルのセットを用いて認識する音声
認識手段とを備えることを特徴とする音声認識装置。 - 【請求項9】 入力された音声を認識する音声認識方法
であって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る周波数特性の逆フィルタを実現するタップ係数を取得
する取得ステップと、 前記取得ステップにおいて取得された前記タップ係数を
用いて、前記音声をフィルタリングするフィルタステッ
プと、 前記フィルタステップにおいてフィルタリングされた前
記音声を、所定の音響モデルのセットを用いて認識する
音声認識ステップとを備えることを特徴とする音声認識
方法。 - 【請求項10】 入力された音声を認識する音声認識処
理を、コンピュータに行わせるプログラムであって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る周波数特性の逆フィルタを実現するタップ係数を取得
する取得ステップと、 前記取得ステップにおいて取得された前記タップ係数を
用いて、前記音声をフィルタリングするフィルタステッ
プと、 前記フィルタステップにおいてフィルタリングされた前
記音声を、所定の音響モデルのセットを用いて認識する
音声認識ステップとを備えることを特徴とするプログラ
ム。 - 【請求項11】 入力された音声を認識する音声認識処
理を、コンピュータに行わせるプログラムが記録されて
いる記録媒体であって、 前記音声の音源までの距離を求める距離算出ステップ
と、 前記距離算出ステップにおいて求められた距離に対応す
る周波数特性の逆フィルタを実現するタップ係数を取得
する取得ステップと、 前記取得ステップにおいて取得された前記タップ係数を
用いて、前記音声をフィルタリングするフィルタステッ
プと、 前記フィルタステップにおいてフィルタリングされた前
記音声を、所定の音響モデルのセットを用いて認識する
音声認識ステップとを備えるプログラムが記録されてい
ることを特徴とする記録媒体。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001323012A JP2003131683A (ja) | 2001-10-22 | 2001-10-22 | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
DE60234530T DE60234530D1 (de) | 2001-10-22 | 2002-10-21 | Vorrichtung und verfahren zur spracherkennung |
PCT/JP2002/010868 WO2003036617A1 (fr) | 2001-10-22 | 2002-10-21 | Appareil de reconnaissance vocale et procede de reconnaissance de la parole |
US10/451,285 US7031917B2 (en) | 2001-10-22 | 2002-10-21 | Speech recognition apparatus using distance based acoustic models |
CNA028040511A CN1488134A (zh) | 2001-10-22 | 2002-10-21 | 语音识别装置及语音识别方法 |
EP02802031A EP1441328B1 (en) | 2001-10-22 | 2002-10-21 | Speech recognition apparatus and speech recognition method |
US11/362,331 US7321853B2 (en) | 2001-10-22 | 2006-02-24 | Speech recognition apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001323012A JP2003131683A (ja) | 2001-10-22 | 2001-10-22 | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007112035A Division JP2007241304A (ja) | 2007-04-20 | 2007-04-20 | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003131683A true JP2003131683A (ja) | 2003-05-09 |
Family
ID=19139964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001323012A Pending JP2003131683A (ja) | 2001-10-22 | 2001-10-22 | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
Country Status (6)
Country | Link |
---|---|
US (2) | US7031917B2 (ja) |
EP (1) | EP1441328B1 (ja) |
JP (1) | JP2003131683A (ja) |
CN (1) | CN1488134A (ja) |
DE (1) | DE60234530D1 (ja) |
WO (1) | WO2003036617A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006038894A (ja) * | 2004-07-22 | 2006-02-09 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2015018015A (ja) * | 2013-07-08 | 2015-01-29 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
CN110815234A (zh) * | 2018-08-07 | 2020-02-21 | 圈乐斯株式会社 | 交互机器人的控制方法及控制服务器 |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090030552A1 (en) * | 2002-12-17 | 2009-01-29 | Japan Science And Technology Agency | Robotics visual and auditory system |
JP4188968B2 (ja) * | 2003-01-20 | 2008-12-03 | 三洋電機株式会社 | 立体視用映像提供方法及び立体映像表示装置 |
US8209185B2 (en) | 2003-09-05 | 2012-06-26 | Emc Corporation | Interface for management of auditory communications |
US8103873B2 (en) * | 2003-09-05 | 2012-01-24 | Emc Corporation | Method and system for processing auditory communications |
JP4516527B2 (ja) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | 音声認識装置 |
US8180742B2 (en) * | 2004-07-01 | 2012-05-15 | Emc Corporation | Policy-based information management |
US8244542B2 (en) * | 2004-07-01 | 2012-08-14 | Emc Corporation | Video surveillance |
US20060004818A1 (en) * | 2004-07-01 | 2006-01-05 | Claudatos Christopher H | Efficient information management |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
US8229904B2 (en) | 2004-07-01 | 2012-07-24 | Emc Corporation | Storage pools for information management |
US8180743B2 (en) * | 2004-07-01 | 2012-05-15 | Emc Corporation | Information management |
US8626514B2 (en) | 2004-08-31 | 2014-01-07 | Emc Corporation | Interface for management of multiple auditory communications |
JP4204541B2 (ja) * | 2004-12-24 | 2009-01-07 | 株式会社東芝 | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム |
JP2009508560A (ja) * | 2005-09-21 | 2009-03-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 遠隔に位置するマイクロフォンを使用して音声起動される制御を有する超音波イメージングシステム |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8751226B2 (en) * | 2006-06-29 | 2014-06-10 | Nec Corporation | Learning a verification model for speech recognition based on extracted recognition and language feature information |
JP4469880B2 (ja) * | 2007-08-09 | 2010-06-02 | 株式会社東芝 | 音声処理装置及び方法 |
CN101411946B (zh) * | 2007-10-19 | 2012-03-28 | 鸿富锦精密工业(深圳)有限公司 | 玩具恐龙 |
JP5075664B2 (ja) * | 2008-02-15 | 2012-11-21 | 株式会社東芝 | 音声対話装置及び支援方法 |
TW200937348A (en) * | 2008-02-19 | 2009-09-01 | Univ Nat Chiao Tung | Calibration method for image capturing device |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
CN101610360A (zh) * | 2008-06-19 | 2009-12-23 | 鸿富锦精密工业(深圳)有限公司 | 自动追踪声源的摄像装置 |
US8532989B2 (en) * | 2009-09-03 | 2013-09-10 | Honda Motor Co., Ltd. | Command recognition device, command recognition method, and command recognition robot |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
JP5393544B2 (ja) * | 2010-03-12 | 2014-01-22 | 本田技研工業株式会社 | ロボット、ロボット制御方法およびプログラム |
EP2550614A4 (en) * | 2010-03-23 | 2013-09-18 | Nokia Corp | METHOD AND APPARATUS FOR DETERMINING A RANGE OF USER AGES |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US8886532B2 (en) * | 2010-10-27 | 2014-11-11 | Microsoft Corporation | Leveraging interaction context to improve recognition confidence scores |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
KR101791907B1 (ko) | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US9223415B1 (en) | 2012-01-17 | 2015-12-29 | Amazon Technologies, Inc. | Managing resource usage for task performance |
JP5862349B2 (ja) * | 2012-02-16 | 2016-02-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9208777B2 (en) * | 2013-01-25 | 2015-12-08 | Microsoft Technology Licensing, Llc | Feature space transformation for personalization using generalized i-vector clustering |
US20150206539A1 (en) * | 2013-06-04 | 2015-07-23 | Ims Solutions, Inc. | Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning |
US9310800B1 (en) * | 2013-07-30 | 2016-04-12 | The Boeing Company | Robotic platform evaluation system |
US9847082B2 (en) * | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
US9367203B1 (en) | 2013-10-04 | 2016-06-14 | Amazon Technologies, Inc. | User interface techniques for simulating three-dimensional depth |
CN104715753B (zh) * | 2013-12-12 | 2018-08-31 | 联想(北京)有限公司 | 一种数据处理的方法及电子设备 |
US9472186B1 (en) * | 2014-01-28 | 2016-10-18 | Nvoq Incorporated | Automated training of a user audio profile using transcribed medical record recordings |
CN103928025B (zh) * | 2014-04-08 | 2017-06-27 | 华为技术有限公司 | 一种语音识别的方法及移动终端 |
CN104267920B (zh) * | 2014-09-29 | 2017-10-27 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、系统及显示模式切换方法、装置 |
WO2016114428A1 (ko) * | 2015-01-16 | 2016-07-21 | 삼성전자 주식회사 | 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스 |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
CN106356064A (zh) * | 2016-08-30 | 2017-01-25 | 合肥前瞻智能科技有限公司 | 一种定向声控开关语音识别系统 |
CN106328141B (zh) * | 2016-09-05 | 2019-06-14 | 南京大学 | 一种面向移动终端的超声波唇读识别装置及方法 |
US10140987B2 (en) * | 2016-09-16 | 2018-11-27 | International Business Machines Corporation | Aerial drone companion device and a method of operating an aerial drone companion device |
KR102818405B1 (ko) * | 2016-10-04 | 2025-06-10 | 삼성전자주식회사 | 음성 인식 전자 장치 |
US20180158458A1 (en) * | 2016-10-21 | 2018-06-07 | Shenetics, Inc. | Conversational voice interface of connected devices, including toys, cars, avionics, mobile, iot and home appliances |
JP6705410B2 (ja) * | 2017-03-27 | 2020-06-03 | カシオ計算機株式会社 | 音声認識装置、音声認識方法、プログラム及びロボット |
CN109377991B (zh) * | 2018-09-30 | 2021-07-23 | 珠海格力电器股份有限公司 | 一种智能设备控制方法及装置 |
CN109637540B (zh) * | 2019-02-28 | 2021-02-26 | 北京百度网讯科技有限公司 | 智能语音设备的蓝牙评测方法、装置、设备及介质 |
CN110515449B (zh) * | 2019-08-30 | 2021-06-04 | 北京安云世纪科技有限公司 | 唤醒智能设备的方法及装置 |
JP7395446B2 (ja) * | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
CN112151080B (zh) * | 2020-10-28 | 2021-08-03 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN113628621A (zh) * | 2021-08-18 | 2021-11-09 | 北京声智科技有限公司 | 一种实现设备就近唤醒的方法、系统及装置 |
CN114464184B (zh) * | 2022-04-11 | 2022-09-02 | 北京荣耀终端有限公司 | 语音识别的方法、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63121097A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPS63121098A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPH02230896A (ja) * | 1989-03-03 | 1990-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号入力装置 |
JPH05227531A (ja) * | 1992-02-17 | 1993-09-03 | Sanyo Electric Co Ltd | カメラ監視システム |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH0788791A (ja) * | 1993-09-20 | 1995-04-04 | Mitsubishi Electric Corp | ロボット装置およびその周辺装置 |
JPH08286680A (ja) * | 1995-02-17 | 1996-11-01 | Takenaka Komuten Co Ltd | 音抽出装置 |
JPH1113507A (ja) * | 1997-06-27 | 1999-01-19 | Mitsubishi Motors Corp | 自動追従走行システム |
JP2000010589A (ja) * | 1998-06-19 | 2000-01-14 | Tokai Rika Co Ltd | 車両用音声認識装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5946427A (ja) * | 1982-09-10 | 1984-03-15 | Matsushita Electric Ind Co Ltd | 加熱装置 |
JPS63248218A (ja) * | 1987-04-03 | 1988-10-14 | Oki Electric Ind Co Ltd | 適応制御フイルタ |
JPH02132499A (ja) * | 1988-11-14 | 1990-05-21 | Toshiba Corp | 音声入力装置 |
US5008941A (en) * | 1989-03-31 | 1991-04-16 | Kurzweil Applied Intelligence, Inc. | Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system |
US5307405A (en) * | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
JPH0713591A (ja) * | 1993-06-22 | 1995-01-17 | Hitachi Ltd | 音声認識装置および音声認識方法 |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
JPH11237897A (ja) * | 1998-02-23 | 1999-08-31 | Kenwood Corp | 音響装置 |
JPH11296192A (ja) * | 1998-04-10 | 1999-10-29 | Pioneer Electron Corp | 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体 |
US6904405B2 (en) * | 1999-07-17 | 2005-06-07 | Edwin A. Suominen | Message recognition using shared language model |
US6752498B2 (en) * | 2001-05-14 | 2004-06-22 | Eastman Kodak Company | Adaptive autostereoscopic display system |
ATE426234T1 (de) * | 2001-06-19 | 2009-04-15 | Speech Sentinel Ltd | Sprecherverifikation |
-
2001
- 2001-10-22 JP JP2001323012A patent/JP2003131683A/ja active Pending
-
2002
- 2002-10-21 DE DE60234530T patent/DE60234530D1/de not_active Expired - Lifetime
- 2002-10-21 WO PCT/JP2002/010868 patent/WO2003036617A1/ja active Application Filing
- 2002-10-21 CN CNA028040511A patent/CN1488134A/zh active Pending
- 2002-10-21 US US10/451,285 patent/US7031917B2/en not_active Expired - Fee Related
- 2002-10-21 EP EP02802031A patent/EP1441328B1/en not_active Expired - Lifetime
-
2006
- 2006-02-24 US US11/362,331 patent/US7321853B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63121097A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPS63121098A (ja) * | 1986-11-10 | 1988-05-25 | 松下電器産業株式会社 | 電話用音声認識装置 |
JPH02230896A (ja) * | 1989-03-03 | 1990-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号入力装置 |
JPH05227531A (ja) * | 1992-02-17 | 1993-09-03 | Sanyo Electric Co Ltd | カメラ監視システム |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH0788791A (ja) * | 1993-09-20 | 1995-04-04 | Mitsubishi Electric Corp | ロボット装置およびその周辺装置 |
JPH08286680A (ja) * | 1995-02-17 | 1996-11-01 | Takenaka Komuten Co Ltd | 音抽出装置 |
JPH1113507A (ja) * | 1997-06-27 | 1999-01-19 | Mitsubishi Motors Corp | 自動追従走行システム |
JP2000010589A (ja) * | 1998-06-19 | 2000-01-14 | Tokai Rika Co Ltd | 車両用音声認識装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006038894A (ja) * | 2004-07-22 | 2006-02-09 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2015018015A (ja) * | 2013-07-08 | 2015-01-29 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
CN110815234A (zh) * | 2018-08-07 | 2020-02-21 | 圈乐斯株式会社 | 交互机器人的控制方法及控制服务器 |
Also Published As
Publication number | Publication date |
---|---|
US7031917B2 (en) | 2006-04-18 |
EP1441328B1 (en) | 2009-11-25 |
WO2003036617A1 (fr) | 2003-05-01 |
CN1488134A (zh) | 2004-04-07 |
US20060143006A1 (en) | 2006-06-29 |
EP1441328A1 (en) | 2004-07-28 |
EP1441328A4 (en) | 2005-11-23 |
US7321853B2 (en) | 2008-01-22 |
US20040054531A1 (en) | 2004-03-18 |
DE60234530D1 (de) | 2010-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003131683A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP4296714B2 (ja) | ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム | |
US7065490B1 (en) | Voice processing method based on the emotion and instinct states of a robot | |
JP4131392B2 (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
KR20010062767A (ko) | 정보 처리 장치, 정보 처리 방법 및 저장 매체 | |
JP2019175432A (ja) | 対話制御装置、対話システム、対話制御方法及びプログラム | |
WO2020004213A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2002116792A (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
JP2007241304A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP4600736B2 (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP2001154693A (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
JP2005335001A (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP2004283927A (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP2001188551A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2001212780A (ja) | 行動制御装置および行動制御方法、並びに記録媒体 | |
JP2002307349A (ja) | ロボット装置、情報学習方法、プログラム及び記録媒体 | |
JP4706893B2 (ja) | 音声認識装置および方法、並びに、プログラムおよび記録媒体 | |
JP2002268663A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP4016316B2 (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
JP2004286805A (ja) | 話者識別装置および話者識別方法、並びにプログラム | |
JP7024754B2 (ja) | 制御装置、ロボット、制御方法およびプログラム | |
JP2002258886A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP4656354B2 (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP4742415B2 (ja) | ロボット制御装置およびロボット制御方法、並びに記録媒体 | |
JP2004309523A (ja) | ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070703 |