JPH096390A - 音声認識対話処理方法および音声認識対話装置 - Google Patents
音声認識対話処理方法および音声認識対話装置Info
- Publication number
- JPH096390A JPH096390A JP7156529A JP15652995A JPH096390A JP H096390 A JPH096390 A JP H096390A JP 7156529 A JP7156529 A JP 7156529A JP 15652995 A JP15652995 A JP 15652995A JP H096390 A JPH096390 A JP H096390A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- input
- data
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Toys (AREA)
Abstract
り、認識性能の向上を図った不特定話者音声認識可能な
音声認識対話装置。 【構成】 音声入力手段1により入力音声を音声分析部
2で分析した音声特徴データを入力し、予め登録された
認識可能な単語に対する不特定話者の標準音声特徴デー
タを基に、登録単語に対応した検出データを出力する不
特定話者単語データ出力手段3と、特定話者の発する単
語の標準音声特徴データを該入力音声を基に登録し特定
話者の入力音声に対する単語検出データを出力する特定
話者単語登録手段8と、特定話者の単語登録時データ入
力設定を行うデータ入力設定手段9と、それぞれの単語
検出データを入力し、検出データを基に入力音声を認識
し、該応答内容を決定して、データ入力設定手段からの
設定データを受け各種制御を行う音声認識会話制御手段
4を有し、応答内容を音声合成部8で音声合成後、音声
出力部10から出力する。
Description
識結果に対応した応答や特定動作を行う音声認識対話処
理方法および音声認識対話装置に関する。
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を10単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。
は、多数(たとえば、200人程度)の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶(登録)させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。
不特定話者音声認識装置は、話者の話した言葉と違う単
語や言葉を認識してしまうことも多く、また、話者の話
し方の個性などによって、認識される単語、認識されな
い単語があったり、また、話者によっては、全ての単語
が全く認識されないという問題が多く発生していた。
が可能な音声認識装置において、話者の個性などによっ
て認識されない単語がある場合には、特定話者の音声認
識機能を用いて音声登録を可能とすることで、認識不可
の単語を大幅に減らし、認識性能の向上を図ることを目
的としている。
理方法は、音声入力手段により入力された音声を分析し
て音声特徴データを発生する音声分析工程と、この音声
分析工程からの音声特徴データを入力し、予め登録され
た認識可能な単語に対する不特定話者の標準音声特徴デ
ータを基に、入力音声に含まれる登録単語に対応した検
出データを出力する不特定話者単語データ出力工程と、
特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、前記不特定話者単語データ出力工程から出力
された入力音声に対する単語検出データおよび前記特定
話者単語登録工程から得られた入力音声に対する単語検
出データを入力して、それぞれの検出データを基に入力
音声を認識し、それに対応した応答内容を決定するとと
もに、特定話者の単語登録を行う際に外部からの設定デ
ータを受けて各種制御を行う音声認識会話制御工程と、
前記音声認識会話制御工程により決定された応答内容に
基づいた音声合成出力を発生する音声合成工程と、この
音声合成工程からの音声合成出力を外部に出力する音声
出力工程とを有することを特徴としている。
入力音声を基にDPマッチングによる単語検出データを
出力するものであって、音声分析工程からの特定話者の
所定の音声入力に対する特徴データを入力して標準パタ
ーンを作成する単語登録工程、この単語登録工程により
作成された標準パターンを記憶する標準パターン記憶工
程、前記音声分析工程からの特定話者の所定の音声入力
に対する特徴データを入力し、前記標準パターンとの比
較により単語検出データを出力する単語検出工程を有し
たものであってもよく、また、前記特定話者単語登録工
程は、特定話者の入力音声から前記不特定話者の標準音
声特徴データを基に話者適応した標準音声パターンを作
成する単語登録工程、この単語登録工程により作成され
た話者適応された標準パターンを記憶する話者適応標準
パターン記憶工程を少なくとも有し、前記音声分析工程
からの特定話者の所定の音声入力に対する特徴データを
入力し、前記話者適応標準パターンとの比較により単語
検出データを出力するようにしたものでもよい。
音声入力手段により入力された音声を分析して音声特徴
データを発生する音声分析工程と、この音声分析工程か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力工程と、特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録工程
と、前記不特定話者単語データ出力工程から出力された
入力音声に対する単語検出データおよび前記特定話者単
語登録工程から得られた入力音声に対する単語検出デー
タを入力して、それぞれの検出データを基に入力音声を
認識し、それに対応した応答内容を決定するとともに、
特定話者の単語登録を行う際に外部からの設定データを
受けて各種制御を行う音声認識会話制御工程と、前記外
部からの設定データとして応答データ作成に関する設定
入力があった場合、前記音声認識会話制御工程からの指
示を受けて、入力された音声信号に基づいた応答データ
を作成する応答データ登録工程と、予め装置に登録され
ている応答データまたは前記応答データ登録工程により
作成された応答データのうち、前記音声認識会話制御工
程により決定された応答データに基づいた音声合成出力
を発生する音声合成工程と、この音声合成工程からの音
声合成出力を外部に出力する音声出力工程とを有するこ
とを特徴としている。
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、予め登録された応答内
容を記憶する応答データ記憶手段と、この応答データ記
憶手段に記憶された応答内容のうち、前記音声認識会話
制御手段により決定された応答内容に基づいた音声合成
出力を発生する音声合成手段と、この音声合成手段から
の音声合成出力を外部に出力する音声出力手段とを有し
た構成とする。
定話者の入力音声を基にDPマッチングによる単語検出
データを出力するものであって、音声分析部からの特定
話者の所定の音声入力に対する特徴データを入力して標
準パターンを作成する単語登録手段、この単語登録手段
により作成された標準パターンを記憶する標準パターン
記憶手段、前記音声分析手段からの特定話者の所定の音
声入力に対する特徴データを入力し、前記標準パターン
との比較により単語検出データを出力する単語検出手段
を有したものであってもよく、また、前記特定話者単語
登録手段は、特定話者の入力音声から前記不特定話者の
標準音声特徴データを基に話者適応した標準音声パター
ンを作成する単語登録手段、この単語登録手段により作
成された話者適応された標準パターンを記憶する話者適
応標準パターン記憶手段を少なくとも有し、前記音声分
析手段からの特定話者の所定の音声入力に対する特徴デ
ータを入力し、前記話者適応標準パターンとの比較によ
り単語検出データを出力するものであってもよい。
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、前記データ入力設定手
段から応答データ作成に関する設定入力があった場合、
前記音声認識会話制御手段からの指示を受けて、入力さ
れた音声信号に基づいた応答データを作成する応答デー
タ登録手段と、予め装置に登録された応答内容を記憶す
る応答データ記憶手段と、前記応答データ登録手段によ
り作成された応答データを記憶する記憶手段と、前記予
め装置に登録されている応答データまたは前記応答デー
タ登録手段により作成された応答データのうち、前記音
声認識会話制御手段により決定された応答データに基づ
いた音声合成出力を発生する音声合成手段と、この音声
合成手段からの音声合成出力を外部に出力する音声出力
手段とを有する構成としている。
と、特定話者の音声を登録する機能および特定話者の音
声認識機能を兼ね備えている。話者の話し方の個性など
によって、認識される単語、認識されない単語があった
り、また、話者によっては、すべての登録単語が全く認
識されない場合もあるが、このような場合には、特定話
者音声登録機能を用いて認識されない単語を登録するこ
とができる。これにより、認識できない単語を殆どなく
すことができ、装置の認識性能を大幅に向上させること
ができる。また、特定話者に対しては、登録単語以外の
単語の登録も可能となる。
前記データ入力設定手段から応答データ作成に関する設
定入力があった場合、前記音声認識会話制御手段からの
指示を受けて、入力された音声信号に基づいた応答デー
タを作成し、それを登録することを可能としている。こ
れにより、必要に応じて、身近な色々な人の声による応
答メッセージの作成が可能となり、より多彩な会話が可
能となる。
する。なお、この実施例では、本発明を玩具に適用した
場合を例にとり、特にここでは、幼児用の玩具として、
たとえば、犬などのぬいぐるみに適用した場合について
説明する。
施例を説明する構成図である。図1において、話者の音
声を入力する音声入力部1、入力音声を分析して音声特
徴データを出力する音声分析部2、この音声分析部2か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力手段3、音声認識
会話制御部4(詳細な説明は後述する)、予め設定され
た応答データを記憶する応答データ記憶部5、音声合成
部6、音声出力部7などは、不特定話者の話す単語を認
識して、その認識結果に応じた応答メッセージを発生す
る部分であり、この第1の実施例では、これに特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録手段8
を設け、さらに、外部から様々なデータ入力設定(これ
については後述する)を行うためのデータ入力設定手段
としての設定スイッチ9が設けられた構成となってい
る。
部2、不特定話者単語データ出力手段3、音声認識会話
制御部4、応答データ記憶部5、音声合成部6、特定話
者単語登録手段8などは、犬のぬいぐるみの内部に収納
され、音声入力部(マイクロホン)1はぬいぐるみのた
とえば耳の部分、音声出力部(スピーカ)7はたとえば
口の部分に設けられ、設定スイッチ9はたとえばぬいぐ
るみの腹の部分に外部から操作可能に設けられる。
複数の認識対象登録単語の標準音声特徴データとして、
それぞれの単語に対応した標準パターンを記憶する標準
パターン記憶部31、音声分析部2からの音声特徴デー
タを入力して前記標準パターン記憶部31の標準パター
ンと比較して、単語検出データを出力する単語検出部3
2などから構成されている。
の単語に対し多数(たとえば、200人程度)の話者が
発話した音声を用いて予め作成した認識対象単語の標準
パターンを記憶(登録)している。ここでは、ぬいぐる
みを例にしているので、認識対象単語は10単語程度と
し、その単語としては、たとえば、「おはよう」、「お
やすみ」、「こんにちは」、「明日」、「天気」など挨
拶に用いる言葉が多いが、これに限定されるものではな
く、色々な単語を登録することができ、登録単語数も1
0単語に限られるものではない。単語検出部32は図示
されていないが主に演算器(CPU)と処理プログラム
を記憶しているROMから構成され、標準パターン記憶
部31に登録されている単語が、入力音声中のどの部分
にどれくらいの確かさで存在するかを検出するものであ
り、これについては後述する。
録部81、入力音声の標準音声特徴データとして入力音
声標準パターンを記憶する標準パターン記憶部82、単
語検出部83などから構成され、特定話者の音声信号を
入力して特定話者の話す単語を登録するとともに、入力
音声に対する特定話者登録された単語の検出データを出
力する機能を有している。なお、ここでは、DPマッチ
ングにより、入力音声と登録音声標準パターンとを比較
して、その比較結果をもとに、単語検出部83から単語
検出データを出力するものであるとする。この特定話者
単語音録手段8による単語登録は、設定スイッチ9によ
って単語登録モードを設定することにより、単語登録が
可能となるが、これらについては後に詳細に説明する。
ついて、以下に順次説明する。
イクロホン、増幅器、ローパスフィルタ、A/D変換器
などから構成され、マイクロホンから入力された音声
を、増幅器、ローパスフィルタを通して適当な音声波形
としたのち、A/D変換器によりディジタル信号(たと
えば、12KHz.16bits)に変換して出力し、
その出力を音声分析部2に送る。音声分析部2では、音
声入力部1から送られてきた音声波形信号を、演算器
(CPU)を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEP
STRUM係数が一般的)し、この特徴ベクトルの時系列
(以下、音声特徴ベクトル列という)を出力する。 ま
た、前記不特定話者単語データ出力手段3としては、隠
れマルコフモデル(HMM)方式やDPマッチング方式
などを用いることも可能であるが、ここでは、DRNN
(ダイナミック リカレント ニューラル ネットワー
ク)方式によるキーワードスポッティング処理技術(こ
の技術に関しては、本出願人が特開平6ー4097、特
開平6ー119476により、すでに特許出願済みであ
る。)を用いて、不特定話者による連続音声認識に近い
音声認識を可能とするための単語検出データを出力する
ものであるとする。
体的な処理について、図2を参照しながら簡単に説明す
る。単語検出部32は、標準パターン記憶部31に登録
されている単語が、入力音声中のどの部分にどれくらい
の確かさで存在するかを検出するものである。今、話者
から「明日の天気は、・・・」というような音声が入力
され、図2(a)に示すような音声信号が出力されたと
する。この「明日の天気は、・・・」の文節のうち、
「明日」と「天気」がこの場合のキーワードとなり、こ
れらは、予め登録されている10単語程度の登録単語の
1つとして、標準パターン記憶部31にそのパターンが
記憶されている。そして、これら登録単語をたとえば1
0単語としたとき、これら10単語(これを、単語1、
単語2、単語3、・・・とする)に対応して各単語を検
出するための信号が出力されていて、その検出信号の値
などの情報から、入力音声中にどの程度の確かさで対応
する単語が存在するかを検出する。つまり、「天気」と
いう単語(単語1)が入力音声中に存在したときに、そ
の「天気」という信号を待っている検出信号が、同図
(b)の如く、入力音声の「天気」の部分で立ち上が
る。同様に、「明日」という単語(単語2)が入力音声
中に存在したときに、その「明日」という信号を待って
いる検出信号が、同図(c)の如く、入力音声の「明
日」の部分で立ち上がる。同図(b),(c)におい
て、0.9あるいは0.8といった数値は、確からしさ(近似
度)を示す数値であり、0.9や0.8といった高い数値であ
れば、その高い確からしさを持った登録単語は、入力さ
れた音声に対する認識候補であるということができる。
つまり、「明日」という登録単語は、同図(c)に示す
ように、入力音声信号の時間軸上のw1の部分に0.8と
いう確からしさで存在し、「天気」という登録単語は、
同図(b)に示すように、入力音声信号の時間軸上のw
2の部分に0.9という確からしさで存在することがわか
る。
入力に対して、同図(d)に示すように、単語3(この
単語3は「何時」という登録単語であるとする)を待つ
信号も、時間軸上のw2の部分に、ある程度の確からし
さ(その数値は0.6程度)を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、2つ
以上の登録単語が認識候補として存在する場合には、最
も近似度(確からしさを示す数値)の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
1つの単語を認識単語として選定する方法などを用い
て、或る1つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のw2の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声認識会話制御部4にて行う。
PU)と処理プログラムを記憶しているROMから構成
され、以下に述べるような様々な処理を行う。なお、以
上の各部に設けられたCPUは、各部ごとに設けるよう
にしてもよいが、1台のCPUで各部の処理を行うよう
にしてもよい。
または単語検出部83からの単語検出データのいずれか
を選択して、その単語検出データを基に、音声を認識し
(入力音声全体の意味を理解し)、応答データ記憶部5
を参照して、入力音声の意味に応じた応答内容を決定
し、音声合成部8および音声出力部9へ出力信号を送
る。たとえば、単語検出部32からの図2(b)〜
(e)に示すような検出データ(これをワードラティス
という。このワードラティスは、登録単語名、近似度、
単語の始点sと終点eを示す信号などが含まれる)が入
力されると、まず、そのワードラティスを基に、入力音
声の中のキーワードとしての単語を1つまたは複数個決
定する。この例では、入力音声は「明日の天気は・・
・」であるので、「明日」と「天気」が検出されること
になり、この「明日」と「天気」のキーワードから「明
日の天気は・・・」という連続的な入力音声の内容を理
解する。
ング処理による連続音声認識に近い音声認識処置は、日
本語だけでなく他の言語においても適用可能である。た
とえば、使用する言語が英語であるとすれば、登録され
ている認識可能な単語は、たとえば、“good-mornin
g”、“time”、“tommorow”、“good-night”などが
一例として挙げられるが、これらの認識可能な登録単語
の特徴データが、標準パターン記憶部31に記憶されて
いる。そして今、話者が「what time is it now」
と問いかけた場合、この「what time is it now」
の文節の内、「time」という単語がこの場合のキーワー
ドとなり、単語「time」が入力音声の中に存在したとき
に、単語「time」の音声信号を待っている検出信号が、
入力音声の「time」の部分で立ち上がる。そして、単語
検出部32からの検出データ(ワードラティス)が入力
されると、まず、そのワードラティスを基に、入力音声
のキーワードとしての単語を1つまたは複数個決定す
る。この例では、入力音声は、「what time is it
now」であるので、「time」がキーワードとして検出さ
れることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解
する。
話者単語データ出力手段3から単語データが出力される
場合、つまり、話者の話す言葉が認識される場合である
が、話者によっては、登録単語のうち、たとえば「おは
よう」と問いかけても、全く認識されない場合がある。
このような場合、話し方を変えると認識される場合もあ
るが、話者の声の個性などによって、全く認識されない
場合もある。この場合には、認識されない単語を特定話
者単語登録を行う。以下、これについて説明する。
イッチ9を用いる。この設定スイッチ9は、たとえば図
3に示すように、「0」〜「9」の数値からなる番号キ
ー部91、登録開始ボタン92、登録終了ボタン93、
応答メッセージ選択ボタン94、応答メッセージ登録終
了ボタン95、応答内容番号入力ボタン96などから構
成されている。なお、応答メッセージ選択ボタン94、
応答メッセージ登録終了ボタン95、応答内容番号入力
ボタン96などについては後に説明する。
単語が認識されないため、この「おはよう」を特定話者
単語登録する場合について説明する。まず、設定スイッ
チ9の登録開始ボタン92を操作する。これにより、音
声認識会話制御部4では、特定話者単語登録モードと
し、この単語登録モードにあっては、通常の認識動作を
行わないようにする。
語の番号(あらかじめ認識可能な登録単語には、それぞ
れの単語に対応して番号が割り当てられている)を番号
キー91より入力、たとえば、「おはよう」が1番であ
るとすると、「1」の数値キーを押すと、音声認識会話
制御部4では、「おはよう」という単語の登録であるこ
とを検出し、「おはようと言ってください」などという
ような応答出力を発するように制御を行う。これによっ
て、話者が「おはよう」というと、その音声は、音声入
力部1から音声分析部2に送られ、音声分析された特徴
ベクトルが単語登録部81に送られる。単語登録部81
では、標準音声特徴データとして入力音声に対する標準
パターンを作成する。この標準パターンは標準パターン
記憶部82に記憶される。
者が「おはよう」と言ったそのままの特徴ベクトル列を
用いて標準パターンを作成してもよいが、話者に対して
数回、「おはよう」と発話させて、それぞれの特徴ベク
トル列の平均的な標準特徴ベクトル列を求めて、その標
準特徴ベクトル列により標準パターンを作成するように
してもよい。
認識されない単語の登録がなされる。これは、「おはよ
う」のみならず、認識されない登録単語すべてについて
行うことが可能であることは勿論である。このようにし
て、認識されない単語に対して特定話者単語登録がなさ
れる。
具体的な会話例を用いて第1の実施例を説明する。ま
た、話者の問いかけ内容のなかで中括弧内の単語は文字
認識を行う上でのキーワードであることを示している。
と問いかけたとする。この「おはよう」という音声は音
声入力部1から音声分析部2に送られ、音声分析された
特徴ベクトルが出力される。このとき、不特定話者単語
データ出力手段3の単語検出部32と、特定話者単語登
録部8の単語検出部83はともに音声分析部2からの信
号を待っている状態にあり、これらそれぞれの単語検出
部32、83からは音声分析部2からの出力に応じた単
語検出データ(ワードラティス)がそれぞれ出力され
る。なお、単語検出部83からのワードラティスに含ま
れる確からしさを示す数値は近似度ではなく距離値であ
る。
されるワードラティスに含まれる確からしさを示す数値
は、単語検出部32の場合は、図2により説明したよう
に、0.9や0.7といった近似度であり、数値が高いほど確
からしさが高いものとなり、これに対して、単語検出部
83の場合は、入力音声の特徴パターンと標準パターン
との距離を示す数値で表されるため、数値が小さいほど
確からしさが高いものとなる。したがって、音声認識会
話制御部4では、これら単語検出部32、83から出力
されるワードラティスを受け取ると、それぞれの近似度
および距離値を、それぞれに対応して設定されたしきい
値th1,th2(ここでは、th1=0.7、th2=
0.3とする)と比較して、認識候補単語を決定する。
た場合、単語検出部32から、図2(b)に示すよう
に、「天気」を検出する信号が、0.9の高い近似度を有
して出力されたとすれば、この0.9としきい値th1(th
1=0.7)を比較してth1より大きければ入力音声は
「天気」であるとの認識を行う。
「おはよう」という単語を話した場合は、単語検出部3
2からは、たとえば、図4(a)〜(d)に示すような
ワードラティスが出力される。この場合は、話者の「お
はよう」に対する「おはよう」を検出するための検出信
号の近似度は0.2と低く、他の単語を検出するための検
出信号に高い近似度が現れる場合もある。ここでは、
「おやすみ」を待っている信号に比較的高い近似度(近
似度0.6)が現れているものとする。
はよう」に対する音声信号と標準パターン記憶部82に
記憶されている標準パターンとを比較して得られた距離
値が出力される。この距離値は極めて小さい値となり、
たとえば、0.1であるとする。
ぞれの単語検出部32、83からのワードラティスを受
けて、認識候補を決定する。この場合、音声認識会話制
御部4は、登録単語のうちどの単語が特定話者単語登録
された単語であるかを把握している(話者が単語登録を
行うときに単語番号を入力することにより把握できる)
ため、単語検出部32からのワードラティスのうち、
「おはよう」を検出するための検出信号(図4(a))の
データは認識対象としないで、図4(b)〜(d)の検
出信号のデータを用いて、単語検出部83からのワード
ラティス(距離値)との比較を行う。なお、図4では、
単語検出部32からの検出データは、4つの単語の検出
データしか図示されていないが、実際には、これ以外の
登録単語のワードラティスも音声理解会話制御部4に入
力される。なお、話者の「おはよう」に対するすべての
登録単語の検出データのなかで、「おやすみ」の検出デ
ータにおける近似度が最も高いものとする。
単語検出部32、82からの近似度および距離値をそれ
ぞれのしきい値(th1=0.7、th2=0.3)と比較し
て、認識候補を決定して入力音声の意味を理解する。こ
の場合、単語検出部32からの最も高い近似度は0.6で
あり、しきい値th1よりも小さい。一方、単語検出部
83からの「おはよう」の入力音声に対する距離値は、
0.1であり、しきい値th2と比較するとth2よりも
小さいので、この場合は、「おはよう」を認識候補と決
定する。
度が、しきい値th1よりも大きいものがあって、か
つ、単語検出部83からの距離値が、しきい値th2よ
りも小さいものがあった場合には、予め何らかの規則を
決めておき、いずれかを認識候補として決定するように
する。たとえば、単語検出部83からのデータを優先し
てそれを認識候補とする方法、あるいは、装置側から再
度入力を促すような応答をするなどの方法がある。
て認識単語が決定される。しかも、認識されない単語
(登録単語)がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。そして、認識単語が決
定されると、音声認識会話制御部4では、入力音声の意
味を理解して、それに対する応答内容を決定し、音声出
力部7から出力する。なお、このとき、ここでは図示さ
れていないが、時刻、日付、気圧、気温などの変動デー
タを検出する変動データ検出部とこれらのデータを記憶
する記憶部を設けることにより、これらのデータを基
に、より多彩な応答データを作成することができる。た
とえば、話者が「おはよう」と問いかけると、ぬいぐる
みからは、「おはよう、今日はいいお天気だから(気圧
情報より)、お花見に行こうよ(日付情報より)」など
という応答も可能となる。このような会話において、話
者の話す内容に対するぬいぐるみからの応答内容は、話
者の話す内容に対応させて、予め設定しておく。
で、話者の個性などによって認識されない単語を、特定
話者単語登録して、それを認識して応答メッセージを発
する場合について説明したが、登録単語以外の単語をも
特定話者単語登録することができる。たとえば、ぬいぐ
るみであれば、そのぬいぐるみに独自の名前を付けてそ
れを登録することも可能である。以下にぬいぐるみの名
前を登録する場合について説明する。
のうち、「0」の数値キーを名前登録用のキーとしてお
き、最初に、登録開始ボタン92を押して、続いて
「0」の数値キーを押す。これにより、装置側からは、
「名前を言ってください」というようなメッセージが発
せられ、話者が、たとえば、「ぽち」などと言うとそれ
が登録される。これは、前記した認識されない単語登録
と同じ要領で行われる。たとえば、複数回「ぽち」と言
わせて、その平均の特徴ベクトル列から標準パターンを
求めてそれを標準パターン記憶部82に記憶させる。そ
して、この「ぽち」に対する応答内容としては、たとえ
ば、「わん、わん」などを予め設定しておく。これによ
って、話者が「ぽち」と名前を呼ぶことによって、「わ
ん、わん」などと答える。
場合には、それを登録し、その登録単語に対する応答メ
ッセージを作ることも可能である(ただし、応答内容は
ある程度限定される)。この場合には、たとえば操作手
順などを示すマニュアルなどを作成しておき、そのマニ
ュアルに従った操作を行うことにより、応答メッセージ
を作成するようにしてもよい。以下これについて説明す
る。
内容をたとえば100種類程度用意しておき、話者が独
自に登録した単語に対応させて、応答内容を選択する。
具体的には、図5に示すように、応答内容A0、応答内
容A1、応答内容A2、・・・というような応答内容
に、応答内容番号を0,1,2,・・・というように割
り当てて、応答データ記憶部5に格納しておき、これら
応答内容番号と応答内容を対応づけた一覧表を記載した
操作マニュアルを用意し、ユーザは操作マニュアルにし
たがって、一覧表を見ながら、登録した単語ごとに応答
内容を設定する。この設定は設定スイッチ9を用いて以
下のようにして行う。
番号キー91により「11」以降の数値を入力して行う
(ちなみに、「0」の数値は前記したように、この実施
例では名前の登録用であり、「1」から「10」の数値
は登録単語に対応した数値キーであり、登録単語が認識
されないときに特定話者単語登録を行うような場合に用
いられる)。
番号キー91により、たとえば「11」を入力して、或
る単語を音声入力すると、その単語の標準音声パターン
が標準音声パターン記憶部82に記憶される。そして、
応答メッセージ選択ボタン94を操作し、前記一覧表の
中から登録した単語にふさわしい応答内容を選択する。
たとえば、応答内容番号1の応答内容A1を登録したい
場合には、応答内容番号入力ボタン96を押して、続い
て番号キー91から応答内容番号1に対応する「1」の
数値キーを押し、さらに、応答メッセージ登録終了ボタ
ン95を押す。これにより、「11」の数値キーを押し
て登録された単語が、話者から音声入力として入力され
た場合には、装置からは応答内容A1による応答がなさ
れることになる。
1」以降の数値を用いて、ユーザが独自に登録したい単
語の登録が行え、しかもそれぞれの単語に対応した応答
内容を選択して登録することができる。さらに、応答内
容は、応答内容番号を幾つか組み合わせることにより、
たとえば、応答内容A0、応答内容A2、応答内容A4
の組み合わせたより多彩な応答内容を作成して登録する
ことも可能である。
例について説明する。前記第1の実施例では、認識され
ない登録単語に対しては、DPマッチングによる単語検
出を行うために、話者の音声入力を音声分析した特徴ベ
クトルを用いて標準パターンを作成し、入力音声との比
較を行って単語検出データ(ワードラティス)を出力す
る例を示したが、この第2の実施例では、不特定話者標
準パターンモデルを用いて話者適応を行い、話者適応し
た標準特徴パターンを作成して、この新たな話者適応し
た標準パターンを用いて認識を行おうとするものであ
る。以下、図6を参照しながら第2の実施例について説
明する。
号が付されている。この第2の実施例では、音声入力部
1、音声分析部2、不特定話者単語データ出力手段3
(標準パターン記憶部31、単語検出部32)、単語認
識会話制御部4、応答データ記憶部5、音声合成部6、
音声出力部7、設定スイッチ9の他に、特定話者単語登
録手段10として、特定話者の入力音声(音声分析部2
の出力)をもとに、DRNNの不特定話者標準パターン
モデルを用いて、話者適応した標準パターンを作成する
単語登録部101、この単語登録部101で作成された
話者適応された新たな標準パターンを記憶する話者適応
標準パターン記憶部102、音声分析部2からの出力を
受けて前記話者適応標準パターン記憶部102を基に、
単語検出データ(ワードラティス)を出力する単語検出
部103が設けられた構成となっている。
説明する。なお、話者の話す単語が認識される場合につ
いては、第1の実施例と同じであるので、ここでは、認
識されない単語の認識処理について説明する。
「おはよう」が認識されない場合、この「おはよう」と
いう単語を特定話者単語登録を行う。以下、これについ
て説明する。
その一例を示した設定スイッチ9を用いる。まず、設定
スイッチ9の登録開始ボタン92を操作する。これによ
り、音声理解会話制御部4では、単語登録モードとし、
この単語登録モードにあっては、通常の認識動作を行わ
ないようにする。
語に割り当てられた「1」の数値キーを押すと、音声認
識会話制御部4では、「おはよう」という単語の登録で
あることを検出し、「おはようと言ってください」など
というような応答出力を発するように制御を行う。これ
によって、話者が「おはよう」というと、その音声は、
音声入力部1から音声分析部2に送られ、音声分析され
た特徴ベクトルが単語登録部101に送られる。単語登
録部101では、音声分析部2からの出力を基に、DR
NNの標準パターンから話者の音声の特性に見合った新
たな標準パターン、つまり話者適応した標準パターンを
作成し、それを話者適応標準パターン記憶部102に記
憶させる。
録されている「おはよう」という単語を話した場合は、
単語検出部32からは、たとえば、第1の実施例で説明
したように、図4(a)〜(d)に示すようなワードラ
ティスが出力される。この場合は、話者の「おはよう」
に対する「おはよう」を検出するための検出信号の近似
度は低く、他の単語を検出するための検出信号に高い近
似度が現れる場合もある。ここでは、「おやすみ」を待
っている信号に比較的高い近似度(近似度0.6)が現れ
ているものとする。一方、単語検出部103からの「お
はよう」を検出する信号は図7(a)に示すように、高
い近似度を持った信号が出力される。これは、話者適応
された「おはよう」の標準パターンと、当該話者の「お
はよう」の入力音声との比較により出力されるためであ
る。
2、103からのワードラティスを受けて、認識候補を
決定する。この場合、音声認識会話制御部4は、登録単
語のうちどの単語が特定話者単語登録された単語である
かを把握している(話者が単語登録を行うときに単語番
号を入力することにより把握できる)ため、単語検出部
32からのワードラティスのうち、「おはよう」を検出
するための検出信号(図4(a))のデータは認識対象と
しないで、図7に示すように、同図(a)に示す単語検
出部103からの検出データ(近似度)と、図4(b)
〜(d)で示した単語検出部32からの検出データを用
いて近似度の比較を行う。なお、図7では、単語検出部
32からの単語データは3つの単語の検出データしか図
示されていないが、実際には、それ以外の登録単語のワ
ードラティスも音声理解会話制御部4に入力される。
単語検出部32、103からの近似度を比較して、認識
候補を決定するとともに入力音声の意味を理解する。こ
の場合、単語検出部32からの最も高い近似度は「おや
すみ」の0.6であり、一方、単語検出手段103からの
「おはよう」の近似度は、0.9であり、この場合は、
「おはよう」を認識候補と決定する。
ドラティスの近似度が高い数値の単語が幾つかあるよう
な場合の認識候補の決定の仕方としては、最も高い近似
度の単語を認識候補として決定する方法や、各単語間の
近似度の相関関係を表す相関表を各単語毎に作成してお
き、この相関表を基に認識単語を決定する方法など幾つ
かの方法がある。
単語検出部32と単語検出部103とをそれぞれ設けた
構成としたが、この第2に実施例の場合には、特定話者
単語登録に、DRNNによる標準パターンを用いた話者
適応を用いているので、ワードラティスに含まれる数値
の基準は同じであるため、単語検出部32を共用するこ
とも可能である。
て認識単語が決定される。しかも、認識されない単語
(登録単語)がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。なお、特定話者登録用
として話者適応した標準パターンを予め登録されている
認識率の悪い標準パターンと入れ替えるということも可
能となる。
識会話制御部4では、入力音声の意味を理解して、それ
に対する応答内容を決定し、音声出力部7から出力す
る。なお、このとき、ここでは図示されていないが、時
刻、日付、気圧、気温などの変動データを検出する変動
データ検出部とこれらのデータを記憶する記憶部をもう
けることにより、これらのデータを基に、より多彩な応
答データを作成することができる。たとえば、話者が
「おはよう」と問いかけると、ぬいぐるみからは、「お
はよう、今日はいいお天気だから(気圧情報より)、お
花見に行こうよ(日付情報より)」などという応答も可
能となる。このような会話において、話者の話す内容に
対するぬいぐるみからの応答内容は、話者の話す内容に
対応させて、予め設定しておく。
の実施例においては、応答メッセージは予め決められた
声優などの声を用いて応答内容が作成され、それが登録
されているが、この第3の実施例では、応答メッセージ
として自分の声、母親の声、おるいは友人の声などで応
答内容を作成して登録することができるようにしたもの
である。これを図8を参照して説明する。なお、この第
3の実施例は、第1、第2の各実施例に適応可能である
が、ここでは第1の実施例で説明した構成に適応した例
を説明する。
号を付し、これら同一部分の説明はここでは省略する。
この第3の実施例を実現するための新たな構成要件とし
ては、自分の声、家族の声、あるいは友人の声などの応
答データを登録するための応答データ登録部40、この
応答データ登録部40で登録された応答内容を記憶する
応答データ記憶部41が設けられている。
1からの入力音声に対するA/D変換後の出力を、データ
圧縮した応答データを作成するものであり、ここで作成
された応答データは応答データ記憶部41に記憶され
る。なお、この応答データ登録を行う際は、図9で示し
た設定スイッチ9の応答メッセージ作成ボタン97を押
すことにより行う。この図9で示した設定スイッチ9
は、この第3の実施例を実現するための設定スイッチで
あり、図3で示したものと基本的には同じものである
が、図3で示したものに対して、応答メッセージ作成ボ
タン97と応答選択ボタン98が新たに設けられた構成
となっている。この応答メッセージ作成ボタン97が押
されると、音声認識会話制御部4が装置のモードを応答
データ登録モードとし、応答データの登録が可能とな
る。この応答データ登録モードのときは、前記第1、第
2の実施例で説明したような単語検出などの処理は行わ
れない。また、応答選択ボタン98は、応答内容を予め
登録されている内容とするか、あるいは新たに登録され
た内容とするかを選択するスイッチであり、予め登録さ
れた応答内容側とした場合には、音声認識会話制御部4
は応答データ記憶部5を参照し、新たに登録された応答
内容側とすることにより、音声認識会話制御部4は応答
データ記憶部41を参照する。なお、この設定スイッチ
9の構成は図9のものに限定されるものではなく、各種
設定ボタンなどは必要に応じて設けられる。
ぬいぐるみで遊ぶ子どもの母親の声で応答メッセージを
作成して登録する場合は、まず、設定スイッチ9の応答
メッセージ作成ボタン97を押し、続いて、応答内容番
号入力ボタン96を押して、たとえば、番号キー91か
ら「100」を入力したのち、母親が何らかの応答メッ
セージを入力する。これにより、応答データ登録部40
により、入力した応答メッセージの内容に対応した応答
データが作成され、その応答データが応答データ記憶部
41に記憶される。このようにして、母親のみに限ら
ず、所定の人が新たに登録したい応答内容を入力するこ
とにより、それぞれの応答データ(応答内容a0、応答
内容a1,応答内容a2、・・・とする)が作成され、
それぞれの応答データは応答データ記憶部41に、図1
0に示すように、応答内容番号100、101,10
2,・・・に対応して、応答内容a0、応答内容a1,
応答内容a2、・・・というように登録される。なお、
この応答データ記憶部41は、前記第1、第2の実施例
で示した応答データ記憶部5のメモリを共用して、応答
内容番号0〜99番までを、装置に予め登録されている
応答内容として、たとえば0から99番のアドレスに登
録し、応答内容番号100番以降を新たに登録された応
答内容として、100番以降のアドレスに登録するよう
にしてもよい。
内容が登録される。そして、これら新たに登録された応
答内容を、話者の問いかける単語に対する応答内容とし
て予め設定しておく。たとえば、登録単語番号1の単語
(「おはよう」であるものとする)に対して応答内容番
号100の応答内容a0(母親の声による「おはよう、
・・・ちゃん」であるとする)を登録したい場合には、
まず、番号キー91から「1」の数値キーを押して、応
答内容番号入力ボタン96を押して、続いて番号キー9
1から「100」の数値キーを押し、さらに、応答メッ
セージ登録終了ボタン95を押す。このようにして話者
の話す登録単語に応答内容を対応づけることができる。
答内容側に切り替えた状態で、登録単語番号1に対応す
る単語が、話者から音声入力として入力された場合に
は、装置からは応答内容a0による応答がなされること
になる。つまり、たとえば、ぬいぐるみと遊ぶ子ども
が、「おはよう」と問いかけると、ぬいぐるみからは、
母親の声で、「おはよう、・・・ちゃん」というような
応答がなされる。
設けて、これにより、応答内容をすでに登録されている
内容のものか、あるいは新たに登録した内容のものかを
選択するようにしたが、応答内容の選択はこのような方
式に限られるものではなく、条件などを予め設定してお
き、たとえば、話者の発話内容などがその条件に合致し
たときに、応答内容がいずれかに選択されるようにして
もよい。また、話者の話す登録単語と応答内容の対応付
けの方法も前記したような方法に限られることなく、種
々の方法が考えられる。
ように、設定スイッチ9により、「11」以降の数値を
用いて、ユーザが独自に認識可能な単語の登録を新たに
行い、その新たに登録した単語に対応して、前記した新
たな応答内容a0,a1,a2,・・・を選択して登録
することができる。さらに、応答内容は、応答内容番号
を幾つか組み合わせることにより、たとえば、応答内容
a0、応答内容a2、応答内容a4などの3つを組み合
わせることにより多彩な応答内容を作成し、登録するこ
とも可能である。
設定された声優などによる応答だけではなく、身近な人
の声での応答が可能となるため、ぬいぐるみなどの玩具
に適用した場合には、子どもは、より一層会話を楽しむ
ことができ、玩具にありがちなすぐ飽きるというような
ことが無くなる。
としてぬいぐるみに適用した例を説明したが、ぬいぐる
みに限られるものではなく。他の玩具にも適用できるこ
とは勿論であり、さらに、玩具だけではなく、ゲーム機
や、日常使われる様々な電子機器などにも適用でき、そ
の適用範囲は極めて広いものと考えられる。
対話処理方法は、請求項1によれば、音声入力手段によ
り入力された音声を分析して音声特徴データを発生する
音声分析工程と、この音声分析工程からの音声特徴デー
タを入力し、予め登録された認識可能な単語に対する不
特定話者の標準音声特徴データを基に、入力音声に含ま
れる登録単語に対応した検出データを出力する不特定話
者単語データ出力工程と、特定話者の入力音声を基に当
該特定話者の発する単語の標準音声特徴データを登録す
るとともに特定話者の入力音声に対する単語検出データ
を出力する特定話者単語登録工程と、前記不特定話者単
語データ出力工程から出力された入力音声に対する単語
検出データおよび前記特定話者単語登録工程から得られ
た入力音声に対する単語検出データを入力して、それぞ
れの検出データを基に入力音声を認識し、それに対応し
た応答内容を決定するとともに、特定話者の単語登録を
行う際に外部からの設定データを受けて各種制御を行う
音声認識会話制御工程とを有しているので、話者の話し
方の個性などによって、認識される単語、認識されない
単語があったり、また、話者によっては、すべての登録
単語が全く認識されない場合もあるが、このような場合
には、特定話者音声登録機能を用いて認識されない単語
を登録することができる。これにより、認識できない単
語を殆どなくすことができ、認識性能を大幅に向上させ
ることができ、また、特定話者に対しては、登録単語以
外の単語の登録も可能となるなど、より一層、高性能な
ものとすることができる。
録工程は、特定話者の入力音声を基にDPマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。
工程は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出工程として新たなものを設ける必要
が無く、処理の簡素化が図れる。また、単語データ検出
方式が同じであることから検出データの数値の基準など
が同じであるため、データ処理部を共用することも可能
であり、さらに、特定話者登録された標準パターンを予
め登録されている認識率の悪い標準パターンと入れ替え
ることも可能となるなどの効果を得ることができる。
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広いものとすることができる。
項5によれば、音声入力手段により入力された入力音声
を音声分析部で分析して得られた音声特徴データを入力
し、予め登録された認識可能な単語に対する不特定話者
の標準音声特徴データを基に、登録単語に対応した検出
データを出力する不特定話者単語データ出力手段と、特
定話者の入力音声を基に当該特定話者の発する単語の標
準音声特徴データを登録するとともに特定話者の入力音
声に対する単語検出データを出力する特定話者単語登録
手段と、特定話者の単語登録を行う際にデータ入力設定
を行うデータ入力設定手段と、前記それぞれの単語検出
データを入力して、それぞれの検出データを基に入力音
声を認識し、それに対応した応答内容を決定するととも
に、前記データ入力設定手段からの設定データを受けて
各種制御を行う音声認識会話制御手段を有しているの
で、話者の話し方の個性などによって、認識される単
語、認識されない単語があったり、また、話者によって
は、すべての登録単語が全く認識されない場合もある
が、このような場合には、特定話者音声登録機能を用い
て認識されない単語を登録することができる。これによ
り、認識できない単語を殆どなくすことができ、装置の
認識性能を大幅に向上させることができ、また、特定話
者に対しては、登録単語以外の単語の登録も可能となる
など、この種の音声認識対話装置としては、より一層、
高性能なものとすることができる。
録手段は、特定話者の入力音声を基にDPマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。
手段は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出部として新たなものを設ける必要が
無く、構成の簡素化が図れる。また、単語データ検出方
式が同じであることから検出データの数値の基準などが
同じであるため、データ処理部を共用することも可能で
あり、さらに、特定話者登録された標準パターンを予め
登録されている認識率の悪い標準パターンと入れ替える
ことも可能となるなどの効果を得ることができる。
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広い音声認識対話装置とするこ
とができる。
ク図。
ワードラティスの一例を示す図。
合の不特定話者単語データ出力例を示す図。
れに対応した応答内容番号の一例を示す図。
ク図。
合の特定話者単語登録手段からの単語データ出力例およ
び不特定話者単語データ出力例を示す図。
ク図。
成例を示す図。
憶される応答内容とそれに対応した応答内容番号の一例
を示す図。
Claims (8)
- 【請求項1】 音声入力手段により入力された音声を分
析して音声特徴データを発生する音声分析工程と、 この音声分析工程からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
工程と、 特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、 前記不特定話者単語データ出力工程から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録工程から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、特定
話者の単語登録を行う際に外部からの設定データを受け
て各種制御を行う音声認識会話制御工程と、 前記音声認識会話制御工程により決定された応答内容に
基づいた音声合成出力を発生する音声合成工程と、 この音声合成工程からの音声合成出力を外部に出力する
音声出力工程と、 を有することを特徴とする音声認識対話処理方法。 - 【請求項2】 前記特定話者単語登録工程は、特定話者
の入力音声を基にDPマッチングによる単語検出データ
を出力するものであって、音声分析工程からの特定話者
の所定の音声入力に対する特徴データを入力して標準パ
ターンを作成する単語登録工程、この単語登録工程によ
り作成された標準パターンを記憶する標準パターン記憶
工程、前記音声分析工程からの特定話者の所定の音声入
力に対する特徴データを入力し、前記標準パターンとの
比較により単語検出データを出力する単語検出工程を有
したことを特徴とする請求項1記載の音声認識対話処理
方法。 - 【請求項3】 前記特定話者単語登録工程は、特定話者
の入力音声から前記不特定話者の標準音声特徴データを
基に話者適応した標準音声パターンを作成する単語登録
工程、この単語登録工程により作成された話者適応され
た標準パターンを記憶する話者適応標準パターン記憶工
程を少なくとも有し、前記音声分析工程からの特定話者
の所定の音声入力に対する特徴データを入力し、前記話
者適応標準パターンとの比較により単語検出データを出
力することを特徴とする請求項1記載の音声認識対話処
理方法。 - 【請求項4】 音声入力手段により入力された音声を分
析して音声特徴データを発生する音声分析工程と、 この音声分析工程からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
工程と、 特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、 前記不特定話者単語データ出力工程から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録工程から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、特定
話者の単語登録を行う際に外部からの設定データを受け
て各種制御を行う音声認識会話制御工程と、 前記外部からの設定データとして応答データ作成に関す
る設定入力があった場合、前記音声認識会話制御工程か
らの指示を受けて、入力された音声信号に基づいた応答
データを作成する応答データ登録工程と、 予め装置に登録されている応答データまたは前記応答デ
ータ登録工程により作成された応答データのうち、前記
音声認識会話制御工程により決定された応答データに基
づいた音声合成出力を発生する音声合成工程と、 この音声合成工程からの音声合成出力を外部に出力する
音声出力工程と、 を有することを特徴とする音声認識対話処理方法。 - 【請求項5】 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を分析して音声
特徴データを発生する音声分析手段と、 この音声分析手段からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
手段と、 特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録手段と、 特定話者の単語登録を行う際にデータ入力設定を行うデ
ータ入力設定手段と、 前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、 予め登録された応答内容を記憶する応答データ記憶手段
と、 この応答データ記憶手段に記憶された応答内容のうち、
前記音声認識会話制御手段により決定された応答内容に
基づいた音声合成出力を発生する音声合成手段と、 この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、 を有することを特徴とする音声認識対話装置。 - 【請求項6】 前記特定話者単語登録手段は、特定話者
の入力音声を基にDPマッチングによる単語検出データ
を出力するものであって、音声分析部からの特定話者の
所定の音声入力に対する特徴データを入力して標準パタ
ーンを作成する単語登録手段、この単語登録手段により
作成された標準パターンを記憶する標準パターン記憶手
段、前記音声分析手段からの特定話者の所定の音声入力
に対する特徴データを入力し、前記標準パターンとの比
較により単語検出データを出力する単語検出手段を有し
たことを特徴とする請求項5記載の音声認識対話装置。 - 【請求項7】 前記特定話者単語登録手段は、特定話者
の入力音声から前記不特定話者の標準音声特徴データを
基に話者適応した標準音声パターンを作成する単語登録
手段、この単語登録手段により作成された話者適応され
た標準パターンを記憶する話者適応標準パターン記憶手
段を少なくとも有し、前記音声分析手段からの特定話者
の所定の音声入力に対する特徴データを入力し、前記話
者適応標準パターンとの比較により単語検出データを出
力することを特徴とする請求項5記載の音声認識対話装
置。 - 【請求項8】 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を分析して音声
特徴データを発生する音声分析手段と、 この音声分析手段からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
手段と、 特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録手段と、 特定話者の単語登録を行う際にデータ入力設定を行うデ
ータ入力設定手段と、 前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、 前記データ入力設定手段から応答データ作成に関する設
定入力があった場合、前記音声認識会話制御手段からの
指示を受けて、入力された音声信号に基づいた応答デー
タを作成する応答データ登録手段と、 予め装置に登録された応答内容を記憶する応答データ記
憶手段と、 前記応答データ登録手段により作成された応答内容を記
憶する応答データ記憶手段と、 前記予め装置に登録されている応答データまたは前記応
答データ登録手段により作成された応答データのうち、
前記音声認識会話制御手段により決定された応答データ
に基づいた音声合成出力を発生する音声合成手段と、 この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、 を有することを特徴とする音声認識対話装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652995A JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
US08/536,563 US5794204A (en) | 1995-06-22 | 1995-09-29 | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652995A JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005002229A Division JP2005148764A (ja) | 2005-01-07 | 2005-01-07 | 音声認識対話処理方法および音声認識対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH096390A true JPH096390A (ja) | 1997-01-10 |
JP3968133B2 JP3968133B2 (ja) | 2007-08-29 |
Family
ID=15629791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15652995A Expired - Lifetime JP3968133B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5794204A (ja) |
JP (1) | JP3968133B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100369732B1 (ko) * | 1999-12-21 | 2003-01-30 | 주식회사 글로벌데이타시스템. | 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법 |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
KR100423495B1 (ko) * | 2001-06-21 | 2004-03-18 | 삼성전자주식회사 | 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법 |
KR100485864B1 (ko) * | 2001-12-28 | 2005-04-28 | 최중인 | 벨소리 겸용 음향바코드를 이용한 인증시스템 |
JP2009151314A (ja) * | 2008-12-25 | 2009-07-09 | Sony Corp | 情報処理装置及び情報処理方法 |
WO2019078492A1 (ko) * | 2017-10-20 | 2019-04-25 | 주식회사 공훈 | 음성 인증 시스템 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5691897A (en) * | 1995-05-30 | 1997-11-25 | Roy-G-Biv Corporation | Motion control systems |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US6665639B2 (en) | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
US6038531A (en) * | 1997-01-30 | 2000-03-14 | Seiko Epson Corporation | Similar word discrimination method and its apparatus |
US20010032278A1 (en) * | 1997-10-07 | 2001-10-18 | Brown Stephen J. | Remote generation and distribution of command programs for programmable devices |
JPH11120240A (ja) * | 1997-10-14 | 1999-04-30 | Fujitsu Ltd | 携帯型端末装置及びそれを用いた情報管理システム並びに情報管理方法 |
DE19837102A1 (de) * | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
ID27346A (id) * | 1998-09-09 | 2001-04-05 | Asahi Chemical Ind | Peralatan pengenal suara |
US6192342B1 (en) * | 1998-11-17 | 2001-02-20 | Vtel Corporation | Automated camera aiming for identified talkers |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US6584439B1 (en) | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US6823313B1 (en) * | 1999-10-12 | 2004-11-23 | Unisys Corporation | Methodology for developing interactive systems |
US6356868B1 (en) * | 1999-10-25 | 2002-03-12 | Comverse Network Systems, Inc. | Voiceprint identification system |
US7130802B1 (en) * | 2000-10-02 | 2006-10-31 | Ninesigma, Inc. | Systems and methods for facilitating research and development |
US6876987B2 (en) * | 2001-01-30 | 2005-04-05 | Itt Defense, Inc. | Automatic confirmation of personal notifications |
US7904194B2 (en) * | 2001-02-09 | 2011-03-08 | Roy-G-Biv Corporation | Event management systems and methods for motion control systems |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7698228B2 (en) * | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US7822688B2 (en) * | 2002-08-08 | 2010-10-26 | Fujitsu Limited | Wireless wallet |
US20040107170A1 (en) * | 2002-08-08 | 2004-06-03 | Fujitsu Limited | Apparatuses for purchasing of goods and services |
US7801826B2 (en) * | 2002-08-08 | 2010-09-21 | Fujitsu Limited | Framework and system for purchasing of goods and services |
US7784684B2 (en) | 2002-08-08 | 2010-08-31 | Fujitsu Limited | Wireless computer wallet for physical point of sale (POS) transactions |
US7606560B2 (en) * | 2002-08-08 | 2009-10-20 | Fujitsu Limited | Authentication services using mobile device |
US7593842B2 (en) * | 2002-12-10 | 2009-09-22 | Leslie Rousseau | Device and method for translating language |
US20090209341A1 (en) * | 2008-02-14 | 2009-08-20 | Aruze Gaming America, Inc. | Gaming Apparatus Capable of Conversation with Player and Control Method Thereof |
US8655660B2 (en) * | 2008-12-11 | 2014-02-18 | International Business Machines Corporation | Method for dynamic learning of individual voice patterns |
US20100153116A1 (en) * | 2008-12-12 | 2010-06-17 | Zsolt Szalai | Method for storing and retrieving voice fonts |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
CN102959618B (zh) * | 2010-06-28 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US9697824B1 (en) * | 2015-12-30 | 2017-07-04 | Thunder Power New Energy Vehicle Development Company Limited | Voice control system with dialect recognition |
US10268679B2 (en) | 2016-12-02 | 2019-04-23 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network |
US11120817B2 (en) * | 2017-08-25 | 2021-09-14 | David Tuk Wai LEONG | Sound recognition apparatus |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10636419B2 (en) * | 2017-12-06 | 2020-04-28 | Sony Interactive Entertainment Inc. | Automatic dialogue design |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57158251U (ja) * | 1981-03-31 | 1982-10-05 | ||
JPS61167997A (ja) * | 1985-01-21 | 1986-07-29 | カシオ計算機株式会社 | 会話ロボツト |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
JPH05313692A (ja) * | 1992-05-07 | 1993-11-26 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
JPH06230794A (ja) * | 1993-02-02 | 1994-08-19 | Nippondenso Co Ltd | 音声認識装置 |
JPH06327842A (ja) * | 1993-05-24 | 1994-11-29 | Takara Co Ltd | 動物玩具 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2338551A (en) * | 1942-07-09 | 1944-01-04 | Rca Corp | Automatic volume control |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4712242A (en) * | 1983-04-13 | 1987-12-08 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
JPS62253093A (ja) * | 1986-04-25 | 1987-11-04 | 株式会社 バンダイ | 乗用玩具 |
US4827520A (en) * | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US4984177A (en) * | 1988-02-05 | 1991-01-08 | Advanced Products And Technologies, Inc. | Voice language translator |
US5117460A (en) * | 1988-06-30 | 1992-05-26 | Motorola, Inc. | Voice controlled pager and programming techniques therefor |
US5040212A (en) * | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Kabushiki Kaisha Toshiba, Kawasaki | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
JP3168779B2 (ja) * | 1992-08-06 | 2001-05-21 | セイコーエプソン株式会社 | 音声認識装置及び方法 |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5577164A (en) * | 1994-01-28 | 1996-11-19 | Canon Kabushiki Kaisha | Incorrect voice command recognition prevention and recovery processing method and apparatus |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-22 JP JP15652995A patent/JP3968133B2/ja not_active Expired - Lifetime
- 1995-09-29 US US08/536,563 patent/US5794204A/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57158251U (ja) * | 1981-03-31 | 1982-10-05 | ||
JPS61167997A (ja) * | 1985-01-21 | 1986-07-29 | カシオ計算機株式会社 | 会話ロボツト |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
JPH05313692A (ja) * | 1992-05-07 | 1993-11-26 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
JPH06230794A (ja) * | 1993-02-02 | 1994-08-19 | Nippondenso Co Ltd | 音声認識装置 |
JPH06327842A (ja) * | 1993-05-24 | 1994-11-29 | Takara Co Ltd | 動物玩具 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100369732B1 (ko) * | 1999-12-21 | 2003-01-30 | 주식회사 글로벌데이타시스템. | 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법 |
KR100423495B1 (ko) * | 2001-06-21 | 2004-03-18 | 삼성전자주식회사 | 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법 |
KR100485864B1 (ko) * | 2001-12-28 | 2005-04-28 | 최중인 | 벨소리 겸용 음향바코드를 이용한 인증시스템 |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
JP2009151314A (ja) * | 2008-12-25 | 2009-07-09 | Sony Corp | 情報処理装置及び情報処理方法 |
WO2019078492A1 (ko) * | 2017-10-20 | 2019-04-25 | 주식회사 공훈 | 음성 인증 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP3968133B2 (ja) | 2007-08-29 |
US5794204A (en) | 1998-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US5946658A (en) | Cartridge-based, interactive speech recognition method with a response creation capability | |
EP0974141B1 (en) | Extensible speech recognition system that provides a user with audio feedback | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
JP2003255991A (ja) | 対話制御システム、対話制御方法及びロボット装置 | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP3000999B1 (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2002123289A (ja) | 音声対話装置 | |
JP2007286376A (ja) | 音声案内システム | |
JP2003029776A (ja) | 音声認識装置 | |
JP2000020089A (ja) | 音声認識方法及びその装置、並びに音声制御システム | |
JP4498906B2 (ja) | 音声認識装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2000122678A (ja) | 音声認識機器制御装置 | |
JP2001134291A (ja) | 音声認識のための方法及び装置 | |
JP5476760B2 (ja) | コマンド認識装置 | |
JP2000089780A (ja) | 音声認識方法および音声認識装置 | |
JPH04324499A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050107 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050125 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050225 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |