JPH096390A

JPH096390A - 音声認識対話処理方法および音声認識対話装置

Info

Publication number: JPH096390A
Application number: JP7156529A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Isanaka Edatsune; 伊佐央枝常
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1995-06-22
Filing date: 1995-06-22
Publication date: 1997-01-10
Anticipated expiration: 2022-08-29
Also published as: JP3968133B2; US5794204A

Abstract

(57)【要約】（修正有）【目的】特待話者の音声認識機能を付加することによ
り、認識性能の向上を図った不特定話者音声認識可能な
音声認識対話装置。【構成】音声入力手段１により入力音声を音声分析部
２で分析した音声特徴データを入力し、予め登録された
認識可能な単語に対する不特定話者の標準音声特徴デー
タを基に、登録単語に対応した検出データを出力する不
特定話者単語データ出力手段３と、特定話者の発する単
語の標準音声特徴データを該入力音声を基に登録し特定
話者の入力音声に対する単語検出データを出力する特定
話者単語登録手段８と、特定話者の単語登録時データ入
力設定を行うデータ入力設定手段９と、それぞれの単語
検出データを入力し、検出データを基に入力音声を認識
し、該応答内容を決定して、データ入力設定手段からの
設定データを受け各種制御を行う音声認識会話制御手段
４を有し、応答内容を音声合成部８で音声合成後、音声
出力部１０から出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した応答や特定動作を行う音声認識対話処
理方法および音声認識対話装置に関する。

【０００２】

【従来の技術】この種の音声認識装置においては、特定
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。

【０００３】特定話者音声認識装置は、或る特定の話者
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を１０単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。

【０００４】このような特定話者音声認識装置は、特定
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。

【０００５】これに対して、不特定話者音声認識装置
は、多数（たとえば、２００人程度）の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶（登録）させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
不特定話者音声認識装置は、話者の話した言葉と違う単
語や言葉を認識してしまうことも多く、また、話者の話
し方の個性などによって、認識される単語、認識されな
い単語があったり、また、話者によっては、全ての単語
が全く認識されないという問題が多く発生していた。

【０００７】そこで、本発明は、不特定話者の音声認識
が可能な音声認識装置において、話者の個性などによっ
て認識されない単語がある場合には、特定話者の音声認
識機能を用いて音声登録を可能とすることで、認識不可
の単語を大幅に減らし、認識性能の向上を図ることを目
的としている。

【０００８】

【課題を解決するための手段】本発明の音声認識対話処
理方法は、音声入力手段により入力された音声を分析し
て音声特徴データを発生する音声分析工程と、この音声
分析工程からの音声特徴データを入力し、予め登録され
た認識可能な単語に対する不特定話者の標準音声特徴デ
ータを基に、入力音声に含まれる登録単語に対応した検
出データを出力する不特定話者単語データ出力工程と、
特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、前記不特定話者単語データ出力工程から出力
された入力音声に対する単語検出データおよび前記特定
話者単語登録工程から得られた入力音声に対する単語検
出データを入力して、それぞれの検出データを基に入力
音声を認識し、それに対応した応答内容を決定するとと
もに、特定話者の単語登録を行う際に外部からの設定デ
ータを受けて各種制御を行う音声認識会話制御工程と、
前記音声認識会話制御工程により決定された応答内容に
基づいた音声合成出力を発生する音声合成工程と、この
音声合成工程からの音声合成出力を外部に出力する音声
出力工程とを有することを特徴としている。

【０００９】前記特定話者単語登録工程は、特定話者の
入力音声を基にＤＰマッチングによる単語検出データを
出力するものであって、音声分析工程からの特定話者の
所定の音声入力に対する特徴データを入力して標準パタ
ーンを作成する単語登録工程、この単語登録工程により
作成された標準パターンを記憶する標準パターン記憶工
程、前記音声分析工程からの特定話者の所定の音声入力
に対する特徴データを入力し、前記標準パターンとの比
較により単語検出データを出力する単語検出工程を有し
たものであってもよく、また、前記特定話者単語登録工
程は、特定話者の入力音声から前記不特定話者の標準音
声特徴データを基に話者適応した標準音声パターンを作
成する単語登録工程、この単語登録工程により作成され
た話者適応された標準パターンを記憶する話者適応標準
パターン記憶工程を少なくとも有し、前記音声分析工程
からの特定話者の所定の音声入力に対する特徴データを
入力し、前記話者適応標準パターンとの比較により単語
検出データを出力するようにしたものでもよい。

【００１０】また、本発明の音声認識対話処理方法は、
音声入力手段により入力された音声を分析して音声特徴
データを発生する音声分析工程と、この音声分析工程か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力工程と、特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録工程
と、前記不特定話者単語データ出力工程から出力された
入力音声に対する単語検出データおよび前記特定話者単
語登録工程から得られた入力音声に対する単語検出デー
タを入力して、それぞれの検出データを基に入力音声を
認識し、それに対応した応答内容を決定するとともに、
特定話者の単語登録を行う際に外部からの設定データを
受けて各種制御を行う音声認識会話制御工程と、前記外
部からの設定データとして応答データ作成に関する設定
入力があった場合、前記音声認識会話制御工程からの指
示を受けて、入力された音声信号に基づいた応答データ
を作成する応答データ登録工程と、予め装置に登録され
ている応答データまたは前記応答データ登録工程により
作成された応答データのうち、前記音声認識会話制御工
程により決定された応答データに基づいた音声合成出力
を発生する音声合成工程と、この音声合成工程からの音
声合成出力を外部に出力する音声出力工程とを有するこ
とを特徴としている。

【００１１】また、本発明の音声認識対話装置は、音声
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、予め登録された応答内
容を記憶する応答データ記憶手段と、この応答データ記
憶手段に記憶された応答内容のうち、前記音声認識会話
制御手段により決定された応答内容に基づいた音声合成
出力を発生する音声合成手段と、この音声合成手段から
の音声合成出力を外部に出力する音声出力手段とを有し
た構成とする。

【００１２】そして、前記特定話者単語登録手段は、特
定話者の入力音声を基にＤＰマッチングによる単語検出
データを出力するものであって、音声分析部からの特定
話者の所定の音声入力に対する特徴データを入力して標
準パターンを作成する単語登録手段、この単語登録手段
により作成された標準パターンを記憶する標準パターン
記憶手段、前記音声分析手段からの特定話者の所定の音
声入力に対する特徴データを入力し、前記標準パターン
との比較により単語検出データを出力する単語検出手段
を有したものであってもよく、また、前記特定話者単語
登録手段は、特定話者の入力音声から前記不特定話者の
標準音声特徴データを基に話者適応した標準音声パター
ンを作成する単語登録手段、この単語登録手段により作
成された話者適応された標準パターンを記憶する話者適
応標準パターン記憶手段を少なくとも有し、前記音声分
析手段からの特定話者の所定の音声入力に対する特徴デ
ータを入力し、前記話者適応標準パターンとの比較によ
り単語検出データを出力するものであってもよい。

【００１３】また、本発明の音声認識対話装置は、音声
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、前記データ入力設定手
段から応答データ作成に関する設定入力があった場合、
前記音声認識会話制御手段からの指示を受けて、入力さ
れた音声信号に基づいた応答データを作成する応答デー
タ登録手段と、予め装置に登録された応答内容を記憶す
る応答データ記憶手段と、前記応答データ登録手段によ
り作成された応答データを記憶する記憶手段と、前記予
め装置に登録されている応答データまたは前記応答デー
タ登録手段により作成された応答データのうち、前記音
声認識会話制御手段により決定された応答データに基づ
いた音声合成出力を発生する音声合成手段と、この音声
合成手段からの音声合成出力を外部に出力する音声出力
手段とを有する構成としている。

【００１４】

【作用】このよう本発明は、不特定話者の音声認識機能
と、特定話者の音声を登録する機能および特定話者の音
声認識機能を兼ね備えている。話者の話し方の個性など
によって、認識される単語、認識されない単語があった
り、また、話者によっては、すべての登録単語が全く認
識されない場合もあるが、このような場合には、特定話
者音声登録機能を用いて認識されない単語を登録するこ
とができる。これにより、認識できない単語を殆どなく
すことができ、装置の認識性能を大幅に向上させること
ができる。また、特定話者に対しては、登録単語以外の
単語の登録も可能となる。

【００１５】また、応答データを作成する機能を有し、
前記データ入力設定手段から応答データ作成に関する設
定入力があった場合、前記音声認識会話制御手段からの
指示を受けて、入力された音声信号に基づいた応答デー
タを作成し、それを登録することを可能としている。こ
れにより、必要に応じて、身近な色々な人の声による応
答メッセージの作成が可能となり、より多彩な会話が可
能となる。

【００１６】

【実施例】以下、本発明の実施例を図面を参照して説明
する。なお、この実施例では、本発明を玩具に適用した
場合を例にとり、特にここでは、幼児用の玩具として、
たとえば、犬などのぬいぐるみに適用した場合について
説明する。

【００１７】（第１の実施例）図１は本発明の第１の実
施例を説明する構成図である。図１において、話者の音
声を入力する音声入力部１、入力音声を分析して音声特
徴データを出力する音声分析部２、この音声分析部２か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力手段３、音声認識
会話制御部４（詳細な説明は後述する）、予め設定され
た応答データを記憶する応答データ記憶部５、音声合成
部６、音声出力部７などは、不特定話者の話す単語を認
識して、その認識結果に応じた応答メッセージを発生す
る部分であり、この第１の実施例では、これに特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録手段８
を設け、さらに、外部から様々なデータ入力設定（これ
については後述する）を行うためのデータ入力設定手段
としての設定スイッチ９が設けられた構成となってい
る。

【００１８】なお、これらの構成要素のうち、音声分析
部２、不特定話者単語データ出力手段３、音声認識会話
制御部４、応答データ記憶部５、音声合成部６、特定話
者単語登録手段８などは、犬のぬいぐるみの内部に収納
され、音声入力部（マイクロホン）１はぬいぐるみのた
とえば耳の部分、音声出力部（スピーカ）７はたとえば
口の部分に設けられ、設定スイッチ９はたとえばぬいぐ
るみの腹の部分に外部から操作可能に設けられる。

【００１９】前記不特定話者単語データ出力手段３は、
複数の認識対象登録単語の標準音声特徴データとして、
それぞれの単語に対応した標準パターンを記憶する標準
パターン記憶部３１、音声分析部２からの音声特徴デー
タを入力して前記標準パターン記憶部３１の標準パター
ンと比較して、単語検出データを出力する単語検出部３
２などから構成されている。

【００２０】前記標準パターン記憶部３１は、１つ１つ
の単語に対し多数（たとえば、２００人程度）の話者が
発話した音声を用いて予め作成した認識対象単語の標準
パターンを記憶（登録）している。ここでは、ぬいぐる
みを例にしているので、認識対象単語は１０単語程度と
し、その単語としては、たとえば、「おはよう」、「お
やすみ」、「こんにちは」、「明日」、「天気」など挨
拶に用いる言葉が多いが、これに限定されるものではな
く、色々な単語を登録することができ、登録単語数も１
０単語に限られるものではない。単語検出部３２は図示
されていないが主に演算器（ＣＰＵ）と処理プログラム
を記憶しているＲＯＭから構成され、標準パターン記憶
部３１に登録されている単語が、入力音声中のどの部分
にどれくらいの確かさで存在するかを検出するものであ
り、これについては後述する。

【００２１】一方、特定話者単語登録手段８は、単語登
録部８１、入力音声の標準音声特徴データとして入力音
声標準パターンを記憶する標準パターン記憶部８２、単
語検出部８３などから構成され、特定話者の音声信号を
入力して特定話者の話す単語を登録するとともに、入力
音声に対する特定話者登録された単語の検出データを出
力する機能を有している。なお、ここでは、ＤＰマッチ
ングにより、入力音声と登録音声標準パターンとを比較
して、その比較結果をもとに、単語検出部８３から単語
検出データを出力するものであるとする。この特定話者
単語音録手段８による単語登録は、設定スイッチ９によ
って単語登録モードを設定することにより、単語登録が
可能となるが、これらについては後に詳細に説明する。

【００２２】これら各部におけるそれぞれの機能などに
ついて、以下に順次説明する。

【００２３】前記音声入力部１は図示されていないがマ
イクロホン、増幅器、ローパスフィルタ、Ａ／Ｄ変換器
などから構成され、マイクロホンから入力された音声
を、増幅器、ローパスフィルタを通して適当な音声波形
としたのち、Ａ／Ｄ変換器によりディジタル信号（たと
えば、１２ＫＨｚ．１６ｂｉｔｓ）に変換して出力し、
その出力を音声分析部２に送る。音声分析部２では、音
声入力部１から送られてきた音声波形信号を、演算器
（ＣＰＵ）を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出（LPCーCEP
STRUM係数が一般的）し、この特徴ベクトルの時系列
（以下、音声特徴ベクトル列という）を出力する。ま
た、前記不特定話者単語データ出力手段３としては、隠
れマルコフモデル（ＨＭＭ）方式やＤＰマッチング方式
などを用いることも可能であるが、ここでは、ＤＲＮＮ
（ダイナミックリカレントニューラルネットワー
ク）方式によるキーワードスポッティング処理技術（こ
の技術に関しては、本出願人が特開平６ー４０９７、特
開平６ー１１９４７６により、すでに特許出願済みであ
る。）を用いて、不特定話者による連続音声認識に近い
音声認識を可能とするための単語検出データを出力する
ものであるとする。

【００２４】この不特定話者単語データ出力手段３の具
体的な処理について、図２を参照しながら簡単に説明す
る。単語検出部３２は、標準パターン記憶部３１に登録
されている単語が、入力音声中のどの部分にどれくらい
の確かさで存在するかを検出するものである。今、話者
から「明日の天気は、・・・」というような音声が入力
され、図２（ａ）に示すような音声信号が出力されたと
する。この「明日の天気は、・・・」の文節のうち、
「明日」と「天気」がこの場合のキーワードとなり、こ
れらは、予め登録されている１０単語程度の登録単語の
１つとして、標準パターン記憶部３１にそのパターンが
記憶されている。そして、これら登録単語をたとえば１
０単語としたとき、これら１０単語（これを、単語１、
単語２、単語３、・・・とする）に対応して各単語を検
出するための信号が出力されていて、その検出信号の値
などの情報から、入力音声中にどの程度の確かさで対応
する単語が存在するかを検出する。つまり、「天気」と
いう単語（単語１）が入力音声中に存在したときに、そ
の「天気」という信号を待っている検出信号が、同図
（ｂ）の如く、入力音声の「天気」の部分で立ち上が
る。同様に、「明日」という単語（単語２）が入力音声
中に存在したときに、その「明日」という信号を待って
いる検出信号が、同図（ｃ）の如く、入力音声の「明
日」の部分で立ち上がる。同図（ｂ），（ｃ）におい
て、0.9あるいは0.8といった数値は、確からしさ（近似
度）を示す数値であり、0.9や0.8といった高い数値であ
れば、その高い確からしさを持った登録単語は、入力さ
れた音声に対する認識候補であるということができる。
つまり、「明日」という登録単語は、同図（ｃ）に示す
ように、入力音声信号の時間軸上のｗ１の部分に0.8と
いう確からしさで存在し、「天気」という登録単語は、
同図（ｂ）に示すように、入力音声信号の時間軸上のｗ
２の部分に0.9という確からしさで存在することがわか
る。

【００２５】また、この図２の例では、「天気」という
入力に対して、同図（ｄ）に示すように、単語３（この
単語３は「何時」という登録単語であるとする）を待つ
信号も、時間軸上のｗ２の部分に、ある程度の確からし
さ（その数値は0.6程度）を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、２つ
以上の登録単語が認識候補として存在する場合には、最
も近似度（確からしさを示す数値）の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
１つの単語を認識単語として選定する方法などを用い
て、或る１つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のｗ２の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声認識会話制御部４にて行う。

【００２６】音声認識会話制御部４は、主に演算器（Ｃ
ＰＵ）と処理プログラムを記憶しているＲＯＭから構成
され、以下に述べるような様々な処理を行う。なお、以
上の各部に設けられたＣＰＵは、各部ごとに設けるよう
にしてもよいが、１台のＣＰＵで各部の処理を行うよう
にしてもよい。

【００２７】音声認識会話制御部４は、単語検出部３２
または単語検出部８３からの単語検出データのいずれか
を選択して、その単語検出データを基に、音声を認識し
（入力音声全体の意味を理解し）、応答データ記憶部５
を参照して、入力音声の意味に応じた応答内容を決定
し、音声合成部８および音声出力部９へ出力信号を送
る。たとえば、単語検出部３２からの図２（ｂ）〜
（ｅ）に示すような検出データ（これをワードラティス
という。このワードラティスは、登録単語名、近似度、
単語の始点ｓと終点ｅを示す信号などが含まれる）が入
力されると、まず、そのワードラティスを基に、入力音
声の中のキーワードとしての単語を１つまたは複数個決
定する。この例では、入力音声は「明日の天気は・・
・」であるので、「明日」と「天気」が検出されること
になり、この「明日」と「天気」のキーワードから「明
日の天気は・・・」という連続的な入力音声の内容を理
解する。

【００２８】なお、以上説明したキーワードスポッティ
ング処理による連続音声認識に近い音声認識処置は、日
本語だけでなく他の言語においても適用可能である。た
とえば、使用する言語が英語であるとすれば、登録され
ている認識可能な単語は、たとえば、“good-mornin
g”、“time”、“tommorow”、“good-night”などが
一例として挙げられるが、これらの認識可能な登録単語
の特徴データが、標準パターン記憶部３１に記憶されて
いる。そして今、話者が「what time is it now」
と問いかけた場合、この「what time is it now」
の文節の内、「time」という単語がこの場合のキーワー
ドとなり、単語「time」が入力音声の中に存在したとき
に、単語「time」の音声信号を待っている検出信号が、
入力音声の「time」の部分で立ち上がる。そして、単語
検出部３２からの検出データ（ワードラティス）が入力
されると、まず、そのワードラティスを基に、入力音声
のキーワードとしての単語を１つまたは複数個決定す
る。この例では、入力音声は、「what time is it
now」であるので、「time」がキーワードとして検出さ
れることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解
する。

【００２９】ところで、今まで説明した内容は、不特定
話者単語データ出力手段３から単語データが出力される
場合、つまり、話者の話す言葉が認識される場合である
が、話者によっては、登録単語のうち、たとえば「おは
よう」と問いかけても、全く認識されない場合がある。
このような場合、話し方を変えると認識される場合もあ
るが、話者の声の個性などによって、全く認識されない
場合もある。この場合には、認識されない単語を特定話
者単語登録を行う。以下、これについて説明する。

【００３０】特定話者単語登録を行う場合には、設定ス
イッチ９を用いる。この設定スイッチ９は、たとえば図
３に示すように、「０」〜「９」の数値からなる番号キ
ー部９１、登録開始ボタン９２、登録終了ボタン９３、
応答メッセージ選択ボタン９４、応答メッセージ登録終
了ボタン９５、応答内容番号入力ボタン９６などから構
成されている。なお、応答メッセージ選択ボタン９４、
応答メッセージ登録終了ボタン９５、応答内容番号入力
ボタン９６などについては後に説明する。

【００３１】ここでは、たとえば、「おはよう」という
単語が認識されないため、この「おはよう」を特定話者
単語登録する場合について説明する。まず、設定スイッ
チ９の登録開始ボタン９２を操作する。これにより、音
声認識会話制御部４では、特定話者単語登録モードと
し、この単語登録モードにあっては、通常の認識動作を
行わないようにする。

【００３２】この状態で、話者が「おはよう」という単
語の番号（あらかじめ認識可能な登録単語には、それぞ
れの単語に対応して番号が割り当てられている）を番号
キー９１より入力、たとえば、「おはよう」が１番であ
るとすると、「１」の数値キーを押すと、音声認識会話
制御部４では、「おはよう」という単語の登録であるこ
とを検出し、「おはようと言ってください」などという
ような応答出力を発するように制御を行う。これによっ
て、話者が「おはよう」というと、その音声は、音声入
力部１から音声分析部２に送られ、音声分析された特徴
ベクトルが単語登録部８１に送られる。単語登録部８１
では、標準音声特徴データとして入力音声に対する標準
パターンを作成する。この標準パターンは標準パターン
記憶部８２に記憶される。

【００３３】なお、前記登録される特徴パターンは、話
者が「おはよう」と言ったそのままの特徴ベクトル列を
用いて標準パターンを作成してもよいが、話者に対して
数回、「おはよう」と発話させて、それぞれの特徴ベク
トル列の平均的な標準特徴ベクトル列を求めて、その標
準特徴ベクトル列により標準パターンを作成するように
してもよい。

【００３４】このようにして、或る特定の話者の発する
認識されない単語の登録がなされる。これは、「おはよ
う」のみならず、認識されない登録単語すべてについて
行うことが可能であることは勿論である。このようにし
て、認識されない単語に対して特定話者単語登録がなさ
れる。

【００３５】次に、話者と装置（ぬいぐるみ）との間の
具体的な会話例を用いて第１の実施例を説明する。ま
た、話者の問いかけ内容のなかで中括弧内の単語は文字
認識を行う上でのキーワードであることを示している。

【００３６】まず、話者が「｛おはよう｝ございます」
と問いかけたとする。この「おはよう」という音声は音
声入力部１から音声分析部２に送られ、音声分析された
特徴ベクトルが出力される。このとき、不特定話者単語
データ出力手段３の単語検出部３２と、特定話者単語登
録部８の単語検出部８３はともに音声分析部２からの信
号を待っている状態にあり、これらそれぞれの単語検出
部３２、８３からは音声分析部２からの出力に応じた単
語検出データ（ワードラティス）がそれぞれ出力され
る。なお、単語検出部８３からのワードラティスに含ま
れる確からしさを示す数値は近似度ではなく距離値であ
る。

【００３７】ところで、単語検出部３２、８３から出力
されるワードラティスに含まれる確からしさを示す数値
は、単語検出部３２の場合は、図２により説明したよう
に、0.9や0.7といった近似度であり、数値が高いほど確
からしさが高いものとなり、これに対して、単語検出部
８３の場合は、入力音声の特徴パターンと標準パターン
との距離を示す数値で表されるため、数値が小さいほど
確からしさが高いものとなる。したがって、音声認識会
話制御部４では、これら単語検出部３２、８３から出力
されるワードラティスを受け取ると、それぞれの近似度
および距離値を、それぞれに対応して設定されたしきい
値ｔｈ１，ｔｈ２（ここでは、ｔｈ１＝0.7、ｔｈ２＝
0.3とする）と比較して、認識候補単語を決定する。

【００３８】たとえば、「天気」という単語が入力され
た場合、単語検出部３２から、図２（ｂ）に示すよう
に、「天気」を検出する信号が、0.9の高い近似度を有
して出力されたとすれば、この0.9としきい値ｔｈ１(th
1=0.7）を比較してｔｈ１より大きければ入力音声は
「天気」であるとの認識を行う。

【００３９】また、話者が特定話者単語登録されている
「おはよう」という単語を話した場合は、単語検出部３
２からは、たとえば、図４（ａ）〜（ｄ）に示すような
ワードラティスが出力される。この場合は、話者の「お
はよう」に対する「おはよう」を検出するための検出信
号の近似度は0.2と低く、他の単語を検出するための検
出信号に高い近似度が現れる場合もある。ここでは、
「おやすみ」を待っている信号に比較的高い近似度（近
似度0.6）が現れているものとする。

【００４０】一方、単語検出部８３からは、話者の「お
はよう」に対する音声信号と標準パターン記憶部８２に
記憶されている標準パターンとを比較して得られた距離
値が出力される。この距離値は極めて小さい値となり、
たとえば、0.1であるとする。

【００４１】音声認識会話制御部４では、前記したそれ
ぞれの単語検出部３２、８３からのワードラティスを受
けて、認識候補を決定する。この場合、音声認識会話制
御部４は、登録単語のうちどの単語が特定話者単語登録
された単語であるかを把握している（話者が単語登録を
行うときに単語番号を入力することにより把握できる）
ため、単語検出部３２からのワードラティスのうち、
「おはよう」を検出するための検出信号（図４(a)）の
データは認識対象としないで、図４（ｂ）〜（ｄ）の検
出信号のデータを用いて、単語検出部８３からのワード
ラティス（距離値）との比較を行う。なお、図４では、
単語検出部３２からの検出データは、４つの単語の検出
データしか図示されていないが、実際には、これ以外の
登録単語のワードラティスも音声理解会話制御部４に入
力される。なお、話者の「おはよう」に対するすべての
登録単語の検出データのなかで、「おやすみ」の検出デ
ータにおける近似度が最も高いものとする。

【００４２】これにより、音声認識会話制御部４では、
単語検出部３２、８２からの近似度および距離値をそれ
ぞれのしきい値（ｔｈ１＝0.7、ｔｈ２＝0.3）と比較し
て、認識候補を決定して入力音声の意味を理解する。こ
の場合、単語検出部３２からの最も高い近似度は0.6で
あり、しきい値ｔｈ１よりも小さい。一方、単語検出部
８３からの「おはよう」の入力音声に対する距離値は、
0.1であり、しきい値ｔｈ２と比較するとｔｈ２よりも
小さいので、この場合は、「おはよう」を認識候補と決
定する。

【００４３】なお、単語検出部３２からの最も高い近似
度が、しきい値ｔｈ１よりも大きいものがあって、か
つ、単語検出部８３からの距離値が、しきい値ｔｈ２よ
りも小さいものがあった場合には、予め何らかの規則を
決めておき、いずれかを認識候補として決定するように
する。たとえば、単語検出部８３からのデータを優先し
てそれを認識候補とする方法、あるいは、装置側から再
度入力を促すような応答をするなどの方法がある。

【００４４】以上のようにして、話者の音声入力に対し
て認識単語が決定される。しかも、認識されない単語
（登録単語）がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。そして、認識単語が決
定されると、音声認識会話制御部４では、入力音声の意
味を理解して、それに対する応答内容を決定し、音声出
力部７から出力する。なお、このとき、ここでは図示さ
れていないが、時刻、日付、気圧、気温などの変動デー
タを検出する変動データ検出部とこれらのデータを記憶
する記憶部を設けることにより、これらのデータを基
に、より多彩な応答データを作成することができる。た
とえば、話者が「おはよう」と問いかけると、ぬいぐる
みからは、「おはよう、今日はいいお天気だから（気圧
情報より）、お花見に行こうよ（日付情報より）」など
という応答も可能となる。このような会話において、話
者の話す内容に対するぬいぐるみからの応答内容は、話
者の話す内容に対応させて、予め設定しておく。

【００４５】ところで、以上の説明は、登録単語の中
で、話者の個性などによって認識されない単語を、特定
話者単語登録して、それを認識して応答メッセージを発
する場合について説明したが、登録単語以外の単語をも
特定話者単語登録することができる。たとえば、ぬいぐ
るみであれば、そのぬいぐるみに独自の名前を付けてそ
れを登録することも可能である。以下にぬいぐるみの名
前を登録する場合について説明する。

【００４６】たとえば、設定スイッチ９の番号キー９１
のうち、「０」の数値キーを名前登録用のキーとしてお
き、最初に、登録開始ボタン９２を押して、続いて
「０」の数値キーを押す。これにより、装置側からは、
「名前を言ってください」というようなメッセージが発
せられ、話者が、たとえば、「ぽち」などと言うとそれ
が登録される。これは、前記した認識されない単語登録
と同じ要領で行われる。たとえば、複数回「ぽち」と言
わせて、その平均の特徴ベクトル列から標準パターンを
求めてそれを標準パターン記憶部８２に記憶させる。そ
して、この「ぽち」に対する応答内容としては、たとえ
ば、「わん、わん」などを予め設定しておく。これによ
って、話者が「ぽち」と名前を呼ぶことによって、「わ
ん、わん」などと答える。

【００４７】また、話者が独自に登録したい単語がある
場合には、それを登録し、その登録単語に対する応答メ
ッセージを作ることも可能である（ただし、応答内容は
ある程度限定される）。この場合には、たとえば操作手
順などを示すマニュアルなどを作成しておき、そのマニ
ュアルに従った操作を行うことにより、応答メッセージ
を作成するようにしてもよい。以下これについて説明す
る。

【００４８】これを実現するには、装置側では予め応答
内容をたとえば１００種類程度用意しておき、話者が独
自に登録した単語に対応させて、応答内容を選択する。
具体的には、図５に示すように、応答内容Ａ０、応答内
容Ａ１、応答内容Ａ２、・・・というような応答内容
に、応答内容番号を０，１，２，・・・というように割
り当てて、応答データ記憶部５に格納しておき、これら
応答内容番号と応答内容を対応づけた一覧表を記載した
操作マニュアルを用意し、ユーザは操作マニュアルにし
たがって、一覧表を見ながら、登録した単語ごとに応答
内容を設定する。この設定は設定スイッチ９を用いて以
下のようにして行う。

【００４９】まず、予め登録されていない単語の登録を
番号キー９１により「１１」以降の数値を入力して行う
（ちなみに、「０」の数値は前記したように、この実施
例では名前の登録用であり、「１」から「１０」の数値
は登録単語に対応した数値キーであり、登録単語が認識
されないときに特定話者単語登録を行うような場合に用
いられる）。

【００５０】まず、登録開始ボタン９２を押したあと、
番号キー９１により、たとえば「１１」を入力して、或
る単語を音声入力すると、その単語の標準音声パターン
が標準音声パターン記憶部８２に記憶される。そして、
応答メッセージ選択ボタン９４を操作し、前記一覧表の
中から登録した単語にふさわしい応答内容を選択する。
たとえば、応答内容番号１の応答内容Ａ１を登録したい
場合には、応答内容番号入力ボタン９６を押して、続い
て番号キー９１から応答内容番号１に対応する「１」の
数値キーを押し、さらに、応答メッセージ登録終了ボタ
ン９５を押す。これにより、「１１」の数値キーを押し
て登録された単語が、話者から音声入力として入力され
た場合には、装置からは応答内容Ａ１による応答がなさ
れることになる。

【００５１】このように、設定スイッチ９により、「１
１」以降の数値を用いて、ユーザが独自に登録したい単
語の登録が行え、しかもそれぞれの単語に対応した応答
内容を選択して登録することができる。さらに、応答内
容は、応答内容番号を幾つか組み合わせることにより、
たとえば、応答内容Ａ０、応答内容Ａ２、応答内容Ａ４
の組み合わせたより多彩な応答内容を作成して登録する
ことも可能である。

【００５２】（第２の実施例）次に本発明の第２の実施
例について説明する。前記第１の実施例では、認識され
ない登録単語に対しては、ＤＰマッチングによる単語検
出を行うために、話者の音声入力を音声分析した特徴ベ
クトルを用いて標準パターンを作成し、入力音声との比
較を行って単語検出データ（ワードラティス）を出力す
る例を示したが、この第２の実施例では、不特定話者標
準パターンモデルを用いて話者適応を行い、話者適応し
た標準特徴パターンを作成して、この新たな話者適応し
た標準パターンを用いて認識を行おうとするものであ
る。以下、図６を参照しながら第２の実施例について説
明する。

【００５３】図６において、図１と同一部分には同一符
号が付されている。この第２の実施例では、音声入力部
１、音声分析部２、不特定話者単語データ出力手段３
（標準パターン記憶部３１、単語検出部３２）、単語認
識会話制御部４、応答データ記憶部５、音声合成部６、
音声出力部７、設定スイッチ９の他に、特定話者単語登
録手段１０として、特定話者の入力音声（音声分析部２
の出力）をもとに、ＤＲＮＮの不特定話者標準パターン
モデルを用いて、話者適応した標準パターンを作成する
単語登録部１０１、この単語登録部１０１で作成された
話者適応された新たな標準パターンを記憶する話者適応
標準パターン記憶部１０２、音声分析部２からの出力を
受けて前記話者適応標準パターン記憶部１０２を基に、
単語検出データ（ワードラティス）を出力する単語検出
部１０３が設けられた構成となっている。

【００５４】このような構成において以下にその動作を
説明する。なお、話者の話す単語が認識される場合につ
いては、第１の実施例と同じであるので、ここでは、認
識されない単語の認識処理について説明する。

【００５５】前記第１の実施例と同様に、話者の話す
「おはよう」が認識されない場合、この「おはよう」と
いう単語を特定話者単語登録を行う。以下、これについ
て説明する。

【００５６】特定話者単語登録を行う場合には、図３で
その一例を示した設定スイッチ９を用いる。まず、設定
スイッチ９の登録開始ボタン９２を操作する。これによ
り、音声理解会話制御部４では、単語登録モードとし、
この単語登録モードにあっては、通常の認識動作を行わ
ないようにする。

【００５７】この状態で、話者が「おはよう」という単
語に割り当てられた「１」の数値キーを押すと、音声認
識会話制御部４では、「おはよう」という単語の登録で
あることを検出し、「おはようと言ってください」など
というような応答出力を発するように制御を行う。これ
によって、話者が「おはよう」というと、その音声は、
音声入力部１から音声分析部２に送られ、音声分析され
た特徴ベクトルが単語登録部１０１に送られる。単語登
録部１０１では、音声分析部２からの出力を基に、ＤＲ
ＮＮの標準パターンから話者の音声の特性に見合った新
たな標準パターン、つまり話者適応した標準パターンを
作成し、それを話者適応標準パターン記憶部１０２に記
憶させる。

【００５８】このような状態で、話者が特定話者単語登
録されている「おはよう」という単語を話した場合は、
単語検出部３２からは、たとえば、第１の実施例で説明
したように、図４（ａ）〜（ｄ）に示すようなワードラ
ティスが出力される。この場合は、話者の「おはよう」
に対する「おはよう」を検出するための検出信号の近似
度は低く、他の単語を検出するための検出信号に高い近
似度が現れる場合もある。ここでは、「おやすみ」を待
っている信号に比較的高い近似度（近似度0.6）が現れ
ているものとする。一方、単語検出部１０３からの「お
はよう」を検出する信号は図７（ａ）に示すように、高
い近似度を持った信号が出力される。これは、話者適応
された「おはよう」の標準パターンと、当該話者の「お
はよう」の入力音声との比較により出力されるためであ
る。

【００５９】音声認識会話制御部４では、単語検出部３
２、１０３からのワードラティスを受けて、認識候補を
決定する。この場合、音声認識会話制御部４は、登録単
語のうちどの単語が特定話者単語登録された単語である
かを把握している（話者が単語登録を行うときに単語番
号を入力することにより把握できる）ため、単語検出部
３２からのワードラティスのうち、「おはよう」を検出
するための検出信号（図４(a)）のデータは認識対象と
しないで、図７に示すように、同図（ａ）に示す単語検
出部１０３からの検出データ（近似度）と、図４（ｂ）
〜（ｄ）で示した単語検出部３２からの検出データを用
いて近似度の比較を行う。なお、図７では、単語検出部
３２からの単語データは３つの単語の検出データしか図
示されていないが、実際には、それ以外の登録単語のワ
ードラティスも音声理解会話制御部４に入力される。

【００６０】これにより、音声認識会話制御部４では、
単語検出部３２、１０３からの近似度を比較して、認識
候補を決定するとともに入力音声の意味を理解する。こ
の場合、単語検出部３２からの最も高い近似度は「おや
すみ」の0.6であり、一方、単語検出手段１０３からの
「おはよう」の近似度は、0.9であり、この場合は、
「おはよう」を認識候補と決定する。

【００６１】なお、単語検出部３２、１０３からのワー
ドラティスの近似度が高い数値の単語が幾つかあるよう
な場合の認識候補の決定の仕方としては、最も高い近似
度の単語を認識候補として決定する方法や、各単語間の
近似度の相関関係を表す相関表を各単語毎に作成してお
き、この相関表を基に認識単語を決定する方法など幾つ
かの方法がある。

【００６２】また、図６においては、単語検出部として
単語検出部３２と単語検出部１０３とをそれぞれ設けた
構成としたが、この第２に実施例の場合には、特定話者
単語登録に、ＤＲＮＮによる標準パターンを用いた話者
適応を用いているので、ワードラティスに含まれる数値
の基準は同じであるため、単語検出部３２を共用するこ
とも可能である。

【００６３】以上のようにして、話者の音声入力に対し
て認識単語が決定される。しかも、認識されない単語
（登録単語）がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。なお、特定話者登録用
として話者適応した標準パターンを予め登録されている
認識率の悪い標準パターンと入れ替えるということも可
能となる。

【００６４】そして、認識単語が決定されると、音声認
識会話制御部４では、入力音声の意味を理解して、それ
に対する応答内容を決定し、音声出力部７から出力す
る。なお、このとき、ここでは図示されていないが、時
刻、日付、気圧、気温などの変動データを検出する変動
データ検出部とこれらのデータを記憶する記憶部をもう
けることにより、これらのデータを基に、より多彩な応
答データを作成することができる。たとえば、話者が
「おはよう」と問いかけると、ぬいぐるみからは、「お
はよう、今日はいいお天気だから（気圧情報より）、お
花見に行こうよ（日付情報より）」などという応答も可
能となる。このような会話において、話者の話す内容に
対するぬいぐるみからの応答内容は、話者の話す内容に
対応させて、予め設定しておく。

【００６５】（第３の実施例）以上説明した第１、第２
の実施例においては、応答メッセージは予め決められた
声優などの声を用いて応答内容が作成され、それが登録
されているが、この第３の実施例では、応答メッセージ
として自分の声、母親の声、おるいは友人の声などで応
答内容を作成して登録することができるようにしたもの
である。これを図８を参照して説明する。なお、この第
３の実施例は、第１、第２の各実施例に適応可能である
が、ここでは第１の実施例で説明した構成に適応した例
を説明する。

【００６６】図８において、図１と同一部分には同一符
号を付し、これら同一部分の説明はここでは省略する。
この第３の実施例を実現するための新たな構成要件とし
ては、自分の声、家族の声、あるいは友人の声などの応
答データを登録するための応答データ登録部４０、この
応答データ登録部４０で登録された応答内容を記憶する
応答データ記憶部４１が設けられている。

【００６７】前記応答データ登録部４０は、音声入力部
１からの入力音声に対するA/D変換後の出力を、データ
圧縮した応答データを作成するものであり、ここで作成
された応答データは応答データ記憶部４１に記憶され
る。なお、この応答データ登録を行う際は、図９で示し
た設定スイッチ９の応答メッセージ作成ボタン９７を押
すことにより行う。この図９で示した設定スイッチ９
は、この第３の実施例を実現するための設定スイッチで
あり、図３で示したものと基本的には同じものである
が、図３で示したものに対して、応答メッセージ作成ボ
タン９７と応答選択ボタン９８が新たに設けられた構成
となっている。この応答メッセージ作成ボタン９７が押
されると、音声認識会話制御部４が装置のモードを応答
データ登録モードとし、応答データの登録が可能とな
る。この応答データ登録モードのときは、前記第１、第
２の実施例で説明したような単語検出などの処理は行わ
れない。また、応答選択ボタン９８は、応答内容を予め
登録されている内容とするか、あるいは新たに登録され
た内容とするかを選択するスイッチであり、予め登録さ
れた応答内容側とした場合には、音声認識会話制御部４
は応答データ記憶部５を参照し、新たに登録された応答
内容側とすることにより、音声認識会話制御部４は応答
データ記憶部４１を参照する。なお、この設定スイッチ
９の構成は図９のものに限定されるものではなく、各種
設定ボタンなどは必要に応じて設けられる。

【００６８】このような構成において、たとえば、この
ぬいぐるみで遊ぶ子どもの母親の声で応答メッセージを
作成して登録する場合は、まず、設定スイッチ９の応答
メッセージ作成ボタン９７を押し、続いて、応答内容番
号入力ボタン９６を押して、たとえば、番号キー９１か
ら「１００」を入力したのち、母親が何らかの応答メッ
セージを入力する。これにより、応答データ登録部４０
により、入力した応答メッセージの内容に対応した応答
データが作成され、その応答データが応答データ記憶部
４１に記憶される。このようにして、母親のみに限ら
ず、所定の人が新たに登録したい応答内容を入力するこ
とにより、それぞれの応答データ（応答内容ａ０、応答
内容ａ１，応答内容ａ２、・・・とする）が作成され、
それぞれの応答データは応答データ記憶部４１に、図１
０に示すように、応答内容番号１００、１０１，１０
２，・・・に対応して、応答内容ａ０、応答内容ａ１，
応答内容ａ２、・・・というように登録される。なお、
この応答データ記憶部４１は、前記第１、第２の実施例
で示した応答データ記憶部５のメモリを共用して、応答
内容番号０〜９９番までを、装置に予め登録されている
応答内容として、たとえば０から９９番のアドレスに登
録し、応答内容番号１００番以降を新たに登録された応
答内容として、１００番以降のアドレスに登録するよう
にしてもよい。

【００６９】以上のようにして、新たな音声による応答
内容が登録される。そして、これら新たに登録された応
答内容を、話者の問いかける単語に対する応答内容とし
て予め設定しておく。たとえば、登録単語番号１の単語
（「おはよう」であるものとする）に対して応答内容番
号１００の応答内容ａ０（母親の声による「おはよう、
・・・ちゃん」であるとする）を登録したい場合には、
まず、番号キー９１から「１」の数値キーを押して、応
答内容番号入力ボタン９６を押して、続いて番号キー９
１から「１００」の数値キーを押し、さらに、応答メッ
セージ登録終了ボタン９５を押す。このようにして話者
の話す登録単語に応答内容を対応づけることができる。

【００７０】これにより、応答選択ボタン９８を登録応
答内容側に切り替えた状態で、登録単語番号１に対応す
る単語が、話者から音声入力として入力された場合に
は、装置からは応答内容ａ０による応答がなされること
になる。つまり、たとえば、ぬいぐるみと遊ぶ子ども
が、「おはよう」と問いかけると、ぬいぐるみからは、
母親の声で、「おはよう、・・・ちゃん」というような
応答がなされる。

【００７１】なお、この例では、応答選択ボタン９８を
設けて、これにより、応答内容をすでに登録されている
内容のものか、あるいは新たに登録した内容のものかを
選択するようにしたが、応答内容の選択はこのような方
式に限られるものではなく、条件などを予め設定してお
き、たとえば、話者の発話内容などがその条件に合致し
たときに、応答内容がいずれかに選択されるようにして
もよい。また、話者の話す登録単語と応答内容の対応付
けの方法も前記したような方法に限られることなく、種
々の方法が考えられる。

【００７２】さらにまた、前記第１の実施例で説明した
ように、設定スイッチ９により、「１１」以降の数値を
用いて、ユーザが独自に認識可能な単語の登録を新たに
行い、その新たに登録した単語に対応して、前記した新
たな応答内容ａ０，ａ１，ａ２，・・・を選択して登録
することができる。さらに、応答内容は、応答内容番号
を幾つか組み合わせることにより、たとえば、応答内容
ａ０、応答内容ａ２、応答内容ａ４などの３つを組み合
わせることにより多彩な応答内容を作成し、登録するこ
とも可能である。

【００７３】このように第３の実施例では、装置に予め
設定された声優などによる応答だけではなく、身近な人
の声での応答が可能となるため、ぬいぐるみなどの玩具
に適用した場合には、子どもは、より一層会話を楽しむ
ことができ、玩具にありがちなすぐ飽きるというような
ことが無くなる。

【００７４】また、以上の各実施例では、本発明を玩具
としてぬいぐるみに適用した例を説明したが、ぬいぐる
みに限られるものではなく。他の玩具にも適用できるこ
とは勿論であり、さらに、玩具だけではなく、ゲーム機
や、日常使われる様々な電子機器などにも適用でき、そ
の適用範囲は極めて広いものと考えられる。

【００７５】

【発明の効果】以上説明したように、本発明の音声認識
対話処理方法は、請求項１によれば、音声入力手段によ
り入力された音声を分析して音声特徴データを発生する
音声分析工程と、この音声分析工程からの音声特徴デー
タを入力し、予め登録された認識可能な単語に対する不
特定話者の標準音声特徴データを基に、入力音声に含ま
れる登録単語に対応した検出データを出力する不特定話
者単語データ出力工程と、特定話者の入力音声を基に当
該特定話者の発する単語の標準音声特徴データを登録す
るとともに特定話者の入力音声に対する単語検出データ
を出力する特定話者単語登録工程と、前記不特定話者単
語データ出力工程から出力された入力音声に対する単語
検出データおよび前記特定話者単語登録工程から得られ
た入力音声に対する単語検出データを入力して、それぞ
れの検出データを基に入力音声を認識し、それに対応し
た応答内容を決定するとともに、特定話者の単語登録を
行う際に外部からの設定データを受けて各種制御を行う
音声認識会話制御工程とを有しているので、話者の話し
方の個性などによって、認識される単語、認識されない
単語があったり、また、話者によっては、すべての登録
単語が全く認識されない場合もあるが、このような場合
には、特定話者音声登録機能を用いて認識されない単語
を登録することができる。これにより、認識できない単
語を殆どなくすことができ、認識性能を大幅に向上させ
ることができ、また、特定話者に対しては、登録単語以
外の単語の登録も可能となるなど、より一層、高性能な
ものとすることができる。

【００７６】また、請求項２によれば、特定話者単語登
録工程は、特定話者の入力音声を基にＤＰマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。

【００７７】また請求項３によれば、特定話者単語登録
工程は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出工程として新たなものを設ける必要
が無く、処理の簡素化が図れる。また、単語データ検出
方式が同じであることから検出データの数値の基準など
が同じであるため、データ処理部を共用することも可能
であり、さらに、特定話者登録された標準パターンを予
め登録されている認識率の悪い標準パターンと入れ替え
ることも可能となるなどの効果を得ることができる。

【００７８】また請求項４によれば、予め装置側に登録
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広いものとすることができる。

【００７９】また、本発明の音声認識対話装置は、請求
項５によれば、音声入力手段により入力された入力音声
を音声分析部で分析して得られた音声特徴データを入力
し、予め登録された認識可能な単語に対する不特定話者
の標準音声特徴データを基に、登録単語に対応した検出
データを出力する不特定話者単語データ出力手段と、特
定話者の入力音声を基に当該特定話者の発する単語の標
準音声特徴データを登録するとともに特定話者の入力音
声に対する単語検出データを出力する特定話者単語登録
手段と、特定話者の単語登録を行う際にデータ入力設定
を行うデータ入力設定手段と、前記それぞれの単語検出
データを入力して、それぞれの検出データを基に入力音
声を認識し、それに対応した応答内容を決定するととも
に、前記データ入力設定手段からの設定データを受けて
各種制御を行う音声認識会話制御手段を有しているの
で、話者の話し方の個性などによって、認識される単
語、認識されない単語があったり、また、話者によって
は、すべての登録単語が全く認識されない場合もある
が、このような場合には、特定話者音声登録機能を用い
て認識されない単語を登録することができる。これによ
り、認識できない単語を殆どなくすことができ、装置の
認識性能を大幅に向上させることができ、また、特定話
者に対しては、登録単語以外の単語の登録も可能となる
など、この種の音声認識対話装置としては、より一層、
高性能なものとすることができる。

【００８０】また、請求項６によれば、特定話者単語登
録手段は、特定話者の入力音声を基にＤＰマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。

【００８１】また請求項７によれば、特定話者単語登録
手段は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出部として新たなものを設ける必要が
無く、構成の簡素化が図れる。また、単語データ検出方
式が同じであることから検出データの数値の基準などが
同じであるため、データ処理部を共用することも可能で
あり、さらに、特定話者登録された標準パターンを予め
登録されている認識率の悪い標準パターンと入れ替える
ことも可能となるなどの効果を得ることができる。

【００８２】また請求項８によれば、予め装置側に登録
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広い音声認識対話装置とするこ
とができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の構成を説明するブロッ
ク図。

【図２】不特定話者単語データ出力手段から出力される
ワードラティスの一例を示す図。

【図３】設定スイッチの構成例を示す図。

【図４】同実施例における或る登録単語が入力された場
合の不特定話者単語データ出力例を示す図。

【図５】応答データ記憶部５に記憶される応答内容とそ
れに対応した応答内容番号の一例を示す図。

【図６】本発明の第２の実施例の構成を説明するブロッ
ク図。

【図７】同実施例における或る登録単語が入力された場
合の特定話者単語登録手段からの単語データ出力例およ
び不特定話者単語データ出力例を示す図。

【図８】本発明の第３の実施例の構成を説明するブロッ
ク図。

【図９】同実施例において使用される設定スイッチの構
成例を示す図。

【図１０】同実施例における応答データ記憶部４１に記
憶される応答内容とそれに対応した応答内容番号の一例
を示す図。

【符号の説明】

１・・・音声入力部２・・・音声分析部３・・・不特定話者単語データ出力手段４・・・音声認識会話制御部５・・・応答データ記憶部６・・・音声合成部７・・・音声出力部８・・・特定話者単語登録手段９・・・設定スイッチ３１・・・標準パターン記憶部３２・・・単語検出部４０・・・応答データ登録部４１・・・応答データ記憶部８１・・・単語登録部８２・・・標準パターン記憶部８３・・・単語検出部９１・・・番号キー部９２・・・登録開始ボタン９３・・・登録終了ボタン９４・・・応答メッセージ選択ボタン９５・・・応答メッセージ登録終了ボタン９６・・・応答内容番号入力ボタン９７・・・応答メッセージ作成ボタン９８・・・応答選択ボタン

Claims

【特許請求の範囲】

【請求項１】音声入力手段により入力された音声を分
析して音声特徴データを発生する音声分析工程と、この音声分析工程からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
工程と、特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、前記不特定話者単語データ出力工程から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録工程から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、特定
話者の単語登録を行う際に外部からの設定データを受け
て各種制御を行う音声認識会話制御工程と、前記音声認識会話制御工程により決定された応答内容に
基づいた音声合成出力を発生する音声合成工程と、この音声合成工程からの音声合成出力を外部に出力する
音声出力工程と、を有することを特徴とする音声認識対話処理方法。
【請求項２】前記特定話者単語登録工程は、特定話者
の入力音声を基にＤＰマッチングによる単語検出データ
を出力するものであって、音声分析工程からの特定話者
の所定の音声入力に対する特徴データを入力して標準パ
ターンを作成する単語登録工程、この単語登録工程によ
り作成された標準パターンを記憶する標準パターン記憶
工程、前記音声分析工程からの特定話者の所定の音声入
力に対する特徴データを入力し、前記標準パターンとの
比較により単語検出データを出力する単語検出工程を有
したことを特徴とする請求項１記載の音声認識対話処理
方法。
【請求項３】前記特定話者単語登録工程は、特定話者
の入力音声から前記不特定話者の標準音声特徴データを
基に話者適応した標準音声パターンを作成する単語登録
工程、この単語登録工程により作成された話者適応され
た標準パターンを記憶する話者適応標準パターン記憶工
程を少なくとも有し、前記音声分析工程からの特定話者
の所定の音声入力に対する特徴データを入力し、前記話
者適応標準パターンとの比較により単語検出データを出
力することを特徴とする請求項１記載の音声認識対話処
理方法。
【請求項４】音声入力手段により入力された音声を分
析して音声特徴データを発生する音声分析工程と、この音声分析工程からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
工程と、特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、前記不特定話者単語データ出力工程から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録工程から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、特定
話者の単語登録を行う際に外部からの設定データを受け
て各種制御を行う音声認識会話制御工程と、前記外部からの設定データとして応答データ作成に関す
る設定入力があった場合、前記音声認識会話制御工程か
らの指示を受けて、入力された音声信号に基づいた応答
データを作成する応答データ登録工程と、予め装置に登録されている応答データまたは前記応答デ
ータ登録工程により作成された応答データのうち、前記
音声認識会話制御工程により決定された応答データに基
づいた音声合成出力を発生する音声合成工程と、この音声合成工程からの音声合成出力を外部に出力する
音声出力工程と、を有することを特徴とする音声認識対話処理方法。
【請求項５】音声を入力する音声入力手段と、前記音声入力手段により入力された音声を分析して音声
特徴データを発生する音声分析手段と、この音声分析手段からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
手段と、特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録手段と、特定話者の単語登録を行う際にデータ入力設定を行うデ
ータ入力設定手段と、前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、予め登録された応答内容を記憶する応答データ記憶手段
と、この応答データ記憶手段に記憶された応答内容のうち、
前記音声認識会話制御手段により決定された応答内容に
基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、を有することを特徴とする音声認識対話装置。
【請求項６】前記特定話者単語登録手段は、特定話者
の入力音声を基にＤＰマッチングによる単語検出データ
を出力するものであって、音声分析部からの特定話者の
所定の音声入力に対する特徴データを入力して標準パタ
ーンを作成する単語登録手段、この単語登録手段により
作成された標準パターンを記憶する標準パターン記憶手
段、前記音声分析手段からの特定話者の所定の音声入力
に対する特徴データを入力し、前記標準パターンとの比
較により単語検出データを出力する単語検出手段を有し
たことを特徴とする請求項５記載の音声認識対話装置。
【請求項７】前記特定話者単語登録手段は、特定話者
の入力音声から前記不特定話者の標準音声特徴データを
基に話者適応した標準音声パターンを作成する単語登録
手段、この単語登録手段により作成された話者適応され
た標準パターンを記憶する話者適応標準パターン記憶手
段を少なくとも有し、前記音声分析手段からの特定話者
の所定の音声入力に対する特徴データを入力し、前記話
者適応標準パターンとの比較により単語検出データを出
力することを特徴とする請求項５記載の音声認識対話装
置。
【請求項８】音声を入力する音声入力手段と、前記音声入力手段により入力された音声を分析して音声
特徴データを発生する音声分析手段と、この音声分析手段からの音声特徴データを入力し、予め
登録された認識可能な単語に対する不特定話者の標準音
声特徴データを基に、入力音声に含まれる登録単語に対
応した検出データを出力する不特定話者単語データ出力
手段と、特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録手段と、特定話者の単語登録を行う際にデータ入力設定を行うデ
ータ入力設定手段と、前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、前記データ入力設定手段から応答データ作成に関する設
定入力があった場合、前記音声認識会話制御手段からの
指示を受けて、入力された音声信号に基づいた応答デー
タを作成する応答データ登録手段と、予め装置に登録された応答内容を記憶する応答データ記
憶手段と、前記応答データ登録手段により作成された応答内容を記
憶する応答データ記憶手段と、前記予め装置に登録されている応答データまたは前記応
答データ登録手段により作成された応答データのうち、
前記音声認識会話制御手段により決定された応答データ
に基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、を有することを特徴とする音声認識対話装置。