会話システムおよび会話ソフトウェア
技術分野
本発明は、ユーザの発話を認識し、かつ、ユーザに対して発話を出力するシステム 、およびユーザとの会話に必要な機能をコンピュータに付与するソフトウェアに関する
背景技術
[0002] ユーザおよびシステムの会話に際して、周辺雑音等の諸原因によって、システムに よるユーザの発話認識に誤り(聞き誤り)が生じる可能性がある。このため、システムに お 、てユーザの発話内容を確認するための発話を出力する技術が提案されて 、る ( たとえば、特開 2002— 351492号公報参照)。当該システムによれば、単語の「属性 」「属性値」および「属性値間距離」が定義され、共通の属性を有しながら属性値が異 なり、かつ、当該属性値の偏差 (属性値間距離)が閾値以上となるような複数の単語 が同一のユーザとの会話中に認識された場合、当該単語を確認するための発話が 出力される。
[0003] しかし、前記システムによれば、聞き誤りが生じた場合、属性値間距離が不適当に 評価される場合がある。このため、ユーザが「A」と発話したにもかかわらず、システム がユーザの発話は「A」と音響的に近 、「B」であると認識して 、ると 、う齟齬が解消さ れな 、まま、会話が進行してしまう可能性があった。
[0004] そこで、本発明は、ユーザの発話と、認識された発話との齟齬をより適当に解消し ながら、当該ユーザと会話しうるシステム、および当該会話機能をコンピュータに対し て付与するソフトウェアを提供することを解決課題とする。
発明の開示
[0005] 前記課題を解決するための本発明の会話システムは、ユーザの発話を認識する第 1発話部と、発話を出力する第 2発話部とを備えている会話システムであって、第 1発 話部により認識された発話に含まれている 1次入力言語単位に音響的に類似する言 語単位を第 1辞書 DBから検索可能であることを要件として、 1次入力言語単位に関
連する言語単位を第 2辞書 DBから検索して 1次出力言語単位として認識する第 1処 理部と、第 1処理部により認識された 1次出力言語単位に基づき、ユーザの真意を問 う 1次質問を生成して第 2発話部に出力させ、当該 1次質問に対するユーザの回答と して第 1発話部により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語 単位との整合および不整合を判別する第 2処理部とを備えていることを特徴とする。
[0006] 第 1発話部により認識された発話に含まれている「1次入力言語単位」に音響的に 類似する言語単位が第 1辞書 DBから検索されうる場合、 1次入力言語単位ではなく 他の言語単位がユーザの発話に含まれていた可能性がある。すなわち、この場合、 第 1発話部が 1次入力言語単位について聴き違えをした可能性が多少なりともある。 この点に鑑みて 1次入力言語単位に関連する「1次出力言語単位」が第 2辞書 DBか ら検索される。
[0007] また、 1次出力言語単位に応じた「1次質問」が生成されて出力される。そして、 1次 質問に対するユーザの発話として認識された「1次回答」に基づき、当該ユーザの真 意と 1次入力言語単位との整合および不整合が判別される。これにより、ユーザの発 話 (真意)と、システムにおいて認識された発話との齟齬をより確実に抑制しながら、 当該ユーザとシステムとの会話が可能となる。
[0008] なお「言語単位」とは、文字、単語、複数の単語より構成される文章、短い文章より 構成される長!ゝ文章等を意味する。
[0009] また、本発明の会話システムは、第 1処理部が複数の 1次出力言語単位を認識し、 第 2処理部が、第 1処理部により認識された複数の 1次出力言語単位のそれぞれの、 認識難易度を表す因子に基づき、該複数の 1次出力言語単位から 1つを選定し、当 該選定した 1次出力言語単位に基づいて 1次質問を生成することを特徴とする。
[0010] 本発明の会話システムによれば、複数の 1次出力言語単位の中から、認識難易度 を表す因子に基づき 1次出力言語単位が選定されるので、当該選定された 1次出力 言語単位のユーザにとっての認識を容易にすることができる。これにより、ユーザの 真意と 1次入力言語単位との整合および不整合を判別する観点から適当な 1次質問 が生成される。
[0011] さらに、本発明の会話システムは、第 2処理部が、第 1処理部により認識された複数
の 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における 出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単 位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複 数の 1次出力言語単位から 1つを選定することを特徴とする。
[0012] 本発明の会話システムによれば、当該選定された 1次出力言語単位のユーザにと つての観念的または音響的な認識を容易にすることができる。これにより、ユーザの 真意と 1次入力言語単位との整合および不整合の別を確認する観点から適当な 1次 質問が生成される。
[0013] また、本発明の会話システムは、第 2処理部が 1次入力言語単位と、第 1処理部に より認識された複数の 1次出力言語単位のそれぞれとの音響距離に基づき、該複数 の 1次出力言語単位から 1つを選定することを特徴とする。
[0014] 本発明の会話システムによれば、複数の 1次出力言語単位の中から、 1次入力言 語単位との音響距離に基づき 1次出力言語単位が選定されるので、当該選定された 1次出力言語単位の 1次入力言語単位とのユーザにとっての聴覚的な識別を容易に することができる。
[0015] さらに、本発明の会話システムは、第 1処理部が、 1次入力言語単位とこれに音響 的に類似する言語単位との相違部分を含む第 1種言語単位と、当該相違部分の本 来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系において当該相 違部分に対応する言語単位の読み方を表す第 3種言語単位と、当該相違部分に含 まれる 1つの音素を表す第 4種言語単位と、 1次入力言語単位と概念的に類似する 第 5種言語単位とのうち一部または全部を 1次出力言語単位として認識することを特 徴とする。
[0016] また、本発明の会話システムは、第 1処理部が、第 k種言語単位群 (k= 1〜5)から 複数の言語単位を 1次出力言語単位として認識することを特徴とする。
[0017] 本発明の会話システムによれば、 1次質問の生成基礎である 1次出力言語単位の 選択肢の幅が広げられるので、ユーザの真意および 1次入力言語単位の整合およ び不整合を判別する観点から最適な 1次質問が生成されうる。
[0018] さらに、本発明の会話システムは、第 2処理部によりユーザの真意と i次入力言語単
位 (i= l, 2, · ·)とが整合していないと判定された場合、第 1処理部が、 i次入力言語 単位に音響的に類似する言語単位を第 1辞書 DBから検索して i+ 1次入力言語単 位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索 して i+ 1次出力言語単位として認識し、第 2処理部が、第 1処理部により認識された i
+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1次質問を生成して第 2発話 部に出力させ、当該 i+ 1次質問に対するユーザの回答として第 1発話部により認識 された i+ 1次回答に基づき、該ユーザの真意と i+ 1次入力言語単位との整合および 不整合を判別する特徴とする。
[0019] 本発明の会話システムによれば、第 1発話部により認識された発話に含まれている i 次入力言語単位に音響的に類似する言語単位としての「i+ 1次入力言語単位」がュ 一ザの発話に含まれていた可能性があることに鑑みて、 i+ 1次入力言語単位に関連 する「i+ l次出力言語単位」が第 2辞書 DBから検索される。また、 i+ 1次出力言語 単位に基づいて「i+ l次質問」が生成されて出力される。そして、 i+ 1次質問に対す るユーザの発話として認識された「i+ l次回答」に基づき、当該ユーザの真意と i+ i 次入力言語単位との整合および不整合が判別される。このように、複数回にわたって ユーザの真意を問うための質問が当該ユーザに向けて投げかけられる。これにより、 ユーザの発話 (真意)とシステムにおいて認識された発話との齟齬をさらに確実に抑 制しながら、当該ユーザとシステムとの会話が可能となる。
[0020] また、本発明の会話システムは、第 1処理部が複数の i+ 1次出力言語単位を認識 し、第 2処理部が、第 1処理部により認識された複数の i+ 1次出力言語単位のそれ ぞれの認識難易度を表す因子に基づき、複数の i+ 1次出力言語単位から 1つを選 定し、当該選定した i+ 1次出力言語単位に基づいて i+ 1次質問を生成することを特 徴とする。
[0021] 本発明の会話システムによれば、複数の i+ 1次出力言語単位の中から、認識難易 度を表す因子に基づき i+ 1次出力言語単位が選定されるので、当該選定された i+ 1次出力言語単位のユーザにとっての認識を容易にすることができる。これにより、ュ 一ザの真意と i+ 1次入力言語単位との整合および不整合を判別する観点から適当 な i+ 1次質問が生成される。
[0022] さらに、本発明の会話システムは、第 2処理部が、 i+ 1次出力言語単位の観念的な 認識難易度、もしくは所定範囲における出現頻度を表す第 1因子、および音響的な 認識難易度、もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2 因子のうち一方または両方に基づき、複数の i+ 1次出力言語単位から 1つを選定す ることを特徴とする。
[0023] 本発明の会話システムによれば、当該選定された i+ 1次出力言語単位のユーザに とっての観念的または音響的な認識を容易にすることができる。これにより、ユーザの 真意と i+ 1次入力言語単位との整合および不整合を判別する観点から適当な i+ 1 次質問が生成される。
[0024] また、本発明の会話システムは、第 2処理部が第 1処理部により認識された複数の i
+ 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における 出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単 位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複 数の i+ 1次出力言語単位から 1つを選定することを特徴とする。
[0025] 本発明の会話システムによれば、複数の i+ 1次出力言語単位の中から、 i次入力言 語単位との音響距離に基づき i+ 1次出力言語単位が選定されうるので、当該選定さ れた i+ 1次出力言語単位の i次入力言語単位との音響的な識別を容易にすることが できる。さらに、複数の i+ 1次出力言語単位の中から、 i+ 1次入力言語単位との音 響距離に基づき i+ 1次出力言語単位が選定されうるので、当該選定された i+ 1次出 力言語単位の i+ 1次入力言語単位との音響的な識別を容易にすることができる。
[0026] さらに、本発明の会話システムは、第 1処理部が、 i+ 1次入力言語単位およびこれ に音響的に類似する言語単位の相違部分を含む第 1種言語単位と、当該相違部分 の本来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系にお!/、て当 該相違部分に対応する言語単位の読み方を表す第 3種言語単位と、当該相違部分 に含まれる 1つの音素を表す第 4種言語単位と、 i+ 1次入力言語単位と概念的に類 似する第 5種言語単位とのうち、一部または全部を 2次出力言語単位として認識する ことを特徴とする。
[0027] また、本発明の会話システムは、第 1処理部が、第 k種言語単位群 (k= 1〜5)から
複数の言語単位を i+ 1次出力言語単位として認識することを特徴とする。
[0028] 本発明の会話システムによれば、 i+ 1次質問の生成基礎としての i+ 1次出力言語 単位の選択肢の幅が広げられるので、ユーザの先の発話と i+ 1次入力言語単位と の整合および不整合を判別する観点力 最適な i+ 1次質問が生成されうる。
[0029] さらに、本発明の会話システムは、第 2処理部によりユーザの真意と j次入力言語単 位 (j≥ 2)とが整合していないと判定された場合、第 2処理部が、ユーザの再度の発 話を促す質問を生成して、これを第 2発話部に出力させることを特徴とする。
[0030] 本発明の会話システムによれば、逐次出力される質問によってはユーザの真意が 確認できな 、ような場合、あらためてその真意を確認することができる。
[0031] 前記課題を解決するための本発明の会話ソフトウェアは、ユーザの発話を認識する 第 1発話機能と、発話を出力する第 2発話機能とを有するコンピュータの記憶機能に 格納される会話ソフトウェアであって、第 1発話機能により認識された発話に含まれて いる 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索可能で あることを要件として、 1次入力言語単位に関連する言語単位を第 2辞書 DBから検 索して 1次出力言語単位として認識する第 1処理機能と、第 1処理機能により認識さ れた 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話 機能によって出力し、当該 1次質問に対するユーザの回答として第 1発話部により認 識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不 整合を判別する第 2処理機能とを前記コンピュータに付与することを特徴とする。
[0032] 本発明の会話ソフトウェアによれば、ユーザの発話ほたはその真意)と、システムに おいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザと会話する機 能が当該コンピュータに付与される。
[0033] また、本発明の会話ソフトウェアは、第 2処理機能によりユーザの真意と i次入力言 語単位 (i= l, 2, · ·)とが整合していないと判定された場合、第 1処理機能として、 i 次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索して i+ 1次 入力言語単位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 D Bから検索して i+ 1次出力言語単位として認識する機能と、第 2処理機能として、第 1 処理機能により認識された i+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1
次質問を生成して第 2発話機能に出力させ、当該 i+ 1次質問に対するユーザの回 答として第 1発話機能により認識された i+ 1次回答に基づき、該ユーザの真意と i+ 1 次入力言語単位との整合および不整合を判別する機能とを前記コンピュータに対し て付与することを特徴とする。
[0034] 本発明の会話ソフトウェアによれば、ユーザの真意を問う質問が複数回にわたって 生成する機能が前記コンピュータに対して付与される。したがって、当該ユーザの真 意をより正確に把握し、ユーザの発話とシステムにおいて認識された発話との齟齬を より確実に抑制しながら、当該ユーザと会話する機能が当該コンピュータに付与され る。
発明を実施するための最良の形態
[0035] 本発明の会話システムおよび会話ソフトウェアの実施形態について図面を用いて 説明する。
[0036] 図 1は本発明の会話システムの構成例示図であり、図 2は本発明の会話システムお よび会話ソフトウェアの機能例示図である。
[0037] 図 1に示されて 、る会話システム(以下「システム」 t 、う。) 100は、自動車に搭載さ れたナビゲーシヨンシステム (ナビシステム) 10に組み込まれた、ハードウェアとしての コンピュータと、当該コンピュータのメモリに格納された本発明の「会話ソフトウェア」と により構成されている。
[0038] 会話システム 10は、第 1発話部 101と、第 2発話部 102と、第 1処理部 111と、第 2 処理部 112と、第 1辞書 DB121と、第 2辞書 DB122とを備えている。
[0039] 第 1発話部 101は、マイクロフォン(図示略)等により構成され、入力音声に基づい て隠れマルコフモデル法等、公知の手法にしたがってユーザの発話を認識する。
[0040] 第 2発話部 102は、スピーカ(図示略)等により構成され、音声 (または発話)を出力 する。
[0041] 第 1処理部 111は、第 1発話部 101により認識された発話に含まれている 1次入力 言語単位に音響的に類似する言語単位を第 1辞書 DB121から検索可能であること を要件として 1次入力言語単位に関連する複数種類の言語単位を第 2辞書 DB122 力 検索して 1次出力言語単位として認識する。さらに、第 1処理部 111は、後述する
ように必要に応じてより高次の出力言語単位を認識する。
[0042] 第 2処理部 112は、 1次入力言語単位に基づき、第 1処理部 111により認識された 複数種類の 1次出力言語単位の中から 1つを選定する。また、第 2処理部 112は、選 定した 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話 部 102に出力させる。さらに、第 2処理部 112は、当該 1次質問に対するユーザの回 答として第 1発話部 101により認識された 1次回答に基づき、該ユーザの真意と 1次 入力言語単位との整合および不整合を判別する。また、第 2処理部 112は、後述す るように必要に応じてより高次の質問を生成し、かつ、高次の回答に基づいてユーザ の真意を確認する。
[0043] 第 1辞書 DB121は、第 1処理部 111により i+ 1次入力言語単位 (i= l, 2, · ·)とし て認識されうる複数の言語単位を記憶保持して!/、る。
[0044] 第 2辞書 DB122は、第 1処理部 111により i次出力言語単位として認識されうる複 数の言語単位を記憶保持して!/ヽる。
[0045] 前記構成のシステム 10の機能について、図 2を用いて説明する。
[0046] まず、ユーザが目的地設定のためにナビシステム 10を操作したことに応じて、第 2 発話部 102が「目的地はどこです力」という初期発話を出力する(図 2ZS1)。初期発 話に応じてユーザが目的地を表す単語を口にすると、第 1発話部 101がこの発話を 認識する(図 2ZS2)。このとき、入力言語単位、出力言語単位、質問および回答の 次数を表す指数 iが「1」に設定される (図 2ZS3)。
[0047] また、第 1処理部 111が、第 1発話部 101により認識された発話を言語単位列に変 換し、この言語単位列から第 1辞書 DB 121にお 、て「地域名称」や「建築物名称」等 に分類されて ヽる言語単位を抽出して i次入力言語単位 Xとして認識する(図 2ZS4 )。言語単位列力 抽出される言語単位の分類は、ナビ装置 1がユーザにその目的 地までの案内ルートを提示すると 、つたドメインに基づ 、て 、る。
[0048] さらに、第 1処理部 111が、 i次入力言語単位 Xと音響的に類似する言語単位を第 1 辞書 DB121から検索可能であるか否か、すなわち、当該音響類似単語が第 1辞書 DB121に記憶されているか否かを判定する(図 2ZS5)。ここで、言語単位 X.および Xが音響的に類似するとは、次式 (1)によって定義される音響距離 pd (x , X )が閾値
ε未満であることを意味する。
[0049] pd (x , X )
= ed (x , x) /ln[min ( | x. | , | χ | ) + 1] · · (1)
式(1)において I X Iは言語単位 Xに含まれている音素(または音韻)の数である。 音素とは、 1つの言語で用いられる音を弁別機能の見地カゝら規定された最小単位を 意味する。
[0050] また、 ed (X , X )は言語単位 Xおよび Xの編集距離であり、言語単位 xの音素列を 言語単位 Xの音素列に変換するための音素の挿入、削除、置換に際して、モーラ( 日本語の発音の最小単位を意味する。)または音素の数が変化する場合のコストを「 1」、モーラや音素の数が変化しない場合のコストを「2」として、 DPマッチングにより求 められる。
[0051] 第 1処理部 111は i次入力言語単位 Xに音響的に類似する言語単位が第 1辞書 DB
121に登録されていると判定した場合(図 2ZS5- - YES)、 i次入力言語単位 Xに関 連する複数種類の i次出力言語単位 y =y
ki k i)&= 1〜5)を第2辞書0 122から 検索する(図 2ZS6)。
[0052] 具体的には、第 1処理部 111は i次入力言語単位 X;における当該音響類似言語単 位 zとの相違部分 δ = δ (χ , ζ )を含む言語単位を第 2辞書 DB122から検索して、 第 1種の i次出力言語単位 y =y (x)として認識する。たとえば i次入力言語単位 xが
li 1 i i
「Boston」 t ヽぅ地名を表す単語であり、音響類似言語単位 zが「Austin」と ヽぅ地名 を表す単語である場合、相違部分 δとして i次入力言語単位 Xの頭文字である「b」が 抽出される。また、この相違部分 δを含む言語単位として「bravo」が検索される。
[0053] また、第 1処理部 111は当該相違部分 δの読み方 (本来の読み方) ρ =ρ ( δ )と
i li 1 i 異なる読み方 p =ρ ( δ )を第 2辞書 DB122から検索して、第 2種の i次出力言語単
2i 2 i
位 y =y (x)として認識する。たとえば、日本語では、大半の漢字に「音読み」および
2i 2 i
「訓読み」という異なる読み方が存在する。このため、相違部分 δである漢字「銀」の 本来の読み方が音読み「ギン」である場合、その訓読み「シロガネ」が第 2種の i次出 力言語単位 yとして認識される。
2i
[0054] さらに、第 1処理部 111は他の言語単位において当該相違部分 δを意味する言語
単位 f=f ( δ ;)の読み方 p (f)を第 2辞書 DB122から検索して、第 3種の i次出力言語 単位 y =y (x)として認識する。たとえば日本語における漢字「銀」が相違部分 δで
3i 3 i i ある場合、当該漢字を意味する英単語「3^ 」の読み方「シルバー」が第 3種の i次 出力言語単位 yとして認識される。
3i
[0055] また、第 1処理部 111は当該相違部分 δの読み方 ρ ( δ )が複数のモーラ (または 音素)により構成されている場合、その中から先頭モーラ等、 1つのモーラを表す音 素文字、またはモーラを説明する文章を第 2辞書 DB122から検索し、第 4種の i次出 力言語単位 y =y (x)として認識する。たとえば、日本語における漢字「西」が相違
4i 4 i
部分 δである場合、その読み方 ρ ( δ )「二シ」のうち最初のモーラ文字「二」が第 4種 の i次出力言語単位 yとして認識される。また、日本語のモーラには、清音、半濁音(
4i
子音: P)および濁音 (子音: g, z, d, b)という区分があるので、この区分を表す「清音 」「半濁音」または「濁音」という単語が第 4種の i次出力言語単位 yとして認識される。
4i
[0056] さらに、第 1処理部 111は i次入力言語単位 Xと概念的に関連する言語単位を第 2 辞書 DB122から検索して、第 5種の i次出力言語単位 y =y (x)として認識する。た
5i 5 i
とえば、 i次入力言語単位 Xにより表される目的地を包含する地域を表す言語単位( 地名) g=g (x)が第 5種の i次出力言語単位 yとして認識される。
i 5i
[0057] なお、第 k種の i次出力言語単位として、複数の言語単位が認識されてもよ!、。たと えば、当該相違部分 δが漢字「金」である場合、「故事成語」に分類される「沈黙は金 」と 、う文章、および「著名人の名称」に分類される「金參 X」という名称がともに第 1種 の i次出力言語単位 yとして認識されてもよい。
li
[0058] 一方、第 1処理部 111は i次入力言語単位 Xに音響的に類似する言語単位が第 1 辞書 DB121に登録されていないと判定した場合(図 2ZS5 - ·ΝΟ)、 i次入力言語単 位 Xがユーザの目的地名称を特定する言語単位であるという推定に応じた次の処理 が実行される。これにより、たとえば第 2発話部 102が「それでは、目的地 Xまでのル 一トをご案内いたします」等の発話を出力する。また、ナビシステム 10が、 i次入力言 語単位 Xにより特定される目的地までのルートの設定処理を実行する。
[0059] 続いて、第 2処理部 112が、第 1処理部 111によって認識された第 1〜第 5種の i次 出力言語単位 yの中から 1つを選定する(図 2ZS7)。
[0060] 具体的には、第 2処理部 112は各種の i次出力言語単位 yについて、次式(2)にし ki
たがって 1次指数 score (y )を算出し、この i次指数 score (y )が最大の i次出力言
1 ki 1 ki
語単位 y
kiを選定する。
[0061] score (y )
=W - c (y ) +W - c (y ) +W -pd (x, y ) ,
1 1 kl 2 2 kl 3 1 kl
score (y )
=W - c (y ) +W - c (y ) +W -pd (x , y )
1 1 ki+1 2 2 ki+1 3 i ki+1
+W -pd (y , y ) - . (2)
4 ki ki+1
式(2)において、 W〜Wは重み係数である。 c (y )は第 k種の i次出力言語単位 y
1 4 1 ki
の
ki 観念的な認識難易度 (なじみやすさ)を表す第 1因子である。第 1因子としては、 i 次出力言語単位 yをキーとしたときのインターネット検索エンジンのヒット数や、主要 ki
新聞や放送等のマスメディアにおける出現頻度等が採用される。また、 c (y )
2 kiは第 k 種の i次出力言語単位 y
kiの音響的な認識難易度 (発音一意性、ききわけやすさ)を表 す第 2因子である。第 2因子としては、たとえば所定数 (たとえば 10)の他の言語単位 (同音異義語など)との音響距離の最小平均値が採用される。 pd (x, y)は、式 (1)で 定義される、言語単位 Xおよび yの音響距離である。
[0062] 続いて、第 2処理部 112が、選定した 1つの i次出力言語単位 yに基づき、ユーザ ki
の真意を問う i次質問 Q =Q (y )を生成して、第 2発話部 102に出力させる(図 2ZS8
) o
[0063] たとえば、第 1種の i次出力言語単位 yが選定されたことに応じて「目的地名称には li
yに含まれる δという文字が含まれます力」等の i次質問 Qが生成される。この i次質 li i i
問 Qは前記相違部分 δ iを通じて、 i次入力言語単位 (たとえば、発話に含まれていた 地名や建築物名称) Xの認識の正誤を間接的にユーザに確認するための質問であ る。
[0064] また、第 2種の i次出力言語単位 yが選定されたことに応じて「目的地名称には pと li 2i 読まれる(または発音される)文字が含まれて ヽますカゝ」等の i次質問 Qが生成される 。この i次質問 Qは相違部分 δの本来の読み方 ρとは異なる読み方 ρを通じて、 i次 i i li 2i
入力言語単位 の認識の正誤を間接的にユーザに確認するための質問である。
[0065] さらに、第 3種の i次出力言語単位 yが選定されたことに応じて「目的地名称には外
li
国語 (たとえば、日本語から見た英語)で pを意味する δという文字が含まれています 力」等の i次質問 Q;が生成される。この i次質問 Qは他の言語単位において当該相違 部分 δを意味する言語単位 f = f ( δ )の読み方 p (f)を通じて、 i次入力言語単位 Xの 認識の正誤を間接的にユーザに確認するための質問である。
[0066] また、第 4種の i次出力言語単位 yが選定されたことに応じて「目的地名称には- - li
番目に p ( δ )と発音される文字が含まれて!/ヽますか」等の i次質問 Qが生成される。こ の i次質問 Qは相違部分 δの読み方 ρ ( δ )の中の 1つのモーラを表すモーラを表す 文字、またはモーラを説明する文章を通じて、 i次入力言語単位 Xの認識の正誤を間 接的にユーザに確認するための質問である。
[0067] さらに、第 5種の i次出力言語単位 yが選定されたことに応じて「目的地は gに含ま
li
れています力」等の i次質問 Qが生成される。この i次質問 Q;は、 i次入力言語単位 x;と 概念的に関連する言語単位を通じて、 i次入力言語単位 Xの認識の正誤を間接的に ユーザに確認するための質問である。
[0068] さらに、第 1発話部 101が、 i次質問 Q;に対するユーザの発話として i次回答 Aを認 識する(図 2ZS9)。また、第 2処理部 112が、 i次回答 Aが「はい」のように肯定的なも のであるか、または「 、 、え」のように否定的なものであるかを判定する(図 2ZS10)
[0069] そして、第 2処理部 112により i次回答 Aが肯定的であると判定された場合(図 2ZS 10 · -YES)、 i次入力言語単位 Xがユーザの目的地名称を特定する言語単位である t 、う推定に応じた次の処理が実行される。
[0070] 一方、第 2処理部 112により i次回答 Aが否定的であると判定された場合(図 2ZS1 0· ·ΝΟ)、指数 iが所定数 j (>2)未満であるという条件が満たされている力否かが判 定される(図 2ZS11)。そして、当該条件が満たされている場合(図 2ZS11 - - YES )、指数 iが 1だけ増加され(図 2ZS12)、その上で前記の S4〜S10の処理が繰り返 される。この際、第 1処理部 111は、 i 1次入力言語単位 X (i≥2)に音響的に類似
i-1
する言語単位を第 1辞書 DB121から検索して、 i次入力言語単位 Xとして認識する。 なお、 i次入力言語単位 Xとして、 i 1次入力言語単位 X の音響類似言語単位 z が
i i-1 i-1
認識されてもよい。また、当該条件が満たされていない場合 (図 2ZS11 - ·ΝΟ)、第 2発話部 102があらためて初期発話を出力する(図 2ZS1)等、ユーザとの会話が振 り出しに戻ってやり直される。
[0071] 前記機能を発揮する会話システム 100 (および会話ソフトウェア)によれば、それぞ れの i次出力言語単位 yについて、観念的な認識難易度を表す第 1因子 c、および
ki 1
音響的な認識難易度を表す第 2因子 c等に基づき、複数種類の i次出力言語単位 y
2 ki の中から 1つが選定される(図 2ZS6, S7)0また、選定された 1つの i次出力言語単 位 yに基づき i次質問 Qが生成される(図 2ZS8)。これにより、ユーザの真意と i次入 ki i
力言語単位 χ;の整合および不整合を判別する観点から最適な i次質問 Qが生成され うる。また、ユーザの真意とシステムの認識とに齟齬があると判定された場合、さらなる 質問が生成される(図 2ZS10' NO, S4〜S10)。したがって、ユーザの発話 (真意 )と、システム 100において認識された発話との齟齬を確実に抑制しながら、当該ユー ザとシステム 100との会話が可能となる。
[0072] さらに、ユーザの真意と j次入力言語単位 (j≥ 2)とが整合していないと判定された 場合、ユーザの再度の発話を促す初期質問が生成される(図 2ZS11 ' ·ΝΟ, Sl)。 これにより、逐次出力される質問によってはユーザの真意が確認できないような場合 、あらためてその真意を確認することができる。
[0073] 前記処理にしたがったユーザおよび会話システム 100の第 1の会話例を次に示す 。 Uはユーザの発話を表し、 Sは会話システム 100の発話を表している。
(第 1の会話例)
S: 目的地はどこですか。
0
[0074] U: 金閣寺です。
0
[0075] S: 目的地名称に英語でシルバーを意味する「銀」と!、う文字が含まれて!/、ますか
[0076] U: いいえ。
1
[0077] S: では、目的地名称に「沈黙は金」における「金」と!、う文字が含まれて!/、ます力
[0078] U: は!
[0079] S: それでは金閣寺までのルートを案内いたします。
3
[0080] システム 100の発話 Sは初期質問に該当する(図 2ZS1)。
0
[0081] システム 100の発話 Sは 1次質問 Qに該当する(図 2ZS8)。この 1次質問 Qは、 1
1 1 1 次入力言語単位 X
1として「金閣寺」ではなく「銀閣寺」が認識 (誤認)されたこと(図 2Z
S4)、音響類似言語単位 zとして「金閣寺」が認識されたこと(図 2ZS5)、 2つの言語
1
単位 Xおよび zの相違部分 δ である漢字「銀」に関連する 5種類の
1 1 1 1次出力言語単 位 y 〜y が認識されたこと(図 2ZS6)、および第 3種の 1次出力言語単位 y として
11 51 31 当該相違部分 δ を表す英単語「
1 silver」の日本語における読み方「シルバー」が選 定されたこと(図 2ZS7)に応じて生成されたものである。
[0082] システム 100の発話 Sは 2次質問 Qに該当する(図 2ZS8)。この 2次質問 Qは、 1
2 2 2 次回答 Aとして認識されたユーザの発話 Uが否定的なものであったこと(図 2ZS10
1 1
- · NO)、 2次入力言語単位 Xとして「金閣寺」が認識されたこと(図
2 2ZS4)、音響類 似言語単位 zとして「銀閣寺」が認識されたこと(図 2ZS5)、 2つの言語単位 Xおよ
2 2 び zの相違部分 δ である漢字「金」に関連する 5種類の 2次出力言語単位 y 〜y が
2 2 12 52 認識されたこと(図 2ZS6)、および第 1種の 2次出力言語単位 y として当該相違部
12
分 δ を含む故事成語「沈黙は金」が選定されたこと(図 2ZS7)に応じて生成された
2
ものである。
[0083] 2次回答 Αとして認識されたユーザの発話 Uが肯定的なものであったことに応じて
2 2
(図 2ZS10' -YES)、ユーザの目的地が金閣寺であるという判断に応じて、システム 100から発話 Uが出力される。
4
[0084] これにより、ユーザの目的地が「金閣寺」である一方、システム 100により認識された 目的地が「銀閣寺」であるといった齟齬が生じたまま、ユーザおよびシステム 100の会 話が進行する事態が回避される。すなわち、システム 100は、ユーザの目的地が金 閣寺であることを正確に認識することができる。そして、ナビシステム 10は、システム 1 00の当該認識に基づき、金閣寺までの案内ルートの設定等、ユーザの真意に鑑み て適切な処理を実行することができる。
[0085] さらに、前記処理にしたがったユーザおよびシステム 100の第 2の会話例を次に示 す。
(第 2の会話例)
S : Can vou tell me the departure
o
city ?
U: from Austin.
o
S : Is the first letter of the city b in "bravo"?
1
U: No.
1
S : Then is the first letter of the city a m alpha"?
2
U: Yes.
2
システム 100の発話 Sは初期質問に該当する(図 2ZS1)。
0
[0086] システム 100の発話 Sは 1次質問 Qに該当する(図 2ZS8)。この 1次質問 Qは、 1
1 1 1 次入力言語単位 Xとして「Austin」ではなく「Boston」が認識 (誤認)されたこと(図 2
1
ZS4)、音響類似言語単位 zとして「Austin」が認識されたこと(図 2ZS5)、
1 2つの 言語単位 Xおよび zの相違部分 δ である英文字「b」に関連する 5種類の 1次出力言
1 1 1
語単位 y 〜y が認識されたこと(図 2ZS6)、および第 1種の 1次出力言語単位 y と
11 51 11 して当該相違部分 δ を表す英単語「
1 braVO」が選定されたこと(図 2ZS 7)に応じて 生成されたものである。
[0087] システム 100の発話 Sは 2次質問 Qに該当する(図 2ZS8)。この 2次質問 Qは、 1
2 2 2 次回答 Aとして認識されたユーザの発話 Uが否定的なものであったこと(図
1 1 2ZS10
- · NO)、 2次入力言語単位 Xとして「Austin」が認識されたこと(図 2ZS4)、音響類
2
似言語単位 zとして「Boston」が認識されたこと(図 2ZS5)、 2つの言語単位 Xおよ
2 2 び zの相違部分 δ である英文字「a」に関連する 5種類の 2次出力言語単位 y 〜y
2 2 12 52 が認識されたこと(図 2ZS6)、および第 1種の 2次出力言語単位 y として当該相違
12
部分 δ を含む英単語「alpha」が選定されたこと(図 2ZS7)に応じて生成されたもの
2
である。
[0088] 2次回答 Aとして認識されたユーザの発話 Uが肯定的なものであったことに応じて
2 2
(図 2ZS10' -YES)、ユーザの目的地が Austinであるという判断に応じて、システ ム 100から発話が出力される。
[0089] これにより、ユーザの目的地が「Austin」である一方、システム 100により認識され
た目的地が「Boston」であると 、つた齟齬が生じたまま、ユーザおよびシステム 100 の会話が進行する事態が回避される。すなわち、システム 100は、ユーザの目的地 が Austinであることを正確に認識することができる。そして、ナビシステム 10は、シス テム 100の当該認識に基づき、 Austinまでの案内ルートの設定等、ユーザの真意に 鑑みて適切な処理を実行することができる。
図面の簡単な説明
[図 1]本発明の会話システムの構成例示図。
[図 2]本発明の会話システムおよび会話ソフトウェアの機能例示図。