WO2006093092A1

WO2006093092A1 - 会話システムおよび会話ソフトウェア

Info

Publication number: WO2006093092A1
Application number: PCT/JP2006/303613
Authority: WO
Inventors: Mikio Nakano; Hiroshi Okuno; Kazunori Komatani
Original assignee: Honda Motor Co., Ltd.
Priority date: 2005-02-28
Filing date: 2006-02-27
Publication date: 2006-09-08
Also published as: DE112006000225T5; JP4950024B2; DE112006000225B4; US20080065371A1; JPWO2006093092A1

Abstract

　ユーザの発話と、認識された発話との齟齬をより適当に解消しながら、当該ユーザと会話しうるシステム等を提供する。　本発明の会話システム１００によれば、認識された発話に含まれているｉ次入力言語単位ｘi（ｉ＝１，２，‥）に関連するｉ次出力言語単位ｙkiに基づき、ユーザの真意を問うｉ次質問Ｑiが生成される。当該ｉ次質問Ｑiに対するユーザの回答として認識されたｉ次回答Ａiに基づき、該ユーザの真意とｉ次入力言語単位ｘiとの整合および不整合が判別される。

Description

会話システムおよび会話ソフトウェア

技術分野

本発明は、ユーザの発話を認識し、かつ、ユーザに対して発話を出力するシステム、およびユーザとの会話に必要な機能をコンピュータに付与するソフトウェアに関する

背景技術

[0002] ユーザおよびシステムの会話に際して、周辺雑音等の諸原因によって、システムによるユーザの発話認識に誤り（聞き誤り）が生じる可能性がある。このため、システムにお、てユーザの発話内容を確認するための発話を出力する技術が提案されて、る ( たとえば、特開 2002— 351492号公報参照)。当該システムによれば、単語の「属性」「属性値」および「属性値間距離」が定義され、共通の属性を有しながら属性値が異なり、かつ、当該属性値の偏差 (属性値間距離)が閾値以上となるような複数の単語が同一のユーザとの会話中に認識された場合、当該単語を確認するための発話が出力される。

[0003] しかし、前記システムによれば、聞き誤りが生じた場合、属性値間距離が不適当に評価される場合がある。このため、ユーザが「A」と発話したにもかかわらず、システムがユーザの発話は「A」と音響的に近、「B」であると認識して、ると、う齟齬が解消されな、まま、会話が進行してしまう可能性があった。

[0004] そこで、本発明は、ユーザの発話と、認識された発話との齟齬をより適当に解消しながら、当該ユーザと会話しうるシステム、および当該会話機能をコンピュータに対して付与するソフトウェアを提供することを解決課題とする。

発明の開示

[0005] 前記課題を解決するための本発明の会話システムは、ユーザの発話を認識する第 1発話部と、発話を出力する第 2発話部とを備えている会話システムであって、第 1発話部により認識された発話に含まれている 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索可能であることを要件として、 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して 1次出力言語単位として認識する第 1処理部と、第 1処理部により認識された 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話部に出力させ、当該 1次質問に対するユーザの回答として第 1発話部により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不整合を判別する第 2処理部とを備えていることを特徴とする。

[0006] 第 1発話部により認識された発話に含まれている「1次入力言語単位」に音響的に類似する言語単位が第 1辞書 DBから検索されうる場合、 1次入力言語単位ではなく他の言語単位がユーザの発話に含まれていた可能性がある。すなわち、この場合、第 1発話部が 1次入力言語単位について聴き違えをした可能性が多少なりともある。この点に鑑みて 1次入力言語単位に関連する「1次出力言語単位」が第 2辞書 DBから検索される。

[0007] また、 1次出力言語単位に応じた「1次質問」が生成されて出力される。そして、 1次質問に対するユーザの発話として認識された「1次回答」に基づき、当該ユーザの真意と 1次入力言語単位との整合および不整合が判別される。これにより、ユーザの発話 (真意)と、システムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザとシステムとの会話が可能となる。

[0008] なお「言語単位」とは、文字、単語、複数の単語より構成される文章、短い文章より構成される長!ゝ文章等を意味する。

[0009] また、本発明の会話システムは、第 1処理部が複数の 1次出力言語単位を認識し、第 2処理部が、第 1処理部により認識された複数の 1次出力言語単位のそれぞれの、認識難易度を表す因子に基づき、該複数の 1次出力言語単位から 1つを選定し、当該選定した 1次出力言語単位に基づいて 1次質問を生成することを特徴とする。

[0010] 本発明の会話システムによれば、複数の 1次出力言語単位の中から、認識難易度を表す因子に基づき 1次出力言語単位が選定されるので、当該選定された 1次出力言語単位のユーザにとっての認識を容易にすることができる。これにより、ユーザの真意と 1次入力言語単位との整合および不整合を判別する観点から適当な 1次質問が生成される。

[0011] さらに、本発明の会話システムは、第 2処理部が、第 1処理部により認識された複数の 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複数の 1次出力言語単位から 1つを選定することを特徴とする。

[0012] 本発明の会話システムによれば、当該選定された 1次出力言語単位のユーザにとつての観念的または音響的な認識を容易にすることができる。これにより、ユーザの真意と 1次入力言語単位との整合および不整合の別を確認する観点から適当な 1次質問が生成される。

[0013] また、本発明の会話システムは、第 2処理部が 1次入力言語単位と、第 1処理部により認識された複数の 1次出力言語単位のそれぞれとの音響距離に基づき、該複数の 1次出力言語単位から 1つを選定することを特徴とする。

[0014] 本発明の会話システムによれば、複数の 1次出力言語単位の中から、 1次入力言語単位との音響距離に基づき 1次出力言語単位が選定されるので、当該選定された 1次出力言語単位の 1次入力言語単位とのユーザにとっての聴覚的な識別を容易にすることができる。

[0015] さらに、本発明の会話システムは、第 1処理部が、 1次入力言語単位とこれに音響的に類似する言語単位との相違部分を含む第 1種言語単位と、当該相違部分の本来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系において当該相違部分に対応する言語単位の読み方を表す第 3種言語単位と、当該相違部分に含まれる 1つの音素を表す第 4種言語単位と、 1次入力言語単位と概念的に類似する第 5種言語単位とのうち一部または全部を 1次出力言語単位として認識することを特徴とする。

[0016] また、本発明の会話システムは、第 1処理部が、第 k種言語単位群 (k= 1〜5)から複数の言語単位を 1次出力言語単位として認識することを特徴とする。

[0017] 本発明の会話システムによれば、 1次質問の生成基礎である 1次出力言語単位の選択肢の幅が広げられるので、ユーザの真意および 1次入力言語単位の整合および不整合を判別する観点から最適な 1次質問が生成されうる。

[0018] さらに、本発明の会話システムは、第 2処理部によりユーザの真意と i次入力言語単位 (i= l, 2, · ·)とが整合していないと判定された場合、第 1処理部が、 i次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索して i+ 1次入力言語単位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して i+ 1次出力言語単位として認識し、第 2処理部が、第 1処理部により認識された i

+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1次質問を生成して第 2発話部に出力させ、当該 i+ 1次質問に対するユーザの回答として第 1発話部により認識された i+ 1次回答に基づき、該ユーザの真意と i+ 1次入力言語単位との整合および不整合を判別する特徴とする。

[0019] 本発明の会話システムによれば、第 1発話部により認識された発話に含まれている i 次入力言語単位に音響的に類似する言語単位としての「i+ 1次入力言語単位」がュ一ザの発話に含まれていた可能性があることに鑑みて、 i+ 1次入力言語単位に関連する「i+ l次出力言語単位」が第 2辞書 DBから検索される。また、 i+ 1次出力言語単位に基づいて「i+ l次質問」が生成されて出力される。そして、 i+ 1次質問に対するユーザの発話として認識された「i+ l次回答」に基づき、当該ユーザの真意と _i+ i 次入力言語単位との整合および不整合が判別される。このように、複数回にわたってユーザの真意を問うための質問が当該ユーザに向けて投げかけられる。これにより、ユーザの発話 (真意)とシステムにおいて認識された発話との齟齬をさらに確実に抑制しながら、当該ユーザとシステムとの会話が可能となる。

[0020] また、本発明の会話システムは、第 1処理部が複数の i+ 1次出力言語単位を認識し、第 2処理部が、第 1処理部により認識された複数の i+ 1次出力言語単位のそれぞれの認識難易度を表す因子に基づき、複数の i+ 1次出力言語単位から 1つを選定し、当該選定した i+ 1次出力言語単位に基づいて i+ 1次質問を生成することを特徴とする。

[0021] 本発明の会話システムによれば、複数の i+ 1次出力言語単位の中から、認識難易度を表す因子に基づき i+ 1次出力言語単位が選定されるので、当該選定された i+ 1次出力言語単位のユーザにとっての認識を容易にすることができる。これにより、ュ一ザの真意と i+ 1次入力言語単位との整合および不整合を判別する観点から適当な i+ 1次質問が生成される。 [0022] さらに、本発明の会話システムは、第 2処理部が、 i+ 1次出力言語単位の観念的な認識難易度、もしくは所定範囲における出現頻度を表す第 1因子、および音響的な認識難易度、もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2 因子のうち一方または両方に基づき、複数の i+ 1次出力言語単位から 1つを選定することを特徴とする。

[0023] 本発明の会話システムによれば、当該選定された i+ 1次出力言語単位のユーザにとっての観念的または音響的な認識を容易にすることができる。これにより、ユーザの真意と i+ 1次入力言語単位との整合および不整合を判別する観点から適当な i+ 1 次質問が生成される。

[0024] また、本発明の会話システムは、第 2処理部が第 1処理部により認識された複数の i

+ 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複数の i+ 1次出力言語単位から 1つを選定することを特徴とする。

[0025] 本発明の会話システムによれば、複数の i+ 1次出力言語単位の中から、 i次入力言語単位との音響距離に基づき i+ 1次出力言語単位が選定されうるので、当該選定された i+ 1次出力言語単位の i次入力言語単位との音響的な識別を容易にすることができる。さらに、複数の i+ 1次出力言語単位の中から、 i+ 1次入力言語単位との音響距離に基づき i+ 1次出力言語単位が選定されうるので、当該選定された i+ 1次出力言語単位の i+ 1次入力言語単位との音響的な識別を容易にすることができる。

[0026] さらに、本発明の会話システムは、第 1処理部が、 i+ 1次入力言語単位およびこれに音響的に類似する言語単位の相違部分を含む第 1種言語単位と、当該相違部分の本来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系にお!/、て当該相違部分に対応する言語単位の読み方を表す第 3種言語単位と、当該相違部分に含まれる 1つの音素を表す第 4種言語単位と、 i+ 1次入力言語単位と概念的に類似する第 5種言語単位とのうち、一部または全部を 2次出力言語単位として認識することを特徴とする。

[0027] また、本発明の会話システムは、第 1処理部が、第 k種言語単位群 (k= 1〜5)から複数の言語単位を i+ 1次出力言語単位として認識することを特徴とする。

[0028] 本発明の会話システムによれば、 i+ 1次質問の生成基礎としての i+ 1次出力言語単位の選択肢の幅が広げられるので、ユーザの先の発話と i+ 1次入力言語単位との整合および不整合を判別する観点力最適な i+ 1次質問が生成されうる。

[0029] さらに、本発明の会話システムは、第 2処理部によりユーザの真意と j次入力言語単位 (j≥ 2)とが整合していないと判定された場合、第 2処理部が、ユーザの再度の発話を促す質問を生成して、これを第 2発話部に出力させることを特徴とする。

[0030] 本発明の会話システムによれば、逐次出力される質問によってはユーザの真意が確認できな、ような場合、あらためてその真意を確認することができる。

[0031] 前記課題を解決するための本発明の会話ソフトウェアは、ユーザの発話を認識する第 1発話機能と、発話を出力する第 2発話機能とを有するコンピュータの記憶機能に格納される会話ソフトウェアであって、第 1発話機能により認識された発話に含まれている 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索可能であることを要件として、 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して 1次出力言語単位として認識する第 1処理機能と、第 1処理機能により認識された 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話機能によって出力し、当該 1次質問に対するユーザの回答として第 1発話部により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不整合を判別する第 2処理機能とを前記コンピュータに付与することを特徴とする。

[0032] 本発明の会話ソフトウェアによれば、ユーザの発話ほたはその真意)と、システムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザと会話する機能が当該コンピュータに付与される。

[0033] また、本発明の会話ソフトウェアは、第 2処理機能によりユーザの真意と i次入力言語単位 (i= l, 2, · ·)とが整合していないと判定された場合、第 1処理機能として、 i 次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索して i+ 1次入力言語単位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 D Bから検索して i+ 1次出力言語単位として認識する機能と、第 2処理機能として、第 1 処理機能により認識された i+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1 次質問を生成して第 2発話機能に出力させ、当該 i+ 1次質問に対するユーザの回答として第 1発話機能により認識された i+ 1次回答に基づき、該ユーザの真意と i+ 1 次入力言語単位との整合および不整合を判別する機能とを前記コンピュータに対して付与することを特徴とする。

[0034] 本発明の会話ソフトウェアによれば、ユーザの真意を問う質問が複数回にわたって生成する機能が前記コンピュータに対して付与される。したがって、当該ユーザの真意をより正確に把握し、ユーザの発話とシステムにおいて認識された発話との齟齬をより確実に抑制しながら、当該ユーザと会話する機能が当該コンピュータに付与される。

発明を実施するための最良の形態

[0035] 本発明の会話システムおよび会話ソフトウェアの実施形態について図面を用いて説明する。

[0036] 図 1は本発明の会話システムの構成例示図であり、図 2は本発明の会話システムおよび会話ソフトウェアの機能例示図である。

[0037] 図 1に示されて、る会話システム（以下「システム」 t 、う。） 100は、自動車に搭載されたナビゲーシヨンシステム (ナビシステム） 10に組み込まれた、ハードウェアとしてのコンピュータと、当該コンピュータのメモリに格納された本発明の「会話ソフトウェア」とにより構成されている。

[0038] 会話システム 10は、第 1発話部 101と、第 2発話部 102と、第 1処理部 111と、第 2 処理部 112と、第 1辞書 DB121と、第 2辞書 DB122とを備えている。

[0039] 第 1発話部 101は、マイクロフォン（図示略)等により構成され、入力音声に基づいて隠れマルコフモデル法等、公知の手法にしたがってユーザの発話を認識する。

[0040] 第 2発話部 102は、スピーカ（図示略)等により構成され、音声 (または発話)を出力する。

[0041] 第 1処理部 111は、第 1発話部 101により認識された発話に含まれている 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DB121から検索可能であることを要件として 1次入力言語単位に関連する複数種類の言語単位を第 2辞書 DB122 力検索して 1次出力言語単位として認識する。さらに、第 1処理部 111は、後述するように必要に応じてより高次の出力言語単位を認識する。

[0042] 第 2処理部 112は、 1次入力言語単位に基づき、第 1処理部 111により認識された複数種類の 1次出力言語単位の中から 1つを選定する。また、第 2処理部 112は、選定した 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話部 102に出力させる。さらに、第 2処理部 112は、当該 1次質問に対するユーザの回答として第 1発話部 101により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不整合を判別する。また、第 2処理部 112は、後述するように必要に応じてより高次の質問を生成し、かつ、高次の回答に基づいてユーザの真意を確認する。

[0043] 第 1辞書 DB121は、第 1処理部 111により i+ 1次入力言語単位 (i= l, 2, · ·)として認識されうる複数の言語単位を記憶保持して!/、る。

[0044] 第 2辞書 DB122は、第 1処理部 111により i次出力言語単位として認識されうる複数の言語単位を記憶保持して!/ヽる。

[0045] 前記構成のシステム 10の機能について、図 2を用いて説明する。

[0046] まず、ユーザが目的地設定のためにナビシステム 10を操作したことに応じて、第 2 発話部 102が「目的地はどこです力」という初期発話を出力する（図 2ZS1)。初期発話に応じてユーザが目的地を表す単語を口にすると、第 1発話部 101がこの発話を認識する（図 2ZS2)。このとき、入力言語単位、出力言語単位、質問および回答の次数を表す指数 iが「1」に設定される (図 2ZS3)。

[0047] また、第 1処理部 111が、第 1発話部 101により認識された発話を言語単位列に変換し、この言語単位列から第 1辞書 DB 121にお、て「地域名称」や「建築物名称」等に分類されてヽる言語単位を抽出して i次入力言語単位 Xとして認識する（図 2ZS4 )。言語単位列力抽出される言語単位の分類は、ナビ装置 1がユーザにその目的地までの案内ルートを提示すると、つたドメインに基づ、て、る。

[0048] さらに、第 1処理部 111が、 i次入力言語単位 Xと音響的に類似する言語単位を第 1 辞書 DB121から検索可能であるか否か、すなわち、当該音響類似単語が第 1辞書 DB121に記憶されているか否かを判定する（図 2ZS5)。ここで、言語単位 X.および Xが音響的に類似するとは、次式 (1)によって定義される音響距離 pd (x , X )が閾値 ε未満であることを意味する。

[0049] pd (x , X )

= ed (x , x) /ln[min ( | x. | , | χ | ) + 1] · · (1)

式（1)において I X Iは言語単位 Xに含まれている音素（または音韻）の数である。音素とは、 1つの言語で用いられる音を弁別機能の見地カゝら規定された最小単位を意味する。

[0050] また、 ed (X , X )は言語単位 Xおよび Xの編集距離であり、言語単位 xの音素列を言語単位 Xの音素列に変換するための音素の挿入、削除、置換に際して、モーラ（日本語の発音の最小単位を意味する。）または音素の数が変化する場合のコストを「 1」、モーラや音素の数が変化しない場合のコストを「2」として、 DPマッチングにより求められる。

[0051] 第 1処理部 111は i次入力言語単位 Xに音響的に類似する言語単位が第 1辞書 DB

121に登録されていると判定した場合（図 2ZS5- - YES)、 i次入力言語単位 Xに関連する複数種類の i次出力言語単位 y =y

ki k i）&= 1〜5)を第2辞書0 122から検索する（図 2ZS6)。

[0052] 具体的には、第 1処理部 111は i次入力言語単位 _X;における当該音響類似言語単位 zとの相違部分 δ = δ (χ , ζ )を含む言語単位を第 2辞書 DB122から検索して、第 1種の i次出力言語単位 y =y (x)として認識する。たとえば i次入力言語単位 xが

li 1 i i

「Boston」 t ヽぅ地名を表す単語であり、音響類似言語単位 zが「Austin」とヽぅ地名を表す単語である場合、相違部分 δとして i次入力言語単位 Xの頭文字である「b」が抽出される。また、この相違部分 δを含む言語単位として「bravo」が検索される。

[0053] また、第 1処理部 111は当該相違部分 δの読み方 (本来の読み方) ρ =ρ ( δ )と

i li 1 i 異なる読み方 p =ρ ( δ )を第 2辞書 DB122から検索して、第 2種の i次出力言語単

2i 2 i

位 y =y (x)として認識する。たとえば、日本語では、大半の漢字に「音読み」および

2i 2 i

「訓読み」という異なる読み方が存在する。このため、相違部分 δである漢字「銀」の本来の読み方が音読み「ギン」である場合、その訓読み「シロガネ」が第 2種の i次出力言語単位 yとして認識される。

2i

[0054] さらに、第 1処理部 111は他の言語単位において当該相違部分 δを意味する言語単位 f=f ( δ _;)の読み方 p (f)を第 2辞書 DB122から検索して、第 3種の i次出力言語単位 y =y (x)として認識する。たとえば日本語における漢字「銀」が相違部分 δで

3i 3 i i ある場合、当該漢字を意味する英単語「3^ 」の読み方「シルバー」が第 3種の i次出力言語単位 yとして認識される。

3i

[0055] また、第 1処理部 111は当該相違部分 δの読み方 ρ ( δ )が複数のモーラ (または音素）により構成されている場合、その中から先頭モーラ等、 1つのモーラを表す音素文字、またはモーラを説明する文章を第 2辞書 DB122から検索し、第 4種の i次出力言語単位 y =y (x)として認識する。たとえば、日本語における漢字「西」が相違

4i 4 i

部分 δである場合、その読み方 ρ ( δ )「二シ」のうち最初のモーラ文字「二」が第 4種の i次出力言語単位 yとして認識される。また、日本語のモーラには、清音、半濁音（

4i

子音: P)および濁音 (子音: g, z, d, b)という区分があるので、この区分を表す「清音」「半濁音」または「濁音」という単語が第 4種の i次出力言語単位 yとして認識される。

4i

[0056] さらに、第 1処理部 111は i次入力言語単位 Xと概念的に関連する言語単位を第 2 辞書 DB122から検索して、第 5種の i次出力言語単位 y =y (x)として認識する。た

5i 5 i

とえば、 i次入力言語単位 Xにより表される目的地を包含する地域を表す言語単位（地名） g=g (x)が第 5種の i次出力言語単位 yとして認識される。

i 5i

[0057] なお、第 k種の i次出力言語単位として、複数の言語単位が認識されてもよ!、。たとえば、当該相違部分 δが漢字「金」である場合、「故事成語」に分類される「沈黙は金」と、う文章、および「著名人の名称」に分類される「金參 X」という名称がともに第 1種の i次出力言語単位 yとして認識されてもよい。

li

[0058] 一方、第 1処理部 111は i次入力言語単位 Xに音響的に類似する言語単位が第 1 辞書 DB121に登録されていないと判定した場合（図 2ZS5 - ·ΝΟ)、 i次入力言語単位 Xがユーザの目的地名称を特定する言語単位であるという推定に応じた次の処理が実行される。これにより、たとえば第 2発話部 102が「それでは、目的地 Xまでのル一トをご案内いたします」等の発話を出力する。また、ナビシステム 10が、 i次入力言語単位 Xにより特定される目的地までのルートの設定処理を実行する。

[0059] 続いて、第 2処理部 112が、第 1処理部 111によって認識された第 1〜第 5種の i次出力言語単位 yの中から 1つを選定する（図 2ZS7)。 [0060] 具体的には、第 2処理部 112は各種の i次出力言語単位 yについて、次式（2)にし ki

たがって 1次指数 score (y )を算出し、この i次指数 score (y )が最大の i次出力言

1 ki 1 ki

語単位 y

kiを選定する。

[0061] score (y )

=W - c (y ) +W - c (y ) +W -pd (x， y ) ,

1 1 kl 2 2 kl 3 1 kl

score (y )

=W - c (y ) +W - c (y ) +W -pd (x , y )

1 1 ki+1 2 2 ki+1 3 i ki+1

+W -pd (y , y ) - . (2)

4 ki ki+1

式（2)において、 W〜Wは重み係数である。 c (y )は第 k種の i次出力言語単位 y

1 4 1 ki

の

ki 観念的な認識難易度 (なじみやすさ）を表す第 1因子である。第 1因子としては、 i 次出力言語単位 yをキーとしたときのインターネット検索エンジンのヒット数や、主要 ki

新聞や放送等のマスメディアにおける出現頻度等が採用される。また、 c (y )

2 kiは第 k 種の i次出力言語単位 y

kiの音響的な認識難易度 (発音一意性、ききわけやすさ)を表す第 2因子である。第 2因子としては、たとえば所定数 (たとえば 10)の他の言語単位 (同音異義語など)との音響距離の最小平均値が採用される。 pd (x, y)は、式 (1)で定義される、言語単位 Xおよび yの音響距離である。

[0062] 続いて、第 2処理部 112が、選定した 1つの i次出力言語単位 yに基づき、ユーザ ki

の真意を問う i次質問 Q =Q (y )を生成して、第 2発話部 102に出力させる（図 2ZS8

) o

[0063] たとえば、第 1種の i次出力言語単位 yが選定されたことに応じて「目的地名称には li

yに含まれる δという文字が含まれます力」等の i次質問 Qが生成される。この i次質 li i i

問 Qは前記相違部分 δ iを通じて、 i次入力言語単位 (たとえば、発話に含まれていた地名や建築物名称) Xの認識の正誤を間接的にユーザに確認するための質問である。

[0064] また、第 2種の i次出力言語単位 yが選定されたことに応じて「目的地名称には pと li 2i 読まれる（または発音される）文字が含まれてヽますカゝ」等の i次質問 Qが生成される。この i次質問 Qは相違部分 δの本来の読み方 ρとは異なる読み方 ρを通じて、 i次 i i li 2i

入力言語単位の認識の正誤を間接的にユーザに確認するための質問である。 [0065] さらに、第 3種の i次出力言語単位 yが選定されたことに応じて「目的地名称には外

li

国語 (たとえば、日本語から見た英語)で pを意味する δという文字が含まれています力」等の i次質問 Q_;が生成される。この i次質問 Qは他の言語単位において当該相違部分 δを意味する言語単位 f = f ( δ )の読み方 p (f)を通じて、 i次入力言語単位 Xの認識の正誤を間接的にユーザに確認するための質問である。

[0066] また、第 4種の i次出力言語単位 yが選定されたことに応じて「目的地名称には- - li

番目に p ( δ )と発音される文字が含まれて！/ヽますか」等の i次質問 Qが生成される。この i次質問 Qは相違部分 δの読み方 ρ ( δ )の中の 1つのモーラを表すモーラを表す文字、またはモーラを説明する文章を通じて、 i次入力言語単位 Xの認識の正誤を間接的にユーザに確認するための質問である。

[0067] さらに、第 5種の i次出力言語単位 yが選定されたことに応じて「目的地は gに含ま

li

れています力」等の i次質問 Qが生成される。この i次質問 Q_;は、 i次入力言語単位 x_;と概念的に関連する言語単位を通じて、 i次入力言語単位 Xの認識の正誤を間接的にユーザに確認するための質問である。

[0068] さらに、第 1発話部 101が、 i次質問 Q_;に対するユーザの発話として i次回答 Aを認識する（図 2ZS9)。また、第 2処理部 112が、 i次回答 Aが「はい」のように肯定的なものであるか、または「、、え」のように否定的なものであるかを判定する（図 2ZS10)

[0069] そして、第 2処理部 112により i次回答 Aが肯定的であると判定された場合（図 2ZS 10 · -YES)、 i次入力言語単位 Xがユーザの目的地名称を特定する言語単位である t 、う推定に応じた次の処理が実行される。

[0070] 一方、第 2処理部 112により i次回答 Aが否定的であると判定された場合（図 2ZS1 0· ·ΝΟ)、指数 iが所定数 j (>2)未満であるという条件が満たされている力否かが判定される（図 2ZS11)。そして、当該条件が満たされている場合（図 2ZS11 - - YES )、指数 iが 1だけ増加され（図 2ZS12)、その上で前記の S4〜S10の処理が繰り返される。この際、第 1処理部 111は、 i 1次入力言語単位 X (i≥2)に音響的に類似

i-1

する言語単位を第 1辞書 DB121から検索して、 i次入力言語単位 Xとして認識する。なお、 i次入力言語単位 Xとして、 i 1次入力言語単位 X の音響類似言語単位 z が

i i-1 i-1 認識されてもよい。また、当該条件が満たされていない場合 (図 2ZS11 - ·ΝΟ)、第 2発話部 102があらためて初期発話を出力する（図 2ZS1)等、ユーザとの会話が振り出しに戻ってやり直される。

[0071] 前記機能を発揮する会話システム 100 (および会話ソフトウェア）によれば、それぞれの i次出力言語単位 yについて、観念的な認識難易度を表す第 1因子 c、および

ki 1

音響的な認識難易度を表す第 2因子 c等に基づき、複数種類の i次出力言語単位 y

2 ki の中から 1つが選定される（図 2ZS6, S7)₀また、選定された 1つの i次出力言語単位 yに基づき i次質問 Qが生成される（図 2ZS8)。これにより、ユーザの真意と i次入 ki i

力言語単位 χ_;の整合および不整合を判別する観点から最適な i次質問 Qが生成されうる。また、ユーザの真意とシステムの認識とに齟齬があると判定された場合、さらなる質問が生成される（図 2ZS10' NO, S4〜S10)。したがって、ユーザの発話 (真意 )と、システム 100において認識された発話との齟齬を確実に抑制しながら、当該ユーザとシステム 100との会話が可能となる。

[0072] さらに、ユーザの真意と j次入力言語単位 (j≥ 2)とが整合していないと判定された場合、ユーザの再度の発話を促す初期質問が生成される（図 2ZS11 ' ·ΝΟ, Sl)。これにより、逐次出力される質問によってはユーザの真意が確認できないような場合、あらためてその真意を確認することができる。

[0073] 前記処理にしたがったユーザおよび会話システム 100の第 1の会話例を次に示す。 Uはユーザの発話を表し、 Sは会話システム 100の発話を表している。

(第 1の会話例）

S：目的地はどこですか。

0

[0074] U：金閣寺です。

0

[0075] S：目的地名称に英語でシルバーを意味する「銀」と!、う文字が含まれて!/、ますか

[0076] U：いいえ。

1

[0077] S：では、目的地名称に「沈黙は金」における「金」と!、う文字が含まれて!/、ます力

[0078] U：は! [0079] S：それでは金閣寺までのルートを案内いたします。

3

[0080] システム 100の発話 Sは初期質問に該当する（図 2ZS1)。

0

[0081] システム 100の発話 Sは 1次質問 Qに該当する（図 2ZS8)。この 1次質問 Qは、 1

1 1 1 次入力言語単位 X

1として「金閣寺」ではなく「銀閣寺」が認識 (誤認)されたこと（図 2Z

S4)、音響類似言語単位 zとして「金閣寺」が認識されたこと（図 2ZS5)、 2つの言語

1

単位 Xおよび zの相違部分 δ である漢字「銀」に関連する 5種類の

1 1 1 1次出力言語単位 y 〜y が認識されたこと（図 2ZS6)、および第 3種の 1次出力言語単位 y として

11 51 31 当該相違部分 δ を表す英単語「

1 silver」の日本語における読み方「シルバー」が選定されたこと（図 2ZS7)に応じて生成されたものである。

[0082] システム 100の発話 Sは 2次質問 Qに該当する（図 2ZS8)。この 2次質問 Qは、 1

2 2 2 次回答 Aとして認識されたユーザの発話 Uが否定的なものであったこと（図 2ZS10

1 1

- · NO)、 2次入力言語単位 Xとして「金閣寺」が認識されたこと（図

2 2ZS4)、音響類似言語単位 zとして「銀閣寺」が認識されたこと（図 2ZS5)、 2つの言語単位 Xおよ

2 2 び zの相違部分 δ である漢字「金」に関連する 5種類の 2次出力言語単位 y 〜y が

2 2 12 52 認識されたこと（図 2ZS6)、および第 1種の 2次出力言語単位 y として当該相違部

12

分 δ を含む故事成語「沈黙は金」が選定されたこと（図 2ZS7)に応じて生成された

2

ものである。

[0083] 2次回答 Αとして認識されたユーザの発話 Uが肯定的なものであったことに応じて

2 2

(図 2ZS10' -YES)、ユーザの目的地が金閣寺であるという判断に応じて、システム 100から発話 Uが出力される。

4

[0084] これにより、ユーザの目的地が「金閣寺」である一方、システム 100により認識された目的地が「銀閣寺」であるといった齟齬が生じたまま、ユーザおよびシステム 100の会話が進行する事態が回避される。すなわち、システム 100は、ユーザの目的地が金閣寺であることを正確に認識することができる。そして、ナビシステム 10は、システム 1 00の当該認識に基づき、金閣寺までの案内ルートの設定等、ユーザの真意に鑑みて適切な処理を実行することができる。

[0085] さらに、前記処理にしたがったユーザおよびシステム 100の第 2の会話例を次に示す。 (第 2の会話例）

S ： Can vou tell me the departure

o

city ?

U： from Austin.

o

S ： Is the first letter of the city b in "bravo"？

1

U： No.

1

S ： Then is the first letter of the city a m alpha"？

2

U： Yes.

2

システム 100の発話 Sは初期質問に該当する（図 2ZS1)。

0

[0086] システム 100の発話 Sは 1次質問 Qに該当する（図 2ZS8)。この 1次質問 Qは、 1

1 1 1 次入力言語単位 Xとして「Austin」ではなく「Boston」が認識 (誤認）されたこと（図 2

1

ZS4)、音響類似言語単位 zとして「Austin」が認識されたこと（図 2ZS5)、

1 2つの言語単位 Xおよび zの相違部分 δ である英文字「b」に関連する 5種類の 1次出力言

1 1 1

語単位 y 〜y が認識されたこと（図 2ZS6)、および第 1種の 1次出力言語単位 y と

11 51 11 して当該相違部分 δ を表す英単語「

1 bra_VO」が選定されたこと（図 2ZS 7)に応じて生成されたものである。

[0087] システム 100の発話 Sは 2次質問 Qに該当する（図 2ZS8)。この 2次質問 Qは、 1

2 2 2 次回答 Aとして認識されたユーザの発話 Uが否定的なものであったこと（図

1 1 2ZS10

- · NO)、 2次入力言語単位 Xとして「Austin」が認識されたこと（図 2ZS4)、音響類

2

似言語単位 zとして「Boston」が認識されたこと（図 2ZS5)、 2つの言語単位 Xおよ

2 2 び zの相違部分 δ である英文字「a」に関連する 5種類の 2次出力言語単位 y 〜y

2 2 12 52 が認識されたこと（図 2ZS6)、および第 1種の 2次出力言語単位 y として当該相違

12

部分 δ を含む英単語「alpha」が選定されたこと（図 2ZS7)に応じて生成されたもの

2

である。

[0088] 2次回答 Aとして認識されたユーザの発話 Uが肯定的なものであったことに応じて

2 2

(図 2ZS10' -YES)、ユーザの目的地が Austinであるという判断に応じて、システム 100から発話が出力される。

[0089] これにより、ユーザの目的地が「Austin」である一方、システム 100により認識された目的地が「Boston」であると、つた齟齬が生じたまま、ユーザおよびシステム 100 の会話が進行する事態が回避される。すなわち、システム 100は、ユーザの目的地が Austinであることを正確に認識することができる。そして、ナビシステム 10は、システム 100の当該認識に基づき、 Austinまでの案内ルートの設定等、ユーザの真意に鑑みて適切な処理を実行することができる。

図面の簡単な説明

[図 1]本発明の会話システムの構成例示図。

[図 2]本発明の会話システムおよび会話ソフトウェアの機能例示図。

Claims

請求の範囲

[1] ユーザの発話を認識する第 1発話部と、発話を出力する第 2発話部とを備えている会話システムであって、

第 1発話部により認識された発話に含まれている 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索可能であることを要件として、 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して 1次出力言語単位として認識する第 1処理部と、

第 1処理部により認識された 1次出力言語単位に基づき、ユーザの真意を問う 1次質問を生成して第 2発話部に出力させ、当該 1次質問に対するユーザの回答として第 1発話部により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不整合を判別する第 2処理部とを備えていることを特徴とする会話システム。

[2] 第 1処理部が複数の 1次出力言語単位を認識し、

第 2処理部が、第 1処理部により認識された複数の 1次出力言語単位のそれぞれの

、認識難易度を表す因子に基づき、該複数の 1次出力言語単位から 1つを選定し、当該選定した 1次出力言語単位に基づいて 1次質問を生成することを特徴とする請求項 1記載の会話システム。

[3] 第 2処理部が、第 1処理部により認識された複数の 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複数の 1次出力言語単位から 1つを選定することを特徴とする請求項 2記載の会話システム。

[4] 第 2処理部が 1次入力言語単位と、第 1処理部により認識された複数の 1次出力言語単位のそれぞれとの音響距離に基づき、該複数の 1次出力言語単位から 1つを選定することを特徴とする請求項 2記載の会話システム。

[5] 第 1処理部が、

1次入力言語単位とこれに音響的に類似する言語単位との相違部分を含む第 1種言語単位と、当該相違部分の本来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系にお、て当該相違部分に対応する言語単位の読み方を表す第 3種言語単位と、

当該相違部分に含まれる 1つの音素を表す第 4種言語単位と、

1次入力言語単位と概念的に類似する第 5種言語単位とのうち、一部または全部を 1次出力言語単位として認識することを特徴とする請求項 2記載の会話システム。

[6] 第 1処理部が、第 k種言語単位群 (k= l〜5)から複数の言語単位を 1次出力言語単位として認識することを特徴とする請求項 5記載の会話システム。

[7] 第 2処理部によりユーザの真意と i次入力言語単位 (i= l, 2, · · )とが整合していないと判定された場合、

第 1処理部が、 i次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索して i+ 1次入力言語単位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して i+ 1次出力言語単位として認識し、

第 2処理部が、第 1処理部により認識された i+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1次質問を生成して第 2発話部に出力させ、当該 i+ 1次質問に対するユーザの回答として第 1発話部により認識された i+ 1次回答に基づき、該ユーザの真意と i+ 1次入力言語単位との整合および不整合を判別する特徴とする請求項 1記載の会話システム。

[8] 第 1処理部が複数の i+ 1次出力言語単位を認識し、

第 2処理部が、第 1処理部により認識された複数の i+ 1次出力言語単位のそれぞれの認識難易度を表す因子に基づき、複数の i+ 1次出力言語単位から 1つを選定し、当該選定した i+ 1次出力言語単位に基づいて i+ 1次質問を生成することを特徴とする請求項 7記載の会話システム。

[9] 第 2処理部が、第 1処理部により認識された複数の i+ 1次出力言語単位のそれぞれの観念的な認識難易度もしくは所定範囲における出現頻度を表す第 1因子、および音響的な認識難易度もしくは所定数の他の言語単位との音響距離の最低平均値を表す第 2因子のうち一方または両方に基づき、該複数の i+ 1次出力言語単位から 1つを選定することを特徴とする請求項 8記載の会話システム。

[10] 第 2処理部が i次入力言語単位と第 1処理部により認識された複数の i+ 1次出力言語単位のそれぞれとの音響距離、および i+ 1次入力言語単位と魏複数の i+ 1次出力言語単位との音響距離のうち一方または両方に基づき、該複数の i+ 1次出力言語単位から 1つを選定することを特徴とする請求項 7記載の会話システム。

[11] 第 1処理部が、

i+ 1次入力言語単位およびこれに音響的に類似する言語単位の相違部分を含む第 1種言語単位と、

当該相違部分の本来の読み方と異なる読み方を表す第 2種言語単位と、他の言語体系にお、て当該相違部分に対応する言語単位の読み方を表す第 3種言語単位と、

i+ 1次入力言語単位と概念的に類似する第 5種言語単位とのうち、一部または全部を 2次出力言語単位として認識することを特徴とする請求項 8記載の会話システム

[12] 第 1処理部が、第 k種言語単位群 (k= 1〜5)力複数の言語単位を i+ 1次出力言語単位として認識することを特徴とする請求項 9記載の会話システム。

[13] 第 2処理部によりユーザの真意と j次入力言語単位 (j≥ 2)とが整合して、な、と判定された場合、

第 2処理部が、ユーザの再度の発話を促す質問を生成して、これを第 2発話部に出力させることを特徴とする請求項 7記載の会話システム。

[14] ユーザの発話を認識する第 1発話機能と、発話を出力する第 2発話機能とを有するコンピュータの記憶機能に格納される会話ソフトウェアであって、

第 1発話機能により認識された発話に含まれている 1次入力言語単位に音響的に類似する言語単位を第 1辞書 DBから検索可能であることを要件として、 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して 1次出力言語単位として認識する第 1処理機能と、

第 1処理機能により認識された 1次出力言語単位に基づき、ユーザの真意を問う 1 次質問を生成して第 2発話機能によって出力し、当該 1次質問に対するユーザの回答として第 1発話部により認識された 1次回答に基づき、該ユーザの真意と 1次入力言語単位との整合および不整合を判別する第 2処理機能とを前記コンピュータに付与することを特徴とする会話ソフトウェア。

第 2処理機能によりユーザの真意と i次入力言語単位 (i= l, 2, · ·)とが整合していないと判定された場合、

第 1処理機能として、 i次入力言語単位に音響的に類似する言語単位を第 1辞書 D Bカゝら検索して i+ 1次入力言語単位として認識し、 i+ 1次入力言語単位に関連する言語単位を第 2辞書 DBから検索して i+ 1次出力言語単位として認識する機能と、第 2処理機能として、第 1処理機能により認識された i+ 1次出力言語単位に基づき、ユーザの真意を問う i+ 1次質問を生成して第 2発話機能に出力させ、当該 i+ 1次質問に対するユーザの回答として第 1発話機能により認識された i+ 1次回答に基づき、該ユーザの真意と i+ 1次入力言語単位との整合および不整合を判別する機能とを前記コンピュータに対して付与することを特徴とする請求項 14記載の会話ソフトゥエア。