WO2016147342A1

WO2016147342A1 - 情報提供システム

Info

Publication number: WO2016147342A1
Application number: PCT/JP2015/058073
Authority: WO
Inventors: 匠武井; 友紀古本; 知宏成田; 辰彦斉藤
Original assignee: 三菱電機株式会社
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-09-22
Also published as: DE112015006325T5; JP6125138B2; US20170372695A1; CN107408118A; JPWO2016147342A1

Abstract

ディスプレイ（５）の文字表示領域（Ａ１，Ａ２）に表示可能な文字数が規定されている場合、情報提供システムは、提供対象の情報から第一認識対象語を生成すると共に、規定文字数を超える第一認識対象語を当該規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成し、第一認識対象語と第二認識対象語を用いてユーザの発話音声を認識する。

Description

情報提供システム

　この発明は、提供対象の情報に関連するキーワードの中からユーザにより発話されたキーワードに関連する情報を提供する情報提供システムに関するものである。

　従来、配信等で得た情報のうち、ユーザが希望して選択した情報を提供する情報提供装置が知られている。
　例えば、特許文献１に係る情報提供装置は、外部から配信されたコンテンツのテキスト情報を言語解析してキーワードを抽出し、当該キーワードを選択肢として画面表示または音声出力し、ユーザが音声入力によりキーワードを選択するとそのキーワードにリンクされたコンテンツを提供するというものである。

　また、ユーザにより発話された音声に基づいて入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成する辞書データ生成装置が知られている。
　例えば、特許文献２に係る辞書データ生成装置は、キーワードを表示するための表示装置において表示可能なキーワードの文字数を特定し、入力コマンドに対応したテキストデータから前記文字数の範囲内の文字列を抽出してキーワードとして設定し、当該キーワードに対応した音声の特徴量データと入力コマンドに対応した処理内容を特定するための内容データとを対応付けることにより辞書データを作成するというものである。

特開２００４－３３４２８０号公報国際公開第２００６／０９３００３号

　しかしながら、例えば、特許文献１のような従来技術では、キーワードを選択肢としてユーザに画面表示する場合の表示文字数の制約を考慮していない。そのため、画面上に表示可能な文字数が限られている場合、キーワードの一部分しか表示できないことがある。そうすると、ユーザがキーワードを正確に把握できず正しいキーワードを発話できなくなる結果、ユーザが発話により選択しようとしたコンテンツを提供できなくなるという課題があった。

　なお、特許文献１に係る辞書データ生成装置においては、コンテンツから抽出されるキーワードに対して類義関係のある語彙を追加したり、キーワードの一部を削除したりすることを可能としているが、表示文字数の制約を考慮しない単純なキーワードの追加または削除では、上記同様に画面上に表示可能な文字数を超える可能性があり、前述の課題は解消されない。
　特に、外部から配信されたコンテンツを利用する場合には、コンテンツが時々刻々と変化する特徴があり、情報提供装置側ではどのような内容のコンテンツが配信されるか不明であるため、事前に十分な文字表示領域を確保しておくことは難しい。

　また、例えば、特許文献２のような従来技術では、表示可能な文字数を考慮しているものの、品詞単位で文字列を削除して音声認識用のキーワードにしているため、コンテンツを表すための重要な情報が欠落してしまう可能性がある。そうすると、ユーザは、いかなるキーワードを発話した場合にいかなるコンテンツが提示されるかが正確に把握できなくなり、希望するコンテンツにアクセスできなくなる可能性がある。例えば「アメリカ大統領」に関するコンテンツに対し「アメリカ」というキーワードが設定された場合、コンテンツとキーワードとの乖離が発生する。

　特に、コンテンツのテキスト情報を音声出力する場合、ユーザがコンテンツを選択する際に実際に聞き取った音声を利用して発話するはずである。そのため、認識対象語として、音声出力したコンテンツの内容を最もよく表す本来のキーワードだけでなく、本来のキーワードの意味または文字列の少なくとも一方と差異が少ない語も含めておくことが、認識対象語に対するユーザの理解を助けるために有効である。さらに、キーワードを画面表示することを鑑み、仮に文字列削除の影響によりキーワードを誤認して発話した場合でも、ユーザが希望して選択しようとしたコンテンツを提供できるようにすることが有効である。

　この発明は、上記のような課題を解決するためになされたもので、画面に表示可能な文字数が制限される場合においても、ユーザが希望して選択しようとした情報を提供できるようにして操作性および利便性を向上させることを目的とする。

　この発明に係る情報提供システムは、提供対象の情報を情報源から取得する取得部と、取得部が取得した情報から第一認識対象語を生成すると共に、規定文字数を超える第一認識対象語を当該規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成する生成部と、取得部が取得した情報、ならびに生成部が生成した第一認識対象語および第二認識対象語を関連付けて記憶する記憶部と、ユーザの発話音声を認識して認識結果文字列を出力する音声認識部と、生成部が生成した規定文字数以内の文字列からなる第一認識対象語または第二認識対象語を表示部に出力すると共に、音声認識部から出力された認識結果文字列が第一認識対象語または第二認識対象語と一致する場合に関連する情報を記憶部から取得して表示部または音声出力部に出力する制御部とを備えるものである。

　この発明によれば、提供対象の情報から第一認識対象語を生成することに加え、第一認識対象語を規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成するようにしたので、規定文字数以内の文字列からなる第一認識対象語または第二認識対象語を提示されたユーザが当該提示された文字列を誤認して第一認識対象語以外の語を発話した場合でも、第二認識対象語を基に認識が可能になる。そのため、ユーザが希望して選択しようとした情報を提供できるようになり、操作性および利便性が向上する。

この発明の実施の形態１に係る情報提供システムとその周辺機器の概略を説明する図である。実施の形態１に係る情報提供システムによる情報提供方法を説明する図であり、規定文字数が７文字の場合を示す。実施の形態１に係る情報提供システムによる情報提供方法を説明する図であり、規定文字数が５文字の場合を示す。実施の形態１に係る情報提供システムとその周辺機器の主なハードウエア構成を示す概略図である。実施の形態１に係る情報提供システムの構成例を示す機能ブロック図である。記憶部が記憶している第一認識対象語と第二認識対象語とコンテンツの一例を示す図である。実施の形態１に係る情報提供システムの動作を示すフローチャートであり、コンテンツ取得時の動作を示す。実施の形態１に係る情報提供システムの動作を示すフローチャートであり、キーワード提示からコンテンツ提供までの動作を示す。実施の形態１に係る情報提供システムの変形例を示す機能ブロック図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
　なお、以下の実施の形態では、この発明に係る情報提供システムを車両等の移動体に搭載される車載器に適用した場合を例に挙げて説明するが、車載器の他、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、タブレットＰＣ、およびスマートフォン等の携帯情報端末に適用してもよい。

実施の形態１．
　図１は、この発明の実施の形態１に係る情報提供システム１とその周辺機器の概略を説明する図である。
　情報提供システム１は、ネットワーク２を介してサーバ３などの情報源からコンテンツを取得し、コンテンツに関連するキーワードを抽出し、ディスプレイ５に画面表示させることによってキーワードをユーザに提示する。キーワードがユーザによって発話されると、発話音声がマイク６から情報提供システム１に入力される。情報提供システム１は、コンテンツに関連するキーワードから生成した認識対象語を用いて、ユーザにより発話されたキーワードを認識し、認識したキーワードに関連するコンテンツをディスプレイ５に画面表示させたりスピーカ４から音声出力させたりすることによってユーザに提供する。
　このディスプレイ５は表示部であり、スピーカ４は音声出力部である。

　例えば、情報提供システム１が車載器の場合、走行中の表示内容を規制するガイドライン等の存在により、ディスプレイ５の画面上に表示可能な文字数が限られている。情報提供システム１が携帯情報端末の場合にも、ディスプレイ５が小さい、解像度が低い等の理由により表示可能な文字数が限られている。
　以下では、ディスプレイ５の画面上に表示可能な文字数を、「規定文字数」と呼ぶ。

　ここで、図２および図３を用いて、実施の形態１に係る情報提供システム１による情報提供方法の概略を説明する。図２はディスプレイ５の文字表示領域Ａ１，Ａ２に表示可能な規定文字数が７文字の場合を示し、図３は規定文字数が５文字の場合を示す。
　図２および図３のようなニュースの情報をコンテンツとして提供する情報提供システム１を想定する。ニュースの見出しは「アメリカ大統領がＸＸ日に来日」、ニュースの本文は「アメリカの○○大統領がＸＸ日、ＹＹ交渉のため来日する。＜以後略＞」とする。なお、説明の便宜上、ニュース本文の続き部分を＜以後略＞としている。
　このニュースの場合、ニュースの内容を表すキーワードは例えば「アメリカ大統領」になり、認識対象語は例えば「アメリカ大統領（アメリカダイトーリョー）」となる。ここでは、認識対象語の表記と読みを、「表記（読み）」のように記載する。

　図２において、キーワード「アメリカ大統領」は規定文字数７文字以内であるため、情報提供システム１はキーワード「アメリカ大統領」をそのまま文字表示領域Ａ１に表示させる。このキーワード「アメリカ大統領」に対する認識対象語は「アメリカ大統領（アメリカダイトーリョー）」である。ユーザＢが「アメリカ大統領（アメリカダイトーリョー）」と発話すると、情報提供システム１は認識対象語を用いてユーザＢにより発話されたキーワードを認識し、認識したキーワードに関連するニュースの本文「アメリカの○○大統領がＸＸ日、ＹＹ交渉のため来日する。＜以後略＞」をスピーカ４から音声出力させる。情報提供システム１は、音声出力に加えて、または音声出力の代わりに、ニュースの見出しまたはニュースの本文のうちの一部（例えば、冒頭）等をディスプレイ５に表示させてもよい。

　一方、図３では規定文字数が５文字であるため、キーワード「アメリカ大統領」が規定文字数を超える。この場合、情報提供システム１は、キーワードを規定文字数に短縮した文字列「アメリカ大」を文字表示領域Ａ１に表示させる。このキーワード「アメリカ大」に対する認識対象語は、第一認識対象語「アメリカ大統領（アメリカダイトーリョー）」および第二認識対象語「アメリカ大（アメリカダイ）」等である。ユーザＢが「アメリカ大統領（アメリカダイトーリョー）」または「アメリカ大（アメリカダイ）」と発話すると、情報提供システム１は認識対象語を用いてユーザＢにより発話されたキーワードを認識し、図２の場合と同様に認識したキーワードに関連するニュースの本文を音声出力または画面表示させる。

　なお、図２および図３の例では、キーワードを表示する領域を文字表示領域Ａ１，Ａ２の二つとしたが、文字表示領域は二つに限定されるものではない。

　図４は、実施の形態１における情報提供システム１とその周辺機器の主なハードウエア構成を示す概略図である。バス１００には、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０３、入力装置１０４、通信装置１０５、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１０６、出力装置１０７が接続されている。

　ＣＰＵ１０１は、ＲＯＭ１０２またはＨＤＤ１０６に記憶された各種プログラムを読み出して実行することにより、各ハードウエアと協働して情報提供システム１の各種機能を実現する。ＣＰＵ１０１が実現する情報提供システム１の各種機能については、後述の図５を用いて説明する。
　ＲＡＭ１０３は、プログラム実行時に使用するメモリである。
　入力装置１０４は、ユーザ入力を受け付けるものであり、マイク、リモートコントローラ等の操作デバイス、またはタッチセンサ等である。図１では、入力装置１０４の例として、マイク６を図示している。
　通信装置１０５は、ネットワーク２を介して、サーバ３などの情報源と通信するものである。
　ＨＤＤ１０６は、外部記憶装置の一例である。外部記憶装置としては、ＨＤＤの他に、ＣＤもしくはＤＶＤ、またはＵＳＢメモリおよびＳＤカード等のフラッシュメモリを採用したストレージ等が含まれる。
　出力装置１０７は、情報をユーザに提示するものであり、スピーカ、液晶ディスプレイ、または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）等である。図１では、出力装置１０７の例として、スピーカ４およびディスプレイ５を図示している。

　図５は、実施の形態１に係る情報提供システム１の構成例を示す機能ブロック図である。
　この情報提供システム１は、取得部１０、生成部１１、音声認識辞書１６、関連判定部１７、記憶部１８、制御部１９および音声認識部２０を備えている。取得部１０、生成部１１、関連判定部１７、制御部１９および音声認識部２０の機能は、ＣＰＵ１０１がプログラムを実行することにより実現される。音声認識辞書１６および記憶部１８は、ＲＡＭ１０３またはＨＤＤ１０６である。

　なお、情報提供システム１を構成する取得部１０、生成部１１、音声認識辞書１６、関連判定部１７、記憶部１８、制御部１９および音声認識部２０は、図５のように１つの装置内に集約されていてもよいし、あるいは、ネットワーク上のサーバとスマートフォン等の携帯情報端末と車載器とに分散されていてもよい。

　取得部１０は、ネットワーク２を介してサーバ３から、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）またはＸＭＬ（ｅＸｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）形式で記述されたコンテンツを取得する。そして、取得部１０は、取得したコンテンツに付与されている既定のタグ情報等に基づいて内容を解釈し、付帯的な情報は除外するなどして主要部分の情報を抜き出し、生成部１１と関連判定部１７へ出力する。

　なお、ネットワーク２としては、例えば、インターネットおよび携帯電話等の公衆回線を使用することができる。
　サーバ３は、ニュース等のコンテンツを格納している情報源である。実施の形態１では、「コンテンツ」として、ネットワーク２を介して情報提供システム１がサーバ３から取得可能なニュースのテキスト情報を例示するが、これに限定されるものではなく、単語辞書等の知識データベースサービスまたは料理のレシピなどのテキスト情報であってもよい。また、情報提供システム１の内部に予め格納されているコンテンツなど、ネットワーク２を介して取得する必要がないコンテンツでもよい。
　さらに、コンテンツはテキスト情報に限定されるものではなく、動画像情報、音声情報などであっても構わない。
　取得部１０は、例えば、サーバ３が配信するニュースのテキスト情報を、配信される都度取得したり、ユーザからの要求をきっかけにしてサーバ３に格納されている料理のレシピのテキスト情報を取得したりする。

　生成部１１は、第一認識対象語生成部１２、表示文字列判定部１３、第二認識対象語生成部１４および認識辞書生成部１５を備えている。

　第一認識対象語生成部１２は、取得部１０が取得したコンテンツのテキスト情報からこのコンテンツに関連したキーワードを抽出し、キーワードから第一認識対象語を生成する。キーワードの抽出は、形態素解析処理等の公知の自然言語処理技術などを用いて、当該コンテンツのテキスト情報に含まれる固有名詞、テキスト情報の見出しまたは本文の先頭の名詞、テキスト情報における頻出名詞などのコンテンツの内容を表す重要語を抽出する方法をはじめ、どのような方法を用いてもよい。例えば、第一認識対象語生成部１２は、ニュースの見出し「アメリカ大統領がＸＸ日に来日」のうち、先頭の名詞「アメリカ大統領」をキーワードとして抽出し、その表記と読みを第一認識対象語「アメリカ大統領（アメリカダイトーリョー）」に設定する。第一認識対象語生成部１２は、生成した第一認識対象語を表示文字列判定部１３と認識辞書生成部１５へ出力する。キーワードと第一認識対象語の表記は同じである。

　なお、第一認識対象語生成部１２は、第一認識対象語に対して、予め設定された文字列を追加するようにしてもよい。例えば、第一認識対象語「アメリカ大統領」の後ろに「のニュース」という文字列を追加した「アメリカ大統領のニュース」を第一認識対象語にする。第一認識対象語に追加する文字列はこれに限定されるものではなく、また、第一認識対象語の前後のどちらに追加する文字列であってもよい。第一認識対象語生成部１２は、「アメリカ大統領」と「アメリカ大統領のニュース」の両方を第一認識対象語としてもよいし、いずれか一方を第一認識対象語としてもよい。

　表示文字列判定部１３は、ディスプレイ５の文字表示領域Ａ１，Ａ２の情報を基にこの領域に表示可能な規定文字数を判定する。そして表示文字列判定部１３は、第一認識対象語生成部１２が生成した第一認識対象語が規定文字数を超えるか否かを判定し、超える場合に第一認識対象語を規定文字数に短縮した文字列を生成し、第二認識対象語生成部１４へ出力する。実施の形態１では、第一認識対象語を規定文字数に短縮した文字列と、後述する第二認識対象語の表記とは同じである。

　文字表示領域Ａ１，Ａ２の情報は、文字数または画素数など領域のサイズを表すものであれば何でもよい。また、文字表示領域Ａ１，Ａ２は予め定められたサイズであってもよいし、表示領域または表示画面のサイズが動的に変化する場合には文字表示領域Ａ１，Ａ２のサイズも動的に変化してよい。文字表示領域Ａ１，Ａ２のサイズが動的に変化する場合、例えば制御部１９から表示文字列判定部１３へ文字表示領域Ａ１，Ａ２の情報が通知される。

　例えば、第一認識対象語が「アメリカ大統領（アメリカダイトーリョー）」であった場合、仮に規定文字数を５文字とすると、表示文字列判定部１３は「アメリカ大統領」の後尾２文字「統領」を削除することによって、先頭から５文字分の文字列「アメリカ大」に短縮する。表示文字列判定部１３は、第一認識対象語を短縮した文字列「アメリカ大」を、第二認識対象語生成部１４へ出力する。なお、この例では第一認識対象語をその先頭から５文字分の文字列に短縮したが、第一認識対象語を規定文字数に短縮する方法であれば何でもよい。
　一方、第一認識対象語が「アメリカ大統領（アメリカダイトーリョー）」であって規定文字数が７文字以内の場合、表示文字列判定部１３は「アメリカ大統領」をそのまま第二認識対象語生成部１４へ出力する。

　第二認識対象語生成部１４は、第一認識対象語を規定文字数に短縮した文字列を表示文字列判定部１３から受け取った場合、第二認識対象語を生成する。例えば「アメリカ大統領」を短縮した文字列が「アメリカ大」であった場合、第二認識対象語生成部１４はその表記と読みを第二認識対象語「アメリカ大（アメリカダイ）」として設定する。第二認識対象語生成部１４は第二認識対象語の読みとして、例えば、第一認識対象語の読みのうち、規定文字数に短縮した文字列の読みを生成する。第二認識対象語生成部１４は、生成した第二認識対象語を認識辞書生成部１５へ出力する。
　一方、短縮されていない第一認識対象語を表示文字列判定部１３から受け取った場合、第二認識対象語生成部１４は第二認識対象語を生成しない。

　なお、この例では、一つのコンテンツに対して一組の第一認識対象語と第二認識対象語を生成する場合を説明したが、コンテンツに関連したキーワードが複数存在する場合などには一つのコンテンツに対して複数組の第一認識対象語と第二認識対象語を生成してもよい。また、第一認識対象語の数と第二認識対象語の数が一致する必要はない。

　認識辞書生成部１５は、第一認識対象語を第一認識対象語生成部１２から受け取ると共に、第二認識対象語を第二認識対象語生成部１４から受け取る。そして認識辞書生成部１５は、第一認識対象語と第二認識対象語を認識語彙に含めるよう音声認識辞書１６に登録する。また、認識辞書生成部１５は、第一認識対象語と第二認識対象語を関連判定部１７へ出力する。

　音声認識辞書１６は、認識可能な単語列を文法として記述するようなネットワーク文法の形式、または単語の繋がりを確率的にモデル化した統計的言語モデルのような形式など、どのような形式でもよい。

　ユーザＢが発話した音声をマイク６が集音して音声認識部２０へ出力すると、音声認識部２０は、ユーザＢの発話音声を音声認識辞書１６を参照して認識し、認識結果文字列を制御部１９へ出力する。音声認識部２０による音声認識の方法は、公知の技術を用いればよいため説明を省略する。

　ところで、カーナビゲーションシステム等の車載器に搭載されている音声認識機能においては、ユーザＢが発話の開始を情報提供システム１に対して明確に指示するために、音声認識開始を指示するボタンが設けられている場合がある。その場合、音声認識部２０は、ユーザＢにより当該ボタンが押下された後に発話された音声を認識する。
　音声認識開始を指示するボタンが設けられていない場合、例えば、音声認識部２０は常にマイク６が集音する音声を受け付け、ユーザＢが発話した内容に該当する発話区間を検出し、発話区間の音声を認識する。

　関連判定部１７は、取得部１０が取得したコンテンツのテキスト情報を受け取ると共に、認識辞書生成部１５から第一認識対象語と第二認識対象語を受け取る。そして関連判定部１７は、第一認識対象語と第二認識対象語とコンテンツとの対応関係を判定して、第一認識対象語と第二認識対象語をコンテンツのテキスト情報に関連付けて記憶部１８に記憶させる。

　記憶部１８は、現在提供可能なコンテンツと第一認識対象語と第二認識対象語とを関連付けて記憶している。
　ここで、図６に、記憶部１８が記憶している第一認識対象語と第二認識対象語とコンテンツの一例を示す。図６は規定文字数が５文字の場合の例である。第一認識対象語「アメリカ大統領（アメリカダイトーリョー）」と、第二認識対象語「アメリカ大（アメリカダイ）」と、コンテンツであるニュース本文「アメリカの○○大統領がＸＸ日、ＹＹ交渉のため来日する。＜以後略＞」が関連付けられている。また、第一認識対象語「モーターショー（モーターショー）」と、第二認識対象語「モーターシ（モーターシ）」と、ニュース本文「２年に１度のモーターショーがＸＸ日、開幕する。＜以後略＞」が関連付けられている。

　なお、第一認識対象語が規定文字数以内である場合には、第二認識対象語が生成されないので、第一認識対象語のみとコンテンツとが関連付けられて記憶部１８に記憶されることになる。
　また、記憶部１８が記憶するコンテンツはテキスト情報に限定されるものではなく、動画像情報、音声情報などであっても構わない。

　制御部１９は、規定文字数以内の第一認識対象語または第二認識対象語をディスプレイ５に出力すると共に、音声認識部２０から出力された認識結果文字列が第一認識対象語または第二認識対象語に一致する場合に関連する情報を記憶部１８から取得してディスプレイ５またはスピーカ４に出力する。

　より詳細には、制御部１９は、記憶部１８に記憶されているコンテンツのテキスト情報を取得し、現在提供可能なコンテンツのテキスト情報として音声認識部２０へ通知する。また、制御部１９は、現在提供可能なコンテンツのテキスト情報に関連付けて記憶されている第二認識対象語を記憶部１８から取得し、図３に示すようにディスプレイ５の文字表示領域Ａ１，Ａ２に表示させる。第二認識対象語が記憶部１８に存在する場合は、第一認識対象語が規定文字数を超える場合である。
　一方、記憶部１８に、現在提供可能なコンテンツのテキスト情報に関連付いた第一認識対象語のみが記憶されており、第二認識対象語がない場合、第一認識対象語は規定文字数以内である。この場合、図２に示すように、制御部１９は第一認識対象語を記憶部１８から取得してディスプレイ５の文字表示領域Ａ１，Ａ２に表示させる。

　また、制御部１９は、音声認識部２０から認識結果文字列を受け取り、その認識結果文字列を記憶部１８に記憶されている第一認識対象語および第二認識対象語と照合し、認識結果文字列に一致する第一認識対象語または第二認識対象語に対して対応付けられているコンテンツのテキスト情報を取得する。

　制御部１９は、取得したコンテンツのテキスト情報を音声合成してスピーカ４から音声出力させる。音声合成には公知の技術を用いればよいため説明を省略する。
　なお、情報の表示態様は、その情報の種類に応じてユーザが情報を適切に認識できるものであればよく、例えば、制御部１９がテキスト情報の冒頭一部分をディスプレイ５に画面表示させたり、スクロールさせることによってテキスト情報の全文を画面表示させたりしてもよい。
　また、コンテンツが動画像情報である場合は、制御部１９がその動画像情報をディスプレイ５に画面表示させればよい。コンテンツが音声情報である場合は、制御部１９がその音声情報をスピーカ４から音声出力させればよい。

　次に、図７および図８に示すフローチャートを用いて、実施の形態１に係る情報提供システム１の動作を説明する。
　ここでは、ニュース提供サービスのサーバ３から配信されたコンテンツを取得するものとして説明する。説明を簡略化するため、情報提供システム１は、サーバ３が配信したニュースα、ニュースβの２つのニュースコンテンツを、ネットワーク２を介して取得したものとする。ニュースαの見出しは「アメリカ大統領がＸＸ日に来日」、本文は「アメリカの○○大統領がＸＸ日、ＹＹ交渉のため来日する。＜以後略＞」である。ニュースβの見出しは「モーターショーが東京で開幕」、本文は「２年に１度のモーターショーがＸＸ日、開幕する。＜以後略＞」である。

　初めに、図７に示すフローチャートを用いてコンテンツ取得時の動作を説明する。
　まず、取得部１０は、ネットワーク２を介してサーバ３から配信されたコンテンツを取得し、タグ等を解析することによりコンテンツの付帯的な情報を除外し、ニュースα，βの見出しおよび本文等の主要部分のテキスト情報を得る（ステップＳＴ１）。取得部１０は、コンテンツのテキスト情報を第一認識対象語生成部１２と関連判定部１７へ出力する。

　続いて、第一認識対象語生成部１２は、取得部１０から受け取ったコンテンツのテキスト情報からキーワードを抽出し、第一認識対象語を生成する（ステップＳＴ２）。第一認識対象語生成部１２は、第一認識対象語を表示文字列判定部１３と認識辞書生成部１５へ出力する。

　ここでは、第一認識対象語生成部１２が形態素解析などの自然言語処理技術を使用し、ニュースの見出しの最初に現れる名詞（複合名詞も含む）をキーワードとして抽出し、キーワードの表記と読みを生成して第一認識対象語に設定する。即ち、ニュースα，βの具体例に当てはめると、ニュースαの第一認識対象語は「アメリカ大統領（アメリカダイトーリョー）」、ニュースβの第一認識対象語は「モーターショー（モーターショー）」になる。

　続いて、表示文字列判定部１３は、ディスプレイ５の文字表示領域Ａ１，Ａ２の情報に基づいてこれら文字表示領域Ａ１，Ａ２に表示可能な規定文字数を判定し、表示文字列判定部１３から受け取った第一認識対象語が規定文字数を超えるか否か、つまり文字表示領域Ａ１，Ａ２に第一認識対象語のすべての文字を表示可能か否か判定する（ステップＳＴ３）。第一認識対象語のすべての文字を表示できない場合（ステップＳＴ３“ＮＯ”）、表示文字列判定部１３は、第一認識対象語を規定文字数に短縮した文字列を生成する（ステップＳＴ４）。表示文字列判定部１３は、第一認識対象語を規定文字数に短縮した文字列を第二認識対象語生成部１４へ出力する。

　ここでは、文字表示領域Ａ１，Ａ２の規定文字数を５文字として説明する。この場合、前述の具体例に当てはめると、ニュースα，βともに第一認識対象語が５文字を超えるため、全て表示できないことになる。そのため、表示文字列判定部１３は、ニュースαの第一認識対象語を５文字に短縮して「アメリカ大」にし、ニュースβの第一認識対象語を５文字に短縮して「モーターシ」または「モーターショ」にする。以下では「モーターシ」に短縮されたものとして説明する。

　続いて、第二認識対象語生成部１４は、第一認識対象語を規定文字数に短縮した文字列を表示文字列判定部１３から受け取り、この文字列に含まれる文字のすべてを用いて第二認識対象語を生成する（ステップＳＴ５）。第二認識対象語生成部１４は第二認識対象語の読みとして、例えば、第一認識対象語の読みのうち、規定文字数に短縮した文字列の読みを生成する。即ち、前述の具体例に当てはめると、ニュースαの第二認識対象語は「アメリカ大（アメリカダイ）」、ニュースβの第二認識対象語は「モーターシ（モーターシ）」となる。第二認識対象語生成部１４は、第二認識対象語を認識辞書生成部１５へ出力する。

　一方、第一認識対象語のすべての文字を規定文字数以内で表示可能な場合（ステップＳＴ３“ＹＥＳ”）、表示文字列判定部１３はステップＳＴ４，ＳＴ５の処理をスキップしてステップＳＴ６へ進む。

　続いて、認識辞書生成部１５は、第一認識対象語生成部１２から第一認識対象語を受け取り、認識対象語として音声認識辞書１６に登録する（ステップＳＴ６）。また、認識辞書生成部１５は、第一認識対象語のすべての文字を表示できない場合には、第二認識対象語生成部１４から第二認識対象語を受け取り、第一認識対象語に追加して当該第二認識対象語も認識対象語として音声認識辞書１６に登録する（ステップＳＴ６）。前述の具体例に当てはめると、第一認識対象語「アメリカ大統領（アメリカダイトーリョー）」「モーターショー（モーターショー）」と、第二認識対象語「アメリカ大（アメリカダイ）」「モーターシ（モーターシ）」が、認識対象語として音声認識辞書１６に登録される。
　さらに、認識辞書生成部１５は、音声認識辞書１６に登録した認識対象語を、関連判定部１７へ通知する。

　続いて、関連判定部１７は、コンテンツのテキスト情報を取得部１０から受け取ると共に、認識対象語の通知を認識辞書生成部１５から受け取り、コンテンツと認識対象語との対応関係を判定し、両者を関連付けて記憶部１８に記憶させる（ステップＳＴ７）。

　次に、図８に示すフローチャートを用いて、キーワード提示からコンテンツ提供までの動作を説明する。
　まず、制御部１９は、記憶部１８を参照し、現在提供可能なコンテンツに関連付けられた第二認識対象語が記憶されている場合はその第二認識対象語を取得して、当該コンテンツに関連するキーワードとしてディスプレイ５の文字表示領域Ａ１，Ａ２に表示させる（ステップＳＴ１１）。また、制御部１９は、現在提供可能なコンテンツに関連付けられた第二認識対象語が記憶されておらず、第一認識対象語のみ記憶されている場合はその第一認識対象語を取得して、当該コンテンツに関連するキーワードとしてディスプレイ５の文字表示領域Ａ１，Ａ２に表示させる（ステップＳＴ１１）。このように、文字表示領域Ａ１，Ａ２のサイズに応じた第一認識対象語または第二認識対象語を、キーワードとして表示することにより、ユーザＢに提示する。

　前述の具体例に当てはめると、ニュースα，βの第一認識対象語は文字表示領域Ａ１，Ａ２に表示しきれないため、第二認識対象語である「アメリカ大」「モーターシ」がディスプレイ５の文字表示領域Ａ１，Ａ２に表示されることになる。

　なお、制御部１９は、ステップＳＴ１１においてキーワードを提示する前に、またはキーワードの提示と共に、ニュースα，βの見出しまたは本文冒頭部分などを音声出力することにより、現在提供可能なニュースの概要をユーザＢに報知してもよい。

　ステップＳＴ１１の後、マイク６は、ユーザＢによる発話音声を集音し、音声認識部２０へ出力する。
　音声認識部２０は、マイク６を通じて入力されるユーザＢの発話音声を待ち受け（ステップＳＴ１２）、発話音声の入力があった場合に（ステップＳＴ１２“ＹＥＳ”）、その発話音声を音声認識辞書１６を用いて認識する（ステップＳＴ１３）。音声認識部２０は、認識結果文字列を制御部１９へ出力する。

　前述の具体例に当てはめると、ユーザＢにより「アメリカ大（アメリカダイ）」と発話されると、音声認識部２０は音声認識辞書１６を用いてこの発話音声を認識し、認識結果文字列として「アメリカ大」を制御部１９へ出力する。

　続いて、制御部１９は、音声認識部２０から認識結果文字列を受け取り、その認識結果文字列を検索キーとして記憶部１８を検索し、認識結果文字列に対応するコンテンツのテキスト情報を取得する（ステップＳＴ１４）。
　前述の具体例に当てはめると、認識結果文字列「アメリカ大」はニュースαの第二認識対象語「アメリカ大（アメリカダイ）」に一致するので、ニュースαの本文「アメリカの○○大統領がＸＸ日、ＹＹ交渉のため来日する。＜以後略＞」が記憶部１８から取得される。

　続いて、制御部１９は、記憶部１８から取得したコンテンツのテキスト情報を音声合成してスピーカ４から音声出力させたり、テキスト情報の冒頭一部分をディスプレイ５に画面表示させたりする（ステップＳＴ１５）。これにより、ユーザＢが希望して選択しようとしたコンテンツが提供される。

　以上より、実施の形態１によれば、情報提供システム１は、提供対象のコンテンツをサーバ３から取得する取得部１０と、取得部１０が取得したコンテンツから第一認識対象語を生成すると共に規定文字数を超える第一認識対象語を当該規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成する生成部１１と、取得部１０が取得したコンテンツならびに生成部１１が生成した第一認識対象語および第二認識対象語を関連付けて記憶する記憶部１８と、ユーザＢの発話音声を認識して認識結果文字列を出力する音声認識部２０と、生成部１１が生成した規定文字数以内の文字列からなる第一認識対象語または第二認識対象語をディスプレイ５に出力すると共に音声認識部２０から出力された認識結果文字列が第一認識対象語または第二認識対象語と一致する場合に関連するコンテンツを記憶部１８から取得してディスプレイ５またはスピーカ４に出力する制御部１９とを備える構成にしたので、規定文字数以内の文字列からなる第一認識対象語または第二認識対象語を提示されたユーザＢが当該提示された文字列を誤認して第一認識対象語以外の語を発話した場合でも、第二認識対象語を基に認識が可能になる。そのため、ユーザＢが希望して選択しようとした情報を提供できるようになり、操作性および利便性が向上する。

　実施の形態１の第二認識対象語生成部１４は、キーワードである第一認識対象語を、規定文字数に短縮した文字列を、そのまま第二認識対象語として用いる構成にしたが、この文字列を加工して第二認識対象語を生成する構成にしてもよい。
　以下、第二認識対象語の生成方法について、変形例を説明する。

　例えば、第二認識対象語生成部１４は、第二認識対象語の読みとして、第一認識対象語を規定文字数に短縮した文字列に対する一以上の読みを生成してもよい。この場合、第二認識対象語生成部１４は例えば、形態素解析処理を行って一以上の読みを判定したり、不図示の単語辞書等を用いて一以上の読みを判定したりすればよい。
　具体的には、第二認識対象語生成部１４は、「アメリカ大」という第二認識対象語の読みとして、第一認識対象語の読みと同じ「アメリカ大（アメリカダイ）」に加えて、またはその代わりに、「アメリカ大（アメリカオー）」「アメリカ大（アメリカタイ）」のような読みを付与する。
　これにより、ユーザＢが第一認識対象語の読みとは異なる読みを発話した場合でも、ユーザＢが希望して選択しようとしたコンテンツを提供できる可能性が高まり、ユーザＢの操作性および利便性がさらに向上する。

　また例えば、第二認識対象語生成部１４は、第二認識対象語の読みとして、第一認識対象語を規定文字数に短縮した文字列の読みに対して、別の文字列の読みを追加してもよい。この場合、第二認識対象語生成部１４は例えば、不図示の単語辞書等を用いて当該別の文字列を検索すればよい。生成された第二認識対象語の読みは、短縮した文字列のすべてを含む別の語の読みになる。
　具体的には、第二認識対象語生成部１４は、「アメリカ大統領」を短縮した文字列「アメリカ大」に対して別の文字列「陸」を追加して「アメリカ大陸」という文字列を生成し、生成した「アメリカ大陸」の読み（アメリカタイリク）を第二認識対象語「アメリカ大」の読みとする。
　これにより、ユーザＢが第一認識対象語の読みとは異なる読みを発話した場合でも、ユーザＢが希望して選択しようとしたコンテンツを提供できる可能性が高まり、ユーザＢの操作性および利便性がさらに向上する。

　また例えば、第二認識対象語生成部１４は、第一認識対象語を規定文字数に短縮した文字列を、規定文字数以内かつ第一認識対象語と同義の別の文字列に置換して、他の第二認識対象語を生成してもよい。この場合、第二認識対象語生成部１４は例えば、不図示の単語辞書等を用いて、規定文字数以内かつ第一認識対象語と同義の別の文字列を検索すればよい。
　具体的には、第二認識対象語生成部１４は、「アメリカ大統領（アメリカダイトーリョー）」という第一認識対象語に対し、「米国大統領（ベーコクダイトーリョー）」という規定文字数５文字以内かつ同義の文字列を第二認識対象語として生成する。第二認識対象語生成部１４は、「アメリカ大」に加えて「米国大統領」も第二認識対象語として設定する。
　これにより、ユーザＢが第一認識対象語の読みとは異なる読みを発話した場合でも、ユーザＢが希望して選択しようとしたコンテンツを提供できる可能性が高まり、ユーザＢの操作性および利便性がさらに向上する。
　さらに、制御部１９は、キーワードとしてユーザＢに提示する文字列を、第一認識対象語を規定文字数に短縮した文字列「アメリカ大」ではなく、別の文字列に置換した他の第二認識対象語の表記「米国大統領」に変更してもよい。

　また例えば、第二認識対象語生成部１４は、上述した変形例を複数組み合わせて、複数の第二認識対象語を生成するようにしてもよい。

　また例えば、第二認識対象語生成部１４は、第二認識対象語の読みを、ユーザＢの発話履歴に基づいて生成してもよい。この場合の情報提供システム１の構成例を、図９に示す。

　図９では、情報提供システム１に対して履歴記憶部２１が追加されている。この履歴記憶部２１は、音声認識部２０の認識結果文字列をユーザＢの発話履歴として記憶する。第二認識対象語生成部１４は、履歴記憶部２１に記憶されている認識結果文字列を取得し、第二認識対象語の読みとして設定する。
　具体的には、「アメリカ大（アメリカダイ）」「アメリカ大（アメリカオー）」という二種類の第二認識対象語が生成され、ユーザＢが「アメリカ大（アメリカダイ）」と発話した場合、これ以降、第二認識対象語生成部１４はユーザＢが過去に発話した読みを付与した「アメリカ大（アメリカダイ）」という第二認識対象語を生成する。
　その際、第二認識対象語生成部１４は、単純にユーザＢが過去に発話したか否かだけでなく、頻度分布等の統計処理を行って、予め設定された確率以上の読みを第二認識対象語に付与する構成にしてもよい。
　これにより、ユーザＢの発話の癖を音声認識処理に反映できるので、ユーザＢが第一認識対象語の読みとは異なる読みを発話した場合でも、ユーザＢが希望して選択しようとしたコンテンツを提供できる可能性が高まり、ユーザＢの操作性および利便性がさらに向上する。

　さらに、第二認識対象語生成部１４は、ユーザ毎の発話履歴に基づいて、ユーザに合わせた第二認識対象語の読みを生成してもよい。この場合、例えば図９に示すように、ユーザ識別部７が現在のユーザＢを識別し、識別結果を第二認識対象語生成部１４および履歴記憶部２１へ出力する。履歴記憶部２１はユーザ識別部７から通知されたユーザＢに関連付けて認識結果文字列を記憶する。第二認識対象語生成部１４は、ユーザ識別部７から通知されたユーザＢに関連付けて記憶されている認識結果文字列を履歴記憶部２１から取得し、第二認識対象語の読みとして設定する。
　ユーザ識別部７の識別方法は、ユーザに対してユーザ名とパスワード等の入力を求めるログイン認証、またはユーザの顔もしくは指紋等に基づく生体認証など、ユーザを識別可能な方法であれば何でもよい。

　また、図７のフローチャートに示した動作により生成された第一認識対象語および第二認識対象語は音声認識辞書１６に登録されることになるが、少なくとも第二認識対象語については、取得部１０が新たなコンテンツを取得した場合もしくはサーバ３が古いコンテンツの提供を終了した場合、または予め設定された時間になった場合など、予め設定されたタイミングで消去するようにしてもよい。
　予め設定された時間になった場合とは、例えば、第二認識対象語が音声認識辞書１６に登録された時点から所定時間（例えば、２４時間）が経過したタイミング、所定時刻（例えば、毎朝６時）になったタイミングなどである。さらに、第二認識対象語を音声認識辞書１６から消去するタイミングをユーザに設定させる構成にしてもよい。
　これにより、ユーザＢが発話する可能性の低い認識対象語を消去でき、音声認識辞書１６を構成するＲＡＭ１０３またはＨＤＤ１０６における使用領域を削減できるようになる。
　一方、音声認識辞書１６に登録された認識対象語を消去しない場合には、認識処理の時間短縮のために、例えば音声認識部２０が制御部１９から現在提供可能なコンテンツのテキスト情報を受け取り、音声認識辞書１６に登録された第一認識対象語と第二認識対象語のうち、当該コンテンツのテキスト情報に対応する第一認識対象語と第二認識対象語を有効化することで認識可能な語彙を規定するようにしてもよい。

　また、実施の形態１の制御部１９は、第一認識対象語または第一認識対象語を規定文字数に短縮した文字列を画面表示させる制御を行うようにしたが、それらの文字列をユーザＢが選択できるソフトウエアキーとするようディスプレイ５を制御してもよい。ソフトウエアキーはユーザＢが入力装置１０４を用いて選択操作可能なものであればよく、例えば、タッチセンサによって選択可能なタッチボタン、または操作デバイスによって選択可能なボタン等とする。

　また、実施の形態１に係る情報提供システム１は、認識対象語が日本語である場合に合わせた構成としたが、日本語以外の言語に合わせた構成にしてもよい。

　上記以外にも、本発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、または実施の形態の任意の構成要素の省略が可能である。

　この発明に係る情報提供システムは、提供対象の情報から第一認識対象語を生成することに加えて、第一認識対象語を規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成するようにしたので、画面に表示可能な文字数が限られている車載器および携帯情報端末などに用いるのに適している。

　１　情報提供システム、２　ネットワーク、３　サーバ（情報源）、４　スピーカ（音声出力部）、５　ディスプレイ（表示部）、６　マイク、７　ユーザ識別部、１０　取得部、１１　生成部、１２　第一認識対象語生成部、１３　表示文字列判定部、１４　第二認識対象語生成部、１５　認識辞書生成部、１６　音声認識辞書、１７　関連判定部、１８　記憶部、１９　制御部、２０　音声認識部、２１　履歴記憶部、１００　バス、１０１　ＣＰＵ、１０２　ＲＯＭ、１０３　ＲＡＭ、１０４　入力装置、１０５　通信装置、１０６　ＨＤＤ、１０７　出力装置。

Claims

　提供対象の情報を情報源から取得する取得部と、
　前記取得部が取得した情報から第一認識対象語を生成すると共に、規定文字数を超える第一認識対象語を当該規定文字数に短縮した文字列すべてを用いて第二認識対象語を生成する生成部と、
　前記取得部が取得した情報、ならびに前記生成部が生成した第一認識対象語および第二認識対象語を関連付けて記憶する記憶部と、
　ユーザの発話音声を認識して認識結果文字列を出力する音声認識部と、
　前記生成部が生成した前記規定文字数以内の文字列からなる第一認識対象語または第二認識対象語を表示部に出力すると共に、前記音声認識部から出力された認識結果文字列が前記第一認識対象語または前記第二認識対象語と一致する場合に関連する情報を前記記憶部から取得して前記表示部または音声出力部に出力する制御部とを備える情報提供システム。
　前記生成部は、前記第一認識対象語を前記規定文字数に短縮した文字列を加工して前記第二認識対象語を生成することを特徴とする請求項１記載の情報提供システム。
　前記生成部は、前記第二認識対象語の読みとして、前記第一認識対象語の読みのうちの前記規定文字数に短縮した文字列の読みを生成することを特徴とする請求項２記載の情報提供システム。
　前記生成部は、前記第二認識対象語の読みとして、前記第一認識対象語を前記規定文字数に短縮した文字列に対する一以上の読みを生成することを特徴とする請求項２記載の情報提供システム。
　前記生成部は、前記第二認識対象語の読みとして、前記第一認識対象語を前記規定文字数に短縮した文字列の読みに対して別の文字列の読みを追加することを特徴とする請求項２記載の情報提供システム。
　前記生成部は、前記第一認識対象語を前記規定文字数に短縮した文字列を、前記規定文字数以内かつ前記第一認識対象語と同義の別の文字列に置換して、他の第二認識対象語を生成することを特徴とする請求項１記載の情報提供システム。
　前記生成部は、前記第二認識対象語の読みをユーザの発話履歴に基づいて生成することを特徴とする請求項２記載の情報提供システム。
　前記生成部は、前記第一認識対象語および前記第二認識対象語を音声認識辞書に登録し、前記取得部が新たな情報を取得した場合または予め設定された時間になった場合に前記音声認識辞書から少なくとも前記第二認識対象語を消去することを特徴とする請求項１記載の情報提供システム。