JP6774438B2

JP6774438B2 - 情報処理システム、情報処理方法、およびプログラム

Info

Publication number: JP6774438B2
Application number: JP2018008209A
Authority: JP
Inventors: 辰顕鈴木; 北岸　郁雄; 郁雄北岸; 健介 ▲高▼田; 宏幸穴井
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2020-10-21
Anticipated expiration: 2038-01-22
Also published as: JP2019128654A

Description

本発明は、情報処理システム、情報処理方法、およびプログラムに関する。

従来、目的地までの経路探索を行い、探索結果に応じて誘導経路を案内するナビゲーション処理中に、ユーザとの対話に基づいて、音声広告又は音声広告に係るアンケートを、音声出力手段により音声出力させる出力制御手段を備える情報処理装置が開示されている（例えば、特許文献１）。

特開２０１７−５８３１５号公報

しかしながら、従来の技術では、音声の出力が利用者に違和感を与える場合があった。

本発明は、このような事情を考慮してなされたものであり、利用者に違和感を与えないように情報を提供することができる情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報とを出力部に出力させる応答部と、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、前記特定情報の出力態様を制御する制御部と、を備える情報処理システムである。

本発明の一態様によれば、利用者に違和感を与えないように情報を提供することができる。

情報処理システム１の構成を示す図である。情報処理システム１により実行される処理の流れの一例を示すフローチャートである。環境パターン情報６４の内容の一例を示す図である。広告情報９２の内容の一例を示す図である。出力度合情報７２の内容の一例を示す図である。利用者と自動応答装置４０との会話の一例を示す図である。端末装置１０および自動応答装置４０により実行される処理の流れの一例を示すフローチャートである。利用情報７４の内容の一例を示す図である。第２実施形態の情報処理システム１Ａに含まれる自動応答装置４０Ａの機能構成の一例を示す図である。端末装置１０および第２実施形態の自動応答装置４０Ａにより実行される処理の流れの一例を示すフローチャートである。指示対応情報７６の内容の一例を示す図である。第２実施形態の利用者と自動応答装置４０との会話の一例を示す図である。広告の情報が出力される際の音量の変化を示す図である。第３実施形態の情報処理システム１Ｂの機能構成の一例を示す図である。自動応答装置４０Ｂにより実行される処理の流れの一例を示すフローチャートである。第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その１）である。第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その２）である。第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その３）である。第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その４）である。

以下、図面を参照し、本発明の情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。

＜概要（共通事項）＞
情報処理システムは、一以上のプロセッサにより実現される。情報処理システムは、利用者により発せられた音声に対する応答内容と、応答内容とは異なる特定情報とを出力部に出力させる。「応答内容」は、例えば、ＡＩ（Artificial Intelligence；人工知能）や、深層学習などの機械学習されたモデルにより動作する自動応答装置が決定する情報である。「特定情報」とは、例えば、広告や、挨拶、会話のきっかけとなる発話、お知らせ（例えばレコメンドやパスワード変更の要求）等の、利用者により発せられた音声に対する応答に該当しない情報である。

［概要（その１）］
情報処理システムは、音声が入力または出力の対象とされたユーザデバイス（例えば、マイクやスピーカ）の利用度合に応じて、特定情報の出力態様を制御する。「利用度合」とは、例えば、音声をユーザデバイスに入力した回数または頻度に基づく値、または音声をユーザデバイスに出力させた回数または頻度に基づく値である。例えば、ユーザデバイスの利用度合が高いほど、特定情報の出力量を多くする。すなわち、音声入力または出力を普段から多用するユーザには自動応答装置からの話しかけや音声広告を多く出力する。また、ユーザデバイスの利用度合が高いほど、特定情報の出力態様を利用者が聞き取りやすいように制御する。「出力態様」とは、例えば、音の大きさや、音の高低、情報が出力されるテンポである。概要（その１）については、後述する第１実施形態を中心に説明する。

［概要（その２）］
情報処理システムは、特定情報の出力態様を、応答内容の第３出力態様よりも利用者が聞き取りにくい第１出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を第２出力態様に変更して、特定情報を出力部に出力させる。「第２出力態様」は、第１出力態様よりも利用者が聞き取りやすい出力態様である。すなわち、自動応答装置との対話において特定情報（例えば音声広告）のみの音量を小さくし利用者からの要望や操作に応じて音量をアップする。概要（その２）については、後述する第２実施形態を中心に説明する。

［概要（その３）］
情報処理システムは、第１のキャラクターに応じた出力態様によって応答内容を出力部に出力させ、第２のキャラクターに応じた出力態様によって特定情報を出力部に出力させる。更に、情報処理システムは、第１のキャラクターと第２のキャラクターとの会話を出力部に出力させる。「第１のキャラクター」は、例えば、日常において、利用者と対話したり、利用者の発話に対して応答したりするキャラクターである。「第２のキャラクター」は、例えば、第１のキャラクターとは異なるキャラクターであって、特定情報（例えば広告）に対応付けられたキャラクターである。このように、利用者と対話する第１のキャラクターと、音声広告に対応した第２のキャラクターとが、会話することで利用者の広告に対する興味を喚起させる。概要（その３）については、後述する第３実施形態を中心に説明する。

＜第１実施形態＞
［全体構成］
図１は、情報処理システム１の構成を示す図である。情報処理システム１は、例えば、端末装置１０と、自動応答装置４０と、広告提供装置８０とを備える。これらの装置は、ネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）、インターネット、専用回線、無線基地局、プロバイダなどを含む。本実施形態では、自動応答装置４０が、「情報処理システム」の一例である。また、「情報処理システム」は、端末装置１０および／または広告提供装置８０を含んでもよい。

［端末装置の機能構成］
端末装置１０は、例えば、スマートスピーカ（Artificial intelligenceスピーカ）や、スマートフォン、タブレット端末、パーソナルコンピュータ等である。第１実施形態では端末装置１０は、スマートスピーカであるものとして説明する。

端末装置１０は、例えば、マイク１２と、スピーカ１４と、音声認識部１６と、音声生成部１８と、端末制御部２０と、端末装置側通信部２２と、記憶部３０とを備える。音声認識部１６、音声生成部１８、および端末制御部２０は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサが、フラッシュメモリなどの記憶部３０に記憶されたアプリケーションプログラム（アプリ３２）を実行することにより実現される。アプリ３２は、例えば、ネットワークを介してサーバ装置等からダウンロードされてもよいし、予め端末装置１０にプリインストールされていてもよい。なお、アプリケーションプログラムに代えて、以下に説明するものと同様の機能を有するブラウザがＵＡ（User Agent）として用いられてもよい。なお、端末装置１０に含まれる一部または全部の機能は、自動応答装置４０に含まれてもよい。

マイク１２は、利用者によって発せられた音声、または端末装置１０が存在する環境の環境音を取得する。スピーカは、音声生成部１８により生成された情報に応じた音声を出力する。

音声認識部１６は、マイク１２により取得された音声をデジタルデータ（音声データ）に変換する。音声生成部１８は、自動応答装置４０により送信された情報に基づいて、スピーカ１４に出力させる音声に応じた情報を生成する。

端末制御部２０は、音声認識部１６により変換されたデジタルデータを、端末装置側通信部２２を用いて、自動応答装置４０に送信する。端末制御部２０は、自動応答装置４０により送信された情報を、端末装置側通信部２２を介して取得する。

端末装置側通信部２２は、例えば、無線通信インターフェースである。端末装置側通信部２２は、自動応答装置４０により送信された情報を取得したり、端末装置１０において処理された処理結果を自動応答装置４０に送信したりする。

［自動応答装置の機能構成］
自動応答装置４０は、例えば、利用者特定部４２と、環境解析部４３と、パターン特定部４４と、解釈部４６と、応答部４８と、提供制御部５０と、学習部５２と、応答装置側通信部５４と、第１記憶部６０と、第２記憶部７０とを備える。利用者特定部４２、環境解析部４３、パターン特定部４４、解釈部４６、応答部４８、提供制御部５０、および学習部５２は、例えば、ＣＰＵ等のハードウェアプロセッサが、記憶装置（例えば第１記憶部６０）に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体が自動応答装置４０のドライブ装置に装着されることで記憶装置にインストールされてもよい。第１記憶部６０および第２記憶部７０は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＳＤカード、ＲＡＭ（Random Access Memory）、レジスタ等によって実現される。

第１記憶部６０には、例えば、後述する、利用者特定情報６２、環境特定情報６３、環境パターン情報６４、正規表現情報６６、およびシナリオ情報６８が記憶されている。第２記憶部７０には、例えば、後述する、出力度合情報７２、および利用情報７４が記憶されている。第１記憶部６０と第２記憶部７０は、必ずしも別体の記憶装置により実現される必要はなく、一体の記憶装置における異なる記憶領域であってもよい。

利用者特定部４２は、例えば、端末装置１０により送信された音声データから人の声を表すと推定される音声データの成分（以下、発話成分）を抽出する。利用者特定部４２は、抽出した発話成分と、利用者特定情報６２に含まれる情報とを照合して、抽出した発話成分により表される音声を発した人物を特定する。利用者特定情報６２は、利用者の識別情報と、その利用者の声の特徴を示す情報（例えば、声紋パターンや周波数パターン）が対応付けられた情報である。

また、利用者特定部４２は、利用者特定情報６２を参照し、音声を発した利用者の周辺に存在する人物の種別を特定してもよい。この場合、利用者特定情報６２には、予め利用者の家族や友人などの声の特徴を示す情報が含まれている。また、利用者特定部４２は、端末装置側通信部２２を介して、家族等が保有する端末装置とWi-Fiルーターとの接続状態を示す情報を取得し、取得した情報に基づいて、端末装置の保有者がWi-Fiルーターが設置された位置付近に存在するか否かを判定してもよい。

環境解析部４３は、例えば、端末装置１０により送信された音声データから人の声以外の環境音を表すと推定される音声データの成分（以下、環境音成分）を抽出する。環境解析部４３は、抽出した環境音成分と、環境特定情報６３に含まれる情報とを照合して、抽出した環境音成分により表される環境音の大きさや、その環境音の発生要因を特定する。環境特定情報６３は、環境音の発生要因の識別情報と、環境音の発生要因ごとの音の特徴とが互いに対応付けられた情報である。

パターン特定部４４は、例えば、環境パターン情報６４と、利用者特定部４２の処理結果、および環境解析部４３の処理結果に基づいて、環境パターンを特定する。環境パターンとは、利用者が存在している環境について、所定の基準に従って分類されたパターンである。詳細は後述する。

解釈部４６は、例えば、人の声に対応する音声データを、テキスト情報に変換し、更に、テキスト情報と正規表現情報６６とを照合して、利用者の発話の意味を解釈する。例えば、利用者により「新宿から渋谷までの行き方を教えて」と発話されたものとする。解釈部４６は、上記の発話を形態素解析し、発話を品詞に分割する。そして、解釈部４６は、固有名詞かつ場所名に該当する新宿および渋谷を符号に変換した検索キーを生成し、正規表現情報６８を検索する。正規表現情報６８には、固有名詞を抽象化した符号に変換した情報（正規表現）が登録されている。例えば、「〇〇から××への行き方を教えて」、「〇〇から××までの行き方を教えて」などのテキストが付与された情報が正規表現として登録されている。

応答部４８は、例えば、正規表現情報６８に含まれる「（固有名詞、場所）から（固有名詞、場所）までの行き方を教えて」に対応するテキスト情報を取得し、〇〇から××までの行き方を提供すればよいことを認識する。

そして、応答部４８は、（固有名詞、場所）の部分に、符号化された元情報である「新宿」および「渋谷」を埋め込むことで、「新宿から渋谷までの行き方を知りたい」という利用者の意思を認識する。応答部４８は、ネットワーク検索などを行い、新宿から渋谷までの行き方を取得する。応答部４８は、例えば、シナリオ情報６８を参照し、新宿から渋谷までの行き方を示す、端末装置１０において出力するための音声元情報を生成する。シナリオ情報６８は、例えば、利用者の発話に対して応答すべき内容が予め保持されている。すなわち、利用者が「〇〇から××までの行き方を知りたい」という意思を有する発話に対する応答内容が保持されている。シナリオ情報６８は、例えば、応答内容が利用者の嗜好等に合致するように利用者ごとに用意されている。

なお、上記の応答部４８などの自動応答装置４０に含まれる一部または全部の機能は、端末装置１０に備えられてもよい。また、正規表現情報６６やシナリオ情報６８などの情報も端末装置１０の記憶装置に記憶されていてもよい。

提供制御部５０は、応答部４８により生成された音声元情報を、端末装置１０に出力させるために、応答装置側通信部５４を用いて、音声元情報を端末装置１０に送信する。更に、提供制御部５０は、広告提供装置８０により送信された音声元情報を端末装置１０に出力させるために、応答装置側通信部５４を用いて、その音声元情報を端末装置１０に送信する。

また、提供制御部５０は、応答内容または特定情報の出力態様を指定し、指定した出力態様で応答内容または特定情報を端末装置１０のスピーカ１４に出力させるために、指定した出力態様と応答内容または特定情報とを対応付けた情報を、応答装置側通信部５４を用いて端末装置１０に送信する。この提供制御部５０の機能は、端末装置１０に備えられてもよい。

学習部５２は、端末装置１０のスピーカ１４に出力させた応答内容または特定情報の内容、出力させた情報の出力態様、利用者の反応、および環境パターンを学習する。学習とは、例えば、人工知能を用いた学習や、深層学習などの機械学習等である。

応答装置側通信部５４は、ネットワークインターフェースカード（Network Interface Card）等の通信インターフェースを含む。応答装置側通信部５４は、端末装置１０または広告提供装置８０により送信された情報を取得したり、自動応答装置４０において処理された処理結果を端末装置１０または広告提供装置８０に送信したりする。

［広告提供装置］
広告提供装置８０は、例えば、情報提供部８２と、広告提供装置側通信部８４と、広告提供装置側記憶部９０とを備える。情報提供部８２は、利用者の発話により入力された情報、または自動応答装置４０の応答内容に基づいて、利用者に提供する広告を抽出し、抽出した広告に関する情報（例えば音声元情報および音声を出力する出力態様）を自動応答装置４０に提供する。

広告提供装置側通信部８４は、ネットワークインターフェースカード等の通信インターフェースを含む。広告提供装置側通信部８４は、自動応答装置４０により送信された情報を取得したり、広告提供装置８０において処理された処理結果を自動応答装置４０に送信したりする。広告提供装置側記憶部９０には、後述する広告情報９２が記憶されている。なお、広告提供装置８０と自動応答装置４０とは一体の装置として設けられてもよい。

［フローチャート（出力度合を決定する処理）］
図２は、情報処理システム１により実行される処理の流れの一例を示すフローチャートである。本処理は、利用者による音声ＵＩ（ユーザインタフェース／ユーザデバイス）の利用の量に応じ、人工物からの音声出力の量を制御する処理である。この音声ＵＩは音声認識である。

まず、端末装置１０は、利用者により音声が入力されたか否かを判定する（Ｓ１０）。利用者により音声が入力された場合（利用者と自動応答装置４０との会話が開始された場合）、入力された音声データ（発話成分および環境音成分）は、自動応答装置４０に送信される。

自動応答装置４０は、発話成分を取得し、取得した発話成分と利用者特定情報６２に基づいて、利用者を特定する（Ｓ２０）。自動応答装置４０は、環境音成分を取得し、取得した環境音成分と環境パターン情報６４に基づいて、環境パターンを特定する（Ｓ２２）。

図３は、環境パターン情報６４の内容の一例を示す図である。環境パターン情報６４は、複数の環境パターンと、分類基準とが対応付けられた情報である。環境パターンの分類基準は、例えば、曜日や、時間、利用者の周囲に存在している人物の数、人物の種別、利用者が存在している環境音の大きさ、利用者が存在している環境（自宅、オフィス、街）、利用者が存在している位置、および利用者のスケジュール（事前に登録された現在の予定）等のうち、少なくとも一以上の項目に基づいて、分類されるパターンである。

利用者が存在している環境、利用者が存在している位置、または利用者のスケジュールは、例えば予め利用者により設定された情報である。また、利用者が存在している環境、または利用者が存在している位置は、不図示のＧＰＳ（Global Positioning System）を利用した位置測位装置により測位された情報に基づいて特定されてもよい。また、利用者のスケジュールは、端末装置１０が他の装置からネットワークＮＷを介して取得した情報であってもよい。

次に、自動応答装置４０は、特定した利用者に提供する広告の内容を決定するように広告提供装置８０に依頼する（Ｓ２４）。この際、自動応答装置４０は、端末装置１０に入力された音声に含まれる情報をテキスト情報に変換したテキスト情報を広告提供装置８０に送信する。

広告提供装置８０は、自動応答装置４０の依頼に応じて、広告情報９２を参照して、テキスト情報に対応する利用者に提供する広告の内容を決定する（Ｓ３０）。なお、広告提供装置８０は、利用者に提供する広告が存在しない場合、その旨を自動応答装置４０に送信する。

図４は、広告情報９２の内容の一例を示す図である。広告情報９２は、広告ＩＤに対して、キャラクター、商品（またはサービス）、シナリオ、およびキーワードが対応付けられた情報である。「キャラクター」とは、所定の特徴を有する人物や、人に見立てた動物、植物、創作物、人工物などである。キャラクターは、商品ごとに設けられてもよいし、複数の商品ごとや、キャンペーンごとに設けられてもよい。

「シナリオ」とは、キャラクターが発する言葉（または言動）の内容や順序を規定したものである。シナリオは、例えば、キャラクターごとに設けられている。また、広告情報９２には、シナリオに加え、音声のトーンや、テンポ等のキャラクターの特徴がキャラクターに対して対応付けられている。商品やキャンペーンごとのキャラクターは、シナリオ（行動ルール）を基に自律的に行動する。

「キーワード」は、広告に関連付けられた言葉である。［キーワード］は、商品を示す言葉の意味（意味情報）と同一の意味を有する言葉、または商品を示す言葉の意味に関連する言葉である。関連する言葉とは、商品を示す言葉から一般的に想起される言葉である。例えば、広告提供装置８０は、利用者により入力された言葉または自動応答装置４０により発せられた音声に含まれる言葉と、広告情報９２のキーワードとが合致する場合に、合致するキーワードに対応付けられた広告ＩＤに対応する情報（キャラクターが発話する音声元情報等）を自動応答装置４０に送信する。なお、広告提供装置８０は、人工知能や、深層学習などの機械学習されたモデルにより利用者に提供する情報を決定してもよい。

次に、自動応答装置４０は、後述する出力度合情報７２を参照して、環境パターンに応じた広告の出力度合を決定し、決定した出力度合で広告を出力するように端末装置１０に指示をする（Ｓ２６）。次に、端末装置１０は、自動応答装置４０の指示に基づいて、広告を出力する（Ｓ１２）。これにより本フローチャートの１ルーチンの処理が終了する。

図５は、出力度合情報７２の内容の一例を示す図である。出力度合情報７２は、例えば、環境パターンごとに用意されている。また、出力度合情報７２は、利用者ＩＤに対して、環境パターンにおける過去の利用度合および広告を出力する出力度合が対応付けられた情報である。

「過去の利用度合」とは、利用者が過去にスピーカ１４から音声による情報（例えば広告）の提供を受けた度合、または利用者が過去にマイク１２に音声を用いて情報を入力した度合である。「出力度合」とは、スピーカ１４を用いて利用者に情報を出力する場合に、出力される音の大きさである。「出力度合」は、「出力態様」の一例である。出力度合は、例えば、過去の利用度合が多いほど、出力される音の大きさは大きくなるように設定されている。なお、「スピーカ１４から音声による情報の提供を受けた度合」において、音楽を出力させた度合は除かれてもよい。

また、出力度合情報７２において、出力度合に代えて、他の出力に関する態様が対応付けられていてもよい。出力に関する態様とは、例えば、音の大きさ加え、音の高低、広告の内容が出力されるテンポ等である。出力に関する態様は、例えば、過去の利用度合が多いほど、利用者が聞き取りやすいように設定されている。

また、利用者が存在する環境の環境音が所定の大きさ以上の場合、環境音が所定の大きさ未満の場合よりも、特定情報の出力態様の変化度合を小さくしてもよい。すなわち、もともと環境音が大きい環境においては、特定情報の出力を大きくさせなくてもよい。

上述したように、自動応答装置４０が、出力度合情報７２を参照することにより、利用者に違和感を与えないように情報を提供することができる。

なお、上述した説明では、一例として、利用者が音声を入力した場合に、利用度合に基づいて出力態様を制御する例について説明したが、単に自動応答装置４０が発話したり、情報を出力したりする場合において利用度合に基づいて出力態様を制御してもよい。

［具体例（その１）］
図６は、利用者と自動応答装置４０との会話の一例を示す図である。例えば、図６（Ａ）に示すように、（１）利用者が「新しい車が欲しいな。」とマイク１２に入力する。
（２）自動応答装置４０は、第１キャラクターの出力態様で、「どんな車が欲しいの？」と応答する。

次に、図６（Ｂ）に示すように、（３）利用者が「燃費のいい車がいいな。」とマイク１２に入力する。（４）自動応答装置４０は、第１キャラクターの出力態様で、「節約できるからいいよね。」と応答する。そして、（５）自動応答装置４０は、第２キャラクターの出力態様で、「車Ａが燃費いいよ。」と発話する。この第２キャラクターの出力態様は、ユーザデバイスの利用度合に応じた出力態様である。

次に、図６（Ｃ）に示すように、（６）利用者が「詳しく教えて。」とマイク１２に入力する。（７）自動応答装置４０は、第２キャラクターの出力態様で、「車Ａは電気自動車だよ。フル充電で〇〇キロ走行可能だよ。」と応答する。

このように、第１キャラクターと利用者との会話において、キーワードが出現した場合、自動応答装置４０は、ユーザデバイスの利用度合に応じた出力態様で、キーワードに基づく広告を第２キャラクターの出力態様で、利用者に提供する。この結果、利用者に違和感を与えないように情報を提供することができる。

なお、上記の（６）で、車Ａに興味を示さなかった場合、第２キャラクターは、その後、発話しなくてもよい。また、車Ａに興味を示さなかった場合、他の車に対応するキャラクターの出力態様で、他の車を紹介してもよい。

また、車の広告を提供したい場合、自動応答装置４０は、第１キャラクターに車の話題で会話するような発話や応答を行ってもよい。この場合、例えば、自動応答装置４０は、上述したキーワード、キーワードを誘導するような発話を行う。例えば、出力したい特定情報に基づいて、キャラクターの会話が選択される。

また、上述した例では、第２キャラクターの発話の出力度合を変更するものとしたが、第１キャラクターの発話の出力度合が変更されてもよい。また、出力度合は、利用者とキャラクターとの会話の度合に基づいて変更されてもよい。例えば、第１キャラクターと利用者との会話の度合が、第Ｎキャラクター（Ｎは任意の自然数）と利用者との会話の度合よりも高い場合、第１キャラクターが利用者に話し掛ける度合を、第Ｎキャラクターが利用者に話しかける度合よりも多くする。

［フローチャート（学習する処理）］
図７は、端末装置１０および自動応答装置４０により実行される処理の流れの一例を示すフローチャートである。図６のフローチャートのＳ４０、Ｓ５０、およびＳ５２の処理は、図２のフローチャートのＳ１０、Ｓ２０、およびＳ２２の処理と同様のため説明を省略する。

Ｓ５２の処理後に、自動応答装置４０は、自装置が情報を利用者に提供したか否かを判定する（Ｓ５４）。情報を利用者に提供した場合、自動応答装置４０は、提供した情報の内容、および情報の提供後の利用者の反応を取得し、取得した反応を利用情報７４として第２記憶部７０に記憶させる（Ｓ５６）。

図８は、利用情報７４の内容の一例を示す図である。利用情報７４は、利用者ごとに、過去に利用者により入力された情報、または過去に利用者に対して出力された情報と、入力された情報、または出力された情報の出力態様と、環境パターンと、出力された情報に対する利用者の反応（例えば指示）とが互いに対応付けられた情報である。

次に、自動応答装置４０は、所定のタイミングに到達したか否かを判定する（Ｓ５８）。所定のタイミングに到達していない場合、本フローチャートの１ルーチンの処理が終了する。所定のタイミングに到達した場合、自動応答装置４０は、利用情報７４を学習データとして学習する（Ｓ６０）。これにより本フローチャートの１ルーチンの処理が終了する。

上述したように、利用者に情報を提供した際の利用者の反応や、環境パターン、情報の出力態様、情報の内容が学習されることにより、利用者の好みを把握することができる。そして、学習部５２は、利用者の好みを反映させて出力度合情報７２を生成したり、更新したりすることができる。

例えば、土曜日や、時間帯が７時〜８時、利用者の周囲に親が存在している場合、利用者が自宅にいる場合、またはプライベートのスケジュールが予定されている時間帯において、他の状況の場合よりも抑制するように特定情報が出力されるように指示されたことを示す情報が、利用情報７４に含まれているものとする。この場合、学習部５２は、上述した状況に対応する環境パターンでは、特定情報の出力を抑制するように、出力度合情報７２を生成する。

上述したように、利用者と音声インタラクションするスマートスピーカなどの人工物が、音声広告や話し掛けを過剰に行うと利用者は煩雑に感じる場合があるが、本実施形態では、利用者の音声インタラクションの利用度合や、インタラクションが行われた状況に応じて、音声広告や話し掛けを調整するため、利用者に違和感を与えないように情報を提供することができる。

なお、上述した例では、提供制御部５０が、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、特定情報の出力態様を制御するものとして説明したが、これに代えて（或いは加えて）、以下のように変更されてもよい。すなわち、提供制御部５０は、ユーザデバイスの利用度合に応じて、第２応答内容の出力態様を制御する。この「第２応答内容」は、利用者により発せられた音声に対する応答内容であって広告を含む内容である。例えば、この場合、自動応答装置４０は、広告を含む応答内容を決定し、決定した応答内容をユーザデバイスの利用度合に応じた出力態様で端末装置１０に出力させる。このように、応答内容そのものが広告となり、且つ応答内容の制御態様が制御されるため、利用者に違和感を与えないように情報を提供することができる。

以上説明した第１実施形態によれば、提供制御部５０が、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、特定情報の出力態様を制御することにより、利用者に違和感を与えないように情報を提供することができる。

＜第２実施形態＞
以下、第２実施形態について説明する。提供制御部５０は、特定情報の出力態様を、応答内容の第３出力態様よりも利用者が聞き取りにくい第１出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を、第１出力態様よりも利用者が聞き取りやすい第２出力態様に変更して、特定情報を出力部に出力させる。第１実施形態との相違点を中心に説明する。

図９は、第２実施形態の情報処理システム１Ａに含まれる自動応答装置４０Ａの機能構成の一例を示す図である。自動応答装置４０Ａは、第２記憶部７０に代えて、第２記憶部７０Ａを備える。第２記憶部７０Ａは、例えば、出力度合情報７２および利用情報７４に加え、更に指示対応情報７６（詳細は後述する）を備える。

第２実施形態の応答部４８は、特定情報を端末装置１０に出力させる場合、特定情報の出力態様を、応答内容の第３出力態様よりも利用者が聞き取りにくい第１態様に変更して、特定情報を端末装置１０に出力させる。

上記のように特定情報を端末装置１０に出力させた後、自動応答装置４０Ａは、利用者の指示を受け付けた場合に、特定情報の出願態様を、第１出力態様よりも利用者が聞き取りやすい第２出力態様に変更して、特定情報を端末装置１０に出力させる。第２出力態様は、例えば、第１出力態様よりも、音量が大きい、音の周波数帯が利用者にとって聞き取りやすい、情報が出力されるテンポが適切である態様である。

なお、利用者が聞き取りにくい第１態様に変更する処理において、利用者が存在する環境の環境音が所定の大きさ以上の場合、環境音が所定の大きさ未満の場合よりも、特定情報の出力態様を変化させなくてもよいし、出力態様の変化度合を小さくしてもよい。もともと環境音が大きい環境で出力態様を変更しても利用者に対する影響が小さいためである。

［フローチャート］
図１０は、端末装置１０および第２実施形態の自動応答装置４０Ａにより実行される処理の流れの一例を示すフローチャートである。本処理は、第１出力態様で特定情報が出力された後に実行される処理である。図１０のフローチャートのＳ６０、Ｓ７０、およびＳ７２の処理は、図２のフローチャートのＳ１０、Ｓ２０、およびＳ２２の処理と同様のため説明を省略する。

次に、自動応答装置４０Ａは、指示対応情報７６を参照し、特定された利用者と、特定された環境パターンと、入力された音声に含まれる情報（指示の内容）との組み合わせに合致する広告の情報の出力態様を決定する（Ｓ７４）。指示の内容とは、利用者が情報の出力に関して求めた指示の情報である。指示の内容とは、例えば、ボリュームを上げることや、ゆっくりと情報を出力させること、高い音で情報を出力させること、数秒前に出力された情報を出力すること等、またはこれらの組み合わせである。

図１１は、指示対応情報７６の内容の一例を示す図である。指示対応情報７６は、利用者によって行われた指示に対して、どのような出力態様で情報を出力するかを決定するのに用いられる情報である。指示対応情報７６は、例えば、環境パターンごとに、利用者ＩＤ、指示の内容、および出力態様が互いに対応付けられた情報である。

次に、自動応答装置４０Ａは、端末装置１０に決定した出力態様で広告の情報を出力するように指示する（Ｓ７６）。次に、端末装置１０は、自動応答装置４０Ａの指示に基づいて、決定された出力態様で広告の情報をスピーカ１４に出力させる（Ｓ６２）。これにより本フローチャートの１ルーチンの処理が終了する。

上述したように、自動応答装置４０が、利用者の求めに応じて出力態様を変更するため、利用者に違和感を与えないように情報を提供することができる。

［具体例（その２−１）］
図１２は、第２実施形態の利用者と自動応答装置４０Ａとの会話の一例を示す図である。例えば、図１２（Ａ）に示すように、（１）利用者が「新しい車が欲しいな。」とマイク１２に入力する。（２）自動応答装置４０Ａは、第１キャラクターの出力態様で、「どんな車が欲しいの？」と応答する。

次に、図１２（Ｂ）に示すように、（３）利用者が「燃費のいい車がいいな。」とマイク１２に入力する。（４）自動応答装置４０Ａは、第１キャラクターの出力態様で、「節約できるからいいよね。」と応答する。

次に、例えば、数秒程度、利用者によって発話がされない場合、図１２（Ｃ）に示すように、（５）自動応答装置４０Ａは、第２キャラクターの出力態様であり、且つ第１出力態様で、「車Ａをおすすめします。・・・・」と発話する。

（６）利用者は、上記（５）で出力された情報に興味を持っていたが音量が小さいため聞こえなかったことから、「聞こえないよ。」と発話する。そうすると、（７）自動応答装置４０Ａは、第２キャラクターの出力態様であり、且つ音量を上げて、上記（５）で出力させた情報を端末装置１０に出力させる。すなわち、第２キャラクターが「車Ａをおすすめします。・・・」と、再度、発話する。

このように、第２キャラクターが情報を出力する場合の出力態様を、第１キャラクターが情報を出力する場合の出力態様よりも、利用者が聞き取りにくくすることにより、利用者に煩わしさを感じさせることを抑制することができる。また、利用者の求めに応じ、第２キャラクターが情報を出力する場合の出力態様を、利用者が聞き取りやすいようにすることにより、利用者にとっての利便性を向上させることができる。

なお、上述した説明では、一例として、利用者が音声を入力した場合に、特定情報が出力される例について説明したが、単に自動応答装置４０Ａが特定情報を出力する場合において、上記のように出力態様が制御されてもよい。また、例えば、出力したい特定情報に基づいて、第１のキャラクターと第２のキャラクターの会話が選択されてもよい。

［具体例（その２−２）］
図１３は、広告の情報が出力される際の音量の変化を示す図である。図１３の縦軸は音の大きさを示し、図１３の横軸は時間を示している。以下で説明する広告Ａ〜Ｃの各広告の長さ（時間）は、例えば所定秒（例えば１５秒程度）である。広告Ａ〜Ｃの順で広告の情報が出力される予定であるものとする。この場合において、例えば、広告Ａが出力され、広告Ｂが出力され、広告Ｂの内容が出力されている途中（図１３の時刻Ｔ）で、利用者が音量を上げることを指示した。自動応答装置４０Ａは、時刻Ｔにおいて、広告Ｂの内容を最初から端末装置１０に出力させる。すなわち、所定時間遡った部分や音量を絞った部分から、広告Ｂが再出力される。また、その後、自動応答装置４０Ａは、図示するように広告Ｂの内容が出力された後、音量を上げる前の音量に下げてもよいし、音量を上げた状態を維持してもよい。

上述したように、自動応答装置４０Ａが、利用者により指示がされた場合に、指示された際に出力していた広告を最初から出力させるため、利用者は所望の情報を取得することができる。

なお、上述した例では、利用者の指示に基づいて、内容Ｂを最初から出力するものとしたが、広告Ａの最初から出力してもよいし、利用者の指示がされたときから所定時間前に出力されていた情報から出力してもよい。また、利用者の発話の内容（例えば切迫度）に基づいて、再出力させる情報が決定されてもよい。また、自動応答装置４０Ａは、過去の利用者の指示の傾向または予め設定された条件に基づいて、利用者の指示がされたときから、どの程度前から広告を再度再生するかを決定してもよい。

［その他］
提供制御部５０は、特定情報の属性に基づいて、特定情報の出力態様を、第１出力態様に変更して特定情報を出力部に出力させてもよい。特定情報の属性とは、広告に関する情報、機器の操作に関する情報、楽曲、およびユーザに関連する期限に関する情報（パスワードの変更期限などの情報）のうち、少なくとも一つを含む。例えば、提供制御部５０は、広告に関する情報の出力態様を第１出力態様に変更し、他の属性の特定情報は出力態様を変更しなくてもよい。

提供制御部５０は、広告の種別に基づいて特定情報の出力態様を、第１出力態様に変更して特定情報を出力部に出力させてもよい。広告の種別とは、例えば、広告に対応する商品の種別である。例えば、提供制御部５０は、車の広告の出力態様については、第１出力態様に変更するが、不動産の広告の出力態様については、第１出力態様に変更せずに、出力部に出力させてもよい。

また、提供制御部５０は、広告の種別と、過去に行われた利用者の指示の結果とに基づいて、特定情報の出力態様を、第１出力態様に変更して特定情報を出力部に出力させてもよい。例えば、学習部５２が、広告の種別と、過去に行われた利用者の指示の結果とを学習する。例えば、学習部５２は、車の広告が出力された場合、利用者はボリュームのアップを指示したが、不動産の広告が出力された場合、利用者はボリュームのダウンを指示したことを学習する。この場合、例えば、提供制御部５０は、車の広告の出力態様については、第１出力態様に変更するが、不動産の広告の出力態様については、第１出力態様に変更せずに、出力部に出力させてもよい。

また、提供制御部５０は、上記の考え方を採用して、利用者に対応する環境パターンに基づいて、特定情報の出力態様を、第１出力態様に変更してもよい。例えば、ある環境においては、第１出力態様で特定情報が出力されることが利用者にとって好ましいことが学習部５２により学習される。提供制御部５０は、学習結果に基づいて、特定情報を第１出力態様で出力する。

また、利用者により指定された情報（例えば所定の属性の情報）の出力態様については、第１出力態様に変更し、指定されていない情報の出力態様については第１出力態様に変更しなくてもよい。

また、指示対応情報７６は、学習部５２により生成される。例えば、学習部５２は、第１出力態様で特定情報が出力部に出力された後、環境パターンごとに、利用者により受けた指示の内容および指示に基づいて変更された特定情報の出力態様を学習する。そして、学習部５２は、所定の環境パターンにおいて、特定情報の出力態様をどのように変更させたかを学習して、利用者の嗜好に合致する指示対応情報７６を生成する。

例えば、学習部５２は、土曜日や、時間帯が７時〜８時、利用者の周囲に親が存在している場合、利用者が自宅にいる場合、またはプライベートのスケジュールが予定されている時間帯において、利用者により受けた指示の内容および指示に基づいて変更した特定情報の出力態様を学習し、学習結果に基づいて、指示対応情報７６を生成する。例えば、利用者が、所定の環境パターンにおいてボリューム「１０」で特定情報の出力させる傾向にある場合、指示対応情報７６において、ボリュームの変更指示がされた場合の第２出力態様はボリューム「１０」に設定される。

以上説明した第２実施形態によれば、提供制御部５０は、特定情報の出力態様を、応答内容の出力態様よりも利用者が聞き取りにくい第１出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を、第１出力態様よりも利用者が聞き取りやすい第２出力態様に変更して、特定情報を出力部に出力させることにより、利用者に違和感を与えないように情報を提供することができる。

例えば、自動応答装置と利用者との対話の延長にそのまま音声広告を出力すると、煩わしく思われたり、ステルスマーケティング（ステマ）とみなされてしまったりする場合があるが、本実施形態のように、特定情報を利用者が聞き取りにくい第１出力態様に変更して出力部に出力させた後、利用者の指示によって特定情報を第２出力態様に変更して出力部に出力させることにより、煩わしいと感じさせることを抑制したり、ステルスマーケティングとみなされること抑制する。

＜第３実施形態＞
以下、第３実施形態について説明する。提供制御部５０は、応答内容を出力する第１のキャラクターと、特定情報を出力する第２のキャラクターとの会話を出力部に出力させる。第１実施形態との相違点を中心に説明する。

図１４は、第３実施形態の情報処理システム１Ｂの機能構成の一例を示す図である。情報処理システム１Ｂは、例えば、端末装置１０Ｂと、自動応答装置４０Ｂと、広告提供装置８０Ｂとを備える。

端末装置１０Ｂは、第１実施形態の端末装置１０の機能構成に加え、更に表示部１５と、画像生成部１９とを備える。表示部１５は、画像生成部１９の制御に基づいて、画像を表示する。画像生成部１９は、自動応答装置４０Ｂにより送信された情報に基づいて、表示部１５に画像を表示させる。例えば、音声生成部１８と画像生成部１９とは、自動応答装置４０Ｂにより送信された情報に基づいて、表示部１５に表示される画像の内容と、スピーカ１４に出力される音声の内容とが意図したタイミングになるように協調して、スピーカ１４および表示部１５を制御する。以下、音声生成部１８と画像生成部１９とを合わせたものを、「生成部１７」と称する。

自動応答装置４０Ｂは、第１実施形態の自動応答装置４０の機能構成に加え、更に画像提供部４９を備え、第１実施形態の第１記憶部６０に代えて、第１記憶部６０Ｂを備える。第１記憶部６０Ｂは、例えば、第１実施形態の第１記憶部６０に記憶された情報に加え、更にモーション情報６９が記憶されている。モーション情報６９は、利用者と会話するキャラクターの動きが規定された情報である。画像提供部４９は、モーション情報６９に含まれる情報、または広告提供装置８０Ｂにより提供された情報に基づいて、端末装置１０Ｂに表示される画像を生成するための情報を端末装置１０に提供する。画像を生成するための情報には、スピーカ１４に出力される発話に対して、画像を変化させるタイミングが対応付けられている。以下、応答部４８と画像提供部４９とを合わせたものを、「応答提供部４７」と称する。

広告提供装置８０Ｂは、第１実施形態の広告提供装置側記憶部９０に代えて、広告提供装置側記憶部９０Ｂを備える。広告提供装置側記憶部９０は、例えば、広告情報９２Ｂを備える。広告情報９２Ｂは、第１実施形態の広告情報９２の情報に加え、更に広告モーション情報９３を備える。広告モーション情報９３は、広告ＩＤに対応付けられたキャラクターの動きが規定された情報である。

［フローチャート］
図１５は、自動応答装置４０Ｂにより実行される処理の流れの一例を示すフローチャートである。まず、応答提供部４７が、第１キャラクターと第２キャラクターとを会話させる（Ｓ８０）。次に、広告提供部４７は、第２キャラクターに広告の情報を出力させる（Ｓ８２）。

次に、自動応答装置４０Ｂは、出力された広告の情報（第１の特定情報）に応じて利用者が音声を入力したか否かを判定する（Ｓ８４）。なお、音声に代えて、所定の操作がされたか否かが判定されてもよい。利用者が音声を入力していない場合、本フローチャートの１ルーチンの処理が終了する。

利用者が音声を入力した場合、自動応答装置４０Ｂは、利用者が広告の情報の出力に対して煩わしいと感じているか否かを判定する（Ｓ８６）。「煩わしいと感じている」とは、例えば、入力された音声に含まれる情報が広告の情報の出力に関して、否定的な意味を有していることである。より具体的には、例えば、「静かにして」、「やめて」、「音を下げて」などの意味を有する発話がされた場合、利用者が煩わしいと感じていると判定される。利用者が煩わしいと感じていない場合、本フローチャートの１ルーチンの処理が終了する。なお、Ｓ８６で煩わしいと感じていない場合、自動応答装置４０Ｂは、第１の特定情報よりも詳細な情報である第２の特定情報を出力部に出力させる。詳細な情報とは、例えば、第１の特定情報が商品名や商品の属性である場合、その説明的な内容である。

利用者が煩わしいと感じている場合、応答提供部４７は、広告の情報を出力させることを停止する（Ｓ８８）。なお、停止に代えて、利用者の反応に基づいて出力態様を変更させてもよい。例えば、利用者が「音を下げて」と入力した場合、広告の情報が出力される音が小さく制御される。これにより本フローチャートの１ルーチンの処理が終了する。

上述したように、キャラクター同士が会話をして広告の情報を出力させることにより、利用者に対して、より情報に対する興味を持たせることができる。また、利用者の反応に応じて、情報の出力を抑制するため、利用者にとっての利便性が向上する。

［具体例（その３−１）］
図１６は、第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その１）である。提供制御部は、利用者に提供した情報に基づいて、第１キャラクターと第２キャラクターとを会話させる。例えば、図１６に示すように、（１）第２キャラクターＣＲ２が「今日の天気はどう？」と発話する。（２）第１キャラクターＣＲ１が、「予報では快晴だよ。」と応答する。

次に、（３）第２キャラクターＣＲ２が「ドライブ日和だね。」と発話する。次に、（４）第１キャラクターＣＲ１が、「そうだね。」と応答する。次に、（５）第２キャラクターＣＲ２が、「そういえば、ドライブするのに最適な車が発売されたよ。」と発話する。

このように、キャラクター同士で会話させて、商品を紹介することにより、利用者により自然に商品に興味を持たせることができる。

［具体例（その３−２）］
例えば、自動応答装置４０Ｂは、第１キャラクターと利用者との会話に基づいて、利用者の好みや、嗜好、行動予定等の嗜好情報を取得する。嗜好情報とは、例えば、利用者の趣味や、利用頻度が高い施設または場所、購入頻度が高い商品、購入を希望している商品またはサービス等の情報である。

図１７は、第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その２）である。提供制御部５０は、例えば、利用者と第１キャラクターとの会話に含まれる会話情報を第２キャラクターにより出力される特定情報の内容に反映させるか否かを利用者に問い合わせ、利用者に許諾を得た場合、会話情報を特定情報の内容に反映させる。

例えば、図１７に示すように、（１）第１キャラクターＣＲ１が「利用者Ａさん。利用者Ａさんが車の購入を考えていること他の人に教えていい？」と発話する。この発話に対して、利用者Ａさんが「いいよ。」と回答したものとする。（２）第１キャラクターＣＲ１が、「いいんだね。他の人に教えておくね。きっといい車が見つかるよ！」と応答する。このように、第１キャラクターが利用者の興味関心、傾向などの情報を第２キャラクターに提供することで、第２キャラクターが出力する情報を最適化する。

図１８は、第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その３）である。前述した図１７の（２）の応答後、所定のタイミングで以下の会話が行われる。（１）第２キャラクターＣＲ２が、例えば表示部１５に表示されていない状態で「ごめんください。」と発話する。次に、（２）第１キャラクターＣＲ１が、「どなたですか？」と応答する。次に、（３）第２キャラクターＣＲ２が、「少しお時間よろしいでしょうか？」と発話する。次に、（４）第１キャラクターＣＲ１が、「利用者Ａさん、どなたか尋ねてきましたよ。入れてもいいですか？」と発話する。この発話に対して、利用者Ａさんが、「入れていいよ。」と回答したものとする。次に、（５）第１キャラクターＣＲ１が、利用者Ａさんの発話に応じて、「お入りください。」と発話する。その後、表示部１５に図１９に示す画像が表示される。

図１９は、第３実施形態の会話および表示部１５に表示される画像の一例を示す図（その４）である。（１）第２キャラクターＣＲ２が、例えば表示部１５に表示された状態で「お車をお探しであることをお伺いしたので、ご紹介に参りました。」と発話する。次に、（２）第１キャラクターＣＲ１が、「利用者Ａさん、お話聞いてみますか？」と応答する。この応答に対して、利用者が肯定的な発話を行った場合、例えば、第２キャラクターＣＲ２は、商品を紹介する。この応答に対して、利用者が否定的な発話を行った場合、例えば、第２キャラクターＣＲ２は、商品の紹介を行わず、姿を消す。

このように、嗜好情報の取扱いについて、許可が得られた場合に、利用者の嗜好情報に応じた広告の情報が出力されるため、利用者に煩わしさを感じさせることを抑制しつつ、利用者にとっての利便性を向上させることができる。

なお、上述した例では、第１キャラクターＣＲ１と第２キャラクターＣＲ２とが会話する例について説明したが、これに代えて（または加えて）第２キャラクターＣＲ２と、第３キャラクターとが会話してもよい。第３キャラクターは、例えば、第２キャラクターＣＲ２がおすすめする商品（またはサービス）と競合する（または関連する）商品（またはサービス）を宣伝するキャラクターである。

以上説明した第３実施形態によれば、提供制御部５０は、第１のキャラクターに応じた出力態様によって応答内容を出力部に出力させ、第２のキャラクターに応じた出力態様によって特定情報を出力部に出力させ、第１のキャラクターと第２のキャラクターとの会話を出力部に出力させることにより、よりユーザに情報に対する興味を喚起させることができる。

なお、上述した各実施形態の情報処理システム１では、端末装置１０は一台であるものとして説明したが、二以上の端末装置１０が設けられてもよい。この場合、自動応答装置４０は、例えば、第１の端末装置１０または第２の端末装置１０から、その装置の識別情報と共に端末装置１０に入力された音声データを取得する。そして、自動応答装置４０は、取得した識別情報を参照して、第１の端末装置１０に第１キャラクターの出力態様で応答内容を出力させ、第２の端末装置１０に第２キャラクターの出力態様で特定情報を出力させる。

以上説明した実施形態によれば、利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報とを出力部に出力させる応答部と、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、前記特定情報の出力態様を制御する制御部とを備えることにより、利用者に違和感を与えないように情報を提供することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１，１Ａ、１Ｂ…情報処理システム、１０…端末装置、１２…マイク、１４…スピーカ、１５…表示部、１６…音声認識部、１８…音声生成部、１９…画像生成部、４０、４０Ａ、４０Ｂ…自動応答装置、４２…利用者特定部、４３…環境解析部、４６…解釈部、４８…応答部、４９…画像提供部、５０…提供制御部、５２…学習部、８０…広告提供装置、８２…情報提供部

Claims

利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報である広告とを音声を出力する出力部に音声として出力させる応答部と、
記憶装置に記憶された音声が入力または出力の対象とされたユーザデバイスの利用度合を示す情報を参照し、前記参照した利用度合に応じて、前記応答部が前記出力部に出力させる前記広告の出力頻度を制御する制御部と、を備え、
前記制御部は、前記応答部が前記広告を前記出力部に出力させている途中で、前記利用者に発せられた音声に対応する音声データに含まれる音量を上げることを示す情報を取得した場合、前記応答部に前記広告を冒頭から出力させることを指示し、
前記応答部は、前記広告を冒頭から前記出力部に出力させる、
情報処理システム。
前記制御部は、前記音量を上げることを示す情報を取得した場合、前記応答部に前記広告を冒頭から出力させることを指示することに加え、前記冒頭から出力させる広告の音量を、前記音量を上げることを示す情報を取得する前の音量よりも上げる指示を前記応答部に行い、
前記応答部は、前記冒頭から前記広告を前記出力部に出力させる際の音声の音量を上昇させて、前記冒頭から前記広告を前記出力部に出力させる、
請求項１に記載の情報処理システム。
前記制御部は、記憶装置に記憶された音声が入力または出力の対象とされたユーザデバイスの利用度合を参照し、前記利用度合が高いほど、前記特定情報の出力度合を多くする、
請求項１または２に記載の情報処理システム。
前記利用度合は、利用者が音声を前記ユーザデバイスに入力した回数または頻度に基づく値を含む、
請求項１から３のうちいずれか１項に記載の情報処理システム。
前記利用度合は、利用者が前記ユーザデバイスに音声を出力させた回数または頻度に基づく値を含む、
請求項１から４のうちいずれか１項に記載の情報処理システム。
前記利用度合は、広告に関する音声が前記ユーザデバイスに出力された度合である、
請求項１から５のうちいずれか１項に記載の情報処理システム。
前記利用度合は、音楽が前記ユーザデバイスに出力された度合を除く、
請求項１から５のうちいずれか１項に記載の情報処理システム。
前記広告は、前記利用者により発せられた音声または前記応答内容に含まれる言葉と同一の意味を有する商品の情報、または前記音声または前記応答内容に含まれる言葉に関連する商品の情報である、
請求項１から７のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、時間帯とに基づいて、前記特定情報の出力態様を制御する、
請求項１から８のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、前記利用者が存在している環境とに基づいて、前記特定情報の出力態様を制御する、
請求項１から９のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、前記利用者が存在している位置とに基づいて、前記特定情報の出力態様を制御する、
請求項１から１０のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、前記利用者の周辺に存在している人物とに基づいて、前記特定情報の出力態様を制御する、
請求項１から１１のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、前記利用者のスケジュール情報とに基づいて、前記特定情報の出力態様を制御する、
請求項１から１２のうちいずれか１項に記載の情報処理システム。
前記制御部は、記憶装置に記憶された前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合と、前記利用者が存在する環境の環境音とに基づいて、前記特定情報の出力態様を制御する、
請求項１から１３のうちいずれか１項に記載の情報処理システム。
前記制御部は、前記利用者が存在する環境の環境音が所定の大きさ以上の場合、前記環境音が所定の大きさ未満の場合よりも、前記特定情報の出力態様の変化度合を小さくする、
請求項１４に記載の情報処理システム。
前記制御部は、前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合が高いほど、前記特定情報の出力態様を前記利用者が聞き取りやすいように制御する、
請求項１から１５のうちいずれか１項に記載の情報処理システム。
前記特定情報の出力態様とは、音の大きさ、音の高低、または前記特定情報が出力されるテンポである、
請求項９から１６うちいずれか１項に記載の情報処理システム。
前記制御部は、第１のキャラクターに応じた出力態様によって前記応答内容を出力部に出力させ、且つ第２のキャラクターに応じた出力態様によって前記特定情報を出力部に出力させる、
請求項１から１７のうちいずれか１項に記載の情報処理システム。
一以上のコンピュータが、
記憶装置に記憶された音声が入力または出力の対象とされたユーザデバイスの利用度合を示す情報を参照する処理と、
前記参照した利用度合に応じて、利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報である広告とを音声を出力する出力部に音声として出力させる応答部を制御して、前記出力部に出力させる前記広告の出力頻度を制御する処理と、
前記応答部が前記広告を前記出力部に出力させている途中で、前記利用者に発せられた音声に対応する音声データに含まれる音量を上げることを示す情報を取得した場合、前記応答部に前記広告を冒頭から出力させることを指示し、前記応答部の制御によって前記広告を冒頭から前記出力部に出力させる処理と、
を備える情報処理方法。
一以上のコンピュータに、
記憶装置に記憶された音声が入力または出力の対象とされたユーザデバイスの利用度合を示す情報を参照する処理と、
前記参照した利用度合に応じて、利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報である広告とを音声を出力する出力部に音声として出力させる応答部を制御して、前記出力部に出力させる前記広告の出力頻度を制御する処理と、
前記応答部が前記広告を前記出力部に出力させている途中で、前記利用者に発せられた音声に対応する音声データに含まれる音量を上げることを示す情報を取得した場合、前記応答部に前記広告を冒頭から出力させることを指示し、前記応答部の制御によって前記広告を冒頭から前記出力部に出力させる処理と、
を実行させるプログラム。