JP2012517174A

JP2012517174A - ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするためのシステムおよび方法

Info

Publication number: JP2012517174A
Application number: JP2011548797A
Authority: JP
Inventors: エウゲニウス・ヴラシウク
Original assignee: Softhus Sp ZOO
Current assignee: Softhus Sp ZOO
Priority date: 2009-02-03
Filing date: 2010-01-19
Publication date: 2012-07-26
Also published as: US20100198595A1; RU2011136720A; IL214424A0; KR20110127180A; TW201034004A; US20130226579A1; US20130226575A1; EP2394267A1; SG173511A1; CN102369568A; WO2010089645A1; US8417523B2

Abstract

音声認識モジュール、セッション・マネージャ、および、音声生成器モジュールを有するシステムにおいて、ユーザに対しサービスを提供する方法であって、音声認識モジュールを介して発声を受け取るステップと、オントロジーと結び付けられたレキシコンを用いて発声を１つもしくは複数のストラクチャに変換するステップと、ストラクチャを用いて発声に含まれるコンセプトを特定するステップと、発声に十分な情報が含まれる場合にコンセプトに基づいてサービスを選択するステップと、選択されたサービスに基づいてテキスト・メッセージを生成するステップと、音声生成器を用いてテキスト・メッセージを音声メッセージへ変換するステップと、を有する。

Description

本願が開示する実施形態は、インタラクティブな音声応答システムに関し、特に、例えば、店（ショップ、shops）、レンタカー店（car rentals）、モーテル（motels）等、ホストされたサービスに、電話による通信（telephony）を介して、音声コミュニケーションによるアクセスを可能にするシステムおよび方法に関する。

現代の法人は、コストや便宜上の理由から、ごく普通に、インターネットや電話を介して顧客サービスを提供する。近年、ユーザは、視覚的表現機能を提供するアクセス・デバイスから、例えば、ウェブサーバが作成するハイパーテキストマークアップ言語（ＨＴＭＬ）によるドキュメントをリクエストして受信するインターネット・ウェブ・ブラウザを備えたパーソナル・コンピュータ（ＰＣ）から、上述のインターネット・サービスを享受する。電子商取引（ｅコマース、e-commerce）アプリケーションの場合、ウェブサーバは、サービス論理（サービスロジック、service logic）、および、ユーザの入力を処理するトランザクションサーバ・インタフェース（transaction server interface）を備えるか、または、それへのアクセスを提供する。サービス論理は、いくつもの、よく知られたウェブ・プログラミング・ツールを用いてプログラムされる。

ユーザは、オーディオ・インタラクション機能を有するアクセス・デバイスで、例えば、電話で、あるいは、ボイス・オーバー・インターネット・プロトコル（ＶｏＩＰ）デバイスで、オーディオ入力、出力、および、電話通信機能（telephony functions）、ならびに、自機のサービス論理およびトランザクションサーバ・インタフェースを有する音声自動応答（ＩＶＲ、interactive voice response）プラットフォームと通話して、電話サービスを受ける。ＩＶＲシステムは、自動的に、電話ユーザを、言葉による指示で、システム上のリンクされたサービスにアクセスさせることができる。そのサービス論理は、大抵の場合、プラットフォームのアプリケーション・プログラミング・インタフェース（ＡＰＩ）を用いる汎用ソフトウェア言語、または、プラットフォームに特化したスクリプト言語で、プログラムされる。

メニュー（menus）、有向ダイアログ（directed dialogs）、混合イニシアティブ・ダイアログ（mixed-initiative dialogs）を含む、従来のＩＶＲシステムの対話スタイルは、発声認識技術（utterance recognition technology）の発達により可能となった。メニュー・スタイルの対話は、ユーザに電話のキーパッドの数字を押すことで、または、簡単な回答、例えば、「はい」、「いいえ」とか、単純な数字を発声することで、一群の選択肢から１つの項目を選択することを求める、あらかじめ録音しておいた音声プロンプトを使用する。有向ダイアログにおいては、システムは、個別の答え（discrete answers）を要求する別々の質問（discrete questions）を行ってデータを収集し、ユーザを誘導する。例えば、人がどこに住んでいるかを割り出すために、離散ダイアログ・システム（discrete dialog system）は、先ず、人に対し、彼が住んでいる州（state）の名前を挙げさせて、その後で、街（city）を尋ねる。混合イニシアティブ・ダイアログ・システムは、ユーザに、１回の発声で、複数のデータ（multiple pieces of data）を入力させ、部分的な情報（partial information）を提供する。

このような前進が見られるものの、従来のＩＶＲは、依然として、スローであり、かつ人間味がなく（impersonal）、それに、システムとユーザとの対話をアシストするために、面倒なプラットフォームを用意する。電話中に、メニューのオプションや選択肢の迷路内で巧みに行動することはとても時間がかかる。また、有向ダイアログ・システムや混合イニシアティブ・ダイアログ・システムにおける、音声による指示を認識／理解するための構成は、用意された質問（scripted question）に対する応答ではない音声指示を上手く取り扱えるようには設計されていない。つまり、現在のＩＶＲでは、ユーザがサービスを、真に、インタラクティブに利用することができない。

ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするための方法およびシステムを開示する。

ある態様は、音声認識モジュール(voice recognition module)、セッション・マネージャ（session manager）、および、音声生成器モジュール（voice generator module）を有するシステムにおいて、ユーザに対しサービスを提供する方法であって、当該方法は、音声認識モジュールを介して発声（utterance）を受け取るステップと、概念体系（オントロジー、ontology）と結び付けられた用語集（レキシコン、lexicon）を用いて該発声を１つもしくは複数の構造（ストラクチャ、structures）に変換するステップと、該構造を用いて発声に含まれる概念（コンセプト、concepts）を特定する（identifying）ステップと、発声に十分な情報が含まれる場合には概念に基づいてサービスを選択するステップと、選択されたサービスに基づいてテキスト・メッセージを生成するステップと、音声生成器（ボイス・ジェネレータ、voice generator）を用いて当該テキスト・メッセージを音声メッセージへ変換するステップと、を有する。

別の方法は、ユーザに対しサービスを提供するシステムであって、当該方法は、発声を受け取りオントロジーと結び付けられたレキシコンを用いて該発声をテキスト、１つもしくは複数のストラクチャへ変換する音声認識モジュールと、音声認識モジュールと接続され、オントロジーと結び付けられたレキシコンを用いて該テキストと関係づけられるストラクチャを生成し、当該ストラクチャを用いて発声に含まれるコンセプトを特定し、発声に十分な情報が含まれる場合にはコンセプトに基づいてサービスを選択し、選択されたサービスに基づいて応答テキスト・メッセージ（reply text message）を生成するセッション・マネージャと、セッション・マネージャと接続され、応答テキスト・メッセージを音声メッセージへ変換する音声生成器モジュールと、を有する。

本発明の、これらおよびその他の特徴、態様、ならびに、実施形態は、以下の「詳細な説明」の欄で説明する。

音声コミュニケーションを用いてユーザをホストされたサービスにインタラクティブにアクセスさせる、ある実施形態による音声自動応答（ＩＶＲ）システムの機能的要素の図一実施形態による、図１に示したシステムに含むことが可能なセッション・マネージャの内部構成、および、それらと人間理解システム（ヒューマン・アンダスタンディング・システム、Human Understanding System）に含まれる残りのモジュールとの相互作用を示す図一実施形態による、図２および図３で例示したシステムの動作を例示するフローチャート一実施形態による、図２および図３で例示したシステムの動作を例示するより詳細なフローチャート一実施形態による、図１および図２のセッション・マネージャにおいて実施可能な、発声例（example utterances）の構造（ストラクチャ）の生成を例示する図

本願が開示する原理およびその有利点をより完全に理解するため、添付の図面と併せて以下の説明を参照する。

以下、音声コミュニケーションを用いてインタラクティブに、ホストされたサービスにアクセスするための方法およびシステムについて説明する。当然のことだが、本願に記載されるシステムおよび方法は、具体的細部のいくつかまたは全てを使用せずに実施可能である。別の例においては、簡潔性のために、周知の処理動作につては、詳細な説明を行っていない。

本願で使用するように、電話通信（テレフォニー、telephony）は、例えば、固定電話（land line phones）、携帯電話（mobile phones）、インターネット通信デバイス等の設備の一般的な利用により、距離を隔てた音声コミュニケーションをするものである。電話通信（テレフォニー）は、アナログ型信号、つまり、時間および振幅について連続的な信号を用いて音声コミュニケーションを送る、従来のアナログ電話システムを含み、かつ、デジタル型信号（つまり、離散的な二値）で音声コミュニケーションを送る、より最近のデジタル電話システムをも含む。ボイス・オーバー・インターネット・プロトコル（ＶｏＩＰ）

インターネット、あるいは、ワールド・ワイド・ウェブ（ＷＷＷ）は、高域ネットワーク（ＷＡＮ）であり、互いにリンクし合う多くのサーバで構成され、相互にデータを、ＴＣＰ／ＩＰ、リライアブル・ユーザ・データグラム・プロトコル（ＲＵＤＰ、Reliable User Datagram Protocol）、或いは、それらの等価物といったネットワーク・データ伝送プロトコルを用いて、伝送可能である。一般に、インターネットは、広い地理的領域内に存在する数多くのサーバ同士をリンクさせる。対照的に、ローカル・エリア・ネットワーク（ＬＡＮ）は、家庭、オフィス、大学（college）といった狭い値域をカバーするような、比較的小さな、サーバ・ネットワークである。

前述のとおり、ＩＶＲシステムは、本願に記載の、音声コミュニケーションを用いてインタラクティブに顧客がいずれのサービスを要求（リクエスト）しているのかを判断し、かつ、メニュー駆動（menu-driven）型の、または、予め用意されたダイアログを用いずに、顧客にサービスを配信するためのシステムおよび方法から利益を享受することができる。

図１は、ユーザが、ホストされたサービスに音声コミュニケーションを用いインタラクティブにアクセス可能にする、本実施形態による音声自動応答（ＩＶＲ、Interactive Voice Response）システムの機能要素を例示する図である。図示するように、本システムは、複数のホストされたサービス１０８を含んだ人間理解システム１０３と通信可能に構成されたテレフォニー・デバイス（電話通信装置）１０２を操作するユーザ１０１を処遇する。人間理解システム１０３を介してアクセス可能なように、各差＾ビス１０６は、本システム内にて先ず定義されなければならない。

そのため、システム１００は、複数のサービス１０８を運用（handle）することができ、かつ、それらサービスを、人間理解システム１０３を通じてユーザ１０１へ提供することが可能である。登録プロセスの例にあっては、各サービスについて以下の要素が提供される。それらは、サービスを利用可能な地理的領域（geographic regions）、自然言語によって記述されたサービスの詳細な説明、ユーザ１０１へサービスを提供するためにユーザ１０１から求める必要があるデータのリスト、および、会話のスクリプトである。

ある実施形態においては、登録されたホストされたサービス（registered hosted service）はそれぞれ、１つまたは複数のグループのサービス提供者、例えば、店（ショップ）、レンタカー店、モーテルと関係付けられる。言うまでもなく、ユーザ１０１がテレフォニー・デバイス１０２によりこれらのサービスを注文（オーダ、order）可能であれば、人の生活の数多くの側面において、適切なホストされたサービスが提供可能である。

ある実施形態においては、テレフォニー・デバイス１０２は、例えば、アナログ物理的有線接続といった、アナログ信号を用いて音声データを伝送するアナログ固定電話（analog land line）で人間理解システム１０３と、通信可能にリンクされる。他の実施形態においては、テレフォニー・デバイス１０２は、例えば、デジタル光ファイバ接続といった、離散的なデジタル二値信号を用いて音声データを伝送するデジタル固定電話（digital land line）で人間理解システム１０３と、通信可能にリンクされる。

さらに別の実施形態においては、例えば、携帯電話や衛星電話といったテレフォニー・デバイス１０２は、ラジオ周波数（ＲＦ）またはマイクロ波の信号のいずれかで人間理解システム１０３へ音声データを送信する無線通信リンクを通じて人間理解システム１０３と通信可能にリンクされる。伝送フォーマットは、アナログまたはデジタルのいずれも可能であり、無線通信リンクは、人間理解システム１０３に対するダイレクト・リンク（a direct link）でも、または、固定線（land line）もしくは他の無線接続によって人間理解システム１０３と接続された親機（ベース・ユニット、base unit）を介してもよい。なおさらに別の実施形態においては、テレフォニー・デバイス１０２、つまり、インターネット通信デバイスは、固定電話、無線接続、または、それら両方を介し、ボイス・オーバー・インターネット・プロトコル（ＶＯＩＰ）もしくはそれと等価なプロトコルを用いて音声データを伝送するネットワーク接続により、人間理解システム１０３と通信可能にリンク可能である。このネットワーク接続は、局所的なネットワーク、つまりローカル・エリア・ネットワークとして、または、高域ネットワークつまりインターネットとして提供されてよい。

ある実施形態においては、本システムは、人間理解システム１０３によって提供されるサービスにアクセスするために人間理解システム１０３に電話をかけようと携帯電話、すなわちテレフォニー・デバイス１０２を操作するユーザ１０１を介して動作可能である。携帯電話１０２は、ＲＦリンク経由で、携帯電話会社（mobile phone provider）、つまりセルラー・ネットワーク・プロバイダと通信し、該プロバイダ自体は、人間理解システム１０３と通信する公衆交換電話網（ＰＳＴＮ、Public Switched Telephone Network）、つまり固定電話とリンクされる。同様、人間理解システム１０３は、インターネットまたはＬＡＮを介して数多くのドメイン・システム（domain system）と通信可能にリンク可能である。別のシナリオでは、ユーザ１０１は、ＶＯＩＰを利用可能なコンピュータ、つまりテレフォニー・デバイス１０２を操作して、インターネットとリンクした人間理解システム１０３にＶＯＩＰで電話をかけることも可能である。ＶＯＩＰ利用可能コンピュータは、例えば、インターネットやＬＡＮ等のネットワーク接続を通じて、人間理解システム１０３と通信可能にリンクされたブロードバンド・インターネット接続を経由して、通信する。

当然のことだが、上述のシナリオは、例示を目的として示されるに過ぎず、システム１００が使用することのできる通信形態を多少なりとも限定することを意図するものではない。ユーザ１０１と人間理解システム１０３との間の通信を確立する手法は、多数考えられる。そこでは、人間理解システム１０４が音声データを処理して理解することを可能とする程度の十分な明瞭性および特定性（specificity）で音声データが人間理解システム１０３へ伝送されるかは、その確立されたシステムの性能のみで決まる。

引き続き図１を参照すれば、人間理解システム１０３は、音声認識モジュール１０４、音声生成器モジュール１０６、および、セッション・マネージャ・モジュール１０５を有する。音声認識モジュール１０４は、ユーザ１０１からの発声を、例えば、上述した電話通信のための構成のいずれかを用いて人間理解システム１０３と通信可能にリンクされたテレフォニー・デバイス１０２を介して受け取ることができる。ある実施形態においては、発声は、ユーザ１０１がアクセスを要求する提供サービスに関する情報に加え、例えば、識別情報（identification information）、ユーザ１０１に関する情報を含む。音声認識モジュール１０４は、ユーザ１０１から受信した音声データをテキスト・データへ変換（translate）し、データをセッション・マネージャ１０５へ転送する。

当然のことだが、人間理解システム１０３は、ここに記載する機能を実行するために必要な構成を、ハードウェアおよびソフトウェアで、備えることができる。また、人間理解システム１０３は、別の構成要素および機能を備えてもよく、また、ある特定の機能が、同一または異なる構成要素により実行可能であってよい。よって、図１は、本願記載のシステムおよび方法を、ある特定のアーキテクチャまたは構成に限定するものとして捉えてはならない。むしろ、図１は、単なる一例を示す図である。

実施形態において、音声認識モジュール１０４は、世界の最もよく使われる３０の言語を理解（recognize）する。音声認識モジュールが理解する言語の例としては、英語、中国語、ヒンディー語、スペイン語、ベンガル語、ポルトガル語、ロシア語、ドイツ語、日本語、フランス語がある。別の実施形態においては、音声認識モジュール１０４は、人間理解システム１０３が取り扱うサービスによって指定された言語のみを理解してもよい。しかしながら、システム管理者が、音声認識モジュール１０４を、言語の言語学的特徴を利用してコンピュータ処理によって変換可能な言語を認識可能なように構成可能であることは、言うまでもない。音声認識モジュール１０４は、また、デバイス１０２を介して得たユーザ１０１の音声を、テキストに変換することも可能である。

セッション・マネージャ・モジュール１０５は、２つの状態で動作可能である。２つの状態は、１）「サービス選択状態（Choosing Service State）」、および、２）「会話スクリプト状態（Conversation Script State）」で、１）では、セッション・マネージャ・モジュール１０５は、サービス１０６を選択し、２）では、セッション・マネージャ・モジュール１０５は、選択されたサービス１０６に相応しい会話スクリプト２０３を実行する。

セッション・マネージャ・モジュール１０５は、オントロジー（概念体系）と結び付けられた、特定の自然言語についてのレキシコン（用語集）群を備える。これにより、自然な発話（natural speech）のテキストを、文法および概念の情報を含んだ特殊構造体（スペシャル・ストラクチャ、special structures）へ変換することが可能となる。この概念情報（オントロジカル・インフォメーション、ontological information）は、どのサービス１０６が要求されているかを決定するために使用されてよく、また、「会話スクリプト状態」においても、例えば、特定の概念（コンセプト、concepts）を実際にユーザ１０１が伝達したかどうかを尋ねるために使用してもよい。

セッション・マネージャ１０５が「サービス選択状態」で動作する場合、次のプロセス、顧客の発声に生じたオントロジー上のコンセプトに最も近いオントロジー上の概念が定義付けされたサービス１０８を選択し同時に顧客の発声と相容れない（conflict with）オントロジー上のコンセプトが定義付けされたサービスを排除（exclude）する、を実行することができる。情報が、セッション・マネージャ１０５にとって要求されるサービス１０６の特定を決するのに十分でない場合、セッション・マネージャ１０５は、当該決定をするために求められる必要な情報をユーザ１０１へ尋ねるのに相応しいテキストを生成してもよい。そして、セッション・マネージャ１０５は、当該テキストを、テキストを発声へ変換する音声生成器モジュール１０６へ転送する。音声生成器モジュール１０６は、ユーザ１０１が聴けるように、テレフォニー・デバイス１０２と通信を行う。

実施形態においては、このプロセスは、セッション・マネージャ１０５により、必要な頻度で、セッション・マネージャ１０５が、ユーザ１０１により提示された音声データにより要求されるサービス１０８の特定を決するのに十分な情報が得るまで、繰り返し実行してよい。別の実施形態においては、システム・アドミニストレータが、相応しい会話スクリプト２０３と共に、例えば、サービス選択サービス（service-to-choose services）のような特別サービス（スペシャル・サービス、special services）をイネーブルに、または、実施することができる。これにより、顧客にさらなる情報を求め、特定のサービス１０８を選択することが可能になる。ある特定の実施形態においては、会話スクリプト２０３は、別のサービスをコール可能である。例えば、レンタカー・アプリケーションでは、スペシャル・サービスが、サービスを完了させるためにコールされ、州（state）、市（city）、車種等に基づいて、相応しいレンタカー会社を選択する。

上述の様々な実施形態は、ユーザ１０１と人間理解システム１０３との間の高度にインタラクティブなやりとり（ダイアログ、dialog）をもたらす。これの目的は、ユーザ１０１がどのサービス１０８あるいはその他の情報を要求しているのかを決定しようと試みることを含め、ユーザ１０１と取り扱っているサービス１０８との間の通信環境（コミュニケーションの環境、communications environment）を、可能な限り忠実に模倣することにある。これとは逆に、一連のメニュー項目を選択せねばならない、および／または、一連の情報の要求に応答しなければならないような、従来のシステムでは、応答のための選択およびリクエストは、予め定められた決定樹（デシジョン・ツリー）に沿って、固定的で、比較的線的（リニア）な工程を辿る。これらの従来の相互作用は、二人の人間の間の自然会話とは似ても似つかないものである。

上述の音声認識モジュール１０４のように、ある実施形態において、音声生成器モジュール１０６は、最もよく使われる世界の３０の言語の会話のみ可能であってよい。他の実施形態においては、音声生成器モジュール１０６は、人間理解システム１０３に割り当てられたサービスサービスが指定する言語のみを理解可能であってもよい。しかしながら、システム管理者が、音声生成器モジュール１０６を、言語の言語学的特徴を利用してコンピュータ処理によって変換可能な言語を認識可能なように構成可能であることは、言うまでもない。

セッション・マネージャ１０５が、ユーザによってリクエストされたサービス１０８を成功裡に特定すると、セッション・マネージャ１０５は、当該サービスに定義付けされた会話スクリプトの実行を開始する。

図２は、セッション・マネージャ１０５の内部構成の詳細図であり、実施形態においてこれらの構成要素がどのように人間理解システム１０３の他のモジュールと相互作用するかを示している。本実施形態において示されるように、セッション・マネージャ１０５は、スクリプト・エンジン２０２、サービス１０８の全てに定義付けされた会話スクリプト２０３、サービス・データベース２０４、および、サービスデータ管理部２０５を有する。

また、セッション・マネージャは、テキスト−ストラクチャ・モジュール２１２を有し、これは、人間の発声に関するテキストを、適当なレキシコン２１０を用いて特有のストラクチャ（スペシャル・ストラクチャ、special structures）に変換することができる。レキシコン２１０は、オントロジー２１１とリンクされている。この関連付けにより、テキスト−ストラクチャ・モジュール２１２は、人間言語に依存することなく、定義付けされたあらゆる人間言語を、文法およびオントロジーの情報を備えたストラクチャへ変換することができる。

また、セッション・マネージャ１０５は、スペシャル・コンセプト調査部（スペシャル・コンセプト・プロスペクタ、Special Concepts Prospector）を備えることも可能である。スペシャル・コンセプト調査部２３０を理解するには、スペシャル・コンセプトとは何かを説明する必要がある。スペシャル・コンセプトとは、例えば、名前、色、住所（addresses）のような理解する必要がない概念（コンセプト）である。むしろ、興味の対象は、当該コンセプトに関連付けされた値または順位（ランク）である。このようなコンセプトは、あらゆる自然言語において、数多くのパターンを有し、当該パターンによって、人間はそれらについて語ることができる。したがって、スペシャル・コンセプト調査部２３０は、テキスト、および、発声より生成されたストラクチャを解析することにより、スペシャル・コンセプトの値を抽出する。加えて、適切な言語で、当該値と関連付けされたコンセプトをより明確にすることができるような情報をユーザ１０１から引き出すような質問のセットを定義付けすることができる。

スクリプト・エンジン２０２が、会話スクリプト２０３においてスペシャル・コンセプトについてのリクエストと遭遇すると、スペシャル・コンセプト調査部２３０をコールして、当該コンセプトに関連付けされた値を取得する。この情報が欠如している場合には、スペシャル・コンセプト調査部２３０は、スクリプト・エンジン２０２に対し、音声生成器モジュール１０６を通じて顧客１０１へ転送することができる適切な質問を転送する。答えを受け取ると、プロセスは、必要に応じて繰り返すことができる。顧客が答えを返すことを拒否した場合には、スクリプト・エンジン２０２は、スクリプトが対処可能となるように、その事実を記録する。スペシャル・コンセプトおよびその使用例については、後でより詳細に説明する。

特別命令（スペシャル・インストラクション、special instructions）を会話スクリプト２０３に組み込んで、適切なデータベースへのクエリを作成可能である。その他の命令も、サービス１０８と関連付けされた会話スクリプト２０３へ組み込むことができ、そうすることによって、その結果を顧客へ提示し、顧客が特定の値を選択することができるようすることができる。また、さらに別の命令を用いて、データベース２０４を、適切なデータで更新することも可能である。

会話スクリプト２０３における条件付命令（コンディショナル・インストラクション、conditional instructions）は、予想される人間の反応に対処することを可能にする。これらの条件付命令は、例えば、イフ（if）、スィッチ（switch）、ホワイル（while）等の、システム１０３で有効な命令を含むことができる。また、ユーザ１０１が答えやある種の情報の提供を拒否した場合にどうすべきかといった様々なシナリオを扱った、より具体的な会話スクリプト２０３を含むこともできる。

会話スクリプト２０３は、メッセージ番号（message numbers）で動作するように構成可能であり、顧客が使用する言語に応じて自然言語のメッセージへ変換される。

図３は、システム１００がサービスを選択しユーザ１０１に提供するとき（「サービス選択状態」）に使用するプロセス例を、ある実施形態に基づいて詳細に示したフローチャートである。ステップ３０２において、音声認識エンジン１０４は、デバイス１０２およびそれに付随する通信施設を介してユーザ１０１の発声を受け取ることができる。注記するが、ユーザ１０１から受け取る発声に含んでよい情報の種類を数例記すなら、発声は、識別情報、つまり名前、番号、住所等と、認証情報、つまり社会保障番号（social security number）、確認番号（confirmation number）等と、所望のサービスに関する情報、つまり販売（sales）、カスタマー・サービス（customer service）、予約（reservations）等を含んでよい。

ステップ３０４において、音声認識モジュールは、発声を、ステップ３０６においてセッション・マネージャ１０５へ転送可能なテキストに翻訳または変換する。

次に、セッション・マネージャ１０５は、ステップ３０８において、オントロジーとリンクされたレキシコンを用いて、テキストをストラクチャへ変換する。ステップ３１０において、セッション・マネージャ１０５は、ストラクチャを用いて、発声に含まれるコンセプト、つまり発声に含まれるオントロジー・コンセプトを特定する。ステップ３１２において、コンセプトを用いて、リクエストされているサービス１０８を特定する。コンセプト、および、システム１０３におけるその特定について、以下でより詳細に説明する。

サービス１０８特定に十分な情報が発声に含まれていない場合、セッション・マネージャは、ステップ３１４において、サービス１０８の特定が可能になるように、さらなる情報を引き出すためのテキスト・メッセージを生成する。テキスト・メッセージは、会話スクリプト２０３を用いて生成することができ、また、ステップＳ３１６において、テキスト・メッセージを音声生成器１０６へ送ることができる。音声生成器１０６は、テキスト・メッセージを、デバイス１０２を通じてユーザ１０１へ伝達される発話（スピーチ）へ変換することができる。

その後、プロセスは、ステップ３１８においてサービスを選択するのに十分な情報が得られるまで繰り返される。サービスが選択されると、ステップ３２０において相応しい会話スクリプト２０３を起動させることが可能になり、ステップ３２２において、音声生成器１０６へ転送可能なテキスト・メッセージを生成することが可能になり、ユーザ１０１とコミュニケーションを取ることが可能になる。

図４は、ある実施形態において、セッション・マネージャ１０５が行うサービス選択にかかるプロセスの詳細を示すフローチャートである。ステップ４０２において、スクリプト・エンジン２０２は、音声認識モジュール１０４からテキスト情報を受け取り、該テキストを、テキスト−ストラクチャ・エンジン２１２へ送る。該エンジンは、相応しいレキシコン２１０および関連付けされたオントロジー２１１を用い、ステップ４０４において、テキストをストラクチャへ変換することができる。そして、ストラクチャは、ステップ４０６において、サービス選択部２２０がサービス・データベース２０４からサービスを選択することに用いられる。

ステップ４０８において、選択されたサービスは、スクリプト・エンジン２０２に、会話スクリプト２０３を用い、ユーザ１０１へ適切な情報を提供するのに必要な、あるいは、ユーザ１０１から情報を求めるのに必要な、適切なテキスト・メッセージの生成を行わせる。言い換えるなら、スクリプト・エンジン２０２は、会話スクリプト２０３と協働することにより、システム１０３が、選択されたサービスによって決定される自然な方法でユーザ１０１とコミュニケートすることを可能にしている。

サービスデータ・マネージャ２０５は、様々なサービスと関連付けされたデータをサービス・データベース２０４に格納することができる。また、サービス・データベース２０５は、例えば、スペシャル・コンセプト・プロセッサ２３０と同様に、ユーザ１０１から受け取った情報を格納することができる。よって、ステップ４０８においてメッセージが生成されると、ステップ４１０において、それに対する応答として新たな情報が受理される。ステップ４１２において、ステップ４１０において受理された情報と関連付けされた情報または値を、サービス・データベース４１２に格納することができる。

図５は、ある実施形態による、ストラクチャの形成およびそれらをコンセプトとリンク付けする例を示す図である。図５は、次の発声「I would like to make an appointment for my wife with her doctor. （私は、私の妻のために、彼女の医師を予約をしたい。）」、および、それと同等のポーランド語「

」の過程を例示する図である。発声５０２（英語）および発声５１４（ポーランド語）は、それぞれの言語の関連するレキシコン２１０によって定義付けされた語彙素（レクセム、lexems）を複数含む。一般に、各言語のレキシコン２１０の各レクセムは、相応する単数または複数のコンセプト５０８と、直接的に、または、語尾変化を有する言語（languages with flexion）においては語幹（ルート・レクセム、root lexeme）を介して、結びついている。各コンセプト５０８は、各レキシコン２１０に含まれる複数の語彙素（レクセム）と結びついている。なぜなら、自然言語によるコミュニケーションにおいては、多くの同義語（シノニム、synonyms）があり、また、同一のコンセプトを伝達するために異なる方法が存在するからである。

引き続き図５を参照すれば、発声５０２および５１４は、ユニット５０４および５１２へ変換可能である。各ユニット５０４および５１２は、発声に含まれる１つまたは複数の語彙素と対応付け可能である。例えば、ユニット５０４は、単一の語彙素と対応付け可能であり、あるいは、例えば、図５の例の発声５０２における「would like to （したい）」のようなグループ化のように、ユニット５０４は、複数のサブ・ユニットを含み、複数の語彙素と対応付け可能である。各ユニット５０４、または、サブ・ユニットは、関連するオントロジー２１１に基づいて、リンク５０６および５１０を介して１つまたは複数のコンセプト５０８とリンク付け可能である。

ユニット５０４および５１２ならびにリンク５０６および５１０の組み合わせは、それぞれ、様々なコンセプト５０８と関係付けされたストラクチャ５０５および５１５を形成する。注意すべきは、特定されたコンセプトを指し示している、あるいは、特定されたコンセプトへ導く、入力された発声に含まれる語彙素に拘わらず、各コンセプト５０８は、唯一無二の（ユニークな）ストラクチャを有することである。言い換えれば、発声５０２が、僅かに異なるように提示されるならば、つまり「I would like to make a doctors appointment for my wife. （私は、医師の予約を、私の妻のためにしたい。）」あるいは「I would like to see if my wife's doctor is available. （私は、私の妻の医師が空いているかどうかを確かめたい。）」のように提示されるならば、非常に類似したストラクチャ５０５および５１５が生成され、同じようなコンセプト５０８の特定に帰結されるべきである。

よって、システム１０３において定義付けされた各サービス１０８は、それと関連付けされるコンセプト５０８のセットを有することが可能である。多くの実施形態においては、重要なコンセプトのみを含めることで、不必要な関連付けを回避している。また、他の実施形態においては、文法を伝達する（communicate grammar）のみの語彙素は省略されている。また、任意で、各サービスは、排他条件および必要条件（excluding and required conditions）を備えることも可能である。例えば、ある特定のサービス１０８が選択されるには、ある特定の情報の存在が必須である一方、該サービス１０８が選択されるには、別の情報が含まれていてはならない。

このように、コンセプト５０８は、サービスと関連付け可能である。言い換えれば、各サービスは、それと関連付けされる特定のコンセプトを有することができる。セッション・マネージャ１０５は、例えば、例えば発声５０２のような発声と関連付けられた、例えばストラクチャ５０５のようなストラクチャを決定し、かつ該ストラクチャ５０５と最も密に関連付けされているサービス１０８、つまり、ストラクチャ５０５により発声５０２と最もよく関連付けされたコンセプト５０８を有するサービス１０８、がどれであるかを決定することができる。ある特定の実施形態においては、セッション・マネージャ１０５は、どのサービス１０８がもっともよく発声５０２と関係づけられるかを決定する際に、各サービス１０８について、必要条件および排他条件が満足されるかどうかを判断することもできる。

一旦、サービス１０８が選択されれば、次のステップでは、会話スクリプト２０３を用いて当該サービスに関するデータの収集を行うことができる。これには、上述のスペシャル・コンセプトが含まれてよい。繰り返しになるが、スペシャル・コンセプトは、システム１０３が関連付けされる値順位（バリュー・ランク、value rank）を生成することを試みる点を除き、システム１０３が真に理解しようと試みないコンセプトである。

先ず、発声、例えば、発声５０２が必要なデータを含んでいるかどうかを判断するために、それを評価可能である。値または順位は、提供されたデータが、この情報とどれだけ強く対応しているかを示す指標（インディケーション、indication）である。データが含まるかどうかを判断し、値もしくは順位を提供するタスクは、スペシャル・コンセプト・プロセッサ２３０が実行可能である。発声５０２が、必要なデータを含んでいないことが明らかであれば、スクリプト・エンジン２０２は、選択されたサービス１０８による制御の下で、情報を引き出すための会話スクリプトを選択することができる。上記の例においては、顧客は、（対話スクリプトにおいて、）約束の日付を求められることになる。なぜなら、サービスを発注するに際し、この情報のみ特定されていないからである。

ひとたび、全てのひつような情報が存在することを示す値が生成されれば、データを格納し、約束をとるために使用可能となる。すると、会話スクリプト２０４は、ユーザに伝達可能な、約束（アポイントメント）を確認するメッセージを生成するのに使用可能となる。

繰り返しになるが、会話スクリプト２０３は、受理した発声に対し、自然言語を用いた自然な方法での応答を生成し行う。よって、ユーザ１０１は、普通の会話で必要な情報の提供を促されているように感じる。

本願に記載のシステムおよび方法の全てまたは一部は、コンピュータ読み出し可能な媒体に記録されたコンピュータ読み取り可能なコードとして具現化可能である。コンピュータ読み取り可能な媒体は、データを格納することができるデータ記憶装置であればよく、後に、コンピュータ・システムによって読み出しされる。コンピュータ読み取り可能な媒体の例は、ハード・ドライブ、ネットワーク接続ストレージ（ＮＡＳ、network attached storage）、リード・オンリー・メモリ、ランダム・アクセス・メモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、ならびに、その他の光学的もしくは被光学的データ記憶装置を含む。コンピュータ読み取り可能な媒体は、コンピュータ・システムと接続するネットワークを介して配布可能であり、コンピュータ読み取り可能なコードが、配信形式により保存され実行されてよい。

ここでは、複数の実施形態について説明したが、当然のことながら、当業者であれば、本願記載のシステムおよび方法は、その他の形態で実施可能であることを理解するであろう。したがって、これに記載した例および実施形態は、限定的でなく、例示的なものと海佐入れるべきである。本願記載のシステムおよび方法は、ここに記載した細部に限定されてはならず、添付のクレームの範囲内で、変更して実施可能である。

１００：システム
１０１：ユーザ
１０２：テレフォニー・デバイス
１０３：人間理解システム（ヒューマン・アンダスタンディング・システム）
１０４：音声認識モジュール
１０５：セッション・マネージャ・モジュール
１０６：音声生成器モジュール
１０８：サービス
２０２：スクリプト・エンジン・モジュール
２０３：会話スクリプト・モジュール
２０４：サービス・データベース
２０５：サービスデータ管理モジュール
２１０：言語レキシコン・モジュール
２１１：オントロジー・モジュール
２１２：テキスト−ストラクチャ・モジュール
２２０：サービス選択モジュール
２３０：スペシャル・コンセプト調査モジュール
５０２：発声
５０４：ユニット
５０５：ストラクチャ
５０６：リンク
５０８：コンセプト
５１０：リンク
５１２：ユニット
５１４：発声
５１５：ストラクチャ

Claims

音声認識モジュールと、セッション・マネージャと、音声生成器モジュールと、を有するシステムにおいてユーザに対しサービスを提供する方法であって、
前記音声認識モジュールを介して発声を受け取るステップと、
オントロジーと結び付けられたレキシコンを用いて前記発声を１つまたは複数のストラクチャへ変換するステップと、
前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップと、
前記発声に十分な情報が含まれる場合に前記コンセプトに基づいてサービスを選択するステップと、
選択された前記サービスに基づいてテキスト・メッセージを生成するステップと、
前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップと、を有する方法。
さらに、前記発声をテキストへ変換し、その後で、前記テキストを前記１つまたは複数のストラクチャへ変換するステップを有する請求項１に記載の方法。
さらに、前記発声に十分な情報が含まれない場合に更なる情報を求めるためのテキスト・メッセージを生成し、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換し、前記音声メッセージを前記ユーザに伝達するステップを有する請求項１に記載の方法。
さらに、前記音声メッセージを前記ユーザに伝達するステップを有する請求項１に記載の方法。
さらに、
前記音声認識モジュールを介して前記ユーザに伝達された前記音声メッセージに対する応答における更なる発声を受け取るステップと、
オントロジーと結び付けられたレキシコンを用いて前記音声を１つまたは複数のストラクチャへ変換するステップと、
前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップと、
特定された前記コンセプトに基づいて前記ユーザに提供する情報を取得するステップと、
取得した前記情報および特定された前記コンセプトの少なくともいずれか１つに基づいて別のテキスト・メッセージを生成するステップと、
前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップと、
前記テキスト・メッセージを前記ユーザに伝達するステップと、を有する請求項１に記載の方法。
前記オントロジーと結び付けられたレキシコンを用いて前記発声を１つまたは複数のストラクチャへ変換するステップが、
前記発声を、複数のサービスと関連付けされた複数のコンセプトとリンク付けされた１つまたは複数のユニットと関連付けするステップ、
を含む、請求項１に記載の方法。
前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップが、
前記複数のコンセプトのどれが前記ユニットとリンク付けされているかを判断するステップ、
を含む、請求項６に記載の方法。
さらに、前記コンセプトに基づいてサービスを選択するステップが、
どのサービスが最も密接に前記発声と関連するかを、前記複数のサービスそれぞれに関し、関連付けされたコンセプトの数に基づいて判断するステップであって、前記関連付けされたコンセプトは前記ユニットを介して前記発声とリンク付けされているコンセプトである、ステップ、
を含む請求項７に記載の方法。
さらに、選択された前記サービスと関連付けされたスペシャル・コンセプトを特定し、前記発声に含まれる情報に基づいて特定された前記スペシャル・コンセプトに値を割り当てるステップを有する請求項１に記載の方法。
さらに、
前記発声に、選択された前記サービスと関連付けされたスペシャル・コンセプトの全てが存在するかどうかを判断し、存在しない場合に、欠落しているスペシャル・コンセプトのいずれかに関連する情報を求めるテキスト・メッセージを生成し、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップを有する請求項９に記載の方法。
さらに、
スペシャル・コンセプトの全てが含まれている場合に前記サービスを実行、または、完了するステップを有する請求項１０に記載の方法。
前記サービスを実行するステップは、
前記発声に含まれる、前記スペシャル・コンセプトに関する情報を格納するステップ
を含む請求項１１に記載の方法。
ユーザに対しサービスを提供するシステムであって、
発声を受け取り、概念体系と結び付けられた用語集を用いて前記発声をテキストへ変換し１つもしくは複数のストラクチャへ変換する音声認識モジュールと、
前記音声認識モジュールと接続され、
オントロジーと結び付けられたレキシコンを用いて前記テキストに関するストラクチャを生成し、
前記ストラクチャを用いて前記発声に含まれるコンセプトを特定し、
前記発声に十分な情報が含まれる場合に前記コンセプトに基づいてサービスを選択し、
選択された前記サービスに基づいて応答テキスト・メッセージを生成する、セッション・マネージャと、
前記セッション・マネージャと接続され、前記応答テキスト・メッセージを音声メッセージへ変換する音声生成器モジュールと、を有するシステム。
前記セッション・マネージャは、さらに、前記発声に十分な情報が含まれない場合に更なる情報を求めるためのテキスト・メッセージを生成し、
前記音声生成器モジュールは、さらに、前記テキスト・メッセージを音声メッセージへ変換し、前記音声メッセージを前記ユーザに伝達する、請求項１３に記載のシステム。
前記セッション・マネージャは、さらに、前記発声を、複数のサービスと関連付けされた複数のコンセプトとリンク付けされた１つまたは複数のユニットと関連付けすることにより、前記テキストに関するストラクチャを生成する、請求項１３に記載のシステム。
前記セッション・マネージャは、さらに、前記複数のコンセプトのどれが前記ユニットとリンク付けされているかを判断することにより、前記ストラクチャを用いて前記発声に含まれるコンセプトを特定する、請求項１５に記載のシステム。
前記セッション・マネージャは、さらに、どのサービスが最も密接に前記発声と関連するかを、前記複数のサービスそれぞれに関し、関連付けされたコンセプトの数に基づいて判断することにより、前記コンセプトに基づいてサービスを選択し、
前記関連付けされたコンセプトは前記ユニットを介して前記発声とリンク付けされているコンセプトである、請求項１６に記載のシステム。
前記セッション・マネージャは、さらに、選択された前記サービスと関連付けされたスペシャル・コンセプトを特定し、前記発声に含まれる情報に基づいて特定された前記スペシャル・コンセプトに値を割り当てる、請求項１３に記載のシステム。
前記セッション・マネージャは、さらに、前記発声に、選択された前記サービスと関連付けされたスペシャル・コンセプトの全てが存在するかどうかを判断し、存在しない場合に、欠落しているスペシャル・コンセプトのいずれかに関連する情報を求めるテキスト・メッセージを生成し、
前記音声生成器モジュールは、さらに、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換する、請求項１８に記載のシステム。
前記セッション・マネージャは、さらに、全てのスペシャル・コンセプトが存在し値が割り当てられている場合に、前記サービスを実行、または、完了する、請求項１９に記載のシステム。
前記セッション・マネージャは、さらに、前記発声に含まれる、前記スペシャル・コンセプトに関する情報を格納する、請求項２０に記載のシステム。