[go: up one dir, main page]

JP2012517174A - ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするためのシステムおよび方法 - Google Patents

ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするためのシステムおよび方法 Download PDF

Info

Publication number
JP2012517174A
JP2012517174A JP2011548797A JP2011548797A JP2012517174A JP 2012517174 A JP2012517174 A JP 2012517174A JP 2011548797 A JP2011548797 A JP 2011548797A JP 2011548797 A JP2011548797 A JP 2011548797A JP 2012517174 A JP2012517174 A JP 2012517174A
Authority
JP
Japan
Prior art keywords
utterance
concept
service
information
session manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011548797A
Other languages
English (en)
Inventor
エウゲニウス・ヴラシウク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Softhus Sp ZOO
Original Assignee
Softhus Sp ZOO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softhus Sp ZOO filed Critical Softhus Sp ZOO
Publication of JP2012517174A publication Critical patent/JP2012517174A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声認識モジュール、セッション・マネージャ、および、音声生成器モジュールを有するシステムにおいて、ユーザに対しサービスを提供する方法であって、音声認識モジュールを介して発声を受け取るステップと、オントロジーと結び付けられたレキシコンを用いて発声を1つもしくは複数のストラクチャに変換するステップと、ストラクチャを用いて発声に含まれるコンセプトを特定するステップと、発声に十分な情報が含まれる場合にコンセプトに基づいてサービスを選択するステップと、選択されたサービスに基づいてテキスト・メッセージを生成するステップと、音声生成器を用いてテキスト・メッセージを音声メッセージへ変換するステップと、を有する。

Description

本願が開示する実施形態は、インタラクティブな音声応答システムに関し、特に、例えば、店(ショップ、shops)、レンタカー店(car rentals)、モーテル(motels)等、ホストされたサービスに、電話による通信(telephony)を介して、音声コミュニケーションによるアクセスを可能にするシステムおよび方法に関する。
現代の法人は、コストや便宜上の理由から、ごく普通に、インターネットや電話を介して顧客サービスを提供する。近年、ユーザは、視覚的表現機能を提供するアクセス・デバイスから、例えば、ウェブサーバが作成するハイパーテキストマークアップ言語(HTML)によるドキュメントをリクエストして受信するインターネット・ウェブ・ブラウザを備えたパーソナル・コンピュータ(PC)から、上述のインターネット・サービスを享受する。電子商取引(eコマース、e-commerce)アプリケーションの場合、ウェブサーバは、サービス論理(サービスロジック、service logic)、および、ユーザの入力を処理するトランザクションサーバ・インタフェース(transaction server interface)を備えるか、または、それへのアクセスを提供する。サービス論理は、いくつもの、よく知られたウェブ・プログラミング・ツールを用いてプログラムされる。
ユーザは、オーディオ・インタラクション機能を有するアクセス・デバイスで、例えば、電話で、あるいは、ボイス・オーバー・インターネット・プロトコル(VoIP)デバイスで、オーディオ入力、出力、および、電話通信機能(telephony functions)、ならびに、自機のサービス論理およびトランザクションサーバ・インタフェースを有する音声自動応答(IVR、interactive voice response)プラットフォームと通話して、電話サービスを受ける。IVRシステムは、自動的に、電話ユーザを、言葉による指示で、システム上のリンクされたサービスにアクセスさせることができる。そのサービス論理は、大抵の場合、プラットフォームのアプリケーション・プログラミング・インタフェース(API)を用いる汎用ソフトウェア言語、または、プラットフォームに特化したスクリプト言語で、プログラムされる。
メニュー(menus)、有向ダイアログ(directed dialogs)、混合イニシアティブ・ダイアログ(mixed-initiative dialogs)を含む、従来のIVRシステムの対話スタイルは、発声認識技術(utterance recognition technology)の発達により可能となった。メニュー・スタイルの対話は、ユーザに電話のキーパッドの数字を押すことで、または、簡単な回答、例えば、「はい」、「いいえ」とか、単純な数字を発声することで、一群の選択肢から1つの項目を選択することを求める、あらかじめ録音しておいた音声プロンプトを使用する。有向ダイアログにおいては、システムは、個別の答え(discrete answers)を要求する別々の質問(discrete questions)を行ってデータを収集し、ユーザを誘導する。例えば、人がどこに住んでいるかを割り出すために、離散ダイアログ・システム(discrete dialog system)は、先ず、人に対し、彼が住んでいる州(state)の名前を挙げさせて、その後で、街(city)を尋ねる。混合イニシアティブ・ダイアログ・システムは、ユーザに、1回の発声で、複数のデータ(multiple pieces of data)を入力させ、部分的な情報(partial information)を提供する。
このような前進が見られるものの、従来のIVRは、依然として、スローであり、かつ人間味がなく(impersonal)、それに、システムとユーザとの対話をアシストするために、面倒なプラットフォームを用意する。電話中に、メニューのオプションや選択肢の迷路内で巧みに行動することはとても時間がかかる。また、有向ダイアログ・システムや混合イニシアティブ・ダイアログ・システムにおける、音声による指示を認識/理解するための構成は、用意された質問(scripted question)に対する応答ではない音声指示を上手く取り扱えるようには設計されていない。つまり、現在のIVRでは、ユーザがサービスを、真に、インタラクティブに利用することができない。
ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするための方法およびシステムを開示する。
ある態様は、音声認識モジュール(voice recognition module)、セッション・マネージャ(session manager)、および、音声生成器モジュール(voice generator module)を有するシステムにおいて、ユーザに対しサービスを提供する方法であって、当該方法は、音声認識モジュールを介して発声(utterance)を受け取るステップと、概念体系(オントロジー、ontology)と結び付けられた用語集(レキシコン、lexicon)を用いて該発声を1つもしくは複数の構造(ストラクチャ、structures)に変換するステップと、該構造を用いて発声に含まれる概念(コンセプト、concepts)を特定する(identifying)ステップと、発声に十分な情報が含まれる場合には概念に基づいてサービスを選択するステップと、選択されたサービスに基づいてテキスト・メッセージを生成するステップと、音声生成器(ボイス・ジェネレータ、voice generator)を用いて当該テキスト・メッセージを音声メッセージへ変換するステップと、を有する。
別の方法は、ユーザに対しサービスを提供するシステムであって、当該方法は、発声を受け取りオントロジーと結び付けられたレキシコンを用いて該発声をテキスト、1つもしくは複数のストラクチャへ変換する音声認識モジュールと、音声認識モジュールと接続され、オントロジーと結び付けられたレキシコンを用いて該テキストと関係づけられるストラクチャを生成し、当該ストラクチャを用いて発声に含まれるコンセプトを特定し、発声に十分な情報が含まれる場合にはコンセプトに基づいてサービスを選択し、選択されたサービスに基づいて応答テキスト・メッセージ(reply text message)を生成するセッション・マネージャと、セッション・マネージャと接続され、応答テキスト・メッセージを音声メッセージへ変換する音声生成器モジュールと、を有する。
本発明の、これらおよびその他の特徴、態様、ならびに、実施形態は、以下の「詳細な説明」の欄で説明する。
音声コミュニケーションを用いてユーザをホストされたサービスにインタラクティブにアクセスさせる、ある実施形態による音声自動応答(IVR)システムの機能的要素の図 一実施形態による、図1に示したシステムに含むことが可能なセッション・マネージャの内部構成、および、それらと人間理解システム(ヒューマン・アンダスタンディング・システム、Human Understanding System)に含まれる残りのモジュールとの相互作用を示す図 一実施形態による、図2および図3で例示したシステムの動作を例示するフローチャート 一実施形態による、図2および図3で例示したシステムの動作を例示するより詳細なフローチャート 一実施形態による、図1および図2のセッション・マネージャにおいて実施可能な、発声例(example utterances)の構造(ストラクチャ)の生成を例示する図
本願が開示する原理およびその有利点をより完全に理解するため、添付の図面と併せて以下の説明を参照する。
以下、音声コミュニケーションを用いてインタラクティブに、ホストされたサービスにアクセスするための方法およびシステムについて説明する。当然のことだが、本願に記載されるシステムおよび方法は、具体的細部のいくつかまたは全てを使用せずに実施可能である。別の例においては、簡潔性のために、周知の処理動作につては、詳細な説明を行っていない。
本願で使用するように、電話通信(テレフォニー、telephony)は、例えば、固定電話(land line phones)、携帯電話(mobile phones)、インターネット通信デバイス等の設備の一般的な利用により、距離を隔てた音声コミュニケーションをするものである。電話通信(テレフォニー)は、アナログ型信号、つまり、時間および振幅について連続的な信号を用いて音声コミュニケーションを送る、従来のアナログ電話システムを含み、かつ、デジタル型信号(つまり、離散的な二値)で音声コミュニケーションを送る、より最近のデジタル電話システムをも含む。ボイス・オーバー・インターネット・プロトコル(VoIP)
インターネット、あるいは、ワールド・ワイド・ウェブ(WWW)は、高域ネットワーク(WAN)であり、互いにリンクし合う多くのサーバで構成され、相互にデータを、TCP/IP、リライアブル・ユーザ・データグラム・プロトコル(RUDP、Reliable User Datagram Protocol)、或いは、それらの等価物といったネットワーク・データ伝送プロトコルを用いて、伝送可能である。一般に、インターネットは、広い地理的領域内に存在する数多くのサーバ同士をリンクさせる。対照的に、ローカル・エリア・ネットワーク(LAN)は、家庭、オフィス、大学(college)といった狭い値域をカバーするような、比較的小さな、サーバ・ネットワークである。
前述のとおり、IVRシステムは、本願に記載の、音声コミュニケーションを用いてインタラクティブに顧客がいずれのサービスを要求(リクエスト)しているのかを判断し、かつ、メニュー駆動(menu-driven)型の、または、予め用意されたダイアログを用いずに、顧客にサービスを配信するためのシステムおよび方法から利益を享受することができる。
図1は、ユーザが、ホストされたサービスに音声コミュニケーションを用いインタラクティブにアクセス可能にする、本実施形態による音声自動応答(IVR、Interactive Voice Response)システムの機能要素を例示する図である。図示するように、本システムは、複数のホストされたサービス108を含んだ人間理解システム103と通信可能に構成されたテレフォニー・デバイス(電話通信装置)102を操作するユーザ101を処遇する。人間理解システム103を介してアクセス可能なように、各差^ビス106は、本システム内にて先ず定義されなければならない。
そのため、システム100は、複数のサービス108を運用(handle)することができ、かつ、それらサービスを、人間理解システム103を通じてユーザ101へ提供することが可能である。登録プロセスの例にあっては、各サービスについて以下の要素が提供される。それらは、サービスを利用可能な地理的領域(geographic regions)、自然言語によって記述されたサービスの詳細な説明、ユーザ101へサービスを提供するためにユーザ101から求める必要があるデータのリスト、および、会話のスクリプトである。
ある実施形態においては、登録されたホストされたサービス(registered hosted service)はそれぞれ、1つまたは複数のグループのサービス提供者、例えば、店(ショップ)、レンタカー店、モーテルと関係付けられる。言うまでもなく、ユーザ101がテレフォニー・デバイス102によりこれらのサービスを注文(オーダ、order)可能であれば、人の生活の数多くの側面において、適切なホストされたサービスが提供可能である。
ある実施形態においては、テレフォニー・デバイス102は、例えば、アナログ物理的有線接続といった、アナログ信号を用いて音声データを伝送するアナログ固定電話(analog land line)で人間理解システム103と、通信可能にリンクされる。他の実施形態においては、テレフォニー・デバイス102は、例えば、デジタル光ファイバ接続といった、離散的なデジタル二値信号を用いて音声データを伝送するデジタル固定電話(digital land line)で人間理解システム103と、通信可能にリンクされる。
さらに別の実施形態においては、例えば、携帯電話や衛星電話といったテレフォニー・デバイス102は、ラジオ周波数(RF)またはマイクロ波の信号のいずれかで人間理解システム103へ音声データを送信する無線通信リンクを通じて人間理解システム103と通信可能にリンクされる。伝送フォーマットは、アナログまたはデジタルのいずれも可能であり、無線通信リンクは、人間理解システム103に対するダイレクト・リンク(a direct link)でも、または、固定線(land line)もしくは他の無線接続によって人間理解システム103と接続された親機(ベース・ユニット、base unit)を介してもよい。なおさらに別の実施形態においては、テレフォニー・デバイス102、つまり、インターネット通信デバイスは、固定電話、無線接続、または、それら両方を介し、ボイス・オーバー・インターネット・プロトコル(VOIP)もしくはそれと等価なプロトコルを用いて音声データを伝送するネットワーク接続により、人間理解システム103と通信可能にリンク可能である。このネットワーク接続は、局所的なネットワーク、つまりローカル・エリア・ネットワークとして、または、高域ネットワークつまりインターネットとして提供されてよい。
ある実施形態においては、本システムは、人間理解システム103によって提供されるサービスにアクセスするために人間理解システム103に電話をかけようと携帯電話、すなわちテレフォニー・デバイス102を操作するユーザ101を介して動作可能である。携帯電話102は、RFリンク経由で、携帯電話会社(mobile phone provider)、つまりセルラー・ネットワーク・プロバイダと通信し、該プロバイダ自体は、人間理解システム103と通信する公衆交換電話網(PSTN、Public Switched Telephone Network)、つまり固定電話とリンクされる。同様、人間理解システム103は、インターネットまたはLANを介して数多くのドメイン・システム(domain system)と通信可能にリンク可能である。別のシナリオでは、ユーザ101は、VOIPを利用可能なコンピュータ、つまりテレフォニー・デバイス102を操作して、インターネットとリンクした人間理解システム103にVOIPで電話をかけることも可能である。VOIP利用可能コンピュータは、例えば、インターネットやLAN等のネットワーク接続を通じて、人間理解システム103と通信可能にリンクされたブロードバンド・インターネット接続を経由して、通信する。
当然のことだが、上述のシナリオは、例示を目的として示されるに過ぎず、システム100が使用することのできる通信形態を多少なりとも限定することを意図するものではない。ユーザ101と人間理解システム103との間の通信を確立する手法は、多数考えられる。そこでは、人間理解システム104が音声データを処理して理解することを可能とする程度の十分な明瞭性および特定性(specificity)で音声データが人間理解システム103へ伝送されるかは、その確立されたシステムの性能のみで決まる。
引き続き図1を参照すれば、人間理解システム103は、音声認識モジュール104、音声生成器モジュール106、および、セッション・マネージャ・モジュール105を有する。音声認識モジュール104は、ユーザ101からの発声を、例えば、上述した電話通信のための構成のいずれかを用いて人間理解システム103と通信可能にリンクされたテレフォニー・デバイス102を介して受け取ることができる。ある実施形態においては、発声は、ユーザ101がアクセスを要求する提供サービスに関する情報に加え、例えば、識別情報(identification information)、ユーザ101に関する情報を含む。音声認識モジュール104は、ユーザ101から受信した音声データをテキスト・データへ変換(translate)し、データをセッション・マネージャ105へ転送する。
当然のことだが、人間理解システム103は、ここに記載する機能を実行するために必要な構成を、ハードウェアおよびソフトウェアで、備えることができる。また、人間理解システム103は、別の構成要素および機能を備えてもよく、また、ある特定の機能が、同一または異なる構成要素により実行可能であってよい。よって、図1は、本願記載のシステムおよび方法を、ある特定のアーキテクチャまたは構成に限定するものとして捉えてはならない。むしろ、図1は、単なる一例を示す図である。
実施形態において、音声認識モジュール104は、世界の最もよく使われる30の言語を理解(recognize)する。音声認識モジュールが理解する言語の例としては、英語、中国語、ヒンディー語、スペイン語、ベンガル語、ポルトガル語、ロシア語、ドイツ語、日本語、フランス語がある。別の実施形態においては、音声認識モジュール104は、人間理解システム103が取り扱うサービスによって指定された言語のみを理解してもよい。しかしながら、システム管理者が、音声認識モジュール104を、言語の言語学的特徴を利用してコンピュータ処理によって変換可能な言語を認識可能なように構成可能であることは、言うまでもない。音声認識モジュール104は、また、デバイス102を介して得たユーザ101の音声を、テキストに変換することも可能である。
セッション・マネージャ・モジュール105は、2つの状態で動作可能である。2つの状態は、1)「サービス選択状態(Choosing Service State)」、および、2)「会話スクリプト状態(Conversation Script State)」で、1)では、セッション・マネージャ・モジュール105は、サービス106を選択し、2)では、セッション・マネージャ・モジュール105は、選択されたサービス106に相応しい会話スクリプト203を実行する。
セッション・マネージャ・モジュール105は、オントロジー(概念体系)と結び付けられた、特定の自然言語についてのレキシコン(用語集)群を備える。これにより、自然な発話(natural speech)のテキストを、文法および概念の情報を含んだ特殊構造体(スペシャル・ストラクチャ、special structures)へ変換することが可能となる。この概念情報(オントロジカル・インフォメーション、ontological information)は、どのサービス106が要求されているかを決定するために使用されてよく、また、「会話スクリプト状態」においても、例えば、特定の概念(コンセプト、concepts)を実際にユーザ101が伝達したかどうかを尋ねるために使用してもよい。
セッション・マネージャ105が「サービス選択状態」で動作する場合、次のプロセス、顧客の発声に生じたオントロジー上のコンセプトに最も近いオントロジー上の概念が定義付けされたサービス108を選択し同時に顧客の発声と相容れない(conflict with)オントロジー上のコンセプトが定義付けされたサービスを排除(exclude)する、を実行することができる。情報が、セッション・マネージャ105にとって要求されるサービス106の特定を決するのに十分でない場合、セッション・マネージャ105は、当該決定をするために求められる必要な情報をユーザ101へ尋ねるのに相応しいテキストを生成してもよい。そして、セッション・マネージャ105は、当該テキストを、テキストを発声へ変換する音声生成器モジュール106へ転送する。音声生成器モジュール106は、ユーザ101が聴けるように、テレフォニー・デバイス102と通信を行う。
実施形態においては、このプロセスは、セッション・マネージャ105により、必要な頻度で、セッション・マネージャ105が、ユーザ101により提示された音声データにより要求されるサービス108の特定を決するのに十分な情報が得るまで、繰り返し実行してよい。別の実施形態においては、システム・アドミニストレータが、相応しい会話スクリプト203と共に、例えば、サービス選択サービス(service-to-choose services)のような特別サービス(スペシャル・サービス、special services)をイネーブルに、または、実施することができる。これにより、顧客にさらなる情報を求め、特定のサービス108を選択することが可能になる。ある特定の実施形態においては、会話スクリプト203は、別のサービスをコール可能である。例えば、レンタカー・アプリケーションでは、スペシャル・サービスが、サービスを完了させるためにコールされ、州(state)、市(city)、車種等に基づいて、相応しいレンタカー会社を選択する。
上述の様々な実施形態は、ユーザ101と人間理解システム103との間の高度にインタラクティブなやりとり(ダイアログ、dialog)をもたらす。これの目的は、ユーザ101がどのサービス108あるいはその他の情報を要求しているのかを決定しようと試みることを含め、ユーザ101と取り扱っているサービス108との間の通信環境(コミュニケーションの環境、communications environment)を、可能な限り忠実に模倣することにある。これとは逆に、一連のメニュー項目を選択せねばならない、および/または、一連の情報の要求に応答しなければならないような、従来のシステムでは、応答のための選択およびリクエストは、予め定められた決定樹(デシジョン・ツリー)に沿って、固定的で、比較的線的(リニア)な工程を辿る。これらの従来の相互作用は、二人の人間の間の自然会話とは似ても似つかないものである。
上述の音声認識モジュール104のように、ある実施形態において、音声生成器モジュール106は、最もよく使われる世界の30の言語の会話のみ可能であってよい。他の実施形態においては、音声生成器モジュール106は、人間理解システム103に割り当てられたサービスサービスが指定する言語のみを理解可能であってもよい。しかしながら、システム管理者が、音声生成器モジュール106を、言語の言語学的特徴を利用してコンピュータ処理によって変換可能な言語を認識可能なように構成可能であることは、言うまでもない。
セッション・マネージャ105が、ユーザによってリクエストされたサービス108を成功裡に特定すると、セッション・マネージャ105は、当該サービスに定義付けされた会話スクリプトの実行を開始する。
図2は、セッション・マネージャ105の内部構成の詳細図であり、実施形態においてこれらの構成要素がどのように人間理解システム103の他のモジュールと相互作用するかを示している。本実施形態において示されるように、セッション・マネージャ105は、スクリプト・エンジン202、サービス108の全てに定義付けされた会話スクリプト203、サービス・データベース204、および、サービスデータ管理部205を有する。
また、セッション・マネージャは、テキスト−ストラクチャ・モジュール212を有し、これは、人間の発声に関するテキストを、適当なレキシコン210を用いて特有のストラクチャ(スペシャル・ストラクチャ、special structures)に変換することができる。レキシコン210は、オントロジー211とリンクされている。この関連付けにより、テキスト−ストラクチャ・モジュール212は、人間言語に依存することなく、定義付けされたあらゆる人間言語を、文法およびオントロジーの情報を備えたストラクチャへ変換することができる。
また、セッション・マネージャ105は、スペシャル・コンセプト調査部(スペシャル・コンセプト・プロスペクタ、Special Concepts Prospector)を備えることも可能である。スペシャル・コンセプト調査部230を理解するには、スペシャル・コンセプトとは何かを説明する必要がある。スペシャル・コンセプトとは、例えば、名前、色、住所(addresses)のような理解する必要がない概念(コンセプト)である。むしろ、興味の対象は、当該コンセプトに関連付けされた値または順位(ランク)である。このようなコンセプトは、あらゆる自然言語において、数多くのパターンを有し、当該パターンによって、人間はそれらについて語ることができる。したがって、スペシャル・コンセプト調査部230は、テキスト、および、発声より生成されたストラクチャを解析することにより、スペシャル・コンセプトの値を抽出する。加えて、適切な言語で、当該値と関連付けされたコンセプトをより明確にすることができるような情報をユーザ101から引き出すような質問のセットを定義付けすることができる。
スクリプト・エンジン202が、会話スクリプト203においてスペシャル・コンセプトについてのリクエストと遭遇すると、スペシャル・コンセプト調査部230をコールして、当該コンセプトに関連付けされた値を取得する。この情報が欠如している場合には、スペシャル・コンセプト調査部230は、スクリプト・エンジン202に対し、音声生成器モジュール106を通じて顧客101へ転送することができる適切な質問を転送する。答えを受け取ると、プロセスは、必要に応じて繰り返すことができる。顧客が答えを返すことを拒否した場合には、スクリプト・エンジン202は、スクリプトが対処可能となるように、その事実を記録する。スペシャル・コンセプトおよびその使用例については、後でより詳細に説明する。
特別命令(スペシャル・インストラクション、special instructions)を会話スクリプト203に組み込んで、適切なデータベースへのクエリを作成可能である。その他の命令も、サービス108と関連付けされた会話スクリプト203へ組み込むことができ、そうすることによって、その結果を顧客へ提示し、顧客が特定の値を選択することができるようすることができる。また、さらに別の命令を用いて、データベース204を、適切なデータで更新することも可能である。
会話スクリプト203における条件付命令(コンディショナル・インストラクション、conditional instructions)は、予想される人間の反応に対処することを可能にする。これらの条件付命令は、例えば、イフ(if)、スィッチ(switch)、ホワイル(while)等の、システム103で有効な命令を含むことができる。また、ユーザ101が答えやある種の情報の提供を拒否した場合にどうすべきかといった様々なシナリオを扱った、より具体的な会話スクリプト203を含むこともできる。
会話スクリプト203は、メッセージ番号(message numbers)で動作するように構成可能であり、顧客が使用する言語に応じて自然言語のメッセージへ変換される。
図3は、システム100がサービスを選択しユーザ101に提供するとき(「サービス選択状態」)に使用するプロセス例を、ある実施形態に基づいて詳細に示したフローチャートである。ステップ302において、音声認識エンジン104は、デバイス102およびそれに付随する通信施設を介してユーザ101の発声を受け取ることができる。注記するが、ユーザ101から受け取る発声に含んでよい情報の種類を数例記すなら、発声は、識別情報、つまり名前、番号、住所等と、認証情報、つまり社会保障番号(social security number)、確認番号(confirmation number)等と、所望のサービスに関する情報、つまり販売(sales)、カスタマー・サービス(customer service)、予約(reservations)等を含んでよい。
ステップ304において、音声認識モジュールは、発声を、ステップ306においてセッション・マネージャ105へ転送可能なテキストに翻訳または変換する。
次に、セッション・マネージャ105は、ステップ308において、オントロジーとリンクされたレキシコンを用いて、テキストをストラクチャへ変換する。ステップ310において、セッション・マネージャ105は、ストラクチャを用いて、発声に含まれるコンセプト、つまり発声に含まれるオントロジー・コンセプトを特定する。ステップ312において、コンセプトを用いて、リクエストされているサービス108を特定する。コンセプト、および、システム103におけるその特定について、以下でより詳細に説明する。
サービス108特定に十分な情報が発声に含まれていない場合、セッション・マネージャは、ステップ314において、サービス108の特定が可能になるように、さらなる情報を引き出すためのテキスト・メッセージを生成する。テキスト・メッセージは、会話スクリプト203を用いて生成することができ、また、ステップS316において、テキスト・メッセージを音声生成器106へ送ることができる。音声生成器106は、テキスト・メッセージを、デバイス102を通じてユーザ101へ伝達される発話(スピーチ)へ変換することができる。
その後、プロセスは、ステップ318においてサービスを選択するのに十分な情報が得られるまで繰り返される。サービスが選択されると、ステップ320において相応しい会話スクリプト203を起動させることが可能になり、ステップ322において、音声生成器106へ転送可能なテキスト・メッセージを生成することが可能になり、ユーザ101とコミュニケーションを取ることが可能になる。
図4は、ある実施形態において、セッション・マネージャ105が行うサービス選択にかかるプロセスの詳細を示すフローチャートである。ステップ402において、スクリプト・エンジン202は、音声認識モジュール104からテキスト情報を受け取り、該テキストを、テキスト−ストラクチャ・エンジン212へ送る。該エンジンは、相応しいレキシコン210および関連付けされたオントロジー211を用い、ステップ404において、テキストをストラクチャへ変換することができる。そして、ストラクチャは、ステップ406において、サービス選択部220がサービス・データベース204からサービスを選択することに用いられる。
ステップ408において、選択されたサービスは、スクリプト・エンジン202に、会話スクリプト203を用い、ユーザ101へ適切な情報を提供するのに必要な、あるいは、ユーザ101から情報を求めるのに必要な、適切なテキスト・メッセージの生成を行わせる。言い換えるなら、スクリプト・エンジン202は、会話スクリプト203と協働することにより、システム103が、選択されたサービスによって決定される自然な方法でユーザ101とコミュニケートすることを可能にしている。
サービスデータ・マネージャ205は、様々なサービスと関連付けされたデータをサービス・データベース204に格納することができる。また、サービス・データベース205は、例えば、スペシャル・コンセプト・プロセッサ230と同様に、ユーザ101から受け取った情報を格納することができる。よって、ステップ408においてメッセージが生成されると、ステップ410において、それに対する応答として新たな情報が受理される。ステップ412において、ステップ410において受理された情報と関連付けされた情報または値を、サービス・データベース412に格納することができる。
図5は、ある実施形態による、ストラクチャの形成およびそれらをコンセプトとリンク付けする例を示す図である。図5は、次の発声「I would like to make an appointment for my wife with her doctor. (私は、私の妻のために、彼女の医師を予約をしたい。)」、および、それと同等のポーランド語「
Figure 2012517174
」の過程を例示する図である。発声502(英語)および発声514(ポーランド語)は、それぞれの言語の関連するレキシコン210によって定義付けされた語彙素(レクセム、lexems)を複数含む。一般に、各言語のレキシコン210の各レクセムは、相応する単数または複数のコンセプト508と、直接的に、または、語尾変化を有する言語(languages with flexion)においては語幹(ルート・レクセム、root lexeme)を介して、結びついている。各コンセプト508は、各レキシコン210に含まれる複数の語彙素(レクセム)と結びついている。なぜなら、自然言語によるコミュニケーションにおいては、多くの同義語(シノニム、synonyms)があり、また、同一のコンセプトを伝達するために異なる方法が存在するからである。
引き続き図5を参照すれば、発声502および514は、ユニット504および512へ変換可能である。各ユニット504および512は、発声に含まれる1つまたは複数の語彙素と対応付け可能である。例えば、ユニット504は、単一の語彙素と対応付け可能であり、あるいは、例えば、図5の例の発声502における「would like to (したい)」のようなグループ化のように、ユニット504は、複数のサブ・ユニットを含み、複数の語彙素と対応付け可能である。各ユニット504、または、サブ・ユニットは、関連するオントロジー211に基づいて、リンク506および510を介して1つまたは複数のコンセプト508とリンク付け可能である。
ユニット504および512ならびにリンク506および510の組み合わせは、それぞれ、様々なコンセプト508と関係付けされたストラクチャ505および515を形成する。注意すべきは、特定されたコンセプトを指し示している、あるいは、特定されたコンセプトへ導く、入力された発声に含まれる語彙素に拘わらず、各コンセプト508は、唯一無二の(ユニークな)ストラクチャを有することである。言い換えれば、発声502が、僅かに異なるように提示されるならば、つまり「I would like to make a doctors appointment for my wife. (私は、医師の予約を、私の妻のためにしたい。)」あるいは「I would like to see if my wife's doctor is available. (私は、私の妻の医師が空いているかどうかを確かめたい。)」のように提示されるならば、非常に類似したストラクチャ505および515が生成され、同じようなコンセプト508の特定に帰結されるべきである。
よって、システム103において定義付けされた各サービス108は、それと関連付けされるコンセプト508のセットを有することが可能である。多くの実施形態においては、重要なコンセプトのみを含めることで、不必要な関連付けを回避している。また、他の実施形態においては、文法を伝達する(communicate grammar)のみの語彙素は省略されている。また、任意で、各サービスは、排他条件および必要条件(excluding and required conditions)を備えることも可能である。例えば、ある特定のサービス108が選択されるには、ある特定の情報の存在が必須である一方、該サービス108が選択されるには、別の情報が含まれていてはならない。
このように、コンセプト508は、サービスと関連付け可能である。言い換えれば、各サービスは、それと関連付けされる特定のコンセプトを有することができる。セッション・マネージャ105は、例えば、例えば発声502のような発声と関連付けられた、例えばストラクチャ505のようなストラクチャを決定し、かつ該ストラクチャ505と最も密に関連付けされているサービス108、つまり、ストラクチャ505により発声502と最もよく関連付けされたコンセプト508を有するサービス108、がどれであるかを決定することができる。ある特定の実施形態においては、セッション・マネージャ105は、どのサービス108がもっともよく発声502と関係づけられるかを決定する際に、各サービス108について、必要条件および排他条件が満足されるかどうかを判断することもできる。
一旦、サービス108が選択されれば、次のステップでは、会話スクリプト203を用いて当該サービスに関するデータの収集を行うことができる。これには、上述のスペシャル・コンセプトが含まれてよい。繰り返しになるが、スペシャル・コンセプトは、システム103が関連付けされる値順位(バリュー・ランク、value rank)を生成することを試みる点を除き、システム103が真に理解しようと試みないコンセプトである。
先ず、発声、例えば、発声502が必要なデータを含んでいるかどうかを判断するために、それを評価可能である。値または順位は、提供されたデータが、この情報とどれだけ強く対応しているかを示す指標(インディケーション、indication)である。データが含まるかどうかを判断し、値もしくは順位を提供するタスクは、スペシャル・コンセプト・プロセッサ230が実行可能である。発声502が、必要なデータを含んでいないことが明らかであれば、スクリプト・エンジン202は、選択されたサービス108による制御の下で、情報を引き出すための会話スクリプトを選択することができる。上記の例においては、顧客は、(対話スクリプトにおいて、)約束の日付を求められることになる。なぜなら、サービスを発注するに際し、この情報のみ特定されていないからである。
ひとたび、全てのひつような情報が存在することを示す値が生成されれば、データを格納し、約束をとるために使用可能となる。すると、会話スクリプト204は、ユーザに伝達可能な、約束(アポイントメント)を確認するメッセージを生成するのに使用可能となる。
繰り返しになるが、会話スクリプト203は、受理した発声に対し、自然言語を用いた自然な方法での応答を生成し行う。よって、ユーザ101は、普通の会話で必要な情報の提供を促されているように感じる。
本願に記載のシステムおよび方法の全てまたは一部は、コンピュータ読み出し可能な媒体に記録されたコンピュータ読み取り可能なコードとして具現化可能である。コンピュータ読み取り可能な媒体は、データを格納することができるデータ記憶装置であればよく、後に、コンピュータ・システムによって読み出しされる。コンピュータ読み取り可能な媒体の例は、ハード・ドライブ、ネットワーク接続ストレージ(NAS、network attached storage)、リード・オンリー・メモリ、ランダム・アクセス・メモリ、CD−ROM、CD−R、CD−RW、磁気テープ、ならびに、その他の光学的もしくは被光学的データ記憶装置を含む。コンピュータ読み取り可能な媒体は、コンピュータ・システムと接続するネットワークを介して配布可能であり、コンピュータ読み取り可能なコードが、配信形式により保存され実行されてよい。
ここでは、複数の実施形態について説明したが、当然のことながら、当業者であれば、本願記載のシステムおよび方法は、その他の形態で実施可能であることを理解するであろう。したがって、これに記載した例および実施形態は、限定的でなく、例示的なものと海佐入れるべきである。本願記載のシステムおよび方法は、ここに記載した細部に限定されてはならず、添付のクレームの範囲内で、変更して実施可能である。
100: システム
101: ユーザ
102: テレフォニー・デバイス
103: 人間理解システム(ヒューマン・アンダスタンディング・システム)
104: 音声認識モジュール
105: セッション・マネージャ・モジュール
106: 音声生成器モジュール
108: サービス
202: スクリプト・エンジン・モジュール
203: 会話スクリプト・モジュール
204: サービス・データベース
205: サービスデータ管理モジュール
210: 言語レキシコン・モジュール
211: オントロジー・モジュール
212: テキスト−ストラクチャ・モジュール
220: サービス選択モジュール
230: スペシャル・コンセプト調査モジュール
502: 発声
504: ユニット
505: ストラクチャ
506: リンク
508: コンセプト
510: リンク
512: ユニット
514: 発声
515: ストラクチャ

Claims (21)

  1. 音声認識モジュールと、セッション・マネージャと、音声生成器モジュールと、を有するシステムにおいてユーザに対しサービスを提供する方法であって、
    前記音声認識モジュールを介して発声を受け取るステップと、
    オントロジーと結び付けられたレキシコンを用いて前記発声を1つまたは複数のストラクチャへ変換するステップと、
    前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップと、
    前記発声に十分な情報が含まれる場合に前記コンセプトに基づいてサービスを選択するステップと、
    選択された前記サービスに基づいてテキスト・メッセージを生成するステップと、
    前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップと、を有する方法。
  2. さらに、前記発声をテキストへ変換し、その後で、前記テキストを前記1つまたは複数のストラクチャへ変換するステップを有する請求項1に記載の方法。
  3. さらに、前記発声に十分な情報が含まれない場合に更なる情報を求めるためのテキスト・メッセージを生成し、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換し、前記音声メッセージを前記ユーザに伝達するステップを有する請求項1に記載の方法。
  4. さらに、前記音声メッセージを前記ユーザに伝達するステップを有する請求項1に記載の方法。
  5. さらに、
    前記音声認識モジュールを介して前記ユーザに伝達された前記音声メッセージに対する応答における更なる発声を受け取るステップと、
    オントロジーと結び付けられたレキシコンを用いて前記音声を1つまたは複数のストラクチャへ変換するステップと、
    前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップと、
    特定された前記コンセプトに基づいて前記ユーザに提供する情報を取得するステップと、
    取得した前記情報および特定された前記コンセプトの少なくともいずれか1つに基づいて別のテキスト・メッセージを生成するステップと、
    前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップと、
    前記テキスト・メッセージを前記ユーザに伝達するステップと、を有する請求項1に記載の方法。
  6. 前記オントロジーと結び付けられたレキシコンを用いて前記発声を1つまたは複数のストラクチャへ変換するステップが、
    前記発声を、複数のサービスと関連付けされた複数のコンセプトとリンク付けされた1つまたは複数のユニットと関連付けするステップ、
    を含む、請求項1に記載の方法。
  7. 前記ストラクチャを用いて前記発声に含まれるコンセプトを特定するステップが、
    前記複数のコンセプトのどれが前記ユニットとリンク付けされているかを判断するステップ、
    を含む、請求項6に記載の方法。
  8. さらに、前記コンセプトに基づいてサービスを選択するステップが、
    どのサービスが最も密接に前記発声と関連するかを、前記複数のサービスそれぞれに関し、関連付けされたコンセプトの数に基づいて判断するステップであって、前記関連付けされたコンセプトは前記ユニットを介して前記発声とリンク付けされているコンセプトである、ステップ、
    を含む請求項7に記載の方法。
  9. さらに、選択された前記サービスと関連付けされたスペシャル・コンセプトを特定し、前記発声に含まれる情報に基づいて特定された前記スペシャル・コンセプトに値を割り当てるステップを有する請求項1に記載の方法。
  10. さらに、
    前記発声に、選択された前記サービスと関連付けされたスペシャル・コンセプトの全てが存在するかどうかを判断し、存在しない場合に、欠落しているスペシャル・コンセプトのいずれかに関連する情報を求めるテキスト・メッセージを生成し、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換するステップを有する請求項9に記載の方法。
  11. さらに、
    スペシャル・コンセプトの全てが含まれている場合に前記サービスを実行、または、完了するステップを有する請求項10に記載の方法。
  12. 前記サービスを実行するステップは、
    前記発声に含まれる、前記スペシャル・コンセプトに関する情報を格納するステップ
    を含む請求項11に記載の方法。
  13. ユーザに対しサービスを提供するシステムであって、
    発声を受け取り、概念体系と結び付けられた用語集を用いて前記発声をテキストへ変換し1つもしくは複数のストラクチャへ変換する音声認識モジュールと、
    前記音声認識モジュールと接続され、
    オントロジーと結び付けられたレキシコンを用いて前記テキストに関するストラクチャを生成し、
    前記ストラクチャを用いて前記発声に含まれるコンセプトを特定し、
    前記発声に十分な情報が含まれる場合に前記コンセプトに基づいてサービスを選択し、
    選択された前記サービスに基づいて応答テキスト・メッセージを生成する、セッション・マネージャと、
    前記セッション・マネージャと接続され、前記応答テキスト・メッセージを音声メッセージへ変換する音声生成器モジュールと、を有するシステム。
  14. 前記セッション・マネージャは、さらに、前記発声に十分な情報が含まれない場合に更なる情報を求めるためのテキスト・メッセージを生成し、
    前記音声生成器モジュールは、さらに、前記テキスト・メッセージを音声メッセージへ変換し、前記音声メッセージを前記ユーザに伝達する、請求項13に記載のシステム。
  15. 前記セッション・マネージャは、さらに、前記発声を、複数のサービスと関連付けされた複数のコンセプトとリンク付けされた1つまたは複数のユニットと関連付けすることにより、前記テキストに関するストラクチャを生成する、請求項13に記載のシステム。
  16. 前記セッション・マネージャは、さらに、前記複数のコンセプトのどれが前記ユニットとリンク付けされているかを判断することにより、前記ストラクチャを用いて前記発声に含まれるコンセプトを特定する、請求項15に記載のシステム。
  17. 前記セッション・マネージャは、さらに、どのサービスが最も密接に前記発声と関連するかを、前記複数のサービスそれぞれに関し、関連付けされたコンセプトの数に基づいて判断することにより、前記コンセプトに基づいてサービスを選択し、
    前記関連付けされたコンセプトは前記ユニットを介して前記発声とリンク付けされているコンセプトである、請求項16に記載のシステム。
  18. 前記セッション・マネージャは、さらに、選択された前記サービスと関連付けされたスペシャル・コンセプトを特定し、前記発声に含まれる情報に基づいて特定された前記スペシャル・コンセプトに値を割り当てる、請求項13に記載のシステム。
  19. 前記セッション・マネージャは、さらに、前記発声に、選択された前記サービスと関連付けされたスペシャル・コンセプトの全てが存在するかどうかを判断し、存在しない場合に、欠落しているスペシャル・コンセプトのいずれかに関連する情報を求めるテキスト・メッセージを生成し、
    前記音声生成器モジュールは、さらに、前記音声生成器を用いて前記テキスト・メッセージを音声メッセージへ変換する、請求項18に記載のシステム。
  20. 前記セッション・マネージャは、さらに、全てのスペシャル・コンセプトが存在し値が割り当てられている場合に、前記サービスを実行、または、完了する、請求項19に記載のシステム。
  21. 前記セッション・マネージャは、さらに、前記発声に含まれる、前記スペシャル・コンセプトに関する情報を格納する、請求項20に記載のシステム。
JP2011548797A 2009-02-03 2010-01-19 ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするためのシステムおよび方法 Pending JP2012517174A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/364,927 US8417523B2 (en) 2009-02-03 2009-02-03 Systems and methods for interactively accessing hosted services using voice communications
US12/364,927 2009-02-03
PCT/IB2010/000186 WO2010089645A1 (en) 2009-02-03 2010-01-19 Systems and methods for interactively accessing hosted services using voice communications

Publications (1)

Publication Number Publication Date
JP2012517174A true JP2012517174A (ja) 2012-07-26

Family

ID=42244676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011548797A Pending JP2012517174A (ja) 2009-02-03 2010-01-19 ホストされたサービスに音声コミュニケーションを用いてインタラクティブにアクセスするためのシステムおよび方法

Country Status (10)

Country Link
US (3) US8417523B2 (ja)
EP (1) EP2394267A1 (ja)
JP (1) JP2012517174A (ja)
KR (1) KR20110127180A (ja)
CN (1) CN102369568A (ja)
IL (1) IL214424A0 (ja)
RU (1) RU2011136720A (ja)
SG (1) SG173511A1 (ja)
TW (1) TW201034004A (ja)
WO (1) WO2010089645A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018041124A (ja) * 2016-09-05 2018-03-15 株式会社Nextremer 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、対話方法、およびプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9883034B2 (en) * 2006-05-15 2018-01-30 Nice Ltd. Call center analytical system having real time capabilities
US9021565B2 (en) 2011-10-13 2015-04-28 At&T Intellectual Property I, L.P. Authentication techniques utilizing a computing device
US20130130648A1 (en) * 2011-11-22 2013-05-23 Kamran J. Tadjeran Providing support to a user
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
CN104836925A (zh) * 2014-02-11 2015-08-12 携程计算机技术(上海)有限公司 咨询系统及方法
US10514677B2 (en) * 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
DE102014213350A1 (de) 2014-07-09 2016-01-14 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Ermittlung von Informationen über Mobilitäts-situationen
CN105338204A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 一种交互式语音应答方法及装置
CN105827877A (zh) * 2015-01-06 2016-08-03 中国移动通信集团上海有限公司 一种基于ivr平台的业务处理方法及ivr平台
US11489962B2 (en) * 2015-01-06 2022-11-01 Cyara Solutions Pty Ltd System and methods for automated customer response system mapping and duplication
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
US20190311710A1 (en) 2018-04-06 2019-10-10 Flex Ltd. Device and system for accessing multiple virtual assistant services
CN110459211B (zh) 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质
CN109327629A (zh) * 2018-11-01 2019-02-12 深圳市号互联科技有限公司 一种人工智能语音导航数据处理方法
CN112399019A (zh) * 2020-09-16 2021-02-23 中国农业银行股份有限公司河北省分行 智能外呼方法、终端设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341672A (ja) * 2003-05-14 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> 情報提示方法及び情報提示装置
JP2006317876A (ja) * 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声読み上げ装置およびプログラム
JP2007249420A (ja) * 2006-03-14 2007-09-27 Nec Personal Products Co Ltd Webページ文章自動検出装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US20020035474A1 (en) * 2000-07-18 2002-03-21 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
IL140322A0 (en) * 2000-12-14 2002-05-23 Poly Information Ltd Method and interface for inteligent user machine interaction
IL140673A0 (en) * 2001-01-01 2002-02-10 Poly Information Ltd A method and system for improved speech recognition
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
CN1219266C (zh) * 2003-05-23 2005-09-14 郑方 一种实现多路对话的人-机汉语口语对话系统的方法
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20080095327A1 (en) * 2006-10-18 2008-04-24 Prokom Investments S.A. Systems, apparatuses, and methods for interactively accessing networked services using voice communications
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341672A (ja) * 2003-05-14 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> 情報提示方法及び情報提示装置
JP2006317876A (ja) * 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声読み上げ装置およびプログラム
JP2007249420A (ja) * 2006-03-14 2007-09-27 Nec Personal Products Co Ltd Webページ文章自動検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018041124A (ja) * 2016-09-05 2018-03-15 株式会社Nextremer 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、対話方法、およびプログラム

Also Published As

Publication number Publication date
US20100198595A1 (en) 2010-08-05
RU2011136720A (ru) 2013-03-10
IL214424A0 (en) 2011-09-27
KR20110127180A (ko) 2011-11-24
TW201034004A (en) 2010-09-16
US20130226579A1 (en) 2013-08-29
US20130226575A1 (en) 2013-08-29
EP2394267A1 (en) 2011-12-14
SG173511A1 (en) 2011-09-29
CN102369568A (zh) 2012-03-07
WO2010089645A1 (en) 2010-08-12
US8417523B2 (en) 2013-04-09

Similar Documents

Publication Publication Date Title
US8417523B2 (en) Systems and methods for interactively accessing hosted services using voice communications
US11283926B2 (en) System and method for omnichannel user engagement and response
US10171660B2 (en) System and method for indexing automated telephone systems
KR101793355B1 (ko) 연락 센터용 지능형 자동 에이전트
US8155276B2 (en) Synchronous and asynchronous brokering of IVR sessions for offline interaction and response
US20050033582A1 (en) Spoken language interface
US20050043953A1 (en) Dynamic creation of a conversational system from dialogue objects
US20050055403A1 (en) Asynchronous access to synchronous voice services
US20080095331A1 (en) Systems and methods for interactively accessing networked services using voice communications
US20120166199A1 (en) Hosted voice recognition system for wireless devices
US11889023B2 (en) System and method for omnichannel user engagement and response
CN104778945A (zh) 响应自然语言语音口头表达的系统和方法
US11012573B2 (en) Interactive voice response using a cloud-based service
US20080095327A1 (en) Systems, apparatuses, and methods for interactively accessing networked services using voice communications
US20080033994A1 (en) Interactive voice controlled project management system
Goldman et al. Voice Portals—Where Theory Meets Practice
Atayero et al. Implementation of ‘ASR4CRM’: An automated speech-enabled customer care service system
Farley et al. Voice application development with VoiceXML
Ahmed et al. Interactive voice response mashup system for service enhancement
AU2012201504A1 (en) Call management system and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150106