JP6522679B2 - Speech control apparatus, method, speech system, and program - Google Patents
Speech control apparatus, method, speech system, and programInfo
- Publication number
- JP6522679B2 JP6522679B2 JP2017047738A JP2017047738A JP6522679B2 JP 6522679 B2 JP6522679 B2 JP 6522679B2 JP 2017047738 A JP2017047738 A JP 2017047738A JP 2017047738 A JP2017047738 A JP 2017047738A JP 6522679 B2 JP6522679 B2 JP 6522679B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- phrase
- utterance
- recognition
- utterance content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、発話装置に発話させる発話内容を決定する発話制御装置、方法、発話システム、及びプログラムに関する。 The present invention relates to a speech control apparatus, method, speech system, and program for determining the contents of speech to be made to speech in a speech apparatus.
近年、ユーザが所望する情報を、装置が音声を発することによって提供する方法が知られている。この場合に用いられる音声として、装置に予め記憶されている音声を信号処理によって合成する合成音声が知られている。 In recent years, methods have been known in which information desired by the user is provided by the device emitting speech. As speech to be used in this case, synthetic speech in which speech stored in advance in a device is synthesized by signal processing is known.
例えば、特許文献1には、複数の話者の音声を別々に収録した音声合成用データベースを備え、ユーザからの指示により、ユーザが希望する音声合成用データベースに切り替えて、音声を再生する再生装置が開示されている。
For example,
一般に、人間同士の会話において、発する人の気分や性格によって、同じ意味でも違うフレーズが使われる。例えば、「おはよう」とあいさつをされ、それに対して「おはよう」と返す場合もあれば、「おはよう」以外のフレーズを返す場合もあるし、「おはよう」のイントネーションを変えて、そのときの気分を表現するような場合もある。 Generally, in human-to-human conversations, different phrases are used with the same meaning depending on the mood and character of the person who emits. For example, it may be said that "Good morning" and then return "Good morning", and may return phrases other than "Good morning", or change the "Good morning" intonation and feel the mood at that time. There is also a case to express.
一方で、特許文献1に記載の技術では、再生する人間の音声の声色を、ユーザが希望する声色に変更することはできるものの、発するフレーズやイントネーションを変更することができないため、ユーザと装置との間の円滑なコミュニケーションを図ることが困難であった。
On the other hand, in the technology described in
本発明は上記問題に鑑みてなされたものであり、その目的は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を提供することにある。 The present invention has been made in view of the above problems, and an object thereof is to provide a speech control apparatus capable of achieving smooth communication with a user as compared with the prior art.
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備える。 In order to solve the above-mentioned subject, a speech control device concerning one mode of the present invention is a speech control device which determines the contents of speech which makes a speech device utter, and voice information which acquires input speech information from the above-mentioned speech device According to an acquisition unit, a voice information recognition unit for recognizing the input voice information, a mode set in the utterance control device, and recognition information recognized by the voice information recognition unit An utterance content determination unit that determines the utterance content by referring to a speech output unit that outputs the utterance content determined by the utterance content determination unit to the utterance device.
上記の課題を解決するために、本発明の一態様に係る方法は、発話装置に発話させる発話内容を決定する方法であって、上記発話装置から入力音声情報を取得する音声情報取得工程と、上記入力音声情報を認識する音声情報認識工程と、設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、を含む。 In order to solve the above problems, a method according to an aspect of the present invention is a method of determining the content of speech to be uttered by a speech device, and a voice information acquisition step of acquiring input speech information from the speech device; The utterance content is determined by referring to one or more databases according to the voice information recognition process for recognizing the input voice information, the set mode, and the recognition information recognized in the voice information recognition process. And an audio output step of outputting the utterance content determined in the utterance content determination step to the utterance device.
上記の課題を解決するために、本発明の一態様に係る発話システムは、発話装置と、発話制御装置と、を備えた発話システムであって、上記発話制御装置が、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備え、上記発話装置が、上記発話制御装置から出力された発話内容を取得する発話内容取得部と、取得した発話内容を発話する発話部と、を備える。 In order to solve the above-mentioned subject, a speech system concerning one mode of the present invention is a speech system provided with a speech device and a speech control device, and the above-mentioned speech control device is an input voice from the above-mentioned speech device According to the voice information acquisition unit for obtaining information, the voice information recognition unit for recognizing the input voice information, the mode set in the speech control device, and the recognition information recognized by the voice information recognition unit The utterance device includes an utterance content determination unit that determines utterance content by referring to one or more databases, and an audio output unit that outputs the utterance content determined by the utterance content determination unit to the utterance device. And an utterance content acquisition unit that acquires the utterance content output from the utterance control device, and an utterance unit that utters the acquired utterance content.
本発明の一態様によれば、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることができる。 According to one aspect of the present invention, the speech control device can communicate more smoothly with the user than in the related art.
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。
Hereinafter,
(発話システム1の構成)
図1は、本発明の実施形態1に係る発話システム1の構成を示すブロック図である。発話システム1は、図1に示すように、発話装置10及びサーバ(発話制御装置)20によって構成されている。
(Configuration of Utterance System 1)
FIG. 1 is a block diagram showing the configuration of the
発話システム1では、サーバ20は、複数のモードを有している。サーバ20は、複数のモードの中から選択されて設定されたモード(以下、設定されたモードを「発話モード」とも称する)に応じて発話内容を決定し、当該発話内容を発話装置10から発話させる。
In the
ここで、発話内容とは、発話装置10が発話すべきフレーズ及びイントネーションを含む情報である。また、発話内容には、発話装置10が当該フレーズを当該イントネーションで発話する声色、音量、話速、音の高さも含まれる。 Here, the utterance content is information including a phrase to be uttered by the utterance device 10 and intonation. The utterance content also includes the voice color, the volume, the speech speed, and the pitch of the speech in which the speech apparatus 10 utters the phrase in the intonation.
また、フレーズとは、1以上の単語によって構成されていればよく、単語の数や文の構成に限定されず、1つの単語であっても、複数の単語によって構成された文であっても、複数の文であってもよい。 Further, the phrase may be composed of one or more words, and is not limited to the number of words or the composition of the sentence, and it may be a single word or a sentence composed of a plurality of words. , May be multiple sentences.
また、イントネーションとは、文の切れ目(各発音の間の無音期間の長さ)や文の高低の調子に限定されず、単語のアクセントも含まれる。例えば、東京弁のように「おはよう」を、アクセントなしにフラットに発話することと、関西弁のように「よ」にアクセントをつけて発話することとは、イントネーションが異なっていることになる。なお、フレーズには必ずイントネーションがついているが、本実施形態及び他の実施形態においても、どのようなイントネーションであっても構わない場合については、イントネーションについての言及は省略する。 In addition, intonation is not limited to sentence breaks (the length of a silence period between each pronunciation) and the pitch of sentences, and includes word accents. For example, speaking "Good morning" flatly without accent as in the case of Tokyo dialect and speaking with accenting "y" like the Kansai dialect are different in intonation. In addition, although the phrase always includes an intonation, in the present embodiment and the other embodiments, the reference to the intonation is omitted in the case where it may be any intonation.
また、モードとは、フレーズ、またはフレーズ及びイントネーションに関連付けられており、より具体的には、例えば、フレーズが「おはよう」でありイントネーションがフラットであるモード1、フレーズが「おはよう」でありイントネーションが「よ」にアクセントのついたモード2、フレーズが「おはようございます」でありイントネーションがフラットであるモード3、などが挙げられる。したがって、選択されるモードが異なれば、対応する発話内容のフレーズ及びイントネーションの少なくとも何れかが異なることになる。
A mode is associated with a phrase or a phrase and intonation, more specifically, for example,
また、モードは、単にサーバ20が発話内容を決定するためのパラメータであってもよいが、発話装置10のキャラクタと一致させてもよい。例えば、サーバ20が元気モードを有し、元気モードが選択されている場合、サーバ20は、発話装置10が元気なキャラクタであるかのような発話内容を決定する、としてもよい。また、例えば、サーバ20が関西弁モードを有し、関西弁モードが選択されている場合、サーバ20は、発話装置10が関西出身のキャラクタであるかのような発話内容を決定する、としてもよい。 Also, the mode may be a parameter simply for the server 20 to determine the content of the speech, but may be made to match the character of the speech device 10. For example, when the server 20 has the fine mode and the fine mode is selected, the server 20 may determine the content of the utterance as if the speech apparatus 10 is a fine character. Also, for example, when the server 20 has the Kansai dialect mode and the Kansai dialect mode is selected, the server 20 determines the content of the utterance as if the utterance device 10 is a character from Kansai. Good.
サーバ20において設定可能なモードは例えば以下の通りである。 The modes that can be set in the server 20 are, for example, as follows.
・東京弁モード
・関西弁モード
・標準モード
・元気モード
・丁寧モード
なお、上記設定可能なモードから複数のモードを選択し、重畳的にサーバ20に設定することもできる。例えば、関西弁モードと元気モードとを重畳させた元気な関西弁モードといったモードを、サーバ20に設定することもできる。また、モードを、ユーザの操作によって変更可能な構成であってもよい。
-Tokyo valve mode-Kansai valve mode-Standard mode-Energy mode-Polite mode It is also possible to select a plurality of modes from the above-described settable modes and set them in the server 20 in an overlapping manner. For example, it is possible to set the server 20 as a mode such as a energetic Kansai valve mode in which the Kansai valve mode and the energetic mode are superimposed. Further, the mode may be changed by the operation of the user.
また、各モードについて、サーバ20は、キャラクタの名称を対応させて管理してもよい。例えば、東京弁モードに対して「江戸っ子コロちゃん」、元気モードに対して「元気なアイちゃん」、丁寧モードに対して「のんびりナオちゃん」等というようなキャラクタ名称をサーバ20が対応させ、これをモードの名称としてもよい。 Also, for each mode, the server 20 may manage the character names in correspondence. For example, the server 20 is made to correspond to character names such as "Edokko Koro-chan" for the Tokyo valve mode, "Genki ai-chan" for the fine mode, and "Lobby Nao-chan" for the polite mode, etc. This may be the name of the mode.
さらに、各モードにキャラクタイメージ(グラフィクス、色等)を対応させ、サーバ20にモードを設定した際に、発話装置10は、設定されたモードに対応するキャラクタイメージを、後述する表示部に表示させてもよい。 Furthermore, when a character image (graphics, color, etc.) is associated with each mode and the mode is set in the server 20, the speech device 10 causes the display unit described later to display a character image corresponding to the set mode. May be
(発話装置10の構成)
発話装置10は、図1に示すように、通信部(発話内容取得部)11、音声情報取得部12、発話部13、操作受付部14、及び表示部15を備えている。
(Configuration of the speech device 10)
As shown in FIG. 1, the speech device 10 includes a communication unit (speech content acquisition unit) 11, a speech
通信部11は、サーバ20に接続されており、サーバ20との間でデータを送受信することができる。 The communication unit 11 is connected to the server 20, and can transmit and receive data to and from the server 20.
音声情報取得部12は、発話装置10の周辺の音声を取得し、取得した音声を入力音声情報として出力する。
The voice
発話部13は、発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。
The
操作受付部14は、ユーザがハードキー、スイッチ、タッチセンサなどを操作して入力した情報を受け付ける。また、操作受付部14は、ユーザが発した音声も、ユーザが操作した情報として受け付けることができる。操作受付部14は、受け付けた情報を操作情報として出力する。
The
表示部15は、各種の情報をユーザに報知する機能を有している。表示部15は、液晶表示パネルに代表される表示パネル、及び発光可能に構成されている発光部のうち、少なくとも何れかを備え、表示パネル又は発光部を介して、各種の情報をユーザに報知することが好ましい。表示部15は、発光部を備える場合、発光部を発光することによって、ユーザに情報を報知可能である。
The
また、表示部15は、設定されているモードをユーザに示す構成を有してもよい。例えば、表示部15が表示パネルを備える場合、表示部15は、設定されているモードに対応したキャラクタ(「江戸っ子コロちゃん」、「元気なアイちゃん」、「のんびりナオちゃん」等)のイメージ(グラフィクス)を表示部15に表示させる。このイメージは動画であってもよく、発話に合わせて動作することがより好ましい。このイメージは、後述するモード設定の際に、設定されたモードに応じて、サーバ20よりダウンロードして表示部15に表示させてもよいし、ダウンロード後に発話装置10に内蔵する記憶部(不図示)に一旦記憶させ、記憶部(不図示)からこれを読み出すことで表示部15に表示させてもよい。また、予め記憶部(不図示)に記憶させているものを、設定されたモードに応じたイメージを読み出すことで表示部15に表示させてもよい。
In addition, the
また、表示部15が発光部を備える場合、表示部15は、設定されたモードに応じた色を発光部に発光させてもよい。例えば、東京弁モードのときは青、元気モードのときは赤、丁寧モードのときは緑、等である。また、表示部15は、発話に合わせて発光部を点滅させてもよい。
When the
(サーバ20の構成)
サーバ20は、図1に示すように、サーバ通信部(音声出力部)21、制御部22、記憶部23、及び外部情報取得部(音声情報取得部)24を備えている。
(Configuration of server 20)
As shown in FIG. 1, the server 20 includes a server communication unit (voice output unit) 21, a control unit 22, a
サーバ通信部21は、発話装置10に接続されており、発話装置10との間でデータを送受信することができる。
The
制御部22は、サーバ20の各構成を統括的に制御するものである。制御部22の機能は、例えばRAM(Random Access Memory)やフラッシュメモリなどの記憶装置に記憶されたプログラムをCPU(Central Processing
Unit)が実行することによって実現される。また、図1に示すように、制御部22は、音声情報認識部(認識手段)25及び発話内容決定部(発話内容決定手段、判定手段)26としても機能する。
The control unit 22 centrally controls each component of the server 20. The function of the control unit 22 is, for example, CPU (Central Processing) for a program stored in a storage device such as a random access memory (RAM) or a flash memory.
Unit) is implemented. Further, as shown in FIG. 1, the control unit 22 also functions as a voice information recognition unit (recognition means) 25 and an utterance content determination unit (utterance content determination means, determination means) 26.
記憶部23は、認識フレーズと認識フレーズに対応した回答フレーズとを含むデータベースや、あいまいな回答フレーズを含むあいまいデータベースなど、各種データベースを記憶している。なお、それぞれのデータベースの詳細については、後述する。
The
外部情報取得部24は、ネットワーク2に接続されており、制御部22からの指示により、ネットワーク2から外部情報を取得することができる。
The external
(制御部22の構成)
上述したように、制御部22は、音声情報認識部25及び発話内容決定部26としても機能する。
(Configuration of control unit 22)
As described above, the control unit 22 also functions as the voice
音声情報認識部25は、取得した入力音声情報を認識し、認識情報として出力する。ここで、音声情報認識部25が入力音声情報を認識するとは、音声情報認識部25が、入力音声情報に含まれるフレーズ及びイントネーションを判別することである。例えば、入力音声情報が、アクセントのないフラットな「おはよう」を含む場合、音声情報認識部25は、取得した入力音声情報が含むフレーズが「おはよう」であり、イントネーションはアクセントがないフラットである、と判別する。そして、認識フレーズが「おはよう」であり、認識イントネーションは「アクセントがないフラット」であることを示す認識情報を、音声情報認識部25は出力する。
The voice
発話内容決定部26は、設定されたモード及び音声情報認識部25が出力する認識情報に応じて、発話装置10に発話させる発話内容を決定する。発話内容決定部26が発話内容を決定する処理の詳細については、後述する。
The utterance
(制御部22の処理)
制御部22の処理について、図2を用いて以下に説明する。
(Processing of control unit 22)
The processing of the control unit 22 will be described below with reference to FIG.
図2は、本発明の実施形態1に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するデータベースの例である。
FIG. 2 is an example of a database which the utterance
図2に示すように、各データベースには、認識フレーズと、それに対応する回答フレーズ及びイントネーションとが含まれている。また、各データベースは、同一カテゴリに含まれる認識フレーズ及び回答フレーズをそれぞれ含んでいる。例えば、「朝のあいさつ」というカテゴリに含まれるフレーズとして、データベース1及びデータベース2の認識フレーズには「おはよう」、データベース3の認識フレーズには「おはようございます」が含まれている。また、図2に示すように、データベース1〜3には、「帰宅時のあいさつ」というカテゴリに含まれるフレーズとして、「ただいま」「ただいま」及び「ただいま戻りました」をそれぞれ含んでおり、「就寝時のあいさつ」というカテゴリに含まれるフレーズとして、「おやすみ」「おやすみなさい」をそれぞれ含んでいる。また、各データベースは、サーバ20が有するモードにそれぞれ対応している。例えば、データベース1は標準モード、データベース2は元気モード、データベース3は丁寧モードにそれぞれ対応しているとする。なお、本実施形態においては、データベース1〜3に含まれるイントネーションはすべてアクセントのないフラットなイントネーションとする。
As shown in FIG. 2, each database contains a recognition phrase and a corresponding answer phrase and intonation. In addition, each database includes the recognition phrase and the answer phrase included in the same category. For example, as phrases included in the category of "Morning greeting", "Good morning" is included in the recognition phrases of
図2に示すデータベースが記憶部24に記憶されており、ユーザが発話装置10に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、制御部22が行う処理について、説明する。
Description will be made of processing performed by the control unit 22 when the database shown in FIG. 2 is stored in the
まず、音声情報取得部12は、アクセントがなくフラットなイントネーションの「おはよう」を含む入力音声情報を、通信部11を介してサーバ20に出力する。サーバ20の制御部22は、サーバ通信部21を介して入力音声情報を取得する。そして、音声情報認識部25は、取得した入力音声情報を認識する。この場合、音声情報認識部25は、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を、発話内容決定部26に出力する。
First, the voice
発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
The utterance
例えば、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース1を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。そして、発話内容決定部26は、選択した「おはよう」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。
For example, when the standard mode is set in the server 20, the utterance
また、例えば、サーバ20に元気モードが設定されている場合、発話内容決定部26は、参照するデータベースを、元気モードに対応するデータベース2に切り替え、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう!」を選択する。そして、発話内容決定部26は、選択した「今日も気合入れていこう!」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。
Further, for example, when the fine mode is set in the server 20, the utterance
そして、発話内容決定部26は、決定した発話内容を、サーバ通信部21を介して発話装置10に出力する。発話装置10の発話部13は、通信部11を介して発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。
Then, the utterance
また、例えば、サーバ20に丁寧モードが設定されている場合、発話内容決定部26は、参照するデータベースを、丁寧モードに対応するデータベース3に切り替える。ここで、データベース3において、「朝のあいさつ」というカテゴリに含まれる認識フレーズは「おはようございます」であり、発話内容決定部26が音声情報認識部25から取得した認識フレーズ「おはよう」とは異なるので、発話内容決定部26は、回答フレーズを選択しない。したがって、発話内容を決定しないため、サーバ20は、発話装置10から何も発話させない。
Further, for example, when the polite mode is set in the server 20, the utterance
なお、サーバ20は、認識フレーズを含まないフレーズデータベースを参照する構成であってもよい。この場合、発話内容決定部26は、フレーズデータベースを参照し、フレーズデータベースを切り替えることによって発話内容を決定することができる。
Note that the server 20 may be configured to refer to a phrase database that does not include a recognition phrase. In this case, the utterance
また、この場合、サーバ20は、フレーズデータベースに対応付けられた認識データベースであって、認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部25は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、認識データベースを切り替え、入力音声情報を認識することができる。
Further, in this case, the server 20 may be configured to refer to a recognition database that is a recognition database associated with a phrase database and that contains a recognition phrase and does not contain an answer phrase. In the configuration, the voice
続いて、サーバに設定されたモードによって、発話すべきフレーズのイントネーションを設定する処理について、説明する。 Subsequently, processing for setting intonation of a phrase to be uttered according to the mode set in the server will be described.
まず、図2のデータベース1と同じ認識フレーズ及び回答フレーズを有し、回答フレーズの各フレーズに、データベース1の回答フレーズとは異なるイントネーションが含まれるデータベース10を、記憶部24に記憶させる。本実施形態では、認識フレーズ「おはよう」に対して、「おはよう」の「よ」にアクセントをつけたイントネーションの回答フレーズを、データベース10は含むとする。そして、データベース10を、関西弁モードに対応させる。特定の音にアクセントをつける方法として、例えば、回答フレーズを一文字ずつに分け、特定の文字にアクセントをつけてもよい。また、特定の文字にアクセントがついた回答フレーズを実際に人が発した声を予め録音し、録音した音声を用いてもよい。
First, the
ユーザが発話装置10に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、発話内容決定部26が行う処理について、説明する。
A process performed by the utterance
まず、発話内容決定部26は、音声情報認識部25から、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を取得する。そして、発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
First, the utterance
例えば、サーバ20に関西弁モードが設定されている場合、発話内容決定部26は、関西弁モードに対応するデータベース10を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。また、発話内容決定部26は、「おはよう」のイントネーションを、データベース10の回答フレーズのイントネーションである「よ」にアクセントをつけるイントネーションに設定する。そして、発話内容決定部26は、選択した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。
For example, when the Kansai dialect mode is set in the server 20, the utterance
なお、サーバ20は、1又は複数の回答フレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照する構成としてもよい。このような構成において、発話内容決定部26は、参照する上記フレーズデータベースを切り替えることにより、発話内容を決定する。
The server 20 may refer to a plurality of phrase databases in which different intonations are set for one or a plurality of answer phrases. In such a configuration, the utterance
また、この場合、サーバ20は、フレーズデータベースに対応付けられた認識データベースであって、イントネーションが設定された認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部25は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、当該認識データベースを切り替え、入力音声情報を認識することができる。
Further, in this case, the server 20 may be configured to refer to a recognition database that is a recognition database associated with the phrase database and that includes a recognition phrase for which intonation is set and does not include an answer phrase. In the configuration, the voice
このように、実施形態1に係る発話システム1では、ユーザからの「おはよう」に対して、「おはよう」または「今日も気合入れていこう!」を、発話装置10から発話させることができる。また、ユーザからの「おはよう」に対して、アクセントのないフラットなイントネーションの「おはよう」や、「よ」にアクセントのついたイントネーションの「おはよう」を、発話装置10から発話させることができる。したがって、発話システム1は、同一カテゴリ(「朝のあいさつ」とういカテゴリ)に含まれる複数のフレーズ(「おはよう」及び「今日も気合入れていこう!」)から発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより、ユーザに合わせた発話内容を発話装置10から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることができる。なお、認識フレーズと回答フレーズとの例を、図3に示す。図3は、本発明の実施形態1に係る発話システムにおける認識フレーズと回答フレーズとの例である。
As described above, in the
なお、サーバ20が備える制御部22及び記憶部23は、発話装置10が備える構成であってもよい。この場合、発話装置10の発話内容決定部26において、同一カテゴリから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより発話内容を決定する。そして、発話部13は、当該発話内容を取得し、当該発話内容に含まれるフレーズを、当該発話内容に含まれるイントネーションで発話する。したがって、ユーザに合わせた発話内容を発話装置10は発話することができるので、ユーザと円滑なコミュニケーションを図ることができる。
The control unit 22 and the
〔実施形態2〕
実施形態1では、発話システム1は、入力音声情報に含まれるフレーズによって、発話装置10に発話させるフレーズを選択または発話装置10に発話させるフレーズのイントネーションを設定したが、入力音声情報に含まれるイントネーションによって、発話装置10に発話させるフレーズを選択する、または発話装置10に発話させるフレーズのイントネーションを設定する構成としてもよい。
Second Embodiment
In the first embodiment, the
まず、図2に示すデータベース1、データベース2、及びデータベース3の認識フレーズと共にフラットなイントネーションを含め、データベース1の各認識フレーズの特定の音にアクセントのあるイントネーションを含めたデータベース4を、記憶部23が記憶している場合について、説明する。本実施形態では、データベース4のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとし、各データベースに対応するモードは、実施形態1と同じとする。そして、入力音声情報が、「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合について、説明する。
First,
まず、音声情報認識部25は、入力音声情報を認識し、認識フレーズが「およよう」、認識イントネーションが「おはよう」の「よ」にアクセントをつけたイントネーションであることを示す認識情報を発話内容決定部26に出力する。
First, the voice
発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
The utterance
例えば、サーバ20に関西弁モードが設定されている場合、発話内容決定部26は、関西弁モードに対応するデータベース4を参照し、データベース4の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース4の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するので、発話内容決定部26は、認識情報に対応した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。
For example, when the Kansai dialect mode is set in the server 20, the utterance
また、例えば、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース1を参照し、データベース1の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース4の認識フレーズのイントネーションと、認識情報のイントネーションとは一致しないので、発話内容決定部26は、発話内容を決定しない。
Further, for example, when the standard mode is set in the server 20, the utterance
このように実施形態2に係る発話システム1では、入力音声に含まれるイントネーションに応じて、発話内容を決定することができる。したがって、発話システム1は、ユーザのイントネーションに応じた発話内容を発話装置10から発話させることができるので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。
As described above, in the
〔実施形態3〕
上述した実施形態では、発話システム1は、認識した入力音声情報に対応した発話内容を、発話装置10から発話させたが、入力音声情報を取得しない構成であってもよく、発話内容決定部26は、予め定められた条件が満たされた場合に、予め定められた処理を実行してもよい。
Third Embodiment
In the embodiment described above, the
例えば、予め定められた条件が「朝の7時」であり、予め定められた処理が「朝のあいさつをする」であった場合、発話内容決定部26は、朝の7時になると、朝のあいさつに含まれるフレーズを選択し、発話内容を決定する。例えば、サーバ20に標準モードが設定されている場合、朝の7時になると、発話内容決定部26は、標準モードに対応するデータベース1を参照し、朝のあいさつである「おはよう」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。また、例えば、サーバ20に丁寧モードが設定されている場合、朝の7時になると、発話内容決定部26は、参照するデータベースを、丁寧モードに対応するデータベース3に切り替える。そして、発話内容決定部26は、朝のあいさつである「おはようございます」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。
For example, if the predetermined condition is "7 o'clock in the morning" and the predetermined process is "to deliver a greeting in the morning", the utterance
このように、実施形態3に係る発話システム1は、予め設定された条件が満たされた場合に、予め定められた処理を実行することができる。したがって、発話システム1は、ユーザから入力音声情報を取得しなくても、発話装置10が自ら発話するので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。
Thus, the
また、実施形態3では、認識フレーズと回答フレーズとが対応する必要はなく、認識フレーズと回答フレーズとが別々になったデータベースを参照する構成であってもよい。このような構成において、認識フレーズを含まないフレーズデータベースが記憶部23に複数記憶されており、発話内容決定部26は、これらのフレーズデータベース切り替えることにより、発話内容を決定することができる。
Further, in the third embodiment, the recognition phrase and the answer phrase do not need to correspond to each other, and the configuration may be such that a database in which the recognition phrase and the answer phrase are separated is referred to. In such a configuration, a plurality of phrase databases not including a recognition phrase are stored in the
〔実施形態4〕
実施形態3において説明したように、記憶部23に記憶されるデータベースは、認識フレーズと回答フレーズとが別々になったデータベースであってもよい。したがって、回答フレーズを含まない認識データベースを切り替えることにより、音声情報認識部25は、入力音声情報を認識するという構成であってもよい。
Embodiment 4
As described in the third embodiment, the database stored in the
例えば、図2に示すデータベース1、データベース2、及びデータベース3の回答フレーズを含まない認識データベース1、認識データベース2、及び認識データベース3を記憶部23が記憶している場合について、説明する。この場合、入力音声情報がフラットなイントネーションの「おはようございます」を含む場合、音声情報認識部25は、認識データベースを切り替えることにより、入力音声情報に含まれるフレーズが認識データベース1及び認識データベース2の認識フレーズとは異なり、認識データベース3の認識フレーズと一致することを認識することができる。
For example, the case where the
また、実施形態2において説明したように、認識データベースに認識フレーズと共にイントネーションを含めておくことにより、イントネーションによって認識データベースを切り替える構成であってもよい。 Further, as described in the second embodiment, the recognition database may be switched by the intonation by including the intonation together with the recognition phrase in the recognition database.
例えば、上述した認識データベース1、認識データベース2、及び認識データベース3の認識フレーズと共にフラットなイントネーションを含め、データベース1の各認識フレーズの特定の音にアクセントがついたイントネーションを含めた認識データベース4を、記憶部23が記憶している場合について、説明する。本実施形態では、データベース4のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとする。
For example, a recognition database 4 including a flat intonation together with the recognition phrases of the
この場合、入力音声情報が「おはよう」の「よ」にアクセントをつけたイントネーションを含んでいる場合、音声情報認識部25は、認識データベースを切り替えることにより、認識データベース1、認識データベース2、及び認識データベース3の認識フレーズのイントネーションとは異なり、認識データベース4の認識フレーズのイントネーションと一致することを認識することができる。
In this case, when the input voice information includes intonation in which "Oha" of "Ohayou" is accented, the voice
〔実施形態5〕
上述した実施形態において、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合、または取得した認識イントネーションが参照するデータベースに含まれている場合、発話内容決定部26は、認識フレーズが含まれるカテゴリと一致するカテゴリに含まれるフレーズを、発話内容として決定している。一方、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合、及び取得した認識イントネーションと一致するイントネーションが参照するデータベースに含まれていない場合、の少なくとも何れかの場合に、発話内容決定部26は発話内容を決定しないとした。しかしながら、ユーザが発したフレーズに対して発話装置10が何も反応しないと、ユーザは、自らが発したフレーズを発話装置が音声情報として取得していないのか、それとも、自らが発したフレーズに対応する回答がないのか、それとも故障しているのか、を判断することができない。そこで、本実施形態では、ユーザが発したフレーズに対応する回答が、参照するデータベースに存在しない場合でも、発話内容決定部26が発話内容を決定する処理について、図4を用いて説明する。
Fifth Embodiment
In the embodiment described above, when the recognition phrase that matches the acquired recognition phrase is included in the referenced database, or when the acquired recognition intonation is included in the database that is referred to, the utterance
図4は、本発明の実施形態5に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するあいまいデータベースの例である。あいまいデータベースとは、あいまいなフレーズ(以下、あいまいフレーズとも呼ぶ)を含んでいるデータベースである。ここで、あいまいフレーズとは、入力音声情報が含むフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。換言すると、あいまいフレーズとは、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。また、あいまいフレーズとは、入力音声情報が認識できない、または認識できたが対応する回答フレーズがないということを暗示するフレーズであると表現することもできる。
FIG. 4 is an example of a fuzzy database which the speech
本実施形態において、データベース4は標準モードに対応し、データベース5は元気モードに対応する。なお、あいまいフレーズの例を、図5に示す。図5は、本発明の実施形態5に係る発話システム1における、あいまいフレーズの例である。
In the present embodiment, the database 4 corresponds to the standard mode, and the database 5 corresponds to the fine mode. An example of the vague phrase is shown in FIG. FIG. 5 is an example of the ambiguous phrase in the
続いて、発話内容決定部26が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合にあいまいデータベースを参照する例について、説明する。
Subsequently, an example in which the utterance
まず、音声情報認識部25は、入力音声情報を認識し、認識情報を発話内容決定部26に出力する。発話内容決定部26は、認識情報に基づく発話内容を、サーバ20に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しない場合、発話内容決定部26は、あいまいデータベースを参照し、あいまいフレーズを選択する。
First, the voice
例えば、サーバ20に標準モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部26は、まずデータベース1を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース1には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース4を参照し、「うんうん」を回答フレーズとして選択する。なお、発話内容決定部26は、データベース4から回答フレーズを選択する場合に、所定の条件(例えば、データベース4に含まれる回答フレーズを、上から順番に選択する、など)に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。
For example, when the standard mode is set in the server 20 and the input voice information includes the phrase "Good morning", the utterance
また、例えば、サーバ20に元気モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部26は、まずデータベース2を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース2には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース5を参照し、「いいことありそう!」を回答フレーズとして選択する。
Further, for example, when the fine mode is set in the server 20 and the input voice information includes the phrase "Good morning", the utterance
このように、実施形態5に係る発話システム1では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致しない場合(音声情報に含まれるフレーズ対応する回答フレーズがない場合)、発話装置10は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム1では、ユーザとより円滑なコミュニケーションを図ることができる。
Thus, in the
次に、発話内容決定部26が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合であっても、取得した認識イントネーションが参照するデータベースと一致しない場合にあいまいデータベースを参照する例について、説明する。
Next, even if the utterance
まず、音声情報認識部25は、入力音声情報を認識し、認識情報を発話内容決定部26に出力する。発話内容決定部26は、認識情報に基づく発話内容を、サーバ20に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しているが、認識イントネーションが、参照するデータベースの認識フレーズに設定されたイントネーションと一致しない場合、発話内容決定部26は、あいまいデータベースを参照し、あいまいフレーズを選択する。
First, the voice
例えば、サーバ20に標準モードが設定されており、入力音声情報が、フレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部26は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース1から選択する。ここで、データベース1には、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部26は、データベース4を参照し、「もう1回言って」を回答フレーズとして選択する。なお、発話内容決定部26は、データベース4から回答フレーズを選択する場合に、上述したように、所定の条件(例えば、データベース4に含まれる回答フレーズを、上から順番に選択する、など)に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。
For example, when the standard mode is set in the server 20 and the input voice information includes intonation accented with "Y" of the phrase "Ohayou", the utterance
また、例えば、サーバ20に元気モードが設定されており、入力音声情報がフレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部26は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース2から選択する。ここで、データベース2には、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう!」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部26は、データベース5を参照し、「声が小さい!」を回答フレーズとして選択する。
Further, for example, when the fine mode is set in the server 20 and the input voice information includes intonation accented with “Yo” of the phrase “Good morning”, the utterance
このように、実施形態5に係る発話システム1では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合(音声情報に含まれるフレーズ対応するフレーズがある場合)であっても、所定のイントネーションと一致しない場合、発話装置10は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム1では、ユーザとより円滑なコミュニケーションを図ることができる。
Thus, in the
〔実施形態6〕
上述した実施形態では、サーバ20は、入力音声情報に対応した回答フレーズを発話装置10から発話させたが、入力音声情報に基づいて外部情報を取得し、外部情報に対応した回答フレーズを発話装置10に発話させる構成としてもよい。外部情報を取得する構成である実施形態6について、図6を用いて説明する。
Sixth Embodiment
In the embodiment described above, the server 20 causes the utterance device 10 to utter the answer phrase corresponding to the input voice information, but acquires external information based on the input voice information, and utters the answer phrase corresponding to the external information It is good also as composition which makes 10 speak. Sixth Embodiment A configuration for acquiring external information will be described with reference to FIG.
図6は、本発明の実施形態6に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するデータベースの例である。図6のデータベース6は、認識フレーズに対応する指示が含まれている。指示とは、発話内容決定部26が実行する処理のことである。例えば、図6のデータベース6には、「ネットワークから天気情報を取得する」という指示が含まれている。続いて、データベース7及びデータベース8は、外部情報に対応した回答フレーズが含まれている。外部情報とは、発話内容決定部26が外部情報取得部24を介して取得した情報である。例えば、図6のデータベース7及び8には、「晴れ」「雨」という天気に関する天気情報が外部情報として含まれている。本実施形態では、データベース7は標準モード、データベース8は元気モードにそれぞれ対応しており、入力音声情報が「今日の天気は?」というフレーズであった場合を例に挙げ、説明する。
FIG. 6 is an example of a database which the utterance
まず、音声情報認識部25は、入力音声情報を認識し、認識フレーズが「今日の天気は?」であることを示す認識情報を、発話内容決定部26に出力する。発話内容決定部26は、参照するデータベースを切り替え、取得した認識情報に対応する「ネットワークから天気情報を取得する」という指示を実行する。そして、発話内容決定部26は、外部情報取得部24を介して、天気情報を取得する。
First, the voice
続いて、発話内容決定部26は、取得した天気情報に対応する回答フレーズを選択する。
Subsequently, the utterance
例えば、取得した天気情報が「晴れ」であり、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース7を参照し、「晴れだよ」というフレーズを発話内容として決定する。
For example, when the acquired weather information is "fine" and the standard mode is set in the server 20, the utterance
また、例えば、取得した天気情報が「雨」であり、サーバ20に元気モードが設定されている場合、発話内容決定部26は、元気モードに対応するデータベース8を参照し、「雨だー!」というフレーズを発話内容として決定する。
Also, for example, when the acquired weather information is "rain" and the fine mode is set in the server 20, the utterance
このように、実施形態6に係る発話システム1では、入力音声情報に対応した指示、及び外部情報に対応した回答フレーズを含むデータベースを備えることにより、外部情報及びサーバ20に設定されているモードに応じた発話内容を、発話装置10に発話させることができる。したがって、発話システム1は、リアルタイムに取得した外部情報に応じた発話内容を、発話装置10から発話させることができる。
As described above, in the
〔実施形態7〕
本実施形態では、サーバ20に設定されている発話モードを、ユーザが発する音声によってサーバ20が変更する処理について、図7を用いて説明する。なお、本実施形態において、サーバ20から送信された発話内容を、発話装置10の通信部(確認案内フレーズ受信手段)11を介して発話部(確認案内フレーズ発話手段)13が取得し、該発話内容を発話部13が発話する処理、及び、音声情報取得部(回答受付手段)12が音声情報を取得し、通信部(回答送信手段)11を介してサーバ20に送信する処理については、上述の実施形態において既に説明したためここでは説明を省略する。
Seventh Embodiment
In the present embodiment, a process of changing the speech mode set in the server 20 by the user's voice by the server 20 will be described using FIG. 7. In the present embodiment, the utterance unit (confirmation guidance phrase utterance unit) 13 acquires the utterance content transmitted from the server 20 via the communication unit (confirmation guidance phrase reception unit) 11 of the utterance device 10, and the utterance is made The process in which the
図7は、本発明の実施形態7に係る発話システム1において、サーバ20に設定されているモードを変更する処理の流れを示すフローチャートである。サーバ20は、発話装置10から、モードを変更することを示す操作情報を取得すると、発話内容決定部26は、モードを変更するか否かをユーザに確認する確認案内フレーズ(例えば、「元気モードに変更します。よろしいですか?」など)を選択する。そして、発話内容決定部26は、選択した確認案内フレーズを含む発話内容を、サーバ通信部21(確認案内フレーズ送信手段)を介して発話装置10に出力する(ステップS1)。
FIG. 7 is a flowchart showing a flow of a process of changing the mode set in the server 20 in the
なお、サーバ20に対して発話装置10が複数ある場合、モード変更の対象となる発話装置を特定するための情報を、モードを変更することを示す操作情報に含めておく構成としてもよい。また、サーバ20は、モードを変更することを示す操作情報を、サーバ20に接続されている入力装置を介して取得してもよい。また、発話装置10が備える操作受付部14が受け付けた操作情報を、発話装置10がサーバ20に送信することにより、サーバ20は、モードを変更することを示す操作情報を取得してよい。
When there are a plurality of speech devices 10 in the server 20, information for specifying a speech device to be a target of mode change may be included in operation information indicating that the mode is to be changed. In addition, the server 20 may obtain operation information indicating that the mode is to be changed, via an input device connected to the server 20. In addition, the speech device 10 may transmit the operation information received by the
また、ユーザが発話装置10に発する音声によってモードを変更する構成としてもよい。より具体的には、各モードに対応するキャラクタ名称の特徴的な一部(例えば、「アイちゃん」や「ナオちゃん」等)、またはキャラクタ名称の全部(例えば、「元気なアイちゃん」、「のんびりナオちゃん」等)を含む音声情報を、発話装置10の音声情報取得部12が取得し、取得した音声情報をサーバ20が受信することによって、サーバ20は、設定されているモードを変更してもよい。この場合、音声情報取得部12が取得した音声情報を、発話装置10がそのままサーバ20に送信し、サーバ20において対応するモードを特定してもよいし、発話装置10が、各モードとキャラクタ名称とを対応させ、発話装置10が、音声情報取得部12が取得した音声情報に対応するモードを特定し、特定したモードを示すモード情報をサーバ20に送信してもよい。
Further, the mode may be changed according to the sound emitted by the user to the speech device 10. More specifically, a characteristic part of the character name corresponding to each mode (for example, "Ai-chan", "Nao-chan", etc.) or all of the character name (for example When the voice
また、ステップS1において、発話内容決定部25は、確認案内フレーズとして、モードに対応したキャラクタ名称を使用した確認案内フレーズを選択してもよい。キャラクタ名称を使用した確認案内フレーズの一例として、「元気なアイちゃんになります。いいかな?」が挙げられる。さらに、発話装置10は、キャラクタ名称を使用した確認案内フレーズを発話する場合、「元気なアイちゃん」のキャラクタイメージを、表示部15が備える表示パネルに表示させてもよい。そして、発話内容決定部26は、発話内容の出力とともに、タイマーをスタートさせる(ステップS2)。
In step S1, the utterance
次に、発話内容決定部26は、スタートさせたタイマーが、所定の時間を経過し、タイムアウトが発生したか否かを判定する(ステップS3)。ここで、所定の時間とは、出力した確認案内フレーズに対するユーザの回答を受け付ける時間である。
Next, the utterance
ステップS3において、「タイムアウトが発生した」と判定された場合(ステップS3:YES)、発話内容決定部26は、タイムアウトが発声したため、モードを変更する処理を中止することを示すタイムアウト案内フレーズ(例えば、「時間切れのため、モード変更を中止しました」など)を選択する。そして、発話内容決定部26は、選択したタイムアウト案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS4)。
If it is determined in step S3 that "timeout has occurred" (step S3: YES), the utterance
一方、ステップS3において、「タイムアウトは発生していない」と判定された場合(ステップS3:NO)、音声情報認識部(取得手段)25は、サーバ通信部(回答受付手段)21を介して、上記確認案内フレーズに対する回答である音声情報を取得したか否かを判定する(ステップS5)。 On the other hand, when it is determined in step S3 that "timeout has not occurred" (step S3: NO), the voice information recognition unit (acquisition means) 25 receives the response via the server communication unit (answer acceptance means) 21. It is determined whether voice information which is an answer to the confirmation guidance phrase has been acquired (step S5).
ステップS5において、「入力音声情報を取得していない」と判定された場合(ステップS5:NO)、発話内容決定部26の処理は、タイムアウトが発生したか否かを判定するステップS3に戻る。
If it is determined in step S5 that "the input speech information has not been acquired" (step S5: NO), the processing of the utterance
一方、ステップS5において、「入力音声情報を取得した」と判定された場合(ステップS5:YES)、音声情報認識部25は、ユーザからの回答である入力音声情報を認識する(ステップS6)。そして、発話内容決定部(モード変更決定手段)26は、音声情報認識部25によって認識されたフレーズに応じて、モードを変更するか否かを決定する。
On the other hand, if it is determined in step S5 that "input voice information has been acquired" (step S5: YES), the voice
ステップS6において、「取得した音声情報は、ユーザが変更を承認することを示す確認フレーズ(例えば、「いいよ」など)である」と判定された場合(ステップS6:確認フレーズ)、発話内容決定部26は、モードを変更することを決定する。そして、発話内容決定部26は、設定されているモードを変更し、モード変更が完了したことを示す確認完了フレーズ(例えば、「モードを変更しました」)を選択する。そして、発話内容決定部26は、選択した確認完了フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS7)。
If it is determined in step S6 that "the acquired voice information is a confirmation phrase (for example," good "etc.) indicating that the user approves the change" (step S6: confirmation phrase), the utterance content determination The
また、ステップS6において、「取得した音声情報は、確認フレーズとは異なる誤フレーズ(例えば、「おはよう」など)である」と判定された場合(ステップS6:誤フレーズ)、発話内容決定部26は、モードを変更しないことを決定し、誤フレーズを取得した回数が3回目か否かを判定する(ステップS8)。
If it is determined in step S6 that "the acquired voice information is a wrong phrase (for example," good morning "etc.) different from the confirmation phrase" (step S6: false phrase), the utterance
ステップS8において、「誤フレーズを取得した回数は、3回目ではない」と判定された場合(ステップS8:NO)、発話内容決定部26は、ユーザに再度確認フレーズを発してもらうように促すことを示す再確認案内フレーズ(例えば、「もう1回言って下さい」など)を選択する。そして、発話内容決定部26は、選択した再確認案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS9)。そして、発話内容決定部26は、再びタイマーを初めからスタートさせるため、ステップS2に戻る。
If it is determined in step S8 that "the number of times the wrong phrase has been acquired is not the third time" (step S8: NO), the utterance
一方、ステップS8において、「誤フレーズを取得した回数は、3回目である」と判定された場合(ステップS8:YES)、発話内容決定部26の処理は、モード変更を終了するステップS10に進む。
On the other hand, when it is determined in step S8 that "the number of times the wrong phrase has been acquired is the third time" (step S8: YES), the processing of the utterance
また、ステップS6において、「取得した音声情報は、ユーザがモードの変更を中止することを示す終了フレーズ(例えば、「やめる」など)である」と判定された場合(ステップS6:終了フレーズ)、発話内容決定部26は、モードを変更しないことを決定し、モードを変更する処理を終了することを示す終了案内フレーズ(例えば、「モード変更を中止しました」など)を選択する。そして、発話内容決定部26は、選択した終了案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS10)。
When it is determined in step S6 that "the acquired voice information is an end phrase (for example," stop "etc.) indicating that the user cancels the mode change (step S6: end phrase) The utterance
また、ステップS6において、「取得した音声情報は、ノイズである」と判定された場合(ステップS5:ノイズ)、発話内容決定部26の処理は、モードを変更しないことを決定し、タイムアウトが発生したか否かを判定するステップS3に戻る。なお、音声情報がノイズであるか否かを判定する方法として、例えば、入力音声情報に含まれる音の大きさが、所定の範囲に含まれているか否かによって判定する方法が挙げられる。ここで、所定の範囲の例として、ユーザが会話において発する音の大きさに含まれない範囲を挙げると、音声情報に含まれる音の大きさが、ユーザが会話において発する音の大きさより小さい、またはユーザが会話において発する音の大きさより大きい、の何れかに含まれる場合、発話内容決定部26は、入力音声情報はノイズであると判定する。
When it is determined in step S6 that "the acquired voice information is noise" (step S5: noise), the processing of the utterance
このように、実施形態7に係る発話システム1では、サーバ20に設定されているモードをユーザが変更する場合、ユーザからモード変更の操作を受け付けた後、さらにモード変更するか否かを確認することができる。したがって、サーバ20に設定されているモードが誤って変更されるのを防ぐことができる。また、発話システム1において、発話装置10が確認案内フレーズを発話し、それに対してユーザが発話することにより、サーバ20の設定を変更することができる。換言すると、ユーザと発話装置10とが会話することによって、サーバ20の設定が変更できるので、発話システム1は、ユーザと円滑なコミュニケーションを図ることができる。
As described above, in the
なお、図7のステップS5において、音声情報認識部25が認識した認識フレーズに基づいて発話内容決定部26は次の処理を実行したが、認識フレーズ及び認識イントネーションに基づいて、発話内容決定部26は次の処理を実行してもよい。
In step S5 of FIG. 7, the speech
例えば、ステップS1において、発話内容決定部26は、モードを変更することを示す操作情報を取得すると、発話内容を決定するために参照するデータベースを、変更した後のモードに対応するデータベースとする構成であってもよい。より具体的には、発話内容決定部26は、元気モードに変更することを示す操作情報を取得した場合、発話内容決定部26は、発話内容を決定するために参照するデータベースを、確認フレーズとして「OK!」「よろしく!」を含んだ元気モードに対応するデータベースに切り替える(ステップS1)。なお、モード変更の対象となる発話装置を特定するための情報が操作情報に含まれている場合、モード変更の対象となる発話装置の発話についてデータベースを切り替える。
For example, in step S1, when the utterance
次に、発話内容決定部26が実行するステップS2〜S4、及び音声情報認識部25が実行するステップS5については、既に説明しているため、省略する。
Next, steps S2 to S4 executed by the utterance
続いて、ステップS6において、音声情報認識部25が、ユーザから「いいよ」というフレーズを含む音声情報を取得した場合、元気モードに対応した確認フレーズではないため、誤フレーズとして、発話内容決定部26は、ステップS8に進む。
Subsequently, in step S6, when the voice
このように、実施形態7に係る発話システム1では、変更後のモードにおいて、ユーザは変更後のモードに対応する認識フレーズを入力音声情報として発話できるか否かを、モードを変更する前に確認することができる。
As described above, in the
なお、実施形態7に係る発話システム1では、入力音声情報を所定の条件でサーバ20が取得した場合に、サーバ20に設定されたモードを変更できる構成としてもよい。所定の条件として、例えば、音量が所定の値よりも大きい入力音声情報を、サーバが複数回(例えば3回)続けて取得した場合、サーバ20は元気モードに変更するとしてもよい。所定の音量よりも大きい入力音声情報をユーザが発している場合、ユーザが元気だと判断できるので、サーバ20が元気モードに変更することにより、ユーザにより楽しく発話装置10と会話させることができる。
In addition, in the
また、実施形態7に係る発話システム1において、発話装置10が制御部22及び記憶部23を備えることにより、発話装置10が図7の処理を実行してもよい。この場合、発話装置の発話内容決定部(決定手段)26において決定した確認案内フレーズを、発話部(確認案内フレーズ発話手段)13が発話する。そして、音声情報取得部(回答受付手段)12が、確認案内フレーズに対する回答である入力音声情報を取得し、取得した入力音声情報を音声情報認識部25に出力する。そして、音声情報認識部25が認識したフレーズに応じて、発話内容決定部26が、モードを変更するか否かを決定する。したがって、発話装置10は、ユーザと円滑なコミュニケーションを図ることができる。
In addition, in the
〔実施形態8〕
発話内容決定部26は、フレーズやイントネーションに加え、決定した発話内容の声色、音量、話速、音の高さを、サーバ20に設定されたモードに応じて変更できる変更部(変更手段)を備える構成としてもよい。
[Embodiment 8]
The uttered
例えば、サーバ20に元気モードが設定された場合、発話内容決定部26は、変更部において、声色を元気な声色に変更し、音量を標準モードの1.2倍、話速を標準モードの1.3倍に変更する、としてもよい。
For example, when the fine mode is set in the server 20, the utterance
また、例えば、サーバ20に丁寧モードが設定された場合、発話内容決定部26は、変更部において、声色を丁寧な声色に変更し、音量を標準モードの0.9倍、話速を標準モードの0.8倍、音の高さを標準モードの1.2倍に変更する、としてもよい。
Also, for example, when the polite mode is set to the server 20, the utterance
このように、実施形態8に係る発話システム1では、決定した発話内容の声色、音量、話速、音の高さを、サーバ20に設定されたモードに応じて変更することができる。したがって、より人間味に溢れる発話装置10を実現することができる。
Thus, in the
〔実施形態9〕
サーバ20の制御部22は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Embodiment 9]
The control unit 22 of the server 20 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software using a CPU (Central Processing Unit).
後者の場合、サーバ20は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 In the latter case, the server 20 is a CPU that executes instructions of a program that is software that implements each function, a ROM (Read Only Memory) or a storage in which the program and various data are readably recorded by a computer (or CPU). A device (these are referred to as “recording media”), a RAM (Random Access Memory) for developing the program, and the like are provided. The object of the present invention is achieved by the computer (or CPU) reading the program from the recording medium and executing the program. As the recording medium, a “non-transitory tangible medium”, for example, a tape, a disk, a card, a semiconductor memory, a programmable logic circuit or the like can be used. The program may be supplied to the computer via any transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program. The present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the program is embodied by electronic transmission.
〔まとめ〕
本発明の態様1に係る発話制御装置(20)は、発話装置(10)に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段(発話内容決定部26)、を備える。
[Summary]
The speech control device (20) according to
上記の構成によれば、発話制御装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する、または発話すべきフレーズのイントネーションを設定する、の少なくとも何れかの処理を行うことによって、発話装置に発話させる発話内容を決定する。したがって、発話制御装置は、ユーザに合わせた発話内容を発話装置から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, the speech control apparatus performs at least one of the process of selecting the phrase to be uttered from a plurality of phrases included in the same category or setting the intonation of the phrase to be uttered. The content of the utterance to be uttered to the uttering device is determined. Therefore, since the speech control device can make the speech device utter the speech contents tailored to the user, it is possible to achieve smooth communication with the user as compared with the conventional case.
本発明の態様2に係る発話制御装置は、上記態様1において、1又は複数のフレーズを含む複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。
The speech control apparatus according to aspect 2 of the present invention is configured to refer to a plurality of phrase databases including one or a plurality of phrases in the above-mentioned
上記の構成によれば、発話制御装置は、複数のフレーズデータベースを参照し、フレーズデータベースを切り替えることにより発話内容を決定するので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。 According to the above configuration, the speech control device refers to the plurality of phrase databases and determines the contents of the speech by switching the phrase databases, so that speech control can be made to communicate with the user more smoothly than before. The device can be easily realized.
本発明の態様3に係る発話制御装置は、上記態様1または2において、1又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。
The speech control apparatus according to aspect 3 of the present invention is configured to refer to a plurality of phrase databases in which different intonations are set for one or a plurality of phrases in the
上記の構成によれば、発話制御装置は、1又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照し、イントネーションが設定されたフレーズを発話内容として決定する。したがって、ユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。 According to the above configuration, the speech control device refers to a plurality of phrase databases in which different intonations are set for one or a plurality of phrases, and determines a phrase for which the intonation is set as the speech content. Therefore, it is possible to easily realize a speech control device capable of achieving smooth communication with the user.
本発明の態様4に係る発話制御装置は、上記態様2または3において、上記フレーズデータベースに対応する認識データベースであって、入力音声情報を認識するための認識データベースを参照してもよい。 The speech control apparatus according to aspect 4 of the present invention may be the recognition database corresponding to the phrase database in the above aspect 2 or 3, and may refer to a recognition database for recognizing input speech information.
上記の構成によれば、発話制御装置は、フレーズデータベースに対応した認識データベースを参照することにより、入力音声情報を認識することができる。 According to the above configuration, the speech control device can recognize the input speech information by referring to the recognition database corresponding to the phrase database.
本発明の態様5に係る発話制御装置は、上記態様4において、上記認識データベースを、入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて切り替える認識手段(音声情報認識部25)、をさらに備え、上記発話内容決定手段は、上記認識手段によって認識されたフレーズ及びイントネーションの少なくとも何れかに応じて、上記発話内容を決定してもよい。 In the speech control device according to aspect 5 of the present invention, in the above aspect 4, a recognition unit (speech information recognition unit 25) for switching the recognition database according to at least one of a phrase included in input speech information and intonation. The speech content determination means may further determine the speech content according to at least one of the phrase and the intonation recognized by the recognition means.
上記の構成によれば、発話制御装置は、認識手段によって認識された入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて決定された発話内容を、発話装置に発話させる。したがって、ユーザはあたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, the speech control device causes the speech device to utter the speech content determined according to at least one of the phrase and the intonation included in the input speech information recognized by the recognition means. Therefore, since the user can talk to the speech apparatus as if he / she is talking to a person, the speech control apparatus can communicate more smoothly with the user than before.
本発明の態様6に係る発話制御装置は、上記態様2〜5において、入力音声情報に含まれるフレーズが、所定のフレーズと一致するか否かを判定する判定手段(発話内容決定部26)をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。 The speech control apparatus according to the sixth aspect of the present invention is the speech control device according to the second to fifth aspects, wherein the judgment means (the speech content determination unit 26) judges whether the phrase included in the input speech information matches the predetermined phrase. Furthermore, when it is determined by the determination means that the phrase included in the input voice information does not match the predetermined phrase, the utterance content determination means determines that the phrase included in the input voice information is a predetermined phrase A phrase included in a category different from the category of the phrase selected in the case of matching may be selected as the phrase to be uttered.
上記の構成によれば、入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、発話制御装置は、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, when it is determined that the phrase included in the input voice information does not match the predetermined phrase, the utterance control device determines that the phrase included in the input voice information matches the predetermined phrase. A phrase included in a category different from the category of the phrase selected in can be uttered from the speaking device. Therefore, since the user can talk with the speech device as if he / she is talking to a person, the speech control device can communicate more smoothly with the user than in the past.
本発明の態様7に係る発話制御装置は、上記態様3〜5において、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致するか否かを判定する判定手段(発話内容決定部26)をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、上記入力音声情報に含まれるイントネーションが、所定のイントネーションと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるイントネーションが所定のイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。
The speech control apparatus according to
上記の構成によれば、入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、入力音声情報に含まれるイントネーションが所定のイントネーションと一致しない場合には、所定のフレーズ及びイントネーションが一致した場合に選択されるフレーズのカテゴリとは異なるカテゴリを、発話制御装置は、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, even if the phrase included in the input voice information matches the predetermined phrase, if the intonation included in the input voice information does not match the predetermined intonation, the predetermined phrase and intonation are included. The utterance control device can cause the utterance control device to utter a category different from the category of the phrase selected when there is a match. Therefore, since the user can talk with the speech device as if he / she is talking to a person, the speech control device can communicate more smoothly with the user than in the past.
本発明の態様8に係る発話制御装置は、上記態様6または7において、上記発話内容決定手段は、上記選択処理において、上記異なるカテゴリに含まれる複数のフレーズを含むデータベースから発話すべきフレーズをランダムに選択してもよい。 In the utterance control device according to an eighth aspect of the present invention, in the sixth or seventh aspect, the utterance content determination means randomly selects a phrase to be uttered from a database including a plurality of phrases included in the different categories in the selection process. You may choose to
上記の構成によれば、発話制御装置は、異なるカテゴリに含まれる複数のフレーズをランダムに選択し、発話装置から発話させることができる。したがって、発話装置は、同じフレーズばかり回答することはなく、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, the speech control device can randomly select a plurality of phrases included in different categories and cause the speech device to speak. Therefore, the speech device does not answer only the same phrase, and the user can talk to the speech device as if he / she was talking to a person, so the speech control device is smoother with the user than in the past. Communication is possible.
本発明の態様9に係る発話制御装置は、上記態様1〜8において、上記発話内容決定手段は、発話装置に発話させる発話内容の声色、音量、話速、音の高さの少なくとも1つを変更する変更手段をさらに備えてもよい。
In the speech control apparatus according to aspect 9 of the present invention, in the above-mentioned
上記の構成によれば、発話制御装置は、発話させる発話内容の声色、音量、話速、音の高さの少なくとも1つを変更して、発話内容を発話装置に発話させることができる。したがって、発話内容に応じた声色、音量、話速、音の高さで、発話内容を発話装置に発話させることができる。 According to the above configuration, the utterance control device can change the voice color, the volume, the speech speed, and the pitch of the utterance content to be uttered to cause the utterance device to utter the utterance content. Therefore, it is possible to cause the speech apparatus to utter the speech content with the voice color, the volume, the speech speed, and the pitch according to the speech content.
本発明の態様10に係る方法は、発話装置に発話させる発話内容を決定する方法であって、同一カテゴリに含まれる複数のフレーズから、発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定工程を含み、上記発話内容決定工程は、複数のフレーズを含む複数のフレーズデータベースを切り替えることにより、上記発話内容を決定する。 A method according to a tenth aspect of the present invention is a method of determining speech content to be made to be uttered in a speech device, comprising: selection processing for selecting a phrase to be uttered from a plurality of phrases included in the same category; The utterance content determination step of determining the utterance content by performing at least one of the setting processing of setting the intonation of the plurality of phrase databases including the plurality of phrases. By switching, the utterance content is determined.
上記の構成によれば、方法は、ユーザと円滑なコミュニケーションを図る発話装置を実現することができる。 According to the above configuration, the method can realize an utterance device that achieves smooth communication with the user.
本発明の態様11に係る発話システムは、上記態様5における発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、入力音声情報を発話制御装置に送信し、発話制御装置から受信した発話内容を発話する。 A speech system according to aspect 11 of the present invention is a speech system including the speech control device according to aspect 5 and a speech device, wherein the speech device transmits input speech information to the speech control device, and performs speech control The utterance content received from the device is uttered.
上記の構成によれば、発話システムは、上記態様5に記載の発話制御装置と同様の効果を奏する発話システムを実現することができる。 According to the above configuration, the speech system can realize the speech system having the same effect as the speech control device described in the fifth aspect.
本発明の各態様に係る発話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話制御装置が備える各手段として動作させることにより上記発話制御装置をコンピュータにて実現させる発話制御装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The speech control device according to each aspect of the present invention may be realized by a computer, and in this case, the speech control device is realized by the computer by operating the computer as each means included in the speech control device. A control program of a speech control device and a computer readable recording medium recording the same also fall within the scope of the present invention.
本発明の態様12に係る発話装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって発話内容を決定する発話内容決定手段(発話内容決定部26)と、上記発話内容決定手段によって決定された発話内容を発話する発話手段(発話部13)と、を備える。
The speech apparatus according to
上記の構成によると、態様1に係る発話制御装置と同様の効果を奏する発話装置が実現できる。
According to the above configuration, it is possible to realize a speech apparatus that achieves the same effect as the speech control apparatus according to
本発明の態様13に係る発話制御装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信手段(サーバ通信部21)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(サーバ通信部21)と、上記回答受付手段が受け付けた回答に応じて、モードを変更するか否かを決定するモード変更決定手段(発話内容決定部26)と、を備えている。
The speech control apparatus according to
上記の構成によれば、発話制御装置は、ユーザにモードを変更するか否かを確認する確認案内フレーズを、発話装置から発話させることができる。したがって、発話制御装置は、モードをユーザと会話することによって変更できるので、ユーザと円滑なコミュニケーションを図ることが可能である。 According to the above configuration, the speech control device can cause the user to utter a confirmation guidance phrase for confirming whether or not to change the mode. Therefore, since the speech control device can change the mode by talking with the user, it is possible to achieve smooth communication with the user.
本発明の態様14に係る発話装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話する確認案内フレーズ発話手段(発話部13)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(音声情報取得部12)と、上記回答受付手段が受け付けた回答に応じて、発話モードを変更するか否かを決定するモード変更決定手段(発話内容決定部26)と、を備えている。
An utterance apparatus according to
上記の構成によれば、上記態様11に係る発話制御装置と同様の効果を奏する発話装置を実現することができる。 According to the above configuration, it is possible to realize a speech apparatus that achieves the same effect as the speech control apparatus according to aspect 11.
本発明の態様15に係る発話システムは、上記態様14に記載の発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、上記発話制御装置から上記確認案内フレーズを受信する確認案内フレーズ受信手段(通信部11)と、上記確認案内フレーズを発話する確認案内フレーズ発話手段(発話部13)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(音声情報取得部12)と、上記回答受付手段が受け付けた回答を上記発話制御装置に送信する回答送信手段(通信部11)と、を備えている。
A speech system according to
上記の構成によれば、上記態様11に係る発話制御装置と同様の効果を奏する発話システムを実現することができる。 According to the above configuration, it is possible to realize a speech system that achieves the same effect as the speech control device according to aspect 11.
本発明の態様16に係る方法は、発話装置の発話を制御する方法であって、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信工程と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付工程と、上記回答受付工程において受け付けた回答に応じて、発話モードを変更するか否かを決定する決定工程と、を含んでいる。 A method according to aspect 16 of the present invention is a method of controlling the speech of the speech device, the confirmation guidance phrase for confirming with the user whether or not to change the speech mode associated with the phrase or the phrase and intonation. Whether to change the speech mode according to the confirmation guidance phrase transmission step of transmitting the speech to the speech apparatus, the answer reception step of receiving an answer from the user for the confirmation guide phrase, and the answer received in the answer reception step. And a decision process to decide.
上記の構成によれば、方法は、ユーザと円滑なコミュニケーションを図る発話装置を実現することができる。 According to the above configuration, the method can realize an utterance device that achieves smooth communication with the user.
(付記事項)
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段、を備える。
(Additional items)
In order to solve the above-mentioned subject, a speech control device concerning one mode of the present invention is a speech control device which determines the contents of speech to be made to speak in a speech device, and should speak from a plurality of phrases contained in the same category The utterance content determination means determines the above-mentioned utterance content by performing at least one of a selection process of selecting a phrase and a setting process of setting intonation of a phrase to be uttered.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Is also included in the technical scope of the present invention. Furthermore, new technical features can be formed by combining the technical means disclosed in each embodiment.
本発明は、ユーザに情報を提供する発話装置を備えたシステムに利用することができる。 The present invention can be used in a system provided with a speech device for providing information to a user.
1 発話システム
2 ネットワーク
10 発話装置
11 通信部(発話内容取得部)
13 発話部
20 サーバ(発話制御装置)
21 サーバ通信部(音声出力部)
22 制御部
23 記憶部
24 外部情報取得部(音声情報取得部)
25 音声情報認識部
26 発話内容決定部
1 speech system 2 network 10 speech device 11 communication unit (speech content acquisition unit)
13 utterance part 20 server (utterance control device)
21 Server communication unit (voice output unit)
22
25 speech
Claims (7)
上記発話装置から入力音声情報を取得する音声情報取得部と、
上記入力音声情報を認識する音声情報認識部と、
上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
を備え、
上記発話内容決定部は、上記認識情報が上記モードに対応しているか否かを判定し、上記認識情報が上記モードに対応していない場合、発話内容を決定しない、
ことを特徴とする発話制御装置。 A speech control apparatus for determining the content of speech to be made to be uttered into a speech apparatus, comprising:
A voice information acquisition unit that obtains input voice information from the speech device;
A voice information recognition unit that recognizes the input voice information;
An utterance content determination unit that determines the utterance content by referring to one or more databases according to the mode set in the utterance control device and the recognition information recognized by the speech information recognition unit;
A voice output unit that outputs the utterance content determined by the utterance content determination unit to the utterance device;
Equipped with
The utterance content determination unit determines whether the recognition information corresponds to the mode, and does not determine the utterance content if the recognition information does not correspond to the mode.
An utterance control device characterized by the above.
上記発話内容決定部は、上記設定されたモードに応じて上記1または複数のデータベースを参照することによって、上記回答フレーズを選択する、
ことを特徴とする請求項1に記載の発話制御装置。 In the above database, the recognition phrase indicated by the recognition information and the response phrase corresponding to the recognition phrase are associated for each mode.
The utterance content determination unit selects the answer phrase by referring to the one or more databases according to the set mode.
The speech control apparatus according to claim 1, characterized in that:
ことを特徴とする請求項2に記載の発話制御装置。 In the above database, the answer phrase associated with the recognition phrase indicated by the recognition information is different for each mode.
The speech control apparatus according to claim 2, characterized in that:
ことを特徴とする請求項2又は3に記載の発話制御装置。 The utterance content determination unit determines the utterance content according to the mode regardless of the setting of the utterance device.
The speech control apparatus according to claim 2 or 3, characterized in that:
上記発話装置から入力音声情報を取得する音声情報取得工程と、
上記入力音声情報を認識する音声情報認識工程と、
設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、
上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、
を含み、
上記発話内容決定工程において、上記認識情報が上記モードに対応しているか否かを判定し、上記認識情報が上記モードに対応していない場合、発話内容を決定しない、
ことを特徴とする方法。 A method of determining an utterance content to be uttered by an utterance device, comprising:
A voice information acquisition step of acquiring input voice information from the speech device;
A voice information recognition step of recognizing the input voice information;
An utterance content determination step of determining the utterance content by referring to one or more databases according to the set mode and the recognition information recognized in the voice information recognition step.
An audio output step of outputting the utterance content determined in the utterance content determination step to the utterance device;
Including
In the utterance content determination step, it is determined whether or not the recognition information corresponds to the mode, and when the recognition information does not correspond to the mode, the utterance content is not determined.
A method characterized by
発話制御装置と、
を備えた発話システムであって、
上記発話制御装置は、
上記発話装置から入力音声情報を取得する音声情報取得部と、
上記入力音声情報を認識する音声情報認識部と、
上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
を備え、
上記発話装置は、
上記発話制御装置から出力された発話内容を取得する発話内容取得部と、
取得した発話内容を発話する発話部と、
を備え、
上記発話内容決定部は、上記認識情報が上記モードに対応しているか否かを判定し、上記認識情報が上記モードに対応していない場合、発話内容を決定しない、
ることを特徴とする発話システム。 A speech device,
A speech control device;
A speech system equipped with
The above speech control device
A voice information acquisition unit that obtains input voice information from the speech device;
A voice information recognition unit that recognizes the input voice information;
An utterance content determination unit that determines the utterance content by referring to one or more databases according to the mode set in the utterance control device and the recognition information recognized by the speech information recognition unit;
A voice output unit that outputs the utterance content determined by the utterance content determination unit to the utterance device;
Equipped with
The speech device is
An utterance content acquisition unit for acquiring the utterance content output from the utterance control device;
An utterance unit for uttering the acquired utterance content;
Equipped with
The utterance content determination unit determines whether the recognition information corresponds to the mode, and does not determine the utterance content if the recognition information does not correspond to the mode.
Utterance system characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047738A JP6522679B2 (en) | 2017-03-13 | 2017-03-13 | Speech control apparatus, method, speech system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017047738A JP6522679B2 (en) | 2017-03-13 | 2017-03-13 | Speech control apparatus, method, speech system, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013227568A Division JP2015087649A (en) | 2013-10-31 | 2013-10-31 | Utterance control device, method, utterance system, program, and utterance device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017122930A JP2017122930A (en) | 2017-07-13 |
JP6522679B2 true JP6522679B2 (en) | 2019-05-29 |
Family
ID=59305588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017047738A Active JP6522679B2 (en) | 2017-03-13 | 2017-03-13 | Speech control apparatus, method, speech system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6522679B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6962158B2 (en) * | 2017-12-01 | 2021-11-05 | ヤマハ株式会社 | Equipment control system, equipment control method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08193837A (en) * | 1995-01-20 | 1996-07-30 | Sony Corp | Navigation system |
JP4292646B2 (en) * | 1999-09-16 | 2009-07-08 | 株式会社デンソー | User interface device, navigation system, information processing device, and recording medium |
JP2003108362A (en) * | 2001-07-23 | 2003-04-11 | Matsushita Electric Works Ltd | Communication supporting device and system thereof |
JP3997105B2 (en) * | 2002-04-11 | 2007-10-24 | 株式会社ピートゥピーエー | Conversation control system, conversation control device |
JP2015087649A (en) * | 2013-10-31 | 2015-05-07 | シャープ株式会社 | Utterance control device, method, utterance system, program, and utterance device |
-
2017
- 2017-03-13 JP JP2017047738A patent/JP6522679B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017122930A (en) | 2017-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
US11289082B1 (en) | Speech processing output personalization | |
US11869495B2 (en) | Voice to voice natural language understanding processing | |
US8566098B2 (en) | System and method for improving synthesized speech interactions of a spoken dialog system | |
US20160372116A1 (en) | Voice authentication and speech recognition system and method | |
US7966186B2 (en) | System and method for blending synthetic voices | |
CN107077840B (en) | Speech synthesis apparatus and method | |
US7792673B2 (en) | Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same | |
US20110276329A1 (en) | Speech dialogue apparatus, dialogue control method, and dialogue control program | |
JP6464703B2 (en) | Conversation evaluation apparatus and program | |
KR101836430B1 (en) | Voice recognition and translation method and, apparatus and server therefor | |
US20220358930A1 (en) | Generating event output | |
CN116917984A (en) | Interactive content output | |
JP2003066991A (en) | Speech recognition result output method, speech recognition result output device, and recording medium storing speech recognition result output processing program | |
US10143027B1 (en) | Device selection for routing of communications | |
US20030014253A1 (en) | Application of speed reading techiques in text-to-speech generation | |
JP2015087649A (en) | Utterance control device, method, utterance system, program, and utterance device | |
JP6522679B2 (en) | Speech control apparatus, method, speech system, and program | |
CN109791764A (en) | Communication based on speech | |
CN115148185A (en) | Speech synthesis method and device, electronic device and storage medium | |
KR100898104B1 (en) | Interactive Learning Systems and Methods | |
US11172527B2 (en) | Routing of communications to a device | |
JP7096707B2 (en) | Electronic devices, control devices that control electronic devices, control programs and control methods | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
US20200130195A1 (en) | Dialogue apparatus and control program for dialogue apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6522679 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |