JP2009053581A - Speech output device - Google Patents
Speech output device Download PDFInfo
- Publication number
- JP2009053581A JP2009053581A JP2007222206A JP2007222206A JP2009053581A JP 2009053581 A JP2009053581 A JP 2009053581A JP 2007222206 A JP2007222206 A JP 2007222206A JP 2007222206 A JP2007222206 A JP 2007222206A JP 2009053581 A JP2009053581 A JP 2009053581A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- output
- speech
- audio
- pause length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 abstract description 25
- 238000004458 analytical method Methods 0.000 description 50
- 238000012790 confirmation Methods 0.000 description 43
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
本発明は、出力音声の話速もしくはポーズ長またはその双方を可変する音声出力装置に関するものである。 The present invention relates to an audio output device that can vary the speech speed and / or pause length of output audio.
音声ガイダンスシステムのような、所定の音声を出力してユーザに音声による案内を提供する装置では、通常、複数の音声ブロック(単語、フレーズ、文、パラグラフ等)を連続的に音声出力するが、音声出力するペース(以下、発話ペースと称する)が、ユーザの望む発話ペースと合致せず、ユーザにとって聞きづらい音声が提示されてしまうという課題があった。 In an apparatus that outputs a predetermined voice and provides a voice guidance to a user, such as a voice guidance system, a plurality of voice blocks (words, phrases, sentences, paragraphs, etc.) are usually output continuously. There has been a problem that the pace at which the voice is output (hereinafter referred to as the utterance pace) does not match the utterance pace desired by the user, and voice that is difficult to hear for the user is presented.
そこで、音声合成装置に関し、『複数の文からなるテキストを文単位で読み上げるテキスト音声合成装置に係り、途中の文の読み上げ開始のタイミングをユーザが制御して内容を理解した後、次の文の音声合成に移ることを可能とする。』ことを目的とした技術として、『テキストデータに含まれるまたは付加した予め定めたデータを区切り情報として識別する区切り情報識別部3と、該区切り情報識別部3からの識別信号に応答して音声合成動作の中断を指示する合成中断制御部4と、ユーザの発声に基づく所定の音声情報を出力の開始情報として識別する開始情報識別部8と、該開始情報識別部8からの再開信号に応答して中断されたテキストデータの次の文に対応する音声合成動作の開始を指示する合成開始制御部9とを有して成ることを特徴とする音声合成装置。』というものが提案されている(特許文献1)。
Therefore, with regard to the speech synthesizer, “in relation to a text-to-speech synthesizer that reads out a text composed of a plurality of sentences in units of sentences, the user controls the timing to start reading a sentence in the middle and understands the contents. It is possible to move to speech synthesis. As a technology for the purpose of the above, “a delimiter
上記特許文献1に記載の音声合成装置は、中断/再開機能と、ユーザの発声を検出する機能とを備え、音声提示1ブロック(例えば、「1文」)毎に、ユーザの確認音声を待って、次の音声ブロックを再生できるように構成されている。
この音声合成装置によれば、ユーザは、1ブロック毎に音声内容を確認しながら、自分のペースで音声を聞くことができる。
The speech synthesizer described in
According to this voice synthesizer, the user can listen to the voice at his / her own pace while checking the voice content for each block.
しかしながら、上記特許文献1に記載の技術は、主として聞き落とし等の防止に主眼を置いたものであり、音声聴取時のユーザの快適性確保に関しては課題があった。例えば、以下の(1)〜(2)のような課題がある。
However, the technique described in
(1)音声ブロック毎に、都度確認発声をする必要があるため、ユーザに負担がかかる。例えば、ニュースのような音声(1ブロックを1文)を聴取する場合に、一文毎に確認発声もしくは確認判断をする必要があり、わずらわしい。
(2)確認発声による間接的な発話制御はできるが、発話ペースそのものをユーザにとって快適なものに変更することはできない。
(1) Since it is necessary to make a confirmation utterance for each voice block, a burden is imposed on the user. For example, when listening to sound such as news (one sentence for one block), it is necessary to make a confirmation utterance or confirmation for each sentence, which is troublesome.
(2) Although indirect utterance control by confirmation utterance can be performed, the utterance pace itself cannot be changed to a comfortable one for the user.
そのため、簡易な方法で発話ペースをユーザにとって快適なものに可変することのできる音声出力装置が望まれていた。 Therefore, there has been a demand for an audio output device that can vary the utterance pace to be comfortable for the user by a simple method.
本発明に係る音声出力装置は、音声を入力することにより、出力音声の話速もしくはポーズ長またはその双方を可変する音声出力装置であって、音声の入力を検出する音声検出部と、所定の出力音声を出力する音声出力部と、前記出力音声の話速もしくはポーズ長またはその双方を制御する制御部と、を備え、前記制御部は、前記音声出力部が1ブロックの前記出力音声を出力した後から、前記音声検出部が音声の入力を検出するまでの経過時間に基づき、次のブロックの出力音声の話速もしくはポーズ長またはその双方を制御するものである。 An audio output device according to the present invention is an audio output device that changes a speech speed and / or pause length of an output audio by inputting the audio, and includes an audio detection unit that detects the input of the audio, An audio output unit that outputs an output audio; and a control unit that controls a speech speed and / or pause length of the output audio, and the control unit outputs the output audio of one block. After that, the speech speed and / or pause length of the output voice of the next block is controlled based on the elapsed time from when the voice detection unit detects voice input.
本発明に係る音声出力装置によれば、音声ブロックを出力してから音声入力を検出するまでの経過時間に基づき、次のブロックの出力音声の話速やポーズ長を制御するので、話速を速めたい場合は音声ブロック終了後即座に確認音声を入力する、といったような簡易な方法で、発話ペースをユーザにとって快適なものに可変することができる。 According to the audio output device of the present invention, the speech speed and pause length of the output sound of the next block are controlled based on the elapsed time from the output of the audio block until the audio input is detected. If it is desired to speed up, the speech pace can be changed to a comfortable one for the user by a simple method such as inputting a confirmation voice immediately after the end of the voice block.
実施の形態1.
図1は、本発明の実施の形態1に係る音声出力装置100の機能ブロック図である。
音声出力装置100は、所定の出力音声を出力する装置であり、ユーザが確認音声を入力するタイミングによって、話速やポーズ長を可変し、ユーザにとって聞き取りやすいようにこれらを調整することができるものである。ここでいう「ポーズ」とは、音声ブロック間の無音区間のことをいう。
以下、音声出力装置100の構成について説明する。
FIG. 1 is a functional block diagram of an audio output device 100 according to
The audio output device 100 is a device that outputs predetermined output audio, and can change the speech speed and pause length according to the timing when the user inputs confirmation audio, and adjust these so that the user can easily hear them. It is. The “pause” here refers to a silent section between speech blocks.
Hereinafter, the configuration of the audio output device 100 will be described.
音声出力装置100は、音声検出部110、発話ペース制御部120、可変ルールテーブル130、音声データベース(以下、音声DBと称す)140、音声出力部150を備える。
The voice output device 100 includes a
音声検出部110は、ユーザが入力する任意の音声データを入力として受け取り、発話ペース制御部120に音声入力開始通知を出力する。
具体的には、マイクロホンを介して得られた音声信号をAD変換した後、デジタル信号処理によって音声検出処理を行う。検出方法は、音声検出に用いられる一般的な手法であれば何でもよいが、例えば、フレーム単位(例:長さ20ms、周期5ms)で音声信号のパワーを計算し、一定レベル以上のパワーを持つフレームが所定時間(例:3〜5フレーム)続けば、音声区間が開始されたと判断する。
これに、自己相関関数の最大値や、メルケプストラムおよびその差分等から検出判定ルールを作るなどして、より検出精度を高めてもよい。
音声検出部110は、音声区間が開始されたと判断すると、即座に音声入力開始通知を出力する。
The
Specifically, after an audio signal obtained via a microphone is AD converted, an audio detection process is performed by digital signal processing. Any detection method may be used as long as it is a general method used for voice detection. For example, the power of a voice signal is calculated in units of frames (eg,
In addition, detection accuracy may be further increased by creating a detection determination rule from the maximum value of the autocorrelation function, the mel cepstrum, and its difference.
When the
発話ペース制御部120は、音声検出部110から受信した音声入力開始通知と、音声出力部150から受信した音声出力終了通知および音声出力開始通知とに基づき、音声出力部150に発話ペースの可変ないし維持を指示する。
Based on the voice input start notification received from the
発話ペース制御部120は、タイミング解析部121、音声出力指示部122を内部構成として備える。
The speech pace control unit 120 includes a
タイミング解析部121は、後述の図2で説明する各通知の受信タイミングに基づき、音声出力指示部122に対し、(UP/KEEP/DOWN)の3種類のタイミング解析結果を出力する。
The
音声出力指示部122は、音声出力部150から音声出力終了通知および音声出力開始通知を受信し、また、タイミング解析部121からタイミング解析結果を受信する。さらには、音声出力部150に対し、話速選択指示とポーズ長調整指示を出力する。
話速選択指示とポーズ長調整指示の内容は、以下の(1)〜(3)の通りである。これらの詳細は、後述の図3で説明する。
The audio output instruction unit 122 receives an audio output end notification and an audio output start notification from the
The contents of the speech speed selection instruction and pause length adjustment instruction are as follows (1) to (3). Details thereof will be described later with reference to FIG.
(1)タイミング解析部121から「UP」を受け取った場合、話速を早くし、もしくはポーズ長を短くし、またはこれらの双方を行う。
(2)タイミング解析部121から「KEEP」を受け取った場合、話速もしくはポーズ長またはこれらの双方を維持する。
(3)タイミング解析部121から「DOWN」を受け取った場合、話速を遅くし、もしくはポーズ長を長くし、またはこれらの双方を行う。
(1) When “UP” is received from the
(2) When “KEEP” is received from the
(3) When “DOWN” is received from the
可変ルールテーブル130は、後述の図3で説明する可変ルールを格納している。 The variable rule table 130 stores variable rules described later with reference to FIG.
音声データベース140は、各出力音声に対応した音声データ(例えばwavファイル、以下同じ)を、音声ブロック毎に格納している。
なお、音声データベース140は、同じ内容の出力音声について、複数の話速に対応した音声データを備えている。例えば、同一内容の出力音声について、(早口/普通/ゆっくり)といった複数の話速で発話した音声データをそれぞれ格納している。
The audio database 140 stores audio data (for example, a wav file, the same applies hereinafter) corresponding to each output audio for each audio block.
Note that the voice database 140 includes voice data corresponding to a plurality of speech speeds for the output voice having the same content. For example, voice data uttered at a plurality of speech speeds (such as fast / normal / slow) is stored for each output voice having the same content.
音声出力部150は、音声出力指示部122から、話速選択指示とポーズ長調整指示を受け取り、これに基づき音声DB140より適切な話速の音声データを読み取り、適切なポーズ長で音声出力する。
また、音声出力を開始した際は音声出力開始通知を、音声出力を終了した際は音声出力終了通知を、タイミング解析部121と音声出力指示部122に出力する。
The
When the voice output is started, a voice output start notification is output to the
発話ペース制御部120は、その機能を実現する回路デバイスなどのハードウェアで構成することもできるし、マイコンやCPUなどの演算装置上で実行されるソフトウェアとして構成することもできる。
可変ルールテーブル130、音声データベース140は、これらを構成するために必要な各データファイルと、そのデータファイルを格納するメモリやHDD(Hard Disk Drive)などの記憶装置とにより構成することができる。ファイル形式等は適宜適切なものを用いればよい。
The utterance pace control unit 120 can be configured by hardware such as a circuit device that realizes the function, or can be configured as software executed on an arithmetic device such as a microcomputer or CPU.
The variable rule table 130 and the voice database 140 can be configured by data files necessary for configuring them, and a storage device such as a memory or HDD (Hard Disk Drive) for storing the data files. An appropriate file format may be used as appropriate.
なお、本実施の形態1における「制御部」は、発話ペース制御部120がこれに相当する。
また、「記憶部」は、可変ルールテーブル130を構成する記憶装置がこれに相当する。
Note that the “control unit” in the first embodiment corresponds to the speech pace control unit 120.
The “storage unit” corresponds to a storage device that configures the variable rule table 130.
以上、音声出力装置100の各構成について説明した。
次に、図2を用いて、タイミング解析部121のタイミング解析内容について説明するが、これに先立ち、タイミング解析の基本となる考え方について説明しておく。
Heretofore, each configuration of the audio output device 100 has been described.
Next, the timing analysis contents of the
一般的な会話における相槌の傾向として、相手にもっと早く話してもらいたい時には、相手の発話が終了すると即座に相槌を打つことで、相手に早く次の発話をするよう促すことが多い。一方、相手にもっとゆっくり話してもらいたい時には、その逆のことが多い。
そこで、本発明に係る音声出力装置100においても、この動作を取り入れる。
即ち、音声出力装置100が1ブロックの音声出力を終えた後、即座に確認音声が入力された場合には、ユーザが「もっと早く話してほしい」と感じているものと判断し、確認音声が入力されるまで時間がかかった場合には、ユーザが「もっとゆっくり話してほしい」と感じているものと判断する。
In general conversations, if you want the other party to speak more quickly, you often prompt the other person to speak immediately after the other person's utterance has been completed by hitting the conversation immediately. On the other hand, when you want the other party to speak more slowly, the opposite is often the case.
Therefore, this operation is also incorporated in the audio output device 100 according to the present invention.
That is, when the voice output device 100 finishes outputting one block of voice and the confirmation voice is input immediately, it is determined that the user feels “I want you to speak sooner” and the confirmation voice is If it takes time to input, it is determined that the user feels "I want to speak more slowly".
タイミング解析部121は、ユーザが「もっと早く話してほしい」と感じているものと判断した場合は「UP」を出力し、ユーザが「もっとゆっくり話してほしい」と感じているものと判断した場合は「DOWN」を出力する。これらの中間である場合は「KEEP」を出力する。
これらの判断基準の1例について、次の図2で説明する。
When the
An example of these criteria will be described with reference to FIG.
図2は、タイミング解析部121が、音声入力開始通知を受信するタイミングに基づき話速やポーズ長を可変するための判断基準の1例である。以下、音声入力開始通知を受信するタイミング毎に分けて説明する。
なお、図2に示す閾値TH1、TH2は、TH1<TH2の関係にあるものとする。
FIG. 2 is an example of determination criteria for the
Note that the thresholds TH1 and TH2 shown in FIG. 2 are in a relationship of TH1 <TH2.
(a)音声出力終了通知〜TH1で受信した場合
タイミング解析部121が、音声出力部150より1ブロックの音声出力の終了通知を受け取り、閾値TH1が経過するまでの間に、音声検出部110より音声入力開始通知を受け取った場合は、ユーザが「もっと早く話してほしい」と感じているものと判断し、「UP」を出力する。
(A) When the audio output end notification is received at TH1 The
(b)TH1〜TH2で受信した場合
タイミング解析部121が、音声出力部150より1ブロックの音声出力の終了通知を受け取り、閾値TH1が経過した後、閾値TH2が経過するまでの間に、音声検出部110より音声入力開始通知を受け取った場合は、現在の話速やポーズ長を維持するため、「KEEP」を出力する。
(B) When received by TH1 to TH2 The
(c)TH2以降、次の音声出力開始通知までに受信した場合
タイミング解析部121が、閾値TH2経過後、次の音声出力開始通知を受け取るまでの間に、音声検出部110より音声入力開始通知を受け取った場合は、ユーザが「もっとゆっくり話してほしい」と感じているものと判断し、「DOWN」を出力する。
(C) When received after TH2 and before the next audio output start notification The audio input start notification from the
(d)音声出力開始通知〜TH3で受信した場合
タイミング解析部121が、音声出力部150より1ブロックの音声出力の開始通知を受け取り、閾値TH3が経過するまでの間に、音声検出部110より音声入力開始通知を受け取った場合は、前の音声ブロックに対するユーザの応答が遅れたのか、それとも現在の音声ブロックに対して即座に応答したのか、いずれであるのかが判断できない。
そこで、ひとまず現在の話速やポーズ長を維持するため、「KEEP」を出力する。
(D) When received by voice output start notification to TH3 The
Therefore, in order to maintain the current speech speed and pause length, “KEEP” is output.
(e)TH3〜音声出力終了通知で受信した場合
タイミング解析部121が、音声出力部150より1ブロックの音声出力の開始通知を受け取り、閾値TH3が経過した後、音声検出部110より当該音声ブロックの音声出力終了通知を受け取るまでの間に、音声検出部110より音声入力開始通知を受け取った場合は、(a)と同様の例と判断し、「UP」を出力する。
(E) When TH3 is received as an audio output end notification The
なお、閾値TH1、TH2、TH3の値は、先に説明したタイミング解析の基本となる考え方の視点を元に、実際の対話データなどを解析してあらかじめ定めておく。例えば、音声出力のモーラ(拍)数で、TH1=1モーラ程度、TH2=3モーラ程度、TH3=1モーラ程度、などと定めておく。
ただし、TH1〜TH3の値は、話速やポーズ長によって変えるのが好ましい。そのため、当該音声ブロックの話速やポーズ長に応じて、ブロック毎に決定するのがよい。
本実施の形態1では、話速に応じてTH1〜TH3を決定するものとし、タイミング解析部121内の図示しない閾値テーブルに保持しておくものとする。
Note that the values of the thresholds TH1, TH2, and TH3 are determined in advance by analyzing actual dialogue data and the like based on the viewpoint of the concept that is the basis of the timing analysis described above. For example, the number of sound output mora (beats) is determined as TH1 = 1 mora, TH2 = 3 mora, TH3 = 1 mora, and the like.
However, it is preferable to change the values of TH1 to TH3 depending on the speech speed and pause length. Therefore, it is preferable to determine for each block according to the speech speed and pause length of the speech block.
In the first embodiment, TH1 to TH3 are determined according to the speech speed, and are stored in a threshold table (not shown) in the
図3は、可変ルールテーブル130の構成とデータ例を示すものである。
可変ルールテーブル130は、タイミング解析部121がタイミング解析を行った結果に基づき、音声出力指示部122が話速やポーズ長を可変する指示を行うためのルールを格納するものである。
図3のデータ例では、ポーズ長と話速の初期値をそれぞれP0、V0とする。
音声出力指示部122は、タイミング解析部121より「UP」「KEEP」「DOWN」を受け取ると、可変ルールテーブル130に示されるルールに基づき、それぞれ以下のように話速やポーズ長を可変する指示を行う。
FIG. 3 shows the configuration of the variable rule table 130 and data examples.
The variable rule table 130 stores rules for the voice output instruction unit 122 to instruct to change the speech speed and pause length based on the result of the timing analysis performed by the
In the data example of FIG. 3, the initial values of the pause length and speech speed are P0 and V0, respectively.
Upon receiving “UP”, “KEEP”, and “DOWN” from the
(1)UPを受け取った場合
話速選択指示として、現在の話速より1段階「早く」する+1を、音声出力部150へ出力する。
ポーズ長調整指示として、現在のポーズ長より1段階「短く」する+1を、音声出力部150へ出力する。
(2)KEEPを受け取った場合
何も出力しない。
(3)DOWNを受け取った場合
話速選択指示として、現在の話速より1段階「遅く」する−1を、音声出力部150へ出力する。
ポーズ長調整指示として、現在のポーズ長より1段階「長く」する−1を、音声出力部150へ出力する。
(1) When UP is received As the speech speed selection instruction, +1, which is one stage “faster” than the current speech speed, is output to the
As a pause length adjustment instruction, +1, which is “one step shorter than the current pause length”, is output to the
(2) When KEEP is received, nothing is output.
(3) When DOWN is received As the speech speed selection instruction, “-1” that is “slower” than the current speech speed is output to the
As a pause length adjustment instruction, “-1” that is “longer than” the current pause length is output to the
図4は、音声出力装置100の1動作例を示すものである。
ここでは、音声出力装置100はマイクロホンとスピーカを接続した装置であり、ユーザはそのマイクロホンの前に座って音声を聴取するものとする。
音声出力装置100は、1文毎に音声メッセージ(例えば「今日のニュース」など)をスピーカから出力していく。
ユーザは、(頷きながら)この音声メッセージを聴取し、ときおり声に出して相槌を打つ。この相槌は、例えば「うんうん」「へー」「なるほど」「はいはい」「次!」「ちょっとまって」といったものである。
ユーザから発せられる音声は、マイクロホンから音声出力装置100に取り込まれ、音声検出が行われる。
以下、図4に従い、ステップを追って音声出力装置100の動作を説明する。
FIG. 4 shows an operation example of the audio output device 100.
Here, it is assumed that the audio output device 100 is a device in which a microphone and a speaker are connected, and the user sits in front of the microphone and listens to the audio.
The voice output device 100 outputs a voice message (for example, “Today's news”) from the speaker for each sentence.
The user listens to this voice message (while whispering) and occasionally speaks out. For example, “Yes”, “Hey”, “I see”, “Yes,” “Next!”, “Slightly wait”.
The sound emitted from the user is taken into the sound output device 100 from the microphone, and sound detection is performed.
The operation of the audio output device 100 will be described below step by step according to FIG.
(1)タイミング解析部121は、初期値として、ポーズ長=P0、話速=V0に設定する。
(2)音声出力部150は、第1音声ブロック(B1)の音声出力を開始する。このときの音声データは、音声DB140内の、話速初期値V0に合致するものを用いる。
(3)音声ブロックB1の終了後、ポーズ長初期値P0が経過するまでの間に、ユーザからの確認音声入力を検出しない場合は、音声ブロックB1の終了後、ポーズ長P0が経過すると、音声出力部150は、直ちに第2音声ブロック(B2)の音声出力を開始する。
(1) The
(2) The
(3) If no confirmation voice input from the user is detected after the audio block B1 ends and before the pause length initial value P0 elapses, the audio is transmitted when the pause length P0 elapses after the audio block B1 ends. The
(4)音声ブロックB2の終了後、ポーズ長P0が経過するまでの間に、ユーザが音声S2を発したものとする。
(5)音声検出部110は、音声S2を検出すると直ちに音声入力開始通知をタイミング解析部121に出力する。この出力時刻は、音声検出部110がフレーム処理を行うために、実際の発話開始時刻よりは少し遅延するが、ここでは遅延は無視する。
(4) Assume that the user utters the voice S2 after the end of the voice block B2 and before the pause length P0 has elapsed.
(5) Upon detecting the voice S2, the
(6)タイミング解析部121は、音声入力開始通知の受信時刻と、音声ブロックB2の終了通知の受信時刻とにより、先に図2で説明したルールに基づき、(UP/KEEP/DOWN)を判定する。判定結果は直ちに音声出力指示部122に出力される。
図4の例では、TH1〜TH2の期間に音声入力開始通知を受信しているので、「KEEP」を出力する。
(6) The
In the example of FIG. 4, since the voice input start notification is received during the period from TH1 to TH2, “KEEP” is output.
(7)音声出力指示部122は、「KEEP」メッセージを受け取ったので、話速やポーズ長の変更指示は行わず、直前の設定をそのまま維持する。
(8)音声出力部150は、ポーズ区間中に音声出力指示部122から指示を受けないので、音声ブロックB2の終了後、ポーズ長P0が経過すると、直ちに話速V0で第3音声ブロック(B3)の音声出力を開始する。
(7) Since the voice output instruction unit 122 has received the “KEEP” message, the voice output instruction unit 122 does not issue an instruction to change the speech speed or pause length, and maintains the previous setting as it is.
(8) Since the
(9)音声ブロックB3の終了後、ポーズ長P0が経過するまでの間に、ユーザが音声S3を発したものとする。
(10)音声検出部110は、音声S3を検出すると直ちに音声入力開始通知をタイミング解析部121に出力する。
(11)タイミング解析部121は、ステップ(6)と同様に(UP/KEEP/DOWN)を判定し、音声出力指示部122に出力する。ここでは音声入力開始通知の受信からの経過時間がTH1未満であるため、「UP」を出力する。
(9) Assume that the user utters the voice S3 after the end of the voice block B3 and before the pause length P0 elapses.
(10) The
(11) The
(12)音声出力指示部122は、「UP」メッセージを受け取ったので、話速Vを+1、ポーズ長Pを+1と変更するように、音声出力部150へ指示する。
(13)音声出力部150は、ポーズ長をP0+1、話速をV0+1に変更し、内部のポーズ長メモリおよび話速メモリ(ともに図示せず)に書き込む。
(14)音声出力部150は、音声DB140より、話速V0+1に対応した第4音声ブロック(B4)の音声データを読み出し、音声ブロックB3の終了後、ポーズ長P0+1経過後に、音声ブロックB4の音声出力を開始する。
(12) Since the voice output instruction unit 122 has received the “UP” message, the voice output instruction unit 122 instructs the
(13) The
(14) The
(15)音声ブロックB4の終了後、ポーズ長P0+1が経過するまでの間に、ユーザが音声S4を発したものとする。
(16)音声検出部110は、音声S4を検出すると直ちに音声入力開始通知をタイミング解析部121に出力する。
(17)タイミング解析部121は、ステップ(6)と同様に(UP/KEEP/DOWN)を判定し、音声出力指示部122に出力する。ここでは音声入力開始通知の受信からの経過時間がTH2以上であるため、「DOWN」を出力する。
(15) It is assumed that the user utters the voice S4 before the pause length P0 + 1 elapses after the voice block B4 ends.
(16) The
(17) The
(18)音声出力指示部122は、「DOWN」メッセージを受け取ったので、話速Vを−1、ポーズ長Pを−1と変更するように、音声出力部150へ指示する。
(19)音声出力部150は、ポーズ長をP0、話速をV0に変更し、内部のポーズ長メモリおよび話速メモリ(ともに図示せず)に書き込む。
(20)音声出力部150は、音声DB140より、話速V0に対応した第5音声ブロック(B5)の音声データを読み出し、音声ブロックB4の終了後、ポーズ長P0経過後に、音声ブロックB5の音声出力を開始する。
(18) Since the voice output instruction unit 122 has received the “DOWN” message, the voice output instruction unit 122 instructs the
(19) The
(20) The
以上のように、本実施の形態1によれば、発話ペース制御部120は、音声出力部150が音声ブロックを音声出力した後、音声検出部110がユーザの音声入力を検出するまでの経過時間に基づき、出力音声の話速やポーズ長を制御するので、ユーザが簡単な相槌をするのみで、自分のペースに合った発話ペースで音声出力を行うように調整することができる。
As described above, according to the first embodiment, the utterance pace control unit 120 has elapsed time from when the
また、発話ペース制御部120は、各閾値TH1〜TH3を、各音声ブロックの話速やポーズ長に合わせてブロック毎に決定するので、各音声ブロックの発話ペースに合わせて最適な閾値を設定することができ、ユーザに対してきめ細かな対応をすることができる。
例えば、ポーズ長が長く設定されている場合には、ユーザが確認音声を入力する時間的余裕が十分にあり、したがって各閾値TH1〜TH3も長めに設定するとよいと考えられるところ、上記のように各音声ブロックの発話ペースに合わせてこれらの閾値を設定することにより、音声ブロックの実体に合った設定が可能となるのである。
Moreover, since the speech pace control unit 120 determines the thresholds TH1 to TH3 for each block according to the speech speed and pause length of each speech block, an optimal threshold is set according to the speech pace of each speech block. It is possible to respond to the user in detail.
For example, when the pause length is set to be long, there is sufficient time for the user to input the confirmation voice. Therefore, it is considered that the thresholds TH1 to TH3 should be set longer, as described above. By setting these threshold values in accordance with the speech pace of each voice block, it is possible to set the threshold in accordance with the substance of the voice block.
実施の形態2.
実施の形態1では、可変ルールテーブル130が保持している、ポーズ長と話速の可変ルールに基づき、音声DB140が格納しているどの音声データを用いるか、あるいはポーズ長をどうするか、といったことを決定することを説明した。
本発明の実施の形態2では、この可変ルールテーブル130の内容を変更することにより、話速やポーズ長の可変動作を、実施の形態1とは異なるものとすることについて説明する。
なお、その他の構成は実施の形態1と同様であるため、説明を省略する。
In the first embodiment, which voice data stored in the voice DB 140 is used or what the pause length is to be used based on the pause length and speech speed variable rules held in the variable rule table 130. Explained that to determine.
In the second embodiment of the present invention, it will be described that by changing the contents of the variable rule table 130, the variable operation of speech speed and pause length is different from that of the first embodiment.
Since other configurations are the same as those of the first embodiment, description thereof is omitted.
図5は、可変ルールテーブル130の別の構成例を示すものである。
実施の形態1で説明した図3では、「UP」「DOWN」判断にともなって、ポーズ長Pと話速Vが連動して増減する可変ルールテーブルの例を説明したが、可変ルールはこれに限られるものではなく、音声出力装置100の使用環境や音声DB140の内容に合わせて設定することができる。
FIG. 5 shows another configuration example of the variable rule table 130.
In FIG. 3 described in the first embodiment, the example of the variable rule table in which the pause length P and the speech speed V increase or decrease in conjunction with the determination of “UP” and “DOWN” has been described. The setting is not limited and can be set according to the usage environment of the audio output device 100 and the contents of the audio DB 140.
図5(a)は、ポーズ長の調整を優先させ、ポーズ長の調整が飽和したら話速の調整に転ずるルール例である。
図5(b)は、図5(a)とは反対に、話速の調整を優先させたルールである。
図5(c)は、話速とポーズ長の調整を混在させて行うルールである。
FIG. 5A is an example of a rule in which priority is given to the adjustment of the pause length, and when the pause length adjustment is saturated, the speech speed is adjusted.
FIG. 5B shows a rule that prioritizes the adjustment of the speech speed, contrary to FIG. 5A.
FIG. 5C shows a rule in which adjustment of speech speed and pause length is mixed.
これらの様々なルールは、可変ルールテーブル130に格納されている可変ルールデータを入れ替えることにより、変更することができる。 These various rules can be changed by replacing the variable rule data stored in the variable rule table 130.
このように、可変ルールテーブル130を変更可能に構成しておくことにより、音声出力装置100の個別の使用状況等に応じて逐一各構成を作りこむ必要がなくなり、単にデータファイルを入れ替えるのみで済むので、構成の柔軟性が増し、より多くの用途や環境に対し、音声出力装置100を容易に対応させることができる。 In this way, by configuring the variable rule table 130 so as to be changeable, it is not necessary to create each configuration one by one according to the individual usage status of the audio output device 100, and it is only necessary to replace the data file. Therefore, the flexibility of the configuration is increased, and the audio output device 100 can be easily adapted to more applications and environments.
実施の形態3.
実施の形態1〜2において、タイミング解析部121は、音声入力開始通知(および音声出力終了通知)の受信時刻に基づいて、図2で説明したような判断を行うが、フレーム処理による一定の遅延が生じる。
そこで、本発明の実施の形態3では、このようなフレーム処理による遅延を低減する手法について説明する。
In the first and second embodiments, the
Therefore, in
音声検出部110がタイミング解析部121に音声入力開始通知を出力するとき、その通知メッセージの中に、発話開始時刻そのものを入れ込んでおく。同様に、音声出力部150がタイミング解析部121に音声出力終了通知を出力するときに、音声出力終了時刻そのものを入れ込んでおく。
タイミング解析部121は、これらの通知の受信時刻に代えて、その通知に含まれているこれらの時刻を取得し、その値に基づいて、図2で説明したような判断を行う。
このように、通知の受信時刻ではなく、通知に含まれている時刻情報に基づき判断を行うことにより、フレーム処理による遅延を低減することができる。
When the
The
As described above, the delay due to the frame processing can be reduced by making the determination based on the time information included in the notification instead of the reception time of the notification.
図6は、タイミング解析部121がユーザの確認音声の発話開始時刻を取得する手順を説明するものである。以下、図中の各ステップについて概略を説明する。
FIG. 6 illustrates a procedure in which the
(1)ユーザが確認音声の入力を開始すると、音声検出部110による音声信号の検出が開始される。
(1) When the user starts inputting confirmation voice, detection of the voice signal by the
(2)音声検出部110は、ユーザが確認音声の入力を開始すると即座に音声入力開始通知を出力するのではなく、先の実施の形態1で説明したように、例えば一定レベル以上のパワーを持つフレームが所定時間(例:3〜5フレーム)続けば、音声区間が開始されたと判断する。そのため、音声検出部110は、音声信号のフレーム蓄積を行う。
フレームを蓄積しながら、上述のようなパワー値の計算を平行して行う。
(2) The
While accumulating frames, the power value calculation as described above is performed in parallel.
(3)上記ステップ(2)を実行し、音声区間が開始されたと判断するに至ると、確認音声の音声検出が完了する。
(4)音声検出部110は、確認音声の音声検出が完了すると、即座に(ただしタイムラグあり)音声入力開始通知をタイミング解析部121に出力する。
(5)ユーザの確認音声の入力が終了する。
(3) When the above step (2) is executed and it is determined that the voice section is started, the voice detection of the confirmation voice is completed.
(4) When the voice detection of the confirmation voice is completed, the
(5) The input of the user confirmation voice is completed.
図6に示すように、ユーザが確認音声の入力を開始してから、タイミング解析部121が音声入力開始通知を受け取るまでの間には、フレーム処理に伴うタイムラグが存在する。そこで、このタイムラグを見越して、以下のような手法により、より正確な発話開始時刻を取得することができる。
As shown in FIG. 6, there is a time lag associated with the frame processing between when the user starts inputting the confirmation voice and when the
(手法1)音声検出完了時刻を含めておく。
音声検出部110は、音声入力開始通知をタイミング解析部121に出力する際に、音声検出が完了した時刻を、発話開始時刻として同通知に含めておく。
ユーザが確認音声の入力を開始してから、タイミング解析部121が音声入力開始通知を受信するまでの間にタイムラグがあるとしても、同通知に含まれる音声検出完了時刻を参照して用いることにより、実際の音声入力開始時刻に近づく。
(Method 1) The time of voice detection completion is included.
When the
Even if there is a time lag between when the user starts input of the confirmation voice and when the
(手法2)音声検出に要するフレーム蓄積時間を見越す。
図6のステップ(2)において、音声検出部110が「音声区間が開始された」と判断するのに必要なフレーム蓄積時間を見越し、上記手法1に記載の音声検出完了時刻から、さらにこのフレーム蓄積時間を減算する。音声検出部110は、減算後の時刻を、発話開始時刻として音声入力開始通知に含めておく。
これにより、実際の音声入力開始時刻により近づけることができる。
(Method 2) Allow for frame accumulation time required for voice detection.
In step (2) of FIG. 6, the
Thereby, it can be brought closer to the actual voice input start time.
(手法3)演算に要する時間を減算する。
上記手法2に加え、音声検出部110が音声信号のパワー計算等に要する演算時間を減算し、減算後の時刻を、発話開始時刻として音声入力開始通知に含めておく。演算時間は他の時間と比較して僅かであると思われるので、本手法は省略してもよい。
(Method 3) The time required for the calculation is subtracted.
In addition to the
(手法4)サンプリング周波数とサンプリング通番から逆算する。
上記手法1〜3において、確認音声をデジタル録音する場合には、サンプリング周波数とサンプリング通番から時刻を逆算することもできる。
この場合、音声検出部110は、ユーザの確認音声をフレーム蓄積する際に、デジタル音声データとしてサンプリングして蓄積する。各サンプルには通し番号を採番しておく。
例えば手法2において、フレーム蓄積時間を減算する際に、時間そのものを減算することに代えて、戻り先のサンプル番号までの番号数にサンプリング周波数を乗算することにより、減算すべき時間を算出することができる。
(Method 4) Back-calculate from sampling frequency and sampling sequence number.
In the
In this case, the
For example, in
上述の(手法1)〜(手法4)では、音声入力開始通知について説明したが、その他の各通知についても、同様の手法を採用することにより、正確な時刻を取得することができる。 In the above (Method 1) to (Method 4), the voice input start notification has been described. However, for each of the other notifications, an accurate time can be acquired by adopting the same method.
上述の(手法1)〜(手法4)いずれを用いる場合でも、タイミング解析部121は、音声入力開始通知に含まれる発話開始時刻を取得することにより、ユーザが実際に確認音声の入力を開始した時刻に極力近い時刻を取得することができる。
これにより、先の図2〜図4で説明した閾値TH1〜TH3に基づく判定がより正確になるので、ユーザが意図しない閾値判定が行われる可能性が低減され、ユーザの便宜に資する。
Even when any of the above (Method 1) to (Method 4) is used, the
Thereby, since the determination based on the threshold values TH1 to TH3 described in FIGS. 2 to 4 is more accurate, the possibility that the threshold determination that is not intended by the user is performed is reduced, which contributes to the convenience of the user.
なお、各通知に減算後の時刻を含めておくことを説明したが、減算処理は各通知を受け取った後に行うようにしてもよい。 Although it has been described that the time after subtraction is included in each notification, the subtraction process may be performed after each notification is received.
実施の形態4.
図7は、本発明の実施の形態4に係る音声出力装置100の機能ブロック図である。
本実施の形態4に係る音声出力装置100は、実施の形態1の図1で説明した音声DB140に代えて、発話テキスト160と音声合成部170を備える。その他の構成は実施の形態1〜3と同様であるため、説明を省略する。
Embodiment 4 FIG.
FIG. 7 is a functional block diagram of the audio output device 100 according to Embodiment 4 of the present invention.
The voice output device 100 according to the fourth embodiment includes an
実施の形態1では、あらかじめ発話内容に即した音声データ(wavファイル)を、話速毎に音声DB140に格納しておき、これを読み出して音声出力することとした。
本実施の形態4では、発話内容のテキストのみを発話テキスト160として格納しておき、音声合成によって出力音声を動的に生成する。話速を可変する際には、音声合成時に話速を指定パラメータとして与える。
In the first embodiment, voice data (wav file) corresponding to the utterance content is stored in the voice DB 140 for each speech speed in advance, and this is read out and output as voice.
In the fourth embodiment, only the text of the utterance content is stored as the
発話テキスト160は、メモリやHDD等の記憶装置に、テキストファイルなどのデータファイルを格納することにより構成することができる。発話テキスト160は、音声ブロック毎に、区切り記号やファイル分割によって分割されて構成されている。
音声合成部170は、発話テキスト160の内容に基づき音声合成を行うもので、一般にTTS(Text To Speech)として知られている技術を用いることができる。なお、外部パラメータとして、上述の話速指定パラメータを受け取り、出力する音声がこれに合わせた話速となるように音声合成を行う。
The
The
次に、本実施の形態4に係る音声出力装置100の動作について説明する。
本実施の形態4における音声出力装置100の動作は、実施の形態1〜3で説明したものと概ね同様である。相違点を中心に、以下に簡単に説明する。
Next, the operation of the audio output device 100 according to the fourth embodiment will be described.
The operation of the audio output device 100 according to the fourth embodiment is substantially the same as that described in the first to third embodiments. The following is a brief description focusing on the differences.
音声出力部150は、音声合成部170に、音声出力指示部122から指示された話速で音声合成を行うように依頼する。
音声合成部170は、1文に相当するテキストデータを発話テキスト160より読み取り、通常の話速で音声合成し、音声出力部150より音声出力する。
そして、ポーズ区間中に音声検出部110がユーザからの確認音声の入力を検出すると、タイミング解析部121の解析結果に基づき、音声出力指示部122が話速とポーズ長を音声出力部150に指示する。
音声合成部170は、音声出力部150より指示された話速で音声合成を行い、音声出力部150に出力する。音声出力部150は、音声合成部170より受け取った合成音声を音声出力する。
The
The
Then, when the
The
以上のように、本実施の形態4によれば、発話テキスト160を1種類準備しておくのみで、音声合成によって動的に任意の話速の音声出力を行うことができるので、全ての話速に対応した音声データ(wavファイル)を準備する必要がなくなり、事前の構築の手間が軽減される。
As described above, according to the fourth embodiment, since only one type of
また、音声データは一般にデータサイズが巨大になるが、本実施の形態4の構成によれば、テキストデータのみを格納しておけばよいので、データサイズは小さくて済み、音声出力装置100の小型化や低コスト化に資する。 In addition, although the audio data generally has a huge data size, according to the configuration of the fourth embodiment, only the text data needs to be stored, so the data size can be small, and the audio output device 100 can be small. Contributes to cost reduction and cost reduction.
実施の形態5.
実施の形態1〜4では、ユーザが任意の確認音声を入力し、音声検出部110がこれを検出するタイミングを、タイミング解析部121が図2のような判断基準で解析することにより、話速やポーズ長を可変することを説明した。
本発明の実施の形態5では、ユーザが入力する確認音声を、特定の単語やフレーズに限定する構成を説明する。
Embodiment 5 FIG.
In the first to fourth embodiments, the user inputs an arbitrary confirmation voice, and the
In the fifth embodiment of the present invention, a configuration is described in which the confirmation voice input by the user is limited to a specific word or phrase.
図8は、本実施の形態5に係る音声出力装置100の機能ブロック図である。
図8において、音声検出部110と発話ペース制御部120の間に、新たに音声認識部180を設けた。その他の構成は、実施の形態1で説明した図1と同様であるため、説明を省略する。なお、その他の実施の形態の構成を用いてもよい。
FIG. 8 is a functional block diagram of the audio output device 100 according to the fifth embodiment.
In FIG. 8, a voice recognition unit 180 is newly provided between the
音声認識部180は、ユーザが入力した確認音声を音声検出部110より受け取り、音声認識処理を行う。音声認識の結果、所定の予約語が入力されたものと判断した場合は、タイミング解析部121に音声入力開始通知を出力する。
ここでいう予約語とは、確認音声であることが明示的に分かるものが好ましく、例えば「はい」「うん」といった簡単なものでよい。
The voice recognition unit 180 receives the confirmation voice input by the user from the
The reserved word here is preferably one that clearly indicates that it is a confirmation voice, and may be a simple one such as “Yes” or “Yes”.
以下、本実施の形態5における音声出力装置100の動作を簡単に説明する。
ユーザが確認音声を入力すると、音声検出部110がその音声を検出し、音声認識部180に出力する。
音声認識部180は、音声認識処理を行い、所定の予約語であればタイミング解析部121に音声入力開始通知を出力し、予約語でなければ何も出力しない。
その他の動作は他の実施の形態と同様であるため、説明を省略する。
Hereinafter, the operation of the audio output device 100 according to the fifth embodiment will be briefly described.
When the user inputs a confirmation voice, the
The speech recognition unit 180 performs speech recognition processing, outputs a speech input start notification to the
Since other operations are the same as those of the other embodiments, description thereof is omitted.
以上のように、本実施の形態5によれば、ユーザが入力した確認音声以外の音声、例えば背景音などが、誤って確認音声として検出されてしまうことがなくなる。これにより、ユーザが意図せずに発話ペースが変更されてしまう可能性が大きく低減され、ユーザの便宜に資する。 As described above, according to the fifth embodiment, a sound other than the confirmation sound input by the user, such as a background sound, is not erroneously detected as the confirmation sound. Thereby, the possibility that the speech pace is changed unintentionally by the user is greatly reduced, which contributes to the convenience of the user.
実施の形態6.
以上の実施の形態1〜5において、ユーザが確認音声を入力するタイミングにより話速やポーズ長を制御することを説明したが、確認音声の入力に代えて、マウスなど他のデバイスで入力することもできる。
Embodiment 6 FIG.
In
実施の形態7.
実施の形態1において、各話速に対応した音声データを音声DB140に格納しておくことを説明したが、これに代えて、単一の話速(例えば標準話速)に対応した音声データを格納しておき、音声出力する際に、話速変換装置を介在させて話速を変換するように構成してもよい。
また、実施の形態4において、音声合成部170の外部パラメータとして話速を指示することを説明したが、これに代えて、同様に話速変換装置を介在させて話速を変換するように構成してもよい。
その他の実施の形態についても同様に、話速変換装置を介在させて話速を変換するように構成してもよい。
Embodiment 7 FIG.
In the first embodiment, it has been described that voice data corresponding to each speech speed is stored in the voice DB 140. Instead, voice data corresponding to a single speech speed (for example, standard speech speed) is stored. It may be configured to store the voice and convert the voice speed by interposing a voice speed converter when outputting the voice.
Further, in the fourth embodiment, it has been described that the speech speed is instructed as an external parameter of the
Similarly, the other embodiments may be configured to convert the speech speed by interposing a speech speed conversion device.
実施の形態8.
実施の形態1の図2(d)の説明において、ユーザが直前の音声ブロックに遅れて応答したのか、それとも現在の音声ブロックに即座に応答したのか、いずれであるかが判断できないため、ひとまず「KEEP」とすることを説明した。
本発明の実施の形態8では、より積極的な新しい動作として「WAIT」を定義し、同区間におけるユーザ応答に対してこの「WAIT」動作を行うことを説明する。
なお、各構成や基本的な動作は上述の実施の形態と同様であるため、説明を省略する。
In the description of FIG. 2D of the first embodiment, it cannot be determined whether the user has responded late to the immediately preceding speech block or whether the user has responded immediately to the current speech block. “KEEP”.
In the eighth embodiment of the present invention, “WAIT” is defined as a more aggressive new operation, and this “WAIT” operation is performed for a user response in the same section.
Each configuration and basic operation are the same as those in the above-described embodiment, and thus description thereof is omitted.
本実施の形態8では、タイミング解析部121が図2(d)の区間で音声入力開始通知を受け取ると、「WAIT」を出力する。これは、話速やポーズ長を変更しない点では「KEEP」と同様であるが、「WAIT」を出力した旨を内部的に記憶しておく点が、「KEEP」とは異なる。
次に、「WAIT」を出力した旨を内部的に記憶しておくことの意義と、具体的な動作について、ユーザの観点から説明する。
In the eighth embodiment, when the
Next, the significance of storing “WAIT” output internally and the specific operation will be described from the viewpoint of the user.
ユーザが図2(d)の区間でユーザの確認音声を検出したとき、ユーザとしては、図2(c)または(e)の区間のつもりで確認音声を入力したと思われる。このときのタイミング解析部121の動作は「WAIT」であるため、話速やポーズ長は変化しない。
ところが、ユーザとしては話速やポーズ長を変化させるつもりで確認音声を入力したため、音声出力装置100はユーザの意図通りに動作しなかったことになる。
この場合、ユーザは、次に確認音声を入力するときには、図2(c)または(e)の区間に合致するように入力タイミングを自主的に微調整するものと思われる。
When the user detects the user's confirmation voice in the section of FIG. 2D, it is assumed that the user has input the confirmation voice in the section of FIG. 2C or FIG. Since the operation of the
However, since the confirmation voice is input as the user intends to change the speech speed and pause length, the voice output device 100 does not operate as intended by the user.
In this case, when the user next inputs the confirmation voice, the input timing seems to be automatically finely adjusted so as to match the section of FIG. 2 (c) or (e).
入力タイミングの微調整の結果、次回の確認音声は、図2(c)または(e)の区間で行われる。このときに初めて「UP」や「DOWN」を出力するとなると、ユーザから見れば、1回分の動作が損なわれたことになってしまい、ユーザの使用感を損ねる。
そこで、前回「WAIT」を出力した旨を内部的に記憶していることを利用し、前回動作分と今回動作分を合わせて、2回分の「UP」や「DOWN」を実行することとする。具体的には、「UP」や「DOWN」を2回分連続的に出力してもよいし、1回の動作で制御量を2倍にするように音声出力指示部122へ指示してもよい。
As a result of the fine adjustment of the input timing, the next confirmation voice is performed in the section of FIG. 2 (c) or (e). If “UP” or “DOWN” is output for the first time at this time, the operation for one time is impaired from the viewpoint of the user, which impairs the user's feeling of use.
Therefore, using the fact that the information indicating that “WAIT” was output last time is stored internally, “UP” and “DOWN” are executed twice for the previous operation and the current operation. . Specifically, “UP” or “DOWN” may be output continuously twice, or the voice output instruction unit 122 may be instructed to double the control amount in one operation. .
以上のように、本実施の形態8によれば、新しい動作として「WAIT」を定義し、前回「WAIT」を出力した旨を内部的に記憶し、次回動作時には前回動作分も合わせて動作を行うこととしたので、確認音声の入力タイミングが図2(d)であった場合でも、次回以降のユーザの使用感を損なうことなく、使い勝手のよい音声出力装置を提供することができる。 As described above, according to the eighth embodiment, “WAIT” is defined as a new operation, the fact that the previous “WAIT” is output is internally stored, and the operation is performed together with the previous operation at the next operation. Therefore, even when the input timing of the confirmation voice is as shown in FIG. 2D, a user-friendly voice output device can be provided without impairing the user's feeling after the next time.
実施の形態9.
図9は、本発明の実施の形態9に係る音声ガイダンスシステムの構成図である。
図9において、音声出力装置100とユーザ端末200は、ネットワーク300を介して接続されている。
Embodiment 9 FIG.
FIG. 9 is a configuration diagram of a voice guidance system according to Embodiment 9 of the present invention.
In FIG. 9, the audio output device 100 and the user terminal 200 are connected via a network 300.
音声出力装置100は、実施の形態1〜8で説明した構成を備えるものである。なお、ネットワーク300と接続するためのインターフェースを適宜備えるものとする。
ユーザ端末200は、マイクとスピーカを備えるコンピュータである。
ネットワーク300は、有線または無線の通信回線である。
以下、図9の音声ガイダンスシステムの動作について簡単に説明する。
The audio output device 100 has the configuration described in the first to eighth embodiments. It is assumed that an interface for connecting to the network 300 is appropriately provided.
The user terminal 200 is a computer that includes a microphone and a speaker.
The network 300 is a wired or wireless communication line.
Hereinafter, the operation of the voice guidance system of FIG. 9 will be briefly described.
(1)ユーザは、ユーザ端末200を用いて、ネットワーク300を介し音声出力装置100に音声ガイダンスを要求する。
(2)音声出力装置100は、ユーザ端末200からの要求を受け取り、音声出力部150より音声出力する。出力音声は、音声データとしてネットワーク300を介してユーザ端末200に送信される。
(3)ユーザは、ユーザ端末200のマイクに確認音声を入力する。確認音声は、音声データとしてネットワーク300を介して音声出力装置100に送信される。
(4)音声検出部110は、ネットワーク300より確認音声の音声データを受信する。以後の動作は、各実施の形態で説明したものと同様である。
(1) The user uses the user terminal 200 to request voice guidance from the voice output device 100 via the network 300.
(2) The voice output device 100 receives a request from the user terminal 200 and outputs a voice from the
(3) The user inputs confirmation voice into the microphone of the user terminal 200. The confirmation voice is transmitted as voice data to the voice output device 100 via the network 300.
(4) The
本実施の形態9では、ユーザ端末200はコンピュータであるものとしたが、その他の音声入出力が可能な端末、例えば携帯電話端末であってもよい。ネットワーク300は、端末の種類に応じて適切な通信網とする。 In the ninth embodiment, the user terminal 200 is a computer, but may be another terminal capable of voice input / output, for example, a mobile phone terminal. The network 300 is an appropriate communication network according to the type of terminal.
以上のように、本実施の形態9によれば、ネットワーク300を介して、音声出力装置100による音声ガイダンスを提供することができるので、音声出力装置100を様々な利用形態で用いることができる。 As described above, according to the ninth embodiment, since the voice guidance by the voice output device 100 can be provided via the network 300, the voice output device 100 can be used in various usage forms.
100 音声出力装置、110 音声検出部、120 発話ペース制御部、130 可変ルールテーブル、140 音声データベース、150 音声出力部、160 発話テキスト、170 音声合成部、180 音声認識部、200 ユーザ端末、300 ネットワーク。 DESCRIPTION OF SYMBOLS 100 Voice output device, 110 Voice detection part, 120 Speech pace control part, 130 Variable rule table, 140 Voice database, 150 Voice output part, 160 Speech text, 170 Voice synthesizer, 180 Voice recognition part, 200 User terminal, 300 Network .
Claims (8)
出力音声の話速もしくはポーズ長またはその双方を可変する音声出力装置であって、
音声の入力を検出する音声検出部と、
所定の出力音声を出力する音声出力部と、
前記出力音声の話速もしくはポーズ長またはその双方を制御する制御部と、
を備え、
前記制御部は、
前記音声出力部が1ブロックの前記出力音声を出力した後から、
前記音声検出部が音声の入力を検出するまでの経過時間に基づき、
次のブロックの出力音声の話速もしくはポーズ長またはその双方を制御する
ことを特徴とする音声出力装置。 By inputting voice,
A voice output device that varies the speech speed and / or pause length of the output voice,
A voice detection unit for detecting voice input;
An audio output unit for outputting predetermined output audio;
A control unit for controlling the speech speed or pause length of the output voice or both;
With
The controller is
After the sound output unit outputs the output sound of one block,
Based on the elapsed time until the voice detection unit detects voice input,
An audio output device that controls the speech speed and / or pause length of the output audio of the next block.
前記経過時間が所定の第1閾値未満の場合は、
次のブロックの出力音声の話速を速くし、もしくはポーズ長を短くし、またはその双方を行い、
前記経過時間が所定の第2閾値(ただし、第1閾値<第2閾値)以上の場合は、
次のブロックの出力音声の話速を遅くし、もしくはポーズ長を長くし、またはその双方を行い、
前記経過時間が前記第1閾値以上、前記第2閾値未満の場合は、
次のブロックの出力音声の話速もしくはポーズ長またはその双方を維持する
ことを特徴とする請求項1に記載の音声出力装置。 The controller is
If the elapsed time is less than a predetermined first threshold,
Increase the speech speed of the output sound of the next block, shorten the pause length, or both,
When the elapsed time is equal to or greater than a predetermined second threshold (where the first threshold is less than the second threshold)
Decrease the speaking speed of the output sound of the next block, increase the pause length, or both,
When the elapsed time is not less than the first threshold and less than the second threshold,
The speech output device according to claim 1, wherein the speech speed and / or pause length of the output speech of the next block is maintained.
前記音声出力部が前記出力音声の出力を開始した後から、所定の第3閾値を経過するまでの間に、前記音声検出部が音声の入力を検出した場合は、
次のブロックの出力音声の話速もしくはポーズ長またはその双方を維持する
ことを特徴とする請求項2に記載の音声出力装置。 The controller is
When the voice detection unit detects a voice input after the voice output unit starts outputting the output voice and before a predetermined third threshold value elapses,
The speech output device according to claim 2, wherein the speech speed and / or pause length of the output speech of the next block is maintained.
前記音声出力部が前記出力音声の出力を開始し、前記第3閾値経過後、当該出力音声を出力している最中に、前記音声検出部が音声の入力を検出した場合は、
次のブロックの出力音声の話速を速くし、もしくはポーズ長を短くし、またはその双方を行う
ことを特徴とする請求項3に記載の音声出力装置。 The controller is
When the voice detection unit detects voice input while the voice output unit starts outputting the output voice and outputs the output voice after the third threshold has elapsed,
The speech output apparatus according to claim 3, wherein the speech speed of the output speech of the next block is increased, the pause length is shortened, or both.
前記第1閾値、前記第2閾値、および前記第3閾値を、
前記出力音声のブロック毎の話速もしくはポーズ長またはその双方に基づき定める
ことを特徴とする請求項3または請求項4に記載の音声出力装置。 The controller is
The first threshold, the second threshold, and the third threshold are:
The voice output device according to claim 3 or 4, wherein the voice output device is determined based on a speech speed and / or a pause length for each block of the output voice.
前記制御部は、前記可変ルールを参照して、前記出力音声の話速もしくはポーズ長またはその双方を制御する
ことを特徴とする請求項1ないし請求項5のいずれかに記載の音声出力装置。 A storage unit storing a variable rule of the speech speed or pause length of the output voice or both,
The audio output device according to claim 1, wherein the control unit controls the speech speed and / or pause length of the output audio with reference to the variable rule.
音声入力が開始された時刻を前記音声検出部より受け取り、
または音声出力が終了した時刻を前記音声出力部より受け取って、
これらの時刻に基づき前記経過時間をカウントする
ことを特徴とする請求項1ないし請求項6のいずれかに記載の音声出力装置。 The controller is
The time when voice input is started is received from the voice detector,
Alternatively, the time when the audio output is completed is received from the audio output unit,
The audio output device according to any one of claims 1 to 6, wherein the elapsed time is counted based on these times.
入力された音声の内容を認識する音声認識手段を備え、
所定の予約語が入力されたものと前記音声認識手段が認識した場合に限り、
音声が入力されたものと判定する
ことを特徴とする請求項1ないし請求項7のいずれかに記載の音声出力装置。 The voice detection unit
Voice recognition means for recognizing the content of the input voice,
Only when the voice recognition means recognizes that a predetermined reserved word has been input,
The audio output device according to any one of claims 1 to 7, wherein it is determined that audio is input.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007222206A JP2009053581A (en) | 2007-08-29 | 2007-08-29 | Speech output device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007222206A JP2009053581A (en) | 2007-08-29 | 2007-08-29 | Speech output device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009053581A true JP2009053581A (en) | 2009-03-12 |
Family
ID=40504697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007222206A Pending JP2009053581A (en) | 2007-08-29 | 2007-08-29 | Speech output device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009053581A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015172622A (en) * | 2014-03-11 | 2015-10-01 | 日本電気株式会社 | Speech output device and speech output method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62145322A (en) * | 1985-12-20 | 1987-06-29 | Canon Inc | Audio output device |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
JPH08248990A (en) * | 1995-03-07 | 1996-09-27 | Fujitsu Ltd | Speech synthesizer |
JPH09311775A (en) * | 1996-03-18 | 1997-12-02 | Toshiba Corp | Device and method voice output |
JP2000194386A (en) * | 1998-12-24 | 2000-07-14 | Omron Corp | Voice recognizing and responsing device |
JP2008157987A (en) * | 2006-12-20 | 2008-07-10 | Toyota Motor Corp | Dialog control apparatus, dialog control method, and dialog control program |
-
2007
- 2007-08-29 JP JP2007222206A patent/JP2009053581A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62145322A (en) * | 1985-12-20 | 1987-06-29 | Canon Inc | Audio output device |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
JPH08248990A (en) * | 1995-03-07 | 1996-09-27 | Fujitsu Ltd | Speech synthesizer |
JPH09311775A (en) * | 1996-03-18 | 1997-12-02 | Toshiba Corp | Device and method voice output |
JP2000194386A (en) * | 1998-12-24 | 2000-07-14 | Omron Corp | Voice recognizing and responsing device |
JP2008157987A (en) * | 2006-12-20 | 2008-07-10 | Toyota Motor Corp | Dialog control apparatus, dialog control method, and dialog control program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015172622A (en) * | 2014-03-11 | 2015-10-01 | 日本電気株式会社 | Speech output device and speech output method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220295194A1 (en) | Interactive system for hearing devices | |
JP6113302B2 (en) | Audio data transmission method and apparatus | |
JP5750380B2 (en) | Speech translation apparatus, speech translation method, and speech translation program | |
JP7173049B2 (en) | Information processing device, information processing system, information processing method, and program | |
JP6364629B2 (en) | Translation apparatus and translation method | |
KR20190075800A (en) | Intelligent personal assistant interface system | |
WO2017006766A1 (en) | Voice interaction method and voice interaction device | |
US20140372117A1 (en) | Transcription support device, method, and computer program product | |
KR20200025226A (en) | Electronic apparatus and thereof control method | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
EP3769303A1 (en) | Modifying spoken commands | |
JP3553828B2 (en) | Voice storage and playback method and voice storage and playback device | |
JP2020113150A (en) | Voice translation interactive system | |
JP2006251545A (en) | Spoken dialogue system and computer program | |
JP2011039222A (en) | Speech recognition system, speech recognition method and speech recognition program | |
JP2009053581A (en) | Speech output device | |
JP2015187738A (en) | Speech translation device, speech translation method, and speech translation program | |
JP4803961B2 (en) | Computer controlled method, apparatus, and computer program for voice communication system | |
JP2006126548A (en) | Speech synthesizer | |
US11587554B2 (en) | Control apparatus, voice interaction apparatus, voice recognition server, and program | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP2018165805A (en) | Interactive device, method for controlling interactive device, and program | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program | |
JP2005064744A (en) | Hearing aid device | |
JP6918471B2 (en) | Dialogue assist system control method, dialogue assist system, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120321 |