JP2008233305A - Voice dialogue apparatus, voice dialogue method and program - Google Patents
Voice dialogue apparatus, voice dialogue method and program Download PDFInfo
- Publication number
- JP2008233305A JP2008233305A JP2007070111A JP2007070111A JP2008233305A JP 2008233305 A JP2008233305 A JP 2008233305A JP 2007070111 A JP2007070111 A JP 2007070111A JP 2007070111 A JP2007070111 A JP 2007070111A JP 2008233305 A JP2008233305 A JP 2008233305A
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- threshold value
- reliability
- voice
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 42
- 238000012790 confirmation Methods 0.000 claims abstract description 23
- 230000002452 interceptive effect Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000002474 experimental method Methods 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010835 comparative analysis Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 102000018252 Tumor Protein p73 Human genes 0.000 description 1
- 108010091356 Tumor Protein p73 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Abstract
【課題】利用者の主観評価を向上させながら、間違った対話を継続しない、かつ不要な応答を行わない音声対話装置を提供する。
【解決手段】受理と確認との閾値である第1の閾値と確認と棄却との閾値である第2の閾値との組合せ条件を複数設定し、入力された音声データを文字データに変換する音声認識手段23と、文字データに含まれる単語の信頼度を算出する信頼度算出手段25と、信頼度を、第1の閾値と、第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御する応答制御手段27と、を有する音声対話装置1の評価実験を行い、被験者の主観評価結果、特に正確性と効率性の評価結果に基づいて第1の閾値と第2の閾値との組合せ条件の中で最も好ましい条件を決定する。
【選択図】図2Provided is a voice dialogue apparatus that does not continue a wrong dialogue and does not perform an unnecessary response while improving the subjective evaluation of a user.
SOLUTION: A plurality of combination conditions of a first threshold that is a threshold for acceptance and confirmation and a second threshold that is a threshold for confirmation and rejection are set, and speech that converts input speech data into character data The recognizing means 23, the reliability calculating means 25 for calculating the reliability of the word included in the character data, and comparing the reliability with the first threshold value and the second threshold value, and accepting, confirming or rejecting The voice interactive apparatus 1 having response control means 27 for controlling whether to perform a response is subjected to an evaluation experiment, and the first threshold value and the second threshold value are determined based on the subject's subjective evaluation results, particularly the accuracy and efficiency evaluation results. The most preferable condition among the combination conditions with the threshold value is determined.
[Selection] Figure 2
Description
本発明は、音声認識技術に関し、特に、音声認識結果に基づいて応答制御を行う音声対話装置、音声対話方法、プログラムに関する。 The present invention relates to a voice recognition technique, and more particularly to a voice dialogue apparatus, a voice dialogue method, and a program that perform response control based on a voice recognition result.
近年、音声認識技術が広く利用されるようになり、カーナビゲーション、携帯電話、ゲーム、コールセンタなどで使われるようになっている。また、PC上のソフトウェアとして、各種のディクテーションプログラムも存在する。
そして、音声認識結果に基づいて応答制御を行う仕組みとして、音声認識結果である単語の信頼度を用いて応答制御を行うものが開示されている(特許文献1、非特許文献1参照)。
In recent years, voice recognition technology has been widely used and used in car navigation, mobile phones, games, call centers, and the like. Various dictation programs exist as software on the PC.
As a mechanism for performing response control based on a speech recognition result, a mechanism for performing response control using the reliability of a word that is a speech recognition result is disclosed (see
特許文献1に示す方式では、音声認識結果である単語の信頼度を用いて、音声認識結果を受理/確認するように応答制御する音声対話装置を実現する。そして、受理/確認を制御する閾値を意味カテゴリ毎に持ち、音声対話装置の動作時にその対話履歴データを基に閾値を補正する。誤認識単語を受理した場合には閾値を高く、正解認識単語を確認した場合は閾値を低く補正する。
The method shown in
また、非特許文献1に示す方式では、音声認識結果である単語の信頼度を用いて、音声認識結果を受理/確認/棄却するように応答制御する音声対話装置を実現する。そして、受理/確認を制御する閾値1と、確認/棄却を制御する閾値2とを客観的な指標である各種の誤り率を用いて決定する。ここで、閾値1の決定に用いる誤り率は、FA1=1−受理した正解単語数÷受理した単語の総数、SErr=1−受理した正解単語数÷正解単語の総数(=評価単語の総数)、の2種類である。また、閾値2の決定に用いる誤り率は、FA2=1−確認した正解単語数÷確認した単語の総数、FR=棄却した正解単語数÷棄却した単語の総数、の2種類である。
しかしながら、上述の特許文献1では、確認/棄却に関する応答制御がなく、誤認識結果で確認応答すれば利用者は必ず「いいえ」と答えることになり、結果として、再度発話しなければならず、発話効率が良いとは言えない。信頼度が十分低い場合、誤認識している可能性が非常に高いことから、棄却するように応答制御をすべきである。
However, in the above-mentioned
また、上述の非特許文献1では、閾値の決定はあくまで客観評価上の最適値であり、主観評価が必ず向上するとは限らない。
In
本発明は、前述した問題点に鑑みてなされたもので、その目的は利用者の主観評価を向上させながら、間違った対話を継続しない、かつ不要な応答を行わない音声対話装置を提供することである。 The present invention has been made in view of the above-described problems, and an object thereof is to provide a voice interactive apparatus that does not continue an erroneous conversation and does not perform an unnecessary response while improving the subjective evaluation of the user. It is.
前述した目的を達成するために第1の発明は、入力された音声データを文字データに変換する音声認識手段と、前記文字データに含まれる単語の信頼度を算出する信頼度算出手段と、前記信頼度を、受理と確認との閾値である第1の閾値と、確認と棄却との閾値である第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御する応答制御手段と、を具備し、前記第1の閾値と前記第2の閾値は、主観評価に基づき決定したものであることを特徴とする音声対話装置である。
また、前記主観評価は、正確性と効率性についての評価であることが望ましい。
In order to achieve the above-described object, the first invention provides speech recognition means for converting inputted speech data into character data, reliability calculation means for calculating the reliability of words included in the character data, Response that controls whether to accept or confirm or reject by comparing the reliability with the first threshold that is the threshold for acceptance and confirmation and the second threshold that is the threshold for confirmation and rejection And a control means, wherein the first threshold value and the second threshold value are determined based on subjective evaluation.
Moreover, it is desirable that the subjective evaluation is an evaluation on accuracy and efficiency.
第2の発明は、入力された音声データを文字データに変換するステップと、前記文字データに含まれる単語の信頼度を算出するステップと、前記信頼度を、受理と確認との閾値である第1の閾値と、確認と棄却との閾値である第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御するステップと、を含み、前記第1の閾値と前記第2の閾値は、主観評価に基づき決定したものであることを特徴とする音声対話方法である。
また、前記主観評価は、正確性と効率性についての評価であることが望ましい。
According to a second aspect of the present invention, the input voice data is converted into character data, the step of calculating the reliability of a word included in the character data, and the reliability is a threshold value for acceptance and confirmation. A threshold value of 1 and a second threshold value that is a threshold value of confirmation and rejection, and controlling whether to accept, confirm, or reject the response. The threshold of 2 is a voice interaction method characterized by being determined based on subjective evaluation.
Moreover, it is desirable that the subjective evaluation is an evaluation on accuracy and efficiency.
第3の発明は、コンピュータを請求項1または請求項2に記載の音声対話装置として機能させるプログラムである。
A third invention is a program for causing a computer to function as the voice interactive apparatus according to
本発明により、利用者の主観評価を向上させながら、間違った対話を継続しない、かつ不要な応答を行わない音声対話装置を提供することができる。 According to the present invention, it is possible to provide a voice interactive apparatus that does not continue an erroneous conversation and does not perform an unnecessary response while improving the subjective evaluation of the user.
以下図面に基づいて、本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本実施の形態に係る音声対話装置1を実現するコンピュータのハードウェア構成図である。
図1に示すように、音声対話装置1は、制御部3、記憶部5、メディア入出力部7、通信制御部9、入力部11、表示部13、周辺機器I/F部15等が、バス17と介して接続される。
なお、以下の実施の形態では、コンピュータをハードウェアとして利用した音声対話装置1の例を示しているが、コンピュータに限るものではなく、例えばカーナビゲーション装置、携帯電話端末、ゲーム装置等の各種電子機器に応用することも可能である。
FIG. 1 is a hardware configuration diagram of a computer that realizes the
As shown in FIG. 1, the
In the following embodiment, an example of the voice
制御部3は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
The
CPUは、記憶部5、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス17を介して接続された各装置を駆動制御し、音声対話装置1が行う後述する情報検索処理(図4参照)を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部5、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部3が各種処理を行う為に使用するワークエリアを備える。
The CPU calls and executes a program stored in the
The ROM is a non-volatile memory and permanently holds a computer boot program, a program such as BIOS, data, and the like.
The RAM is a volatile memory, and temporarily stores programs, data, and the like loaded from the
記憶部5は、HDD(ハードディスクドライブ)であり、制御部3が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述の情報検索処理に相当するアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部3により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
The
Each of these program codes is read by the
メディア入出力部7(ドライブ装置)は、データの入出力を行い、例えば、フロッピー(登録商標)ディスクドライブ、PDドライブ、CDドライブ(−ROM、−R、RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。 The media input / output unit 7 (drive device) inputs / outputs data, for example, floppy (registered trademark) disk drive, PD drive, CD drive (-ROM, -R, RW, etc.), DVD drive (-ROM, -R, -RW, etc.) and a media input / output device such as an MO drive.
通信制御部9は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク19間の通信を媒介する通信インタフェースであり、ネットワーク19を介して、他のコンピュータ間との通信制御を行う。
The
入力部11は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。また、例えば、マイク等の音声入力装置を有する。入力部11を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。 The input unit 11 inputs data and includes, for example, a keyboard, a pointing device such as a mouse, and an input device such as a numeric keypad. In addition, for example, a voice input device such as a microphone is included. An operation instruction, an operation instruction, data input, and the like can be performed on the computer via the input unit 11.
表示部13は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
The
周辺機器I/F(インタフェース)部15は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部15を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部15は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。
The peripheral device I / F (interface)
バス17は、各装置間の制御信号、データ信号等の授受を媒介する経路である。 The bus 17 is a path that mediates transmission / reception of control signals, data signals, and the like between the devices.
次に、図2を参照しながら、音声対話装置1の構成について説明する。
図2は、音声対話装置1の機能を示すブロック図である。
Next, the configuration of the
FIG. 2 is a block diagram showing functions of the
音声対話装置1は、音声入力手段21、音声認識手段23、信頼度算出手段25、応答制御手段27等を備える。
The voice
音声入力手段21は、利用者が発話した音声をデータとして入力する。音声データは、音声対話装置1の入力部11を介して入力されても良いし、ネットワーク19を介して、他のコンピュータ等から入力されても良い。
The voice input means 21 inputs voice spoken by the user as data. The voice data may be input via the input unit 11 of the
音声認識手段23は、入力された音声データを文字データに変換する。まず、入力された音声データの波形から音声特徴量を抽出する。次に、抽出された音声特徴量を入力として、話者性や音声入力環境等の音響的特徴を定める音響モデル、言い回し等の文章表現や認識対象単語等の言語的特徴を定める言語モデルを用いた尤度計算を行う。そして、認識候補の中から尤度の高いものを選択し、文字データに変換する。例えば、音声分析結果である入力文に対して全ての可能性を計算し、n個までの複数の文候補を求め、認識結果として尤度の高い順に文候補を出力するn−best方式が多く用いられている。 The voice recognition means 23 converts the input voice data into character data. First, a voice feature amount is extracted from the waveform of input voice data. Next, using the extracted speech features as input, use an acoustic model that defines acoustic features such as speaker characteristics and speech input environment, and a language model that defines linguistic features such as wording such as wording and words to be recognized. Perform the likelihood calculation. And the thing with high likelihood is selected from the recognition candidates, and it converts into character data. For example, there are many n-best methods that calculate all possibilities for an input sentence that is a speech analysis result, obtain a plurality of sentence candidates up to n, and output sentence candidates in descending order of likelihood as recognition results. It is used.
信頼度算出手段25は、文字データに含まれる単語の信頼度を算出する。ここで、信頼度(Confidence Measure:CM)とは、音声認識結果である文字データに含まれる単語をどれだけ信頼して良いかを表す尺度である。信頼度の数値が高い場合、文字データに含まれる単語に競合するような他の候補が見当たらなかったことを示し、信頼度の数値が低い場合、他の候補が多く競合していたことを示す。 The reliability calculation means 25 calculates the reliability of words included in the character data. Here, the confidence level (Confidence Measurement: CM) is a measure representing how much a word included in the character data as a speech recognition result can be trusted. A high reliability number indicates that no other candidate was found to compete with the words in the text data, and a low confidence number indicates that many other candidates were competing. .
信頼度算出式の例として、n−best方式による音声認識結果であるn個の文候補の結果を利用する算出式について述べる。これは、直観的には、どの文候補にも一貫して出現する単語は信頼できるとみなすものであり、第i候補の対数尤度をg(i)とし、単語wの信頼度CM(w)を以下の算出式で求める。
応答制御手段27は、信頼度を、受理と確認との閾値である第1の閾値と、確認と棄却との閾値である第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御する。 The response control means 27 compares the reliability with a first threshold value that is a threshold value for acceptance and confirmation and a second threshold value that is a threshold value for confirmation and rejection. Control what to do.
図3は、信頼度を用いた応答制御を示す図である。
図3に示すように、信頼度の値が第1の閾値29より大きい場合、制御部3は、受理の応答を行う。受理の応答とは、音声認識結果をそのまま受け入れて対話を続けることである。音声認識結果が正しい場合、後述する確認の応答を省くことができる。次に、信頼度の値が第1の閾値29以下であり、第2の閾値31より大きい場合、制御部3は、確認の応答を行う。確認の応答とは、音声認識結果が正しいかどうかを利用者に確認することである。音声認識結果が誤りである場合、誤った認識結果で対話を続けることを回避することができる。そして、信頼度の値が第2の閾値31以下の場合、制御部3は、棄却の応答を行う。棄却の応答とは、音声認識結果を使用せずに利用者に再度同じ質問をすることである。音声認識の結果が誤りである場合、確認の応答を省略することができる。
FIG. 3 is a diagram illustrating response control using reliability.
As shown in FIG. 3, when the reliability value is larger than the first threshold value 29, the
次に、図4を参照しながら、音声対話装置1の動作の詳細について説明する。
図4は、音声対話処理の手順を示すフローチャートである。
Next, details of the operation of the voice
FIG. 4 is a flowchart showing the procedure of the voice interaction process.
図4に示すように、入力部11を介して、音声データが入力されると(ステップ101)、制御部3は、入力された音声データを文字データに変換する(ステップ102)。
As shown in FIG. 4, when voice data is input via the input unit 11 (step 101), the
次に、制御部3は、文字データに含まれる単語の信頼度の算出を行う(ステップ103)。信頼度の算出は、例えば、図2の説明で前述した算出式を用いて行う。
Next, the
次に、制御部3は、算出した信頼度が第1の閾値より大きいかどうか確認する(ステップ104)。
信頼度が第1の閾値より大きい場合、制御部3は、受理の応答を行う(ステップ105)。
信頼度が第1の閾値以下の場合、ステップ106に進む。
Next, the
When the reliability is larger than the first threshold, the
When the reliability is equal to or lower than the first threshold value, the process proceeds to step 106.
次に、制御部3は、算出した信頼度が第2の閾値より大きいかどうか確認する(ステップ105)。
信頼度が第2の閾値より大きい場合、制御部3は、確認の応答を行う(ステップ106)。
信頼度が第2の閾値以下の場合、制御部3は、棄却の応答を行う(ステップ107)。
以上の処理を1つの対話処理として、複数の対話処理を繰り返し行うことで、制御部3は、利用者との音声対話を実現する。
Next, the
When the reliability is larger than the second threshold, the
When the reliability is equal to or lower than the second threshold, the
The
次に、図5から図9を参照しながら、第1の閾値と第2の閾値をどのように決定するかについて説明する。 Next, how to determine the first threshold value and the second threshold value will be described with reference to FIGS.
図5は、第1の閾値と第2の閾値の組合せ条件を示す図である。
図5に示すように、例えば、3種類の第1の閾値と第2の閾値の組合せ条件を設定し、図2に示される各機能を有する音声対話装置1の評価実験を行い、被験者の主観評価結果に基づいて第1の閾値と第2の閾値を決定する。
尚、第1の閾値と第2の閾値の組合せ条件は、3種類に限定されるものではなく、3種類以上の組合せ条件を設定しても良い。
FIG. 5 is a diagram illustrating a combination condition of the first threshold value and the second threshold value.
As shown in FIG. 5, for example, three types of combination conditions of a first threshold value and a second threshold value are set, and an evaluation experiment of the
The combination conditions of the first threshold value and the second threshold value are not limited to three types, and three or more types of combination conditions may be set.
図6は、図5で示した条件ごとの応答動作を示す図である。
図6に示すように、条件Aは、確認の応答を行う範囲を大きく設定している。条件Bは、棄却の応答を行う範囲を大きく設定している。条件Cは、受理の応答を行う範囲を大きく設定している。このように、条件A〜条件Cは、応答動作が大きく異なっていることが分かる。
以下、実際に行った評価実験について説明する。
FIG. 6 is a diagram showing a response operation for each condition shown in FIG.
As shown in FIG. 6, the condition A sets a large range in which a confirmation response is made. Condition B sets a large range for the rejection response. Condition C has a large range for accepting responses. Thus, it can be seen that the response operation is greatly different between the conditions A to C.
Hereinafter, evaluation experiments actually performed will be described.
まず、本評価実験の実験諸元について説明する。
図2で示した音声認識手段23を実現する音声認識エンジンは、一般に公開されているオープンソースソフトウェアであるJulius3.5である。
次に、音響モデルは、Julius3.5と合わせて一般に公開されている不特定話者のPTM(Phonetic Tied−Mixture:音素内タイドミクスチャ)トライフォンモデルである。
また、言語モデルは、300万文の認識文リストから学習した語彙数3500語のモデルである。
そして、これらのモジュールを組み込んだ音声対話による施設検索サービスを行う音声対話装置1を構築し、本評価実験を行った。尚、被験者数は、音声対話処理に習熟した20〜40代の男女6名である。
First, experimental specifications of this evaluation experiment will be described.
The speech recognition engine that realizes the speech recognition means 23 shown in FIG. 2 is Julius 3.5, which is open source software that is open to the public.
Next, the acoustic model is a PTM (Photonic Tied-Mixture) triphone model of an unspecified speaker that is publicly disclosed together with Julius 3.5.
The language model is a model of 3500 words learned from a recognized sentence list of 3 million sentences.
And the voice
次に、本評価実験の主観評価の結果について説明する。
図7は、被験者の主観評価を示す図である。
図7に示すように、主観評価は、正確性と効率性の2つの観点について被験者から回答を得た。図7に示す評価点は、5段階評価によって得た被験者からの回答の平均値である。正確性においては、条件Aが最も高い評価を得たことが分かる。一方、効率性においては、条件Cが最も高い評価を得たが、条件Aもほぼ同等の評価を得たことが分かる。
ここで、条件の決定について説明する。例えば、正確性の評価結果において最も評価の低い条件Cを外す。これは、正確性を確保するためである。次に、例えば、効率性の評価結果において条件Aと条件Bのうち評価の低い条件Bを外す。これは、効率性を向上するためである。そうすると、この3種類の条件の中では、条件Aが最も好ましい第1の閾値と第2の閾値の組合せであると決定できる。
Next, the result of the subjective evaluation of this evaluation experiment will be described.
FIG. 7 is a diagram showing the subjective evaluation of the subject.
As shown in FIG. 7, in the subjective evaluation, answers were obtained from subjects on two viewpoints of accuracy and efficiency. The evaluation score shown in FIG. 7 is an average value of responses from subjects obtained by a five-step evaluation. It can be seen that Condition A obtained the highest evaluation in terms of accuracy. On the other hand, in terms of efficiency, the condition C obtained the highest evaluation, but it can be seen that the condition A also obtained substantially the same evaluation.
Here, determination of conditions will be described. For example, the condition C having the lowest evaluation in the accuracy evaluation result is removed. This is to ensure accuracy. Next, for example, the low-evaluation condition B is removed from the conditions A and B in the efficiency evaluation result. This is to improve efficiency. Then, among these three types of conditions, it can be determined that the condition A is the most preferable combination of the first threshold value and the second threshold value.
次に、最も好ましい第1の閾値と第2の閾値の組合せであると決定した条件Aが、被験者の総合的な評価ではどのように評価されたかについて説明する。
図8は、図5で示した条件ごとの対人対話との比較評価の結果を示す図である。
図8に示す得点は、有人オペレータとの音声対話による施設検索サービスを利用した時の評価を100点と想定した場合の比較得点である。
図8に示すように、条件Aは他の条件に比べて約5点高い得点が得られていることが分かる。
Next, how the condition A determined to be the most preferable combination of the first threshold value and the second threshold value is evaluated in the overall evaluation of the subject will be described.
FIG. 8 is a diagram illustrating a result of comparative evaluation with the interpersonal dialogue for each condition illustrated in FIG. 5.
The score shown in FIG. 8 is a comparative score when the evaluation when using the facility search service by voice dialogue with a manned operator is assumed to be 100 points.
As shown in FIG. 8, it can be seen that the condition A has a score that is about 5 points higher than the other conditions.
次に、本評価実験の客観評価の結果について説明する。
図9は、図5で示した条件ごとの受理誤り率と平均所要時間を示す図である。
図9の横軸は、誤認識単語を誤って受理の応答を行った割合である受理誤り率(=1−受理した正解単語数÷受理した単語の総数)である。また、図9の縦軸は、平均所要時間である。平均所要時間とは、音声対話を開始してから検索キーワードを全て入力するまでの時間を平均したものであり、システムが検索を実行してから結果を表示するまでの時間は含まない。受理誤り率は、客観評価上の正確性の指標であり、平均所要時間は客観評価上の効率性の指標といえる。受理誤り率が生じていなければ、間違った対話を継続していないことになる。また、平均所要時間が極端に多くなければ、不要な応答を行っていないことになる。
図9に示すように、条件Cは、受理誤りが生じており、客観評価上の正確性が確保できていないことが分かる。このことから、主観評価による正確性の評価結果において条件Cを外したことは妥当であることが裏付けられる。
一方、条件Aと条件Bは、受理誤りが生じておらず、客観評価上の正確性が確保できている。更に、条件Aと条件Bは、条件Cと比べて平均所要時間の差が小さく、不要な応答を行っていないことが分かる。
Next, the result of objective evaluation of this evaluation experiment will be described.
FIG. 9 is a diagram showing an acceptance error rate and an average required time for each condition shown in FIG.
The horizontal axis of FIG. 9 represents an acceptance error rate (= 1−the number of accepted correct words ÷ the total number of accepted words), which is the ratio of erroneously recognizing misrecognized words. Moreover, the vertical axis | shaft of FIG. 9 is an average required time. The average required time is an average of the time from the start of the voice dialogue until the input of all the search keywords, and does not include the time from when the system executes the search until the result is displayed. The acceptance error rate is an index of accuracy in objective evaluation, and the average required time can be said to be an index of efficiency in objective evaluation. If there is no acceptance error rate, the wrong dialogue is not continued. If the average required time is not extremely long, an unnecessary response is not performed.
As shown in FIG. 9, it can be seen that the condition C has an acceptance error, and the accuracy in objective evaluation cannot be secured. This confirms that it is appropriate to remove the condition C in the accuracy evaluation result by subjective evaluation.
On the other hand, the condition A and the condition B have no acceptance error, and the accuracy in objective evaluation can be secured. Further, it can be understood that the difference in average required time between the condition A and the condition B is smaller than that in the condition C, and an unnecessary response is not performed.
以上、詳細に説明したように、本実施の形態によれば、図2に示される各機能を有する音声対話装置1の評価実験を行い、被験者の主観評価結果、特に正確性と効率性の評価結果に基づいて第1の閾値と第2の閾値を決定する。
As described above in detail, according to the present embodiment, an evaluation experiment of the voice
尚、図7の説明においては、主観評価の結果だけに基づいて第1の閾値と第2の閾値を決定するとしたが、主観評価の結果と客観評価の結果の両方に基づいて第1の閾値と第2の閾値を決定しても良い。例えば、客観評価上、100%の正確性を確保する必要がある場合、図9で示した受理誤り率が0%となる第1の閾値と第2の閾値との組合せの中から、図7で示した主観評価による効率性の評価結果で最も高い評価の第1の閾値と第2の閾値との組合せに決定しても良い。 In the description of FIG. 7, the first threshold value and the second threshold value are determined based only on the result of subjective evaluation. However, the first threshold value is determined based on both the result of subjective evaluation and the result of objective evaluation. And the second threshold may be determined. For example, when it is necessary to ensure 100% accuracy in objective evaluation, the combination of the first threshold value and the second threshold value shown in FIG. The combination of the first threshold value and the second threshold value with the highest evaluation in the efficiency evaluation result based on the subjective evaluation shown in FIG.
本実施の形態によって、利用者の主観評価が向上する音声対話装置1を提供することができる。また、間違った対話を継続しないようにしながら、不要な応答を行わないようにすることができる。そして、利用者は、音声対話装置1による様々なサービスを使って良かったと感じ、安心して利用を続けることができる。
According to the present embodiment, it is possible to provide the voice
以上、添付図面を参照しながら、本発明に係る音声対話装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the voice interactive apparatus and the like according to the present invention have been described above with reference to the accompanying drawings, but the present invention is not limited to such examples. It will be apparent to those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea disclosed in the present application, and these naturally belong to the technical scope of the present invention. Understood.
1………音声対話装置
3………制御部
5………記憶部
7………メディア入出力部
9………通信制御部
11………入力部
13………表示部
15………周辺機器I/F部
17………バス
19………ネットワーク
21………音声入力手段
23………音声認識手段
25………信頼度算出手段
27………応答制御手段
DESCRIPTION OF
Claims (5)
前記文字データに含まれる単語の信頼度を算出する信頼度算出手段と、
前記信頼度を、受理と確認との閾値である第1の閾値と、確認と棄却との閾値である第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御する応答制御手段と、
を具備し、
前記第1の閾値と前記第2の閾値は、主観評価に基づき決定したものであることを特徴とする音声対話装置。 Voice recognition means for converting input voice data into character data;
Reliability calculation means for calculating the reliability of words included in the character data;
The reliability is compared with a first threshold, which is a threshold for acceptance and confirmation, and a second threshold, which is a threshold for confirmation and rejection, to control whether to accept, confirm, or reject Response control means;
Comprising
The spoken dialogue apparatus according to claim 1, wherein the first threshold value and the second threshold value are determined based on subjective evaluation.
前記文字データに含まれる単語の信頼度を算出するステップと、
前記信頼度を、受理と確認との閾値である第1の閾値と、確認と棄却との閾値である第2の閾値と比較し、受理、確認、棄却のいずれの応答を行うかを制御するステップと、
を含み、
前記第1の閾値と前記第2の閾値は、主観評価に基づき決定したものであることを特徴とする音声対話方法。 Converting the input voice data into character data;
Calculating a reliability of a word included in the character data;
The reliability is compared with a first threshold, which is a threshold for acceptance and confirmation, and a second threshold, which is a threshold for confirmation and rejection, to control whether to accept, confirm, or reject Steps,
Including
The voice dialogue method according to claim 1, wherein the first threshold value and the second threshold value are determined based on subjective evaluation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007070111A JP2008233305A (en) | 2007-03-19 | 2007-03-19 | Voice dialogue apparatus, voice dialogue method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007070111A JP2008233305A (en) | 2007-03-19 | 2007-03-19 | Voice dialogue apparatus, voice dialogue method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008233305A true JP2008233305A (en) | 2008-10-02 |
Family
ID=39906199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007070111A Pending JP2008233305A (en) | 2007-03-19 | 2007-03-19 | Voice dialogue apparatus, voice dialogue method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008233305A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010420A (en) * | 2012-07-03 | 2014-01-20 | Seiko Epson Corp | Integrated circuit device |
WO2014112226A1 (en) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | Electronic apparatus and vacuum cleaner |
JP2015111253A (en) * | 2013-10-31 | 2015-06-18 | シャープ株式会社 | Server, speech production control method, speech production device, speech production system and program |
CN113707128A (en) * | 2020-05-20 | 2021-11-26 | 思必驰科技股份有限公司 | Test method and system for full-duplex voice interaction system |
WO2022126734A1 (en) * | 2020-12-14 | 2022-06-23 | 美的集团股份有限公司 | Voice interaction processing method and apparatus, electronic device, and storage medium |
WO2022215104A1 (en) * | 2021-04-05 | 2022-10-13 | 三菱電機株式会社 | Voice interaction device and voice interaction method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6194093A (en) * | 1984-10-16 | 1986-05-12 | 株式会社リコー | Voice recognition equipment |
-
2007
- 2007-03-19 JP JP2007070111A patent/JP2008233305A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6194093A (en) * | 1984-10-16 | 1986-05-12 | 株式会社リコー | Voice recognition equipment |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014010420A (en) * | 2012-07-03 | 2014-01-20 | Seiko Epson Corp | Integrated circuit device |
WO2014112226A1 (en) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | Electronic apparatus and vacuum cleaner |
JP2014137430A (en) * | 2013-01-16 | 2014-07-28 | Sharp Corp | Electronic apparatus and cleaner |
KR20150086339A (en) * | 2013-01-16 | 2015-07-27 | 샤프 가부시키가이샤 | Electronic apparatus and vacuum cleaner |
CN104871239A (en) * | 2013-01-16 | 2015-08-26 | 夏普株式会社 | Electronic apparatus and vacuum cleaner |
EP2947651A4 (en) * | 2013-01-16 | 2016-01-06 | Sharp Kk | Electronic apparatus and vacuum cleaner |
KR101707359B1 (en) * | 2013-01-16 | 2017-02-15 | 샤프 가부시키가이샤 | Electronic apparatus and vacuum cleaner |
JP2015111253A (en) * | 2013-10-31 | 2015-06-18 | シャープ株式会社 | Server, speech production control method, speech production device, speech production system and program |
CN113707128A (en) * | 2020-05-20 | 2021-11-26 | 思必驰科技股份有限公司 | Test method and system for full-duplex voice interaction system |
CN113707128B (en) * | 2020-05-20 | 2023-06-20 | 思必驰科技股份有限公司 | Test method and system for full duplex voice interaction system |
WO2022126734A1 (en) * | 2020-12-14 | 2022-06-23 | 美的集团股份有限公司 | Voice interaction processing method and apparatus, electronic device, and storage medium |
WO2022215104A1 (en) * | 2021-04-05 | 2022-10-13 | 三菱電機株式会社 | Voice interaction device and voice interaction method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6394709B2 (en) | SPEAKER IDENTIFYING DEVICE AND FEATURE REGISTRATION METHOD FOR REGISTERED SPEECH | |
CN1975858B (en) | session control device | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US9542931B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
CN101211559B (en) | Method and device for splitting voice | |
JP6897677B2 (en) | Information processing device and information processing method | |
JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
JP5281659B2 (en) | Spoken dialogue apparatus, dialogue control method, and dialogue control program | |
JP6121842B2 (en) | Method and system for evaluating and improving the performance of speech recognition systems | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
CN112673421A (en) | Training and/or using language selection models to automatically determine a language for voice recognition of spoken utterances | |
CN104299623A (en) | Automated confirmation and disambiguation modules in voice applications | |
JP2008233305A (en) | Voice dialogue apparatus, voice dialogue method and program | |
KR20210130024A (en) | Dialogue system and method of controlling the same | |
CN112562723B (en) | Pronunciation accuracy determination method and device, storage medium and electronic equipment | |
WO2020196743A1 (en) | Evaluation system and evaluation method | |
JP4354299B2 (en) | Case search program, case search method, and case search device | |
CN110556111A (en) | Voice data processing method, device and system, electronic equipment and storage medium | |
CN111768789A (en) | Electronic equipment and method, device and medium for determining identity of voice sender thereof | |
JP2020160425A (en) | Evaluation system, evaluation method, and computer program | |
CN110853669A (en) | Audio identification method, device and equipment | |
CN114297359A (en) | Dialog intention recognition method and device, electronic equipment and readable storage medium | |
JP2005512246A (en) | Method and system for non-intrusive verification of speakers using behavior models | |
US12219095B2 (en) | System and method for providing personalized customer experience in interactive communications | |
JP4634156B2 (en) | Voice dialogue method and voice dialogue apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20100302 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A711 | Notification of change in applicant |
Effective date: 20100528 Free format text: JAPANESE INTERMEDIATE CODE: A711 |
|
A521 | Written amendment |
Effective date: 20100528 Free format text: JAPANESE INTERMEDIATE CODE: A821 |
|
A977 | Report on retrieval |
Effective date: 20110831 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Effective date: 20110906 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
A02 | Decision of refusal |
Effective date: 20120110 Free format text: JAPANESE INTERMEDIATE CODE: A02 |