[go: up one dir, main page]

JPH11143488A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH11143488A
JPH11143488A JP30674197A JP30674197A JPH11143488A JP H11143488 A JPH11143488 A JP H11143488A JP 30674197 A JP30674197 A JP 30674197A JP 30674197 A JP30674197 A JP 30674197A JP H11143488 A JPH11143488 A JP H11143488A
Authority
JP
Japan
Prior art keywords
voice
guidance
recognition
speaker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP30674197A
Other languages
Japanese (ja)
Inventor
Satoshi Matsuhashi
聡 松橋
Takuro Nakayama
卓郎 中山
Masahiro Kosaka
昌宏 小坂
Hana Igarashi
華 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Ltd
Hitachi Communication Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Communication Systems Inc filed Critical Hitachi Ltd
Priority to JP30674197A priority Critical patent/JPH11143488A/en
Publication of JPH11143488A publication Critical patent/JPH11143488A/en
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 音声認識装置と発声者との間の対話におい
て、誤認識、誤動作の防止のために認識結果の正誤を常
に確認することによる、発声者への不快感をなくし、発
声者に対する音声認識サービスを円滑かつ正確に提供す
ること。 【解決手段】 音声認識装置100内で発声者110な
いし112からの音声入力に対する認識結果を判断し、
発声者110ないし112への最適な音声ガイダンス
を、データベース部108にある複数パターンの中から
選択することで達成される。この複数の音声ガイダンス
パターンの選択によって、発声者に対して次に入力すべ
き情報の指示が円滑かつ正確に行える。
(57) [Summary] [Problem] To eliminate discomfort to a speaker by constantly checking the correctness of the recognition result in order to prevent erroneous recognition and malfunction in a dialog between the speech recognition device and the speaker. , To provide a speech recognition service to a speaker smoothly and accurately. SOLUTION: In a voice recognition device 100, a recognition result for voice input from speakers 110 to 112 is determined,
The optimal voice guidance to the speakers 110 to 112 is achieved by selecting from a plurality of patterns in the database unit 108. By selecting the plurality of voice guidance patterns, it is possible to smoothly and accurately specify the information to be input next to the speaker.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、例えば、公衆網を
はじめとする通信網内に位置し、音声入力サービスを提
供するのに好適な音声認識装置に係り、特に、音声認識
結果の正誤を判別し、発声者に対して適切なガイダンス
を送信可能とする音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus which is located in a communication network such as a public network and is suitable for providing a speech input service. The present invention relates to a voice recognition device that can determine and transmit appropriate guidance to a speaker.

【0002】[0002]

【従来の技術】従来、音声認識装置のアプリケーション
の実用化の代表的なものとして、公衆網へ適用し、様々
な内容のサービスを運用可能とするために検討が重ねら
れている。音声認識装置の公衆網への適用にあたって
は、発声者の周囲環境(例えば騒音)の違いや、音声入
力装置(例えば電話機)種別などの要因から、音声認識
装置が必ずしも入力音声を正確に認識し、発声者の要求
(発声)に100%応えるとは限らない。そのため、誤
認識に対する前記発声者への対処策が種々検討されてい
る。
2. Description of the Related Art Hitherto, as a typical application of a speech recognition apparatus, practical studies have been made to apply it to a public network and to operate services of various contents. In applying the speech recognition device to a public network, the speech recognition device does not always recognize the input speech correctly due to factors such as differences in the surrounding environment (for example, noise) of the speaker and the type of speech input device (for example, telephone). However, it does not always meet the request (utterance) of the speaker 100%. For this reason, various countermeasures for the speaker in response to erroneous recognition have been studied.

【0003】その一つとして、特開平3−248199
号公報には、音声入力を、登録語彙と照合して認識結果
を得て、認識結果を他の機械の動作指示として送信する
音声認識装置において、第1の閾値と第2の閾値を定
め、入力音声パターンと基準パターンの「市街地」距離
の総和Dをとってこの最も小さいものを認識結果とし、
1/Dなどを信頼度として、信頼度が第1の閾値より大
きい場合には認識結果を動作指示として送信し、上記信
頼度が第2の閾値より大きく第1の閾値より小さい場合
には使用者が認識結果の確認をした場合のみ認識結果の
送信を行い、上記信頼度が第2の閾値より小さい場合に
は認識結果を無効とすることにより、入力効率を落とさ
ずに、致命的な誤動作を起こすことを防ぐようにした音
声認識方式が示されている。
One of them is disclosed in Japanese Patent Application Laid-Open No. 3-248199.
Japanese Patent Laid-Open Publication No. H10-15064 discloses a speech recognition apparatus that obtains a recognition result by comparing a voice input with a registered vocabulary, and transmits the recognition result as an operation instruction of another machine, and defines a first threshold and a second threshold. The sum D of the “city” distance between the input voice pattern and the reference pattern is taken, and the smallest one is taken as the recognition result,
If the reliability is larger than the first threshold, the recognition result is transmitted as an operation instruction if 1 / D or the like is a reliability, and if the reliability is larger than the second threshold and smaller than the first threshold, it is used. The recognition result is transmitted only when the user confirms the recognition result, and when the reliability is smaller than the second threshold value, the recognition result is invalidated. A speech recognition system that prevents the occurrence of a voice recognition is shown.

【0004】また、一般に、音声認識装置と発声者との
間で、認識結果の正誤を確認する音声応答(ガイダンス
出力)機能が適用されている。
In general, a voice response (guidance output) function for confirming whether a recognition result is correct or not is applied between a voice recognition device and a speaker.

【0005】従来の音声認識装置における対話の流れを
図1を用いて説明する。音声認識装置は、入力された単
語音声S111、S114と、予め装置内に登録されて
いる単語の全てとの間の尤度を計算し、図1のS10
2、S105に示すように、認識結果の第1候補となっ
た、「営業部」、「加藤さん」を音声出力して、発声者
に、確認として「はい」「いいえ」の入力を要求するこ
とが多い。また、確認を行なおうとする単語の尤度が極
めて小さい場合は、正解である可能性が低いと判定して
確認処理を行わずに、図1のS104に示されるよう
に、「もう一度〜を入力して下さい」のような再入力を
指示することも行われる。
[0005] The flow of a dialog in a conventional speech recognition apparatus will be described with reference to FIG. The speech recognition device calculates the likelihood between the input word speeches S111 and S114 and all of the words registered in the device in advance, and calculates the likelihood in S10 of FIG.
2. As shown in S105, "Sales Department" and "Kato-san", which are the first candidates of the recognition result, are output as voices, and the speaker is requested to input "Yes" and "No" as confirmation. Often. Also, when the likelihood of the word to be checked is extremely small, it is determined that the likelihood of a correct answer is low, and the checking process is not performed, and as shown in S104 of FIG. Re-enter such as "Please enter."

【0006】[0006]

【発明が解決しようとする課題】以上のように、従来の
音声認識装置と発声者との間の対話においては、音声認
識に伴う誤動作を起こさないという意味で有効である一
方、認識結果の正誤確認を常に繰り返すため、時間がか
かり、また、心理的に発声者の不快感を生む場合が多
い。本発明の課題は、上記従来の技術の問題点を解消す
ることである。
As described above, in the dialogue between the conventional voice recognition apparatus and the speaker, it is effective in that no malfunction occurs due to voice recognition, while the recognition result is correct. Since the confirmation is always repeated, it takes a long time and often causes the speaker to be uncomfortable psychologically. An object of the present invention is to solve the above-mentioned problems of the conventional technology.

【0007】すなわち、本発明の目的は、誤認識に伴う
誤ったサービス提供を行う危険を増大させることなく、
円滑スピーディ、かつ確実、正確に、音声入力、音声識
別サービス提供することである。
That is, an object of the present invention is to increase the risk of providing erroneous services due to erroneous recognition,
It is to provide voice input and voice identification service smoothly, speedily, reliably and accurately.

【0008】[0008]

【課題を解決するための手段】上記課題は、本発明によ
れば、発声者からの音声入力に対する認識結果を、音声
認識装置内に具備されている信頼度計算部によって算出
された結果に基づいて判定し、発声者への音声ガイダン
スを、前記信頼性に基づき複数用意されたガイダンス遷
移パターンの中から適切なものを選択する手段を設ける
ことで達成される。
According to the present invention, a recognition result for a speech input from a speaker is calculated based on a result calculated by a reliability calculation unit provided in a speech recognition apparatus. This is achieved by providing means for selecting an appropriate voice guidance to the speaker from the plurality of guidance transition patterns prepared based on the reliability.

【0009】上記のように、発声者が、音声認識装置か
ら送られてくる音声ガイダンス内容に従い、次の音声入
力を行う音声認識システムにおいて、音声認識装置から
発声者に対して、次に入力すべき音声入力情報の指示を
行う音声ガイダンスが、発声者の発声した音声状態を分
析し、その分析結果に応じて、複数の音声ガイダンスパ
ターンの中から選択された音声ガイダンスパターンであ
るため、音声入力サービスを円滑かつ正確に行うことが
できる。
As described above, in the voice recognition system in which the speaker performs the next voice input in accordance with the voice guidance sent from the voice recognition device, the voice recognition device inputs the voice to the voice speaker next. Since the voice guidance for instructing the voice input information to be analyzed is a voice guidance pattern selected from a plurality of voice guidance patterns according to the analysis result of the voice state of the speaker, the voice input is performed. Service can be performed smoothly and accurately.

【0010】出力できるガイダンス内容は大きく、次の
4つに大別される。 (1) 対話促進ガイダンス 例えば、複数の情報入力によって1つのサービスが提供
される場合に、第n番目の情報入力が終わったあと、第
n+1番目の情報入力を促すガイダンス。
The guidance contents that can be output are broadly divided into the following four. (1) Dialogue promotion guidance For example, when one service is provided by a plurality of information inputs, guidance for prompting the (n + 1) th information input after the nth information input is completed.

【0011】(2)聞き返しガイダンス 例えば、「○○ですね」のような「はい」「そうです」
などの肯定語と「いいえ」「違う」などの否定語の入力
を促すガイダンス。
(2) Reflection Guidance For example, "Yes" or "Yes" like "I'm OO"
Guidance that prompts for the input of positive words such as "No" and "Negative" such as "No."

【0012】(3) 聞き直しガイダンス 複数の情報入力によって1つのサービスが提供できる時
に、その第n番目の情報入力が終わったあと、再度第n
番目の情報入力を促すガイダンス。
(3) Listening Guidance When one service can be provided by a plurality of information inputs, after the n-th information input is completed, the n-th information is again input.
Guidance for prompting for second information.

【0013】(4) 認識可能単語提示ガイダンス 認識候補として該音声認識が現段階で用意している単語
を並べて出力し、該認識単語群の中から選択して入力す
ることを促すガイダンス。
(4) Recognizable Word Presentation Guidance Guidance to promptly output words prepared by the voice recognition at this stage as recognition candidates and to select and input from the recognized word group.

【0014】本発明によれば、聞き返しガイダンスが不
要なときは、例えば、対話促進ガイダンスが発声者へ送
信されることにより、発声者は確認ガイダンスを意識す
ることなく次工程のガイダンス内容にて音声入力が可能
となり、不快感・煩わしさ等が軽減されている。
According to the present invention, when the return guidance is not required, for example, the dialogue promotion guidance is transmitted to the speaker, so that the speaker does not recognize the confirmation guidance and outputs the voice in the guidance content of the next process. Input becomes possible, and discomfort and annoyance are reduced.

【0015】さらに、ガイダンス内容を最終的に確認可
能とするため、ガイダンスデータ記憶部にガイダンスデ
ータを記憶しておき、接続先の確認をすることも可能で
ある。以下、本発明を図2ないし図8に示す実施の形態
により具体的に説明する。
Further, in order to make it possible to finally confirm the guidance content, it is possible to store the guidance data in the guidance data storage unit and confirm the connection destination. Hereinafter, the present invention will be described in detail with reference to the embodiments shown in FIGS.

【0016】本発明に関わる音声認識装置の音声ガイダ
ンス選択送信のための構成及び作用について、図2ない
し図8に示す実施の形態により、具体的に説明する。
The structure and operation of the voice recognition apparatus according to the present invention for selecting and transmitting voice guidance will be specifically described with reference to the embodiments shown in FIGS.

【0017】[0017]

【発明の実施の形態】図2は、本発明のハードウェア構
成を示した図であり、音声認識装置100は、音声入力
装置110〜112からの入力音声と、認識用辞書デー
タ記憶部103に記憶されている認識用辞書データとの
間のスコアを求め、入力音声の候補単語を決定する音声
認識部102を具備する。上記スコアは、例えば、入力
音声と認識用辞書データの距離を求め、その総和の逆数
とすればよい。
FIG. 2 is a diagram showing a hardware configuration of the present invention. A speech recognition apparatus 100 stores input speech from speech input devices 110 to 112 and a dictionary data storage unit 103 for recognition. A speech recognition unit 102 is provided for determining a score between the stored dictionary data for recognition and determining a candidate word for input speech. The score may be, for example, the distance between the input voice and the dictionary data for recognition, and the reciprocal of the sum.

【0018】また、音声認識装置100は、前記音声認
識部102が入力音声を認識する際に参照する認識用辞
書データを格納する認識用辞書データ記憶部103の他
に前記音声認識部102から送出される候補単語の信頼
度として算出する信頼度計算部101を具備する。上記
信頼度は、例えば、認識結果の第1候補のスコアと認識
結果の第2候補のスコアとの差分をとることで求めるこ
とができる。
Further, the speech recognition apparatus 100 transmits the speech data from the speech recognition section 102 in addition to the recognition dictionary data storage section 103 for storing the recognition dictionary data to be referred to when the speech recognition section 102 recognizes the input speech. A reliability calculation unit 101 that calculates the reliability of a candidate word to be calculated. The reliability can be obtained, for example, by calculating the difference between the score of the first candidate of the recognition result and the score of the second candidate of the recognition result.

【0019】音声認識装置100は、さらに、前記音声
認識部102で決定された第1候補単語のコード及び前
記信頼度計算部101で計算された信頼度を受け、次に
出力するガイダンスデータと次に認識に用いる認識用辞
書データのデータベース上のアドレスを指定して、それ
ぞれガイダンスデータ記憶部105と認識用辞書データ
記憶部103に転送する制御部107と、音声認識時に
用いる認識用辞書データ108D及び音声合成時に用い
るガイダンスデータ108Gを格納するデータベース部
108と、ガイダンスデータを音声データに変換して発
声者側へ送出する音声合成部104と、音声合成時に用
いるガイダンスデータを格納するガイダンスデータ記憶
部105とを具備する。
The speech recognition apparatus 100 further receives the code of the first candidate word determined by the speech recognition unit 102 and the reliability calculated by the reliability calculation unit 101, and outputs the next guidance data and the next guidance data. A control unit 107 for designating an address on a database of recognition dictionary data to be used for recognition and transferring them to a guidance data storage unit 105 and a recognition dictionary data storage unit 103, respectively; a recognition dictionary data 108D used for speech recognition; A database unit 108 for storing guidance data 108G used at the time of voice synthesis, a voice synthesis unit 104 for converting the guidance data into voice data and sending it to the speaker, and a guidance data storage unit 105 for storing guidance data used at the time of voice synthesis. And

【0020】図3は、図2に示す音声認識装置の処理動
作の流れを、音声(破線矢示線)と制御データ(実線矢
示線)とを併記して示した図である。
FIG. 3 is a diagram showing the flow of the processing operation of the voice recognition apparatus shown in FIG. 2 together with voice (dashed arrow line) and control data (solid arrow line).

【0021】発声者と音声認識装置の間で回線が接続さ
れると、制御部107は、前記発声者に対して音声の入
力を促すガイダンスデータを選択し、対応するガイダン
スデータアドレス(C301)により、データベース部
108からガイダンスデータを読み出し、記憶部105
へ前記ガイダンスデータを転送する(C302)。
When a line is connected between the speaker and the voice recognition device, the control section 107 selects guidance data for prompting the speaker to input a voice, and uses the corresponding guidance data address (C301). , The guidance data is read out from the database unit 108 and the storage unit 105 is read out.
The guidance data is transferred to (C302).

【0022】音声合成部104は、前記ガイダンスデー
タ記憶部105に格納された前記ガイダンスデータを受
け取り、ガイダンス音声に変換して前記発声者へ送信す
る(A301)。
The voice synthesis unit 104 receives the guidance data stored in the guidance data storage unit 105, converts the guidance data into guidance voice, and transmits the guidance voice to the speaker (A301).

【0023】この間に、前記制御部107は音声認識の
際に用いる認識用辞書データを、認識用辞書データアド
レス(C304)に基づき、前記データベース部108
から認識用辞書データ記憶部103へ転送する(C30
5)。
In the meantime, the control unit 107 stores the dictionary data for recognition used for voice recognition based on the dictionary data address for recognition (C304).
Is transferred to the recognition dictionary data storage unit 103 (C30).
5).

【0024】出力ガイダンスに対する発声者から音声の
入力があると(A302)、音声認識部102におい
て、入力音声(A302)と、音声認識部102に送ら
れてきた前記認識用辞書データ(C306)との間でス
コアを計算し(C307)、前記入力音声の候補単語を
決定する。
When there is a voice input from the speaker for the output guidance (A302), the voice recognition unit 102 inputs the input voice (A302) and the recognition dictionary data (C306) sent to the voice recognition unit 102. Is calculated (C307), and candidate words for the input voice are determined.

【0025】音声認識部102は、得られた認識結果の
スコア(C307)を信頼度計算部101に送って認識
結果の信頼度を得て(C308)、前記認識結果と前記
信頼度を制御部107へ送出する(C309)。
The speech recognition section 102 sends the obtained score of the recognition result (C307) to the reliability calculation section 101 to obtain the reliability of the recognition result (C308), and controls the recognition result and the reliability in the control section. It is transmitted to C107 (C309).

【0026】制御部107は、前記信頼度の値に従って
次に用いるべきガイダンスデータと認識用辞書データの
選択DSを行い、前述と同様に、データベース部108
に、ガイダンスデータアドレス(C310)及び認識用
辞書データアドレス(C313)を送出し、ガイダンス
データ記憶部105と認識用辞書データ記憶部103へ
転送する(C311)及び(C314)。ガイダンスデ
ータは、さらに音声合成部104に送られ(C31
2)、ガイダンス音声に変換されて、電話機などの音声
入力装置110ないし112に送信される(A30
3)。また、認識用辞書データは、音声認識部102に
転送される。
The control unit 107 selects the guidance data to be used next and the selection dictionary data for recognition in accordance with the value of the reliability.
Then, the guidance data address (C310) and the dictionary data address for recognition (C313) are transmitted and transferred to the guidance data storage unit 105 and the dictionary data storage unit for recognition 103 (C311) and (C314). The guidance data is further sent to the speech synthesis unit 104 (C31
2) It is converted into guidance voice and transmitted to voice input devices 110 to 112 such as telephones (A30)
3). The dictionary data for recognition is transferred to the voice recognition unit 102.

【0027】次に、対話促進ガイダンスを出力する場合
について、図4、図5及び図7を使って説明する。
Next, a case where the dialogue promotion guidance is output will be described with reference to FIGS. 4, 5 and 7. FIG.

【0028】図7に示すように、音声認識装置100か
らの対話促進ガイダンス(S701)、例えば、「所属
部署をどうぞ」に対して、発声者の入力音声(S71
1)が「営業部」となり、これに対する信頼度Rが、図
4の項番1の通り、閾値th1よりも大きい場合(S5
06)、制御部107は、図5に示すように、聞き返し
などは行わず、次に必要な情報の認識のために次のガイ
ダンスデータ及び認識用辞書データを選択する(S50
7)及び(S508)。
As shown in FIG. 7, the dialogue promotion guidance (S701) from the voice recognition device 100, for example, in response to "Please enter your department", the input voice of the speaker (S71).
1) is “sales department”, and the reliability R for this is greater than the threshold th1 as shown in item 1 of FIG. 4 (S5).
06), as shown in FIG. 5, the control unit 107 selects the next guidance data and recognition dictionary data for recognizing the next necessary information without performing the reflection (S50).
7) and (S508).

【0029】これにより前記発声者側に出力されるガイ
ダンスは、図7に示すように、第2番目に必要な情報を
認識するための対話促進ガイダンス(S702)「担当
者名をどうぞ」となる。
As a result, as shown in FIG. 7, the guidance output to the speaker is the dialogue promotion guidance for recognizing the second necessary information (S702), "Please name the person in charge." .

【0030】次に、発声者の入力音声の認識結果の信頼
度Rが、図4の項番2の通り、閾値th1よりも小さく
かつ閾値th2よりも大きい場合、制御部107は、図
5の(S509)、(S510)、(S511)、(S
512)で示す通り、聞き返しガイダンスを出力するよ
うに、次のガイダンスデータおよび認識用辞書データを
選択する。音声認識装置は、図1の(S102)、(S
105)に示すような聞き返しガイダンスを出力するこ
ともできる。
Next, when the reliability R of the recognition result of the input voice of the speaker is smaller than the threshold th1 and larger than the threshold th2 as shown in item No. 2 of FIG. (S509), (S510), (S511), (S
As indicated by 512), the next guidance data and recognition dictionary data are selected so as to output the reflection guidance. The voice recognition device performs the operations of (S102) and (S102) of FIG.
Reflection guidance as shown in 105) can be output.

【0031】次に、発声者の入力音声の認識結果の信頼
度Rが、図4の項番3の通り、閾値th2よりも小さい
場合、制御部107は、図5の(S513)、(S51
4)で示す通り、聞き直しガイダンスを出力するよう
に、次のガイダンスデータおよび認識用辞書データを選
択する。これにより前記発声者側に出力されるガイダン
スは、例えば、図1の(S104)に示すように「もう
1度お願いします」となる。
Next, when the reliability R of the recognition result of the input voice of the speaker is smaller than the threshold th2 as shown in item No. 3 of FIG. 4, the control unit 107 proceeds to (S513) and (S51) of FIG.
As shown in 4), the next guidance data and recognition dictionary data are selected so as to output the re-listening guidance. Thus, the guidance output to the speaker side is, for example, "Please ask again" as shown in (S104) of FIG.

【0032】次に、発声者の入力が認識用辞書データの
中に未登録である場合について図4、図5、図8を用い
て説明する。例えば、図8に示すように、発声者の入力
音声が「電子部品営業部」となり、入力音声の認識結果
のスコアAが、図4の項番4のように、閾値Dよりも小
さい場合、制御部107は、次の順番のガイダンスデー
タおよび認識用辞書データを選択する。これにより前記
発声者側に出力されるガイダンスは、例えば、図8の
(S802)に示すような認識可能単語提示ガイダンス
「人事部、企画部、営業部の中からお選び下さい」とな
る。
Next, a case where the input of the speaker is not registered in the dictionary data for recognition will be described with reference to FIGS. 4, 5 and 8. FIG. For example, as shown in FIG. 8, when the input voice of the speaker is “Electronic parts sales department” and the score A of the recognition result of the input voice is smaller than the threshold D as in item No. 4 in FIG. The control unit 107 selects the guidance data and the dictionary data for recognition in the next order. Thus, the guidance output to the speaker side is, for example, the recognizable word presentation guidance as shown in (S802) of FIG. 8 "Please select from the human resources department, the planning department, and the sales department".

【0033】次に、音声入力終了時に、認識した全ての
内容をガイダンスする場合について説明する。認識結果
は、図2のガイダンスデータ記憶部105に蓄えられて
おり、図5の処理の流れに従って、対話終了時には、認
識した全ての認識結果を含む内容をガイダンスするよう
にガイダンスデータを選択する。例えば、図8に示す
「営業部の加藤へお繋ぎします」のようになる。
Next, a description will be given of a case where all recognized contents are provided with guidance at the end of voice input. The recognition result is stored in the guidance data storage unit 105 in FIG. 2, and the guidance data is selected according to the flow of the process in FIG. For example, "I will connect to Kato of the sales department" shown in FIG.

【0034】[0034]

【発明の効果】以上の通り、本発明により信頼度計算部
の数値によって複数パターンのガイダンスが発声者へ送
出されるため、無駄な再発声等を省くことができ、円滑
に対話を進めることを可能とする。
As described above, according to the present invention, since a plurality of patterns of guidance are sent to the speaker based on the numerical value of the reliability calculation unit, it is possible to omit useless repetitions, etc., and to facilitate the dialogue. Make it possible.

【0035】これにより、発声者の不快感を軽減し、か
つ発声者の要求するサービスを正確に提供できる効果が
ある。
Thus, there is an effect that the discomfort of the speaker can be reduced and the service requested by the speaker can be provided accurately.

【図面の簡単な説明】[Brief description of the drawings]

【図1】従来の音声認識装置と発声者間の対話の例を示
す遷移図。
FIG. 1 is a transition diagram showing an example of a dialogue between a conventional voice recognition device and a speaker.

【図2】本発明による音声認識装置のハードウェア構成
図。
FIG. 2 is a hardware configuration diagram of a speech recognition device according to the present invention.

【図3】本発明による音声認識装置内の動作シーケンス
を示すシーケンス図。
FIG. 3 is a sequence diagram showing an operation sequence in the voice recognition device according to the present invention.

【図4】本発明による音声認識装置の信頼度による次ガ
イダンスの判定条件の一覧図表。
FIG. 4 is a table showing a list of judgment conditions for the next guidance based on the reliability of the speech recognition apparatus according to the present invention.

【図5】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。
FIG. 5 is a flowchart of a next guidance selection process of the voice recognition device according to the present invention.

【図6】本発明による音声認識装置の次ガイダンス選択
処理のフローチャート。
FIG. 6 is a flowchart of a next guidance selection process of the voice recognition device according to the present invention.

【図7】本発明による音声認識装置で実現される対話の
例を示す遷移図。
FIG. 7 is a transition diagram showing an example of a dialog realized by the speech recognition device according to the present invention.

【図8】本発明による音声認識装置で実現される対話の
例を示す遷移図。
FIG. 8 is a transition diagram showing an example of a dialog realized by the speech recognition device according to the present invention.

【符号の説明】[Explanation of symbols]

101…信頼度計算部、102…音声認識部、103…
認識用辞書データ記憶部、104…音声合成部、105
…ガイダンスデータ記憶部、106…インタフェース
部、107…制御部、108…データベース部、110
〜112…音声入力装置
101: reliability calculation unit, 102: speech recognition unit, 103:
Recognition dictionary data storage unit, 104 ... Speech synthesis unit, 105
... Guidance data storage unit, 106 ... Interface unit, 107 ... Control unit, 108 ... Database unit, 110
~ 112 ... voice input device

───────────────────────────────────────────────────── フロントページの続き (72)発明者 小坂 昌宏 神奈川県横浜市戸塚区戸塚町216番地 株 式会社日立製作所情報通信事業部内 (72)発明者 五十嵐 華 神奈川県横浜市戸塚区戸塚町180番地 日 立通信システム株式会社内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Masahiro Kosaka 216 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture Inside the Hitachi, Ltd.Information and Communications Department (72) Inventor Hana Igarashi 180 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Hitachi Communication Systems Co., Ltd.

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】通信網内に位置し、発声者の音声入力を受
信する機能及びサービスに対応する語彙候補群を持ち、
前記音声入力に基づいて1つ又は複数の語彙候補を選択
するとともにその確からしさの情報を出力する音声認識
機能と、前記発声者へ送信する複数種類の応答データを
蓄積している応答機能を持ち、前記音声認識機能から出
力される確からしさの情報を用いて、前記応答機能に蓄
積された複数種類の応答データの中から選択した応答デ
ータに対応する送信ガイダンスを出力することを特徴と
する音声認識装置。
1. A vocabulary candidate group corresponding to a function and service for receiving a voice input of a speaker, which is located in a communication network,
It has a voice recognition function for selecting one or more vocabulary candidates based on the voice input and outputting information on its certainty, and a response function for storing a plurality of types of response data to be transmitted to the speaker. Outputting a transmission guidance corresponding to response data selected from a plurality of types of response data stored in the response function, using information on the likelihood output from the voice recognition function. Recognition device.
【請求項2】複数種類の応答データとして、対話促進ガ
イダンス用データ、聞き返しガイダンス用データ、聞き
直しガイダンス用データ及び認識可能単語提示ガイダン
ス用データのいずれか2つ以上を蓄積していることを特
徴とする請求項1記載の音声認識装置。
2. A plurality of types of response data, wherein at least two of data for dialogue promotion guidance, data for return guidance, data for repeat guidance, and data for guidance on presentation of recognizable words are stored. The speech recognition device according to claim 1, wherein
【請求項3】対話促進ガイダンスは、認識結果の確から
しさの情報が一定値を越える場合に出力することを特徴
とする請求項2記載の音声認識装置。
3. The speech recognition apparatus according to claim 2, wherein the dialog promoting guidance is output when the information on the probability of the recognition result exceeds a certain value.
【請求項4】発声者に対して、認識結果の確認を求める
ガイダンスを出力せずに、次の情報入力を可能とするこ
とを特徴とする請求項1記載の音声認識装置。
4. The speech recognition apparatus according to claim 1, wherein the next information can be input to the speaker without outputting guidance for confirming the recognition result.
【請求項5】発声者に対して、先に認識を行った際に入
力した音声と同じ音声の再入力を指示するための応答デ
ータを持ち、両者の距離データおよび距離差データが一
定値以下の場合に出力することを特徴とする請求項1記
載の音声認識装置。
5. The apparatus has response data for instructing a speaker to re-input the same voice as the voice input at the time of first recognition, and the distance data and the distance difference data between the two are below a certain value. 2. The speech recognition device according to claim 1, wherein the output is performed in the case of.
【請求項6】発声者に対して提供できるサービス内容を
説明する応答データを持ち、距離データが一定値以下の
場合にこれを出力することを特徴とする請求項1記載の
音声認識装置。
6. The speech recognition apparatus according to claim 1, further comprising response data for explaining service contents that can be provided to the speaker, and outputting the response data when the distance data is equal to or less than a predetermined value.
【請求項7】発声者に対して、前記音声認識装置で対象
とする単語を提示する機能を持つことを特徴とする請求
項1記載の音声認識装置。
7. The speech recognition apparatus according to claim 1, wherein said speech recognition apparatus has a function of presenting a target word to said speaker.
【請求項8】音声認識装置が対話促進のための応答デー
タを送信した場合、最終的に音声入力を完了した時点で
認識した全ての内容を応答データとして出力し、発声者
に確認を求めることを特徴とする請求項2記載の音声認
識装置。
8. When the voice recognition device transmits response data for promoting dialogue, finally, when the voice input is completed, all recognized contents are output as response data, and the speaker is asked to confirm. The speech recognition device according to claim 2, wherein:
【請求項9】認識結果の相手先(接続したいサービス
名)への送信を行う前に音声認識した内容をガイダンス
することを特徴とする請求項2ないし請求項5のいずれ
かに記載の音声認識装置。
9. The voice recognition according to claim 2, wherein the content of the voice recognition is provided before transmitting the recognition result to the destination (the name of the service to be connected). apparatus.
JP30674197A 1997-11-10 1997-11-10 Voice recognition device Pending JPH11143488A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30674197A JPH11143488A (en) 1997-11-10 1997-11-10 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30674197A JPH11143488A (en) 1997-11-10 1997-11-10 Voice recognition device

Publications (1)

Publication Number Publication Date
JPH11143488A true JPH11143488A (en) 1999-05-28

Family

ID=17960757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30674197A Pending JPH11143488A (en) 1997-11-10 1997-11-10 Voice recognition device

Country Status (1)

Country Link
JP (1) JPH11143488A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109687A (en) * 1999-10-07 2001-04-20 Nec Corp Device and method for accessing home page
JP2005003747A (en) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk Interactive robot and dialogue system
JP2005027283A (en) * 2003-06-30 2005-01-27 Microsoft Corp Ideal call processing transfer from automatic system to human operator, based on prediction of automation validity and prediction of operator load
JP2008241933A (en) * 2007-03-26 2008-10-09 Kenwood Corp Data processing device and data processing method
JP2009251019A (en) * 2008-04-01 2009-10-29 Toyota Motor Corp Speech recognition device
WO2014112226A1 (en) * 2013-01-16 2014-07-24 シャープ株式会社 Electronic apparatus and vacuum cleaner
JP2015197621A (en) * 2014-04-02 2015-11-09 日本電信電話株式会社 Speaking manner evaluation device, speaking manner evaluation method, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109687A (en) * 1999-10-07 2001-04-20 Nec Corp Device and method for accessing home page
JP2005003747A (en) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk Interactive robot and dialogue system
JP2005027283A (en) * 2003-06-30 2005-01-27 Microsoft Corp Ideal call processing transfer from automatic system to human operator, based on prediction of automation validity and prediction of operator load
JP2008241933A (en) * 2007-03-26 2008-10-09 Kenwood Corp Data processing device and data processing method
JP2009251019A (en) * 2008-04-01 2009-10-29 Toyota Motor Corp Speech recognition device
WO2014112226A1 (en) * 2013-01-16 2014-07-24 シャープ株式会社 Electronic apparatus and vacuum cleaner
JP2014137430A (en) * 2013-01-16 2014-07-28 Sharp Corp Electronic apparatus and cleaner
CN104871239A (en) * 2013-01-16 2015-08-26 夏普株式会社 Electronic apparatus and vacuum cleaner
JP2015197621A (en) * 2014-04-02 2015-11-09 日本電信電話株式会社 Speaking manner evaluation device, speaking manner evaluation method, and program

Similar Documents

Publication Publication Date Title
CN111028827B (en) Interaction processing method, device, equipment and storage medium based on emotion recognition
US9305569B2 (en) Dialogue system and method for responding to multimodal input using calculated situation adaptability
US20020032591A1 (en) Service request processing performed by artificial intelligence systems in conjunctiion with human intervention
US8886532B2 (en) Leveraging interaction context to improve recognition confidence scores
US7219050B2 (en) Automatic interpreting system including a system for recognizing errors
JP6540414B2 (en) Speech processing apparatus and speech processing method
JP2020505643A (en) Voice recognition method, electronic device, and computer storage medium
US20170194000A1 (en) Speech recognition device and speech recognition method
US11211046B2 (en) Learning transcription errors in speech recognition tasks
JP2001005488A (en) Voice interactive system
US6341264B1 (en) Adaptation system and method for E-commerce and V-commerce applications
CN111739519A (en) Dialogue management processing method, device, equipment and medium based on voice recognition
JP3530109B2 (en) Voice interactive information retrieval method, apparatus, and recording medium for large-scale information database
JPH11143488A (en) Voice recognition device
CN110570867A (en) Voice processing method and system for locally added corpus
US7162422B1 (en) Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
US20040019488A1 (en) Email address recognition using personal information
CN112131365A (en) Data processing method, device, equipment and medium
JP6954821B2 (en) Dialogue management device and program
KR20020077422A (en) Distributed speech recognition for internet access
CN110021295B (en) Method and system for identifying erroneous transcription generated by a speech recognition system
WO2019119927A1 (en) Speech taxi calling method and system
JP2000293194A (en) Voice interactive device
JP2000250585A (en) Interactive database retrieving method and device and recording medium recorded with interactive database retrieving program
JPH09114493A (en) Interaction controller

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20040721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20041008

A131 Notification of reasons for refusal

Effective date: 20060627

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060828

RD02 Notification of acceptance of power of attorney

Effective date: 20060828

Free format text: JAPANESE INTERMEDIATE CODE: A7422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206