JPH0863185A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0863185A JPH0863185A JP6199179A JP19917994A JPH0863185A JP H0863185 A JPH0863185 A JP H0863185A JP 6199179 A JP6199179 A JP 6199179A JP 19917994 A JP19917994 A JP 19917994A JP H0863185 A JPH0863185 A JP H0863185A
- Authority
- JP
- Japan
- Prior art keywords
- result
- displayed
- voice recognition
- voice
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 音声認識装置によって、得られた認識結果の
中から意味のある言葉を音声認識の類似性の高い順(距
離の小さい順)、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにした。 【構成】 話者が特別な装置の使用を意識せずに会話を
行える環境と、その会話の中から1人以上の信号を取り
出し、音声認識装置に印加せしめる手段と、認識した結
果によって、該結果表示する(および/または)その結
果で特定のものを動作させるような信号を出力する。得
られた認識結果の中から意味のある言葉を音声認識の類
似性の高い順(例えば、PC98,PCM,TQC,D
Mの順)、あるいは、その逆順にディスプレー2上に表
示し、表示された中からどれかを音声を発することなく
カーソル4で選択できるようにした。
中から意味のある言葉を音声認識の類似性の高い順(距
離の小さい順)、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにした。 【構成】 話者が特別な装置の使用を意識せずに会話を
行える環境と、その会話の中から1人以上の信号を取り
出し、音声認識装置に印加せしめる手段と、認識した結
果によって、該結果表示する(および/または)その結
果で特定のものを動作させるような信号を出力する。得
られた認識結果の中から意味のある言葉を音声認識の類
似性の高い順(例えば、PC98,PCM,TQC,D
Mの順)、あるいは、その逆順にディスプレー2上に表
示し、表示された中からどれかを音声を発することなく
カーソル4で選択できるようにした。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置、より詳
細には、通常の対話の中で発声された言葉を聞いて、話
者に必要な情報を自動的に提供するような装置に係るも
のである。
細には、通常の対話の中で発声された言葉を聞いて、話
者に必要な情報を自動的に提供するような装置に係るも
のである。
【0002】
【従来の技術】本出願人は、先に、音声認識の利用分野
の一つとして、対話をしている話者の会話の中から自動
的に情報提供する装置について提案した。この装置の場
合、音声認識の利用者は、音声認識装置のための特別の
コマンドを発声することなく、話者同士は通常の会話を
していれば、話者に対して自動的に情報が表示されると
言う面で、画期的なものである。
の一つとして、対話をしている話者の会話の中から自動
的に情報提供する装置について提案した。この装置の場
合、音声認識の利用者は、音声認識装置のための特別の
コマンドを発声することなく、話者同士は通常の会話を
していれば、話者に対して自動的に情報が表示されると
言う面で、画期的なものである。
【0003】
【発明が解決しようとする課題】しかしながら、音声認
識装置が完全に動作した場合は、問題ないが、実際には
音声認識装置にはかなりの誤りが発生し、そのために、
話者同士の対話が不自然になってしまうという欠点があ
った。とくに、話者の一方は本装置を使っていることを
しらず、しかも、一方の話者が他方の話者に比べて優位
に立っており、そのうえ、劣位に立つ話者が音声認識を
使っているような場合、認識装置の誤りを訂正するため
に同じ言葉を再度発声することはほとんど不可能に近い
ことである。本出願人が先に提案した前記情報提供装置
にはこのような欠点があった。
識装置が完全に動作した場合は、問題ないが、実際には
音声認識装置にはかなりの誤りが発生し、そのために、
話者同士の対話が不自然になってしまうという欠点があ
った。とくに、話者の一方は本装置を使っていることを
しらず、しかも、一方の話者が他方の話者に比べて優位
に立っており、そのうえ、劣位に立つ話者が音声認識を
使っているような場合、認識装置の誤りを訂正するため
に同じ言葉を再度発声することはほとんど不可能に近い
ことである。本出願人が先に提案した前記情報提供装置
にはこのような欠点があった。
【0004】このような音声認識の不完全を補うことを
目的として、認識結果の候補をいくつか示し、それぞれ
の候補に番号を付けておいて、利用者がテンキーによっ
て正しい答え(正解)を指示する方法がある(特開平1
−154100号公報)。しかしながら、この方法で
は、候補と、番号を人間が対応づけねばらなず、対話中
にこれを行うことは、対話を妨害するという欠点があっ
た。
目的として、認識結果の候補をいくつか示し、それぞれ
の候補に番号を付けておいて、利用者がテンキーによっ
て正しい答え(正解)を指示する方法がある(特開平1
−154100号公報)。しかしながら、この方法で
は、候補と、番号を人間が対応づけねばらなず、対話中
にこれを行うことは、対話を妨害するという欠点があっ
た。
【0005】また、音声認識結果が誤っていた場合に
は、再度発声し直す方法もあるが(特開平61−248
198号公報)、対話の最中に同じ言葉を2度、3度と
続けて発声することは、相手に対し、不快な感情を起こ
させるという欠点があった。
は、再度発声し直す方法もあるが(特開平61−248
198号公報)、対話の最中に同じ言葉を2度、3度と
続けて発声することは、相手に対し、不快な感情を起こ
させるという欠点があった。
【0006】本発明は、上述のごとき実情に鑑みてなさ
れたもので、対話をしている話者の会話の中から自動的
に情報提供する装置において、その中の音声認識部分の
不確実性を補償し、対話に不自然さをなくした使いやす
い装置にするための方法を提供することを目的としてな
されたものである。
れたもので、対話をしている話者の会話の中から自動的
に情報提供する装置において、その中の音声認識部分の
不確実性を補償し、対話に不自然さをなくした使いやす
い装置にするための方法を提供することを目的としてな
されたものである。
【0007】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)話者が特別な装置の使用を意識せ
ずに会話を行える環境と、その会話の中から1人以上の
信号を取り出し、音声認識装置に印加せしめる手段と、
認識した結果によって、該結果表示する(および/また
は)その結果で特定のものを動作させるような信号を出
力するようにした音声認識装置において、得られた認識
結果の中から意味のある言葉を音声認識の類似性の高い
順(距離の小さい順)、あるいは、その逆順にディスプ
レー上に表示し、表示された中からどれかを音声を発す
ることなく選択できるようにしたこと、或いは、(2)
話者が特別な装置の使用を意識せずに会話を行える環境
と、その会話の中から1人以上の信号を取り出し、音声
認識装置に印加せしめる手段と、認識した結果によっ
て、該結果表示する(および/または)その結果で特定
のものを動作させるような信号を出力するようにした音
声認識装置において、得られた認識結果の中から意味の
ある言葉を文字列に直し、先頭に近い文字が決められた
順、あるいは、その逆順にディスプレー上に表示し、表
示された中からどれかを音声を発することなく選択でき
るようにしたこと、或いは、(3)話者が特別な装置の
使用を意識せずに会話を行える環境と、その会話の中か
ら1人以上の信号を取り出し、音声認識装置に印加せし
める手段と、認識した結果によって、該結果表示する
(および/または)その結果で特定のものを動作させる
ような信号を出力するようにした音声認識装置におい
て、得られた認識結果の中から意味のある言葉に数字が
存在する場合、先頭に近い数字が決められた順になるよ
うに認識結果をディスプレー上に表示し、表示された中
からどれかを音声を発することなく選択できるようにし
たこと、或いは、(4)話者が特別な装置の使用を意識
せずに会話を行える環境と、その会話の中から1人以上
の信号を取り出し、音声認識装置に印加せしめる手段
と、認識した結果によって、該結果表示する(および/
または)その結果で特定のものを動作させるような信号
を出力するようにした音声認識装置において、得られた
認識結果の中の意味のある言葉に文字と数字の両方が存
在する場合、上記順序付けに従って、先頭に近い方を優
先的に順序づけて認識結果をディスプレー上に表示し、
表示された中からどれかを音声を発することなく選択で
きるようにしたこと、或いは、(5)話者が特別な装置
の使用を意識せずに会話を行える環境と、その会話の中
から1人以上の信号を取り出し、音声認識装置に印加せ
しめる手段と、認識した結果によって、該結果表示する
(および/または)その結果で特定のものを動作させる
ような信号を出力するようにした音声認識装置におい
て、得られた認識結果の中から意味のある言葉が数字、
または、英字のみである場合、別に記憶されている情報
から該数字と対になる文字列を見付け、それも認識結果
の情報としてディスプレー上に表示し、表示された中か
らどれかを音声を発することなく選択できるようにした
こと、或いは、前記(1)乃至(5)のいずれかにおい
て、(6)正解候補の中のもっとも類似度が高いもの
に、結果選択のためのカーソルを一致させてディスプレ
ー上に表示し、表示された中からどれかを音声を発する
ことなく選択できるようにしたこと、或いは、(7)話
者が先に発声した言葉と同じ、または、類似した言葉を
続けて発声することが不自然でないような特定の言葉が
認識されたとき、先の認識結果を破棄、または、修正す
るようにしたこと、或いは、(8)スイッチを設け、話
者がスイッチで、装置への音声入力を制御することを特
徴としたものであり、更には、(9)前記(8)におい
て、音声入力制御用のスイッチが決められた時間よりも
短くオン/オフされたとき、それより前の認識結果を破
棄、または、修正するようにしたこと、更には、(1
0)前記(1)乃至(9)のいずれかにおいて、特定の
命令によって、すでに表示し終わった情報を再度表示す
ること、更には、前記(10)において、(11)特定
の命令として、決められた言葉による音声認識結果を利
用すること、或いは、(12)特定の命令として音声入
力スイッチのオン/オフを利用すること、更には、前記
(1)乃至(4)のいずれかにおいて、(13)認識結
果の候補の一部に類似度の高いものを集めてディスプレ
ー上に表示し、表示された中からどれかを音声を発する
ことなく選択できるようにしたこと、或いは、(14)
正解候補の中のもっとも類似度が高いものに、結果選択
のためのカーソルを一致させてディスプレー上に表示
し、表示された中からどれかを音声を発することなく選
択できるようにしたこと、更には、(15)前記(9)
乃至(12)のいずれかにおいて、特定の言葉を認識し
たときになにも動作、演算をしないようにしたことを特
徴としたものである。
決するために、(1)話者が特別な装置の使用を意識せ
ずに会話を行える環境と、その会話の中から1人以上の
信号を取り出し、音声認識装置に印加せしめる手段と、
認識した結果によって、該結果表示する(および/また
は)その結果で特定のものを動作させるような信号を出
力するようにした音声認識装置において、得られた認識
結果の中から意味のある言葉を音声認識の類似性の高い
順(距離の小さい順)、あるいは、その逆順にディスプ
レー上に表示し、表示された中からどれかを音声を発す
ることなく選択できるようにしたこと、或いは、(2)
話者が特別な装置の使用を意識せずに会話を行える環境
と、その会話の中から1人以上の信号を取り出し、音声
認識装置に印加せしめる手段と、認識した結果によっ
て、該結果表示する(および/または)その結果で特定
のものを動作させるような信号を出力するようにした音
声認識装置において、得られた認識結果の中から意味の
ある言葉を文字列に直し、先頭に近い文字が決められた
順、あるいは、その逆順にディスプレー上に表示し、表
示された中からどれかを音声を発することなく選択でき
るようにしたこと、或いは、(3)話者が特別な装置の
使用を意識せずに会話を行える環境と、その会話の中か
ら1人以上の信号を取り出し、音声認識装置に印加せし
める手段と、認識した結果によって、該結果表示する
(および/または)その結果で特定のものを動作させる
ような信号を出力するようにした音声認識装置におい
て、得られた認識結果の中から意味のある言葉に数字が
存在する場合、先頭に近い数字が決められた順になるよ
うに認識結果をディスプレー上に表示し、表示された中
からどれかを音声を発することなく選択できるようにし
たこと、或いは、(4)話者が特別な装置の使用を意識
せずに会話を行える環境と、その会話の中から1人以上
の信号を取り出し、音声認識装置に印加せしめる手段
と、認識した結果によって、該結果表示する(および/
または)その結果で特定のものを動作させるような信号
を出力するようにした音声認識装置において、得られた
認識結果の中の意味のある言葉に文字と数字の両方が存
在する場合、上記順序付けに従って、先頭に近い方を優
先的に順序づけて認識結果をディスプレー上に表示し、
表示された中からどれかを音声を発することなく選択で
きるようにしたこと、或いは、(5)話者が特別な装置
の使用を意識せずに会話を行える環境と、その会話の中
から1人以上の信号を取り出し、音声認識装置に印加せ
しめる手段と、認識した結果によって、該結果表示する
(および/または)その結果で特定のものを動作させる
ような信号を出力するようにした音声認識装置におい
て、得られた認識結果の中から意味のある言葉が数字、
または、英字のみである場合、別に記憶されている情報
から該数字と対になる文字列を見付け、それも認識結果
の情報としてディスプレー上に表示し、表示された中か
らどれかを音声を発することなく選択できるようにした
こと、或いは、前記(1)乃至(5)のいずれかにおい
て、(6)正解候補の中のもっとも類似度が高いもの
に、結果選択のためのカーソルを一致させてディスプレ
ー上に表示し、表示された中からどれかを音声を発する
ことなく選択できるようにしたこと、或いは、(7)話
者が先に発声した言葉と同じ、または、類似した言葉を
続けて発声することが不自然でないような特定の言葉が
認識されたとき、先の認識結果を破棄、または、修正す
るようにしたこと、或いは、(8)スイッチを設け、話
者がスイッチで、装置への音声入力を制御することを特
徴としたものであり、更には、(9)前記(8)におい
て、音声入力制御用のスイッチが決められた時間よりも
短くオン/オフされたとき、それより前の認識結果を破
棄、または、修正するようにしたこと、更には、(1
0)前記(1)乃至(9)のいずれかにおいて、特定の
命令によって、すでに表示し終わった情報を再度表示す
ること、更には、前記(10)において、(11)特定
の命令として、決められた言葉による音声認識結果を利
用すること、或いは、(12)特定の命令として音声入
力スイッチのオン/オフを利用すること、更には、前記
(1)乃至(4)のいずれかにおいて、(13)認識結
果の候補の一部に類似度の高いものを集めてディスプレ
ー上に表示し、表示された中からどれかを音声を発する
ことなく選択できるようにしたこと、或いは、(14)
正解候補の中のもっとも類似度が高いものに、結果選択
のためのカーソルを一致させてディスプレー上に表示
し、表示された中からどれかを音声を発することなく選
択できるようにしたこと、更には、(15)前記(9)
乃至(12)のいずれかにおいて、特定の言葉を認識し
たときになにも動作、演算をしないようにしたことを特
徴としたものである。
【0008】
【作用】音声認識装置によって、得られた認識結果の中
から意味のある言葉を音声認識の類似性の高い順(距離
の小さい順)、あるいは、その逆順にディスプレー上に
表示し、表示された中からどれかを音声を発することな
く選択できるようにした。
から意味のある言葉を音声認識の類似性の高い順(距離
の小さい順)、あるいは、その逆順にディスプレー上に
表示し、表示された中からどれかを音声を発することな
く選択できるようにした。
【0009】
実施例1(請求項1に対応) この実施例は、話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を音声認識の類似性の高い順(距
離の小さい順)、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたものである。
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を音声認識の類似性の高い順(距
離の小さい順)、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたものである。
【0010】図1は、本実施例を説明するための図で、
この例は、電話を通じて話者Bが話者Aに対して情報を
提供するシステムである。両話者A,Bの電話は通常の
公衆電話回線Cで接続されているが、話者Bの電話から
の送話信号が、音声認識装置1に印加されるようになっ
ている。本来、音声認識の前に、信号の中から音声の区
間だけを取り出すような部分を有することも多いが、ワ
ードスポッティングの手法を用いると、区間検出部がな
くても動作させることは可能である。区間検出部が必要
なものは、音声認識部に含まれていると考えることにす
る。音声認識装置1では発せられた音声を電気信号に直
し、その中に必要な単語が必要な順に並んでいるかをワ
ードスポッティングや対話テンプレートを使った方法で
認識する。
この例は、電話を通じて話者Bが話者Aに対して情報を
提供するシステムである。両話者A,Bの電話は通常の
公衆電話回線Cで接続されているが、話者Bの電話から
の送話信号が、音声認識装置1に印加されるようになっ
ている。本来、音声認識の前に、信号の中から音声の区
間だけを取り出すような部分を有することも多いが、ワ
ードスポッティングの手法を用いると、区間検出部がな
くても動作させることは可能である。区間検出部が必要
なものは、音声認識部に含まれていると考えることにす
る。音声認識装置1では発せられた音声を電気信号に直
し、その中に必要な単語が必要な順に並んでいるかをワ
ードスポッティングや対話テンプレートを使った方法で
認識する。
【0011】この認識の仕方は、たとえば、音響学会春
期講演論文集平成5年3月1−4−1や、情報処理学会
('93.10)第47回全国大会 講演論文集(2)
2−369に詳しく述べられている。その結果、得られ
た結果には、名詞や助詞などが含まれる。しかし、助詞
は認識結果として表示する必要が無いので、名詞だけを
取り出して、類似度の順に取り出し、ディスプレイ2に
表示するようにした。音声認識の結果の中から類似度の
高いものを表示することは、例えば、特開平3−173
248号公報にも記されているが、この方法によると、
名詞に限らず認識した結果を表示することになるので非
常に表示が見づらくなってしまうと言う欠点があった。
本実施例ではそれを解消している。
期講演論文集平成5年3月1−4−1や、情報処理学会
('93.10)第47回全国大会 講演論文集(2)
2−369に詳しく述べられている。その結果、得られ
た結果には、名詞や助詞などが含まれる。しかし、助詞
は認識結果として表示する必要が無いので、名詞だけを
取り出して、類似度の順に取り出し、ディスプレイ2に
表示するようにした。音声認識の結果の中から類似度の
高いものを表示することは、例えば、特開平3−173
248号公報にも記されているが、この方法によると、
名詞に限らず認識した結果を表示することになるので非
常に表示が見づらくなってしまうと言う欠点があった。
本実施例ではそれを解消している。
【0012】図1では、話者Aが電話で「PCM録音機
について教えてほしい」と言い、Bが「PCM録音機で
すね」と答えているものとする。音声認識装置1にはこ
の中の話者Bが発声した「PCM録音機ですね」が入力
され、意味があるPCMと言う単語が認識される。その
結果、もっとも確からしい結果を得た言葉は、例えば、
図2に示すように「PC98」で、正解である「PC
M」は第2位に来ている。この場合、ほかに助詞の
「で」が認識されたりしているが、助詞は除いて、図2
に示すように、認識結果として、「PC98」「PC
M」「TQC」「DM」の4単語が表示される。これ
は、4単語に限定されるものではない。むしろ、単語数
よりも、類似度、つまり、結果の確かさにしきい値を設
けておくほうがよいかもしれない。表示するのはプルダ
ウンメニュウのような形が良く、マウス3で選べると良
い。この結果、カーソル4を「PCM」に一致させて、
クリックすることでデータベース3の中からPCMに関
わるデータを画面に表示する。
について教えてほしい」と言い、Bが「PCM録音機で
すね」と答えているものとする。音声認識装置1にはこ
の中の話者Bが発声した「PCM録音機ですね」が入力
され、意味があるPCMと言う単語が認識される。その
結果、もっとも確からしい結果を得た言葉は、例えば、
図2に示すように「PC98」で、正解である「PC
M」は第2位に来ている。この場合、ほかに助詞の
「で」が認識されたりしているが、助詞は除いて、図2
に示すように、認識結果として、「PC98」「PC
M」「TQC」「DM」の4単語が表示される。これ
は、4単語に限定されるものではない。むしろ、単語数
よりも、類似度、つまり、結果の確かさにしきい値を設
けておくほうがよいかもしれない。表示するのはプルダ
ウンメニュウのような形が良く、マウス3で選べると良
い。この結果、カーソル4を「PCM」に一致させて、
クリックすることでデータベース3の中からPCMに関
わるデータを画面に表示する。
【0013】この実施例によると、認識結果の信頼性の
高い順に並べられているので、認識結果を選択するため
のカーソル4をわずかに動かすだけで、正解が選びやす
い。しかしながら、正解は候補の中で必ずしも上位にあ
るとい限らないだけでなく、アルファベットの何文字か
で表された記号など、本実施例では、どれが正解かを読
み取るのに神経を使う。これでは、本来の目的である対
話の自然さはそこなわれてしまう。
高い順に並べられているので、認識結果を選択するため
のカーソル4をわずかに動かすだけで、正解が選びやす
い。しかしながら、正解は候補の中で必ずしも上位にあ
るとい限らないだけでなく、アルファベットの何文字か
で表された記号など、本実施例では、どれが正解かを読
み取るのに神経を使う。これでは、本来の目的である対
話の自然さはそこなわれてしまう。
【0014】実施例2(請求項2に対応) この実施例は、話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を文字列に直し、先頭に近い文字
が決められた順、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたものである。
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を文字列に直し、先頭に近い文字
が決められた順、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたものである。
【0015】図3に、アルファベット順(ABC順)の
例を示す。図1の場合と同様の作用をする部分には図1
の場合と同一の参照番号を付して説明を省略するが、認
識した名詞のアルファベットの単語中の、先頭に近いも
のがABC順に並ぶように配慮したものである。従っ
て、この候補の中から、望む正解を探すことは大して難
しくない。図4は、ABC順に並べた場合の表示例であ
るが、アルファベットだけでなく、漢字を読みの五十音
順に並べることも同じように出来る。このような文字や
記号は良いが、数字の場合は、次の実施例3のようにす
る。
例を示す。図1の場合と同様の作用をする部分には図1
の場合と同一の参照番号を付して説明を省略するが、認
識した名詞のアルファベットの単語中の、先頭に近いも
のがABC順に並ぶように配慮したものである。従っ
て、この候補の中から、望む正解を探すことは大して難
しくない。図4は、ABC順に並べた場合の表示例であ
るが、アルファベットだけでなく、漢字を読みの五十音
順に並べることも同じように出来る。このような文字や
記号は良いが、数字の場合は、次の実施例3のようにす
る。
【0016】実施例3(請求項3に対応) この実施例は、話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉に数字が存在する場合、先頭に近
い数字が決められた順になるように認識結果をディスプ
レー上に表示し、表示された中からどれかを音声を発す
ることなく選択できるようにしたもので、図5にその表
示例を示す。図示の場合、左側の数字が小さい順に並ん
でいるが、このようにすると、先の実施例と同様に選び
やすい。
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉に数字が存在する場合、先頭に近
い数字が決められた順になるように認識結果をディスプ
レー上に表示し、表示された中からどれかを音声を発す
ることなく選択できるようにしたもので、図5にその表
示例を示す。図示の場合、左側の数字が小さい順に並ん
でいるが、このようにすると、先の実施例と同様に選び
やすい。
【0017】実施例4(請求項4に対応) この実施例は、話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中の意味のある言葉に文字と数字の両方が存在する場
合、上記順序付けに従って、先頭に近い方を優先的に順
序づけて認識結果をディスプレー上に表示し、表示され
た中からどれかを音声を発することなく選択できるよう
にしたものである。
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中の意味のある言葉に文字と数字の両方が存在する場
合、上記順序付けに従って、先頭に近い方を優先的に順
序づけて認識結果をディスプレー上に表示し、表示され
た中からどれかを音声を発することなく選択できるよう
にしたものである。
【0018】図6は、その表示例を示すが、アルファベ
ットと数字が組み合わせられている場合、左側に近い方
を優先的に順序付ける。この例では、まず、英字をAB
C順に並べることを優先し、続いて数字を並べる。この
ようにすると、先に発声する音が優先となるため、探し
やすくなる。また、これらの折衷案として、次の実施例
5に示すごとき音声認識装置が考えられる。
ットと数字が組み合わせられている場合、左側に近い方
を優先的に順序付ける。この例では、まず、英字をAB
C順に並べることを優先し、続いて数字を並べる。この
ようにすると、先に発声する音が優先となるため、探し
やすくなる。また、これらの折衷案として、次の実施例
5に示すごとき音声認識装置が考えられる。
【0019】実施例5(請求項5に対応) この実施例は、前記実施例1乃至4に記載の音声認識装
置において、認識結果の候補の一部に類似度の高いもの
を集めてディスプレー上に表示し、表示された中からど
れかを音声を発することなく選択できるようにしたもの
である。図7は、その実施例を示す図で、図示のように
音声認識装置1により音声認識した結果を類似度順に並
べてメモリー1に入れ、その後、五十音順に並べてメモ
リー2に入れ、表示の際は五十音に並べたものの最上段
に類似度の高いものを加えて表示する。
置において、認識結果の候補の一部に類似度の高いもの
を集めてディスプレー上に表示し、表示された中からど
れかを音声を発することなく選択できるようにしたもの
である。図7は、その実施例を示す図で、図示のように
音声認識装置1により音声認識した結果を類似度順に並
べてメモリー1に入れ、その後、五十音順に並べてメモ
リー2に入れ、表示の際は五十音に並べたものの最上段
に類似度の高いものを加えて表示する。
【0020】図8は、ディスプレイ2上の表示を示す図
で、まず、実施例2のようなやり方で、五十音順に並べ
(キーシステム以下)、その最上段に最も類似度の高か
った候補2つ(コピー、コーヒー)を並べた例である。
類似度が高い候補は正解である確率が高いので、多くの
場合はこの2つの中から正解を選ぶことが出来るが、こ
こに正解が存在しない場合にも、実施例2で示したよう
に、正解を選びやすくなる。勿論、これは実施例2だけ
に応用できるものではなく、他の方法にも適用できる。
この場合は、類似度の高い単語は五十音順の中にも含ま
れているが、これを取り除くことも可能である。さら
に、類似度の高いものは2個表示するだけでなく、必要
に応じて1個、3個、4個いずれでもよい。同様のやり
かたとして、次の実施例6に示すようなやり方がある。
で、まず、実施例2のようなやり方で、五十音順に並べ
(キーシステム以下)、その最上段に最も類似度の高か
った候補2つ(コピー、コーヒー)を並べた例である。
類似度が高い候補は正解である確率が高いので、多くの
場合はこの2つの中から正解を選ぶことが出来るが、こ
こに正解が存在しない場合にも、実施例2で示したよう
に、正解を選びやすくなる。勿論、これは実施例2だけ
に応用できるものではなく、他の方法にも適用できる。
この場合は、類似度の高い単語は五十音順の中にも含ま
れているが、これを取り除くことも可能である。さら
に、類似度の高いものは2個表示するだけでなく、必要
に応じて1個、3個、4個いずれでもよい。同様のやり
かたとして、次の実施例6に示すようなやり方がある。
【0021】実施例6(請求項6に対応) この発明は、実施例1乃至4の音声認識装置において、
正解候補の中のもっとも類似度が高いものに、結果選択
のためのカーソルを一致させてディスプレー上に表示
し、表示された中からどれかを音声を発することなく選
択できるようにしたものである。この実施例は、実施例
3の場合(図5参照)と同様、数字の大きな順に並んで
いるが、図9に示すように、類似度のもっとも大きな候
補(コピー)の上にカーソル4が位置している。従っ
て、多くの場合はこのまま選択キーを押せずよいことに
なるし、誤りの場合も、正解は選びやすい。
正解候補の中のもっとも類似度が高いものに、結果選択
のためのカーソルを一致させてディスプレー上に表示
し、表示された中からどれかを音声を発することなく選
択できるようにしたものである。この実施例は、実施例
3の場合(図5参照)と同様、数字の大きな順に並んで
いるが、図9に示すように、類似度のもっとも大きな候
補(コピー)の上にカーソル4が位置している。従っ
て、多くの場合はこのまま選択キーを押せずよいことに
なるし、誤りの場合も、正解は選びやすい。
【0022】構成は、図7と同じで、類似度の最も高い
名詞を1つ選び、それをメモリー1に記憶する。一方、
五十音順に並べたメモリー2の中の名詞の中からメモリ
ー1の中の言葉と同じものを選び、表示の時に明暗を反
転させる。その例が、図9である。勿論、反転させるこ
とに限定するものではなく、カーソル4がその単語に一
致していることが分かるようにすれば良い。類似度が最
大であるから、正解である可能性は最も高く、その時は
なにもせず、リターンキーを押下すればよい。最大類似
度を得た言葉を正解ではないときにはマウスによって正
しいものを選び、クリックする。
名詞を1つ選び、それをメモリー1に記憶する。一方、
五十音順に並べたメモリー2の中の名詞の中からメモリ
ー1の中の言葉と同じものを選び、表示の時に明暗を反
転させる。その例が、図9である。勿論、反転させるこ
とに限定するものではなく、カーソル4がその単語に一
致していることが分かるようにすれば良い。類似度が最
大であるから、正解である可能性は最も高く、その時は
なにもせず、リターンキーを押下すればよい。最大類似
度を得た言葉を正解ではないときにはマウスによって正
しいものを選び、クリックする。
【0023】実施例7(請求項7に対応) この実施例は、話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、それを表示する(そして/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果が
数字、または、英字のみである場合、別に記憶されてい
る情報から該数字と対になる文字列を見付け、それも認
識結果の情報としてディスプレー上に表示し、表示され
た中からどれかを音声を発することなく選択できるよう
にしたものである。
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、それを表示する(そして/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果が
数字、または、英字のみである場合、別に記憶されてい
る情報から該数字と対になる文字列を見付け、それも認
識結果の情報としてディスプレー上に表示し、表示され
た中からどれかを音声を発することなく選択できるよう
にしたものである。
【0024】この実施例は発声された音声の中から、ス
ポッティングによって複数の単語を取り出すとき、全て
の単語が取り出せなかったときのためのものである。F
X250のような英字と数字の連結に意味がある場合を
考える。これは、図10に示すように、数字と英字を関
係付けた、例えば、FX250という言葉が有ると、F
Xと250が対になっていることを示すような関係テー
ブル6をメモリーに持ち、認識結果が、例えば、FXだ
けであったり、250だけであった場合(step1)、こ
のテーブル6の中から組み合わせを見つけ、不足分を補
った上で(step2)、ディスプレー2に表示する。これ
によって、認識ミスで欠落した情報を付け加えて表示す
ることが出来るだけでなく、例えば、話者が「FXなん
とかという機械」と言うような表現をしたときにも結果
を得ることが出来る。このような方法で、利用者が正解
候補から一つを選び出すことができるが、候補の中に正
解が含まれていなかったような場合がある。そのような
ために、次の実施例8が考えられる。
ポッティングによって複数の単語を取り出すとき、全て
の単語が取り出せなかったときのためのものである。F
X250のような英字と数字の連結に意味がある場合を
考える。これは、図10に示すように、数字と英字を関
係付けた、例えば、FX250という言葉が有ると、F
Xと250が対になっていることを示すような関係テー
ブル6をメモリーに持ち、認識結果が、例えば、FXだ
けであったり、250だけであった場合(step1)、こ
のテーブル6の中から組み合わせを見つけ、不足分を補
った上で(step2)、ディスプレー2に表示する。これ
によって、認識ミスで欠落した情報を付け加えて表示す
ることが出来るだけでなく、例えば、話者が「FXなん
とかという機械」と言うような表現をしたときにも結果
を得ることが出来る。このような方法で、利用者が正解
候補から一つを選び出すことができるが、候補の中に正
解が含まれていなかったような場合がある。そのような
ために、次の実施例8が考えられる。
【0025】実施例8(請求項8に対応) この実施例は、実施例1乃至4又は7の音声認識装置に
おいて、表示された認識結果の1つを選び、選ばれた文
字、または、数字の一部を、音声以外の入力手段によっ
て訂正するようにしたものである。すでにこれまでに述
べたような方法で、正解候補を出し、その中に正解が無
かったら、正解に近そうな言葉を選び出し、その文字列
をキーボードから正しく修正して結果とする。同様の発
明に特開昭59−214899号公報があるが、これ
は、音声認識結果の中で、怪しい桁のみを指定して再発
声するものであり、本発明で述べる状況では、再発声す
ることは相手に不快な思いをさせてしまうと言う欠点が
あった。そこで、本実施例においては、図11のような
構成で、表示されたものの中からキーボード7により一
度選び、その綴りをキーボード8により修正した後で、
情報検索部へ転送するようにしている。
おいて、表示された認識結果の1つを選び、選ばれた文
字、または、数字の一部を、音声以外の入力手段によっ
て訂正するようにしたものである。すでにこれまでに述
べたような方法で、正解候補を出し、その中に正解が無
かったら、正解に近そうな言葉を選び出し、その文字列
をキーボードから正しく修正して結果とする。同様の発
明に特開昭59−214899号公報があるが、これ
は、音声認識結果の中で、怪しい桁のみを指定して再発
声するものであり、本発明で述べる状況では、再発声す
ることは相手に不快な思いをさせてしまうと言う欠点が
あった。そこで、本実施例においては、図11のような
構成で、表示されたものの中からキーボード7により一
度選び、その綴りをキーボード8により修正した後で、
情報検索部へ転送するようにしている。
【0026】実施例9(請求項9に対応) この実施例は、実施例1乃至4又は7の音声認識装置に
おいて、話者が先に発声した言葉と同じ、または、類似
した言葉を続けて発声することが不自然でないような特
定の言葉が認識されたとき、先の認識結果を破棄、また
は、修正するというようにしたものである。すでに、従
来技術の中でも述べたように、認識がうまく行かなかっ
たような場合、再度同じ言葉を発声することは、対話が
不自然になってしまうという欠点があった。そこで、こ
こでは、対話を不自然にしないような言葉を発声したと
きに、先の答えを否定するようにした。この対話を不自
然にしないような言葉として、「もう一度申し上げま
す」とか、「繰り返させていただきます」などが良く、
認識装置でこのような言葉が認識されたときには、1つ
前の結果を次に認識する言葉で置き換えるようにする。
おいて、話者が先に発声した言葉と同じ、または、類似
した言葉を続けて発声することが不自然でないような特
定の言葉が認識されたとき、先の認識結果を破棄、また
は、修正するというようにしたものである。すでに、従
来技術の中でも述べたように、認識がうまく行かなかっ
たような場合、再度同じ言葉を発声することは、対話が
不自然になってしまうという欠点があった。そこで、こ
こでは、対話を不自然にしないような言葉を発声したと
きに、先の答えを否定するようにした。この対話を不自
然にしないような言葉として、「もう一度申し上げま
す」とか、「繰り返させていただきます」などが良く、
認識装置でこのような言葉が認識されたときには、1つ
前の結果を次に認識する言葉で置き換えるようにする。
【0027】仮に、音声認識がうまく行かず、全く認識
結果が得られなかったような場合、あるいは、修正出来
ないようなとんでもない文字列を結果とした場合のため
に、再発声をする必要が出ることがある。そのようなと
きに、同じことを2回繰り返すと、相手には不自然さと
共に、不愉快感を与えることになる。そのようなため
に、「もう一度申し上げます」とか、「繰り返させてい
ただきます」と言う言葉をキーワードとしておき、これ
が認識されたら先の認識結果を否定して、再入力のモー
ドになるようにする。
結果が得られなかったような場合、あるいは、修正出来
ないようなとんでもない文字列を結果とした場合のため
に、再発声をする必要が出ることがある。そのようなと
きに、同じことを2回繰り返すと、相手には不自然さと
共に、不愉快感を与えることになる。そのようなため
に、「もう一度申し上げます」とか、「繰り返させてい
ただきます」と言う言葉をキーワードとしておき、これ
が認識されたら先の認識結果を否定して、再入力のモー
ドになるようにする。
【0028】実施例10(請求項10に対応) この実施例は、実施例1乃至4又は7において、スイッ
チを設け、話者がスイッチで、装置への音声入力を制御
するもので、次のような欠点を解消するためのものであ
る。例えば、交換手が本装置を使っている場合を考え、
例えば、「はい、こちらはOA機器のリコーでございま
す」「総務部の本藤でございますね」と発声した場合、
本認識装置は本藤さんに電話をつなげるような動作をす
ると、期待されている。しかしながら、社員の中に大江
さんがいた場合、OA機器の「オーエー」の発声と大江
の「オオエ」の部分で近いために、大江さんが認識結果
として、得られることは十分考えられる。このようなミ
スを防ぐために話者Aの側にスイッチを設け、交換手が
人の名前を復唱するときにスイッチによって音声認識装
置を起動するようにしたものである。
チを設け、話者がスイッチで、装置への音声入力を制御
するもので、次のような欠点を解消するためのものであ
る。例えば、交換手が本装置を使っている場合を考え、
例えば、「はい、こちらはOA機器のリコーでございま
す」「総務部の本藤でございますね」と発声した場合、
本認識装置は本藤さんに電話をつなげるような動作をす
ると、期待されている。しかしながら、社員の中に大江
さんがいた場合、OA機器の「オーエー」の発声と大江
の「オオエ」の部分で近いために、大江さんが認識結果
として、得られることは十分考えられる。このようなミ
スを防ぐために話者Aの側にスイッチを設け、交換手が
人の名前を復唱するときにスイッチによって音声認識装
置を起動するようにしたものである。
【0029】図12は、その一実施例を示す要部構成図
で、認識装置1がスイッチ9によって起動される場合、
このスイッチ9を使うことによって、これまでに述べた
対話の相手に不自然さを与えなようにして、認識結果を
修正することができる。そのためには、次に説明する実
施例11のようにするとよい。
で、認識装置1がスイッチ9によって起動される場合、
このスイッチ9を使うことによって、これまでに述べた
対話の相手に不自然さを与えなようにして、認識結果を
修正することができる。そのためには、次に説明する実
施例11のようにするとよい。
【0030】実施例11(請求項11に対応) この実施例は、実施例10において、音声入力制御用の
スイッチが決められた時間よりも短くオン/オフされた
とき、それより前の認識結果を破棄、または修正するよ
うにしたものである。同様の考え方は、例えば、特開平
3−278297号公報にも記されている。これは認識
結果が認識し、結果を表示した後、次の認識待ちの状態
で、所定の時間以上入力が無かった場合には認識結果が
正しいものとして取り扱われると言うものである。しか
しながら、正しい結果の場合、一定時間待って、その結
果が出力されれば良いが、誤った場合の修正にはこの方
法を用いることが出来ない。本実施例は、そのような背
景に立ってなされており、1つの意味のある音声の長さ
は最低0.5秒程度であるために、スイッチがそれ以下
でオン/オフされたときにはその前の認識結果を、訂
正、あるいは取消をする。
スイッチが決められた時間よりも短くオン/オフされた
とき、それより前の認識結果を破棄、または修正するよ
うにしたものである。同様の考え方は、例えば、特開平
3−278297号公報にも記されている。これは認識
結果が認識し、結果を表示した後、次の認識待ちの状態
で、所定の時間以上入力が無かった場合には認識結果が
正しいものとして取り扱われると言うものである。しか
しながら、正しい結果の場合、一定時間待って、その結
果が出力されれば良いが、誤った場合の修正にはこの方
法を用いることが出来ない。本実施例は、そのような背
景に立ってなされており、1つの意味のある音声の長さ
は最低0.5秒程度であるために、スイッチがそれ以下
でオン/オフされたときにはその前の認識結果を、訂
正、あるいは取消をする。
【0031】図13は、前記実施例11を説明するため
の図で、図示のようにスイッチ9の後に音声区間検出部
10を設けて、ここでは、音声信号の区間よりも、音声
入力のマイクからの電気信号が流れたか途絶えたかによ
り、区間を検出し、その区間長がt(0.5秒程度)よ
り短いかどうかを判断するものである。短いときには先
に認識し、現在表示している言葉の表示を消去し、長い
ときは通常通り音声を認識する。認識した後は、現在表
示している情報の次に必要とされた情報として、前のも
のを消して、現在の情報を表示する。
の図で、図示のようにスイッチ9の後に音声区間検出部
10を設けて、ここでは、音声信号の区間よりも、音声
入力のマイクからの電気信号が流れたか途絶えたかによ
り、区間を検出し、その区間長がt(0.5秒程度)よ
り短いかどうかを判断するものである。短いときには先
に認識し、現在表示している言葉の表示を消去し、長い
ときは通常通り音声を認識する。認識した後は、現在表
示している情報の次に必要とされた情報として、前のも
のを消して、現在の情報を表示する。
【0032】次に、電話で情報を提供するような場合、
連続して掛かってきた電話が同じ情報を要求している場
合がある。そのような場合には、誤認識の可能性のある
認識の動作を再度繰り返し、結果を選択せねばならない
ような手順を踏む必要はなく、次の実施例12のように
すればよい。
連続して掛かってきた電話が同じ情報を要求している場
合がある。そのような場合には、誤認識の可能性のある
認識の動作を再度繰り返し、結果を選択せねばならない
ような手順を踏む必要はなく、次の実施例12のように
すればよい。
【0033】実施例12(請求項12に対応) この実施例は、実施例1乃至7又は7乃至11の音声認
識装置において、特定の命令によって、すでに表示し終
わった情報を再度表示するようにしたものである。例え
ば、「1」、「リターン」と打つことによって、1つ前
の情報をそのまま画面に表示するようにする。図14に
示すように、これまでの方法で音声を認識し、表示した
あと、表示したデータをメモリー1に入れる。この際
に、メモリー3に入っている内容を消去し、メモリー2
の内容をメモリー3に、メモリー1の内容をメモリー2
に移した後、最新のデータをメモリー1に書き込む。認
識の状態、あるいはその状態に入る前に、キーボード1
1から数字が打たれた場合、数字で指定されたメモリー
の内容をディスプレイ画面2に表示し、話者Bがその情
報を使用した後は、音声認識を利用して得られた情報と
同様にメモリーの内容をずらして行き、表示している情
報をメモリー1に書き込む。こうすることにより、同じ
言葉を発声仕直すことなく、情報を表示することが出来
るようになった。
識装置において、特定の命令によって、すでに表示し終
わった情報を再度表示するようにしたものである。例え
ば、「1」、「リターン」と打つことによって、1つ前
の情報をそのまま画面に表示するようにする。図14に
示すように、これまでの方法で音声を認識し、表示した
あと、表示したデータをメモリー1に入れる。この際
に、メモリー3に入っている内容を消去し、メモリー2
の内容をメモリー3に、メモリー1の内容をメモリー2
に移した後、最新のデータをメモリー1に書き込む。認
識の状態、あるいはその状態に入る前に、キーボード1
1から数字が打たれた場合、数字で指定されたメモリー
の内容をディスプレイ画面2に表示し、話者Bがその情
報を使用した後は、音声認識を利用して得られた情報と
同様にメモリーの内容をずらして行き、表示している情
報をメモリー1に書き込む。こうすることにより、同じ
言葉を発声仕直すことなく、情報を表示することが出来
るようになった。
【0034】実施例13(請求項13に対応) この実施例は、実施例12の音声認識装置において、特
定の命令として、対話を不自然にしない決められた言葉
による音声認識結果を利用するようにしたものである。
特定の命令として、「承知致しました」などの言葉が良
く、これを認識したときには先にディスプレーに表示し
た情報を再度表示するようにする。これによって、いく
つかの候補のなかから正解を選ぶことなく、直接情報を
得ることが出来る。勿論、言葉によって2つ前の情報
や、3つ前の情報を表示するような構成も考えられる
が、あまり複雑にすると、使用が難しくなるだけでなく
なるうえ、情報を一時蓄えるためのメモリーも大きくな
ってしまう。さらに、話者BがAと対話中に数字のボタ
ンを押すことは、混乱しやすく、押し間違いをしやす
い。そこで、これが音声が出来れば更に便利になる。そ
のために、音声のコマンドとして、「承知致しました」
のようなものを選んで決めておく。この言葉が認識され
たときには、一つ前の情報をディスプレーに表示するよ
うにする。図14のメモリーの中を一つにし、「承知致
しました」の類の言葉が認識されたとき、その中の情報
を出すようにする。
定の命令として、対話を不自然にしない決められた言葉
による音声認識結果を利用するようにしたものである。
特定の命令として、「承知致しました」などの言葉が良
く、これを認識したときには先にディスプレーに表示し
た情報を再度表示するようにする。これによって、いく
つかの候補のなかから正解を選ぶことなく、直接情報を
得ることが出来る。勿論、言葉によって2つ前の情報
や、3つ前の情報を表示するような構成も考えられる
が、あまり複雑にすると、使用が難しくなるだけでなく
なるうえ、情報を一時蓄えるためのメモリーも大きくな
ってしまう。さらに、話者BがAと対話中に数字のボタ
ンを押すことは、混乱しやすく、押し間違いをしやす
い。そこで、これが音声が出来れば更に便利になる。そ
のために、音声のコマンドとして、「承知致しました」
のようなものを選んで決めておく。この言葉が認識され
たときには、一つ前の情報をディスプレーに表示するよ
うにする。図14のメモリーの中を一つにし、「承知致
しました」の類の言葉が認識されたとき、その中の情報
を出すようにする。
【0035】実施例14(請求項14に対応) この実施例は、実施例12の音声認識装置において、特
定の命令として音声入力スイッチのオン/オフを利用す
るようにしたもので、実施例13との組み合わせでもあ
る。図15に示した実施例ではスイッチ9を短くオン/
オフしたときの動作が書かれているが、短い動作を複数
回連続して認められたときなど別の方法もある。
定の命令として音声入力スイッチのオン/オフを利用す
るようにしたもので、実施例13との組み合わせでもあ
る。図15に示した実施例ではスイッチ9を短くオン/
オフしたときの動作が書かれているが、短い動作を複数
回連続して認められたときなど別の方法もある。
【0036】実施例15(請求項15に対応) この実施例は、実施例11乃至14の音声認識装置にお
いて、特定の言葉を認識したときになにも動作、演算を
しないようにしたものである。実施例13のような装置
において、前の認識結果を訂正するつもりで、スイッチ
をオンしたが、訂正の必要が無いことに気付いた場合、
訂正のコマンドをキャンセルすることが出来ないという
欠点があった。そこで、意味を持たないような相槌に近
い、言葉、例えば、「エエそうですね」の類のものを決
めておいて、これが認識されたら、そのまま認識状態を
終了するだけで、何の動作もしないようにする。
いて、特定の言葉を認識したときになにも動作、演算を
しないようにしたものである。実施例13のような装置
において、前の認識結果を訂正するつもりで、スイッチ
をオンしたが、訂正の必要が無いことに気付いた場合、
訂正のコマンドをキャンセルすることが出来ないという
欠点があった。そこで、意味を持たないような相槌に近
い、言葉、例えば、「エエそうですね」の類のものを決
めておいて、これが認識されたら、そのまま認識状態を
終了するだけで、何の動作もしないようにする。
【0037】
【発明の効果】以上の説明から明らかなように、本発明
によると、対話をしている話者の会話の中から自動的に
情報を提供する装置において、その中の音声認識部分の
不確実性を補償し、対話に不自然さをなくした使いやす
い装置が提供することができる。更に、各請求項におい
ては、下記のごとき効果を得ることができる。 請求項1に対応する効果:認識結果の中から意味のある
言葉を音声認識の類似性の高い順(距離の小さい順)、
あるいは、その逆順にディスプレー上に表示し、表示さ
れた中からどれかを音声を発することなく選択できるよ
うにしたので、つまり、認識結果が信頼性の高い順に並
べられているので、認識結果を選択するためのカーソル
をわずかに動かすだけで、正解が選びやすい。 請求項2に対応する効果:得られた認識結果の中から意
味のある言葉を文字列に直し、先頭に近い文字を決めら
れた順、あるいは、その逆順にディスプレー上に表示し
たので、例えば、文字がアルファベットで構成されてい
る場合、認識した名詞のアルファベットの単語中の、先
頭に近いものがABC順に並ぶように配慮したもので、
この候補の中から、望む正解を探すことは大して難しく
なく、表示された中からどれかを音声を発することなく
選択することができる。 請求項3に対応する効果:認識結果の中の意味のある言
葉に数字が存在する場合、先頭に近い数字が決められた
順になるように認識結果をディスプレー上に表示するよ
うにしたので、表示された中からどれかを音声を発する
ことなく選択することができる。 請求項4に対応する効果:得られた認識結果の中の意味
のある言葉に文字と数字の両方が存在する場合、例え
ば、アルファベットと数字が組み合わせられている場
合、左側に近い方を優先的に順序づけると、例えば、英
字をABC順に並べることを優先し、続いて数字を並べ
ると、先に発声する音が優先となるため、探しやすくな
り、表示された中からどれかを音声を発することなく選
択することができる。 請求項5に対応する効果:認識結果の候補の一部に類似
度の高いものを集めてディスプレー上に表示し、この類
似度の高い候補から正解を選ぶようにしたので、正解の
確率が高いので、表示された中からどれかを音声を発す
ることなく選択することができる。 請求項6に対応する効果:正解候補の中のもっても類似
度が高いものに、結果選択のためのカーソルを一致させ
てディスプレー上に表示するようにしたので、表示され
た中からどれかを音声を発することなく選択することが
できる。 請求項7に対応する効果:得られた認識結果が数字、ま
たは、英字のみである場合、別に記憶されている情報か
ら該数字と対になる文字列を見付け、それも認識結果の
情報としてディスプレー上に表示するようにしたので、
表示された中からどれかを音声を発することなく選択す
ることができる。例えば、認識結果が、例えば、FXだ
けであったり、250だけであった場合、このテーブル
の中から組み合わせを見つけ、不足分を補った上で、デ
ィスプレーに表示することによって、認識ミスで欠落し
た情報(例えばFX、或いは250)を付け加えてFX
250と表示することが出来る。 請求項8に対応する効果:正解候補の中に正解が含まれ
ていなかったような場合に、正解に近そうな言葉を選び
出し、その文字列をキーボードから正しく修正して結果
とすることができる。 請求項9に対応する効果:話者が先に発声した言葉と同
じ、または、類似した言葉を続けて発声することが不自
然でないような特定の言葉、例えば、「もう一度申し上
げます」とか、「繰り返させていただきます」が認識さ
れたとき、先の認識結果を破棄、または修正するように
したので、対話が不自然にならず、相手に不快感を与え
ない。 請求項10に対応する効果:音声認識装置の入力側にス
イッチを設け、話者がこのスイッチで音声認識装置への
音声入力を制御できるようにしたので、例えば、OA機
器の「オーエー」と大江さんの「オオエ」とを間違えな
いようにすることができる。 請求項11に対応する効果:請求項10のスイッチを使
用する場合に、スイッチが決められた時間よりも短くオ
ン/オフされたとき、それより前の認識結果を破棄、ま
たは、修正するようにしたので、対話の相手に不自然さ
を与えることなく、認識結果を修正することができる。 請求項12に対応する効果:特定の命令によって、すで
に表示し終わった情報を再度表示するようにしたので、
同じ言葉を発声し直すことなく、情報を表示することが
出来る。 請求項13に対応する効果:特定の命令として、例え
ば、「承知致しました」などの言葉を利用し、これを認
識したときには先にディスプレーに表示した情報を再度
表示するようにしたので、いくつかの候補のなかから正
解を選ぶことなく、直接情報を得ることが出来る。 請求項14に対応する効果:特定の命令として音声入力
スイッチのオン/オフを利用するようにすることによっ
て、請求項10の場合と同様の効果を得ることができ
る。 請求項15に対応する効果:特定の言葉を認識したとき
になにも動作、演算をしないようにしたので、例えば、
意味を持たないような相槌に近い、言葉、例えば、「エ
エそうですね」の類のものを決めておいて、これが認識
されたら、そのまま認識状態を終了するだけで、何の動
作もしないようにしたので、不自然な対話が生じない。
によると、対話をしている話者の会話の中から自動的に
情報を提供する装置において、その中の音声認識部分の
不確実性を補償し、対話に不自然さをなくした使いやす
い装置が提供することができる。更に、各請求項におい
ては、下記のごとき効果を得ることができる。 請求項1に対応する効果:認識結果の中から意味のある
言葉を音声認識の類似性の高い順(距離の小さい順)、
あるいは、その逆順にディスプレー上に表示し、表示さ
れた中からどれかを音声を発することなく選択できるよ
うにしたので、つまり、認識結果が信頼性の高い順に並
べられているので、認識結果を選択するためのカーソル
をわずかに動かすだけで、正解が選びやすい。 請求項2に対応する効果:得られた認識結果の中から意
味のある言葉を文字列に直し、先頭に近い文字を決めら
れた順、あるいは、その逆順にディスプレー上に表示し
たので、例えば、文字がアルファベットで構成されてい
る場合、認識した名詞のアルファベットの単語中の、先
頭に近いものがABC順に並ぶように配慮したもので、
この候補の中から、望む正解を探すことは大して難しく
なく、表示された中からどれかを音声を発することなく
選択することができる。 請求項3に対応する効果:認識結果の中の意味のある言
葉に数字が存在する場合、先頭に近い数字が決められた
順になるように認識結果をディスプレー上に表示するよ
うにしたので、表示された中からどれかを音声を発する
ことなく選択することができる。 請求項4に対応する効果:得られた認識結果の中の意味
のある言葉に文字と数字の両方が存在する場合、例え
ば、アルファベットと数字が組み合わせられている場
合、左側に近い方を優先的に順序づけると、例えば、英
字をABC順に並べることを優先し、続いて数字を並べ
ると、先に発声する音が優先となるため、探しやすくな
り、表示された中からどれかを音声を発することなく選
択することができる。 請求項5に対応する効果:認識結果の候補の一部に類似
度の高いものを集めてディスプレー上に表示し、この類
似度の高い候補から正解を選ぶようにしたので、正解の
確率が高いので、表示された中からどれかを音声を発す
ることなく選択することができる。 請求項6に対応する効果:正解候補の中のもっても類似
度が高いものに、結果選択のためのカーソルを一致させ
てディスプレー上に表示するようにしたので、表示され
た中からどれかを音声を発することなく選択することが
できる。 請求項7に対応する効果:得られた認識結果が数字、ま
たは、英字のみである場合、別に記憶されている情報か
ら該数字と対になる文字列を見付け、それも認識結果の
情報としてディスプレー上に表示するようにしたので、
表示された中からどれかを音声を発することなく選択す
ることができる。例えば、認識結果が、例えば、FXだ
けであったり、250だけであった場合、このテーブル
の中から組み合わせを見つけ、不足分を補った上で、デ
ィスプレーに表示することによって、認識ミスで欠落し
た情報(例えばFX、或いは250)を付け加えてFX
250と表示することが出来る。 請求項8に対応する効果:正解候補の中に正解が含まれ
ていなかったような場合に、正解に近そうな言葉を選び
出し、その文字列をキーボードから正しく修正して結果
とすることができる。 請求項9に対応する効果:話者が先に発声した言葉と同
じ、または、類似した言葉を続けて発声することが不自
然でないような特定の言葉、例えば、「もう一度申し上
げます」とか、「繰り返させていただきます」が認識さ
れたとき、先の認識結果を破棄、または修正するように
したので、対話が不自然にならず、相手に不快感を与え
ない。 請求項10に対応する効果:音声認識装置の入力側にス
イッチを設け、話者がこのスイッチで音声認識装置への
音声入力を制御できるようにしたので、例えば、OA機
器の「オーエー」と大江さんの「オオエ」とを間違えな
いようにすることができる。 請求項11に対応する効果:請求項10のスイッチを使
用する場合に、スイッチが決められた時間よりも短くオ
ン/オフされたとき、それより前の認識結果を破棄、ま
たは、修正するようにしたので、対話の相手に不自然さ
を与えることなく、認識結果を修正することができる。 請求項12に対応する効果:特定の命令によって、すで
に表示し終わった情報を再度表示するようにしたので、
同じ言葉を発声し直すことなく、情報を表示することが
出来る。 請求項13に対応する効果:特定の命令として、例え
ば、「承知致しました」などの言葉を利用し、これを認
識したときには先にディスプレーに表示した情報を再度
表示するようにしたので、いくつかの候補のなかから正
解を選ぶことなく、直接情報を得ることが出来る。 請求項14に対応する効果:特定の命令として音声入力
スイッチのオン/オフを利用するようにすることによっ
て、請求項10の場合と同様の効果を得ることができ
る。 請求項15に対応する効果:特定の言葉を認識したとき
になにも動作、演算をしないようにしたので、例えば、
意味を持たないような相槌に近い、言葉、例えば、「エ
エそうですね」の類のものを決めておいて、これが認識
されたら、そのまま認識状態を終了するだけで、何の動
作もしないようにしたので、不自然な対話が生じない。
【図1】 本発明の第1の実施例を説明するための要部
回路構成図である。
回路構成図である。
【図2】 本発明の第1の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図3】 本発明の第2の実施例を説明するための要部
回路構成図である。
回路構成図である。
【図4】 本発明の第2の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図5】 本発明の第3の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図6】 本発明の第4の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図7】 本発明の第5の実施例を説明するための要部
回路構成図である。
回路構成図である。
【図8】 本発明の第5の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図9】 本発明の第6の実施例を説明するためのディ
スプレイ上の表示例を示す図である。
スプレイ上の表示例を示す図である。
【図10】 本発明の第7の実施例を説明するためのフ
ロー図である。
ロー図である。
【図11】 本発明の第8,9の実施例を説明するため
の図である。
の図である。
【図12】 本発明の第10の実施例を説明するための
要部構成図である。
要部構成図である。
【図13】 本発明の第11の実施例を説明するための
要部構成図である。
要部構成図である。
【図14】 本発明の第12,13の実施例を説明する
ための要部構成図である。
ための要部構成図である。
【図15】 本発明の第14,15の実施例を説明する
ための要部構成図である。
ための要部構成図である。
1…音声認識装置,2…ディスプレイ,3…マウス,4
…カーソル,5…データベース,6…関係テーブル,
7,8…キーボード,9…スイッチ,10…音声区間検
出器、11…キーボード。
…カーソル,5…データベース,6…関係テーブル,
7,8…キーボード,9…スイッチ,10…音声区間検
出器、11…キーボード。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 571 G (72)発明者 広瀬 雅子 東京都大田区中馬込1丁目3番6号 株式 会社リコー内
Claims (15)
- 【請求項1】 話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を音声認識の類似性の高い順(距
離の小さい順)、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたことを特徴とする音声認識装
置。 - 【請求項2】 話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉を文字列に直し、先頭に近い文字
が決められた順、あるいは、その逆順にディスプレー上
に表示し、表示された中からどれかを音声を発すること
なく選択できるようにしたことを特徴とする音声認識装
置。 - 【請求項3】 話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉に数字が存在する場合、先頭に近
い数字が決められた順になるように認識結果をディスプ
レー上に表示し、表示された中からどれかを音声を発す
ることなく選択できるようにしたことを特徴とする音声
認識装置。 - 【請求項4】 話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中の意味のある言葉に文字と数字の両方が存在する場
合、上記順序付けに従って、先頭に近い方を優先的に順
序づけて認識結果をディスプレー上に表示し、表示され
た中からどれかを音声を発することなく選択できるよう
にしたことを特徴とする音声認識装置。 - 【請求項5】 請求項1乃至4のいずれかにおいて、認
識結果の候補の一部に類似度の高いものを集めてディス
プレー上に表示し、表示された中からどれかを音声を発
することなく選択できるようにしたことを特徴とする音
声認識装置。 - 【請求項6】 請求項1乃至4のいずれかにおいて、正
解候補の中のもっとも類似度が高いものに、結果選択の
ためのカーソルを一致させてディスプレー上に表示し、
表示された中からどれかを音声を発することなく選択で
きるようにしたことを特徴とする音声認識装置。 - 【請求項7】 話者が特別な装置の使用を意識せずに会
話を行える環境と、その会話の中から1人以上の信号を
取り出し、音声認識装置に印加せしめる手段と、認識し
た結果によって、該結果表示する(および/または)そ
の結果で特定のものを動作させるような信号を出力する
ようにした音声認識装置において、得られた認識結果の
中から意味のある言葉が数字、または、英字のみである
場合、別に記憶されている情報から該数字と対になる文
字列を見付け、それも認識結果の情報としてディスプレ
ー上に表示し、表示された中からどれかを音声を発する
ことなく選択できるようにしたことを特徴とする音声認
識装置。 - 【請求項8】 請求項1乃至4又は7のいずれかにおい
て、表示された認識結果の1つを選び、選ばれた文字、
または、数字の一部を、音声以外の入力手段によって訂
正することを特徴とする音声認識装置。 - 【請求項9】 請求項1乃至4又は7のいずれかにおい
て、話者が先に発声した言葉と同じ、または、類似した
言葉を続けて発声することが不自然でないような特定の
言葉が認識されたとき、先の認識結果を破棄、または、
修正するようにしたことを特徴とする音声認識装置。 - 【請求項10】 請求項1乃至4又は7のいずれかにお
いて、スイッチを設け、話者がスイッチで、装置への音
声入力を制御することを特徴とする音声認識装置。 - 【請求項11】 請求項10において、音声入力制御用
のスイッチが決められた時間よりも短くオン/オフされ
たとき、それより前の認識結果を破棄、または、修正す
るようにしたことを特徴とする音声認識装置。 - 【請求項12】 請求項1乃至4又は7乃至11のいず
れかにおいて、特定の命令によって、すでに表示し終わ
った情報を再度表示することを特徴とする音声認識装
置。 - 【請求項13】 請求項12において、特定の命令とし
て、対話を不自然にしない決められた言葉による音声認
識結果を利用することを特徴とする音声認識装置。 - 【請求項14】 請求項12において、特定の命令とし
て音声入力スイッチのオン/オフを利用することを特徴
とする音声認識装置。 - 【請求項15】 請求項11乃至14のいずれかにおい
て、特定の言葉を認識したときになにも動作、演算をし
ないようにしたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6199179A JPH0863185A (ja) | 1994-08-24 | 1994-08-24 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6199179A JPH0863185A (ja) | 1994-08-24 | 1994-08-24 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0863185A true JPH0863185A (ja) | 1996-03-08 |
Family
ID=16403467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6199179A Pending JPH0863185A (ja) | 1994-08-24 | 1994-08-24 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0863185A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195793A (ja) * | 1997-09-17 | 1999-04-09 | Toshiba Corp | 音声入力解釈装置及び音声入力解釈方法 |
JP2000089791A (ja) * | 1998-09-09 | 2000-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識応答方法、その装置及びプログラム記録媒体 |
JP2002091492A (ja) * | 2000-07-13 | 2002-03-27 | National Institute Of Advanced Industrial & Technology | 音声補完方法、装置および記録媒体 |
WO2005076259A1 (ja) * | 2004-02-10 | 2005-08-18 | Nec Corporation | 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム |
JP2006234907A (ja) * | 2005-02-22 | 2006-09-07 | Canon Inc | 音声認識方法 |
-
1994
- 1994-08-24 JP JP6199179A patent/JPH0863185A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195793A (ja) * | 1997-09-17 | 1999-04-09 | Toshiba Corp | 音声入力解釈装置及び音声入力解釈方法 |
JP2000089791A (ja) * | 1998-09-09 | 2000-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識応答方法、その装置及びプログラム記録媒体 |
JP2002091492A (ja) * | 2000-07-13 | 2002-03-27 | National Institute Of Advanced Industrial & Technology | 音声補完方法、装置および記録媒体 |
WO2005076259A1 (ja) * | 2004-02-10 | 2005-08-18 | Nec Corporation | 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム |
JP2006234907A (ja) * | 2005-02-22 | 2006-09-07 | Canon Inc | 音声認識方法 |
JP4574390B2 (ja) * | 2005-02-22 | 2010-11-04 | キヤノン株式会社 | 音声認識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4135307B2 (ja) | 音声通訳サービス方法および音声通訳サーバ | |
US7467085B2 (en) | Method and apparatus for language translation using registered databases | |
US5752230A (en) | Method and apparatus for identifying names with a speech recognition program | |
JP4574390B2 (ja) | 音声認識方法 | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2003202885A (ja) | 情報処理装置及び方法 | |
JP2002116793A (ja) | データ入力システム及びその方法 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP3526101B2 (ja) | 音声認識装置 | |
JPH0863185A (ja) | 音声認識装置 | |
US6845356B1 (en) | Processing dual tone multi-frequency signals for use with a natural language understanding system | |
JP2003029776A (ja) | 音声認識装置 | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
WO2001015140A1 (en) | Speech recognition system for data entry | |
KR100917552B1 (ko) | 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체 | |
Rabiner | Toward vision 2001: Voice and audio processing considerations | |
CN119054015A (zh) | 信息处理装置、信息处理方法和计算机程序 | |
JP4229627B2 (ja) | ディクテーション装置、方法及びプログラム | |
JPH10224520A (ja) | マルチメディア公衆電話システム | |
JPH08329088A (ja) | 音声入力翻訳装置 | |
JP2002189490A (ja) | ピンイン音声入力の方法 | |
JPH07175495A (ja) | 音声認識方式 | |
JPH11275205A (ja) | 自動ダイヤル用音声コマンドシステム | |
US20080256071A1 (en) | Method And System For Selection Of Text For Editing |