[go: up one dir, main page]

JPH1055196A - 音声認識装置および方法、情報記憶媒体 - Google Patents

音声認識装置および方法、情報記憶媒体

Info

Publication number
JPH1055196A
JPH1055196A JP8211078A JP21107896A JPH1055196A JP H1055196 A JPH1055196 A JP H1055196A JP 8211078 A JP8211078 A JP 8211078A JP 21107896 A JP21107896 A JP 21107896A JP H1055196 A JPH1055196 A JP H1055196A
Authority
JP
Japan
Prior art keywords
word
recognition
words
central
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8211078A
Other languages
English (en)
Inventor
Masako Hirose
雅子 広瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8211078A priority Critical patent/JPH1055196A/ja
Publication of JPH1055196A publication Critical patent/JPH1055196A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 一つの連続的な音声から内容的に関連する複
数の語句を良好な精度で高速に認識できるようにする。 【解決手段】 共起関係にある中心語と共起語とを組み
合わせて認識語句辞書22に格納しておき、この認識語
句辞書22に格納されている中心語を連続的な一つの入
力音声から抽出し、この抽出された中心語と共起関係に
ある共起語を認識語句辞書22から読み出して入力音声
から抽出する。中心語の抽出結果に基づいて入力音声に
照合させる共起語を絞り込めるので、一つの入力音声か
ら複数の語句を良好な精度で高速に認識できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を認識する音
声認識装置および方法と、そのプログラム等のソフトウ
ェアが書き込まれた情報記憶媒体に関する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が要望されており、各種の音声認識方法が考
えられている。人間が語句である単語を一つだけ発声す
る場合、これを音声認識装置が認識することは困難では
ないが、人間の自然な会話では音声は連続しており、そ
こには多数の単語が助詞等を介して含まれている。この
ように連続的な音声から必要な単語を認識する手法とし
てはワードスポッティングが考案されており、これは予
め設定された認識候補の単語を連続的な会話音声から抽
出して認識する。
【0003】このようなワードスポッティングを実行す
る音声認識装置は、認識候補の単語毎に読みが格納され
た単語辞書を有しており、連続入力の会話音声と単語辞
書の全部の単語の読みとをマッチングさせ、このマッチ
ングのスコアが基準値を超過した最大の単語を会話音声
から認識する。しかし、単純にワードスポッティングを
実行しても良好な結果は期待できないため、現在では言
語的な制約により認識精度を向上させることが一般的で
ある。
【0004】このような言語的な制約には、文法等の構
文的な性質に基づくものと、格パターン等の意味的な制
約に基づくものとがある。前者は制約として強力である
が、書き言葉と違い規則化しにくい話し言葉には向いて
おらず、その認識制御は文節内程度にしか利用できな
い。後者は語順が自由な日本語の性質、話し言葉に向い
ており、上述したワードスポッティングに利用すると認
識精度を良好に向上させることができる。
【0005】
【発明が解決しようとする課題】上述のようにワードス
ポッティングでは、連続音声から必要な語句のみ認識す
ることができ、特に意味的な制約を利用すると認識精度
を向上させることができる。
【0006】例えば、特開平6-102897号公報に開示され
た音声認識装置の音声認識方法では、格関係を利用して
認識する文節を予測し、絞り込みを行なっている。しか
し、これでは格関係以外の関係に対処することができ
ず、複数の関係を取り扱うこともできない。つまり、連
続音声に含まれる語句の関係は格関係だけではなく、一
つの連続音声に複数の関係が含まれることも一般的であ
る。
【0007】例えば、会話音声が「カップラーメンのカ
レー味を一箱ください」である場合、格関係を利用して
も語句を認識することは困難である。また、会話音声が
「泣く子も黙る」である場合、「泣く・子」「子・黙
る」なる複数の関係が存在している。
【0008】
【課題を解決するための手段】請求項1記載の発明の音
声認識装置は、認識対象の音声の連続的な入力を受け付
ける音声入力手段と、共起関係にある複数の語句が組み
合わされて格納された認識語句辞書と、連続的な入力音
声から共起関係で組み合わされた複数の語句を認識する
語句認識手段とを有する。従って、認識語句辞書には共
起関係にある複数の語句が組み合わされて格納されてい
るので、音声入力手段に連続的に入力された認識対象の
音声から共起関係で組み合わされた複数の語句が語句認
識手段により認識される。つまり、所定の語句を共起関
係で組み合わせて設定しておけば、この共起関係にある
複数の語句は、一つの連続的な入力音声から個々に単独
で認識されず、共起関係の組み合わせに基づいて認識さ
れる。
【0009】請求項2記載の発明では、請求項1記載の
音声認識装置において、語句認識手段は、共起関係で組
み合わされた一対の語句の一方である中心語を認識語句
辞書から読み出して入力音声から抽出してから、この抽
出された中心語と共起関係にある他方の語句である付属
語を前記認識語句辞書から読み出して入力音声から抽出
する。従って、一つの連続的な入力音声から複数の語句
が語句認識手段により認識される場合、この語句の一方
である中心語が最初に入力音声から抽出されてから、こ
の中心語と共起関係にある他方の語句である付属語が次
に入力音声から抽出される。つまり、中心語は従来のワ
ードスポッティングと同様に多数を入力音声に照合させ
ることになるが、付属語は共起関係に基づいて絞り込ま
れてから入力音声に照合させることになる。
【0010】請求項3記載の発明では、請求項2記載の
音声認識装置において、語句認識手段は、入力音声の中
心語を抽出した区間を排除した区間から付属語を抽出す
る。従って、一つの連続的な入力音声から共起関係にあ
る中心語と付属語とが語句認識手段により認識される場
合、最初に入力音声の全域から中心語が抽出され、この
中心語が抽出された区間以外の区間から付属語が抽出さ
れる。つまり、中心語は従来のワードスポッティングと
同様に多数を入力音声に照合させることになるが、付属
語は共起関係に基づいて絞り込まれてから中心語と重複
しない音声区間に照合させることになる。
【0011】請求項4記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と付属語との組み合わせに順番の情報も付与されてお
り、語句認識手段は、中心語と付属語とを順番に対応し
て入力音声から認識する。従って、中心語と付属語とが
連続音声に発生する順番の情報も認識語句辞書に格納さ
れており、中心語と付属語とは入力音声に所定の順番で
発生すると語句認識手段により認識されるので、中心語
と付属語とが入力音声から個別に認識されるような場合
でも順番が適正でないと認識されない。
【0012】請求項5記載の発明では、請求項4記載の
音声認識装置において、認識語句辞書は、中心語と付属
語との組み合わせに中間に位置する介在語も格納されて
おり、語句認識手段は、中心語と介在語と付属語とを入
力音声から認識する。従って、中心語と付属語との組み
合わせに中間に位置する介在語も認識語句辞書に格納さ
れており、中心語と介在語と付属語とが入力音声から語
句認識手段により認識されるので、ある中心語と介在語
との付属語との読みが、他の中心語と付属語との組み合
わせの読みと同一の場合でも、これらが各々別個に認識
される。
【0013】請求項6記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と付属語との組み合わせに時間間隔の情報も付与され
ており、語句認識手段は、中心語と付属語とを時間間隔
に対応して入力音声から認識する。従って、中心語と付
属語とが連続的な入力音声に発生する時間間隔の情報も
認識語句辞書に格納されており、中心語と付属語とが入
力音声から時間間隔に対応して語句認識手段により認識
されるので、中心語と付属語とは入力音声に適正な時間
間隔で発生した場合のみ認識され、中心語と付属語とが
入力音声から個別に認識されるような場合でも時間間隔
が適正でないと認識されない。
【0014】請求項7記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と付属語との組み合わせが複数段階の階層構造として
格納されており、語句認識手段は、一つの中心語と複数
の付属語とを階層構造に対応して入力音声から段階的に
認識する。従って、中心語と付属語との組み合わせが複
数段階の階層構造として認識語句辞書に格納されてお
り、一つの中心語と複数の付属語とが入力音声から階層
構造に対応して語句認識手段により段階的に認識され
る。つまり、ある入力音声から一つの中心語と一つの付
属語とが認識されると、この付属語を中心語とする他の
付属語も入力音声から検索され、このような処理動作が
順次繰り返されるので、複数段階の共起関係にある一つ
の中心語と複数の付属語とが順次認識される。
【0015】請求項8記載の発明では、請求項7記載の
音声認識装置において、認識語句辞書は、一つの中心語
と複数の付属語との組み合わせに順番の情報も付与され
ており、語句認識手段は、一つの中心語と複数の付属語
とを順番に対応して入力音声から認識する。従って、一
つの中心語と複数の付属語との組み合わせの順番の情報
も認識語句辞書に格納されており、一つの中心語と複数
の付属語とが入力音声から順番に対応して語句認識手段
により認識されるので、一つの中心語と複数の付属語と
が入力音声から個別に認識されるような場合でも各々の
順番が適正でないと認識されない。
【0016】請求項9記載の発明では、請求項7または
8記載の音声認識装置において、認識語句辞書は、一つ
の中心語と複数の付属語との組み合わせに階層構造の深
度の情報も付与されており、語句認識手段は、一つの中
心語と複数の付属語とを深度に対応して入力音声から認
識する。従って、一つの中心語と複数の付属語との組み
合わせの階層構造の深度の情報も認識語句辞書に格納さ
れており、一つの中心語と複数の付属語とが入力音声か
ら深度に対応して語句認識手段により認識されるので、
一つの中心語を規定とした複数の付属語の段階的な認識
が所定の深度まで実行される。
【0017】請求項10記載の音声認識方法は、共起関
係にある複数の語句を組み合わせて設定しておき、認識
対象の音声の連続的な入力を受け付け、この連続的な入
力音声から共起関係で組み合わされた複数の語句を認識
するようにした。従って、所定の語句を共起関係で組み
合わせて設定しておけば、この共起関係にある複数の語
句は、一つの連続的な入力音声から個々に単独で認識さ
れず、共起関係の組み合わせに基づいて認識される。
【0018】請求項11記載の音声認識方法は、共起関
係にある中心語と付属語とを組み合わせて設定してお
き、認識対象の音声の連続的な入力を受け付け、この連
続的な入力音声から用意された中心語を抽出し、この中
心語と共起関係にある付属語を入力音声から抽出するよ
うにした。従って、一つの連続的な入力音声から共起関
係の中心語と付属語とが認識される場合、最初に入力音
声から中心語が抽出されてから、この中心語と共起関係
にある付属語が次に入力音声から抽出される。つまり、
中心語は従来のワードスポッティングと同様に多数を入
力音声に照合させることになるが、付属語は共起関係に
基づいて絞り込まれてから入力音声に照合させることに
なる。
【0019】請求項12記載の情報記憶媒体は、コンピ
ュータが読取自在なソフトウェアが予め書き込まれた情
報記憶媒体において、共起関係にある複数の語句が組み
合わされて格納される認識語句辞書のソフトウェアと、
連続的な入力音声から共起関係で組み合わされた複数の
語句を認識するためのプログラムと、が書き込まれてい
る。従って、この情報記憶媒体のソフトウェアをコンピ
ュータに読み取らせて動作させれば、このコンピュータ
は、認識語句辞書に格納されている語句を連続的な入力
音声から認識する音声認識装置として機能する。このと
き、認識語句辞書には共起関係にある複数の語句が組み
合わされて格納されているので、連続的な入力音声から
共起関係で組み合わされた複数の語句が認識される。つ
まり、所定の語句を共起関係で組み合わせて設定してお
けば、この共起関係にある複数の語句は、一つの連続的
な入力音声から個々に単独で認識されず、共起関係の組
み合わせに基づいて認識される。
【0020】請求項13記載の情報記憶媒体は、コンピ
ュータが読取自在なソフトウェアが予め書き込まれた情
報記憶媒体において、共起関係にある中心語と付属語と
が組み合わされて格納される認識語句辞書のソフトウェ
アと、中心語を前記認識語句辞書から読み出して連続的
な入力音声から抽出するためのプログラムと、この抽出
された中心語と共起関係にある付属語を前記認識語句辞
書から読み出して入力音声から抽出するためのプログラ
ムと、が書き込まれている。従って、この情報記憶媒体
のソフトウェアをコンピュータに読み取らせて動作させ
れば、このコンピュータは、認識語句辞書に格納されて
いる語句を連続的な入力音声から認識する音声認識装置
として機能する。このとき、一つの連続的な入力音声か
ら複数の語句が語句認識手段により認識される場合、こ
の語句の一方である中心語が最初に入力音声から抽出さ
れてから、この中心語と共起関係にある他方の語句であ
る付属語が次に入力音声から抽出される。つまり、中心
語は従来のワードスポッティングと同様に多数を入力音
声に照合させることになるが、付属語は共起関係に基づ
いて絞り込まれてから入力音声に照合させることにな
る。
【0021】
【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、本実施の形態の音声認識
装置1は、図2および図3に示すように、そのハードウ
ェアとしてデータ処理装置であるコンピュータシステム
を有している。このコンピュータシステムからなる音声
認識装置1は、コンピュータの主体としてCPU(Centr
al Processing Unit)2を有しており、このCPU2に
は、バスライン3により、ROM(Read Only Memory)
4、RAM(Random Access Memory)5、HD(Hard Disk
…図示せず)を内蔵したHDD(HD Drive)6、FD(Flo
ppy Disk)7が装填されるFDD(FD Drive)8、CD(C
ompact Disk)−ROM9が装填されるCD−ROMドラ
イブ10、マウス11が接続されたキーボード12、デ
ィスプレイ13、入力デバイスであるマイクロフォン1
4、通信I/F(Interface)15、等が接続されてい
る。
【0022】この音声認識装置1は、前記CPU2に各
種の処理動作を実行させるプログラムが予め設定されて
おり、このプログラム等のソフトウェアは、例えば、情
報記憶媒体である前記FD7や前記CD−ROM9に予
め書き込まれている。そして、このソフトウェアが情報
記憶媒体である前記HDD6にインストールされてお
り、これが起動時に情報記憶媒体である前記RAM5に
複写されて前記CPU2に読み取られる。
【0023】このようにソフトウェアを前記CPU2が
読み取って各種の処理動作を実行することにより、各種
機能が各種手段として実現されている。このような各種
手段として、本実施の形態の音声認識装置1は、図1に
示すように、音声入力手段21、認識語句辞書22、語
句認識手段23、結果出力手段24、等を備えている。
前記認識語句辞書22は、単語辞書25、共起辞書2
6、語順辞書27、からなり、前記語句認識手段23
は、特徴抽出手段28、候補認識手段29、候補読出手
段30、語句探索手段31、結果確定手段32、等から
なる。
【0024】このような音声認識装置1の各種手段は、
必要により前記ディスプレイ13や前記マイクロフォン
14等のハードウェアも利用して実現されるが、その主
体は前記RAM5等に書き込まれたソフトウェアに対応
して前記CPU2が動作することにより実現されてい
る。このため、前記RAM5には、図4に示すように、
前記認識語句辞書22のソフトウェアである辞書記憶部
41と、連続的な入力音声から共起関係で組み合わされ
た複数の語句を認識するための制御プログラム42と、
が書き込まれている。
【0025】より詳細には、前記辞書記憶部41は、単
語辞書記憶部43、共起辞書記憶部44、語順辞書記憶
部45からなり、これらの記憶部43〜45に前記辞書
25〜27の各種情報が格納されている。前記制御プロ
グラム42は、モジュール構造で形成されており、特徴
抽出モジュール46、単語照合モジュール47、認識制
御モジュール48等を有している。
【0026】前記特徴抽出モジュール46は、連続的な
入力音声のデジタル信号をフレーム毎に分析して特徴量
を抽出するためのプログラムからなり、前記単語照合モ
ジュール47は、入力音声の特徴量に認識候補の単語の
読みである特徴量を照合させて累積類似度をスコアとし
て算出するためのプログラムからなる。前記認識制御モ
ジュール48は、前記辞書25〜27から各種情報を読
み出して前記単語照合モジュール47に伝送し、この単
語照合モジュール47が出力するスコアに基づいて認識
結果の単語を確定するためのプログラムからなる。
【0027】前記認識語句辞書22は、上述のように前
記RAM5の辞書記憶部41にデータファイルとして格
納されており、図5に示すように、その一部である前記
単語辞書25には、語句である複数の単語毎に意味と読
みとが登録されている。前記共起辞書26には、共起関
係にある複数の語句が、ここでは一つの中心語と複数の
付属語との組み合わせで格納されている。前記語順辞書
27には、中心語と付属語の意味の情報とが順番に設定
されているので、中心語と付属語との順番の情報が格納
されている。
【0028】なお、ここでは説明を簡略化するために前
記辞書25〜27の各種情報を日本語の文字として表現
しているが、実際のソフトウェアでは単語等は識別コー
ドからなり、読みは単語の音声の特徴量として設定され
ている。この読みの音声の特徴量は、例えば、音素単位
の状態遷移モデルと単語単位の音素ネットワークとして
設定されており、各状態には平均特徴量と継続時間長と
の情報が設定されている。
【0029】前記音声入力手段21は、前記マイクロフ
ォン14等により音声の連続的な入力を受け付け、この
入力音声をデジタルの電気信号にA/D(Analog/Digi
tal)変換する。前記語句認識手段23は、前記CPU2
が前記RAM5に格納された前記制御プログラム42を
読み取って対応する処理動作を実行することにより、連
続的な入力音声のデジタル信号から共起関係にある中心
語と付属語とを認識する。
【0030】より詳細には、前記語句認識手段23の特
徴抽出手段28は、前記CPU2が前記制御プログラム
42の前記特徴抽出モジュール46を読み取って対応す
る演算処理を実行することにより、連続的な入力音声の
デジタル信号を単位時間であるフレーム毎に分析し、例
えば、LPC(Linear Predictive Coding)メルケプスト
ラムの算出により特徴量を抽出する。
【0031】前記候補認識手段29は、前記認識制御モ
ジュール48に対応した前記CPU2の演算処理によ
り、前記認識語句辞書22の共起辞書26から全部の中
心語を読み出してから、その各々の読みを前記単語辞書
25から読み出す。さらに、前記単語照合モジュール4
7に対応した前記CPU2の演算処理により、全部の中
心語の読みを連続的な入力音声の特徴量に照合させ、そ
の各々の類似度をフレーム単位で算出して順次累積し、
この累積類似度であるスコアが最大で基準値を超過した
一つの中心語を認識候補として抽出する。
【0032】前記候補読出手段30は、前記認識制御モ
ジュール48に対応した前記CPU2の演算処理によ
り、認識候補の中心語と共起関係にある全部の付属語を
認識候補として前記認識語句辞書22の共起辞書26か
ら検出し、前記語句探索手段31は、前記単語照合モジ
ュール47に対応した前記CPU2の演算処理により、
認識候補の全部の付属語を入力音声に照合させる。
【0033】この処理動作も中心語の場合と同様に、認
識候補の付属語の読みが前記認識語句辞書22の単語辞
書25から読み出され、これと入力音声との照合のスコ
アが最大で基準値を超過した一つの付属語が抽出され
る。ただし、このように付属語の読みを入力音声の特徴
量に照合させる際、前記認識制御モジュール48に対応
した前記CPU2の演算処理により、前記認識語句辞書
22の語順辞書27から中心語と付属語との順番の情報
が読み出され、その順番に対応して入力音声の中心語が
抽出された区間以外の区間のみに付属語の読みが照合さ
れる。
【0034】前記結果確定手段32は、上述のように認
識候補の付属語が入力音声から探索されると、前記認識
制御モジュール48に対応した前記CPU2の演算処理
により、認識候補の中心語と付属語とを認識結果として
確定する。前記結果出力手段24は、上述のように確定
された認識結果の中心語と付属語とを、例えば、前記デ
ィスプレイ13の文字表示により出力する。
【0035】このような構成において、本実施の形態の
音声認識装置1は、多数の単語が連続する会話の音声が
マイクロフォン14に入力されると、この連続的な入力
音声から認識語句辞書22に格納されている単語を認識
し、この認識結果をディスプレイ13に表示出力する。
このような音声認識装置1の音声認識方法を、図6を参
照して以下に順次詳述する。
【0036】まず、マイクロフォン14に連続的に入力
された音声は、その全域がデジタル信号にA/D変換さ
れ、フレーム毎に特徴量が抽出される。つぎに、認識語
句辞書22から全部の中心語の読みが読み出され、この
全部の読みが一つの入力音声の全域の特徴量と照合され
る。このように全部の中心語に対して照合の累積類似度
がスコアとして算出されると、基準値を超過したスコア
が最大の中心語が認識候補として一つだけ選出される。
【0037】このように認識候補の中心語が選出される
と、これと共起関係にある全部の付属語が認識候補とし
て認識語句辞書22から読み出され、上述した中心語の
場合と同様に、全部の付属語の読みと入力音声とが照合
されて基準値を超過したスコアが最大の一つの付属語が
選出される。このとき、認識語句辞書22の語順辞書2
7から中心語と付属語との順番の情報が読み出され、そ
の順番に対応して入力音声の中心語が抽出された区間以
外の区間のみに付属語の読みが照合される。
【0038】このように一つの連続的な入力音声から共
起関係にある中心語と付属語とが抽出されると、これが
認識結果として確定されてディスプレイ13の文字表示
により出力される。なお、最初に全部の中心語の照合の
スコアが基準値を超過しない場合には認識結果は無しと
され、中心語の認識候補が検出された状態で付属語が認
識語句辞書22に格納されていない場合や、全部の付属
語の照合のスコアが基準値を超過しない場合には、認識
結果は中心語のみとされる。
【0039】上述した一連の処理動作を図5を参考に具
体的に説明すると、一つの連続的な入力音声が「ご注文
はカップラーメンのカレー味ですね」の場合、これに対
して中心語である“カップラーメン,手焼き煎餅”が照
合され、スコアが高い“カップラーメン”が中心語の認
識候補として抽出される。この中心語“カップラーメ
ン”に共起する付属語として“カレー味,しょう油味”
が認識語句辞書22から検出され、この認識語句辞書2
2には中心語である“カップラーメン”より後方に意味
が“味”である付属語が位置することが規定されている
ので、連続的な入力音声から“カップラーメン”より以
後の区間「のカレー味ですね」が切り出される。この音
声区間のみに対して付属語である“カレー味,しょう油
味”が照合されるので、付属語である“カレー味”が認
識される。
【0040】本実施の形態の音声認識装置1の音声認識
方法では、上述のように一つの連続的な入力音声から共
起関係で組み合わされた中心語と付属語とが認識される
ので、これらの単語を個々に認識する場合より精度が良
好である。特に、中心語は多数を入力音声に照合させる
必要があるが、付属語は認識候補の中心語と共起関係に
あるもののみ入力音声に照合させれば良いので、この処
理負担が軽減されて処理速度が向上している。
【0041】しかも、付属語は入力音声から中心語の区
間を排除した区間のみに照合させれば良く、この付属語
を照合させる区間も中心語との順番に基づいて一方に制
限されるので、さらに処理負担が軽減されて処理速度が
向上している。さらに、中心語に対する付属語の順番の
情報は、付属語の種類の情報により設定されており、複
数の付属語を個々に設定していないので、語順辞書27
の記憶容量も軽減されている。
【0042】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、本実施の形
態では、最初に入力音声から照合のスコアが最大の中心
語を一つの認識候補として選出し、これと共起関係にあ
る付属語を入力音声に照合させてスコアが最大の一つを
選出することを例示したが、最初にスコアが基準値を超
過した複数の中心語を認識候補として抽出し、これらの
中心語と共起関係にある全部の付属語を入力音声に照合
させて各々のスコアを算出し、中心語と付属語とのスコ
アの合計が最大の組み合わせを認識結果とするようなこ
とも可能である。
【0043】また、本実施の形態では、共起関係にある
複数の語句を中心語と付属語とに分類しておき、最初に
中心語を入力音声から抽出してから、この結果に基づい
て付属語を入力音声から抽出することを例示した。しか
し、このように共起関係にある複数の語句を中心語や付
属語として分類せず、全部の語句を同時に入力音声に照
合させ、合計のスコアが最大となる共起関係の組み合わ
せの語句を認識結果とするようなことも可能である。
【0044】さらに、本実施の形態では、認識語句辞書
22に各種辞書25〜27を用途別に個別に形成するこ
とにより、そのメンテナンスや情報登録を容易とするこ
とを想定したが、このような辞書25〜27を一つに組
み合わせた形態として認識語句辞書22を形成すること
も可能である。
【0045】また、本実施の形態では、音声認識装置1
をコンピュータシステムによる実験装置として想定し、
入力音声から認識した単語をディスプレイ13に表示す
ることを例示した。しかし、上述のような音声認識装置
1の各部をASIC(Application Specific Integrated
Circuit)として製作し、これを各種製品に組み込んで
音声制御に利用することも可能である。
【0046】さらに、本実施の形態では、RAM5等に
ソフトウェアとして格納されている制御プログラムに従
ってCPU2が動作することにより、音声認識装置1の
各部が実現されることを例示した。しかし、このような
各部の各々を固有のハードウェアとして製作することも
可能であり、一部をソフトウェアとしてRAM5等に格
納するとともに一部をハードウェアとして製作すること
も可能である。また、所定のソフトウェアが格納された
RAM5等や各部のハードウェアを、例えば、ファーム
ウェアとして製作することも可能である。
【0047】また、本実施の形態では、音声認識装置1
の起動時に、HDD6に格納されているソフトウェアが
RAM5に複写され、このようにRAM5に格納された
ソフトウェアをCPU2が読み取ることを想定したが、
このようなソフトウェアをHDD6に格納したままCP
U2に利用させることや、RAM5に予め書き込んでお
くことも可能である。
【0048】さらに、前述のように単体で取り扱える情
報記憶媒体であるFD7やCD−ROM9にソフトウェ
アを書き込んでおき、このFD7等からRAM5等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくFD7等に書
き込まれたソフトウェアをCPU2が適宜読み取ってデ
ータ処理を実行することも可能である。
【0049】また、このような音声認識装置1の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置1に、CD
−ROM9等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置1の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。
【0050】特に、本発明の音声認識装置1を、認識す
る単語が特定された業務用の装置等として製作する場合
は、その製造工程で認識語句辞書22の内容も固定的に
書き込めば良い。しかし、上述のように音声認識装置1
のアプリケーションソフトを一般ユーザに販売するよう
な場合には、認識語句辞書22の内容をユーザが自由に
登録できることが好ましい。
【0051】このような製品としてCD−ROM9等の
情報記憶媒体を製造する場合には、前述した制御プログ
ラム42の他、認識語句辞書22をRAM5等に所定の
フォーマットで形成するためのプログラムと、認識語句
辞書22に各種情報を登録させるためのプログラムと
を、情報記憶媒体に書き込んでおくことになる。この場
合、これらのプログラムが情報記憶媒体における認識語
句辞書22のソフトウェアとなり、各種情報の設定澄み
の認識語句辞書22のソフトウェアは情報記憶媒体には
書き込まない。
【0052】同様に、完成した製品として音声認識装置
1を製造する場合も、単語を認識する各種手段21,2
3,24等の部分は固定的に製作しておき、その認識語
句辞書22の設定内容を空白としてユーザに登録させる
ことも可能である。さらに、このような音声認識装置1
に交換自在に装着するオプション部品として、業務毎に
適正な単語を登録した認識語句辞書22を情報記憶媒体
として製作するようなことも可能である。
【0053】なお、上述のように情報記憶媒体に書き込
んだソフトウェアをコンピュータに供給する手法は、そ
の情報記憶媒体をコンピュータに直接に装填することに
限定されない。例えば、上述のようなソフトウェアをホ
ストコンピュータの情報記憶媒体に書き込み、このホス
トコンピュータを通信ネットワークにより端末コンピュ
ータに接続し、ホストコンピュータからデータ通信によ
り端末コンピュータにソフトウェアを供給することも可
能である。
【0054】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置1
に相当することになる。
【0055】また、本実施の形態では、単語辞書25に
単語の意味を格納しておき、語順辞書27には付属語を
意味の情報として格納しておくことを例示したが、図7
に示すように、中心語に対する付属語の共起関係の種類
の情報を共起辞書26と語順辞書27とに格納しておく
ことも可能である。この場合、一つの中心語に複数の共
起関係で複数の付属語が対応しても、中心語に対する複
数の付属語の位置を共起関係の種類の情報で設定できる
ので、複数種類の共起関係の付属語を良好な精度で容易
に認識することができる。
【0056】例えば、「ご注文はカレー味のカップラー
メンですね」なる入力音声から“カップラーメン”が中
心語の認識候補として抽出された場合、この中心語“カ
ップラーメン”に共起する付属語としては“カレー味,
ミニ”が認識語句辞書22から検出される。しかし、こ
こでは種類が“味”の付属語は中心語より前方に位置す
ることが規定されており、種類が“サイズ”の付属語は
中心語より後方に位置することが規定されているので、
連続的な入力音声から「ご注文はカレー味の」の区間が
切り出されて“カレー味”の付属語が照合され、「です
ね」の音声区間が切り出されて“ミニ”の付属語が照合
される。
【0057】また、図8に示すように、認識語句辞書2
2の共起辞書26に、中心語と付属語との組み合わせに
中間に位置する介在語も格納しておき、語句認識手段2
3が、中心語と介在語と付属語とを入力音声から認識す
ることも可能である。この場合、中心語と介在語と付属
語とが一つの入力音声から認識されるので、ある中心語
と介在語との付属語との読みが、他の中心語と付属語と
の組み合わせの読みと同一の場合でも、これらを各々別
個に認識することができる。
【0058】例えば、入力音声が「ご注文は手焼き煎餅
の緑茶風味ですね」の場合、中心語である“手焼き煎
餅”に対して付属語である“のり,緑茶風味”の両方が
「の緑茶風味」の音声区間から同等のスコアで認識され
ることになる。しかし、上述のように介在語として
“の”が規定されていれば、付属語として“緑茶風味”
のみを認識することができる。
【0059】また、図9に示すように、認識語句辞書2
2の共起辞書26に、中心語と付属語との組み合わせと
ともに時間間隔の情報も格納しておき、語句認識手段2
3が、中心語と付属語とを時間間隔に対応して入力音声
から認識することも可能である。この場合、付属語を照
合させる入力音声の区間を時間間隔に対応して制限でき
るので、より高速に付属語を認識することができ、中心
語から極度に離反した付属語は認識されないので、不適
な付属語の認識を防止することもできる。
【0060】例えば、「ご注文はカップラーメンのカレ
ー味を二箱ですね」なる入力音声から“カップラーメ
ン”が中心語の認識候補として抽出された場合、その音
声区間から20フレーム以内の音声区間のみに意味が
“味”の付属語が照合されて“カレー味”が認識され、
100フレーム以内の音声区間のみ意味が“数量”の付属
語が照合されて“二箱”が認識される。
【0061】また、図10に示すように、認識語句辞書
22の共起辞書26に、中心語と付属語との組み合わせ
を複数段階の階層構造として格納しておき、語句認識手
段23が、一つの中心語と複数の付属語とを階層構造に
対応して入力音声から段階的に認識することも可能であ
る。この場合、ある入力音声から一つの中心語と一つの
付属語とが認識されると、この付属語を中心語とする他
の付属語も入力音声から検索され、このような処理動作
が順次繰り返されるので、複数段階の共起関係にある一
つの中心語と複数の付属語とを順次認識することができ
る。
【0062】例えば、入力音声が「350の缶のビール
を下さい」の場合、最初に中心語として“ビール”が抽
出されて対応する付属語としては“缶”が抽出される。
次に、この“缶”を中心語として“350”なる付属語
が抽出されるので、一つの入力音声から最終的に三つの
単語が認識されることになる。
【0063】さらに、上述のように中心語と付属語との
組み合わせを複数段階の階層構造とした場合に、図11
に示すように、認識語句辞書22に、一つの中心語と複
数の付属語との組み合わせの順番の情報も格納してお
き、語句認識手段23が、一つの中心語と複数の付属語
とを順番に対応して入力音声から認識することも可能で
ある。この場合、一つの中心語と複数の付属語とが入力
音声から順番に対応して認識されるので、複数の付属語
を良好な精度で高速に認識することができる。
【0064】例えば、入力音声が「350の缶のビール
を下さい」の場合、最初に中心語として“ビール”が抽
出され、これより前方の音声区間である「350の缶
の」から意味が“形態”の付属語である“缶”が抽出さ
れ、これより前方の音声区間である「350の」から意
味が“サイズ”の付属語である“350”が抽出され
る。
【0065】さらに、上述のように中心語と付属語との
組み合わせを複数段階の階層構造とした場合に、図12
に示すように、認識語句辞書22に、一つの中心語と複
数の付属語との組み合わせの階層構造の深度の情報も格
納しておき、語句認識手段23が、一つの中心語と複数
の付属語とを深度に対応して入力音声から認識すること
も可能である。この場合、一つの中心語から複数の付属
語を段階的に探索する処理動作が所定の深度まで実行さ
れるので、複数の付属語を必要な段階まで高速に認識す
ることができる。
【0066】例えば、必要な階層構造が“2”として設
定されており、入力音声が「350の缶のビールを下さ
い」の場合、最初に中心語として“ビール”が抽出され
てから第一の付属語として“缶”が抽出された時点で、
階層構造の深度は“1”となる。そこで、この“缶”を
中心語として第二の付属語として“350”が抽出され
ると、階層構造の深度は“2”となるので、この時点で
段階的な音声認識の処理動作を終了する。
【0067】
【発明の効果】請求項1記載の発明の音声認識装置は、
認識対象の音声の連続的な入力を受け付ける音声入力手
段と、共起関係にある複数の語句が組み合わされて格納
された認識語句辞書と、連続的な入力音声から共起関係
で組み合わされた複数の語句を認識する語句認識手段と
を有することにより、複数の語句を一つの連続的な入力
音声から共起関係の組み合わせに基づいて認識すること
ができるので、複数の語句を良好な精度で高速に認識す
ることができる。
【0068】請求項2記載の発明では、語句認識手段
は、共起関係で組み合わされた一対の語句の一方である
中心語を認識語句辞書から読み出して入力音声から抽出
してから、この抽出された中心語と共起関係にある他方
の語句である付属語を認識語句辞書から読み出して入力
音声から抽出することにより、中心語の抽出結果に基づ
いて入力音声に照合させる付属語を絞り込むことができ
るので、入力音声から付属語を認識する処理動作の負担
を軽減して速度を向上させることができ、共起関係にあ
る中心語と付属語とを良好な精度で高速に認識すること
ができる。
【0069】請求項3記載の発明では、語句認識手段
は、入力音声の中心語を抽出した区間を排除した区間か
ら付属語を抽出することにより、中心語の抽出結果に基
づいて付属語を照合させる入力音声の区間を制限するこ
とができるので、入力音声から付属語を認識する処理動
作の負担を軽減して速度を向上させることができ、共起
関係にある中心語と付属語とを良好な精度で高速に認識
することができる。
【0070】請求項4記載の発明では、認識語句辞書
は、中心語と付属語との組み合わせに順番の情報も付与
されており、語句認識手段は、中心語と付属語とを順番
に対応して入力音声から認識することにより、付属語を
照合させる入力音声の区間を中心語の抽出区間より前方
か後方に制限することができるので、入力音声から付属
語を認識する処理動作の負担を軽減して速度を向上させ
ることができ、共起関係にある中心語と付属語とを良好
な精度で高速に認識することができる。
【0071】請求項5記載の発明では、認識語句辞書
は、中心語と付属語との組み合わせに中間に位置する介
在語も格納されており、語句認識手段は、中心語と介在
語と付属語とを入力音声から認識することにより、例え
ば、ある中心語と介在語との付属語との読みが、他の中
心語と付属語との組み合わせの読みと同一の場合でも、
これらを各々別個に認識することができるので、共起関
係にある中心語と介在語と付属語とを良好な精度で認識
することができる。
【0072】請求項6記載の発明では、認識語句辞書
は、中心語と付属語との組み合わせに時間間隔の情報も
付与されており、語句認識手段は、中心語と付属語とを
時間間隔に対応して入力音声から認識することにより、
付属語を照合させる入力音声の区間を中心語の抽出区間
から所定の時間間隔の範囲に制限することができるの
で、入力音声から付属語を認識する処理動作の負担を軽
減して速度を向上させることができ、共起関係にある中
心語と付属語とを良好な精度で高速に認識することがで
きる。
【0073】請求項7記載の発明では、認識語句辞書
は、中心語と付属語との組み合わせが複数段階の階層構
造として格納されており、語句認識手段は、一つの中心
語と複数の付属語とを階層構造に対応して入力音声から
段階的に認識することにより、複数段階の共起関係にあ
る一つの中心語と複数の付属語とを段階的に順次認識す
ることができ、一つの語句の抽出結果に基づいて入力音
声に照合させる次の語句を絞り込むことができるので、
入力音声から複数の語句を段階的に順次認識する処理動
作の負担を軽減して速度を向上させることができ、一つ
の入力音声から多数の語句を良好な精度で高速に認識す
ることができる。
【0074】請求項8記載の発明では、認識語句辞書
は、一つの中心語と複数の付属語との組み合わせに順番
の情報も付与されており、語句認識手段は、一つの中心
語と複数の付属語とを順番に対応して入力音声から認識
することにより、一つの語句の抽出結果に基づいて次の
語句を入力音声に照合させる場合に、この照合区間を直
前の語句の抽出区間より前方か後方に制限することがで
きるので、入力音声から複数の語句を段階的に順次認識
する処理動作の負担を軽減して速度を向上させることが
でき、一つの入力音声から多数の語句を良好な精度で高
速に認識することができる。
【0075】請求項9記載の発明では、認識語句辞書
は、一つの中心語と複数の付属語との組み合わせに階層
構造の深度の情報も付与されており、語句認識手段は、
一つの中心語と複数の付属語とを深度に対応して入力音
声から認識することにより、複数段階の共起関係にある
一つの中心語と複数の付属語とを段階的に順次認識する
処理動作を所定の深度まで実行することができるので、
一つの入力音声から多数の語句を必要な段階まで認識す
ることができる。
【0076】請求項10記載の音声認識方法は、共起関
係にある複数の語句を組み合わせて設定しておき、認識
対象の音声の連続的な入力を受け付け、この連続的な入
力音声から共起関係で組み合わされた複数の語句を認識
するようにしたことにより、複数の語句が一つの連続的
な入力音声から共起関係の組み合わせに基づいて認識さ
れるので、複数の語句を良好な精度で高速に認識するこ
とができる。
【0077】請求項11記載の音声認識方法は、共起関
係にある中心語と付属語とを組み合わせて設定してお
き、認識対象の音声の連続的な入力を受け付け、この連
続的な入力音声から用意された中心語を抽出し、この中
心語と共起関係にある付属語を入力音声から抽出するよ
うにしたことにより、共起関係で組み合わされた中心語
と付属語とが一つの連続的な入力音声から認識され、中
心語の抽出結果に基づいて入力音声に照合させる付属語
を絞り込むことができるので、入力音声から付属語を認
識する処理動作の負担を軽減して速度を向上させること
ができ、共起関係にある中心語と付属語とを良好な精度
で高速に認識することができる。
【0078】請求項12記載の情報記憶媒体は、共起関
係にある複数の語句が組み合わされて格納される認識語
句辞書のソフトウェアと、連続的な入力音声から共起関
係で組み合わされた複数の語句を認識するためのプログ
ラムと、が書き込まれているので、この情報記憶媒体の
ソフトウェアをコンピュータに読み取らせて動作させれ
ば、このコンピュータは、複数の語句を一つの連続的な
入力音声から共起関係の組み合わせに基づいて認識する
ことができるので、複数の語句を良好な精度で高速に認
識することができる。
【0079】請求項13記載の情報記憶媒体は、共起関
係にある中心語と付属語とが組み合わされて格納される
認識語句辞書のソフトウェアと、中心語を認識語句辞書
から読み出して連続的な入力音声から抽出するためのプ
ログラムと、この抽出された中心語と共起関係にある付
属語を認識語句辞書から読み出して入力音声から抽出す
るためのプログラムと、が書き込まれていることによ
り、この情報記憶媒体のソフトウェアをコンピュータに
読み取らせて動作させれば、このコンピュータは、共起
関係で組み合わされた中心語と付属語とを一つの連続的
な入力音声から認識することができ、中心語の抽出結果
に基づいて入力音声に照合させる付属語を絞り込むこと
ができるので、入力音声から付属語を認識する処理動作
の負担を軽減して速度を向上させることができ、共起関
係にある中心語と付属語とを良好な精度で高速に認識す
ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の音声認識装置の論理的
構造を示す模式図である。
【図2】音声認識装置の物理的構造を示すブロック図で
ある。
【図3】音声認識装置の外観を示す斜視図である。
【図4】情報記憶媒体であるRAMに書き込まれたソフ
トウェアの論理的構造を示す模式図である。
【図5】認識語句辞書の記憶内容を示し、(a)は単語
辞書、(b)は共起辞書、(c)は語順辞書、を示す模
式図である。
【図6】音声認識装置の音声認識方法を示すフローチャ
ートである。
【図7】第一の変形例の認識語句辞書の共起辞書と語順
辞書との記憶内容を示す模式図である。
【図8】第二の変形例の認識語句辞書の共起辞書の記憶
内容を示す模式図である。
【図9】第三の変形例の認識語句辞書の共起辞書の記憶
内容を示す模式図である。
【図10】第四の変形例の認識語句辞書の共起辞書の記
憶内容を示す模式図である。
【図11】第五の変形例の認識語句辞書の単語辞書と語
順辞書との記憶内容を示す模式図である。
【図12】第六の変形例の認識語句辞書の語順辞書の記
憶内容を示す模式図である。
【符号の説明】
1 音声認識装置 2 コンピュータ 4〜7,9 情報記憶媒体 21 音声入力手段 22 認識語句辞書 23 語句認識手段 41,42 ソフトウェア 42 プログラム
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成8年9月20日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 音声認識装置および方法、情報記憶媒
【特許請求の範囲】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を認識する音
声認識装置および方法と、そのプログラム等のソフトウ
ェアが書き込まれた情報記憶媒体に関する。
【0002】
【従来の技術】現在、人間が発声した音声を認識する音
声認識装置が要望されており、各種の音声認識方法が考
えられている。人間が語句である単語を一つだけ発声す
る場合、これを音声認識装置が認識することは困難では
ないが、人間の自然な会話では音声は連続しており、そ
こには多数の単語が助詞等を介して含まれている。この
ように連続的な音声から必要な単語を認識する手法とし
てはワードスポッティングが考案されており、これは予
め設定された認識候補の単語を連続的な会話音声から抽
出して認識する。
【0003】このようなワードスポッティングを実行す
る音声認識装置は、認識候補の単語毎に読みが格納され
た単語辞書を有しており、連続入力の会話音声と単語辞
書の全部の単語の読みとをマッチングさせ、このマッチ
ングのスコアが基準値を超過した最大の単語を会話音声
から認識する。しかし、単純にワードスポッティングを
実行しても良好な結果は期待できないため、現在では言
語的な制約により認識精度を向上させることが一般的で
ある。
【0004】このような言語的な制約には、文法等の構
文的な性質に基づくものと、格パターン等の意味的な制
約に基づくものとがある。前者は制約として強力である
が、書き言葉と違い規則化しにくい話し言葉には向いて
おらず、その認識制御は文節内程度にしか利用できな
い。後者は語順が自由な日本語の性質、話し言葉に向い
ており、上述したワードスポッティングに利用すると認
識精度を良好に向上させることができる。
【0005】
【発明が解決しようとする課題】上述のようにワードス
ポッティングでは、連続音声から必要な語句のみ認識す
ることができ、特に意味的な制約を利用すると認識精度
を向上させることができる。
【0006】例えば、特開平6-102897号公報に開示され
た音声認識装置の音声認識方法では、格関係を利用して
認識する文節を予測し、絞り込みを行なっている。しか
し、これでは格関係以外の関係に対処することができ
ず、複数の関係を取り扱うこともできない。つまり、連
続音声に含まれる語句の関係は格関係だけではなく、一
つの連続音声に複数の関係が含まれることも一般的であ
る。
【0007】例えば、会話音声が「カップラーメンのカ
レー味を一箱ください」である場合、格関係を利用して
も語句を認識することは困難である。また、会話音声が
「泣く子も黙る」である場合、「泣く・子」「子・黙
る」なる複数の関係が存在している。
【0008】
【課題を解決するための手段】請求項1記載の発明の音
声認識装置は、認識対象の音声の連続的な入力を受け付
ける音声入力手段と、共起関係にある複数の語句が組み
合わされて格納された認識語句辞書と、連続的な入力音
声から共起関係で組み合わされた複数の語句を認識する
語句認識手段とを有する。従って、認識語句辞書には共
起関係にある複数の語句が組み合わされて格納されてい
るので、音声入力手段に連続的に入力された認識対象の
音声から共起関係で組み合わされた複数の語句が語句認
識手段により認識される。つまり、所定の語句を共起関
係で組み合わせて設定しておけば、この共起関係にある
複数の語句は、一つの連続的な入力音声から個々に単独
で認識されず、共起関係の組み合わせに基づいて認識さ
れる。
【0009】請求項2記載の発明では、請求項1記載の
音声認識装置において、語句認識手段は、共起関係で組
み合わされた一対の語句の一方である中心語を認識語句
辞書から読み出して入力音声から抽出してから、この抽
出された中心語と共起関係にある他方の語句である共起
語を前記認識語句辞書から読み出して入力音声から抽出
する。従って、一つの連続的な入力音声から複数の語句
が語句認識手段により認識される場合、この語句の一方
である中心語が最初に入力音声から抽出されてから、こ
の中心語と共起関係にある他方の語句である共起語が次
に入力音声から抽出される。つまり、中心語は従来のワ
ードスポッティングと同様に多数を入力音声に照合させ
ることになるが、共起語は共起関係に基づいて絞り込ま
れてから入力音声に照合させることになる。
【0010】請求項3記載の発明では、請求項2記載の
音声認識装置において、語句認識手段は、入力音声の中
心語を抽出した区間を排除した区間から共起語を抽出す
る。従って、一つの連続的な入力音声から共起関係にあ
る中心語と共起語とが語句認識手段により認識される場
合、最初に入力音声の全域から中心語が抽出され、この
中心語が抽出された区間以外の区間から共起語が抽出さ
れる。つまり、中心語は従来のワードスポッティングと
同様に多数を入力音声に照合させることになるが、共起
語は共起関係に基づいて絞り込まれてから中心語と重複
しない音声区間に照合させることになる。
【0011】請求項4記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と共起語との組み合わせに順番の情報も付与されてお
り、語句認識手段は、中心語と共起語とを順番に対応し
て入力音声から認識する。従って、中心語と共起語とが
連続音声に発生する順番の情報も認識語句辞書に格納さ
れており、中心語と共起語とは入力音声に所定の順番で
発生すると語句認識手段により認識されるので、中心語
共起語とが入力音声から個別に認識されるような場合
でも順番が適正でないと認識されない。
【0012】請求項5記載の発明では、請求項4記載の
音声認識装置において、認識語句辞書は、中心語と共起
語との組み合わせに中間に位置する付属語も格納されて
おり、語句認識手段は、中心語と付属語と共起語とを入
力音声から認識する。従って、中心語と共起語との組み
合わせに中間に位置する付属語も認識語句辞書に格納さ
れており、中心語と付属語と共起語とが入力音声から語
句認識手段により認識されるので、ある中心語と付属
との共起語との読みが、他の中心語と共起語との組み合
わせの読みと同一の場合でも、これらが各々別個に認識
される。
【0013】請求項6記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と共起語との組み合わせに時間間隔の情報も付与され
ており、語句認識手段は、中心語と共起語とを時間間隔
に対応して入力音声から認識する。従って、中心語と
語とが連続的な入力音声に発生する時間間隔の情報も
認識語句辞書に格納されており、中心語と共起語とが入
力音声から時間間隔に対応して語句認識手段により認識
されるので、中心語と共起語とは入力音声に適正な時間
間隔で発生した場合のみ認識され、中心語と共起語とが
入力音声から個別に認識されるような場合でも時間間隔
が適正でないと認識されない。
【0014】請求項7記載の発明では、請求項2または
3記載の音声認識装置において、認識語句辞書は、中心
語と共起語との組み合わせが複数段階の階層構造として
格納されており、語句認識手段は、一つの中心語と複数
共起語とを階層構造に対応して入力音声から段階的に
認識する。従って、中心語と共起語との組み合わせが複
数段階の階層構造として認識語句辞書に格納されてお
り、一つの中心語と複数の共起語とが入力音声から階層
構造に対応して語句認識手段により段階的に認識され
る。つまり、ある入力音声から一つの中心語と一つの
語とが認識されると、この共起語を中心語とする他の
共起語も入力音声から検索され、このような処理動作が
順次繰り返されるので、複数段階の共起関係にある一つ
の中心語と複数の共起語とが順次認識される。
【0015】請求項8記載の発明では、請求項7記載の
音声認識装置において、認識語句辞書は、一つの中心語
と複数の共起語との組み合わせに順番の情報も付与され
ており、語句認識手段は、一つの中心語と複数の共起
とを順番に対応して入力音声から認識する。従って、一
つの中心語と複数の共起語との組み合わせの順番の情報
も認識語句辞書に格納されており、一つの中心語と複数
共起語とが入力音声から順番に対応して語句認識手段
により認識されるので、一つの中心語と複数の共起語と
が入力音声から個別に認識されるような場合でも各々の
順番が適正でないと認識されない。
【0016】請求項9記載の発明では、請求項7または
8記載の音声認識装置において、認識語句辞書は、一つ
の中心語と複数の共起語との組み合わせに階層構造の深
度の情報も付与されており、語句認識手段は、一つの中
心語と複数の共起語とを深度に対応して入力音声から認
識する。従って、一つの中心語と複数の共起語との組み
合わせの階層構造の深度の情報も認識語句辞書に格納さ
れており、一つの中心語と複数の共起語とが入力音声か
ら深度に対応して語句認識手段により認識されるので、
一つの中心語を規定とした複数の共起語の段階的な認識
が所定の深度まで実行される。
【0017】請求項10記載の音声認識方法は、共起関
係にある複数の語句を組み合わせて設定しておき、認識
対象の音声の連続的な入力を受け付け、この連続的な入
力音声から共起関係で組み合わされた複数の語句を認識
するようにした。従って、所定の語句を共起関係で組み
合わせて設定しておけば、この共起関係にある複数の語
句は、一つの連続的な入力音声から個々に単独で認識さ
れず、共起関係の組み合わせに基づいて認識される。
【0018】請求項11記載の音声認識方法は、共起関
係にある中心語と共起語とを組み合わせて設定してお
き、認識対象の音声の連続的な入力を受け付け、この連
続的な入力音声から用意された中心語を抽出し、この中
心語と共起関係にある共起語を入力音声から抽出するよ
うにした。従って、一つの連続的な入力音声から共起関
係の中心語と共起語とが認識される場合、最初に入力音
声から中心語が抽出されてから、この中心語と共起関係
にある共起語が次に入力音声から抽出される。つまり、
中心語は従来のワードスポッティングと同様に多数を入
力音声に照合させることになるが、共起語は共起関係に
基づいて絞り込まれてから入力音声に照合させることに
なる。
【0019】請求項12記載の情報記憶媒体は、コンピ
ュータが読取自在なソフトウェアが予め書き込まれた情
報記憶媒体において、共起関係にある複数の語句が組み
合わされて格納される認識語句辞書のソフトウェアと、
連続的な入力音声から共起関係で組み合わされた複数の
語句を認識するためのプログラムと、が書き込まれてい
る。従って、この情報記憶媒体のソフトウェアをコンピ
ュータに読み取らせて動作させれば、このコンピュータ
は、認識語句辞書に格納されている語句を連続的な入力
音声から認識する音声認識装置として機能する。このと
き、認識語句辞書には共起関係にある複数の語句が組み
合わされて格納されているので、連続的な入力音声から
共起関係で組み合わされた複数の語句が認識される。つ
まり、所定の語句を共起関係で組み合わせて設定してお
けば、この共起関係にある複数の語句は、一つの連続的
な入力音声から個々に単独で認識されず、共起関係の組
み合わせに基づいて認識される。
【0020】請求項13記載の情報記憶媒体は、コンピ
ュータが読取自在なソフトウェアが予め書き込まれた情
報記憶媒体において、共起関係にある中心語と共起語と
が組み合わされて格納される認識語句辞書のソフトウェ
アと、中心語を前記認識語句辞書から読み出して連続的
な入力音声から抽出するためのプログラムと、この抽出
された中心語と共起関係にある共起語を前記認識語句辞
書から読み出して入力音声から抽出するためのプログラ
ムと、が書き込まれている。従って、この情報記憶媒体
のソフトウェアをコンピュータに読み取らせて動作させ
れば、このコンピュータは、認識語句辞書に格納されて
いる語句を連続的な入力音声から認識する音声認識装置
として機能する。このとき、一つの連続的な入力音声か
ら複数の語句が語句認識手段により認識される場合、こ
の語句の一方である中心語が最初に入力音声から抽出さ
れてから、この中心語と共起関係にある他方の語句であ
共起語が次に入力音声から抽出される。つまり、中心
語は従来のワードスポッティングと同様に多数を入力音
声に照合させることになるが、共起語は共起関係に基づ
いて絞り込まれてから入力音声に照合させることにな
る。
【0021】
【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、本実施の形態の音声認識
装置1は、図2および図3に示すように、そのハードウ
ェアとしてデータ処理装置であるコンピュータシステム
を有している。このコンピュータシステムからなる音声
認識装置1は、コンピュータの主体としてCPU(Centr
al Processing Unit)2を有しており、このCPU2に
は、バスライン3により、ROM(Read Only Memory)
4、RAM(Random Access Memory)5、HD(Hard Disk
…図示せず)を内蔵したHDD(HD Drive)6、FD(Flo
ppy Disk)7が装填されるFDD(FD Drive)8、CD(C
ompact Disk)−ROM9が装填されるCD−ROMドラ
イブ10、マウス11が接続されたキーボード12、デ
ィスプレイ13、入力デバイスであるマイクロフォン1
4、通信I/F(Interface)15、等が接続されてい
る。
【0022】この音声認識装置1は、前記CPU2に各
種の処理動作を実行させるプログラムが予め設定されて
おり、このプログラム等のソフトウェアは、例えば、情
報記憶媒体である前記FD7や前記CD−ROM9に予
め書き込まれている。そして、このソフトウェアが情報
記憶媒体である前記HDD6にインストールされてお
り、これが起動時に情報記憶媒体である前記RAM5に
複写されて前記CPU2に読み取られる。
【0023】このようにソフトウェアを前記CPU2が
読み取って各種の処理動作を実行することにより、各種
機能が各種手段として実現されている。このような各種
手段として、本実施の形態の音声認識装置1は、図1に
示すように、音声入力手段21、認識語句辞書22、語
句認識手段23、結果出力手段24、等を備えている。
前記認識語句辞書22は、単語辞書25、共起辞書2
6、語順辞書27、からなり、前記語句認識手段23
は、特徴抽出手段28、候補認識手段29、候補読出手
段30、語句探索手段31、結果確定手段32、等から
なる。
【0024】このような音声認識装置1の各種手段は、
必要により前記ディスプレイ13や前記マイクロフォン
14等のハードウェアも利用して実現されるが、その主
体は前記RAM5等に書き込まれたソフトウェアに対応
して前記CPU2が動作することにより実現されてい
る。このため、前記RAM5には、図4に示すように、
前記認識語句辞書22のソフトウェアである辞書記憶部
41と、連続的な入力音声から共起関係で組み合わされ
た複数の語句を認識するための制御プログラム42と、
が書き込まれている。
【0025】より詳細には、前記辞書記憶部41は、単
語辞書記憶部43、共起辞書記憶部44、語順辞書記憶
部45からなり、これらの記憶部43〜45に前記辞書
25〜27の各種情報が格納されている。前記制御プロ
グラム42は、モジュール構造で形成されており、特徴
抽出モジュール46、単語照合モジュール47、認識制
御モジュール48等を有している。
【0026】前記特徴抽出モジュール46は、連続的な
入力音声のデジタル信号をフレーム毎に分析して特徴量
を抽出するためのプログラムからなり、前記単語照合モ
ジュール47は、入力音声の特徴量に認識候補の単語の
読みである特徴量を照合させて累積類似度をスコアとし
て算出するためのプログラムからなる。前記認識制御モ
ジュール48は、前記辞書25〜27から各種情報を読
み出して前記単語照合モジュール47に伝送し、この単
語照合モジュール47が出力するスコアに基づいて認識
結果の単語を確定するためのプログラムからなる。
【0027】前記認識語句辞書22は、上述のように前
記RAM5の辞書記憶部41にデータファイルとして格
納されており、図5に示すように、その一部である前記
単語辞書25には、語句である複数の単語毎に意味と読
みとが登録されている。前記共起辞書26には、共起関
係にある複数の語句が、ここでは一つの中心語と複数の
共起語との組み合わせで格納されている。前記語順辞書
27には、中心語と共起語の意味の情報とが順番に設定
されているので、中心語と共起語との順番の情報が格納
されている。
【0028】なお、ここでは説明を簡略化するために前
記辞書25〜27の各種情報を日本語の文字として表現
しているが、実際のソフトウェアでは単語等は識別コー
ドからなり、読みは単語の音声の特徴量として設定され
ている。この読みの音声の特徴量は、例えば、音素単位
の状態遷移モデルと単語単位の音素ネットワークとして
設定されており、各状態には平均特徴量と継続時間長と
の情報が設定されている。
【0029】前記音声入力手段21は、前記マイクロフ
ォン14等により音声の連続的な入力を受け付け、この
入力音声をデジタルの電気信号にA/D(Analog/Digi
tal)変換する。前記語句認識手段23は、前記CPU2
が前記RAM5に格納された前記制御プログラム42を
読み取って対応する処理動作を実行することにより、連
続的な入力音声のデジタル信号から共起関係にある中心
語と共起語とを認識する。
【0030】より詳細には、前記語句認識手段23の特
徴抽出手段28は、前記CPU2が前記制御プログラム
42の前記特徴抽出モジュール46を読み取って対応す
る演算処理を実行することにより、連続的な入力音声の
デジタル信号を単位時間であるフレーム毎に分析し、例
えば、LPC(Linear Predictive Coding)メルケプスト
ラムの算出により特徴量を抽出する。
【0031】前記候補認識手段29は、前記認識制御モ
ジュール48に対応した前記CPU2の演算処理によ
り、前記認識語句辞書22の共起辞書26から全部の中
心語を読み出してから、その各々の読みを前記単語辞書
25から読み出す。さらに、前記単語照合モジュール4
7に対応した前記CPU2の演算処理により、全部の中
心語の読みを連続的な入力音声の特徴量に照合させ、そ
の各々の類似度をフレーム単位で算出して順次累積し、
この累積類似度であるスコアが最大で基準値を超過した
一つの中心語を認識候補として抽出する。
【0032】前記候補読出手段30は、前記認識制御モ
ジュール48に対応した前記CPU2の演算処理によ
り、認識候補の中心語と共起関係にある全部の共起語を
認識候補として前記認識語句辞書22の共起辞書26か
ら検出し、前記語句探索手段31は、前記単語照合モジ
ュール47に対応した前記CPU2の演算処理により、
認識候補の全部の共起語を入力音声に照合させる。
【0033】この処理動作も中心語の場合と同様に、認
識候補の共起語の読みが前記認識語句辞書22の単語辞
書25から読み出され、これと入力音声との照合のスコ
アが最大で基準値を超過した一つの共起語が抽出され
る。ただし、このように共起語の読みを入力音声の特徴
量に照合させる際、前記認識制御モジュール48に対応
した前記CPU2の演算処理により、前記認識語句辞書
22の語順辞書27から中心語と共起語との順番の情報
が読み出され、その順番に対応して入力音声の中心語が
抽出された区間以外の区間のみに共起語の読みが照合さ
れる。
【0034】前記結果確定手段32は、上述のように認
識候補の共起語が入力音声から探索されると、前記認識
制御モジュール48に対応した前記CPU2の演算処理
により、認識候補の中心語と共起語とを認識結果として
確定する。前記結果出力手段24は、上述のように確定
された認識結果の中心語と共起語とを、例えば、前記デ
ィスプレイ13の文字表示により出力する。
【0035】このような構成において、本実施の形態の
音声認識装置1は、多数の単語が連続する会話の音声が
マイクロフォン14に入力されると、この連続的な入力
音声から認識語句辞書22に格納されている単語を認識
し、この認識結果をディスプレイ13に表示出力する。
このような音声認識装置1の音声認識方法を、図6を参
照して以下に順次詳述する。
【0036】まず、マイクロフォン14に連続的に入力
された音声は、その全域がデジタル信号にA/D変換さ
れ、フレーム毎に特徴量が抽出される。つぎに、認識語
句辞書22から全部の中心語の読みが読み出され、この
全部の読みが一つの入力音声の全域の特徴量と照合され
る。このように全部の中心語に対して照合の累積類似度
がスコアとして算出されると、基準値を超過したスコア
が最大の中心語が認識候補として一つだけ選出される。
【0037】このように認識候補の中心語が選出される
と、これと共起関係にある全部の共起語が認識候補とし
て認識語句辞書22から読み出され、上述した中心語の
場合と同様に、全部の共起語の読みと入力音声とが照合
されて基準値を超過したスコアが最大の一つの共起語が
選出される。このとき、認識語句辞書22の語順辞書2
7から中心語と共起語との順番の情報が読み出され、そ
の順番に対応して入力音声の中心語が抽出された区間以
外の区間のみに共起語の読みが照合される。
【0038】このように一つの連続的な入力音声から共
起関係にある中心語と共起語とが抽出されると、これが
認識結果として確定されてディスプレイ13の文字表示
により出力される。なお、最初に全部の中心語の照合の
スコアが基準値を超過しない場合には認識結果は無しと
され、中心語の認識候補が検出された状態で共起語が認
識語句辞書22に格納されていない場合や、全部の共起
語の照合のスコアが基準値を超過しない場合には、認識
結果は中心語のみとされる。
【0039】上述した一連の処理動作を図5を参考に具
体的に説明すると、一つの連続的な入力音声が「ご注文
はカップラーメンのカレー味ですね」の場合、これに対
して中心語である“カップラーメン,手焼き煎餅”が照
合され、スコアが高い“カップラーメン”が中心語の認
識候補として抽出される。この中心語“カップラーメ
ン”に共起する共起語として“カレー味,しょう油味”
が認識語句辞書22から検出され、この認識語句辞書2
2には中心語である“カップラーメン”より後方に意味
が“味”である共起語が位置することが規定されている
ので、連続的な入力音声から“カップラーメン”より以
後の区間「のカレー味ですね」が切り出される。この音
声区間のみに対して共起語である“カレー味,しょう油
味”が照合されるので、共起語である“カレー味”が認
識される。
【0040】本実施の形態の音声認識装置1の音声認識
方法では、上述のように一つの連続的な入力音声から共
起関係で組み合わされた中心語と共起語とが認識される
ので、これらの単語を個々に認識する場合より精度が良
好である。特に、中心語は多数を入力音声に照合させる
必要があるが、共起語は認識候補の中心語と共起関係に
あるもののみ入力音声に照合させれば良いので、この処
理負担が軽減されて処理速度が向上している。
【0041】しかも、共起語は入力音声から中心語の区
間を排除した区間のみに照合させれば良く、この共起
を照合させる区間も中心語との順番に基づいて一方に制
限されるので、さらに処理負担が軽減されて処理速度が
向上している。さらに、中心語に対する共起語の順番の
情報は、共起語の種類の情報により設定されており、複
数の共起語を個々に設定していないので、語順辞書27
の記憶容量も軽減されている。
【0042】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、本実施の形
態では、最初に入力音声から照合のスコアが最大の中心
語を一つの認識候補として選出し、これと共起関係にあ
共起語を入力音声に照合させてスコアが最大の一つを
選出することを例示したが、最初にスコアが基準値を超
過した複数の中心語を認識候補として抽出し、これらの
中心語と共起関係にある全部の共起語を入力音声に照合
させて各々のスコアを算出し、中心語と共起語とのスコ
アの合計が最大の組み合わせを認識結果とするようなこ
とも可能である。
【0043】また、本実施の形態では、共起関係にある
複数の語句を中心語と共起語とに分類しておき、最初に
中心語を入力音声から抽出してから、この結果に基づい
共起語を入力音声から抽出することを例示した。しか
し、このように共起関係にある複数の語句を中心語や
語として分類せず、全部の語句を同時に入力音声に照
合させ、合計のスコアが最大となる共起関係の組み合わ
せの語句を認識結果とするようなことも可能である。
【0044】さらに、本実施の形態では、認識語句辞書
22に各種辞書25〜27を用途別に個別に形成するこ
とにより、そのメンテナンスや情報登録を容易とするこ
とを想定したが、このような辞書25〜27を一つに組
み合わせた形態として認識語句辞書22を形成すること
も可能である。
【0045】また、本実施の形態では、音声認識装置1
をコンピュータシステムによる実験装置として想定し、
入力音声から認識した単語をディスプレイ13に表示す
ることを例示した。しかし、上述のような音声認識装置
1の各部をASIC(Application Specific Integrated
Circuit)として製作し、これを各種製品に組み込んで
音声制御に利用することも可能である。
【0046】さらに、本実施の形態では、RAM5等に
ソフトウェアとして格納されている制御プログラムに従
ってCPU2が動作することにより、音声認識装置1の
各部が実現されることを例示した。しかし、このような
各部の各々を固有のハードウェアとして製作することも
可能であり、一部をソフトウェアとしてRAM5等に格
納するとともに一部をハードウェアとして製作すること
も可能である。また、所定のソフトウェアが格納された
RAM5等や各部のハードウェアを、例えば、ファーム
ウェアとして製作することも可能である。
【0047】また、本実施の形態では、音声認識装置1
の起動時に、HDD6に格納されているソフトウェアが
RAM5に複写され、このようにRAM5に格納された
ソフトウェアをCPU2が読み取ることを想定したが、
このようなソフトウェアをHDD6に格納したままCP
U2に利用させることや、RAM5に予め書き込んでお
くことも可能である。
【0048】さらに、前述のように単体で取り扱える情
報記憶媒体であるFD7やCD−ROM9にソフトウェ
アを書き込んでおき、このFD7等からRAM5等にソ
フトウェアをインストールすることも可能であるが、こ
のようなインストールを実行することなくFD7等に書
き込まれたソフトウェアをCPU2が適宜読み取ってデ
ータ処理を実行することも可能である。
【0049】また、このような音声認識装置1の各部を
実現する制御プログラムを、複数のソフトウェアの組み
合わせにより実現することも可能であり、その場合、単
体の製品となる情報記憶媒体には必要最小限のソフトウ
ェアのみを格納しておけば良い。例えば、オペレーティ
ングシステムが実装されている音声認識装置1に、CD
−ROM9等の情報記憶媒体によりアプリケーションソ
フトを提供するような場合、音声認識装置1の各部を実
現するソフトウェアは、アプリケーションソフトとオペ
レーティングシステムとの組み合わせで実現されるの
で、オペレーティングシステムに依存する部分のソフト
ウェアはアプリケーションソフトの情報記憶媒体から省
略することができる。
【0050】特に、本発明の音声認識装置1を、認識す
る単語が特定された業務用の装置等として製作する場合
は、その製造工程で認識語句辞書22の内容も固定的に
書き込めば良い。しかし、上述のように音声認識装置1
のアプリケーションソフトを一般ユーザに販売するよう
な場合には、認識語句辞書22の内容をユーザが自由に
登録できることが好ましい。
【0051】このような製品としてCD−ROM9等の
情報記憶媒体を製造する場合には、前述した制御プログ
ラム42の他、認識語句辞書22をRAM5等に所定の
フォーマットで形成するためのプログラムと、認識語句
辞書22に各種情報を登録させるためのプログラムと
を、情報記憶媒体に書き込んでおくことになる。この場
合、これらのプログラムが情報記憶媒体における認識語
句辞書22のソフトウェアとなり、各種情報の設定澄み
の認識語句辞書22のソフトウェアは情報記憶媒体には
書き込まない。
【0052】同様に、完成した製品として音声認識装置
1を製造する場合も、単語を認識する各種手段21,2
3,24等の部分は固定的に製作しておき、その認識語
句辞書22の設定内容を空白としてユーザに登録させる
ことも可能である。さらに、このような音声認識装置1
に交換自在に装着するオプション部品として、業務毎に
適正な単語を登録した認識語句辞書22を情報記憶媒体
として製作するようなことも可能である。
【0053】なお、上述のように情報記憶媒体に書き込
んだソフトウェアをコンピュータに供給する手法は、そ
の情報記憶媒体をコンピュータに直接に装填することに
限定されない。例えば、上述のようなソフトウェアをホ
ストコンピュータの情報記憶媒体に書き込み、このホス
トコンピュータを通信ネットワークにより端末コンピュ
ータに接続し、ホストコンピュータからデータ通信によ
り端末コンピュータにソフトウェアを供給することも可
能である。
【0054】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の音声認識装置1
に相当することになる。
【0055】また、本実施の形態では、単語辞書25に
単語の意味を格納しておき、語順辞書27には共起語を
意味の情報として格納しておくことを例示したが、図7
に示すように、中心語に対する共起語の共起関係の種類
の情報を共起辞書26と語順辞書27とに格納しておく
ことも可能である。この場合、一つの中心語に複数の共
起関係で複数の共起語が対応しても、中心語に対する複
数の共起語の位置を共起関係の種類の情報で設定できる
ので、複数種類の共起関係の共起語を良好な精度で容易
に認識することができる。
【0056】例えば、「ご注文はカレー味のカップラー
メンですね」なる入力音声から“カップラーメン”が中
心語の認識候補として抽出された場合、この中心語“カ
ップラーメン”に共起する共起語としては“カレー味,
ミニ”が認識語句辞書22から検出される。しかし、こ
こでは種類が“味”の共起語は中心語より前方に位置す
ることが規定されており、種類が“サイズ”の共起語は
中心語より後方に位置することが規定されているので、
連続的な入力音声から「ご注文はカレー味の」の区間が
切り出されて“カレー味”の共起語が照合され、「です
ね」の音声区間が切り出されて“ミニ”の共起語が照合
される。
【0057】また、図8に示すように、認識語句辞書2
2の共起辞書26に、中心語と共起語との組み合わせに
中間に位置する付属語も格納しておき、語句認識手段2
3が、中心語と付属語と共起語とを入力音声から認識す
ることも可能である。この場合、中心語と付属語と共起
語とが一つの入力音声から認識されるので、ある中心語
付属語との共起語との読みが、他の中心語と共起語と
の組み合わせの読みと同一の場合でも、これらを各々別
個に認識することができる。
【0058】例えば、入力音声が「ご注文は手焼き煎餅
の緑茶風味ですね」の場合、中心語である“手焼き煎
餅”に対して共起語である“のり,緑茶風味”の両方が
「の緑茶風味」の音声区間から同等のスコアで認識され
ることになる。しかし、上述のように付属語として
“の”が規定されていれば、共起語として“緑茶風味”
のみを認識することができる。
【0059】また、図9に示すように、認識語句辞書2
2の共起辞書26に、中心語と共起語との組み合わせと
ともに時間間隔の情報も格納しておき、語句認識手段2
3が、中心語と共起語とを時間間隔に対応して入力音声
から認識することも可能である。この場合、共起語を照
合させる入力音声の区間を時間間隔に対応して制限でき
るので、より高速に共起語を認識することができ、中心
語から極度に離反した共起語は認識されないので、不適
共起語の認識を防止することもできる。
【0060】例えば、「ご注文はカップラーメンのカレ
ー味を二箱ですね」なる入力音声から“カップラーメ
ン”が中心語の認識候補として抽出された場合、その音
声区間から20フレーム以内の音声区間のみに意味が
“味”の共起語が照合されて“カレー味”が認識され、
100フレーム以内の音声区間のみ意味が“数量”の共起
語が照合されて“二箱”が認識される。
【0061】また、図10に示すように、認識語句辞書
22の共起辞書26に、中心語と共起語との組み合わせ
を複数段階の階層構造として格納しておき、語句認識手
段23が、一つの中心語と複数の共起語とを階層構造に
対応して入力音声から段階的に認識することも可能であ
る。この場合、ある入力音声から一つの中心語と一つの
共起語とが認識されると、この共起語を中心語とする他
共起語も入力音声から検索され、このような処理動作
が順次繰り返されるので、複数段階の共起関係にある一
つの中心語と複数の共起語とを順次認識することができ
る。
【0062】例えば、入力音声が「350の缶のビール
を下さい」の場合、最初に中心語として“ビール”が抽
出されて対応する共起語としては“缶”が抽出される。
次に、この“缶”を中心語として“350”なる共起
が抽出されるので、一つの入力音声から最終的に三つの
単語が認識されることになる。
【0063】さらに、上述のように中心語と共起語との
組み合わせを複数段階の階層構造とした場合に、図11
に示すように、認識語句辞書22に、一つの中心語と複
数の共起語との組み合わせの順番の情報も格納してお
き、語句認識手段23が、一つの中心語と複数の共起
とを順番に対応して入力音声から認識することも可能で
ある。この場合、一つの中心語と複数の共起語とが入力
音声から順番に対応して認識されるので、複数の共起
を良好な精度で高速に認識することができる。
【0064】例えば、入力音声が「350の缶のビール
を下さい」の場合、最初に中心語として“ビール”が抽
出され、これより前方の音声区間である「350の缶
の」から意味が“形態”の共起語である“缶”が抽出さ
れ、これより前方の音声区間である「350の」から意
味が“サイズ”の共起語である“350”が抽出され
る。
【0065】さらに、上述のように中心語と共起語との
組み合わせを複数段階の階層構造とした場合に、図12
に示すように、認識語句辞書22に、一つの中心語と複
数の共起語との組み合わせの階層構造の深度の情報も格
納しておき、語句認識手段23が、一つの中心語と複数
共起語とを深度に対応して入力音声から認識すること
も可能である。この場合、一つの中心語から複数の共起
語を段階的に探索する処理動作が所定の深度まで実行さ
れるので、複数の共起語を必要な段階まで高速に認識す
ることができる。
【0066】例えば、必要な階層構造が“2”として設
定されており、入力音声が「350の缶のビールを下さ
い」の場合、最初に中心語として“ビール”が抽出され
てから第一の共起語として“缶”が抽出された時点で、
階層構造の深度は“1”となる。そこで、この“缶”を
中心語として第二の共起語として“350”が抽出され
ると、階層構造の深度は“2”となるので、この時点で
段階的な音声認識の処理動作を終了する。
【0067】
【発明の効果】請求項1記載の発明の音声認識装置は、
認識対象の音声の連続的な入力を受け付ける音声入力手
段と、共起関係にある複数の語句が組み合わされて格納
された認識語句辞書と、連続的な入力音声から共起関係
で組み合わされた複数の語句を認識する語句認識手段と
を有することにより、複数の語句を一つの連続的な入力
音声から共起関係の組み合わせに基づいて認識すること
ができるので、複数の語句を良好な精度で高速に認識す
ることができる。
【0068】請求項2記載の発明では、語句認識手段
は、共起関係で組み合わされた一対の語句の一方である
中心語を認識語句辞書から読み出して入力音声から抽出
してから、この抽出された中心語と共起関係にある他方
の語句である共起語を認識語句辞書から読み出して入力
音声から抽出することにより、中心語の抽出結果に基づ
いて入力音声に照合させる共起語を絞り込むことができ
るので、入力音声から共起語を認識する処理動作の負担
を軽減して速度を向上させることができ、共起関係にあ
る中心語と共起語とを良好な精度で高速に認識すること
ができる。
【0069】請求項3記載の発明では、語句認識手段
は、入力音声の中心語を抽出した区間を排除した区間か
共起語を抽出することにより、中心語の抽出結果に基
づいて共起語を照合させる入力音声の区間を制限するこ
とができるので、入力音声から共起語を認識する処理動
作の負担を軽減して速度を向上させることができ、共起
関係にある中心語と共起語とを良好な精度で高速に認識
することができる。
【0070】請求項4記載の発明では、認識語句辞書
は、中心語と共起語との組み合わせに順番の情報も付与
されており、語句認識手段は、中心語と共起語とを順番
に対応して入力音声から認識することにより、共起語を
照合させる入力音声の区間を中心語の抽出区間より前方
か後方に制限することができるので、入力音声から共起
語を認識する処理動作の負担を軽減して速度を向上させ
ることができ、共起関係にある中心語と共起語とを良好
な精度で高速に認識することができる。
【0071】請求項5記載の発明では、認識語句辞書
は、中心語と共起語との組み合わせに中間に位置する
語も格納されており、語句認識手段は、中心語と付属
語と共起語とを入力音声から認識することにより、例え
ば、ある中心語と付属語との共起語との読みが、他の中
心語と共起語との組み合わせの読みと同一の場合でも、
これらを各々別個に認識することができるので、共起関
係にある中心語と付属語と共起語とを良好な精度で認識
することができる。
【0072】請求項6記載の発明では、認識語句辞書
は、中心語と共起語との組み合わせに時間間隔の情報も
付与されており、語句認識手段は、中心語と共起語とを
時間間隔に対応して入力音声から認識することにより、
共起語を照合させる入力音声の区間を中心語の抽出区間
から所定の時間間隔の範囲に制限することができるの
で、入力音声から共起語を認識する処理動作の負担を軽
減して速度を向上させることができ、共起関係にある中
心語と共起語とを良好な精度で高速に認識することがで
きる。
【0073】請求項7記載の発明では、認識語句辞書
は、中心語と共起語との組み合わせが複数段階の階層構
造として格納されており、語句認識手段は、一つの中心
語と複数の共起語とを階層構造に対応して入力音声から
段階的に認識することにより、複数段階の共起関係にあ
る一つの中心語と複数の共起語とを段階的に順次認識す
ることができ、一つの語句の抽出結果に基づいて入力音
声に照合させる次の語句を絞り込むことができるので、
入力音声から複数の語句を段階的に順次認識する処理動
作の負担を軽減して速度を向上させることができ、一つ
の入力音声から多数の語句を良好な精度で高速に認識す
ることができる。
【0074】請求項8記載の発明では、認識語句辞書
は、一つの中心語と複数の共起語との組み合わせに順番
の情報も付与されており、語句認識手段は、一つの中心
語と複数の共起語とを順番に対応して入力音声から認識
することにより、一つの語句の抽出結果に基づいて次の
語句を入力音声に照合させる場合に、この照合区間を直
前の語句の抽出区間より前方か後方に制限することがで
きるので、入力音声から複数の語句を段階的に順次認識
する処理動作の負担を軽減して速度を向上させることが
でき、一つの入力音声から多数の語句を良好な精度で高
速に認識することができる。
【0075】請求項9記載の発明では、認識語句辞書
は、一つの中心語と複数の共起語との組み合わせに階層
構造の深度の情報も付与されており、語句認識手段は、
一つの中心語と複数の共起語とを深度に対応して入力音
声から認識することにより、複数段階の共起関係にある
一つの中心語と複数の共起語とを段階的に順次認識する
処理動作を所定の深度まで実行することができるので、
一つの入力音声から多数の語句を必要な段階まで認識す
ることができる。
【0076】請求項10記載の音声認識方法は、共起関
係にある複数の語句を組み合わせて設定しておき、認識
対象の音声の連続的な入力を受け付け、この連続的な入
力音声から共起関係で組み合わされた複数の語句を認識
するようにしたことにより、複数の語句が一つの連続的
な入力音声から共起関係の組み合わせに基づいて認識さ
れるので、複数の語句を良好な精度で高速に認識するこ
とができる。
【0077】請求項11記載の音声認識方法は、共起関
係にある中心語と共起語とを組み合わせて設定してお
き、認識対象の音声の連続的な入力を受け付け、この連
続的な入力音声から用意された中心語を抽出し、この中
心語と共起関係にある共起語を入力音声から抽出するよ
うにしたことにより、共起関係で組み合わされた中心語
共起語とが一つの連続的な入力音声から認識され、中
心語の抽出結果に基づいて入力音声に照合させる共起
を絞り込むことができるので、入力音声から共起語を認
識する処理動作の負担を軽減して速度を向上させること
ができ、共起関係にある中心語と共起語とを良好な精度
で高速に認識することができる。
【0078】請求項12記載の情報記憶媒体は、共起関
係にある複数の語句が組み合わされて格納される認識語
句辞書のソフトウェアと、連続的な入力音声から共起関
係で組み合わされた複数の語句を認識するためのプログ
ラムと、が書き込まれているので、この情報記憶媒体の
ソフトウェアをコンピュータに読み取らせて動作させれ
ば、このコンピュータは、複数の語句を一つの連続的な
入力音声から共起関係の組み合わせに基づいて認識する
ことができるので、複数の語句を良好な精度で高速に認
識することができる。
【0079】請求項13記載の情報記憶媒体は、共起関
係にある中心語と共起語とが組み合わされて格納される
認識語句辞書のソフトウェアと、中心語を認識語句辞書
から読み出して連続的な入力音声から抽出するためのプ
ログラムと、この抽出された中心語と共起関係にある
語を認識語句辞書から読み出して入力音声から抽出す
るためのプログラムと、が書き込まれていることによ
り、この情報記憶媒体のソフトウェアをコンピュータに
読み取らせて動作させれば、このコンピュータは、共起
関係で組み合わされた中心語と共起語とを一つの連続的
な入力音声から認識することができ、中心語の抽出結果
に基づいて入力音声に照合させる共起語を絞り込むこと
ができるので、入力音声から共起語を認識する処理動作
の負担を軽減して速度を向上させることができ、共起関
係にある中心語と共起語とを良好な精度で高速に認識す
ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の音声認識装置の論理的
構造を示す模式図である。
【図2】音声認識装置の物理的構造を示すブロック図で
ある。
【図3】音声認識装置の外観を示す斜視図である。
【図4】情報記憶媒体であるRAMに書き込まれたソフ
トウェアの論理的構造を示す模式図である。
【図5】認識語句辞書の記憶内容を示し、(a)は単語
辞書、(b)は共起辞書、(c)は語順辞書、を示す模
式図である。
【図6】音声認識装置の音声認識方法を示すフローチャ
ートである。
【図7】第一の変形例の認識語句辞書の共起辞書と語順
辞書との記憶内容を示す模式図である。
【図8】第二の変形例の認識語句辞書の共起辞書の記憶
内容を示す模式図である。
【図9】第三の変形例の認識語句辞書の共起辞書の記憶
内容を示す模式図である。
【図10】第四の変形例の認識語句辞書の共起辞書の記
憶内容を示す模式図である。
【図11】第五の変形例の認識語句辞書の単語辞書と語
順辞書との記憶内容を示す模式図である。
【図12】第六の変形例の認識語句辞書の語順辞書の記
憶内容を示す模式図である。
【符号の説明】 1 音声認識装置 2 コンピュータ 4〜7,9 情報記憶媒体 21 音声入力手段 22 認識語句辞書 23 語句認識手段 41,42 ソフトウェア 42 プログラム
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図5
【補正方法】変更
【補正内容】
【図5】
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正内容】
【図6】
【手続補正4】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正内容】
【図7】
【手続補正5】
【補正対象書類名】図面
【補正対象項目名】図8
【補正方法】変更
【補正内容】
【図8】
【手続補正6】
【補正対象書類名】図面
【補正対象項目名】図9
【補正方法】変更
【補正内容】
【図9】
【手続補正7】
【補正対象書類名】図面
【補正対象項目名】図10
【補正方法】変更
【補正内容】
【図10】

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 認識対象の音声の連続的な入力を受け付
    ける音声入力手段と、共起関係にある複数の語句が組み
    合わされて格納された認識語句辞書と、連続的な入力音
    声から共起関係で組み合わされた複数の語句を認識する
    語句認識手段と、を有することを特徴とする音声認識装
    置。
  2. 【請求項2】 語句認識手段は、共起関係で組み合わさ
    れた一対の語句の一方である中心語を認識語句辞書から
    読み出して入力音声から抽出してから、この抽出された
    中心語と共起関係にある他方の語句である付属語を前記
    認識語句辞書から読み出して入力音声から抽出すること
    を特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 語句認識手段は、入力音声の中心語を抽
    出した区間を排除した区間から付属語を抽出することを
    特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 認識語句辞書は、中心語と付属語との組
    み合わせに順番の情報も付与されており、語句認識手段
    は、中心語と付属語とを順番に対応して入力音声から認
    識することを特徴とする請求項2または3記載の音声認
    識装置。
  5. 【請求項5】 認識語句辞書は、中心語と付属語との組
    み合わせに中間に位置する介在語も格納されており、語
    句認識手段は、中心語と介在語と付属語とを入力音声か
    ら認識することを特徴とする請求項4記載の音声認識装
    置。
  6. 【請求項6】 認識語句辞書は、中心語と付属語との組
    み合わせに時間間隔の情報も付与されており、語句認識
    手段は、中心語と付属語とを時間間隔に対応して入力音
    声から認識することを特徴とする請求項2または3記載
    の音声認識装置。
  7. 【請求項7】 認識語句辞書は、中心語と付属語との組
    み合わせが複数段階の階層構造として格納されており、
    語句認識手段は、一つの中心語と複数の付属語とを階層
    構造に対応して入力音声から段階的に認識することを特
    徴とする請求項2または3記載の音声認識装置。
  8. 【請求項8】 認識語句辞書は、一つの中心語と複数の
    付属語との組み合わせに順番の情報も付与されており、
    語句認識手段は、一つの中心語と複数の付属語とを順番
    に対応して入力音声から認識することを特徴とする請求
    項7記載の音声認識装置。
  9. 【請求項9】 認識語句辞書は、一つの中心語と複数の
    付属語との組み合わせに階層構造の深度の情報も付与さ
    れており、語句認識手段は、一つの中心語と複数の付属
    語とを深度に対応して入力音声から認識することを特徴
    とする請求項7または8記載の音声認識装置。
  10. 【請求項10】 共起関係にある複数の語句を組み合わ
    せて設定しておき、認識対象の音声の連続的な入力を受
    け付け、この連続的な入力音声から共起関係で組み合わ
    された複数の語句を認識するようにしたことを特徴とす
    る音声認識方法。
  11. 【請求項11】 共起関係にある中心語と付属語とを組
    み合わせて設定しておき、認識対象の音声の連続的な入
    力を受け付け、この連続的な入力音声から用意された中
    心語を抽出し、この中心語と共起関係にある付属語を入
    力音声から抽出するようにしたことを特徴とする音声認
    識方法。
  12. 【請求項12】 コンピュータが読取自在なソフトウェ
    アが予め書き込まれた情報記憶媒体において、共起関係
    にある複数の語句が組み合わされて格納される認識語句
    辞書のソフトウェアと、連続的な入力音声から共起関係
    で組み合わされた複数の語句を認識するためのプログラ
    ムと、が書き込まれていることを特徴とする情報記憶媒
    体。
  13. 【請求項13】 コンピュータが読取自在なソフトウェ
    アが予め書き込まれた情報記憶媒体において、共起関係
    にある中心語と付属語とが組み合わされて格納される認
    識語句辞書のソフトウェアと、中心語を前記認識語句辞
    書から読み出して連続的な入力音声から抽出するための
    プログラムと、この抽出された中心語と共起関係にある
    付属語を前記認識語句辞書から読み出して入力音声から
    抽出するためのプログラムと、が書き込まれていること
    を特徴とする情報記憶媒体。
JP8211078A 1996-08-09 1996-08-09 音声認識装置および方法、情報記憶媒体 Pending JPH1055196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8211078A JPH1055196A (ja) 1996-08-09 1996-08-09 音声認識装置および方法、情報記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8211078A JPH1055196A (ja) 1996-08-09 1996-08-09 音声認識装置および方法、情報記憶媒体

Publications (1)

Publication Number Publication Date
JPH1055196A true JPH1055196A (ja) 1998-02-24

Family

ID=16600051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8211078A Pending JPH1055196A (ja) 1996-08-09 1996-08-09 音声認識装置および方法、情報記憶媒体

Country Status (1)

Country Link
JP (1) JPH1055196A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293189A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 音声認識装置および方法
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム
JP2009139862A (ja) * 2007-12-10 2009-06-25 Fujitsu Ltd 音声認識装置及びコンピュータプログラム
JP2009295101A (ja) * 2008-06-09 2009-12-17 Hitachi Ltd 音声データ検索システム
JP2011169960A (ja) * 2010-02-16 2011-09-01 Nec Corp 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム
JP2012189829A (ja) * 2011-03-10 2012-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、および音声認識プログラム
JP2013200362A (ja) * 2012-03-23 2013-10-03 Dowango:Kk 音声認識装置、音声認識プログラム、及び音声認識方法
JP2017151665A (ja) * 2016-02-24 2017-08-31 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293189A (ja) * 1999-04-02 2000-10-20 Toshiba Corp 音声認識装置および方法
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム
JP2009139862A (ja) * 2007-12-10 2009-06-25 Fujitsu Ltd 音声認識装置及びコンピュータプログラム
US8271280B2 (en) 2007-12-10 2012-09-18 Fujitsu Limited Voice recognition apparatus and memory product
JP2009295101A (ja) * 2008-06-09 2009-12-17 Hitachi Ltd 音声データ検索システム
JP2011169960A (ja) * 2010-02-16 2011-09-01 Nec Corp 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム
JP2012189829A (ja) * 2011-03-10 2012-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、および音声認識プログラム
JP2013200362A (ja) * 2012-03-23 2013-10-03 Dowango:Kk 音声認識装置、音声認識プログラム、及び音声認識方法
JP2017151665A (ja) * 2016-02-24 2017-08-31 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム

Similar Documents

Publication Publication Date Title
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20060020473A1 (en) Method, apparatus, and program for dialogue, and storage medium including a program stored therein
US20070198245A1 (en) Apparatus, method, and computer program product for supporting in communication through translation between different languages
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
EP2317507B1 (en) Corpus compilation for language model generation
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JPWO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
US20020091520A1 (en) Method and apparatus for text input utilizing speech recognition
JPH1055196A (ja) 音声認識装置および方法、情報記憶媒体
US7103533B2 (en) Method for preserving contextual accuracy in an extendible speech recognition language model
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US20060241936A1 (en) Pronunciation specifying apparatus, pronunciation specifying method and recording medium
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JPH08248980A (ja) 音声認識装置
JP4511274B2 (ja) 音声データ検索装置
JP2000305930A (ja) 言語変換規則作成装置、言語変換装置及びプログラム記録媒体
JP3029403B2 (ja) 文章データ音声変換システム
JP3865149B2 (ja) 音声認識装置および方法、辞書作成装置および情報記憶媒体
JPH0962286A (ja) 音声合成装置および音声合成方法
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JP2001075963A (ja) 翻訳システム、歌詞翻訳サーバおよび記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041005