JP6221253B2

JP6221253B2 - 音声認識装置及び方法、並びに、半導体集積回路装置

Info

Publication number: JP6221253B2
Application number: JP2013034257A
Authority: JP
Inventors: 勉野中
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2017-11-01
Anticipated expiration: 2033-02-25
Also published as: JP2014164067A

Description

本発明は、自動販売機、家電製品、住宅設備、車載装置（ナビゲーション装置等）、及び、携帯端末等におけるヒューマンインターフェース技術の一環として、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識率が低下してしまう。

関連する従来技術として、特許文献１には、事前の準備や大規模な辞書なしに、音声により、再生すべき楽曲等のコンテンツの指定ができるようにすることを目的とする再生装置が開示されている。この再生装置は、ＣＤに格納されているＴＯＣデータ内の曲名データを読み込み、その曲名データを予め音声認識結果と同じフォーマットに変換して候補データとして保持しておき、音声入力された曲名に音声認識処理を施して得られた結果と候補データとを照合して、最も整合性の高い候補データに対応する楽曲を再生する。その結果、ユーザーの音声により再生すべき楽曲が指定できるので、ユーザーによる表示確認やボタン操作等が低減される。

特許文献１の再生装置においては、音声認識における選択肢が、ＣＤに格納されている楽曲に限定されており、文字情報である曲名データが、音声認識結果と同じフォーマットの候補データに変換される。しかしながら、曲名データ等の文字情報を候補データに変換する処理は負担が大きく、ナビゲーション装置に代表されるように多種多様の情報処理を行う装置においては、既に行っている他の情報処理と並行して、この変換処理を伴う音声認識辞書の作成や更新等の作業を迅速に行うことが難しい。そのため、音声認識処理が遅延してしまうという問題が生じる。

また、特許文献２には、音声認識に用いられる音声認識辞書の更新中に音声認識を可能とすることを目的とする車載情報処理装置が開示されている。この車載情報処理装置は、情報データと当該情報データを特定する識別情報を含む属性データとを有する情報端末が接続される接続手段と、情報端末の有する属性データを取得して、該属性データの一部を音声認識情報に変換し、該音声認識情報と識別情報とを関連付けて音声認識辞書を作成する音声認識辞書作成手段と、作成された音声認識辞書を記憶する辞書記憶手段と、入力された音声を処理して該音声に対応する音声認識情報に関連する識別情報を音声認識辞書から検出する音声認識処理を行う音声認識処理手段と、検出された識別情報が設定されることにより、該識別情報に基づいて情報端末の情報データを取得する情報データ取得手段とを有し、取得された情報データに基づく情報を出力する。

特許文献２の車載情報処理装置は、音声認識辞書作成手段が音声認識辞書を作成中は、音声認識処理を辞書記憶手段に記憶された音声認識辞書により行わせて、該音声認識処理により検出される識別情報と情報端末の識別情報との一致又は不一致を判定する判定手段を有し、一致の場合と不一致の場合とで情報データ取得手段に設定する識別情報を変更して、取得される情報データを異なるものとする。しかしながら、新たな属性データが取得された後に、辞書記憶手段に記憶されている更新前の音声認識辞書を用いて音声認識処理を行っても、良好な音声認識結果が得られない場合がある。

特開２００５−８５４３３号公報（要約書）特開２０１１−３９２０２号公報（段落０００４−００１０）

一般に、音声認識における選択肢情報は音声認識辞書の中に存在するが、音声認識辞書の更新には時間を要するので、音声認識処理の実行中において選択肢情報の更新が困難であった。例えば、複数の質問を行いそれぞれの質問に対する返答から話者の目的を判断するような場合において、当該複数の質問とそれらに対する複数の選択肢とが設定された音声認識シナリオが用意されるが、多大なシナリオに沿った複数の質問に対する複数の選択肢を表す選択肢情報を変更することは困難であった。そこで、本発明の目的の１つは、音声認識における選択肢情報の更新を容易にすることにより、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることである。

以上の課題を解決するため、本発明の第１の観点に係る半導体集積回路装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、単語又は文章を表すテキストデータをコマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定する変換候補設定部と、変換リストを格納する変換リスト格納部と、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部とを具備する。

また、本発明の第１の観点に係る音声認識装置は、本発明の第１の観点に係る半導体集積回路装置と、単語又は文章を表すテキストデータをコマンドと共に半導体集積回路装置に送信する制御部とを具備する。

さらに、本発明の第１の観点に係る音声認識方法は、単語又は文章を表すテキストデータをコマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定するステップ（ａ）と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ（ｂ）と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｃ）と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ（ｄ）とを具備する。

本発明の第１の観点によれば、受信されたコマンドに従って、変換リストにテキストデータを設定すると共に、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出することにより、音声認識における選択肢情報の更新が容易となる。その結果、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることができる。

本発明の第２の観点に係る半導体集積回路装置は、音声認識結果に対する応答内容を表す応答データを受信し、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。

本発明の第２の観点に係る音声認識装置は、本発明の第２の観点に係る半導体集積回路装置と、音声認識結果を受信し、応答データ、及び、単語又は文章を表すテキストデータを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定することができる。

本発明の第３の観点に係る半導体集積回路装置においては、信号処理部が、音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する。これにより、ユーザーからの要求又は回答の有無を判定することができる。

本発明の第３の観点に係る音声認識装置は、本発明の第３の観点に係る半導体集積回路装置と、音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、変換リストに追加すべきテキストデータをコマンドと共に半導体集積回路装置に送信し、一致検出を行うように半導体集積回路装置を制御する制御部とを具備する。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、選択肢を追加して一致検出を再度行うことができる。

本発明の一実施形態に係る音声認識装置の構成例を示す図。図１に示す音声認識装置によって実施される音声認識方法を示すフロー図。食品メニューに表示されている複数の食品名を含む変換リストＡを示す図。質問に対する複数の回答を含む変換リストＢを示す図。

以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図１は、本発明の一実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、家電製品、住宅設備、車載装置（ナビゲーション装置等）、又は、携帯端末等に搭載され、ユーザーの音声を認識し、その認識結果に対応する応答や処理を行うものである。

図１に示すように、音声認識装置は、音声入力部１０と、Ａ／Ｄ変換器２０と、音声認識用の半導体集積回路装置３０と、Ｄ／Ａ変換器４０と、音声出力部５０と、制御部６０とを含んでいる。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器４０、及び、音声出力部５０の少なくとも一部を、半導体集積回路装置３０に内蔵しても良い。

制御部６０は、ホストＣＰＵ（中央演算装置）６１と、格納部６２とを含んでいる。ホストＣＰＵ６１は、格納部６２の記録媒体に記録されているソフトウェア（音声認識制御プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。ホストＣＰＵ６１は、半導体集積回路装置３０に制御信号を供給することにより、半導体集積回路装置３０における音声認識動作を制御する。

音声入力部１０は、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体集積回路装置３０は、信号処理部３１と、音声認識ＤＢ（データベース）格納部３２と、変換候補設定部３３と、変換リスト格納部３４と、標準パターン抽出部３５と、一致検出部３６とを含んでいる。さらに、半導体集積回路装置３０は、音声信号合成部３７、及び／又は、音声合成ＤＢ（データベース）格納部３８を含んでも良い。

信号処理部３１は、入力された音声信号にフーリエ変換を施すことにより音声信号の複数の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは、一致検出部３６に出力される。また、信号処理部３１は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部３６及びホストＣＰＵ６１に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。

ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部３１は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部３１は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部３１は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部３１は、各々の周波数成分の絶対値を求める。

信号処理部３１は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部３１は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が２０個であれば、２０個の数値が得られる。

このようにして得られた数値の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。信号処理部３１は、フレーム毎にＭＦＣＣを算出し、ＨＭＭ（隠れマルコフモデル）に従ってＭＦＣＣを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

音声認識データベース格納部３２は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。

標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。

従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部３１に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。

また、１つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部３６は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。

あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部３２は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部３６は、音声認識データベース格納部３２に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って１つの音声認識データベースを選択して使用することができる。

変換候補設定部３３は、変換候補となる複数の単語又は文章を表すテキストデータをコマンドと共にホストＣＰＵ６１から受信すると、受信されたコマンドに従って、変換リストにテキストデータを設定する。変換リスト格納部３４は、その変換リストを格納する。

コマンドとしては、例えば、変換リストにおける全てのテキストデータを新規設定するための設定コマンドと、変換リストに一部のテキストデータを追加するための追加コマンドと、変換リストから一部のテキストデータを削除するための削除コマンドとが用いられる。従って、変換リスト全体を置き換えることなく、変換リストの一部を任意に変更することも可能である。尚、変換リストには、予め所定のテキストデータの設定がなされていても良い。

変換リスト格納部３４において、変換リストに新たなテキストデータが設定されると、標準パターン抽出部３５は、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを、音声認識データベースから抽出する。

一致検出部３６は、音声検出信号が活性化されているときに動作し、入力された音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。

例えば、一致検出部３６は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。尚、変換リストにおいて、一致が検出された音節を先頭に有する変換候補が１つだけ存在する場合には、その変換候補が、変換後の単語又は文章となると判断しても良い。変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部３６は、変換候補が１つに絞られるまで、一致を検出すべき音節の範囲を拡大して行く。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、１つの音節は、１つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」についての標準パターンと、音節「か」を構成する第２番目の音素「ａ」についての標準パターンとのことである。

入力された音声信号の１つの音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の１つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

特徴パターンと標準パターンとの一致が検出されると、一致検出部３６は、一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストＣＰＵ６１は、半導体集積回路装置３０に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

ホストＣＰＵ６１は、半導体集積回路装置３０から出力される音声認識結果に応じて複数の応答内容（質問又はメッセージ）の中から１つの応答内容を選択し、選択された応答内容を表す応答データを半導体集積回路装置３０に送信する。

半導体集積回路装置３０の音声信号合成部３７は、ホストＣＰＵ６１から音声認識結果に対する応答内容を表す応答データを受信し、受信された応答データに基づいて、出力すべき音声を表す音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部３８に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部３２に格納されている音声認識データベースを用いて音声信号を合成することも可能である。

その場合には、例えば、音声信号合成部３７は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部３７は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応するディジタルの音声信号を合成する。

Ｄ／Ａ変換器４０は、音声信号合成部３７から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部５０は、Ｄ／Ａ変換器４０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、ホストＣＰＵ６１から供給される応答データによって表される応答内容を、音声として出力する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出すことができる。

また、ホストＣＰＵ６１は、選択された質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。半導体集積回路装置３０の変換候補設定部３３は、ホストＣＰＵ６１から設定コマンド及びテキストデータを受信すると、受信された設定コマンドに従って、変換リストにテキストデータを設定する。これにより、応答データに基づいて発せられる質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを変換リストに設定することができる。

次に、本発明の一実施形態に係る音声認識方法について、図１及び図２を参照しながら説明する。図２は、図１に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。

図２のステップＳ１において、ホストＣＰＵ６１が、半導体集積回路装置３０の電源投入時又はリセット後に、１つの質問又はメッセージを表す応答データ、及び、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。

ステップＳ２において、半導体集積回路装置３０の変換候補設定部３３が、設定コマンド及びテキストデータをホストＣＰＵ６１から受信し、受信された設定コマンドに従って、変換リストにテキストデータを設定する。

変換リストに新たなテキストデータが設定されると、ステップＳ３において、標準パターン抽出部３５が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

ステップＳ４において、音声信号合成部３７が、受信された応答データに基づいて音声信号を合成することにより、音声出力部５０から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップＳ５において、信号処理部３１が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部３１は、音声検出信号を活性化する。

音声検出信号が活性化されると、ステップＳ６において、一致検出部３６が、入力された音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。

音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、ホストＣＰＵ６１は、変換リストに追加すべきテキストデータを追加コマンドと共に半導体集積回路装置３０に送信し、一致検出を再度行うように半導体集積回路装置３０を制御しても良い。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、選択肢を追加して一致検出を再度行うことができる。

あるいは、ホストＣＰＵ６１は、「もう一度お願いします」等のメッセージを表す応答データを半導体集積回路装置３０に送信しても良いし、分かり易いように言い直した質問を表す応答データを半導体集積回路装置３０に送信しても良い。音声信号合成部３７は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成し、音声出力部５０から新たなメッセージ又は質問が発せられる。

音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップＳ７において、ホストＣＰＵ６１が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップＳ８に移行する。

ステップＳ８において、ホストＣＰＵ６１が、半導体集積回路装置３０から出力される音声認識結果に応じて複数の応答内容の中から１つの応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。これにより、ステップＳ２以降の処理が繰り返される。

本発明の一実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。

その際に、変換リストの内容は、ホストＣＰＵ６１から設定コマンド及びテキストデータを半導体集積回路装置３０に送信することにより、音声認識シナリオに沿って自由に設定可能である。一方、ホストＣＰＵ６１から削除コマンド及びテキストデータを変換候補設定部３３に送信することにより、不要となった変換候補を変換リストから削除して、音声認識処理の負担を軽減することができる。

また、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出することにより、音声認識における選択肢情報の更新が容易となる。その結果、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることができる。

次に、本発明の一実施形態に係る音声認識装置における音声認識動作の具体例について説明する。ここでは、図１に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。

自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」、「カツ丼」等の内のいずれかになることが予測される。

そこで、ホストＣＰＵ６１は、自動販売機の電源投入時又はリセット後に、食品メニューに表示されている複数の食品名を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。半導体集積回路装置３０の変換候補設定部３３は、受信された設定コマンドに従って、受信されたテキストデータを変換リストに設定する。

また、途中で食品メニューに食品が追加された場合には、ホストＣＰＵ６１は、追加された食品名を表すテキストデータを、追加コマンドと共に半導体集積回路装置３０に送信する。半導体集積回路装置３０の変換候補設定部３３は、受信された追加コマンドに従って、受信されたテキストデータを変換リストに追加する。

一方、途中で一部の食品が完売となった場合には、ホストＣＰＵ６１は、完売となった食品名を表すテキストデータを、削除コマンドと共に半導体集積回路装置３０に送信する。半導体集積回路装置３０の変換候補設定部３３は、受信された削除コマンドに従って、受信されたテキストデータを変換リストから削除する。

このようにして、図３に示す変換リストＡが作成される。図３には、食品名に対応する番号と、食品名の日本語表記と、食品名に含まれている音素のローマ字表記とが示されているが、変換リストには、食品名に含まれている音素を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。

変換リストＡが作成されると、標準パターン抽出部３５は、変換リストＡに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「ｓ・ｏ」、「ｕ」、「ｋ・ａ」、「ｋ・ａ」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

また、ホストＣＰＵ６１は、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージを表す交信データを半導体集積回路装置３０に送信する。半導体集積回路装置３０の音声信号合成部３７は、この交信データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージが発せられる。

音声出力部５０から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て「カツ丼を下さい。」と言うと、信号処理部３１は、音素「ｋ・ａ・ｔ・ｕ・ｄ・ｏ・Ｎ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３６は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｋ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｓ」、「ｕ」、「ｋ」、「ｋ」等の標準パターンとを比較することにより、音素「ｋ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３６が、先頭の音節の第２番目の音素を比較する。一致検出部３６は、信号処理部３１によって生成された先頭の音節の第２番目の音素「ａ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｏ」、「ａ」、「ａ」等の標準パターンとを比較することにより、音素「ａ」の一致を検出する。

これにより、音節「カ」の一致が検出される。一致が検出された食品名が１つであれば、ここで音声認識結果が得られる。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部３６は、一致を検出すべき音節の範囲を拡大する。

即ち、一致検出部３６は、変換リストに含まれている上記食品名の第２番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部３５に出力する。これにより、標準パターン抽出部３５は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第２番目の音節「レ」及び「ツ」に含まれている音素「ｒ・ｅ」及び「ｔ・ｕ」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。

一致検出部３６は、信号処理部３１によって生成された第２番目の音節の第１番目の音素「ｔ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第１番目の音素「ｒ」及び「ｔ」の標準パターンとを比較することにより、音素「ｔ」の一致を検出する。

さらに、一致検出部３６は、信号処理部３１によって生成された第２番目の音節の第２番目の音素「ｕ」の特徴パターンと、音声認識データベースから抽出された第２番目の音節の第２番目の音素「ｅ」及び「ｕ」の標準パターンとを比較することにより、音素「ｕ」の一致を検出する。

これにより、音節「ツ」の一致が検出される。先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部３６は、一致を検出すべき音節の範囲をさらに拡大すれば良い。一致検出部３６は、一致が検出された先頭の音節「カ」及び第２番目の音節「ツ」を有する食品名「カツ丼」を特定する音声認識結果をホストＣＰＵ６１に出力する。

食品名「カツ丼」を特定する情報としては、図３に示す番号、食品名の日本語表記「カツ丼」又はその一部「カツ」、食品名に含まれている音素のローマ字表記「ｋａｔｕｄｏＮ」又はその一部「ｋａｔｕ」等が該当する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。

このようにして第１回目の音声認識動作が終了すると、ホストＣＰＵ６１は、第２回目の音声認識動作を開始する。ホストＣＰＵ６１は、受け取った音声認識結果に応じて、格納部６２に格納されている応答データによって表される複数の応答内容の中から１つの適切な応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として複数の変換候補を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。

半導体集積回路装置３０の変換候補設定部３３は、受信された設定コマンドに従って、現在のテキストデータの全てを変換リストから削除した後、受信されたテキストデータを変換リストに設定する。

例えば、ホストＣＰＵ６１は、「いくつですか？」という質問を表す応答データを音声信号合成部３７に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「１つ」、「２つ」、「３つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストＣＰＵ６１は、「１つ」、「２つ」、「３つ」等の複数の回答を表すテキストデータを、設定コマンドと共に半導体集積回路装置３０に送信する。

このようにして、図４に示す変換リストＢが作成される。変換リストＢが作成されると、標準パターン抽出部３５は、変換リストＢに含まれているテキストデータによって表される単語「１つ」、「２つ」、「３つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「ｈ・ｉ」、「ｈ・ｕ」、「ｍ・ｉ」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。

音声信号合成部３７は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「いくつですか？」という質問が発せられる。

音声出力部５０から発せられた質問に対して、ユーザーが、「１つです。」と言うと、信号処理部３１は、音素「ｈ・ｉ・ｔ・ｏ・ｔ・ｕ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３６は、信号処理部３１によって生成された先頭の音節の第１番目の音素「ｈ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｈ」、「ｈ」、「ｍ」等の標準パターンとを比較することにより、音素「ｈ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３６が、信号処理部３１によって生成された先頭の音節の第２番目の音素「ｉ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｉ」、「ｕ」、「ｉ」等の標準パターンとを比較することにより、音素「ｉ」の一致を検出する。

これにより、音節「ひ」の一致が検出される。一致検出部３６は、一致が検出された音節「ひ」を先頭に有する単語「１つ」を特定する音声認識結果をホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する単語「１つ」を認識することができる。

そこで、ホストＣＰＵ６１は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部３７に供給する。音声信号合成部３７は、ホストＣＰＵ６１から供給された応答データに基づいて音声信号を合成してＤ／Ａ変換器４０に出力し、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。

以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…半導体集積回路装置、３１…信号処理部、３２…音声認識データベース格納部、３３…変換候補設定部、３４…変換リスト格納部、３５…標準パターン抽出部、３６…一致検出部、３７…音声信号合成部、３８…音声合成データベース格納部、４０…Ｄ／Ａ変換器、５０…音声出力部、６０…制御部、６１…ホストＣＰＵ、６２…格納部

Claims

所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
単語又は文章を表すテキストデータをコマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定する変換候補設定部と、
前記変換リストを格納する変換リスト格納部と、
前記変換リストに設定されたテキストデータによって表される前記単語又は文章の少なくとも一部に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。
前記音声認識結果に対する応答内容を表す応答データを受信し、前記応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する、請求項１記載の半導体集積回路装置。
前記信号処理部が、前記音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する、請求項１又は２記載の半導体集積回路装置。
前記コマンドは、
前記変換リストにおける全てのテキストデータを新規設定するための設定コマンドと、前記変換リストに一部のテキストデータを追加するための追加コマンドと、前記変換リストから一部のテキストデータを削除するための削除コマンドと、のいずれかである、請求項１乃至３のいずれか一項に記載の半導体集積回路装置。
請求項１記載の半導体集積回路装置と、
前記単語又は文章を表すテキストデータをコマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
請求項２記載の半導体集積回路装置と、
前記音声認識結果を受信し、前記応答データ、及び、前記単語又は文章を表すテキストデータを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
請求項３記載の半導体集積回路装置と、
前記音声検出信号が活性化されてから所定の期間内に前記特徴パターンと前記標準パターンとの一致を表す音声認識結果が得られない場合に、前記変換リストに追加すべきテキストデータを前記コマンドと共に前記半導体集積回路装置に送信し、一致検出を行うように前記半導体集積回路装置を制御する制御部と、
を具備する音声認識装置。
単語又は文章を表すテキストデータをコマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定するステップ（ａ）と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに設定されたテキストデータによって表される前記単語又は文章の少なくとも一部に対応する前記標準パターンを抽出するステップ（ｂ）と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｃ）と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ（ｄ）と、
を具備する音声認識方法。