[go: up one dir, main page]

JP6221253B2 - 音声認識装置及び方法、並びに、半導体集積回路装置 - Google Patents

音声認識装置及び方法、並びに、半導体集積回路装置 Download PDF

Info

Publication number
JP6221253B2
JP6221253B2 JP2013034257A JP2013034257A JP6221253B2 JP 6221253 B2 JP6221253 B2 JP 6221253B2 JP 2013034257 A JP2013034257 A JP 2013034257A JP 2013034257 A JP2013034257 A JP 2013034257A JP 6221253 B2 JP6221253 B2 JP 6221253B2
Authority
JP
Japan
Prior art keywords
speech recognition
integrated circuit
semiconductor integrated
circuit device
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013034257A
Other languages
English (en)
Other versions
JP2014164067A (ja
Inventor
勉 野中
勉 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2013034257A priority Critical patent/JP6221253B2/ja
Priority to US14/180,672 priority patent/US9886947B2/en
Priority to CN201410065495.6A priority patent/CN104008752B/zh
Publication of JP2014164067A publication Critical patent/JP2014164067A/ja
Application granted granted Critical
Publication of JP6221253B2 publication Critical patent/JP6221253B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、及び、携帯端末等におけるヒューマンインターフェース技術の一環として、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識率が低下してしまう。
関連する従来技術として、特許文献1には、事前の準備や大規模な辞書なしに、音声により、再生すべき楽曲等のコンテンツの指定ができるようにすることを目的とする再生装置が開示されている。この再生装置は、CDに格納されているTOCデータ内の曲名データを読み込み、その曲名データを予め音声認識結果と同じフォーマットに変換して候補データとして保持しておき、音声入力された曲名に音声認識処理を施して得られた結果と候補データとを照合して、最も整合性の高い候補データに対応する楽曲を再生する。その結果、ユーザーの音声により再生すべき楽曲が指定できるので、ユーザーによる表示確認やボタン操作等が低減される。
特許文献1の再生装置においては、音声認識における選択肢が、CDに格納されている楽曲に限定されており、文字情報である曲名データが、音声認識結果と同じフォーマットの候補データに変換される。しかしながら、曲名データ等の文字情報を候補データに変換する処理は負担が大きく、ナビゲーション装置に代表されるように多種多様の情報処理を行う装置においては、既に行っている他の情報処理と並行して、この変換処理を伴う音声認識辞書の作成や更新等の作業を迅速に行うことが難しい。そのため、音声認識処理が遅延してしまうという問題が生じる。
また、特許文献2には、音声認識に用いられる音声認識辞書の更新中に音声認識を可能とすることを目的とする車載情報処理装置が開示されている。この車載情報処理装置は、情報データと当該情報データを特定する識別情報を含む属性データとを有する情報端末が接続される接続手段と、情報端末の有する属性データを取得して、該属性データの一部を音声認識情報に変換し、該音声認識情報と識別情報とを関連付けて音声認識辞書を作成する音声認識辞書作成手段と、作成された音声認識辞書を記憶する辞書記憶手段と、入力された音声を処理して該音声に対応する音声認識情報に関連する識別情報を音声認識辞書から検出する音声認識処理を行う音声認識処理手段と、検出された識別情報が設定されることにより、該識別情報に基づいて情報端末の情報データを取得する情報データ取得手段とを有し、取得された情報データに基づく情報を出力する。
特許文献2の車載情報処理装置は、音声認識辞書作成手段が音声認識辞書を作成中は、音声認識処理を辞書記憶手段に記憶された音声認識辞書により行わせて、該音声認識処理により検出される識別情報と情報端末の識別情報との一致又は不一致を判定する判定手段を有し、一致の場合と不一致の場合とで情報データ取得手段に設定する識別情報を変更して、取得される情報データを異なるものとする。しかしながら、新たな属性データが取得された後に、辞書記憶手段に記憶されている更新前の音声認識辞書を用いて音声認識処理を行っても、良好な音声認識結果が得られない場合がある。
特開2005−85433号公報(要約書) 特開2011−39202号公報(段落0004−0010)
一般に、音声認識における選択肢情報は音声認識辞書の中に存在するが、音声認識辞書の更新には時間を要するので、音声認識処理の実行中において選択肢情報の更新が困難であった。例えば、複数の質問を行いそれぞれの質問に対する返答から話者の目的を判断するような場合において、当該複数の質問とそれらに対する複数の選択肢とが設定された音声認識シナリオが用意されるが、多大なシナリオに沿った複数の質問に対する複数の選択肢を表す選択肢情報を変更することは困難であった。そこで、本発明の目的の1つは、音声認識における選択肢情報の更新を容易にすることにより、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることである。
以上の課題を解決するため、本発明の第1の観点に係る半導体集積回路装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、単語又は文章を表すテキストデータをコマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定する変換候補設定部と、変換リストを格納する変換リスト格納部と、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部とを具備する。
また、本発明の第1の観点に係る音声認識装置は、本発明の第1の観点に係る半導体集積回路装置と、単語又は文章を表すテキストデータをコマンドと共に半導体集積回路装置に送信する制御部とを具備する。
さらに、本発明の第1の観点に係る音声認識方法は、単語又は文章を表すテキストデータをコマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定するステップ(a)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(b)と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(d)とを具備する。
本発明の第1の観点によれば、受信されたコマンドに従って、変換リストにテキストデータを設定すると共に、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出することにより、音声認識における選択肢情報の更新が容易となる。その結果、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることができる。
本発明の第2の観点に係る半導体集積回路装置は、音声認識結果に対する応答内容を表す応答データを受信し、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
本発明の第2の観点に係る音声認識装置は、本発明の第2の観点に係る半導体集積回路装置と、音声認識結果を受信し、応答データ、及び、単語又は文章を表すテキストデータを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定することができる。
本発明の第3の観点に係る半導体集積回路装置においては、信号処理部が、音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
本発明の第3の観点に係る音声認識装置は、本発明の第3の観点に係る半導体集積回路装置と、音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、変換リストに追加すべきテキストデータをコマンドと共に半導体集積回路装置に送信し、一致検出を行うように半導体集積回路装置を制御する制御部とを具備する。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、選択肢を追加して一致検出を再度行うことができる。
本発明の一実施形態に係る音声認識装置の構成例を示す図。 図1に示す音声認識装置によって実施される音声認識方法を示すフロー図。 食品メニューに表示されている複数の食品名を含む変換リストAを示す図。 質問に対する複数の回答を含む変換リストBを示す図。
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、又は、携帯端末等に搭載され、ユーザーの音声を認識し、その認識結果に対応する応答や処理を行うものである。
図1に示すように、音声認識装置は、音声入力部10と、A/D変換器20と、音声認識用の半導体集積回路装置30と、D/A変換器40と、音声出力部50と、制御部60とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器40、及び、音声出力部50の少なくとも一部を、半導体集積回路装置30に内蔵しても良い。
制御部60は、ホストCPU(中央演算装置)61と、格納部62とを含んでいる。ホストCPU61は、格納部62の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。ホストCPU61は、半導体集積回路装置30に制御信号を供給することにより、半導体集積回路装置30における音声認識動作を制御する。
音声入力部10は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
半導体集積回路装置30は、信号処理部31と、音声認識DB(データベース)格納部32と、変換候補設定部33と、変換リスト格納部34と、標準パターン抽出部35と、一致検出部36とを含んでいる。さらに、半導体集積回路装置30は、音声信号合成部37、及び/又は、音声合成DB(データベース)格納部38を含んでも良い。
信号処理部31は、入力された音声信号にフーリエ変換を施すことにより音声信号の複数の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは、一致検出部36に出力される。また、信号処理部31は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部36及びホストCPU61に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部31は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部31は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部31は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部31は、各々の周波数成分の絶対値を求める。
信号処理部31は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部31は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部31は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従ってMFCCを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
音声認識データベース格納部32は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部31に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
また、1つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部36は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。
あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部36は、音声認識データベース格納部32に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って1つの音声認識データベースを選択して使用することができる。
変換候補設定部33は、変換候補となる複数の単語又は文章を表すテキストデータをコマンドと共にホストCPU61から受信すると、受信されたコマンドに従って、変換リストにテキストデータを設定する。変換リスト格納部34は、その変換リストを格納する。
コマンドとしては、例えば、変換リストにおける全てのテキストデータを新規設定するための設定コマンドと、変換リストに一部のテキストデータを追加するための追加コマンドと、変換リストから一部のテキストデータを削除するための削除コマンドとが用いられる。従って、変換リスト全体を置き換えることなく、変換リストの一部を任意に変更することも可能である。尚、変換リストには、予め所定のテキストデータの設定がなされていても良い。
変換リスト格納部34において、変換リストに新たなテキストデータが設定されると、標準パターン抽出部35は、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを、音声認識データベースから抽出する。
一致検出部36は、音声検出信号が活性化されているときに動作し、入力された音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。
例えば、一致検出部36は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。尚、変換リストにおいて、一致が検出された音節を先頭に有する変換候補が1つだけ存在する場合には、その変換候補が、変換後の単語又は文章となると判断しても良い。変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部36は、変換候補が1つに絞られるまで、一致を検出すべき音節の範囲を拡大して行く。
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」についての標準パターンと、音節「か」を構成する第2番目の音素「a」についての標準パターンとのことである。
入力された音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
特徴パターンと標準パターンとの一致が検出されると、一致検出部36は、一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストCPU61は、半導体集積回路装置30に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
ホストCPU61は、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容(質問又はメッセージ)の中から1つの応答内容を選択し、選択された応答内容を表す応答データを半導体集積回路装置30に送信する。
半導体集積回路装置30の音声信号合成部37は、ホストCPU61から音声認識結果に対する応答内容を表す応答データを受信し、受信された応答データに基づいて、出力すべき音声を表す音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部38に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部32に格納されている音声認識データベースを用いて音声信号を合成することも可能である。
その場合には、例えば、音声信号合成部37は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部37は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応するディジタルの音声信号を合成する。
D/A変換器40は、音声信号合成部37から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部50は、D/A変換器40から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、ホストCPU61から供給される応答データによって表される応答内容を、音声として出力する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
また、ホストCPU61は、選択された質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。半導体集積回路装置30の変換候補設定部33は、ホストCPU61から設定コマンド及びテキストデータを受信すると、受信された設定コマンドに従って、変換リストにテキストデータを設定する。これにより、応答データに基づいて発せられる質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを変換リストに設定することができる。
次に、本発明の一実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。図2は、図1に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
図2のステップS1において、ホストCPU61が、半導体集積回路装置30の電源投入時又はリセット後に、1つの質問又はメッセージを表す応答データ、及び、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。
ステップS2において、半導体集積回路装置30の変換候補設定部33が、設定コマンド及びテキストデータをホストCPU61から受信し、受信された設定コマンドに従って、変換リストにテキストデータを設定する。
変換リストに新たなテキストデータが設定されると、ステップS3において、標準パターン抽出部35が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
ステップS4において、音声信号合成部37が、受信された応答データに基づいて音声信号を合成することにより、音声出力部50から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップS5において、信号処理部31が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部31は、音声検出信号を活性化する。
音声検出信号が活性化されると、ステップS6において、一致検出部36が、入力された音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、ホストCPU61は、変換リストに追加すべきテキストデータを追加コマンドと共に半導体集積回路装置30に送信し、一致検出を再度行うように半導体集積回路装置30を制御しても良い。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、選択肢を追加して一致検出を再度行うことができる。
あるいは、ホストCPU61は、「もう一度お願いします」等のメッセージを表す応答データを半導体集積回路装置30に送信しても良いし、分かり易いように言い直した質問を表す応答データを半導体集積回路装置30に送信しても良い。音声信号合成部37は、ホストCPU61から供給された応答データに基づいて音声信号を合成し、音声出力部50から新たなメッセージ又は質問が発せられる。
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップS7において、ホストCPU61が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップS8に移行する。
ステップS8において、ホストCPU61が、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として変換候補となる複数の単語又は文章を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。これにより、ステップS2以降の処理が繰り返される。
本発明の一実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。
その際に、変換リストの内容は、ホストCPU61から設定コマンド及びテキストデータを半導体集積回路装置30に送信することにより、音声認識シナリオに沿って自由に設定可能である。一方、ホストCPU61から削除コマンド及びテキストデータを変換候補設定部33に送信することにより、不要となった変換候補を変換リストから削除して、音声認識処理の負担を軽減することができる。
また、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出することにより、音声認識における選択肢情報の更新が容易となる。その結果、選択肢情報の範囲を適切に制限して認識率を向上させたり、あるいは、深い音声認識階層メニューへの対応を可能にすることができる。
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の具体例について説明する。ここでは、図1に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。
自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」、「カツ丼」等の内のいずれかになることが予測される。
そこで、ホストCPU61は、自動販売機の電源投入時又はリセット後に、食品メニューに表示されている複数の食品名を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。半導体集積回路装置30の変換候補設定部33は、受信された設定コマンドに従って、受信されたテキストデータを変換リストに設定する。
また、途中で食品メニューに食品が追加された場合には、ホストCPU61は、追加された食品名を表すテキストデータを、追加コマンドと共に半導体集積回路装置30に送信する。半導体集積回路装置30の変換候補設定部33は、受信された追加コマンドに従って、受信されたテキストデータを変換リストに追加する。
一方、途中で一部の食品が完売となった場合には、ホストCPU61は、完売となった食品名を表すテキストデータを、削除コマンドと共に半導体集積回路装置30に送信する。半導体集積回路装置30の変換候補設定部33は、受信された削除コマンドに従って、受信されたテキストデータを変換リストから削除する。
このようにして、図3に示す変換リストAが作成される。図3には、食品名に対応する番号と、食品名の日本語表記と、食品名に含まれている音素のローマ字表記とが示されているが、変換リストには、食品名に含まれている音素を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。
変換リストAが作成されると、標準パターン抽出部35は、変換リストAに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「s・o」、「u」、「k・a」、「k・a」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
また、ホストCPU61は、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージを表す交信データを半導体集積回路装置30に送信する。半導体集積回路装置30の音声信号合成部37は、この交信データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージが発せられる。
音声出力部50から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て「カツ丼を下さい。」と言うと、信号処理部31は、音素「k・a・t・u・d・o・N・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部36は、信号処理部31によって生成された先頭の音節の第1番目の音素「k」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「s」、「u」、「k」、「k」等の標準パターンとを比較することにより、音素「k」の一致を検出する。
一致が検出された音素が子音を表している場合には、さらに、一致検出部36が、先頭の音節の第2番目の音素を比較する。一致検出部36は、信号処理部31によって生成された先頭の音節の第2番目の音素「a」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」、「a」等の標準パターンとを比較することにより、音素「a」の一致を検出する。
これにより、音節「カ」の一致が検出される。一致が検出された食品名が1つであれば、ここで音声認識結果が得られる。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部36は、一致を検出すべき音節の範囲を拡大する。
即ち、一致検出部36は、変換リストに含まれている上記食品名の第2番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部35に出力する。これにより、標準パターン抽出部35は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第2番目の音節「レ」及び「ツ」に含まれている音素「r・e」及び「t・u」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。
一致検出部36は、信号処理部31によって生成された第2番目の音節の第1番目の音素「t」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第1番目の音素「r」及び「t」の標準パターンとを比較することにより、音素「t」の一致を検出する。
さらに、一致検出部36は、信号処理部31によって生成された第2番目の音節の第2番目の音素「u」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第2番目の音素「e」及び「u」の標準パターンとを比較することにより、音素「u」の一致を検出する。
これにより、音節「ツ」の一致が検出される。先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部36は、一致を検出すべき音節の範囲をさらに拡大すれば良い。一致検出部36は、一致が検出された先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名「カツ丼」を特定する音声認識結果をホストCPU61に出力する。
食品名「カツ丼」を特定する情報としては、図3に示す番号、食品名の日本語表記「カツ丼」又はその一部「カツ」、食品名に含まれている音素のローマ字表記「katudoN」又はその一部「katu」等が該当する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。
このようにして第1回目の音声認識動作が終了すると、ホストCPU61は、第2回目の音声認識動作を開始する。ホストCPU61は、受け取った音声認識結果に応じて、格納部62に格納されている応答データによって表される複数の応答内容の中から1つの適切な応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として複数の変換候補を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。
半導体集積回路装置30の変換候補設定部33は、受信された設定コマンドに従って、現在のテキストデータの全てを変換リストから削除した後、受信されたテキストデータを変換リストに設定する。
例えば、ホストCPU61は、「いくつですか?」という質問を表す応答データを音声信号合成部37に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「1つ」、「2つ」、「3つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストCPU61は、「1つ」、「2つ」、「3つ」等の複数の回答を表すテキストデータを、設定コマンドと共に半導体集積回路装置30に送信する。
このようにして、図4に示す変換リストBが作成される。変換リストBが作成されると、標準パターン抽出部35は、変換リストBに含まれているテキストデータによって表される単語「1つ」、「2つ」、「3つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「h・i」、「h・u」、「m・i」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。
音声信号合成部37は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「いくつですか?」という質問が発せられる。
音声出力部50から発せられた質問に対して、ユーザーが、「1つです。」と言うと、信号処理部31は、音素「h・i・t・o・t・u・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部36は、信号処理部31によって生成された先頭の音節の第1番目の音素「h」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「h」、「h」、「m」等の標準パターンとを比較することにより、音素「h」の一致を検出する。
一致が検出された音素が子音を表している場合には、さらに、一致検出部36が、信号処理部31によって生成された先頭の音節の第2番目の音素「i」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「i」、「u」、「i」等の標準パターンとを比較することにより、音素「i」の一致を検出する。
これにより、音節「ひ」の一致が検出される。一致検出部36は、一致が検出された音節「ひ」を先頭に有する単語「1つ」を特定する音声認識結果をホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する単語「1つ」を認識することができる。
そこで、ホストCPU61は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部37に供給する。音声信号合成部37は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。
以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
10…音声入力部、20…A/D変換器、30…半導体集積回路装置、31…信号処理部、32…音声認識データベース格納部、33…変換候補設定部、34…変換リスト格納部、35…標準パターン抽出部、36…一致検出部、37…音声信号合成部、38…音声合成データベース格納部、40…D/A変換器、50…音声出力部、60…制御部、61…ホストCPU、62…格納部

Claims (8)

  1. 所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
    単語又は文章を表すテキストデータをコマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定する変換候補設定部と、
    前記変換リストを格納する変換リスト格納部と、
    前記変換リストに設定されたテキストデータによって表される前記単語又は文章の少なくとも一部に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
    入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
    前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部と、
    を具備する半導体集積回路装置。
  2. 前記音声認識結果に対する応答内容を表す応答データを受信し、前記応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する、請求項1記載の半導体集積回路装置。
  3. 前記信号処理部が、前記音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する、請求項1又は2記載の半導体集積回路装置。
  4. 前記コマンドは、
    前記変換リストにおける全てのテキストデータを新規設定するための設定コマンドと、前記変換リストに一部のテキストデータを追加するための追加コマンドと、前記変換リストから一部のテキストデータを削除するための削除コマンドと、のいずれかである、請求項1乃至3のいずれか一項に記載の半導体集積回路装置
  5. 請求項1記載の半導体集積回路装置と、
    前記単語又は文章を表すテキストデータをコマンドと共に前記半導体集積回路装置に送信する制御部と、
    を具備する音声認識装置。
  6. 請求項2記載の半導体集積回路装置と、
    前記音声認識結果を受信し、前記応答データ、及び、前記単語又は文章を表すテキストデータを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
    を具備する音声認識装置。
  7. 請求項3記載の半導体集積回路装置と、
    前記音声検出信号が活性化されてから所定の期間内に前記特徴パターンと前記標準パターンとの一致を表す音声認識結果が得られない場合に、前記変換リストに追加すべきテキストデータを前記コマンドと共に前記半導体集積回路装置に送信し、一致検出を行うように前記半導体集積回路装置を制御する制御部と、
    を具備する音声認識装置。
  8. 単語又は文章を表すテキストデータをコマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定するステップ(a)と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに設定されたテキストデータによって表される前記単語又は文章の少なくとも一部に対応する前記標準パターンを抽出するステップ(b)と、
    入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(c)と、
    前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(d)と、
    を具備する音声認識方法。
JP2013034257A 2013-02-25 2013-02-25 音声認識装置及び方法、並びに、半導体集積回路装置 Active JP6221253B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013034257A JP6221253B2 (ja) 2013-02-25 2013-02-25 音声認識装置及び方法、並びに、半導体集積回路装置
US14/180,672 US9886947B2 (en) 2013-02-25 2014-02-14 Speech recognition device and method, and semiconductor integrated circuit device
CN201410065495.6A CN104008752B (zh) 2013-02-25 2014-02-25 语音识别装置及方法、以及半导体集成电路装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013034257A JP6221253B2 (ja) 2013-02-25 2013-02-25 音声認識装置及び方法、並びに、半導体集積回路装置

Publications (2)

Publication Number Publication Date
JP2014164067A JP2014164067A (ja) 2014-09-08
JP6221253B2 true JP6221253B2 (ja) 2017-11-01

Family

ID=51614730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013034257A Active JP6221253B2 (ja) 2013-02-25 2013-02-25 音声認識装置及び方法、並びに、半導体集積回路装置

Country Status (1)

Country Link
JP (1) JP6221253B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02106800A (ja) * 1988-10-17 1990-04-18 Matsushita Refrig Co Ltd 音声認識システム
JP3006496B2 (ja) * 1996-03-21 2000-02-07 日本電気株式会社 音声認識装置
JP4471128B2 (ja) * 2006-11-22 2010-06-02 セイコーエプソン株式会社 半導体集積回路装置、電子機器

Also Published As

Publication number Publication date
JP2014164067A (ja) 2014-09-08

Similar Documents

Publication Publication Date Title
CN104008752B (zh) 语音识别装置及方法、以及半导体集成电路装置
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
EP3504709B1 (en) Determining phonetic relationships
CN104157285B (zh) 语音识别方法、装置及电子设备
US9190060B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP2015169698A (ja) 音声検索装置、音声検索方法及びプログラム
KR20250033180A (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
JP2016161935A (ja) 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
JP2007140200A (ja) 語学学習装置およびプログラム
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2019056791A (ja) 音声認識装置、音声認識方法およびプログラム
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Caballero-Morales et al. Automatic speech recognition of the Mixtec language: An ubiquitous computing application
JP2017062300A (ja) 半導体装置、システム、電子機器、及び、音声認識方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170918

R150 Certificate of patent or registration of utility model

Ref document number: 6221253

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250