JP2018116206A

JP2018116206A - 音声認識装置、音声認識方法及び音声認識システム

Info

Publication number: JP2018116206A
Application number: JP2017008105A
Authority: JP
Inventors: 信範工藤; Akinori Kudo; 諒助川; Ryo Sukegawa
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2018-07-26
Also published as: US20180211661A1

Abstract

【課題】音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消し可能とする。【解決手段】一実施形態に係る音声認識装置は、音データに基づいて、予め登録された第１ワードの認識処理を実行し、前記第１ワードを認識した場合、認識された前記第１ワードに応じた取り消し期間の間、予め登録された第２ワードの認識処理を実行する認識部と、前記認識部により前記第１ワードが認識された場合、認識された前記第１ワードに応じた制御を実行し、前記認識部により前記第２ワードが認識された場合、前記制御を取り消す制御部と、を備える。【選択図】図２

Description

本発明は、音声認識装置、音声認識方法及び音声認識システムに関する。

従来、車載装置などの分野で、音声認識技術を利用して音声を認識し、認識された音声に応じた制御を実行する音声認識装置が利用されている。このような音声認識装置を利用することにより、ユーザは、タッチパネルなどの入力装置を操作することなく、音声認識装置に所望の制御を実行させることができる。

特開平９−２９２２５５号公報特開平４−１７７４００号公報

しかしながら、従来の音声認識装置では、音声が誤認識された場合、誤認識された音声に応じて実行された制御を取り消すために、ユーザは、入力装置により煩雑な操作をしなければならなかった。

本発明は、上記の課題に鑑みてなされたものであり、音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消し可能とすることを目的とする。

一実施形態に係る音声認識装置は、音データに基づいて、予め登録された第１ワードの認識処理を実行し、前記第１ワードを認識した場合、認識された前記第１ワードに応じた取り消し期間の間、予め登録された第２ワードの認識処理を実行する認識部と、前記認識部により前記第１ワードが認識された場合、認識された前記第１ワードに応じた制御を実行し、前記認識部により前記第２ワードが認識された場合、前記制御を取り消す制御部と、を備える。

本発明の各実施形態によれば、音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消すことができる。

音声認識装置のハードウェア構成の一例を示す図。第１実施形態に係る音声認識装置の機能構成の一例を示す図。第１辞書の一例を示す図。第２辞書の一例を示す図。第１実施形態における認識処理の一例を示すフローチャート。第１実施形態における認識処理により生じた誤認識の実験結果の一例を示すグラフ。第１実施形態に係る音声認識装置が実行する処理の一例を示すフローチャート。対象ワードのスコアＳｃの遷移の一例を示すグラフ。第２実施形態における認識処理の一例を示すフローチャート。第３実施形態に係る音声認識装置の機能構成の一例を示す図。対象ワードのスコアＳｃの遷移の一例を示すグラフ。調整時間テーブルの一例を示す図。第３実施形態に係る音声認識装置が実行する処理の一例を示すフローチャート。第４実施形態に係る音声認識システムの一例を示す図。第４実施形態に係る音声認識システムの機能構成の一例を示す図。

以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。

＜第１実施形態＞
第１実施形態に係る音声認識装置について、図１〜図８を参照して説明する。本実施形態に係る音声認識装置は、音声認識技術により、発話された音声を認識し、認識された音声に応じた制御を実行する任意の装置に適用可能である。このような装置として、車載装置、オーディオ装置、テレビ、スマートフォン、携帯電話、タブレット端末、ＰＣ（Personal Computer）及びサーバなどが挙げられる。車載装置には、車載のオーディオ装置、ナビゲーション装置、テレビ、及びこれらが一体化された一体型装置などが含まれる。以下では、音声認識装置が車載装置（一体型装置）である場合を例に説明する。

まず、音声認識装置１のハードウェア構成について説明する。図１は、音声認識装置１のハードウェア構成の一例を示す図である。図１の音声認識装置１は、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、ＨＤＤ（Hard Disk Drive）１０４と、入力装置１０５と、表示装置１０６と、を備える。また、音声認識装置１は、通信インタフェース１０７と、接続インタフェース１０８と、マイク１０９と、スピーカ１１０と、バス１１１と、を備える。

ＣＰＵ１０１は、プログラムを実行することにより、音声認識装置１の各ハードウェア構成を制御し、音声認識装置１の機能を実現する。

ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムや、各種のデータを記憶する。

ＲＡＭ１０３は、ＣＰＵ１０１に作業領域を提供する。

ＨＤＤ１０４は、ＣＰＵ１０１が実行するプログラムや、各種のデータを記憶する。音声認識装置１は、ＨＤＤ１０４の代わりに、又はＨＤＤ１０４と共に、ＳＳＤ（Solid State Drive）を備えてもよい。

入力装置１０５は、ユーザの操作に応じた情報や命令を、音声認識装置１に入力する装置である。入力装置１０５は、例えば、タッチパネルやハードウェアボタンであるが、これに限られない。

表示装置１０６は、ユーザの操作に応じた画像や映像を表示する装置である。表示装置１０６は、例えば、液晶ディスプレイであるが、これに限られない。

通信インタフェース１０７は、音声認識装置１を、インターネットやＬＡＮ（Local Area Network）などのネットワークに接続するためのインタフェースである。

接続インタフェース１０８は、音声認識装置１を、ＥＣＵ（Engine Control Unit）などの外部装置に接続するためのインタフェースである。

マイク１０９は、周囲の音から音データを生成する装置である。本実施形態では、音声認識装置１の動作中、マイク１０９は常に動作しているものとする。

スピーカ１１０は、ユーザの操作に応じた音楽、音声及び操作音などの音を出力する。スピーカ１１０により、音声認識装置１のオーディオ機能や音声ナビゲーション機能が実現される。

バス１１１は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ１０４と、入力装置１０５と、表示装置１０６と、通信インタフェース１０７と、接続インタフェース１０８と、マイク１０９と、スピーカ１１０と、を接続する。

次に、本実施形態に係る音声認識装置１の機能構成について説明する。図２は、本実施形態に係る音声認識装置１の機能構成の一例を示す図である。図２の音声認識装置１は、集音部１１と、取得部１２と、辞書記憶部１３と、認識部１４と、制御部１５と、を備える。集音部１１は、マイク１０９により実現される。また、他の機能構成は、ＣＰＵ１０１がプログラムを実行することにより実現される。

集音部１１は、周囲の音から音データを生成する。

取得部１２は、集音部１１から音データを取得し、取得した音データを一時的に記憶する。取得部１２が取得する音データは、車内の音に対応する音データであるため、取得部１２が取得する音データには、機械音、雑音、音楽及び音声などに対応する音データが含まれる。取得部１２は、取得した音データを、所定時間おきに認識部１４に渡す。所定時間は、例えば、８ｍｓｅｃであるが、これに限られない。

辞書記憶部１３は、予め対象ワードが登録された辞書（テーブル）を記憶する。対象ワードとは、音声認識装置１による音声認識の対象となるワード（言葉）のことである。本明細書において、音声認識とは、音声に対応するワードを認識することに相当する。すなわち、音声認識装置１は、ユーザが発話した対象ワードを認識する。なお、ユーザとは、車両のドライバ及び乗客のうち、音声認識装置１を操作する者のことである。

本実施形態において、辞書記憶部１３は、第１辞書と、第２辞書と、を記憶する。

第１辞書には、対象ワードとして、１つ又は複数の指示ワード（第１ワード）が予め登録される。指示ワードとは、ユーザが音声認識装置１に所定の制御を実行させるためのワードである。指示ワードは、音声認識装置１の制御と対応付けられる。

図３は、第１辞書の一例を示す図である。図３に示すように、第１辞書には、ＩＤと、指示ワードと、取り消し期間と、が対応付けて登録される。ＩＤは、指示ワードを識別するための識別情報である。取り消し期間は、指示ワードごとに予め設定される期間である。取り消し期間については後述する。以下では、ＩＤがＸのワードをワードＸと称する。

図３の例では、指示ワード１２（ＩＤが１２の指示ワード）は、「自宅に帰る」であり、取り消し期間は１０ｓｅｃである。指示ワード１３は、「地図表示」であり、取り消し期間は５ｓｅｃである。指示ワード１４は、「オーディオ表示」であり、取り消し期間は５ｓｅｃである。このように、各指示ワードの取り消し期間は、それぞれ異なってもよいし、同一であってもよい。また、指示ワード１１は、「ルート案内」であり、取り消し期間は「ルートガイダンス終了まで」である。このように、取り消し期間は、所定のタイミングまでの期間として設定されてもよい。なお、指示ワードは、図３の例に限られない。

第２辞書には、対象ワードとして、１つ又は複数の否定ワード（第２ワード）と、１つ又は複数の肯定ワード（第３ワード）と、が予め登録される。否定ワードとは、ユーザが、音声認識装置１による指示ワードの認識を否定するためのワードである。肯定ワードとは、ユーザが、音声認識装置１による指示ワードの認識を肯定するためのワードである。

図４は、第２辞書の一例を示す図である。図４に示すように、第２辞書には、ＩＤと、否定ワード又は肯定ワードと、が対応付けて記憶される。図４の例では、否定ワード２１は「ＮＧ」、否定ワード２２は「戻る」、否定ワード２３は「キャンセル」である。また、肯定ワード３１は「ＯＫ」、肯定ワード３２は「ＹＥＳ」、肯定ワード３３は「はい」である。このように、否定ワードとして、否定的な意味を有するワードが設定され、肯定ワードとして、肯定的な意味を有するワードが設定される。なお、否定ワード及び肯定ワードは、図４の例に限られない。

認識部１４は、取得部１２から受け取った音データに基づいて、辞書記憶部１３に記憶された辞書に登録された対象ワードの認識処理を実行し、ユーザが発話した対象ワードを認識する。認識部１４が実行する認識処理については後述する。認識部１４は、対象ワードを認識すると、認識結果を制御部１５に通知する。認識結果には、認識部１４により認識された指示ワードが含まれる。

制御部１５は、第１辞書に登録された各指示ワードに対応付けられた制御を記憶する。また、制御部１５は、認識部１４から通知された認識結果に応じて、音声認識装置１を制御する。制御部１５による制御方法については後述する。

ここで、本実施形態における、認識部１４が実行する認識処理について説明する。図５は、本実施形態における認識処理の一例を示すフローチャートである。

まず、認識部１４は、取得部１２から音データを受け取る（ステップＳ１０１）。

認識部１４は、音データを受け取ると、辞書記憶部１３に記憶された辞書を参照し、辞書に登録された対象ワードを取得する（ステップＳ１０２）。

認識部１４は、辞書に登録された対象ワードを取得すると、取得した各対象ワードのスコアＳｃを算出する（ステップＳ１０３）。スコアＳｃとは、対象ワードと、音データと、の間の距離のことである。距離は、対象ワードと、音データと、の間の類似度を示す値である。距離が小さいほど類似度が高いことを意味し、距離が大きいほど類似度が低いことを意味する。したがって、スコアＳｃが小さい対象ワードほど、音データとの類似度が高い対象ワードとなり、スコアＳｃが大きい対象ワードほど、音データとの類似度が低い対象ワードとなる。スコアＳｃとして、例えば、対象ワードに対応する特徴ベクトルと、音データから抽出した特徴ベクトルと、の間の距離を利用できる。

認識部１４は、各対象ワードのスコアＳｃを算出すると、算出された各対象ワードのスコアＳｃと、予め設定された各対象ワードのスコアＳｃの閾値Ｓｔｈと、を比較し、スコアＳｃが閾値Ｓｔｈ以下の対象ワードがあるか判定する（ステップＳ１０４）。閾値Ｓｔｈは、対象ワードごとに異なってもよいし、同一であってもよい。

スコアＳｃが閾値Ｓｔｈ以下の対象ワードがない場合（ステップＳ１０４のＮＯ）、認識部１４は、いずれの対象ワードも認識しない。

一方、スコアＳｃが閾値Ｓｔｈ以下の対象ワードがある場合（ステップＳ１０４のＹＥＳ）、認識部１４は、Ｓｔｈ−Ｓｃが最大の対象ワードを認識する（ステップＳ１０５）。すなわち、認識部１４は、スコアＳｃが閾値Ｓｔｈ以下の対象ワードのうち、スコアＳｃと閾値Ｓｔｈとの差が最大の対象ワードを認識する。

本実施形態における認識処理は、音データさえあれば任意のタイミングで実行可能（トリガレス）な認識処理である。トリガレスな認識処理は、リアルタイムな音声認識のための認識処理として好適である。したがって、本実施形態に係る音声認識装置１は、車載装置などの、リアルタイムな音声認識を要求される音声認識装置として好適に利用できる。

ところで、一般に、音声認識では、ＦＲ（False Rejection）やＦＡ（False Acceptance）などの誤認識が発生することがある。ＦＲとは、対象ワードを発話したにもかかわらず、発話した対象ワードが認識されないという誤認識である。ＦＡとは、対象ワードを発話していないにもかかわらず、何らかの対象ワードが認識されるという誤認識である。

図６は、本実施形態における認識処理により生じた誤認識の実験結果の一例を示すグラフである。図６の横軸は閾値Ｓｔｈ、左側縦軸はＦＲの発生率、右側縦軸は１０時間で発生したＦＡの数である。また、斜線領域は閾値ＳｔｈとＦＲの発生率との関係を示し、ドット領域は閾値ＳｔｈとＦＡの発生数との関係を示す。

図６に示すように、本実施形態における認識処理では、閾値Ｓｔｈが大きいほどＦＡの発生数が増加し、閾値Ｓｔｈが小さいほどＦＲの発生率が増加する。このため、閾値Ｓｔｈをいくつに設定しても、誤認識の発生を完全に防ぐことは困難である。そこで、本実施形態に係る音声認識装置１は、誤認識が発生することを前提に、誤認識が発生した場合であっても、誤認識された対象ワードに応じた制御を容易に取り消し可能なように、処理を実行する。

なお、本実施形態において、各対象ワードの閾値Ｓｔｈは、図６のような実験結果に基づいて、誤認識の発生が抑制されるように設定されるのが好ましい。例えば、図６の例では、閾値Ｓｔｈは、４８０〜５８０に設定されるのが好ましい。

次に、本実施形態に係る音声認識装置１が実行する処理について説明する。図７は、本実施形態に係る音声認識装置１が実行する処理の一例を示すフローチャートである。音声認識装置１は、その動作中において、集音部１１により常時音データが生成される。音声認識装置１は、生成された音データに基づいて、図７の処理を繰り返し実行する。

まず、認識部１４は、前回実行した認識処理から所定時間が経過するまで待機する（ステップＳ２０１のＮＯ）。上述の通り、所定時間は、例えば、８ｍｓｅｃである。

所定時間が経過すると（ステップＳ２０１のＹＥＳ）、認識部１４は、指示ワードの認識処理を実行する（ステップＳ２０２）。すなわち、認識部１４は、取得部１２から音データを受け取り（ステップＳ１０１）、第１辞書を参照し、登録された指示ワードを取得する（ステップＳ１０２）。この際、認識部１４は、各指示ワードに対応する待機時間も取得する。そして、認識部１４は、各指示ワードのスコアＳｃを算出し（ステップＳ１０３）、指示ワードごとに、スコアＳｃと閾値Ｓｔｈとを比較し、スコアＳｃが閾値Ｓｔｈ以下の指示ワードがあるか判定する（ステップＳ１０４）。

認識部１４は、指示ワードを認識しなかった場合（ステップＳ２０３のＮＯ）、すなわち、スコアＳｃが閾値Ｓｔｈ以下の指示ワードがない場合（ステップＳ１０４のＮＯ）、認識処理を終了する。その後、処理はステップＳ２０１に戻る。このように、認識部１４は、指示ワードを認識するまで、指示ワードの認識処理を繰り返し実行する。

一方、認識部１４は、指示ワードを認識した場合（ステップＳ２０３のＹＥＳ）、すなわち、スコアＳｃが閾値Ｓｔｈ以下の指示ワードがある場合（ステップＳ１０４のＹＥＳ）、認識処理を終了し、認識結果を制御部１５に通知する。認識結果として、認識された指示ワードと、認識された指示ワードに対応する取り消し期間と、が通知される。なお、スコアＳｃが閾値Ｓｔｈ以下の指示ワードが複数ある場合には、認識部１４は、Ｓｔｈ−Ｓｃが最大の指示ワードを認識すればよい（ステップＳ１０５）。認識部１４は、以上で指示ワードの認識処理を終了し、以降、否定ワード及び肯定ワードの認識処理を実行する。

制御部１５は、認識結果を通知されると、音声認識装置１の現在の状態を一時的に記憶する（ステップＳ２０４）。ここでいう音声認識装置１の状態には、目的地などの設定値、起動中のアプリケーション、及び表示装置１０６に表示中の画面などが含まれる。以下、制御部１５に記憶された音声認識装置１の状態を、元の状態と称する。

制御部１５は、元の状態を記憶すると、認識部１４から通知された指示ワードに対応付けられた制御を実行する（ステップＳ２０５）。例えば、通知された指示ワードが「地図表示」である場合、制御部１５は、表示装置１０６に地図を表示する。

その後、認識部１４は、前回実行した認識処理から所定時間が経過するまで待機する（ステップＳ２０６のＮＯ）。

所定時間が経過すると（ステップＳ２０６のＹＥＳ）、認識部１４は、否定ワード及び肯定ワードの認識処理を実行する（ステップＳ２０７）。すなわち、認識部１４は、取得部１２から音データを受け取り（ステップＳ１０１）、第２辞書を参照し、登録された否定ワード及び肯定ワードを取得する（ステップＳ１０２）。このように、本実施形態では、認識部１４が指示ワードを認識すると、指示ワード１３が参照する辞書が第１辞書から第２辞書に切り替えられる。そして、認識部１４は、各否定ワード及び各肯定ワードのスコアＳｃを算出し（ステップＳ１０３）、否定ワード及び肯定ワードごとに、スコアＳｃと閾値Ｓｔｈとを比較し、スコアＳｃが閾値Ｓｔｈ以下の否定ワード又は肯定ワードがあるか判定する（ステップＳ１０４）。

認識部１４は、否定ワードも肯定ワードも認識しなかった場合（ステップＳ２０９のＮＯ）、すなわち、スコアＳｃが閾値Ｓｔｈ以下の否定ワード及び肯定ワードがない場合（ステップＳ１０４のＮＯ）、認識処理を終了する。

その後、制御部１５は、認識結果を通知されてから取り消し期間が経過したか判定する（ステップＳ２１０）。すなわち、制御部１５は、認識部１４が指示ワードを認識してから、当該指示ワードに対応する取り消し期間が経過したか判定する。

取り消し期間が経過した場合（ステップＳ２１０のＹＥＳ）、制御部１５は、一時的に記憶した音声認識装置１の元の状態を破棄する（ステップＳ２１１）。これにより、制御部１５がステップＳ２０７で実行した制御が確定する。その後、音声認識装置１は、ステップＳ２０１から処理を再開する。すなわち、認識部１４は、以上で否定ワード及び肯定ワードの認識処理を終了し、以降、指示ワードの認識処理を実行する。なお、制御の確定後も、ユーザが入力装置１０５を操作することにより、音声認識装置１を元の状態に戻すことは可能である。

一方、取り消し期間が経過していない場合（ステップＳ２１０のＮＯ）、処理はステップＳ２０６に戻る。このように、認識部１４は、指示ワードを認識した場合、指示ワードの認識後、取り消し期間の間、否定ワード及び肯定ワードの認識処理を繰り返し実行する。すなわち、取り消し期間は、否定ワード及び肯定ワードの認識処理を繰り返し実行する期間に相当する。

ステップＳ２０７の認識処理において、認識部１４は、否定ワードを認識した場合（ステップＳ２０８のＹＥＳ）、その旨を制御部１５に通知し、認識処理を終了する。

制御部１５は、否定ワードが認識されたことを通知されると、ステップＳ２０５において実行した、指示ワードに応じた制御を取り消す（ステップＳ２１２）。すなわち、制御部１５は、音声認識装置１の状態を元の状態に戻す。その後、処理はステップＳ２１１に進む。

このように、取り消し期間の間に否定ワードが認識された場合、指示ワードに応じた制御が取り消される。すなわち、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。

なお、上述の通り、取り消し期間は、否定ワードの発話により指示ワードに応じた制御を取り消し可能な期間であるため、誤認識が発生しやすい指示ワードほど長く設定されるのが好ましい。

一方、ステップＳ２０７の認識処理において、認識部１４は、肯定ワードを認識した場合（ステップＳ２０９のＹＥＳ）、その旨を制御部１５に通知し、認識処理を終了する。その後、処理はステップＳ２１１に進む。

このように、取り消し期間の間に肯定ワードが認識された場合、取り消し期間の経過を待たずに、指示ワードに応じた制御が確定する。すなわち、ユーザは、取り消し期間の間に肯定ワードを発話することにより、指示ワードに応じた制御を早期に確定することができる。結果として、制御部１５の負荷を軽減することができる。また、否定ワードのＦＡの発生により、指示ワードに応じた制御が誤って取り消されることを抑制することができる。

ここで、本実施形態に係る音声認識装置１が実行する処理について、図８を参照して具体的に説明する。図８は、対象ワードのスコアＳｃの遷移の一例を示すグラフである。図８の横軸は時間、縦軸はスコアＳｃ、破線は閾値Ｓｔｈである。また、図８の実線矢印は指示ワードのスコアＳｃの遷移を示し、破線矢印は否定ワードのスコアＳｃの遷移を示す。なお、以下の説明では、指示ワード及び否定ワードは、それぞれ１つずつ登録されているものとする。また、指示ワード及び否定ワードの閾値Ｓｔｈは同じであるものとする。

図８の例では、時刻Ｔ０〜Ｔ１の間、指示ワードのスコアＳｃは閾値Ｓｔｈより大きいため、指示ワードは認識されない。したがって、音声認識装置１は、時刻Ｔ０〜Ｔ１の間、ステップＳ２０１〜Ｓ２０３の処理を繰り返し実行する。

その後、時刻Ｔ２において、指示ワードのスコアＳｃが閾値Ｓｔｈ以下となっている。したがって、音声認識装置１は、時刻Ｔ２において、指示ワードを認識し（ステップＳ２０３のＹＥＳ）、元の状態を記憶し（ステップＳ２０４）、指示ワードに応じた制御を実行する（ステップＳ２０５）。

図８の例では、取り消し期間は時刻Ｔ２〜Ｔ６である。また、時刻Ｔ３〜Ｔ４の間、否定ワードのスコアＳｃは閾値Ｓｔｈより大きいため、否定ワードは認識されない。このため、音声認識装置１は、時刻Ｔ３〜Ｔ４の間、ステップＳ２０６〜Ｓ２１０の処理を繰り返し実行する。

その後、時刻Ｔ５において、否定ワードのスコアＳｃが閾値Ｓｔｈ以下となっている。したがって、音声認識装置１は、時刻Ｔ５において、否定ワードを認識し（ステップＳ２０８のＹＥＳ）、指示ワードに応じた制御を取り消し（ステップＳ２１２）、元の状態を破棄する（ステップＳ２１１）。これにより、音声認識装置１の状態が、時刻Ｔ２において指示ワードに応じた制御を実行する前の状態に戻る。以降、音声認識装置１は、ステップＳ２０１から処理を再開する。

なお、上述の通り、取り消し期間の間に肯定ワードが認識された場合には、音声認識装置１は、肯定ワードが認識された時点で指示ワードに応じた制御を確定し、ステップＳ２０１から処理を再開する。また、否定ワードも肯定ワードも認識されずに取り消し期間が経過した場合には、音声認識装置１は、取り消し期間が経過した時点で指示ワードに応じた制御を確定し、ステップＳ２０１から処理を再開する。

以上説明した通り、本実施形態によれば、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。したがって、ユーザは、指示ワードが誤認識された場合であっても、誤認識された指示ワードに応じて実行された制御を、入力装置１０５を操作することなく、容易に取り消すことができる。結果として、ユーザの負担を軽減し、音声認識装置１の利便性を向上させることができる。

なお、以上では、肯定ワードが対象ワードとして登録される場合を例に説明したが、肯定ワードは対象ワードとして登録されなくてもよい。肯定ワードが対象ワードとして登録されない場合であっても、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。肯定ワードを登録しない場合、音声認識装置１は、図７のフローチャートからステップＳ２０９を除いた処理を実行すればよい。

また、以上では、指示ワードが第１辞書に登録され、否定ワード及び肯定ワードが第２辞書に登録される場合を例に説明したが、指示ワード、否定ワード及び肯定ワードは、同一の辞書に登録されてもよい。この場合、辞書に、指示ワードを登録する第１エリアと、否定ワード及び肯定ワードを登録する第２エリアと、を予め設定すればよい。認識部１４は、参照するエリアを切り替えることにより、指示ワードの認証処理と、否定ワード及び肯定ワードの認証処理と、を切り替えることができる。また、各対象ワードを、その対象ワードの種類を示す情報（例えば、フラグなど）と対応付けて辞書に登録してもよい。認識部１４は、参照する対象ワードの種類を切り替えることにより、指示ワードの認証処理と、否定ワード及び肯定ワードの認証処理と、を切り替えることができる。

＜第２実施形態＞
第２実施形態に係る音声認識装置１について、図９を参照して説明する。本実施形態では、認識部１４による認識処理の他の例について説明する。なお、本実施形態に係る音声認識装置１のハードウェア構成及び機能構成は第１実施形態と同様である。

以下、本実施形態における、認識部１４が実行する認識処理について説明する。本実施形態において、認識部１４は、集音部１１が生成した音データに含まれる、音声に対応する音データの区間（以下、「音声区間」という）に基づいて、対象ワードを認識する。このために、認識部１４は、音声区間の始点及び終点を検出する。図９は、本実施形態における認識処理の一例を示すフローチャートである。

まず、認識部１４は、取得部１２から音データを受け取る（ステップＳ３０１）。

認識部１４は、音声区間の始点を未検出の場合（ステップＳ３０２のＮＯ）、取得部１２から音データを受け取ると、受け取った音データに基づいて、音声区間の始点の検出処理を実行する（ステップＳ３１０）。認識部１４は、音声区間の始点の検出処理として、音データの振幅や混合ガウス分布を利用する既存の任意の検出処理を利用できる。

その後、認識部１４は、取得部１２から受け取った音データを一時的に記憶し（ステップＳ３１１）、認識処理を終了する。

一方、認識部１４は、音声区間の始点を検出済みの場合（ステップＳ３０２のＹＥＳ）、取得部１２から音データを受け取ると、受け取った音データに基づいて、音声区間の終点の検出処理を実行する（ステップＳ３０３）。認識部１４は、音声区間の終点の検出処理として、音データの振幅や混合ガウス分布を利用する既存の任意の検出処理を利用できる。

認識部１４は、音声区間の終点を検出しなかった場合（ステップＳ３０４のＮＯ）、取得部１２から受け取った音データを一時的に記憶し（ステップＳ３１１）、認識処理を終了する。

一方、認識部１４は、音声区間の終点を検出した場合（ステップＳ３０４のＹＥＳ）、一時的に記憶している、音声区間の始点から音データと、ステップＳ３０１で取得した音データと、に基づいて、発話ワードを認識する（ステップＳ３０５）。すなわち、認識部１４は、音声区間の始点から終点までの音データに基づいて、発話ワードを認識する。発話ワードとは、ユーザが発話したワードのことであり、音声区間の音データに対応する。認識部１４は、予め用意された音響情報や言語情報を利用する既存の任意の方法で、発話ワードを認識することができる。

認識部１４は、発話ワードを認識すると、辞書記憶部１３に記憶された辞書を参照し、辞書に登録された対象ワードを取得する（ステップＳ３０６）。

認識部１４は、取得した対象ワードの中に、発話ワードと一致する対象ワードがない場合（ステップＳ３０７のＮＯ）、一時的に記憶した、音声区間の始点から終点までの音データを破棄し（ステップＳ３０９）、認識処理を終了する。

一方、認識部１４は、取得した対象ワードの中に、発話ワードと一致する対象ワードがある場合（ステップＳ３０７のＹＥＳ）、発話ワードと一致する対象ワードを認識する（ステップＳ３０８）。その後、処理はステップＳ３０９に進む。

本実施形態における認識処理は、音声区間の終点の検出をトリガとして音声認識を実行する認識処理である。この認識処理では、音声区間の終点が検出された場合を除き、音声区間の始点又は終点の検出処理だけが実行される。したがって、認識処理のたびに各対象ワードのスコアＳｃを算出する、第１実施形態における認識処理に比べて、認識部１４の負荷を軽減することができる。

なお、本実施形態において、認識部１４は、発話ワードを認識し、対象ワードを取得した後、各対象ワードと発話ワードとの類似度を算出し、類似度が予め設定された閾値以上の対象ワードを認識してもよい。類似度として、最小編集距離などを利用できる。類似度が最小編集距離である場合、認識部１４は、発話ワードとの間の最小編集距離が閾値以下の対象ワードを認識すればよい。

また、本実施形態において、認識部は、音声区間の終点を検出した後、音声区間の始点から終点までの音データに基づいて、各対象ワードのスコアＳｃを算出し、各対象ワードのスコアＳｃと閾値Ｓｔｈとを比較することにより、対象ワードを認識してもよい。この場合、認識部１４は、第１実施形態と同様に、スコアＳｃが閾値Ｓｔｈ以下の対象ワードのうち、スコアＳｃと閾値Ｓｔｈとの差が最大の対象ワードを認識すればよい。

＜第３実施形態＞
第３実施形態に係る音声認識装置１について、図１０〜図１３を参照して説明する。本実施形態では、取り消し期間の調整について説明する。なお、本実施形態に係る音声認識装置１のハードウェア構成は、第１実施形態と同様である。

まず、本実施形態に係る音声認識装置１の機能構成について説明する。図１０は、本実施形態に係る音声認識装置１の機能構成の一例を示す図である。図１０の音声認識装置１は、調整部１６を更に備える。調整部１６は、ＣＰＵ１０１がプログラムを実行することにより実現される。なお、他の機能構成は、第１実施形態と同様である。

調整部１６は、認識部１４により認識された指示ワードに対応する取り消し期間を、指示ワードの認識確度Ａに基づいて調整する。認識確度Ａは、認識された指示ワードの確からしさを示す値である。認識確度Ａとして、例えば、指示ワードの閾値ＳｔｈとピークスコアＳｐとの差（Ｓｔｈ−Ｓｐ）を利用できる。閾値ＳｔｈとピークスコアＳｐとの差が大きいほど、認識確度Ａが高いことを意味する。また、閾値ＳｔｈとピークスコアＳｐとの差が小さいほど、認識確度Ａが低いことを意味する。

ピークスコアＳｐとは、指示ワードのスコアＳｃのピーク値のことである。具体的には、ピークスコアＳｐは、指示ワードの認識後のスコアＳｃであって、スコアＳｃが初めて増加する直前のスコアＳｃのことである。

ここで、認識確度Ａについて、図１１を参照して具体的に説明する。図１１は、対象ワードのスコアＳｃの遷移の一例を示すグラフである。図１１の縦軸はスコアＳｃ、横軸は時刻、破線は閾値Ｓｔｈ、一点鎖線はピークスコアＳｐである。また、図１１の実線矢印は、指示ワードのスコアＳｃの遷移を示す。

図１１の例では、時刻Ｔ７において、指示ワードのスコアＳｃが閾値Ｓｔｈ以下となっている。このため、認識部１４は、時刻Ｔ７において指示ワードを認識する。その後、指示ワードのスコアＳｃは、時刻Ｔ８まで単調に減少し、時刻Ｔ９において増加している。このため、図１１に示すように、指示ワードのピークスコアＳｐは、時刻Ｔ７以降にスコアＳｃが初めて増加する時刻Ｔ９の直前の時刻Ｔ８におけるスコアＳｃとなる。また、認識確度Ａは、閾値Ｓｔｈと、時刻Ｔ８におけるスコアＳｃ（ピークスコアＳｐ）と、の差となる。

本実施形態では、認識部１４は、認識確度Ａを算出する（ピークスコアＳｐを検出する）ために、指示ワードの認識後、所定の検出期間の間、指示ワードのスコアＳｃの算出を継続する。検出期間は、例えば、１ｓｅｃであるが、これに限られない。検出期間として、取り消し期間より短い任意の期間を設定できる。

調整部１６は、指示ワードの認識確度Ａが高いほど、すなわち、指示ワードの誤認識が発生した可能性が低いほど、取り消し期間が短くなるように、取り消し期間を調整する。これは、指示ワードが正常に認識された場合には、制御部１５の負荷を軽減するために、指示ワードに応じた制御を早期に確定するのが好ましいためである。

一方、調整部１６は、指示ワードの認識確度Ａが低いほど、すなわち、指示ワードの誤認識が発生した可能性が高いほど、取り消し期間が長くなるように、取り消し期間を調整する。これは、指示ワードの誤認識が発生した場合には、取り消し期間が長いのが好ましいためである。

調整部１６は、取り消し期間を調整する調整時間を、認識確度Ａに基づいて算出してもよい。また、調整部１６は、認識確度Ａごとに予め設定された調整時間が登録された、調整時間テーブルを備えてもよい。この場合、調整部１６は、調整時間テーブルを参照して、認識確度Ａに対応する調整時間を取得すればよい。

図１２は、調整時間テーブルの一例を示す図である。図１２の例では、認識確度Ａは、閾値ＳｔｈとピークスコアＳｐとの差（Ｓｔｈ−Ｓｐ）である。（Ｓｔｈ−Ｓｐ）が４０未満の場合、調整時間は＋６ｓｅｃであり、認識確度Ａが２００以上２４０未満の場合、調整時間は−４ｓｅｃである。このように、閾値ＳｔｈとピークスコアＳｐとの差が小さい（認識確度Ａが低い）ほど、取り消し期間が長くなるように調整時間が登録される。また、閾値ＳｔｈとピークスコアＳｐとの差が大きい（認識確度Ａが高い）ほど、取り消し期間が短くなるように調整時間が登録される。

次に、本実施形態に係る音声認識装置１が実行する処理について説明する。図１３は、本実施形態に係る音声認識装置１が実行する処理の一例を示すフローチャートである。図１３のフローチャートは、図７のフローチャートのステップＳ２０６とステップＳ２０７との間に、ステップＳ２１３〜Ｓ２１８を追加したものに相当する。以下、ステップＳ２１３〜Ｓ２１８について説明する。

認識部１４は、指示ワードの認識後、所定時間が経過すると（ステップＳ２０６のＹＥＳ）、取り消し期間が調整部１６により調整済みであるか判定する（ステップＳ２１３）。取り消し期間が調整済みである場合（ステップＳ２１３のＹＥＳ）、処理はステップＳ２０７に進む。

一方、認識部１４は、取り消し期間が調整部１６により調整されていない場合（ステップＳ２１３のＮＯ）、指示ワードの認識後に検出期間が経過したか判定する（ステップＳ２１４）。検出期間が経過している場合（ステップＳ２１４のＹＥＳ）、処理はステップＳ２０７に進む。

一方、認識部１４は、検出期間が経過していない場合（ステップＳ２１４のＮＯ）、指示ワードのスコアＳｃを算出する（ステップＳ２１５）。

認識部１４は、指示ワードのスコアＳｃを算出すると、算出したスコアＳｃが、前回算出したスコアＳｃより増加したか判定する（ステップＳ２１６）。指示ワードのスコアＳｃが増加していない場合（ステップＳ２１６のＮＯ）、処理はステップＳ２０７に進む。

一方、認識部１４は、指示ワードのスコアＳｃが増加した場合（ステップＳ２１６のＹＥＳ）、認識確度Ａを算出する（ステップＳ２１７）。具体的には、認識部１４は、指示ワードの閾値Ｓｔｈと、前回算出した指示ワードのスコアＳｃと、の差を算出する。これは、図１１を参照して説明した通り、今回算出した指示ワードのスコアＳｃが増加した場合、前回算出した指示ワードのスコアＳｃが、指示ワードのピークスコアＳｐに相当するためである。認識部１４は、認識確度Ａを算出すると、算出した認識確度Ａと、指示ワードの取り消し期間と、を調整部１６に渡す。

調整部１６は、認識部１４から認識確度Ａ及び取り消し期間を受け取ると、認識確度Ａに基づいて取り消し期間を調整する（ステップＳ２１８）。具体的には、調整部１６は、調整時間テーブルを参照して、認識確度Ａに応じた調整時間を取得し、取得した調整時間を取り消し期間に加算する。調整部１６は、認識確度Ａに基づいて調整時間を算出してもよい。調整部１６は、取り消し期間を調整すると、調整された取り消し期間を認識部１４及び制御部１５に渡す。その後、処理はステップＳ２０７に進む。以降の処理では、認識部１４及び制御部１５は、調整後の取り消し期間に基づいて、処理を実行する。

以上説明した通り、本実施形態によれば、指示ワードの認識確度Ａに基づいて、取り消し期間を調整することができる。これにより、取り消し期間を、誤認識が発生した可能性の高さに応じた適切な長さに調整することができる。

なお、本実施形態において、認識確度Ａは、閾値ＳｔｈとピークスコアＳｐとの差に限られない。認識確度Ａとして、認識された指示ワードの確からしさを示す、認識処理に応じた任意の値を利用できる。例えば、認識確度Ａは、閾値ＳｔｈとピークスコアＳｐとの差を、閾値Ｓｔｈなどの基準値で除算した値であってもよい。また、認識部１４が第２実施形態における認識処理を実行する場合には、認識確度Ａは、類似度（最小編集距離など）と閾値との差や、当該差を閾値などの基準値で除算した値などであってもよい。

＜第４実施形態＞
第４実施形態に係る音声認識システム２について、図１４及び図１５を参照して説明する。本実施形態に係る音声認識システム２は、第１実施形態に係る音声認識装置１と同様の機能を実現する。

図１４は、本実施形態に係る音声認識システム２の一例を示す図である。図１４の音声認識システム２は、インターネットやＬＡＮなどのネットワークを介して接続された、音声認識端末２１と、複数の対象装置２２Ａ〜２２Ｃと、により構成されている。

音声認識端末２１は、対象装置２２Ａ〜２２Ｃから音データを受信し、受信した音データに基づいて対象ワードを認識し、認識結果を対象装置２２Ａ〜２２Ｃに送信する。音声認識端末２１は、ネットワークを介して通信可能な任意の装置で有り得る。本実施形態では、音声認識端末２１がサーバである場合を例に説明する。

なお、音声認識端末２１のハードウェア構成は、図１と同様である。ただし、音声認識端末２１は、対象装置２２Ａ〜２２Ｃから音データを受信するため、マイクを備えなくてもよい。

対象装置２２Ａ〜２２Ｃは、マイクから入力された音データを音声認識端末２１に送信し、音声認識端末２１から対象ワードの認識結果を受信する。対象装置２２Ａ〜２２Ｃは、音声認識端末２１から受信した認識結果に応じて動作する。対象装置２２Ａ〜２２Ｃは、ネットワークを介して通信可能であり、かつ、マイクにより音データを取得可能な任意の装置で有り得る。このような装置として、例えば、車載装置、オーディオ装置、テレビ、スマートフォン、携帯電話、タブレット端末及びＰＣなどが挙げられる。本実施形態では、対象装置２２Ａ〜２２Ｃが車載装置である場合を例に説明する。以下、対象装置２２Ａ〜２２Ｃを区別しない場合、対象装置２２と称する。

なお、対象装置２２のハードウェア構成は、図１と同様である。また、図１４の例では、音声認識システム２には、３つの対象装置２２が含まれるが、１つ、２つ又は３つ以上の対象装置２２が含まれてもよい。また、音声認識システム２には、複数種類の対象装置２２が含まれてもよい。

次に、本実施形態に係る音声認識システム２の機能構成について説明する。図１５は、本実施形態に係る音声認識システム２の機能構成の一例を示す図である。図１５の音声認識端末２１は、取得部１２と、辞書記憶部１３と、認識部１４と、を備える。また、図１５の対象装置２２は、集音部１１と、制御部１５と、を備える。これらの各機能構成は、第１実施形態と同様である。ただし、制御部１５は、音声認識端末２１ではなく、対象装置２２の制御を実行する。

以上のような構成により、本実施形態に係る音声認識システム２は、第１実施形態と同様の処理を実行し、第１実施形態と同様の効果を得ることができる。ただし、第１実施形態とは異なり、音データ及び対象ワードの認識結果は、ネットワークを介して送信又は受信される。

また、本実施形態によれば、１つの音声認識端末２１により、複数の対象装置２２の認識処理を実行することができる。これにより、各対象装置２２の負荷を軽減することができる。

なお、音声認識端末２１の辞書記憶部１３には、対象装置２２ごとに、異なる対象ワードが登録された辞書が記憶されてもよい。また、音声認識端末２１の認識部１４は、第２実施形態における認識処理を実行してもよい。また、音声認識端末２１に調整部１６を設けてもよい。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１：音声認識装置
２：音声認識システム
１１：集音部
１２：取得部
１３：辞書記憶部
１４：認識部
１５：制御部
２１：音声認識端末
２２：対象装置

Claims

音データに基づいて、予め登録された第１ワードの認識処理を実行し、前記第１ワードを認識した場合、認識された前記第１ワードに応じた取り消し期間の間、予め登録された第２ワードの認識処理を実行する認識部と、
前記認識部により前記第１ワードが認識された場合、認識された前記第１ワードに応じた制御を実行し、前記認識部により前記第２ワードが認識された場合、前記制御を取り消す制御部と、
を備える音声認識装置。
前記認識部は、前記第１ワードを認識した場合、認識された前記第１ワードに応じた前記取り消し期間の間、予め登録された第３ワードの認識処理を実行する
請求項１に記載の音声認識装置。
前記認識部は、前記第３ワードを認識した場合、前記第２ワードの認識処理を終了する
請求項２に記載の音声認識装置。
前記第１ワードの認識確度に基づいて、前記取り消し期間を調整する調整部を更に備える
請求項１乃至請求項３のいずれか１項に記載の音声認識装置。
前記調整部は、前記第１ワードの前記認識確度が高いほど前記取り消し期間が短くなるように、前記取り消し期間を調整する
請求項４に記載の音声認識装置。
前記第１ワードと、前記第２ワードと、はそれぞれ異なる辞書に登録される
請求項１乃至請求項５のいずれか１項に記載の音声認識装置。
前記第１ワードと、前記第２ワードと、は同一の辞書に登録される
請求項１乃至請求項５のいずれか１項に記載の音声認識装置。
前記認識部は、所定時間毎に、前記音データと前記第１ワードとの類似度を算出し、算出された前記類似度に基づいて、前記第１ワードを認識する
請求項１乃至請求項７のいずれか１項に記載の音声認識装置。
音データに基づいて、予め登録された第１ワードの認識処理を実行し、前記第１ワードを認識した場合、認識された前記第１ワードに応じた取り消し期間の間、予め登録された第２ワードの認識処理を実行する認識工程と、
前記認識工程により前記第１ワードが認識された場合、認識された前記第１ワードに応じた制御を実行し、前記認識工程により前記第２ワードが認識された場合、前記制御を取り消す制御工程と、
を含む音声認識方法。
ネットワークを介して接続された音声認識端末及び対象装置を備える音声認識システムであって、
前記音声認識端末は、音データに基づいて、予め登録された第１ワードの認識処理を実行し、前記第１ワードを認識した場合、認識された前記第１ワードに応じた取り消し期間の間、予め登録された第２ワードの認識処理を実行する認識部を備え、
前記対象装置は、前記認識部により前記第１ワードが認識された場合、認識された前記第１ワードに応じた制御を実行し、前記認識部により前記第２ワードが認識された場合、前記制御を取り消す制御部を備える
音声認識システム。