[go: up one dir, main page]

JP2018116206A - 音声認識装置、音声認識方法及び音声認識システム - Google Patents

音声認識装置、音声認識方法及び音声認識システム Download PDF

Info

Publication number
JP2018116206A
JP2018116206A JP2017008105A JP2017008105A JP2018116206A JP 2018116206 A JP2018116206 A JP 2018116206A JP 2017008105 A JP2017008105 A JP 2017008105A JP 2017008105 A JP2017008105 A JP 2017008105A JP 2018116206 A JP2018116206 A JP 2018116206A
Authority
JP
Japan
Prior art keywords
word
recognition
recognized
unit
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017008105A
Other languages
English (en)
Inventor
信範 工藤
Akinori Kudo
信範 工藤
諒 助川
Ryo Sukegawa
諒 助川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2017008105A priority Critical patent/JP2018116206A/ja
Priority to US15/725,639 priority patent/US20180211661A1/en
Publication of JP2018116206A publication Critical patent/JP2018116206A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Abstract

【課題】 音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消し可能とする。【解決手段】 一実施形態に係る音声認識装置は、音データに基づいて、予め登録された第1ワードの認識処理を実行し、前記第1ワードを認識した場合、認識された前記第1ワードに応じた取り消し期間の間、予め登録された第2ワードの認識処理を実行する認識部と、前記認識部により前記第1ワードが認識された場合、認識された前記第1ワードに応じた制御を実行し、前記認識部により前記第2ワードが認識された場合、前記制御を取り消す制御部と、を備える。【選択図】 図2

Description

本発明は、音声認識装置、音声認識方法及び音声認識システムに関する。
従来、車載装置などの分野で、音声認識技術を利用して音声を認識し、認識された音声に応じた制御を実行する音声認識装置が利用されている。このような音声認識装置を利用することにより、ユーザは、タッチパネルなどの入力装置を操作することなく、音声認識装置に所望の制御を実行させることができる。
特開平9−292255号公報 特開平4−177400号公報
しかしながら、従来の音声認識装置では、音声が誤認識された場合、誤認識された音声に応じて実行された制御を取り消すために、ユーザは、入力装置により煩雑な操作をしなければならなかった。
本発明は、上記の課題に鑑みてなされたものであり、音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消し可能とすることを目的とする。
一実施形態に係る音声認識装置は、音データに基づいて、予め登録された第1ワードの認識処理を実行し、前記第1ワードを認識した場合、認識された前記第1ワードに応じた取り消し期間の間、予め登録された第2ワードの認識処理を実行する認識部と、前記認識部により前記第1ワードが認識された場合、認識された前記第1ワードに応じた制御を実行し、前記認識部により前記第2ワードが認識された場合、前記制御を取り消す制御部と、を備える。
本発明の各実施形態によれば、音声が誤認識された場合であっても、誤認識された音声に応じて実行された制御を容易に取り消すことができる。
音声認識装置のハードウェア構成の一例を示す図。 第1実施形態に係る音声認識装置の機能構成の一例を示す図。 第1辞書の一例を示す図。 第2辞書の一例を示す図。 第1実施形態における認識処理の一例を示すフローチャート。 第1実施形態における認識処理により生じた誤認識の実験結果の一例を示すグラフ。 第1実施形態に係る音声認識装置が実行する処理の一例を示すフローチャート。 対象ワードのスコアScの遷移の一例を示すグラフ。 第2実施形態における認識処理の一例を示すフローチャート。 第3実施形態に係る音声認識装置の機能構成の一例を示す図。 対象ワードのスコアScの遷移の一例を示すグラフ。 調整時間テーブルの一例を示す図。 第3実施形態に係る音声認識装置が実行する処理の一例を示すフローチャート。 第4実施形態に係る音声認識システムの一例を示す図。 第4実施形態に係る音声認識システムの機能構成の一例を示す図。
以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。
<第1実施形態>
第1実施形態に係る音声認識装置について、図1〜図8を参照して説明する。本実施形態に係る音声認識装置は、音声認識技術により、発話された音声を認識し、認識された音声に応じた制御を実行する任意の装置に適用可能である。このような装置として、車載装置、オーディオ装置、テレビ、スマートフォン、携帯電話、タブレット端末、PC(Personal Computer)及びサーバなどが挙げられる。車載装置には、車載のオーディオ装置、ナビゲーション装置、テレビ、及びこれらが一体化された一体型装置などが含まれる。以下では、音声認識装置が車載装置(一体型装置)である場合を例に説明する。
まず、音声認識装置1のハードウェア構成について説明する。図1は、音声認識装置1のハードウェア構成の一例を示す図である。図1の音声認識装置1は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、HDD(Hard Disk Drive)104と、入力装置105と、表示装置106と、を備える。また、音声認識装置1は、通信インタフェース107と、接続インタフェース108と、マイク109と、スピーカ110と、バス111と、を備える。
CPU101は、プログラムを実行することにより、音声認識装置1の各ハードウェア構成を制御し、音声認識装置1の機能を実現する。
ROM102は、CPU101が実行するプログラムや、各種のデータを記憶する。
RAM103は、CPU101に作業領域を提供する。
HDD104は、CPU101が実行するプログラムや、各種のデータを記憶する。音声認識装置1は、HDD104の代わりに、又はHDD104と共に、SSD(Solid State Drive)を備えてもよい。
入力装置105は、ユーザの操作に応じた情報や命令を、音声認識装置1に入力する装置である。入力装置105は、例えば、タッチパネルやハードウェアボタンであるが、これに限られない。
表示装置106は、ユーザの操作に応じた画像や映像を表示する装置である。表示装置106は、例えば、液晶ディスプレイであるが、これに限られない。
通信インタフェース107は、音声認識装置1を、インターネットやLAN(Local Area Network)などのネットワークに接続するためのインタフェースである。
接続インタフェース108は、音声認識装置1を、ECU(Engine Control Unit)などの外部装置に接続するためのインタフェースである。
マイク109は、周囲の音から音データを生成する装置である。本実施形態では、音声認識装置1の動作中、マイク109は常に動作しているものとする。
スピーカ110は、ユーザの操作に応じた音楽、音声及び操作音などの音を出力する。スピーカ110により、音声認識装置1のオーディオ機能や音声ナビゲーション機能が実現される。
バス111は、CPU101と、ROM102と、RAM103と、HDD104と、入力装置105と、表示装置106と、通信インタフェース107と、接続インタフェース108と、マイク109と、スピーカ110と、を接続する。
次に、本実施形態に係る音声認識装置1の機能構成について説明する。図2は、本実施形態に係る音声認識装置1の機能構成の一例を示す図である。図2の音声認識装置1は、集音部11と、取得部12と、辞書記憶部13と、認識部14と、制御部15と、を備える。集音部11は、マイク109により実現される。また、他の機能構成は、CPU101がプログラムを実行することにより実現される。
集音部11は、周囲の音から音データを生成する。
取得部12は、集音部11から音データを取得し、取得した音データを一時的に記憶する。取得部12が取得する音データは、車内の音に対応する音データであるため、取得部12が取得する音データには、機械音、雑音、音楽及び音声などに対応する音データが含まれる。取得部12は、取得した音データを、所定時間おきに認識部14に渡す。所定時間は、例えば、8msecであるが、これに限られない。
辞書記憶部13は、予め対象ワードが登録された辞書(テーブル)を記憶する。対象ワードとは、音声認識装置1による音声認識の対象となるワード(言葉)のことである。本明細書において、音声認識とは、音声に対応するワードを認識することに相当する。すなわち、音声認識装置1は、ユーザが発話した対象ワードを認識する。なお、ユーザとは、車両のドライバ及び乗客のうち、音声認識装置1を操作する者のことである。
本実施形態において、辞書記憶部13は、第1辞書と、第2辞書と、を記憶する。
第1辞書には、対象ワードとして、1つ又は複数の指示ワード(第1ワード)が予め登録される。指示ワードとは、ユーザが音声認識装置1に所定の制御を実行させるためのワードである。指示ワードは、音声認識装置1の制御と対応付けられる。
図3は、第1辞書の一例を示す図である。図3に示すように、第1辞書には、IDと、指示ワードと、取り消し期間と、が対応付けて登録される。IDは、指示ワードを識別するための識別情報である。取り消し期間は、指示ワードごとに予め設定される期間である。取り消し期間については後述する。以下では、IDがXのワードをワードXと称する。
図3の例では、指示ワード12(IDが12の指示ワード)は、「自宅に帰る」であり、取り消し期間は10secである。指示ワード13は、「地図表示」であり、取り消し期間は5secである。指示ワード14は、「オーディオ表示」であり、取り消し期間は5secである。このように、各指示ワードの取り消し期間は、それぞれ異なってもよいし、同一であってもよい。また、指示ワード11は、「ルート案内」であり、取り消し期間は「ルートガイダンス終了まで」である。このように、取り消し期間は、所定のタイミングまでの期間として設定されてもよい。なお、指示ワードは、図3の例に限られない。
第2辞書には、対象ワードとして、1つ又は複数の否定ワード(第2ワード)と、1つ又は複数の肯定ワード(第3ワード)と、が予め登録される。否定ワードとは、ユーザが、音声認識装置1による指示ワードの認識を否定するためのワードである。肯定ワードとは、ユーザが、音声認識装置1による指示ワードの認識を肯定するためのワードである。
図4は、第2辞書の一例を示す図である。図4に示すように、第2辞書には、IDと、否定ワード又は肯定ワードと、が対応付けて記憶される。図4の例では、否定ワード21は「NG」、否定ワード22は「戻る」、否定ワード23は「キャンセル」である。また、肯定ワード31は「OK」、肯定ワード32は「YES」、肯定ワード33は「はい」である。このように、否定ワードとして、否定的な意味を有するワードが設定され、肯定ワードとして、肯定的な意味を有するワードが設定される。なお、否定ワード及び肯定ワードは、図4の例に限られない。
認識部14は、取得部12から受け取った音データに基づいて、辞書記憶部13に記憶された辞書に登録された対象ワードの認識処理を実行し、ユーザが発話した対象ワードを認識する。認識部14が実行する認識処理については後述する。認識部14は、対象ワードを認識すると、認識結果を制御部15に通知する。認識結果には、認識部14により認識された指示ワードが含まれる。
制御部15は、第1辞書に登録された各指示ワードに対応付けられた制御を記憶する。また、制御部15は、認識部14から通知された認識結果に応じて、音声認識装置1を制御する。制御部15による制御方法については後述する。
ここで、本実施形態における、認識部14が実行する認識処理について説明する。図5は、本実施形態における認識処理の一例を示すフローチャートである。
まず、認識部14は、取得部12から音データを受け取る(ステップS101)。
認識部14は、音データを受け取ると、辞書記憶部13に記憶された辞書を参照し、辞書に登録された対象ワードを取得する(ステップS102)。
認識部14は、辞書に登録された対象ワードを取得すると、取得した各対象ワードのスコアScを算出する(ステップS103)。スコアScとは、対象ワードと、音データと、の間の距離のことである。距離は、対象ワードと、音データと、の間の類似度を示す値である。距離が小さいほど類似度が高いことを意味し、距離が大きいほど類似度が低いことを意味する。したがって、スコアScが小さい対象ワードほど、音データとの類似度が高い対象ワードとなり、スコアScが大きい対象ワードほど、音データとの類似度が低い対象ワードとなる。スコアScとして、例えば、対象ワードに対応する特徴ベクトルと、音データから抽出した特徴ベクトルと、の間の距離を利用できる。
認識部14は、各対象ワードのスコアScを算出すると、算出された各対象ワードのスコアScと、予め設定された各対象ワードのスコアScの閾値Sthと、を比較し、スコアScが閾値Sth以下の対象ワードがあるか判定する(ステップS104)。閾値Sthは、対象ワードごとに異なってもよいし、同一であってもよい。
スコアScが閾値Sth以下の対象ワードがない場合(ステップS104のNO)、認識部14は、いずれの対象ワードも認識しない。
一方、スコアScが閾値Sth以下の対象ワードがある場合(ステップS104のYES)、認識部14は、Sth−Scが最大の対象ワードを認識する(ステップS105)。すなわち、認識部14は、スコアScが閾値Sth以下の対象ワードのうち、スコアScと閾値Sthとの差が最大の対象ワードを認識する。
本実施形態における認識処理は、音データさえあれば任意のタイミングで実行可能(トリガレス)な認識処理である。トリガレスな認識処理は、リアルタイムな音声認識のための認識処理として好適である。したがって、本実施形態に係る音声認識装置1は、車載装置などの、リアルタイムな音声認識を要求される音声認識装置として好適に利用できる。
ところで、一般に、音声認識では、FR(False Rejection)やFA(False Acceptance)などの誤認識が発生することがある。FRとは、対象ワードを発話したにもかかわらず、発話した対象ワードが認識されないという誤認識である。FAとは、対象ワードを発話していないにもかかわらず、何らかの対象ワードが認識されるという誤認識である。
図6は、本実施形態における認識処理により生じた誤認識の実験結果の一例を示すグラフである。図6の横軸は閾値Sth、左側縦軸はFRの発生率、右側縦軸は10時間で発生したFAの数である。また、斜線領域は閾値SthとFRの発生率との関係を示し、ドット領域は閾値SthとFAの発生数との関係を示す。
図6に示すように、本実施形態における認識処理では、閾値Sthが大きいほどFAの発生数が増加し、閾値Sthが小さいほどFRの発生率が増加する。このため、閾値Sthをいくつに設定しても、誤認識の発生を完全に防ぐことは困難である。そこで、本実施形態に係る音声認識装置1は、誤認識が発生することを前提に、誤認識が発生した場合であっても、誤認識された対象ワードに応じた制御を容易に取り消し可能なように、処理を実行する。
なお、本実施形態において、各対象ワードの閾値Sthは、図6のような実験結果に基づいて、誤認識の発生が抑制されるように設定されるのが好ましい。例えば、図6の例では、閾値Sthは、480〜580に設定されるのが好ましい。
次に、本実施形態に係る音声認識装置1が実行する処理について説明する。図7は、本実施形態に係る音声認識装置1が実行する処理の一例を示すフローチャートである。音声認識装置1は、その動作中において、集音部11により常時音データが生成される。音声認識装置1は、生成された音データに基づいて、図7の処理を繰り返し実行する。
まず、認識部14は、前回実行した認識処理から所定時間が経過するまで待機する(ステップS201のNO)。上述の通り、所定時間は、例えば、8msecである。
所定時間が経過すると(ステップS201のYES)、認識部14は、指示ワードの認識処理を実行する(ステップS202)。すなわち、認識部14は、取得部12から音データを受け取り(ステップS101)、第1辞書を参照し、登録された指示ワードを取得する(ステップS102)。この際、認識部14は、各指示ワードに対応する待機時間も取得する。そして、認識部14は、各指示ワードのスコアScを算出し(ステップS103)、指示ワードごとに、スコアScと閾値Sthとを比較し、スコアScが閾値Sth以下の指示ワードがあるか判定する(ステップS104)。
認識部14は、指示ワードを認識しなかった場合(ステップS203のNO)、すなわち、スコアScが閾値Sth以下の指示ワードがない場合(ステップS104のNO)、認識処理を終了する。その後、処理はステップS201に戻る。このように、認識部14は、指示ワードを認識するまで、指示ワードの認識処理を繰り返し実行する。
一方、認識部14は、指示ワードを認識した場合(ステップS203のYES)、すなわち、スコアScが閾値Sth以下の指示ワードがある場合(ステップS104のYES)、認識処理を終了し、認識結果を制御部15に通知する。認識結果として、認識された指示ワードと、認識された指示ワードに対応する取り消し期間と、が通知される。なお、スコアScが閾値Sth以下の指示ワードが複数ある場合には、認識部14は、Sth−Scが最大の指示ワードを認識すればよい(ステップS105)。認識部14は、以上で指示ワードの認識処理を終了し、以降、否定ワード及び肯定ワードの認識処理を実行する。
制御部15は、認識結果を通知されると、音声認識装置1の現在の状態を一時的に記憶する(ステップS204)。ここでいう音声認識装置1の状態には、目的地などの設定値、起動中のアプリケーション、及び表示装置106に表示中の画面などが含まれる。以下、制御部15に記憶された音声認識装置1の状態を、元の状態と称する。
制御部15は、元の状態を記憶すると、認識部14から通知された指示ワードに対応付けられた制御を実行する(ステップS205)。例えば、通知された指示ワードが「地図表示」である場合、制御部15は、表示装置106に地図を表示する。
その後、認識部14は、前回実行した認識処理から所定時間が経過するまで待機する(ステップS206のNO)。
所定時間が経過すると(ステップS206のYES)、認識部14は、否定ワード及び肯定ワードの認識処理を実行する(ステップS207)。すなわち、認識部14は、取得部12から音データを受け取り(ステップS101)、第2辞書を参照し、登録された否定ワード及び肯定ワードを取得する(ステップS102)。このように、本実施形態では、認識部14が指示ワードを認識すると、指示ワード13が参照する辞書が第1辞書から第2辞書に切り替えられる。そして、認識部14は、各否定ワード及び各肯定ワードのスコアScを算出し(ステップS103)、否定ワード及び肯定ワードごとに、スコアScと閾値Sthとを比較し、スコアScが閾値Sth以下の否定ワード又は肯定ワードがあるか判定する(ステップS104)。
認識部14は、否定ワードも肯定ワードも認識しなかった場合(ステップS209のNO)、すなわち、スコアScが閾値Sth以下の否定ワード及び肯定ワードがない場合(ステップS104のNO)、認識処理を終了する。
その後、制御部15は、認識結果を通知されてから取り消し期間が経過したか判定する(ステップS210)。すなわち、制御部15は、認識部14が指示ワードを認識してから、当該指示ワードに対応する取り消し期間が経過したか判定する。
取り消し期間が経過した場合(ステップS210のYES)、制御部15は、一時的に記憶した音声認識装置1の元の状態を破棄する(ステップS211)。これにより、制御部15がステップS207で実行した制御が確定する。その後、音声認識装置1は、ステップS201から処理を再開する。すなわち、認識部14は、以上で否定ワード及び肯定ワードの認識処理を終了し、以降、指示ワードの認識処理を実行する。なお、制御の確定後も、ユーザが入力装置105を操作することにより、音声認識装置1を元の状態に戻すことは可能である。
一方、取り消し期間が経過していない場合(ステップS210のNO)、処理はステップS206に戻る。このように、認識部14は、指示ワードを認識した場合、指示ワードの認識後、取り消し期間の間、否定ワード及び肯定ワードの認識処理を繰り返し実行する。すなわち、取り消し期間は、否定ワード及び肯定ワードの認識処理を繰り返し実行する期間に相当する。
ステップS207の認識処理において、認識部14は、否定ワードを認識した場合(ステップS208のYES)、その旨を制御部15に通知し、認識処理を終了する。
制御部15は、否定ワードが認識されたことを通知されると、ステップS205において実行した、指示ワードに応じた制御を取り消す(ステップS212)。すなわち、制御部15は、音声認識装置1の状態を元の状態に戻す。その後、処理はステップS211に進む。
このように、取り消し期間の間に否定ワードが認識された場合、指示ワードに応じた制御が取り消される。すなわち、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。
なお、上述の通り、取り消し期間は、否定ワードの発話により指示ワードに応じた制御を取り消し可能な期間であるため、誤認識が発生しやすい指示ワードほど長く設定されるのが好ましい。
一方、ステップS207の認識処理において、認識部14は、肯定ワードを認識した場合(ステップS209のYES)、その旨を制御部15に通知し、認識処理を終了する。その後、処理はステップS211に進む。
このように、取り消し期間の間に肯定ワードが認識された場合、取り消し期間の経過を待たずに、指示ワードに応じた制御が確定する。すなわち、ユーザは、取り消し期間の間に肯定ワードを発話することにより、指示ワードに応じた制御を早期に確定することができる。結果として、制御部15の負荷を軽減することができる。また、否定ワードのFAの発生により、指示ワードに応じた制御が誤って取り消されることを抑制することができる。
ここで、本実施形態に係る音声認識装置1が実行する処理について、図8を参照して具体的に説明する。図8は、対象ワードのスコアScの遷移の一例を示すグラフである。図8の横軸は時間、縦軸はスコアSc、破線は閾値Sthである。また、図8の実線矢印は指示ワードのスコアScの遷移を示し、破線矢印は否定ワードのスコアScの遷移を示す。なお、以下の説明では、指示ワード及び否定ワードは、それぞれ1つずつ登録されているものとする。また、指示ワード及び否定ワードの閾値Sthは同じであるものとする。
図8の例では、時刻T0〜T1の間、指示ワードのスコアScは閾値Sthより大きいため、指示ワードは認識されない。したがって、音声認識装置1は、時刻T0〜T1の間、ステップS201〜S203の処理を繰り返し実行する。
その後、時刻T2において、指示ワードのスコアScが閾値Sth以下となっている。したがって、音声認識装置1は、時刻T2において、指示ワードを認識し(ステップS203のYES)、元の状態を記憶し(ステップS204)、指示ワードに応じた制御を実行する(ステップS205)。
図8の例では、取り消し期間は時刻T2〜T6である。また、時刻T3〜T4の間、否定ワードのスコアScは閾値Sthより大きいため、否定ワードは認識されない。このため、音声認識装置1は、時刻T3〜T4の間、ステップS206〜S210の処理を繰り返し実行する。
その後、時刻T5において、否定ワードのスコアScが閾値Sth以下となっている。したがって、音声認識装置1は、時刻T5において、否定ワードを認識し(ステップS208のYES)、指示ワードに応じた制御を取り消し(ステップS212)、元の状態を破棄する(ステップS211)。これにより、音声認識装置1の状態が、時刻T2において指示ワードに応じた制御を実行する前の状態に戻る。以降、音声認識装置1は、ステップS201から処理を再開する。
なお、上述の通り、取り消し期間の間に肯定ワードが認識された場合には、音声認識装置1は、肯定ワードが認識された時点で指示ワードに応じた制御を確定し、ステップS201から処理を再開する。また、否定ワードも肯定ワードも認識されずに取り消し期間が経過した場合には、音声認識装置1は、取り消し期間が経過した時点で指示ワードに応じた制御を確定し、ステップS201から処理を再開する。
以上説明した通り、本実施形態によれば、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。したがって、ユーザは、指示ワードが誤認識された場合であっても、誤認識された指示ワードに応じて実行された制御を、入力装置105を操作することなく、容易に取り消すことができる。結果として、ユーザの負担を軽減し、音声認識装置1の利便性を向上させることができる。
なお、以上では、肯定ワードが対象ワードとして登録される場合を例に説明したが、肯定ワードは対象ワードとして登録されなくてもよい。肯定ワードが対象ワードとして登録されない場合であっても、ユーザは、取り消し期間の間に否定ワードを発話することにより、指示ワードに応じた制御を取り消すことができる。肯定ワードを登録しない場合、音声認識装置1は、図7のフローチャートからステップS209を除いた処理を実行すればよい。
また、以上では、指示ワードが第1辞書に登録され、否定ワード及び肯定ワードが第2辞書に登録される場合を例に説明したが、指示ワード、否定ワード及び肯定ワードは、同一の辞書に登録されてもよい。この場合、辞書に、指示ワードを登録する第1エリアと、否定ワード及び肯定ワードを登録する第2エリアと、を予め設定すればよい。認識部14は、参照するエリアを切り替えることにより、指示ワードの認証処理と、否定ワード及び肯定ワードの認証処理と、を切り替えることができる。また、各対象ワードを、その対象ワードの種類を示す情報(例えば、フラグなど)と対応付けて辞書に登録してもよい。認識部14は、参照する対象ワードの種類を切り替えることにより、指示ワードの認証処理と、否定ワード及び肯定ワードの認証処理と、を切り替えることができる。
<第2実施形態>
第2実施形態に係る音声認識装置1について、図9を参照して説明する。本実施形態では、認識部14による認識処理の他の例について説明する。なお、本実施形態に係る音声認識装置1のハードウェア構成及び機能構成は第1実施形態と同様である。
以下、本実施形態における、認識部14が実行する認識処理について説明する。本実施形態において、認識部14は、集音部11が生成した音データに含まれる、音声に対応する音データの区間(以下、「音声区間」という)に基づいて、対象ワードを認識する。このために、認識部14は、音声区間の始点及び終点を検出する。図9は、本実施形態における認識処理の一例を示すフローチャートである。
まず、認識部14は、取得部12から音データを受け取る(ステップS301)。
認識部14は、音声区間の始点を未検出の場合(ステップS302のNO)、取得部12から音データを受け取ると、受け取った音データに基づいて、音声区間の始点の検出処理を実行する(ステップS310)。認識部14は、音声区間の始点の検出処理として、音データの振幅や混合ガウス分布を利用する既存の任意の検出処理を利用できる。
その後、認識部14は、取得部12から受け取った音データを一時的に記憶し(ステップS311)、認識処理を終了する。
一方、認識部14は、音声区間の始点を検出済みの場合(ステップS302のYES)、取得部12から音データを受け取ると、受け取った音データに基づいて、音声区間の終点の検出処理を実行する(ステップS303)。認識部14は、音声区間の終点の検出処理として、音データの振幅や混合ガウス分布を利用する既存の任意の検出処理を利用できる。
認識部14は、音声区間の終点を検出しなかった場合(ステップS304のNO)、取得部12から受け取った音データを一時的に記憶し(ステップS311)、認識処理を終了する。
一方、認識部14は、音声区間の終点を検出した場合(ステップS304のYES)、一時的に記憶している、音声区間の始点から音データと、ステップS301で取得した音データと、に基づいて、発話ワードを認識する(ステップS305)。すなわち、認識部14は、音声区間の始点から終点までの音データに基づいて、発話ワードを認識する。発話ワードとは、ユーザが発話したワードのことであり、音声区間の音データに対応する。認識部14は、予め用意された音響情報や言語情報を利用する既存の任意の方法で、発話ワードを認識することができる。
認識部14は、発話ワードを認識すると、辞書記憶部13に記憶された辞書を参照し、辞書に登録された対象ワードを取得する(ステップS306)。
認識部14は、取得した対象ワードの中に、発話ワードと一致する対象ワードがない場合(ステップS307のNO)、一時的に記憶した、音声区間の始点から終点までの音データを破棄し(ステップS309)、認識処理を終了する。
一方、認識部14は、取得した対象ワードの中に、発話ワードと一致する対象ワードがある場合(ステップS307のYES)、発話ワードと一致する対象ワードを認識する(ステップS308)。その後、処理はステップS309に進む。
本実施形態における認識処理は、音声区間の終点の検出をトリガとして音声認識を実行する認識処理である。この認識処理では、音声区間の終点が検出された場合を除き、音声区間の始点又は終点の検出処理だけが実行される。したがって、認識処理のたびに各対象ワードのスコアScを算出する、第1実施形態における認識処理に比べて、認識部14の負荷を軽減することができる。
なお、本実施形態において、認識部14は、発話ワードを認識し、対象ワードを取得した後、各対象ワードと発話ワードとの類似度を算出し、類似度が予め設定された閾値以上の対象ワードを認識してもよい。類似度として、最小編集距離などを利用できる。類似度が最小編集距離である場合、認識部14は、発話ワードとの間の最小編集距離が閾値以下の対象ワードを認識すればよい。
また、本実施形態において、認識部は、音声区間の終点を検出した後、音声区間の始点から終点までの音データに基づいて、各対象ワードのスコアScを算出し、各対象ワードのスコアScと閾値Sthとを比較することにより、対象ワードを認識してもよい。この場合、認識部14は、第1実施形態と同様に、スコアScが閾値Sth以下の対象ワードのうち、スコアScと閾値Sthとの差が最大の対象ワードを認識すればよい。
<第3実施形態>
第3実施形態に係る音声認識装置1について、図10〜図13を参照して説明する。本実施形態では、取り消し期間の調整について説明する。なお、本実施形態に係る音声認識装置1のハードウェア構成は、第1実施形態と同様である。
まず、本実施形態に係る音声認識装置1の機能構成について説明する。図10は、本実施形態に係る音声認識装置1の機能構成の一例を示す図である。図10の音声認識装置1は、調整部16を更に備える。調整部16は、CPU101がプログラムを実行することにより実現される。なお、他の機能構成は、第1実施形態と同様である。
調整部16は、認識部14により認識された指示ワードに対応する取り消し期間を、指示ワードの認識確度Aに基づいて調整する。認識確度Aは、認識された指示ワードの確からしさを示す値である。認識確度Aとして、例えば、指示ワードの閾値SthとピークスコアSpとの差(Sth−Sp)を利用できる。閾値SthとピークスコアSpとの差が大きいほど、認識確度Aが高いことを意味する。また、閾値SthとピークスコアSpとの差が小さいほど、認識確度Aが低いことを意味する。
ピークスコアSpとは、指示ワードのスコアScのピーク値のことである。具体的には、ピークスコアSpは、指示ワードの認識後のスコアScであって、スコアScが初めて増加する直前のスコアScのことである。
ここで、認識確度Aについて、図11を参照して具体的に説明する。図11は、対象ワードのスコアScの遷移の一例を示すグラフである。図11の縦軸はスコアSc、横軸は時刻、破線は閾値Sth、一点鎖線はピークスコアSpである。また、図11の実線矢印は、指示ワードのスコアScの遷移を示す。
図11の例では、時刻T7において、指示ワードのスコアScが閾値Sth以下となっている。このため、認識部14は、時刻T7において指示ワードを認識する。その後、指示ワードのスコアScは、時刻T8まで単調に減少し、時刻T9において増加している。このため、図11に示すように、指示ワードのピークスコアSpは、時刻T7以降にスコアScが初めて増加する時刻T9の直前の時刻T8におけるスコアScとなる。また、認識確度Aは、閾値Sthと、時刻T8におけるスコアSc(ピークスコアSp)と、の差となる。
本実施形態では、認識部14は、認識確度Aを算出する(ピークスコアSpを検出する)ために、指示ワードの認識後、所定の検出期間の間、指示ワードのスコアScの算出を継続する。検出期間は、例えば、1secであるが、これに限られない。検出期間として、取り消し期間より短い任意の期間を設定できる。
調整部16は、指示ワードの認識確度Aが高いほど、すなわち、指示ワードの誤認識が発生した可能性が低いほど、取り消し期間が短くなるように、取り消し期間を調整する。これは、指示ワードが正常に認識された場合には、制御部15の負荷を軽減するために、指示ワードに応じた制御を早期に確定するのが好ましいためである。
一方、調整部16は、指示ワードの認識確度Aが低いほど、すなわち、指示ワードの誤認識が発生した可能性が高いほど、取り消し期間が長くなるように、取り消し期間を調整する。これは、指示ワードの誤認識が発生した場合には、取り消し期間が長いのが好ましいためである。
調整部16は、取り消し期間を調整する調整時間を、認識確度Aに基づいて算出してもよい。また、調整部16は、認識確度Aごとに予め設定された調整時間が登録された、調整時間テーブルを備えてもよい。この場合、調整部16は、調整時間テーブルを参照して、認識確度Aに対応する調整時間を取得すればよい。
図12は、調整時間テーブルの一例を示す図である。図12の例では、認識確度Aは、閾値SthとピークスコアSpとの差(Sth−Sp)である。(Sth−Sp)が40未満の場合、調整時間は+6secであり、認識確度Aが200以上240未満の場合、調整時間は−4secである。このように、閾値SthとピークスコアSpとの差が小さい(認識確度Aが低い)ほど、取り消し期間が長くなるように調整時間が登録される。また、閾値SthとピークスコアSpとの差が大きい(認識確度Aが高い)ほど、取り消し期間が短くなるように調整時間が登録される。
次に、本実施形態に係る音声認識装置1が実行する処理について説明する。図13は、本実施形態に係る音声認識装置1が実行する処理の一例を示すフローチャートである。図13のフローチャートは、図7のフローチャートのステップS206とステップS207との間に、ステップS213〜S218を追加したものに相当する。以下、ステップS213〜S218について説明する。
認識部14は、指示ワードの認識後、所定時間が経過すると(ステップS206のYES)、取り消し期間が調整部16により調整済みであるか判定する(ステップS213)。取り消し期間が調整済みである場合(ステップS213のYES)、処理はステップS207に進む。
一方、認識部14は、取り消し期間が調整部16により調整されていない場合(ステップS213のNO)、指示ワードの認識後に検出期間が経過したか判定する(ステップS214)。検出期間が経過している場合(ステップS214のYES)、処理はステップS207に進む。
一方、認識部14は、検出期間が経過していない場合(ステップS214のNO)、指示ワードのスコアScを算出する(ステップS215)。
認識部14は、指示ワードのスコアScを算出すると、算出したスコアScが、前回算出したスコアScより増加したか判定する(ステップS216)。指示ワードのスコアScが増加していない場合(ステップS216のNO)、処理はステップS207に進む。
一方、認識部14は、指示ワードのスコアScが増加した場合(ステップS216のYES)、認識確度Aを算出する(ステップS217)。具体的には、認識部14は、指示ワードの閾値Sthと、前回算出した指示ワードのスコアScと、の差を算出する。これは、図11を参照して説明した通り、今回算出した指示ワードのスコアScが増加した場合、前回算出した指示ワードのスコアScが、指示ワードのピークスコアSpに相当するためである。認識部14は、認識確度Aを算出すると、算出した認識確度Aと、指示ワードの取り消し期間と、を調整部16に渡す。
調整部16は、認識部14から認識確度A及び取り消し期間を受け取ると、認識確度Aに基づいて取り消し期間を調整する(ステップS218)。具体的には、調整部16は、調整時間テーブルを参照して、認識確度Aに応じた調整時間を取得し、取得した調整時間を取り消し期間に加算する。調整部16は、認識確度Aに基づいて調整時間を算出してもよい。調整部16は、取り消し期間を調整すると、調整された取り消し期間を認識部14及び制御部15に渡す。その後、処理はステップS207に進む。以降の処理では、認識部14及び制御部15は、調整後の取り消し期間に基づいて、処理を実行する。
以上説明した通り、本実施形態によれば、指示ワードの認識確度Aに基づいて、取り消し期間を調整することができる。これにより、取り消し期間を、誤認識が発生した可能性の高さに応じた適切な長さに調整することができる。
なお、本実施形態において、認識確度Aは、閾値SthとピークスコアSpとの差に限られない。認識確度Aとして、認識された指示ワードの確からしさを示す、認識処理に応じた任意の値を利用できる。例えば、認識確度Aは、閾値SthとピークスコアSpとの差を、閾値Sthなどの基準値で除算した値であってもよい。また、認識部14が第2実施形態における認識処理を実行する場合には、認識確度Aは、類似度(最小編集距離など)と閾値との差や、当該差を閾値などの基準値で除算した値などであってもよい。
<第4実施形態>
第4実施形態に係る音声認識システム2について、図14及び図15を参照して説明する。本実施形態に係る音声認識システム2は、第1実施形態に係る音声認識装置1と同様の機能を実現する。
図14は、本実施形態に係る音声認識システム2の一例を示す図である。図14の音声認識システム2は、インターネットやLANなどのネットワークを介して接続された、音声認識端末21と、複数の対象装置22A〜22Cと、により構成されている。
音声認識端末21は、対象装置22A〜22Cから音データを受信し、受信した音データに基づいて対象ワードを認識し、認識結果を対象装置22A〜22Cに送信する。音声認識端末21は、ネットワークを介して通信可能な任意の装置で有り得る。本実施形態では、音声認識端末21がサーバである場合を例に説明する。
なお、音声認識端末21のハードウェア構成は、図1と同様である。ただし、音声認識端末21は、対象装置22A〜22Cから音データを受信するため、マイクを備えなくてもよい。
対象装置22A〜22Cは、マイクから入力された音データを音声認識端末21に送信し、音声認識端末21から対象ワードの認識結果を受信する。対象装置22A〜22Cは、音声認識端末21から受信した認識結果に応じて動作する。対象装置22A〜22Cは、ネットワークを介して通信可能であり、かつ、マイクにより音データを取得可能な任意の装置で有り得る。このような装置として、例えば、車載装置、オーディオ装置、テレビ、スマートフォン、携帯電話、タブレット端末及びPCなどが挙げられる。本実施形態では、対象装置22A〜22Cが車載装置である場合を例に説明する。以下、対象装置22A〜22Cを区別しない場合、対象装置22と称する。
なお、対象装置22のハードウェア構成は、図1と同様である。また、図14の例では、音声認識システム2には、3つの対象装置22が含まれるが、1つ、2つ又は3つ以上の対象装置22が含まれてもよい。また、音声認識システム2には、複数種類の対象装置22が含まれてもよい。
次に、本実施形態に係る音声認識システム2の機能構成について説明する。図15は、本実施形態に係る音声認識システム2の機能構成の一例を示す図である。図15の音声認識端末21は、取得部12と、辞書記憶部13と、認識部14と、を備える。また、図15の対象装置22は、集音部11と、制御部15と、を備える。これらの各機能構成は、第1実施形態と同様である。ただし、制御部15は、音声認識端末21ではなく、対象装置22の制御を実行する。
以上のような構成により、本実施形態に係る音声認識システム2は、第1実施形態と同様の処理を実行し、第1実施形態と同様の効果を得ることができる。ただし、第1実施形態とは異なり、音データ及び対象ワードの認識結果は、ネットワークを介して送信又は受信される。
また、本実施形態によれば、1つの音声認識端末21により、複数の対象装置22の認識処理を実行することができる。これにより、各対象装置22の負荷を軽減することができる。
なお、音声認識端末21の辞書記憶部13には、対象装置22ごとに、異なる対象ワードが登録された辞書が記憶されてもよい。また、音声認識端末21の認識部14は、第2実施形態における認識処理を実行してもよい。また、音声認識端末21に調整部16を設けてもよい。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
1:音声認識装置
2:音声認識システム
11:集音部
12:取得部
13:辞書記憶部
14:認識部
15:制御部
21:音声認識端末
22:対象装置

Claims (10)

  1. 音データに基づいて、予め登録された第1ワードの認識処理を実行し、前記第1ワードを認識した場合、認識された前記第1ワードに応じた取り消し期間の間、予め登録された第2ワードの認識処理を実行する認識部と、
    前記認識部により前記第1ワードが認識された場合、認識された前記第1ワードに応じた制御を実行し、前記認識部により前記第2ワードが認識された場合、前記制御を取り消す制御部と、
    を備える音声認識装置。
  2. 前記認識部は、前記第1ワードを認識した場合、認識された前記第1ワードに応じた前記取り消し期間の間、予め登録された第3ワードの認識処理を実行する
    請求項1に記載の音声認識装置。
  3. 前記認識部は、前記第3ワードを認識した場合、前記第2ワードの認識処理を終了する
    請求項2に記載の音声認識装置。
  4. 前記第1ワードの認識確度に基づいて、前記取り消し期間を調整する調整部を更に備える
    請求項1乃至請求項3のいずれか1項に記載の音声認識装置。
  5. 前記調整部は、前記第1ワードの前記認識確度が高いほど前記取り消し期間が短くなるように、前記取り消し期間を調整する
    請求項4に記載の音声認識装置。
  6. 前記第1ワードと、前記第2ワードと、はそれぞれ異なる辞書に登録される
    請求項1乃至請求項5のいずれか1項に記載の音声認識装置。
  7. 前記第1ワードと、前記第2ワードと、は同一の辞書に登録される
    請求項1乃至請求項5のいずれか1項に記載の音声認識装置。
  8. 前記認識部は、所定時間毎に、前記音データと前記第1ワードとの類似度を算出し、算出された前記類似度に基づいて、前記第1ワードを認識する
    請求項1乃至請求項7のいずれか1項に記載の音声認識装置。
  9. 音データに基づいて、予め登録された第1ワードの認識処理を実行し、前記第1ワードを認識した場合、認識された前記第1ワードに応じた取り消し期間の間、予め登録された第2ワードの認識処理を実行する認識工程と、
    前記認識工程により前記第1ワードが認識された場合、認識された前記第1ワードに応じた制御を実行し、前記認識工程により前記第2ワードが認識された場合、前記制御を取り消す制御工程と、
    を含む音声認識方法。
  10. ネットワークを介して接続された音声認識端末及び対象装置を備える音声認識システムであって、
    前記音声認識端末は、音データに基づいて、予め登録された第1ワードの認識処理を実行し、前記第1ワードを認識した場合、認識された前記第1ワードに応じた取り消し期間の間、予め登録された第2ワードの認識処理を実行する認識部を備え、
    前記対象装置は、前記認識部により前記第1ワードが認識された場合、認識された前記第1ワードに応じた制御を実行し、前記認識部により前記第2ワードが認識された場合、前記制御を取り消す制御部を備える
    音声認識システム。
JP2017008105A 2017-01-20 2017-01-20 音声認識装置、音声認識方法及び音声認識システム Pending JP2018116206A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017008105A JP2018116206A (ja) 2017-01-20 2017-01-20 音声認識装置、音声認識方法及び音声認識システム
US15/725,639 US20180211661A1 (en) 2017-01-20 2017-10-05 Speech recognition apparatus with cancellation period

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017008105A JP2018116206A (ja) 2017-01-20 2017-01-20 音声認識装置、音声認識方法及び音声認識システム

Publications (1)

Publication Number Publication Date
JP2018116206A true JP2018116206A (ja) 2018-07-26

Family

ID=62906561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017008105A Pending JP2018116206A (ja) 2017-01-20 2017-01-20 音声認識装置、音声認識方法及び音声認識システム

Country Status (2)

Country Link
US (1) US20180211661A1 (ja)
JP (1) JP2018116206A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065199A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식을 위한 음성 입출력 장치 및 그 방법
JP2021051252A (ja) * 2019-09-26 2021-04-01 株式会社Mobility Technologies 操作受付装置及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021066816A1 (en) * 2019-10-01 2021-04-08 Visa International Service Association Graph learning and automated behavior coordination platform
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096384A (ja) * 1995-06-21 1997-01-10 Nec Corp 音声認識装置
JPH11143492A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
JP2014115594A (ja) * 2012-12-12 2014-06-26 Fuji Soft Inc 音声認識システムおよび音声認識システムの制御方法
JP2016014967A (ja) * 2014-07-01 2016-01-28 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 情報管理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
US8618958B2 (en) * 2008-12-16 2013-12-31 Mitsubishi Electric Corporation Navigation device
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
CN104756185B (zh) * 2012-11-05 2018-01-09 三菱电机株式会社 语音识别装置
US9830039B2 (en) * 2013-03-04 2017-11-28 Microsoft Technology Licensing, Llc Using human wizards in a conversational understanding system
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6011584B2 (ja) * 2014-07-08 2016-10-19 トヨタ自動車株式会社 音声認識装置及び音声認識システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096384A (ja) * 1995-06-21 1997-01-10 Nec Corp 音声認識装置
JPH11143492A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
JP2014115594A (ja) * 2012-12-12 2014-06-26 Fuji Soft Inc 音声認識システムおよび音声認識システムの制御方法
JP2016014967A (ja) * 2014-07-01 2016-01-28 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 情報管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
野口 淳, 外4名: "パソコン音声認識ソフトウェアを用いた音声ダイヤラの試作", 電子情報通信学会技術研究報告, vol. 第94巻, 第372号, JPN6020043601, 25 November 1994 (1994-11-25), JP, pages 7 - 14, ISSN: 0004562413 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065199A (ko) 2019-05-21 2019-06-11 엘지전자 주식회사 음성 인식을 위한 음성 입출력 장치 및 그 방법
JP2021051252A (ja) * 2019-09-26 2021-04-01 株式会社Mobility Technologies 操作受付装置及びプログラム
JP7377043B2 (ja) 2019-09-26 2023-11-09 Go株式会社 操作受付装置及びプログラム

Also Published As

Publication number Publication date
US20180211661A1 (en) 2018-07-26

Similar Documents

Publication Publication Date Title
CN106796786B (zh) 语音识别系统
US10733986B2 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
US11076219B2 (en) Automated control of noise reduction or noise masking
CN105793923A (zh) 本地和远程语音处理
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
JP2014142566A (ja) 音声認識システムおよび音声認識方法
JP2002091466A (ja) 音声認識装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
EP3654329B1 (en) In-vehicle device and speech recognition method
JP2015219440A (ja) 操作補助装置および操作補助方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
US9262796B2 (en) Communication apparatus
US10468017B2 (en) System and method for understanding standard language and dialects
JP6673243B2 (ja) 音声認識装置
JP4056711B2 (ja) 音声認識装置
JP2001154694A (ja) 音声認識装置及び方法
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP2006208486A (ja) 音声入力装置
JP2019139089A (ja) 音声秘匿装置および音声秘匿プログラム
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP6999236B2 (ja) 音声認識システム
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210803