JP6024675B2 - 音声認識端末装置、音声認識システム、音声認識方法 - Google Patents
音声認識端末装置、音声認識システム、音声認識方法 Download PDFInfo
- Publication number
- JP6024675B2 JP6024675B2 JP2014006844A JP2014006844A JP6024675B2 JP 6024675 B2 JP6024675 B2 JP 6024675B2 JP 2014006844 A JP2014006844 A JP 2014006844A JP 2014006844 A JP2014006844 A JP 2014006844A JP 6024675 B2 JP6024675 B2 JP 6024675B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- recognition
- word
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Description
[音声認識システムの構成の説明]
図1に示すように、実施形態の音声認識システム1は、音声認識端末装置10と、この音声認識端末装置10と通信可能な遠隔の音声認識サーバ20とを含んで構成される。音声認識端末装置10は、例えば、音声認識機能を備えた車載ナビゲーション装置等の車載システムで具現化される。あるいは、車載システムに限らず、いわゆるスマートフォン等の携帯端末装置に実装されるものであってもよい。
音声認識システム1において実行される音声コマンド処理の手順について、図2のシーケンス図に基づいて説明する。
音声認識端末装置10の制御部15が実行する「つなぎ発話処理」の手順について、図4のフローチャートを参照しながら説明する。この処理は、ユーザによる音声コマンドの始話を検知したときに実行される処理である。
音声認識端末装置10の制御部15が実行する「応答出力処理」の手順について、図5のフローチャートを参照しながら説明する。この処理は、音声コマンドを音声認識サーバ20に送信したときに実行される処理である。
上述のつなぎ発話処理(図4参照)において、音声コマンドを音声認識サーバ20に送信したときに、予測される応答遅延時間に応じた時間長のつなぎ言葉を選択するように構成してもよい。具体的には、発話に要する時間長が異なる複数種類の既製のつなぎ言葉を予め辞書に定義しておく。そして、予測される応答遅延時間に応じて、適度な時間長のつなぎ言葉を選択する。あるいは、ローカルの音声認識で得られたキーワードを用いてつなぎ言葉を作成する場合、いくつかのテンプレートをつなげることによってつなぎ言葉の時間長を調節する。なお、応答遅延時間は、例えば、音声認識サーバ20との通信状況や、過去の通信履歴等に基づいて予測することができる。
実施形態の音声認識システム1によれば、以下の効果を奏する。
音声認識端末装置10は、ユーザが音声コマンドを発話してから音声認識サーバ20から応答メッセージを受信するまでの待ち時間中に、待ち時間を埋め合わせるつなぎ言葉をユーザに対して発話することができる。このようにすることで、ユーザは、自らが発話した音声コマンドがシステムに受付けられたことを認識できる。そのため、音声コマンドに対する応答メッセージが得られるまでに多少の遅延がある場合であっても、ユーザが、音声コマンドが受付けられたかどうか分からずに不安になったり、音声コマンドを無用に発話し直すことを抑制できる。
Claims (9)
- 音声認識処理を行う所定の音声認識手段(20)と通信可能に構成された音声認識端末装置(10)であって、
ユーザが発話した音声コマンドを取得する音声取得手段(11,13)と、
前記音声取得手段により取得された音声コマンドについて、前記音声認識手段に音声認識処理を要求する要求手段(15,S12)と、
前記要求手段によって要求された前記音声認識処理の結果が得られるまでの待ち時間を埋め合わせるための、つなぎ言葉の内容を決定する決定手段(15,S14)と、
前記決定手段により決定された内容のつなぎ言葉を、前記待ち時間中に音声情報として出力するつなぎ発話手段(15,S14)と、
前記音声認識手段から前記音声認識処理の結果を取得した場合、取得した音声認識処理の結果に基づく出力処理を実行する出力手段(15,S16)と、
前記音声取得手段により取得された音声コマンドの発話内容を認識する副認識手段(16)とを備え、
発話内容が完成している既製のつなぎ言葉と、つなぎ言葉のテンプレートとが予め設定されており、
前記決定手段は、前記副認識手段による発話内容の認識に成功した場合、認識された発話内容の少なくとも一部を前記テンプレートに当てはめることによって、前記つなぎ言葉を作成する一方、前記副認識手段による発話内容の認識に失敗した場合、前記既製のつなぎ言葉を発話対象に決定すること、
を特徴とする音声認識端末装置。 - 請求項1に記載の音声認識端末装置において、
前記副認識手段により認識された発話内容を用いて作成された前記つなぎ言葉の内容が、前記音声認識手段から取得した音声認識処理の結果と適合するか否かを判断する判断手段(15,S204)と、
前記判断手段によって、前記つなぎ言葉の内容が前記音声認識処理の結果と適合しないと判断された場合、前記つなぎ言葉が誤りであった旨の音声情報を出力する誤り通知手段(15,S206)と、
を備えることを特徴とする音声認識端末装置。 - 請求項1又は請求項2に記載の音声認識端末装置において、
前記既製のつなぎ言葉は、複数種類設定されており、
前記決定手段は、前記副認識手段による発話内容の認識に失敗した場合、前記複数種類の既製のつなぎ言葉の中から、過去に使用した履歴に基づいて、発話対象となる前記つなぎ言葉を選択すること、
を特徴とする音声認識端末装置。 - 請求項3に記載の音声認識端末装置において、
前記決定手段は、前記複数種類の既製のつなぎ言葉の中から発話対象となる前記つなぎ言葉を選択する際、前回使用したつなぎ言葉とは異なるつなぎ言葉を選択すること、
を特徴とする音声認識端末装置。 - 請求項1ないし請求項4の何れか1項に記載の音声認識端末装置(10)と、前記音声認識端末装置とは遠隔に設けられたサーバ装置(20)とを有する音声認識システム(1)であって、
前記音声認識端末装置では、
前記要求手段は、前記音声取得手段により取得された音声コマンドについて、前記サーバ装置に音声認識処理を要求し、
前記出力手段は、前記サーバ装置から前記音声認識処理の結果を取得した場合、取得した音声認識処理の結果に基づく前記出力処理を実行し、
前記サーバ装置は、
前記音声認識端末装置から音声コマンドに対する音声認識処理の要求を受付け、その受付けた要求に係る音声コマンドに対する音声認識処理を行う認識処理手段(S20,S22)と、
前記認識処理手段による音声認識処理の結果を要求元の前記音声認識端末装置に通知する通知手段(S24)と、
を備えること、
を特徴とする音声認識システム。 - 音声認識を行うコンピュータシステムにおける音声認識方法であって、
ユーザが発話した音声コマンドを取得する音声取得手順(S10)と、
前記音声取得手順において取得された音声コマンドについて、所定の音声認識手段に音声認識処理を要求する要求手順(S12)と、
前記要求手順において要求された前記音声認識処理の結果が得られるまでの待ち時間を埋め合わせるための、つなぎ言葉の内容を決定する決定手順(S14)と、
前記決定手順において決定された内容のつなぎ言葉を、前記待ち時間中に音声情報として出力するつなぎ発話手順(S14)と、
前記音声認識手段から前記音声認識処理の結果を取得した場合、取得した音声認識処理の結果に基づく出力処理を実行する出力手順(S16)と、
前記音声取得手順おいて取得された音声コマンドの発話内容を認識する副認識手順(S104)とを有し、
発話内容が完成している既製のつなぎ言葉と、つなぎ言葉のテンプレートとが予め設定されており、
前記決定手順では、前記副認識手順において発話内容の認識に成功した場合、認識された発話内容の少なくとも一部を前記テンプレートに当てはめることによって、前記つなぎ言葉を作成する一方、前記副認識手順において発話内容の認識に失敗した場合、前記既製のつなぎ言葉を発話対象に決定すること、
を特徴とする音声認識方法。 - 請求項6に記載の音声認識方法において、
前記副認識手順において認識された発話内容を用いて作成された前記つなぎ言葉の内容が、前記音声認識手段から取得した音声認識処理の結果と適合するか否かを判断する判断手順(S204)と、
前記判断手順において、前記つなぎ言葉の内容が前記音声認識処理の結果と適合しないと判断された場合、前記つなぎ言葉が誤りであった旨の音声情報を出力する誤り通知手順(S206)と、
を有することを特徴とする音声認識方法。 - 請求項6又は請求項7に記載の音声認識方法において、
前記既製のつなぎ言葉は、複数種類設定されており、
前記決定手順では、前記副認識手順において発話内容の認識に失敗した場合、前記複数種類の既製のつなぎ言葉の中から、過去に使用した履歴に基づいて、発話対象となる前記つなぎ言葉を選択すること、
を特徴とする音声認識方法。 - 請求項8に記載の音声認識方法において、
前記決定手順では、前記複数種類の既製のつなぎ言葉の中から発話対象となる前記つなぎ言葉を選択する際、前回使用したつなぎ言葉とは異なるつなぎ言葉を選択すること、
を特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014006844A JP6024675B2 (ja) | 2014-01-17 | 2014-01-17 | 音声認識端末装置、音声認識システム、音声認識方法 |
US14/595,357 US9349370B2 (en) | 2014-01-17 | 2015-01-13 | Speech recognition terminal device, speech recognition system, and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014006844A JP6024675B2 (ja) | 2014-01-17 | 2014-01-17 | 音声認識端末装置、音声認識システム、音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015135419A JP2015135419A (ja) | 2015-07-27 |
JP6024675B2 true JP6024675B2 (ja) | 2016-11-16 |
Family
ID=53545341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014006844A Expired - Fee Related JP6024675B2 (ja) | 2014-01-17 | 2014-01-17 | 音声認識端末装置、音声認識システム、音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9349370B2 (ja) |
JP (1) | JP6024675B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102009423B1 (ko) * | 2012-10-08 | 2019-08-09 | 삼성전자주식회사 | 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치 |
US9940925B2 (en) * | 2016-03-29 | 2018-04-10 | Authentix, Inc. | Sight-to-speech product authentication |
US10339934B2 (en) | 2016-06-27 | 2019-07-02 | Google Llc | Asynchronous processing of user requests |
JP6633008B2 (ja) * | 2017-02-01 | 2020-01-22 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
JP6696923B2 (ja) * | 2017-03-03 | 2020-05-20 | 国立大学法人京都大学 | 音声対話装置、その処理方法及びプログラム |
WO2018163648A1 (ja) * | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | 対話システム、対話方法、対話装置、およびプログラム |
JP6614506B2 (ja) * | 2017-03-15 | 2019-12-04 | フジテック株式会社 | 昇降装置の受電システム |
CN108172223A (zh) * | 2017-12-14 | 2018-06-15 | 深圳市欧瑞博科技有限公司 | 语音指令识别方法、装置及服务器和计算机可读存储介质 |
JP7087919B2 (ja) | 2018-10-31 | 2022-06-21 | トヨタ自動車株式会社 | 運転支援装置、車両、運転支援方法およびプログラム |
JP7451033B2 (ja) * | 2020-03-06 | 2024-03-18 | アルパイン株式会社 | データ処理システム |
JP7522651B2 (ja) * | 2020-12-18 | 2024-07-25 | 本田技研工業株式会社 | 情報処理装置、移動体、プログラム及び情報処理方法 |
US11763813B2 (en) * | 2021-04-28 | 2023-09-19 | Google Llc | Methods and systems for reducing latency in automated assistant interactions |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930751A (en) * | 1997-05-30 | 1999-07-27 | Lucent Technologies Inc. | Method of implicit confirmation for automatic speech recognition |
JPH11237971A (ja) * | 1998-02-23 | 1999-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声応答装置 |
US7102485B2 (en) * | 2001-05-08 | 2006-09-05 | Gene Williams | Motion activated communication device |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7026957B2 (en) * | 2001-10-01 | 2006-04-11 | Advanced Public Safety, Inc. | Apparatus for communicating with a vehicle during remote vehicle operations, program product, and associated methods |
TWI270850B (en) * | 2005-06-14 | 2007-01-11 | Universal Scient Ind Co Ltd | Voice-controlled vehicle control method and system with restricted condition for assisting recognition |
JP4849662B2 (ja) * | 2005-10-21 | 2012-01-11 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
JP2008152637A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 応答生成装置及び応答生成プログラム |
JP4816741B2 (ja) * | 2009-02-12 | 2011-11-16 | 株式会社デンソー | 車載用楽曲再生装置 |
JP2012256001A (ja) | 2011-06-10 | 2012-12-27 | Alpine Electronics Inc | 移動体における音声認識装置および方法 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
JP5821639B2 (ja) | 2012-01-05 | 2015-11-24 | 株式会社デンソー | 音声認識装置 |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
JP6052610B2 (ja) * | 2013-03-12 | 2016-12-27 | パナソニックIpマネジメント株式会社 | 情報通信端末、およびその対話方法 |
JP5753869B2 (ja) * | 2013-03-26 | 2015-07-22 | 富士ソフト株式会社 | 音声認識端末およびコンピュータ端末を用いる音声認識方法 |
JP6054283B2 (ja) * | 2013-11-27 | 2016-12-27 | シャープ株式会社 | 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法 |
-
2014
- 2014-01-17 JP JP2014006844A patent/JP6024675B2/ja not_active Expired - Fee Related
-
2015
- 2015-01-13 US US14/595,357 patent/US9349370B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Also Published As
Publication number | Publication date |
---|---|
US9349370B2 (en) | 2016-05-24 |
US20150206532A1 (en) | 2015-07-23 |
JP2015135419A (ja) | 2015-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6024675B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
JP5958475B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
EP3642834B1 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
US11869487B1 (en) | Allocation of local and remote resources for speech processing | |
CN107004407B (zh) | 增强型语音端点确定 | |
KR101208166B1 (ko) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 | |
US7933777B2 (en) | Hybrid speech recognition | |
EP3039531B1 (en) | Display apparatus and controlling method thereof | |
US8972263B2 (en) | System and method for performing dual mode speech recognition | |
JP5753869B2 (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
US9262410B2 (en) | Speech translation apparatus, speech translation method and program product for speech translation | |
US10319379B2 (en) | Methods and systems for voice dialogue with tags in a position of text for determining an intention of a user utterance | |
US20140163981A1 (en) | Combining Re-Speaking, Partial Agent Transcription and ASR for Improved Accuracy / Human Guided ASR | |
US10535337B2 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
EP3092639B1 (en) | A methodology for enhanced voice search experience | |
JP6614080B2 (ja) | 音声対話システムおよび音声対話方法 | |
JP2008009153A (ja) | 音声対話システム | |
CN105632487B (zh) | 一种语音识别方法和装置 | |
KR20230150377A (ko) | 대화 동안 텍스트 음성 변환에서의 즉각적인 학습 | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
KR20210032200A (ko) | 다중 언어 대화 서비스 제공 장치 및 방법 | |
KR20150065521A (ko) | 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치 | |
KR20190030970A (ko) | 음성-텍스트 변환 장치 | |
KR20190030975A (ko) | 음성-텍스트 변환 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160926 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6024675 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |