JP4867654B2 - 音声認識装置、および音声認識方法 - Google Patents
音声認識装置、および音声認識方法 Download PDFInfo
- Publication number
- JP4867654B2 JP4867654B2 JP2006354945A JP2006354945A JP4867654B2 JP 4867654 B2 JP4867654 B2 JP 4867654B2 JP 2006354945 A JP2006354945 A JP 2006354945A JP 2006354945 A JP2006354945 A JP 2006354945A JP 4867654 B2 JP4867654 B2 JP 4867654B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- keyword
- dictionary
- correction
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 157
- 238000012937 correction Methods 0.000 claims description 225
- 238000012545 processing Methods 0.000 claims description 51
- 230000014509 gene expression Effects 0.000 claims description 35
- 238000010276 construction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 description 99
- 238000011144 upstream manufacturing Methods 0.000 description 84
- 238000010586 diagram Methods 0.000 description 15
- 238000012790 confirmation Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 244000005894 Albizia lebbeck Species 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Description
図1は、第1の実施の形態における音声認識装置の一実施の形態の構成を模式的に示した図である。音声認識装置100は、マイクロフォン201と、AD変換部202と、演算装置203と、記憶装置204と、DA変換部205と、スピーカ206とで構成される。
第1の方法は、認識スコアが所定範囲内の語彙に対し、高い優先度を与えるものである。ここで言う認識スコアとは、音声認識システムが認識候補として抽出した語彙(前段認識結果候補Xi)に対する確信度合いを示す指標である。認識スコアが高い候補ほど、訂正の可能性が低い語彙ということになる。認識スコアとしては、例えば信頼度が利用できる。信頼度の算出方法としては、一般的な音声認識システムの出力する尤度(音響尤度や言語尤度)を用いるものや、競合単語(同時に出力された候補語彙)間の尤度差や尤度比に着目した正規化尤度、あるいは単語事後確率を用いるもの等がある。これらの信頼度算出方法は公知の方法のため、説明を省略する。
第2の方法は、誤認識され易い語彙の組み合わせに着目し、誤認識され易い語彙に該当するキーワードが前段認識結果候補Xiに含まれる場合には、そのキーワードの優先度を高く設定し、設定した優先度に基づいて提示対象認識結果Xjを決定するものである。誤認識され易い語彙の組み合わせとは、音響的な特徴が類似する語彙を指す。例えば、音響モデルに登録された全語彙の音素列(サブワード列)に対する出力確率分布について考慮し、分布間の距離を語彙間の類似度として利用することが出来る。該類似度は、音素間距離とも呼ばれる。
第3の方法は、前段認識結果候補Xiのうち、訂正情報が得られた場合に、後段認識の絞込みが効率よく行われる語彙に対して高い優先度を与えるものである。上述したように、本発明で用いる多段認識手法では、前段認識辞書に含まれる各語彙(キーワード)に、後段認識辞書に含まれる語彙(後段認識語彙)が関連付けられている。例えば、キーワード「トウキョウ」という前段認識辞書の語彙については、後段認識語彙「東京タワー」や「○○東京」等が登録された後段辞書が対応する。すなわち、各キーワードに対する後段認識辞書のデータサイズが既知であるため、訂正対象とする語彙の選択によって、ある程度後段認識の語彙サイズを制御することができる。
「取り消し」を受理する場合には、取り消し対象となる語彙に関連する後段辞書のサイズが大きいほど認識の効率が高い。よって、前段認識結果提示部105は、後段辞書のサイズの大きな語彙に対して高い優先度を与える。例えば、上述の6つのキーワードが取得された場合には、前段認識結果提示部105は、優先度上位3位として、コウコウ(サイズ=5645)、トウキョウ(サイズ=2454)、キョウト(サイズ=2052)を選択して、これらを提示対象認識結果Xjとする。そして、使用者に対して「コウコウ、トウキョウ、キョウトのいずれかを含む施設からお調べします。取り消し項目があれば発話してください。」のように提示を行う。その結果、使用者からの訂正音声Bとして「コウコウを取り消し」を取得した場合には、後段認識対象から、コウコウに対応する辞書を除外できるため、後段認識の効率が向上する。
「確定」を受理する場合には、取り消しとは逆に、確定対象となる語彙に関連する後段辞書のサイズが小さいほど認識の効率が高い。よって、前段認識結果提示部105は、後段辞書のサイズの小さな語彙に対して高い優先度を与える。例えば、上述の6つのキーワードが取得された場合には、前段認識結果提示部105は、優先度上位3位として、パーク(サイズ=1341)、ヨット(サイズ=164)、トウキュウ(サイズ=204)を選択して提示対象認識結果Xjとする。そして、使用者に対して「パーク、ヨット、トウキュウの何れかを含む施設からお調べします」のように提示を行う。その結果、使用者からの訂正音声Bとして「パークを確定」を取得した場合には、後段認識対象を「パーク」に対応する辞書に限定できるため、効率が向上する。
第4の方法は、前段認識候補の競合性に着目した提示方法である。上述したように、多段認識手法では、前段認識結果に基づき後段辞書を選択する。従って、対象となる後段辞書の全語彙を考えた場合、同時に出現する可能性が低い、または同時に出現する可能性が無いキーワードが複数考えられる。目的地の施設名称を認識語彙とした本実施の形態では、仮に施設の種別に関連の高いキーワード「ゴルフ」と「コウコウ」を双方含む施設が存在しないにもかかわらず、この2つが前段認識候補として検出された場合、少なくとも1つは誤認識である可能性が高い。同様に、地域に関連の高いキーワード「フクシマ」と「トクシマ」を双方含む施設が存在しない場合も同様である。
(1)前段認識処理によって発話音声Aに含まれるキーワード(前段認識結果候補Xi)を認識し、前段認識結果候補Xiの中から選択した提示対象認識結果Xjを使用者に提示するようにした。そして、提示対象認識結果Xjの使用者からの訂正を受け付け、訂正結果を加味して構築した後段辞書を用いて発話音声を認識するようにした。これによって、キーワード認識の結果に誤りがある場合でも、それを訂正して発話音声を正しく認識することができる。
上述した第1の実施の形態では、前段認識処理を行なって認識結果を提示し、使用者による前段認識結果の訂正を受理を完了した後、後段認識処理を行う例について説明した。これに対して、第2の実施の形態では、前段認識処理が完了した後、すぐに後段認識処理を開始し、後段認識処理を行っている最中、または後段認識結処理が完了した後に、使用者による前段認識結果の訂正を受理する場合について説明する。なお、図1および図3については、第1の実施の形態と同様のため説明を省略する。
上述した第1および第2実施形態では、音声のみ(音声合成及び音声認識)を用いたシステムと使用者とのやり取りについて示した。これに対して、第3の実施の形態では、音声と表示装置及びスイッチ類との併用による、より多様な訂正を可能とする方法について説明する。なお、図3については、第1の実施の形態と同様のため、また図9については、第2の実施の形態と同様のため、それぞれの説明を省略する。
(1)前段認識結果に基づいて後段辞書を切替え、後段辞書による再認識を行う多段認識手法において、使用者の発話に対する前段認識結果を、表示とスイッチ操作により効率的に訂正し、後段認識処理に反映することができる。このため、後段認識処理のための後段辞書の絞込みが効率的に行われ、再認識に必要な計算リソースが削減できるのに加え、適宜訂正情報を前段認識結果に反映させることができるため、認識性能を向上させることができる。
上述した第1〜第3実施の形態では、前段認識結果に基づいて後段辞書を切り替え、再認識、すなわち後段認識を行う「多段認識手法」による音声認識方法について説明した。これに対して、第4の実施の形態では、前段認識結果に基づいてデータベース(以下DB)検索式を生成し、これを用いてDBを検索することによって音声認識を行う「複合音声検索手法」による音声認識方法について説明する。なお、図11については、第3の実施の形態と同様のため、説明を省略する。
「横浜ランドマークタワー」の認識スコア=検索式3の付与スコア(40)+検索式6の付与スコア(20)+検索式8の付与スコア(20)+検索式10の付与スコア(20)+検索式12の付与スコア(5)+検索式13の付与スコア(5)+検索式15の付与スコア(5)=115 ・・・(1)
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した第1〜第4の実施の形態では、前段認識部102は、キーワードスポット認識を行って、発話音声Aに含まれるキーワードを認識する例について説明した。しかしながら、前段認識部102は、公知の単語認識処理を行って、発話音声Aに含まれる単語をキーワードとして認識するようにしてもよい。
101 音声入力部
102 前段認識部
103 前段辞書記憶部
104 辞書切替部
105 前段認識結果提示部
106 訂正受理部
107 訂正用語彙記憶部
108 後段認識部
109 後段辞書記憶部
110 手操作入力部
111 検索式生成部
112 DB検索部
113 DB
201 マイクロフォン
202 AD変換部
203 演算装置
204 記憶装置
205 DA変換部
206 スピーカ
Claims (13)
- 使用者の発話音声を入力する音声入力手段と、
複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識するキーワード認識手段と、
前記キーワード認識手段による認識結果のキーワードを使用者に提示する提示手段と、
前記提示されたキーワードの選択による訂正に基づいて、前記キーワード認識手段による認識結果のキーワードを訂正する訂正手段と、
前記訂正手段で訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築する辞書構築手段と、
前記辞書構築手段で構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識する発話音声認識手段とを備えることを特徴とする音声認識装置。 - 請求項1に記載の音声認識手段において、
前記訂正手段は、使用者による前記音声入力手段を介した音声入力により、前記訂正を受け付けることを特徴とする音声認識装置。 - 請求項1に記載の音声認識手段において、
使用者によって操作される操作手段をさらに備え、
前記訂正手段は、使用者による前記操作手段の操作により、前記訂正を受け付けることを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、その認識スコアが所定の範囲内にある前記認識キーワードを抽出して、使用者に提示することを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、音響的な特徴が類似する前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記待ち受け単語辞書のデータサイズを小さくできる前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記提示手段は、前記キーワード認識手段によって認識された認識キーワードのうち、前記認識対象語彙内に同時に出現する可能性が低い前記認識キーワードを優先して抽出し、使用者に提示することを特徴とする音声認識装置。 - 請求項1〜7のいずれか一項に記載の音声認識装置において、
前記提示手段および前記訂正手段による処理と、前記辞書構築手段および前記発話音声認識手段による処理を並行して実行することを特徴とする音声認識装置。 - 請求項1〜8のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードが複数ある場合には、前記訂正手段によって訂正された後の各キーワードを含む前記認識対象語彙の和集合により、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。 - 請求項1〜8のいずれか一項に記載の音声認識装置において、
前記訂正手段は、前記認識キーワードの取り消しまたは追加を受け付け、
前記辞書構築手段は、前記取り消しまたは追加された後の前記認識キーワードに基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。 - 請求項1〜8のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記キーワード認識手段で認識された認識キーワードの前記発話音声内における出現位置を特定し、前記認識キーワードの出現位置に基づいて、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。 - 請求項1〜8のいずれか一項に記載の音声認識装置において、
前記辞書構築手段は、前記訂正手段で訂正されたキーワードを加味して、前記発話音声を認識するための待ち受け単語辞書を検索するための検索式を生成し、前記検索式を用いて検索した前記認識対象語彙を含むように、前記待ち受け単語辞書を構築することを特徴とする音声認識装置。 - 複数の認識対象語彙に含まれるキーワードの集合を待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、
前記認識結果のキーワードを使用者に提示し、
前記提示されたキーワードの選択による訂正に基づいて、前記認識結果のキーワードを訂正し、
前記訂正されたキーワード、及び前記認識されたキーワードのうち前記訂正手段で訂正されていないキーワードの集合を待ち受け単語とする待ち受け単語辞書を構築し、
前記構築された前記待ち受け単語辞書を用いて、前記入力された発話音声を認識することを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006354945A JP4867654B2 (ja) | 2006-12-28 | 2006-12-28 | 音声認識装置、および音声認識方法 |
US11/938,802 US7949524B2 (en) | 2006-12-28 | 2007-11-13 | Speech recognition correction with standby-word dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006354945A JP4867654B2 (ja) | 2006-12-28 | 2006-12-28 | 音声認識装置、および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008164975A JP2008164975A (ja) | 2008-07-17 |
JP4867654B2 true JP4867654B2 (ja) | 2012-02-01 |
Family
ID=39585203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006354945A Expired - Fee Related JP4867654B2 (ja) | 2006-12-28 | 2006-12-28 | 音声認識装置、および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7949524B2 (ja) |
JP (1) | JP4867654B2 (ja) |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2006083020A1 (ja) * | 2005-02-04 | 2008-06-26 | 株式会社日立製作所 | 抽出された音声データを用いて応答音声を生成する音声認識システム |
US8676582B2 (en) * | 2007-03-14 | 2014-03-18 | Nec Corporation | System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor |
US8429171B2 (en) * | 2007-08-20 | 2013-04-23 | Nexidia Inc. | Consistent user experience in information retrieval systems |
US20090144056A1 (en) * | 2007-11-29 | 2009-06-04 | Netta Aizenbud-Reshef | Method and computer program product for generating recognition error correction information |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP5454469B2 (ja) * | 2008-05-09 | 2014-03-26 | 富士通株式会社 | 音声認識辞書作成支援装置,処理プログラム,および処理方法 |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
EP2405423B1 (en) * | 2009-03-03 | 2013-09-11 | Mitsubishi Electric Corporation | Voice recognition device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US9275640B2 (en) * | 2009-11-24 | 2016-03-01 | Nexidia Inc. | Augmented characterization for speech recognition |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
JP5590549B2 (ja) * | 2010-02-23 | 2014-09-17 | 国立大学法人豊橋技術科学大学 | 音声検索装置および音声検索方法 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9188456B2 (en) * | 2011-04-25 | 2015-11-17 | Honda Motor Co., Ltd. | System and method of fixing mistakes by going back in an electronic device |
TWI406266B (zh) * | 2011-06-03 | 2013-08-21 | Univ Nat Chiao Tung | 語音辨識裝置及其辨識方法 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JPWO2013005248A1 (ja) * | 2011-07-05 | 2015-02-23 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
US9514737B2 (en) * | 2011-09-13 | 2016-12-06 | Mitsubishi Electric Corporation | Navigation apparatus |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
CN104584118B (zh) * | 2012-06-22 | 2018-06-15 | 威斯通全球技术公司 | 多遍车辆语音识别系统和方法 |
KR101636902B1 (ko) * | 2012-08-23 | 2016-07-06 | 에스케이텔레콤 주식회사 | 문법의 오류 검출 방법 및 이를 위한 장치 |
US8612211B1 (en) * | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
KR101892734B1 (ko) * | 2013-01-04 | 2018-08-28 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
IL224482B (en) * | 2013-01-29 | 2018-08-30 | Verint Systems Ltd | System and method for keyword spotting using representative dictionary |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6165619B2 (ja) * | 2013-12-13 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
DE112014006795B4 (de) * | 2014-07-08 | 2018-09-20 | Mitsubishi Electric Corporation | Spracherkennungssystem und Spracherkennungsverfahren |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
DE102014114845A1 (de) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Verfahren zur Interpretation von automatischer Spracherkennung |
DE102014017384B4 (de) * | 2014-11-24 | 2018-10-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung |
CN104409075B (zh) * | 2014-11-28 | 2018-09-04 | 深圳创维-Rgb电子有限公司 | 语音识别方法和系统 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
IL242219B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | System and method for keyword searching using both static and dynamic dictionaries |
IL242218B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | A system and method for maintaining a dynamic dictionary |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10331402B1 (en) * | 2017-05-30 | 2019-06-25 | Amazon Technologies, Inc. | Search and knowledge base question answering for a voice user interface |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
TWI698857B (zh) | 2018-11-21 | 2020-07-11 | 財團法人工業技術研究院 | 語音辨識系統及其方法、與電腦程式產品 |
CN110033769B (zh) * | 2019-04-23 | 2022-09-06 | 施永兵 | 一种录入语音处理方法、终端及计算机可读存储介质 |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN112581958B (zh) * | 2020-12-07 | 2024-04-09 | 中国南方电网有限责任公司 | 一种应用于电力领域的简短语音智能导航方法 |
US12002451B1 (en) * | 2021-07-01 | 2024-06-04 | Amazon Technologies, Inc. | Automatic speech recognition |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
JPH0816603A (ja) * | 1994-06-27 | 1996-01-19 | Fuji Xerox Co Ltd | ファイル情報の検索装置 |
JPH10162008A (ja) * | 1996-11-28 | 1998-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
JPH11259085A (ja) * | 1998-03-13 | 1999-09-24 | Toshiba Corp | 音声認識装置及び認識結果提示方法 |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US6138099A (en) * | 1998-10-19 | 2000-10-24 | International Business Machines Corp. | Automatically updating language models |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
JP3718088B2 (ja) * | 1999-09-24 | 2005-11-16 | アルパイン株式会社 | 音声認識修正方式 |
US6581033B1 (en) * | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
JP2001175280A (ja) * | 1999-12-17 | 2001-06-29 | Nippon Hoso Kyokai <Nhk> | 字幕表示装置および字幕制御用記憶媒体 |
JP2001268669A (ja) * | 2000-03-21 | 2001-09-28 | Ricoh Co Ltd | 移動電話端末を利用した機器制御装置、方法、及び記録媒体 |
JP3700533B2 (ja) * | 2000-04-19 | 2005-09-28 | 株式会社デンソー | 音声認識装置及び処理システム |
EP1162602B1 (en) * | 2000-06-07 | 2004-12-15 | Sony International (Europe) GmbH | Two pass speech recognition with active vocabulary restriction |
JP3982289B2 (ja) * | 2002-03-13 | 2007-09-26 | 日産自動車株式会社 | 音声認識装置 |
CN1871638B (zh) * | 2003-10-21 | 2012-01-25 | 皇家飞利浦电子股份有限公司 | 采用用户接口的智能语音识别 |
JP3944159B2 (ja) * | 2003-12-25 | 2007-07-11 | 株式会社東芝 | 質問応答システムおよびプログラム |
JP2005275228A (ja) * | 2004-03-26 | 2005-10-06 | Equos Research Co Ltd | ナビゲーション装置 |
WO2006028171A1 (ja) * | 2004-09-09 | 2006-03-16 | Pioneer Corporation | データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体 |
JP4738847B2 (ja) * | 2005-03-07 | 2011-08-03 | キヤノン株式会社 | データ検索装置および方法 |
JP2006277676A (ja) * | 2005-03-30 | 2006-10-12 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
DE102005030963B4 (de) * | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
-
2006
- 2006-12-28 JP JP2006354945A patent/JP4867654B2/ja not_active Expired - Fee Related
-
2007
- 2007-11-13 US US11/938,802 patent/US7949524B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080162137A1 (en) | 2008-07-03 |
JP2008164975A (ja) | 2008-07-17 |
US7949524B2 (en) | 2011-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4867654B2 (ja) | 音声認識装置、および音声認識方法 | |
JP5089955B2 (ja) | 音声対話装置 | |
US7672846B2 (en) | Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
KR101383552B1 (ko) | 다중 명령어가 포함된 단일 문장의 음성인식방법 | |
US8200491B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US20100191520A1 (en) | Text and speech recognition system using navigation information | |
US20090112593A1 (en) | System for recognizing speech for searching a database | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
KR101526918B1 (ko) | 다언어 이국 음성 인식 | |
JP2008064885A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US8108215B2 (en) | Speech recognition apparatus and method | |
JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
US8566091B2 (en) | Speech recognition system | |
JP4236597B2 (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 | |
JP5274191B2 (ja) | 音声認識装置 | |
JP2010139826A (ja) | 音声認識システム | |
US11688394B1 (en) | Entity language models for speech processing | |
JP4736962B2 (ja) | キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置 | |
JP2003108551A (ja) | 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム | |
JP2009116075A (ja) | 音声認識装置 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |