JP2012063536A - Terminal device, speech recognition method and speech recognition program - Google Patents
Terminal device, speech recognition method and speech recognition program Download PDFInfo
- Publication number
- JP2012063536A JP2012063536A JP2010207037A JP2010207037A JP2012063536A JP 2012063536 A JP2012063536 A JP 2012063536A JP 2010207037 A JP2010207037 A JP 2010207037A JP 2010207037 A JP2010207037 A JP 2010207037A JP 2012063536 A JP2012063536 A JP 2012063536A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- input
- evaluation
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【課題】 本発明は、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な端末装置および音声認識処理方法を提供することを目的とする。
【解決手段】 マイク102から入力された音声データを、通信部101が音声認識を行う音声認識サーバ200に送信する。音声認識サーバ200において、一の音響モデルおよび一の言語モデルを用いて音声認識処理を行い、その結果を音声認識結果として端末装置100に送信する。端末装置100では、音声認識サーバ200から音声認識結果を受信して、この受信された音声認識結果を、仮説再評価部106が、入力された音声データ、ならびに端末装置100に備えられている音響モデルおよび言語モデルを利用して評価する。
【選択図】 図1PROBLEM TO BE SOLVED: To provide a terminal device and a speech recognition processing method capable of realizing speech recognition processing that achieves both large vocabulary and high-accuracy speech recognition processing and customization of a language model or acoustic model for each user. The purpose is to do.
SOLUTION: Voice data input from a microphone 102 is transmitted to a voice recognition server 200 where a communication unit 101 performs voice recognition. The speech recognition server 200 performs speech recognition processing using one acoustic model and one language model, and transmits the result to the terminal device 100 as a speech recognition result. In the terminal device 100, the speech recognition result is received from the speech recognition server 200, and the received speech recognition result is input to the hypothesis re-evaluation unit 106 by the input speech data and the sound provided in the terminal device 100. Evaluate using models and language models.
[Selection] Figure 1
Description
本発明は、音声認識結果を処理する端末装置、音声認識方法および音声認識プログラムに関する。 The present invention relates to a terminal device that processes a speech recognition result, a speech recognition method, and a speech recognition program.
音声認識処理を行うに当たっては、クライアント端末内で行う場合と、サーバ側で行う場合がある。クライアント端末内で行う場合は、当該端末がユーザ専用のものである場合が多いことから、端末内のユーザ固有の情報として、ユーザ辞書、ユーザの過去の入力音声や通話音声、音響トレーニングの実績などを利用して、言語モデルや音響モデルの個人カスタマイズが容易である。したがって、ユーザ適応の音声認識が可能となる反面、メモリ量や演算リソースが限られ、語彙数や仮説探索の範囲が制約されるといったデメリットがある。 The voice recognition process may be performed in the client terminal or on the server side. When performed in a client terminal, the terminal is often dedicated to the user. Therefore, as user-specific information in the terminal, user dictionary, user input voice and call voice, acoustic training results, etc. It is easy to personally customize language models and acoustic models. Accordingly, user-adaptive speech recognition is possible, but there are disadvantages such as a limited amount of memory and computing resources, and a restriction on the number of vocabularies and the range of hypothesis search.
一方で、サーバ側で行う場合は、端末内音声認識と比較してメモリ量や演算リソースを豊富に利用でき、大語彙且つ高精度の音声認識が可能といったメリットがある。しかし、サーバは多数のユーザに共有されるものであるため、ユーザ各々の言語モデルまたは音響モデルを学習したり、アクセスに応じて即時に高速にユーザ各々にカスタマイズされた言語モデルまたは音響モデルを読み込むことはコストが高い。したがって、サーバ側の音声認識では言語モデルまたは音響モデルのユーザごとのカスタマイズが困難というデメリットがある。 On the other hand, when it is performed on the server side, there are merits that a large amount of memory and computing resources can be used compared to in-terminal speech recognition, and speech recognition with high vocabulary and high accuracy is possible. However, since the server is shared by many users, it learns each user's language model or acoustic model, or loads a customized language model or acoustic model for each user immediately and quickly according to access. That is expensive. Therefore, there is a demerit that it is difficult to customize the language model or the acoustic model for each user in the speech recognition on the server side.
そこで、両者の長所を兼ね備え、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが課題とされており、特許文献1は当該課題を解決するための一つの試みを示している。特許文献1では、サーバは認識結果における単語境界の時間情報を端末に返し、端末では当該時間情報を参照し且つ自らが有する辞書を用いて再認識を行う。特に、未知語や固有名詞と判定された語のみを再認識の対象とすることにより、認識精度の向上を目指している。 Therefore, there is a problem of realizing a speech recognition process that combines the advantages of both, a large vocabulary and highly accurate speech recognition process, and customization of each language model or acoustic model for each user. One attempt to solve the problem is shown. In Patent Document 1, the server returns the time information of the word boundary in the recognition result to the terminal, and the terminal refers to the time information and performs re-recognition using a dictionary owned by itself. In particular, we aim to improve recognition accuracy by re-recognizing only words that are determined as unknown words or proper nouns.
しかし、このような特許文献1の技術では、サーバ側の認識で単語境界が正しく認識されていないと、端末側は正しくない時間情報を参照することとなり、端末での再認識後も正しい認識結果が得られないおそれがある。また、サーバ側で認識対象の語が語彙外の語である場合は、未知語や固有名詞の判定を正しくできない場合があり、端末で再認識を行った後も正しい認識結果が得られない場合がある。 However, in such a technique of Patent Document 1, if the word boundary is not correctly recognized by the server side recognition, the terminal side will refer to the incorrect time information, and the correct recognition result even after re-recognition at the terminal May not be obtained. Also, if the word to be recognized on the server side is a word outside the vocabulary, it may not be possible to correctly determine unknown words or proper nouns, and correct recognition results may not be obtained even after re-recognition at the terminal There is.
さらに、言語モデルにおける語彙不足から、音声認識サーバが正しく音声認識することができない場合がある。未知語の場合、通常音声認識の対象として言語モデルに登録されていないため、その不具合は顕著なものとなる。 Furthermore, the speech recognition server may not be able to recognize speech correctly due to a lack of vocabulary in the language model. In the case of an unknown word, since it is not registered in the language model as a target for normal speech recognition, the problem becomes remarkable.
そこで、本発明は上記に鑑みてなされたもので、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な端末装置、音声認識処理方法および音声認識プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of the above, and a terminal device capable of realizing a speech recognition process that achieves both a large vocabulary and high-accuracy speech recognition process and customization of a language model or an acoustic model for each user. Another object is to provide a speech recognition processing method and a speech recognition program.
上述の課題を解決するために、本発明の端末装置は、音声データの入力を受け付ける入力手段と、前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、前記受信手段により受信された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルおよび前記一の言語モデルとは異なる他の言語モデルを利用して評価する仮説再評価手段と、前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、を備えている。 In order to solve the above-described problem, a terminal device of the present invention includes an input unit that receives input of voice data, a transmission unit that transmits voice data input by the input unit to an external device that performs voice recognition, A receiving means for receiving a speech recognition result recognized using one acoustic model and one language model in the external device from the external device, and a speech recognition result received by the receiving means in the input means A hypothesis re-evaluation unit that evaluates using the input speech data, another acoustic model different from the one acoustic model, and another language model different from the one language model; and the hypothesis re-evaluation unit Presenting means for presenting one speech recognition result according to the evaluation.
また、本発明の音声認識方法は、音声データの入力を受け付ける入力ステップと、前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、前記受信ステップにより受信された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルおよび前記一の言語モデルとは異なる他の言語モデルを利用して評価する仮説再評価ステップと、前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、を備えている。 The speech recognition method of the present invention includes an input step for receiving input of speech data, a transmission step for transmitting the speech data input by the input step to an external device that performs speech recognition, A reception step of receiving a speech recognition result recognized using an acoustic model and one language model from the external device, and a speech recognition result received in the reception step, the speech data input in the input step; And a hypothesis re-evaluation step that uses another acoustic model that is different from the one acoustic model and another language model that differs from the one language model, and an evaluation according to the hypothesis re-evaluation step. A presentation step for presenting a speech recognition result.
また、本発明の音声認識プログラムは、音声データの入力を受け付ける入力モジュールと、前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、前記受信モジュールにより受信された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルおよび前記一の言語モデルとは異なる他の言語モデルを利用して評価する仮説再評価モジュールと、前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、を備えている。 The speech recognition program of the present invention includes an input module that receives input of speech data, a transmission module that transmits speech data input by the input module to an external device that performs speech recognition, A voice recognition result recognized using an acoustic model and one language model from the external device; a voice recognition result received by the reception module; a voice data input in the input module; And a hypothesis re-evaluation module that evaluates using another acoustic model different from the one acoustic model and another language model different from the one language model, and an evaluation according to the evaluation by the hypothesis re-evaluation module. A presentation module for presenting a speech recognition result.
これら発明によれば、入力された音声データを、音声認識を行う外部装置に送信し、外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、外部装置から受信し、受信された音声認識結果を、入力された音声データ、ならびに一の音響モデルとは異なる他の音響モデルまたは一の言語モデルとは異なる他の言語モデルを利用して評価し、当該評価にしたがった一の音声認識結果を提示する。これにより、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。 According to these inventions, the input speech data is transmitted to an external device that performs speech recognition, and the speech recognition result recognized by the external device using one acoustic model and one language model is received from the external device. The received speech recognition result is evaluated using the input speech data and another acoustic model different from the one acoustic model or another language model different from the one language model. Therefore, one speech recognition result is presented. As a result, an appropriate speech recognition result can be selected within a range of results recognized by the external device, and a large vocabulary and highly accurate speech recognition process can be performed. Furthermore, the amount of computation of the CPU, the amount of memory used, and the like can be reduced as compared to performing speech recognition processing in a normal terminal.
また、本発明の端末装置100は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、をさらに備え、前記仮説再評価手段は、前記認識結果拡張手段により拡張された音声認識結果に対する評価を行う。
The
この発明によれば、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶しておき、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書から検索して、当該近似する単語を音声認識結果に追加・拡張して、拡張された音声認識結果に対する評価を行う。これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。 According to the present invention, a user dictionary in which a word defined by a user and pronunciation information indicating pronunciation of the word is associated is stored, and a predetermined word among words included in the received speech recognition result is stored. A word that approximates the conditional word is searched from the user dictionary, and the approximated word is added / expanded to the speech recognition result, and the expanded speech recognition result is evaluated. As a result, an accurate speech recognition result can be obtained even for speech data including a user-specific word by adding, expanding, and evaluating a word specific to the user and evaluating it. . In particular, even if the speech data includes unknown words such as uncommon proper nouns, a speech recognition result can be obtained in consideration thereof.
また、本発明の端末装置100において、前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする。
In the
この発明によれば、他の音響モデルおよび他の言語モデルは、端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであり、これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。 According to the present invention, the other acoustic model and the other language model are determined based on the usage history of the terminal device or the user operation, whereby the user-specific acoustic model and language model of the terminal device are obtained. It can be used, and voice recognition processing can be realized more in line with user identification.
また、本発明の端末装置100において、前記仮説再評価手段は、前記他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。
Further, in the
この発明によれば、他の言語モデルを用いて前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。 According to the present invention, the language likelihood of the speech recognition result received by the receiving unit is calculated using another language model, and the re-evaluation score including the calculated language likelihood and the received speech recognition result are calculated. The speech recognition result can be evaluated based on the accompanying recognition score. Therefore, the recognition accuracy can be improved by the language model adapted to the individual.
また、本発明の端末装置100において、前記仮説再評価手段は、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。
Further, in the
この発明によれば、前記他の音響モデルを利用して、前記入力手段によって入力された音声データを所与とした際の前記受信手段により受信された音声認識結果の尤度を求めることによって音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することができる。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。 According to this invention, the sound is obtained by obtaining the likelihood of the speech recognition result received by the receiving unit when the voice data input by the input unit is given using the other acoustic model. The likelihood is calculated, and the speech recognition result can be evaluated based on the re-evaluation score composed of the calculated acoustic likelihood and the recognition score attached to the received speech recognition result. Therefore, the recognition accuracy can be improved by the acoustic model adapted to the individual.
本発明によれば、外部装置において認識された結果の範囲で適切な音声認識結果を選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。 According to the present invention, an appropriate speech recognition result can be selected within a range of results recognized by an external device, and a large vocabulary and highly accurate speech recognition process can be performed. Furthermore, the amount of computation of the CPU, the amount of memory used, and the like can be reduced as compared to performing speech recognition processing in a normal terminal.
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 Embodiments of the present invention will be described with reference to the accompanying drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
図1は、本実施形態の音声認識システムの機能を示すブロック図である。図1に示されるとおり、本実施形態の音声認識システム10は、端末装置100と音声認識サーバ200とを含んで構成されている。端末装置100において入力された音声は、音声認識サーバ200に送信されて、外部装置である音声認識サーバ200において音声認識処理が行われる。そして、音声認識サーバ200において認識された音声認識結果は端末装置100に返信される。返信された音声認識結果は、複数の認識候補を含んでおり、端末装置100においては、いずれの認識候補が妥当なものであるか、評価して、評価値の高い認識候補を音声認識結果として表示部107に表示させる。
FIG. 1 is a block diagram showing functions of the voice recognition system of the present embodiment. As shown in FIG. 1, the
以下、端末装置100および音声認識サーバ200の各機能について説明する。図1に示されるとおり、端末装置100は、通信部101(送信手段、受信手段)、マイク102(入力手段)、音声処理部103、ユーザ辞書保持部104(ユーザ辞書記憶手段)、認識結果拡張部105(認識結果拡張手段)、仮説再評価部106(仮説再評価手段)、表示部107(提示手段)を含んで構成されている。この端末装置100は、例えば携帯端末であって、図2に示されるハードウェアにより構成される。
Hereinafter, functions of the
図2は、端末装置100のハードウェア構成を示すブロック図である。図1に示される端末装置100は、物理的には、図2に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1において説明した各機能は、図2に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
FIG. 2 is a block diagram illustrating a hardware configuration of the
マイク102は、端末装置100のユーザが発する音声を受け付ける部分である。
The
音声処理部103は、マイク102において受け付けられた音声を処理する部分であり、例えばデジタルデータに変換する部分である。
The sound processing unit 103 is a part that processes the sound received by the
通信部101は、音声処理部103において処理された音声データを外部装置である音声認識サーバ200に送信し、また音声認識サーバ200から音声認識結果を受信する部分である。通信部101は、音声認識サーバ200から音声認識結果を受信すると、認識結果拡張部105に、その音声認識結果を出力する。この音声認識結果には、複数の認識候補が含まれている。
The
具体的には、通信部101は、図3に示される音声認識結果を受信する。図3(a)は、N−best方式における音声認識結果の認識工を含んだ候補リストを示す説明図である。図3(a)においては、発音として、以下の発話がなされたとしている。
(発話内容)今日は横島に会った
これに対して、N−best方式で候補リストをあらわすと、図3(a)に示されるとおり、音声認識結果として、複数の認識候補が出力される。N−Best方式では、発話された文章を文節ごとに区分された単語を認識することで得られた候補を組み合わせた文章ごとに、認識スコアが算出される。
Specifically, the
(Speech contents) Today, when Yokoshima was met, if a candidate list is represented by the N-best method, a plurality of recognition candidates are output as a speech recognition result as shown in FIG. In the N-Best method, a recognition score is calculated for each sentence obtained by combining candidates obtained by recognizing words that are classified into phrases by speech.
また、候補リストとしては、N−best方式に限られるものでは無く、図3(b)に示すように、Confusion Network(CN)方式もありえる。CN方式では、文節ごとに区分された単語のつながりを示すように管理されており、それぞれのつながりごとに認識スコアが算出されている。 In addition, the candidate list is not limited to the N-best method, and a confusion network (CN) method may be used as shown in FIG. In the CN method, management is performed so as to indicate word connections classified for each phrase, and a recognition score is calculated for each connection.
いずれの方式においても、文節ごとに区分された単語を組み合わせることにより、複数の認識候補を得ることができる。 In any of the methods, a plurality of recognition candidates can be obtained by combining words segmented for each phrase.
ユーザ辞書保持部104は、端末装置100のユーザにより設定されたユーザ辞書を記憶する部分である。このユーザ辞書は、ユーザが音声認識のために、ユーザ独自に設定した辞書データであったり、または、かな漢字変換のための拡張辞書、電話帳データなどであり、発音(ふりがな)と漢字(またはカタカナ、ひらがなでもよい)とを対応付けた辞書データである。
The user
認識結果拡張部105は、通信部101において音声認識サーバ200から受信した音声認識結果を拡張する処理を行う部分である。具体的には、認識結果拡張部105は、複数の認識候補のそれぞれに含まれる単語のうち、所定条件を満たした単語(例えば認識スコアの低い(所定値以下)の単語)と近い発音の単語をユーザ辞書保持部104のユーザ辞書を検索し、検索した単語を加えることで、音声認識結果を拡張することができる。発音の近さの評価は、文字列の編集距離を用いるが、他の方法によってもよい。また、ここでは所定条件として認識スコアの低い単語を拡張するように処理しているが、そのほか、所定の品詞のものや、固有名詞であることを判別して、その単語を拡張するようにしてもよい。
The recognition result
図4に、音声認識結果における認識候補の拡張についての具体例を示す。図4(a)は、音声認識結果の一つである認識候補を示した説明図である。この図4(a)では、例えば「横浜/ヨコハマ」の認識スコアが低いものとする(所定値以下のもの)。そのため、認識結果拡張部105は、「ヨコハマ」と発音の近い単語を、ユーザ辞書保持部104のユーザ辞書から検索する。
FIG. 4 shows a specific example of recognition candidate expansion in the speech recognition result. FIG. 4A is an explanatory diagram showing recognition candidates that are one of speech recognition results. In FIG. 4A, for example, it is assumed that the recognition score of “Yokohama / Yokohama” is low (below a predetermined value). Therefore, the recognition
図4(b)で示されるとおり、ここでは、「横島/ヨコシマ」が検索され、「横浜/ヨコハマ」に対する別の候補として「横島/ヨコシマ」が追加されている。 As shown in FIG. 4B, “Yokoshima / Yokoshima” is searched here, and “Yokoshima / Yokoshima” is added as another candidate for “Yokohama / Yokohama”.
拡張された認識候補の認識スコアは、元の認識候補と同じものとすることが妥当と思われるが、発音の近さを基準として元の候補のスコアにペナルティを与えたものであってもよい。例えば、「今日は横浜に会った」の認識スコアが0.32とする。そして、発音の編集距離1ごとに0.05のペナルティを与えると、「ヨコハマ」と「ヨコシマ」の編集距離は1であるため、拡張された候補「今日は横島に会った」の認識スコアは0.27となる。 It seems reasonable that the recognition score of the expanded recognition candidate is the same as that of the original recognition candidate, but a penalty may be given to the score of the original candidate based on the closeness of pronunciation. . For example, the recognition score of “I met Yokohama today” is 0.32. And if you give a penalty of 0.05 for each editing distance of pronunciation, the editing distance of “Yokohama” and “Yokoshima” is 1, so the recognition score of the expanded candidate “I met Yokoshima today” is 0.27.
図1に戻り、引き続き説明を続ける。仮説再評価部106は、認識結果拡張部105において拡張された認識候補を含んだ複数の認識候補について評価を行う部分であり、端末装置100において備えられている言語モデルまたは音響モデルの少なくとも一方を利用して、評価を行う。具体的には、仮説再評価部106は、言語モデルを利用して、音声認識結果の複数の認識候補のそれぞれについて、単語N−gram確率に基づく言語尤度を求める。また、仮説再評価部106は、音響モデルを利用して、音声認識結果の複数候補のそれぞれについて、音響尤度を求める。すなわち、音声認識結果の複数候補のそれぞれを認識仮説として取り扱い、音響モデルを利用して、音声処理部103において処理された音声データを所与とした場合の音声認識結果である認識仮説の読み音素列の尤度を求めることにより音響尤度を求めることができる。音響尤度の算出法は、下記参考文献に記載されているように広く知られており、例えば現在典型的に用いられる隠れマルコフモデルに基づく音響モデルの場合には、音響モデルに含まれる音素HMM(Hidden Markov Model)を連結して認識仮説を構成する音素列に対応する文HMMを生成し、音声データを解析して得られる特徴量系列の、文HMM上での出力確率を、DPマッチング等で求めればよい。そして、仮説再評価部106は、認識候補ごとに、言語尤度または音響尤度の少なくとも一方を求めることにより、評価のための再評価スコアを算出する。
[参考文献] ITText 音声認識システム 情報処理学会編集、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、2001/05発行
Returning to FIG. 1, the description will be continued. The hypothesis
[References] ITText Speech Recognition System Edited by Information Processing Society of Japan, Kiyohiro Shikano, Katsunobu Ito, Tatsuya Kawahara, Kazuya Takeda, Mikio Yamamoto, 2001/05 published
仮説再評価部106は、候補ごとに再評価スコアを算出すると、音声認識サーバ200から得た認識スコアと再評価スコアとに基づいて最終スコアを算出する。例えば、仮説再評価部106は、認識スコアと再評価スコアとの和を算出することで、これを最終スコアとしてもよいし、認識スコアまたは再評価スコアのいずれかもしくは両方に重み付けを行って、その和を算出することで、最終スコアとしてもよい。また、再評価スコアのみを最終スコアとして用いてもよい。さらに、再評価スコアは、音響モデル・言語モデルいずれか一方のみを用いて得られたものとしてもよい。
When the hypothesis
図5は、認識結果拡張部105において拡張された候補を含んだ候補リストおよびそれに対応する各スコアを示す説明図である。
FIG. 5 is an explanatory diagram showing a candidate list including candidates expanded in the recognition
例えば、「今日は、横浜へ行った」という候補は、認識スコア:0.5、再評価スコア:0.3、最終スコア:0.8と対応付けている。これら各数値は、仮説再評価部106において算出された一時的に記憶されているものである。図5では、「今日は横島に会った」が、最終スコア:0.87であって、認識候補の中で一番高い数値となっているため、これを認識結果として出力する。
For example, the candidate “I went to Yokohama today” is associated with recognition score: 0.5, re-evaluation score: 0.3, and final score: 0.8. These numerical values are temporarily stored in the hypothesis
表示部107は、仮説再評価部106において評価された認識結果を表示する。
The
つぎに、音声認識サーバ200について説明する。図1に示されるとおり、音声認識サーバ200は、通信部201および音声認識部202を含んで構成されている。通信部201は、端末装置100から送信された音声データを受信し、後述する音声認識部202において認識された音声認識結果を返信する部分である。
Next, the voice recognition server 200 will be described. As shown in FIG. 1, the voice recognition server 200 includes a
音声認識部202は、通信部201により受信された音声データを音声認識処理する部分である。この音声認識部202は、音響モデルおよび言語モデルを用いて音声認識をするものであって、音響モデルおよび言語モデルは、万人に適用可能に構築されたモデルである。
The
このようにして、端末装置100において受け付けられた音声データを、音声認識サーバ200では音声認識処理して、端末装置100に返信し、端末装置100では、返信された音声認識結果に基づいて、独自の辞書データをさらに利用して評価することで、より正確な音声認識結果を得ることができる。
In this way, the voice data received in the
つぎに、このように構成された音声認識システム10の処理について説明する。図6は、音声認識システム10において処理される音声認識方法を示すフローチャートである。まず、端末装置100においては、マイク102を介して音声が受け付けられる(S101)。そして、音声データは、音声処理部103により処理されて、通信部101により、音声認識サーバ200に送信される(S102)。
Next, processing of the
音声認識サーバ200では、通信部201により音声データが受信され(S201)、音声認識処理が音声認識部202により行われ、音声認識結果が得られる(S202)。そして、音声認識結果は、通信部201により端末装置100に送信される(S203)。
In the voice recognition server 200, voice data is received by the communication unit 201 (S201), voice recognition processing is performed by the
端末装置100では、音声認識結果が通信部101により受信され(S103)、認識結果拡張部105により、音声認識結果に基づいて発音が類似した単語が、ユーザ辞書保持部104のユーザ辞書から検索される(S104)。そして、認識結果拡張部105により、検索された単語は音声認識結果に追加される(S105)。
In the
認識結果拡張部105により拡張された音声認識結果のそれぞれの候補について、仮説再評価部106により評価がなされ、再評価スコアが算出される(S106)。そして、仮説再評価部106により、音声認識サーバ200から得た認識スコアと再評価スコアとから最終スコアが算出され(S107)、音声認識結果である複数の候補から、最終スコアに基づいて一の候補が選択され、表示部107においてその候補が表示される(S107)。
The
このようにして、音声認識サーバ200において認識した範囲において、端末装置100では、その音声認識結果を評価することができ、大語彙かつ高精度の音声認識処理を行うことができる。
In this way, within the range recognized by the speech recognition server 200, the
なお、本実施形態においては、装置として端末装置100を例示したが、これに限るものではなく、端末装置100における各機能を実行するためのプログラムモジュールとして構成してもよい。すなわち、マイク102からの入力処理、音声処理部103に相当する入力モジュール、通信部101に相当する送信モジュールおよび受信モジュール、仮説再評価部106に相当する仮説再評価モジュール、ディスプレイなどの表示部107に表示させるための提示モジュールを備えたプログラムであって、携帯端末などのコンピュータシステムに当該プログラムを読み込ませることにより、上述端末装置100と同等の機能を実現することができる。なお、このプログラムは、CDROM、DVDなどの記録媒体に記憶させておき、コンピュータシステムに読み取り可能に構成してもよい。
In the present embodiment, the
つぎに、本実施形態の端末装置100の作用効果について説明する。端末装置100が備えるマイク102が、ユーザが発せられた音声を受け付けて、音声処理部103が音声データにする。そして、このようにして入力された音声データを、通信部101が音声認識を行う音声認識サーバ200に送信する。
Below, the effect of the
音声認識サーバ200において、一の音響モデルおよび一の言語モデルを用いて音声認識処理を行い、その結果を音声認識結果として端末装置100に送信する。端末装置100では、音声認識サーバ200から音声認識結果を受信して、この受信された音声認識結果を、仮説再評価部106が、入力された音声データ、ならびに端末装置100に備えられている音響モデルおよび言語モデルを利用して評価する。この音響モデルおよび言語モデルは、音声認識サーバ200における音響モデルおよび言語モデルとは異なったものであり、端末装置100のユーザにより、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。
The speech recognition server 200 performs speech recognition processing using one acoustic model and one language model, and transmits the result to the
そして、仮説再評価部106による評価にしたがって一の音声認識結果を決定して、表示部107は、一の音声認識結果を表示する。
Then, one speech recognition result is determined according to the evaluation by the hypothesis
これにより、音声認識サーバ200において認識された結果の範囲で適切な音声認識結果を端末装置100において評価・選択することができ、大語彙且つ高精度な音声認識処理を行うことができる。さらに、通常の端末内での音声認識処理を行うことと比較して、CPUの演算量、メモリ使用量等を軽減することができる。
Thus, an appropriate speech recognition result can be evaluated and selected by the
また、本実施形態の端末装置100は、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書保持部104、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書保持部に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張部105をさらに備えている。そして、仮説再評価部105は、認識結果拡張部105により拡張された音声認識結果に対する評価を行う。
In addition, the
これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。 As a result, an accurate speech recognition result can be obtained even for speech data including a user-specific word by adding, expanding, and evaluating a word specific to the user and evaluating it. . In particular, even if the speech data includes unknown words such as uncommon proper nouns, a speech recognition result can be obtained in consideration thereof.
また、本実施形態の端末装置100において備えられている音響モデルおよび言語モデルは、端末装置100の利用履歴もしくはユーザ操作に基づいて定められたものである。上述したとおり、これら音響モデルおよび言語モデルは、端末内情報、ユーザ辞書、過去の入力音声、通話音声、音響トレーニングモードなどでカスタマイズされたものである。
In addition, the acoustic model and language model provided in the
これによって、端末装置のユーザ特有の音響モデルおよび言語モデルを利用することができ、よりユーザの特定に沿った音声認識処理を実現することができる。 As a result, the acoustic model and language model specific to the user of the terminal device can be used, and voice recognition processing can be realized more in line with the user's specification.
また、本実施形態の端末装置100において、仮説再評価部106は、当該端末装置100内に備えている言語モデルを用いて言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび通信部101により受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価する。よって、個人に適応した言語モデルによる認識精度向上を実現することができる。
Further, in the
また、端末装置100において、他の音響モデルとしてHMMを適用して、仮説再評価部106は、通信部101により受信された音声認識結果を構成する音素列に対応する文HMMを生成し、音声処理部103において処理された音声データに基づいて得られた特徴量系列の、上記生成された文HMM上での出力確率を求めることにより、音響尤度を算出し、当該算出した音響尤度からなる再評価する。よって、個人に適応した音響モデルによる認識精度向上を実現することができる。
Further, in the
100…端末装置、101…通信部、102…マイク、103…音声処理部、104…ユーザ辞書保持部、105…認識結果拡張部、106…仮説再評価部、107…表示部、200…音声認識サーバ、201…通信部、202…音声認識部。
DESCRIPTION OF
Claims (7)
前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、
前記受信手段により受信された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、
前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、
を備える端末装置。 Input means for receiving input of voice data;
Transmitting means for transmitting voice data input by the input means to an external device that performs voice recognition;
Receiving means for receiving, from the external device, a speech recognition result recognized using one acoustic model and one language model in the external device;
The speech recognition result received by the receiving means is converted into at least one of the speech data input in the input means and another acoustic model different from the one acoustic model or another language model different from the one language model. Hypothesis re-evaluation means to evaluate using one,
Presenting means for presenting one speech recognition result according to the evaluation by the hypothesis re-evaluating means;
A terminal device comprising:
前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、
をさらに備え、
前記仮説再評価手段は、前記認識結果拡張手段により拡張された音声認識結果に対する評価を行うことを特徴とする請求項1に記載の端末装置。 User dictionary storage means for storing a user dictionary in which a word defined by a user and pronunciation information indicating pronunciation of the word are associated;
Among words included in the speech recognition result received by the receiving unit, a word that approximates a word of a predetermined condition is searched from the user dictionary stored in the user dictionary storage unit, and the approximate word A recognition result expansion means for extending the speech recognition result by adding to the speech recognition result;
Further comprising
The terminal apparatus according to claim 1, wherein the hypothesis re-evaluation unit performs evaluation on the voice recognition result expanded by the recognition result expansion unit.
前記他の言語モデルを用いて、前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1から3のいずれか一項に記載の端末装置。 The hypothesis reevaluation means includes:
The language likelihood of the speech recognition result received by the receiving unit is calculated using the other language model, and the re-evaluation score composed of the calculated language likelihood and the speech recognition result received by the receiving unit are calculated. The terminal device according to any one of claims 1 to 3, wherein a voice recognition result is evaluated based on an accompanying recognition score.
前記他の音響モデルとして、HMM((Hidden Markov Model)を適用して、前記受信手段により受信された音声認識結果を構成する音素列に対応する文HMMを生成し、
前記入力手段により入力された音声データに基づいて得られた特徴量系列の、前記文HMM上での出力確率を求めることにより、
音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1から4のいずれか一項に記載の端末装置。 The hypothesis reevaluation means includes:
Applying HMM ((Hidden Markov Model)) as the other acoustic model, generating a sentence HMM corresponding to a phoneme sequence that constitutes a speech recognition result received by the receiving means,
By determining the output probability on the sentence HMM of the feature amount series obtained based on the speech data input by the input means,
An acoustic likelihood is calculated, and the speech recognition result is evaluated based on a re-evaluation score composed of the calculated acoustic likelihood and a recognition score attached to the speech recognition result received by the receiving unit. Item 5. The terminal device according to any one of Items 1 to 4.
前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、
前記受信ステップにより受信された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、
前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、
を備える音声認識方法。 An input step for receiving input of voice data;
A transmission step of transmitting the voice data input in the input step to an external device that performs voice recognition;
Receiving a speech recognition result recognized using one acoustic model and one language model in the external device from the external device;
The speech recognition result received in the receiving step is converted into at least one of the speech data input in the input step and another acoustic model different from the one acoustic model or another language model different from the one language model. Hypothesis re-evaluation step to evaluate using one,
A presenting step of presenting one speech recognition result according to the evaluation by the hypothesis re-evaluation step;
A speech recognition method comprising:
前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、
前記受信モジュールにより受信された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、
前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、
を備える音声認識プログラム。
An input module that accepts voice data input;
A transmission module for transmitting audio data input by the input module to an external device for performing speech recognition;
A receiving module for receiving a speech recognition result recognized by the external device using one acoustic model and one language model from the external device;
The speech recognition result received by the receiving module is converted into at least one of speech data input in the input module and another acoustic model different from the one acoustic model or another language model different from the one language model. Hypothesis re-evaluation module to evaluate using one,
A presentation module for presenting one speech recognition result according to the evaluation by the hypothesis re-evaluation module;
A speech recognition program comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207037A JP5480760B2 (en) | 2010-09-15 | 2010-09-15 | Terminal device, voice recognition method and voice recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207037A JP5480760B2 (en) | 2010-09-15 | 2010-09-15 | Terminal device, voice recognition method and voice recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063536A true JP2012063536A (en) | 2012-03-29 |
JP5480760B2 JP5480760B2 (en) | 2014-04-23 |
Family
ID=46059314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010207037A Active JP5480760B2 (en) | 2010-09-15 | 2010-09-15 | Terminal device, voice recognition method and voice recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5480760B2 (en) |
Cited By (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871403A (en) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | Method of setting up speech recognition model, speech recognition method and corresponding device |
WO2014165591A1 (en) * | 2013-04-04 | 2014-10-09 | Spansion Llc | Combining of results from multiple decoders |
JP2016522903A (en) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | Speech recognition system and method |
JP2019507362A (en) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | Speech re-recognition using an external data source |
JP2020030379A (en) * | 2018-08-24 | 2020-02-27 | ソプラ株式会社 | Recognition result correction device, recognition result correction method, and program |
KR20200087332A (en) * | 2018-12-28 | 2020-07-21 | 주식회사 딥엑스 | Method for providing shopping information on each product and electronic device for executing the method |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
JPWO2021250837A1 (en) * | 2020-06-11 | 2021-12-16 | ||
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US12254887B2 (en) | 2017-05-16 | 2025-03-18 | Apple Inc. | Far-field extension of digital assistant services for providing a notification of an event to a user |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187649A1 (en) * | 2002-03-27 | 2003-10-02 | Compaq Information Technologies Group, L.P. | Method to expand inputs for word or document searching |
JP2005250071A (en) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein |
JP2010014885A (en) * | 2008-07-02 | 2010-01-21 | Advanced Telecommunication Research Institute International | Information processing terminal with voice recognition function |
JP2010055044A (en) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | Device, method and system for correcting voice recognition result |
JP2010085536A (en) * | 2008-09-30 | 2010-04-15 | Fyuutorekku:Kk | Voice recognition system, voice recognition method, voice recognition client, and program |
JP2010139744A (en) * | 2008-12-11 | 2010-06-24 | Ntt Docomo Inc | Voice recognition result correcting device and voice recognition result correction method |
-
2010
- 2010-09-15 JP JP2010207037A patent/JP5480760B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187649A1 (en) * | 2002-03-27 | 2003-10-02 | Compaq Information Technologies Group, L.P. | Method to expand inputs for word or document searching |
JP2005250071A (en) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein |
JP2010055044A (en) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | Device, method and system for correcting voice recognition result |
JP2010014885A (en) * | 2008-07-02 | 2010-01-21 | Advanced Telecommunication Research Institute International | Information processing terminal with voice recognition function |
JP2010085536A (en) * | 2008-09-30 | 2010-04-15 | Fyuutorekku:Kk | Voice recognition system, voice recognition method, voice recognition client, and program |
JP2010139744A (en) * | 2008-12-11 | 2010-06-24 | Ntt Docomo Inc | Voice recognition result correcting device and voice recognition result correction method |
Cited By (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US12165635B2 (en) | 2010-01-18 | 2024-12-10 | Apple Inc. | Intelligent automated assistant |
US12087308B2 (en) | 2010-01-18 | 2024-09-10 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103871403A (en) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | Method of setting up speech recognition model, speech recognition method and corresponding device |
CN103871403B (en) * | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | Method of setting up speech recognition model, speech recognition method and corresponding device |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9530103B2 (en) | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
WO2014165591A1 (en) * | 2013-04-04 | 2014-10-09 | Spansion Llc | Combining of results from multiple decoders |
US12073147B2 (en) | 2013-06-09 | 2024-08-27 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2016522903A (en) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | Speech recognition system and method |
US12010262B2 (en) | 2013-08-06 | 2024-06-11 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US12154016B2 (en) | 2015-05-15 | 2024-11-26 | Apple Inc. | Virtual assistant in a communication session |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US12204932B2 (en) | 2015-09-08 | 2025-01-21 | Apple Inc. | Distributed personal assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US12051413B2 (en) | 2015-09-30 | 2024-07-30 | Apple Inc. | Intelligent device identification |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2019507362A (en) * | 2016-02-05 | 2019-03-14 | グーグル エルエルシー | Speech re-recognition using an external data source |
US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12254887B2 (en) | 2017-05-16 | 2025-03-18 | Apple Inc. | Far-field extension of digital assistant services for providing a notification of an event to a user |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US12080287B2 (en) | 2018-06-01 | 2024-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US12067985B2 (en) | 2018-06-01 | 2024-08-20 | Apple Inc. | Virtual assistant operations in multi-device environments |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
JP2020030379A (en) * | 2018-08-24 | 2020-02-27 | ソプラ株式会社 | Recognition result correction device, recognition result correction method, and program |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
CN113316799A (en) * | 2018-12-28 | 2021-08-27 | 蒂普爱可斯有限公司 | Method for providing shopping information per individual product and electronic device for performing the same |
KR20200087332A (en) * | 2018-12-28 | 2020-07-21 | 주식회사 딥엑스 | Method for providing shopping information on each product and electronic device for executing the method |
KR102151006B1 (en) * | 2018-12-28 | 2020-09-02 | 주식회사 딥엑스 | Method for providing shopping information on each product and electronic device for executing the method |
US12079856B2 (en) | 2018-12-28 | 2024-09-03 | Deepx Co., Ltd. | Method for providing shopping information for individual products and electronic device performing same |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
JPWO2021250837A1 (en) * | 2020-06-11 | 2021-12-16 | ||
WO2021250837A1 (en) * | 2020-06-11 | 2021-12-16 | 日本電気株式会社 | Search device, search method, and recording medium |
JP7485030B2 (en) | 2020-06-11 | 2024-05-16 | 日本電気株式会社 | Search device, search method, and program |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
Also Published As
Publication number | Publication date |
---|---|
JP5480760B2 (en) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
US11450313B2 (en) | Determining phonetic relationships | |
CN107016994B (en) | Voice recognition method and device | |
JP5318230B2 (en) | Recognition dictionary creation device and speech recognition device | |
KR101590724B1 (en) | Method for modifying error of speech recognition and apparatus for performing the method | |
CN109036391B (en) | Voice recognition method, device and system | |
KR100679042B1 (en) | Speech recognition method and apparatus, navigation system using same | |
KR100998566B1 (en) | Method and apparatus for language translation using speech recognition | |
KR102191425B1 (en) | Apparatus and method for learning foreign language based on interactive character | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
US20120221335A1 (en) | Method and apparatus for creating voice tag | |
JP5558284B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
CN110189750B (en) | Word detection system, word detection method, and recording medium | |
JP2004133003A (en) | Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus | |
JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
JP2001242885A (en) | Device and method for speech recognition, and recording medium | |
JP2011007862A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP2003271183A (en) | Device, method and program for preparing voice recognition dictionary, device and system for recognizing voice, portable terminal device and program recording medium | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
JP2011039468A (en) | Word searching device using speech recognition in electronic dictionary, and method of the same | |
JP2008242059A (en) | Device for creating speech recognition dictionary, and speech recognition apparatus | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
JPWO2013125203A1 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
KR102392992B1 (en) | User interfacing device and method for setting wake-up word activating speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5480760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |