JP3728177B2 - 音声処理システム、装置、方法及び記憶媒体 - Google Patents
音声処理システム、装置、方法及び記憶媒体 Download PDFInfo
- Publication number
- JP3728177B2 JP3728177B2 JP2000153617A JP2000153617A JP3728177B2 JP 3728177 B2 JP3728177 B2 JP 3728177B2 JP 2000153617 A JP2000153617 A JP 2000153617A JP 2000153617 A JP2000153617 A JP 2000153617A JP 3728177 B2 JP3728177 B2 JP 3728177B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- speech
- acoustic model
- compression
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Transfer Between Computers (AREA)
Description
【発明の属する技術分野】
本発明はネットワークに接続可能な端末(クライアント)およびサーバを利用する音声処理システム、装置、方法及び記憶媒体に関するものである。
【0002】
【従来の技術】
携帯端末などの小型機器のユーザインタフェースとして音声認識技術は有望な技術である。ところが携帯端末では、リソース(CPUの処理能力やメモリ容量等)やコストの制約から処理量の多い高度な音声認識を実現することが困難である。
【0003】
【発明が解決しようとする課題】
このような問題点を解決する手法として、処理の軽い部分を携帯端末(クライアント)側で行い、処理の重い部分をサーバ側で行うようにするクライアント・サーバ型の音声認識システムを構築することが考えられる。
【0004】
しかしながら、クライアント・サーバ型の音声認識システムを構築する場合には、クライアント側の負荷、クライアント・サーバ間のデータ伝送量、認識時間、認識率のバランスを考慮しなければならないという問題がある。
【0005】
本発明は上記の問題に鑑みてなされたものであり、クライアントとサーバとの間のデータ転送量を抑えながら高精度な音声認識を実現することのできる音声処理システム、装置、方法及び記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
かかる課題を解決するため、本発明の音声処理システムは例えば以下の構成を備えることを特徴とする。すなわち、
音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理システムであって、
前記クライアントは、
入力された音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで圧縮符号化する符号化手段と、
圧縮符号化された音声情報を伝送する伝送手段とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする。
【0008】
また、本発明の音声処理装置は例えば以下の構成を備えることを特徴とする。すなわち、
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする。
【0009】
また、本発明の音声処理方法は例えば以下の構成を備えることを特徴とする。すなわち、
音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理方法であって、
前記クライアントは、
入力した音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで音声情報を圧縮符号化する符号化工程と、
圧縮符号化された音声情報を伝送する伝送工程とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程とを備えたことを特徴とする。
【0011】
また、本発明の音声処理方法は例えば以下の構成を備えることを特徴とする。すなわち、
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程とを備えたことを特徴とする。
【0012】
また、本発明は上記音声処理方法をコンピュータに実現させるための制御プログラムを格納することを特徴とする。
【0013】
【発明の実施の形態】
以下、添付図面に従って本発明に係る実施形態を詳細に説明する。
【0014】
<第1の実施形態>
図1は、本実施形態における音声認識システムの構成図である。
【0015】
図1において、10は第1のクライアントとして機能する情報端末、20は第2のクライアントとして機能する情報端末、30はサーバとして機能する情報処理装置、40はクライアント10,20とサーバ30を接続するネットワークである。クライアント10,20は、携帯電話、携帯型パーソナルコンピュータ等の携帯型情報端末である。ネットワーク40は、電話回線網、移動体通信回線網、インターネット、衛星通信回線網等である。
【0016】
次に、クライアント10の構成について説明する。クライアント20もクライアント10と同様の構成を備え、サーバ30と通信可能である。
【0017】
100はマイクロフォン、101はA/D変換部、102はクライアント側の音声処理装置、103はRAM、104は表示装置、105は制御部、106はネットワークインタフェース、107は記憶装置である。
【0018】
マイクロフォン100は、ユーザの発声する音声情報(日本語、英語等の言語からなる)を入力する。A/D変換部101は、マイクロフォン100から供給された音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。
【0019】
音声処理ユニット102は、A/D変換部101から供給された音声情報を音響分析し、所定形式の音声パラメータ(特徴パラメータともいう)を求める。そして、この音声パラメータを圧縮符号化する。圧縮符号化された音声パラメータは、ネットワークインタフェース106に供給される。
【0020】
表示装置104は、液晶パネル等の表示器を具備し、この表示器にネットワークインタフェース106で受信されたサーバ30の認識結果を表示する。
【0021】
制御部105は中央処理ユニット(CPU)を具備する。制御部105は、記憶装置107に記憶された各種の制御プログラムを読み出し、RAM103を作業領域として用いて後述するクライアント10の機能を制御する。
【0022】
インタフェース106は、ネットワーク40に接続されたサーバ30との通信を制御する。インタフェース106では、TCP/IP等の通信プロトコルを用いて、伝送データの欠落や到着順序を保証する。
【0023】
記憶装置107は、半導体メモリ、磁気記録媒体、光記録媒体、ハードディスク等からなる。記憶装置107には、音声情報の入力を制御するための制御プログラム、サーバ30で音声認識した結果を表示するための制御プログラム、サーバ30で音声認識した結果に基づいて所定の操作を行うアプリケーションプログラム、ブートプログラム、オペレーションシステム(OS)等を格納する。
【0024】
本実施形態の音声処理ユニット102は、ハードウェアで構成することもソフトウェアで構成することも可能である。ソフトウェアで構成する場合、このソフトウェアを実現するための制御プログラムは記憶装置107に格納される。そしてこの場合、制御部105は、クライアント10の電源が投入されると、記憶装置107に格納されたブートプログラムとOSとを起動させ、しかる後、記憶装置107に格納された制御プログラムが起動させ、後述する音声処理ユニット102の処理手順を実行する。
【0025】
次に、サーバ30の構成について説明する。
【0026】
108はネットワークインタフェース、109は表示装置、110は制御部、111は音声処理ユニット、112はRAM、113は記憶装置である。
【0027】
インタフェース108は、ネットワーク40に接続されたクライアント10,20との通信を制御する。インタフェース108では、TCP/IP等の通信プロトコルを用いて、伝送データの欠落や到着順序を保証する。表示装置109は、液晶パネル等の表示器を具備する。
【0028】
制御部110は中央処理ユニット(CPU)を具備する。制御部110は、記憶装置113に記憶された各種の制御プログラムを読み出し、RAM112を作業領域として用いて後述するサーバ30の機能を制御する。
【0029】
音声処理ユニット111は、インタフェース108で受信された圧縮音声パラメータを用いて音声認識を行う。音声認識した結果に対応する情報は、ネットワークインタフェース108に供給される。
【0030】
記憶装置113は、半導体メモリ、磁気記録媒体、光記録媒体、ハードディスク等からなる。記憶装置113には、音声処理ユニット111で音声認識した結果に基づいて所定の操作を行うアプリケーションプログラム、ブートプログラム、オペレーションシステム(OS)等を格納する。
【0031】
本実施形態の音声処理ユニット111は、ハードウェアで構成することもソフトウェアで構成することも可能である。ソフトウェアで構成する場合、このソフトウェアを実現するための制御プログラムは記憶装置113に格納される。そしてこの場合、制御部110は、サーバ30の電源が投入されると、記憶装置113に格納されたブートプログラムとOSとを起動させ、しかる後、記憶装置113に格納された制御プログラムが起動させ、後述する音声処理ユニット111の処理手順を実行する。
【0032】
図2は、第1の実施形態における音声処理ユニット102の構成と音声処理ユニット111の構成とを詳細に説明する図である。
【0033】
まず、クライアント10,20の具備する音声処理ユニット102の構成について説明する。
【0034】
201は音響分析部である。音響分析部201は、入力音声の音声区間を検出し、音声区間ごとに音響分析を行い、所定形式の音声パラメータを生成する。図2では、12次元の静的な特徴パラメータ(例えば、LPCメルケプストラム)と、時間的な変化を示す13次元の動的な特徴パラメータ(例えば、12次元のΔLPCメルケプストラムおよび1次元のΔパワー)とを音声パラメータとして生成する例について説明する。
【0035】
202は圧縮符号化部である。圧縮符号化部202は、音響分析部201で生成された25次元の音声パラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース106に供給され、サーバ30のインタフェース108に伝送される。
【0036】
例えば、フレーム周期10msで音響分析し、25次元の音声パラメータの各次元をスカラ量子化して4ビットの圧縮音声パラメータに変換した場合、圧縮音声パラメータのデータ伝送レートは、以下のようになる。
【0037】
25次元×100フレーム/秒×4ビット=10kbps
これに対して、25次元の音声パラメータをスカラ量子化しないでサーバ30側に伝送する音声認識システムの場合、音声パラメータのデータ伝送レートは、以下のようになる。
【0038】
25次元×100フレーム/秒×4バイト×8ビット=80kbps
以上説明したように、クライアント10、20では、音響分析から圧縮符号化までを実行するように構成することにより、最も負荷の大きい音声認識処理を実行しなくてもよくなる。これにより、クライアント側の負荷を大幅に低減させ、低コスト化を図ることができる。また、音声パラメータを圧縮符号化してからサーバ30に伝送するように構成することにより、クライアント・サーバ間のデータ伝送量を大幅に抑えることができる。
【0039】
次に、サーバ30の具備する音声処理ユニット111の構成について説明する。
【0040】
203は復号化部である。復号化部203は、データ伝送レート10kbpsの圧縮音声パラメータを復号化し、25次元の音声パラメータ(12次元のLPCメルケプストラム、12次元のΔLPCメルケプストラムおよび1次元のΔパワー)に変換する。
【0041】
204はIDMM計算部である。IDMM計算部204は、IDMM(Independent Dimension Multi-Mixture computation)法に従い、受信した圧縮音声パラメータを用いて音響モデルの出力確率を高速に近似計算する。本実施形態では、音素を音韻単位とする混合連続分布型HMMを音響モデルとして用いる。
【0042】
IDMM法とは、混合分布型音響モデルの出力確率を近似計算する計算方法である。本実施形態では、各混合分布を対角共分散行列ガウス分布とする例について説明する。
【0043】
N次元の音声パラメータベクトルxに対する音響モデルsの出力確率bs(x)は、以下のように表される。
【0044】
【数1】
【0045】
一方、各次元が独立に計算できると仮定すると、音響モデルsの出力確率^bs(x)は以下のように定義できる。
【0046】
【数2】
【0047】
ここで、Msは音響モデルsの混合数を示し、Ns,m,iは音響モデルsのm番目の分布におけるi次元目のガウス分布関数を示し、ws,mは音響モデルsのm番目の分布における重みを示す。
【0048】
また、対数出力確率を計算する場合、式(2)は以下のように定義される。
【0049】
【数3】
【0050】
本実施形態では、i次元目の入力音声パラメータxiの符号化コード(本実施形態ではスカラ量子化して求めた量子化値)とi次元目の対数混合ガウス分布の出力確率とを対応付けたテーブルを予め用意しておき、N回のテーブル参照とN−1回の加算とにより音響モデルsの対数出力確率を高速に計算するように構成する。
【0051】
205は再計算部である。再計算部205は、IDMM計算部204で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、復号化部203で求めた音声パラメータを用いてその出力確率を高精度に再計算する。
【0052】
206は複数種類の言語に対応する単語辞書と文法規則を具備する言語探索部である。言語探索部206は、再計算部205の計算結果に基づいて言語探索を行い、受信した圧縮音声パラメータに対応する認識結果を求める。
【0053】
以上説明したように、サーバ30では、受信した圧縮音声パラメータをそのまま用いて音響モデルの出力確率を近似計算し、所定値よりも大きい出力確率については復号化した圧縮音声パラメータを用いてその出力確率を詳細に再計算するように構成することにより、認識率の低下を押さえつつ高速かつ高精度に出力確率を求めることができる。
【0054】
図3は、第1の実施形態におけるクライアント10,20の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置107に記憶され、制御部105により実行される。
【0055】
ステップS301において、A/D変換部101は、ユーザの発声した音声情報をマイクロフォン100から入力し、この音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。このディジタル音声情報は、音声処理ユニット102に供給される。
【0056】
ステップS302において、音響分析部201は、所定の音声区間ごとに音響分析を行い、静的な特徴パラメータと動的な特徴パラメータとからなる25次元の音声パラメータ(具体的には、12次元のLPCメルケプストラム、12次元のΔLPCメルケプストラムおよび1次元のΔパワー)を生成する。
【0057】
ステップS303において、圧縮符号化部202は、音響分析部201で生成された25次元の音声パラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース106に供給され、サーバ30のインタフェース108に伝送される。
【0058】
ステップS304において、インタフェース108は、圧縮符号化部202で圧縮符号化された圧縮音声パラメータをネットワーク40に接続されたサーバ30に伝送する。サーバ30は、図4に示す処理手順に従って圧縮音声パラメータを音声認識する。
【0059】
ステップS305において、インタフェース108は、サーバ30で音声認識した文字情報または制御コードを受信したり、サーバ30で音声認識した制御コードに対応する情報を受信したりする。
【0060】
ステップS305で文字情報を受信した場合、表示装置104はその文字情報を表示する(ステップS306)。また、制御コードを受信した場合、制御部105はその制御コードを用いてクライアント10の具備する所定のアプリケーションプログラムを操作し、その操作結果を表示装置104に表示する(ステップS306)。
【0061】
図4は、第1の実施形態におけるサーバ30の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置113に記憶され、制御部110により実行される。
【0062】
ステップS401において、インタフェース108は、各クライアント10,20から伝送された圧縮音声パラメータを受信する。この圧縮音声パラメータは、音声処理ユニット111に供給される。
【0063】
ステップS402において、復号化部203は、圧縮音声パラメータを復号化し、25次元の音声パラメータ(12次元のLPCメルケプストラム、12次元のΔLPCメルケプストラムおよび1次元のΔパワー)に変換する。
【0064】
一方、ステップS403において、IDMM計算部204は、圧縮音声パラメータの復号化と並行して、ステップS401で受信した圧縮音声パラメータを用いて音響モデルの出力確率を高速に近似計算する。
【0065】
ステップS404において、再計算部205は、ステップS403で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、ステップS402で復号化した圧縮音声パラメータを用いてその出力確率を高精度に再計算する。
【0066】
ステップS405において、言語探索部206は、ステップS404の計算結果に基づいて言語探索を行い、圧縮音声パラメータに対応する文字情報または制御コードを認識する。認識された文字情報や制御コードは、インタフェース108または制御部110に供給される。制御部110に制御コードが供給された場合、制御部110はその制御コードを用いてサーバ30の具備する所定のアプリケーションプログラムを操作し、その操作結果をインタフェース108に供給してクライアントに伝送する。
【0067】
所定のアプリケーションプログラムとしては、例えば、認識した制御コードに対応したコンテンツをサーバ30からクライアント10に提供するコンテンツ配信システムや、制御コードに対応した情報をサーバ30からクライアント10に提供する情報サービスシステムや、制御コードに対応したチケットを予約するチケット予約システム等がある。
【0068】
以上説明したように、第1の実施形態によれば、クライアント側の負荷とクライアント・サーバ間のデータ伝送量とを抑え、クライアント側の低コスト化を可能とし、高速かつ高精度に音声認識を実行することのできるクライアント・サーバ側の音声認識システムを提供することができる。
【0069】
<第2の実施形態>
図5は、第2の実施形態における音声処理ユニット102の構成と音声処理ユニット111の構成とを詳細に説明する図である。
【0070】
動的な特徴パラメータであるΔパラメータは、サーバ30側で計算することも可能である。第2の実施形態では、このΔパラメータをサーバ30側で計算するように構成し、第1の実施形態よりもデータ伝送レートを向上させた例について説明する。
【0071】
まず、クライアント10,20の具備する音声処理ユニット102の構成について説明する。
【0072】
501は音響分析部である。音響分析部501は、入力音声の音声区間を検出し、音声区間ごとに音響分析を行い、所定形式の音声パラメータを生成する。図5では、13次元の静的な特徴パラメータ(例えば、LPCメルケプストラムおよび1次元のパワー)を音声パラメータとして生成する例について説明する。
【0073】
502は圧縮符号化部である。圧縮符号化部502は、音響分析部501で生成された13次元の音声パラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース106に供給され、サーバ30のインタフェース108に伝送される。
【0074】
例えば、フレーム周期10msで音響分析し、13次元の音声パラメータの各次元をスカラ量子化して4ビットの圧縮音声パラメータに変換した場合、圧縮音声パラメータのデータ伝送レートは、以下のようになる。
【0075】
13次元×100フレーム/秒×4ビット=5.2kbps
以上説明したように、第2の実施形態におけるクライアント10,20は、第1の実施形態よりも更にクライアント側の負荷を抑え、低コスト化を可能とし、データ伝送量を抑えることができる。
【0076】
次に、サーバ30の具備する音声処理ユニット111の構成について説明する。
【0077】
503は復号化部である。復号化部503は、データ伝送レート5.2kbpsの圧縮音声パラメータを復号化し、13次元の音声パラメータ(12次元のLPCメルケプストラムおよび1次元のパワー)に変換する。
【0078】
504はΔパラメータ計算部である。Δパラメータ計算部504は、復号化部503で復号化された13次元の音声パラメータを用いて、13次元のΔパラメータ(12次元のΔLPCメルケプストラムおよび1次元のΔパワー)を計算する。
【0079】
505は圧縮符号化部である。圧縮符号化部505は、圧縮符号化部502と同様の符号化方法を用いて、Δパラメータ計算部504で計算された13次元のΔパラメータを次元ごとに圧縮符号化する。本実施形態では、13次元のΔパラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。
【0080】
506はIDMM計算部である。IDMM計算部506は、上述のIDMM法に従い、受信した圧縮音声パラメータと圧縮符号化部505で求めた圧縮音声パラメータとを用いて音響モデルの出力確率を高速に近似計算する。
【0081】
507は再計算部である。再計算部507は、IDMM計算部506で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、復号化部503とΔパラメータ計算部504とで求めた音声パラメータを用いてその出力確率を高精度に再計算する。
【0082】
508は複数種類の言語に対応する単語辞書と文法規則を具備する言語探索部である。言語探索部508は、再計算部507の計算結果に基づいて言語探索を行い、受信した圧縮音声パラメータに対応する認識結果を求める。
【0083】
以上説明したように、第2の実施形態におけるクライアント10,20は、復号化した静的な特徴パラメータから動的な特徴パラメータを計算する構成を備えることによって、サーバ・クライアント間のデータ転送量を第1の実施形態よりも更に抑えることができる。また、第1の実施形態と同様に、認識率の低下を押さえつつ高速かつ高精度に出力確率を求めることができる。
【0084】
図6は、第2の実施形態におけるクライアント10,20の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置107に記憶され、制御部105により実行される。
【0085】
ステップS601において、A/D変換部101は、ユーザの発声した音声情報をマイクロフォン100から入力し、この音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。このディジタル音声情報は、音声処理ユニット102に供給される。
【0086】
ステップS602において、音響分析部501は、所定の音声区間ごとに音響分析を行い、静的な特徴パラメータからなる13次元の音声パラメータ(具体的には、12次元のLPCメルケプストラムおよび1次元のパワー)を生成する。
【0087】
ステップS603において、圧縮符号化部502は、音響分析部501で生成された13次元の音声パラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース106に供給され、サーバ30のインタフェース108に伝送される。
【0088】
ステップS604において、インタフェース108は、圧縮符号化部502で圧縮符号化された圧縮音声パラメータをネットワーク40に接続されたサーバ30に伝送する。サーバ30は、図7に示す処理手順に従って圧縮音声パラメータを音声認識する。
【0089】
ステップS605において、インタフェース108は、サーバ30で音声認識した文字情報または制御コードを受信したり、サーバ30で音声認識した制御コードに対応する情報を受信したりする。
【0090】
ステップS605で文字情報を受信した場合、表示装置104はその文字情報を表示する(ステップS306)。また、制御コードを受信した場合、制御部105はその制御コードを用いてクライアント10の具備する所定のアプリケーションプログラムを操作し、その操作結果を表示装置104に表示する(ステップS306)。
【0091】
図7は、第2の実施形態におけるサーバ30の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置113に記憶され、制御部110により実行される。
【0092】
ステップS701において、インタフェース108は、各クライアント10,20から伝送された圧縮音声パラメータを受信する。この圧縮音声パラメータは、音声処理ユニット111に供給される。
【0093】
ステップS702において、復号化部503は、圧縮音声パラメータを復号化し、13次元の音声パラメータ(12次元のLPCメルケプストラムおよび1次元のパワー)に変換する。
【0094】
ステップS703において、Δパラメータ計算部504は、復号化部503で復号化された13次元の音声パラメータを用いて、13次元のΔパラメータ(12次元のΔLPCメルケプストラムおよび1次元のΔパワー)を計算する。
【0095】
ステップS704において、圧縮符号化部505は、Δパラメータ計算部504で計算された13次元のΔパラメータを次元ごとにスカラ量子化し、1次元につき4ビットの圧縮音声パラメータに変換する。
【0096】
ステップS705において、IDMM計算部506は、ステップS701で得た圧縮音声パラメータとステップS704で得た圧縮音声パラメータとを用いて音響モデルの出力確率を高速に近似計算する。
【0097】
ステップS706において、再計算部507は、ステップS705で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、ステップS702で復号化した圧縮音声パラメータとステップS703で復号化して得た音声パラメータとを用いて再計算する。
【0098】
ステップS707において、言語探索部508は、ステップS706の計算結果に基づいて言語探索を行い、圧縮音声パラメータに対応する文字情報または制御コードを認識する。認識された文字情報や制御コードは、インタフェース108または制御部110に供給される。制御部110に制御コードが供給された場合、制御部110はその制御コードを用いてサーバ30の具備する所定のアプリケーションプログラムを操作し、その操作結果をインタフェース108に供給してクライアントに伝送する。
【0099】
所定のアプリケーションプログラムとしては、例えば、認識した制御コードに対応したコンテンツをサーバ30からクライアント10に提供するコンテンツ配信システムや、制御コードに対応した情報をサーバ30からクライアント10に提供する情報サービスシステムや、制御コードに対応したチケットを予約するチケット予約システム等がある。
【0100】
以上説明したように、第2の実施形態によれば、第1の実施形態よりも更にクライアント側の負荷とクライアント・サーバ間のデータ伝送量とを抑えたクライアント・サーバ側の音声認識システムを提供することができる。
【0101】
上述の実施形態では、音声パラメータをスカラ量子化する例について説明したが、このような構成に限るものではない。音声パラメータをベクトル量子化するように構成してもよい。
【0102】
また、上述の実施形態では、サーバ30で音声認識した結果を各クライアント10,20に返信する例について説明したが、このような構成に限るものではない。ネットワーク40に接続された任意の端末あるいはクライアント10,20を含む複数の端末に伝送するように構成してもよい。
【0103】
また、上記実施形態におけるクライアント、及び、サーバは、パーソナルコンピュータやワークステーション等の汎用情報処理装置に前述した各実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、インストールし、コンピュータ(CPUやMPU)に実行させることでで達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0104】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0105】
【発明の効果】
以上説明したように本発明によれば、クライアントとサーバとの間のデータ転送量を抑えながら高精度な音声認識を実現することができる。
【図面の簡単な説明】
【図1】本実施形態における音声認識システムの一例を示すブロック図である。
【図2】第1の実施形態におけるクライアント側の音声処理ユニットの構成とサーバ側の音声処理ユニットの構成とを示すブロック図である。
【図3】第1の実施形態におけるクライアント側の処理手順を説明するフローチャートである。
【図4】第1の実施形態におけるサーバ側の処理手順を説明するフローチャートである。
【図5】第2の実施形態におけるクライアント側の音声処理ユニットの構成とサーバ側の音声処理ユニットの構成とを示すブロック図である。
【図6】第2の実施形態におけるクライアント側の処理手順を説明するフローチャートである。
【図7】第2の実施形態におけるサーバ側の処理手順を説明するフローチャートである。
Claims (17)
- 音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理システムであって、
前記クライアントは、
入力された音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで圧縮符号化する符号化手段と、
圧縮符号化された音声情報を伝送する伝送手段とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段と
を備えたことを特徴とする音声処理システム。 - 前記第二計算手段は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項1記載の音声処理システム。
- 前記第二計算手段で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項1に記載の音声処理システム。
- スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする音声処理装置。 - 前記第二計算手段は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項4記載の音声処理装置。
- 前記第二計算手段で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項4に記載の音声処理装置。
- 前記特徴パラメータは、静的な特徴パラメータと動的な特徴パラメータとからなることを特徴とする請求項4に記載の音声処理装置。
- 前記特徴パラメータは、静的な特徴パラメータからなることを特徴とする請求項4に記載の音声処理装置。
- 音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理方法であって、
前記クライアントは、
入力した音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで音声情報を圧縮符号化する符号化工程と、
圧縮符号化された音声情報を伝送する伝送工程とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程と
を備えたことを特徴とする音声処理方法。 - 前記第二計算工程は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項9記載の音声処理方法。
- 前記第二計算工程で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項9に記載の音声処理方法。
- スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程と
を備えたことを特徴とする音声処理方法。 - 前記第二計算工程は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項12記載の音声処理方法。
- 前記第二計算工程で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項12に記載の音声処理方法。
- 前記特徴パラメータは、静的な特徴パラメータと動的な特徴パラメータとからなることを特徴とする請求項12に記載の音声処理方法。
- 前記特徴パラメータは、静的な特徴パラメータからなることを特徴とする請求項12に記載の音声処理方法。
- 請求項12乃至16のいずれか1つに記載の方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000153617A JP3728177B2 (ja) | 2000-05-24 | 2000-05-24 | 音声処理システム、装置、方法及び記憶媒体 |
US09/739,878 US6813606B2 (en) | 2000-05-24 | 2000-12-20 | Client-server speech processing system, apparatus, method, and storage medium |
US10/956,130 US7058580B2 (en) | 2000-05-24 | 2004-10-04 | Client-server speech processing system, apparatus, method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000153617A JP3728177B2 (ja) | 2000-05-24 | 2000-05-24 | 音声処理システム、装置、方法及び記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001337695A JP2001337695A (ja) | 2001-12-07 |
JP2001337695A5 JP2001337695A5 (ja) | 2005-07-28 |
JP3728177B2 true JP3728177B2 (ja) | 2005-12-21 |
Family
ID=18658838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000153617A Expired - Fee Related JP3728177B2 (ja) | 2000-05-24 | 2000-05-24 | 音声処理システム、装置、方法及び記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6813606B2 (ja) |
JP (1) | JP3728177B2 (ja) |
Families Citing this family (168)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7103349B2 (en) * | 2002-05-02 | 2006-09-05 | Nokia Corporation | Method, system and network entity for providing text telephone enhancement for voice, tone and sound-based network services |
JP2004012698A (ja) * | 2002-06-05 | 2004-01-15 | Canon Inc | 情報処理装置及び情報処理方法 |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
JP4280505B2 (ja) * | 2003-01-20 | 2009-06-17 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
US7067038B2 (en) * | 2003-02-06 | 2006-06-27 | The Procter & Gamble Company | Process for making unitary fibrous structure comprising randomly distributed cellulosic fibers and non-randomly distributed synthetic fibers |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
KR100672355B1 (ko) | 2004-07-16 | 2007-01-24 | 엘지전자 주식회사 | 음성 코딩/디코딩 방법 및 그를 위한 장치 |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060095261A1 (en) * | 2004-10-30 | 2006-05-04 | Ibm Corporation | Voice packet identification based on celp compression parameters |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
JP4603429B2 (ja) * | 2005-06-17 | 2010-12-22 | 日本電信電話株式会社 | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7783488B2 (en) * | 2005-12-19 | 2010-08-24 | Nuance Communications, Inc. | Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
JP4769121B2 (ja) * | 2006-05-15 | 2011-09-07 | 日本電信電話株式会社 | サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体 |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR100861653B1 (ko) | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9542687B2 (en) | 2008-06-26 | 2017-01-10 | Visa International Service Association | Systems and methods for visual representation of offers |
US8478692B2 (en) | 2008-06-26 | 2013-07-02 | Visa International Service Association | Systems and methods for geographic location notifications of payment transactions |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US8396455B2 (en) | 2008-09-25 | 2013-03-12 | Visa International Service Association | Systems and methods for sorting alert and offer messages on a mobile device |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8775179B2 (en) * | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
KR101401380B1 (ko) * | 2010-11-04 | 2014-05-30 | 한국전자통신연구원 | 원격 렌더링 기반의 3d 응용프로그램 실행 장치 및 그 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8924219B1 (en) | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2862163A4 (en) * | 2012-06-18 | 2015-07-29 | Ericsson Telefon Ab L M | METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP5706384B2 (ja) | 2012-09-24 | 2015-04-22 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014171144A1 (ja) | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
CN103915092B (zh) * | 2014-04-01 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10930278B2 (en) | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
CN109215679A (zh) * | 2018-08-06 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 基于用户情绪的对话方法和装置 |
CN112466285B (zh) * | 2020-12-23 | 2022-01-28 | 北京百度网讯科技有限公司 | 离线语音识别方法、装置、电子设备及存储介质 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60153097A (ja) | 1984-01-20 | 1985-08-12 | キヤノン株式会社 | 音声認識装置 |
JPS62275299A (ja) | 1986-05-23 | 1987-11-30 | 株式会社日立製作所 | 音声入力方式 |
EP0427485B1 (en) | 1989-11-06 | 1996-08-14 | Canon Kabushiki Kaisha | Speech synthesis apparatus and method |
JPH03150599A (ja) | 1989-11-07 | 1991-06-26 | Canon Inc | 日本語音節の符号化方式 |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JP3066920B2 (ja) | 1991-06-11 | 2000-07-17 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH04362698A (ja) | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JP3396553B2 (ja) * | 1994-02-04 | 2003-04-14 | 三菱電機株式会社 | 半導体装置の製造方法及び半導体装置 |
US6594628B1 (en) * | 1995-09-21 | 2003-07-15 | Qualcomm, Incorporated | Distributed voice recognition system |
JP3450411B2 (ja) | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3530591B2 (ja) | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
JP3581401B2 (ja) | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
JP3453456B2 (ja) | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
JPH09258771A (ja) | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
JP3397568B2 (ja) | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH09305195A (ja) | 1996-05-13 | 1997-11-28 | Omron Corp | 音声認識装置および音声認識方法 |
JPH1097276A (ja) | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10161692A (ja) | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
US6260013B1 (en) * | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
US6195636B1 (en) * | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
-
2000
- 2000-05-24 JP JP2000153617A patent/JP3728177B2/ja not_active Expired - Fee Related
- 2000-12-20 US US09/739,878 patent/US6813606B2/en not_active Expired - Fee Related
-
2004
- 2004-10-04 US US10/956,130 patent/US7058580B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6813606B2 (en) | 2004-11-02 |
US20010056346A1 (en) | 2001-12-27 |
US20050043946A1 (en) | 2005-02-24 |
JP2001337695A (ja) | 2001-12-07 |
US7058580B2 (en) | 2006-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3728177B2 (ja) | 音声処理システム、装置、方法及び記憶媒体 | |
US9892728B2 (en) | System and method for mobile automatic speech recognition | |
US9899028B2 (en) | Information processing device, information processing system, information processing method, and information processing program | |
JP3661874B2 (ja) | 分散音声認識システム | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
CN111599343B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN102592591B (zh) | 双带语音编码 | |
KR20040084759A (ko) | 이동 통신 장치를 위한 분산 음성 인식 | |
JP2003044091A (ja) | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム | |
CN1770770B (zh) | 启用智能的和轻型的语音到文本转录的方法和系统 | |
US10629184B2 (en) | Cepstral variance normalization for audio feature extraction | |
JP3969908B2 (ja) | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 | |
CN113486661A (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
EP1239462B1 (en) | Distributed speech recognition system and method | |
JP2011064913A (ja) | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 | |
JP2002049390A (ja) | 音声認識方法およびサーバならびに音声認識システム | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
Maes et al. | Conversational networking: conversational protocols for transport, coding, and control. | |
JP2003241796A (ja) | 音声認識システムおよびその制御方法 | |
JP2000276188A (ja) | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 | |
JP2005055606A (ja) | サーバ、情報処理端末、音声認識システム | |
CN119132319A (zh) | 克隆音生成方法、克隆音应用方法及装置 | |
KR20110021439A (ko) | 음성 스트림 변환 장치 및 방법 | |
JP2003308083A (ja) | 音声合成処理装置 | |
XIE et al. | A Review of Network Server Based Distributed Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041213 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20041213 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20041213 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050922 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050930 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |