JP3728177B2

JP3728177B2 - 音声処理システム、装置、方法及び記憶媒体

Info

Publication number: JP3728177B2
Application number: JP2000153617A
Authority: JP
Inventors: 輝彦植山; 哲夫小坂; 雅章山田; 康弘小森; 晃弘櫛田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-05-24
Filing date: 2000-05-24
Publication date: 2005-12-21
Anticipated expiration: 2020-05-24
Also published as: US6813606B2; US20010056346A1; US20050043946A1; JP2001337695A; US7058580B2

Description

【０００１】
【発明の属する技術分野】
本発明はネットワークに接続可能な端末（クライアント）およびサーバを利用する音声処理システム、装置、方法及び記憶媒体に関するものである。
【０００２】
【従来の技術】
携帯端末などの小型機器のユーザインタフェースとして音声認識技術は有望な技術である。ところが携帯端末では、リソース（ＣＰＵの処理能力やメモリ容量等）やコストの制約から処理量の多い高度な音声認識を実現することが困難である。
【０００３】
【発明が解決しようとする課題】
このような問題点を解決する手法として、処理の軽い部分を携帯端末（クライアント）側で行い、処理の重い部分をサーバ側で行うようにするクライアント・サーバ型の音声認識システムを構築することが考えられる。
【０００４】
しかしながら、クライアント・サーバ型の音声認識システムを構築する場合には、クライアント側の負荷、クライアント・サーバ間のデータ伝送量、認識時間、認識率のバランスを考慮しなければならないという問題がある。
【０００５】
本発明は上記の問題に鑑みてなされたものであり、クライアントとサーバとの間のデータ転送量を抑えながら高精度な音声認識を実現することのできる音声処理システム、装置、方法及び記憶媒体を提供することを目的とする。
【０００６】
【課題を解決するための手段】
かかる課題を解決するため、本発明の音声処理システムは例えば以下の構成を備えることを特徴とする。すなわち、
音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理システムであって、
前記クライアントは、
入力された音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで圧縮符号化する符号化手段と、
圧縮符号化された音声情報を伝送する伝送手段とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする。
【０００８】
また、本発明の音声処理装置は例えば以下の構成を備えることを特徴とする。すなわち、
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする。
【０００９】
また、本発明の音声処理方法は例えば以下の構成を備えることを特徴とする。すなわち、
音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理方法であって、
前記クライアントは、
入力した音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで音声情報を圧縮符号化する符号化工程と、
圧縮符号化された音声情報を伝送する伝送工程とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程とを備えたことを特徴とする。
【００１１】
また、本発明の音声処理方法は例えば以下の構成を備えることを特徴とする。すなわち、
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程とを備えたことを特徴とする。
【００１２】
また、本発明は上記音声処理方法をコンピュータに実現させるための制御プログラムを格納することを特徴とする。
【００１３】
【発明の実施の形態】
以下、添付図面に従って本発明に係る実施形態を詳細に説明する。
【００１４】
＜第１の実施形態＞
図１は、本実施形態における音声認識システムの構成図である。
【００１５】
図１において、１０は第１のクライアントとして機能する情報端末、２０は第２のクライアントとして機能する情報端末、３０はサーバとして機能する情報処理装置、４０はクライアント１０，２０とサーバ３０を接続するネットワークである。クライアント１０，２０は、携帯電話、携帯型パーソナルコンピュータ等の携帯型情報端末である。ネットワーク４０は、電話回線網、移動体通信回線網、インターネット、衛星通信回線網等である。
【００１６】
次に、クライアント１０の構成について説明する。クライアント２０もクライアント１０と同様の構成を備え、サーバ３０と通信可能である。
【００１７】
１００はマイクロフォン、１０１はＡ／Ｄ変換部、１０２はクライアント側の音声処理装置、１０３はＲＡＭ、１０４は表示装置、１０５は制御部、１０６はネットワークインタフェース、１０７は記憶装置である。
【００１８】
マイクロフォン１００は、ユーザの発声する音声情報（日本語、英語等の言語からなる）を入力する。Ａ／Ｄ変換部１０１は、マイクロフォン１００から供給された音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。
【００１９】
音声処理ユニット１０２は、Ａ／Ｄ変換部１０１から供給された音声情報を音響分析し、所定形式の音声パラメータ（特徴パラメータともいう）を求める。そして、この音声パラメータを圧縮符号化する。圧縮符号化された音声パラメータは、ネットワークインタフェース１０６に供給される。
【００２０】
表示装置１０４は、液晶パネル等の表示器を具備し、この表示器にネットワークインタフェース１０６で受信されたサーバ３０の認識結果を表示する。
【００２１】
制御部１０５は中央処理ユニット（ＣＰＵ）を具備する。制御部１０５は、記憶装置１０７に記憶された各種の制御プログラムを読み出し、ＲＡＭ１０３を作業領域として用いて後述するクライアント１０の機能を制御する。
【００２２】
インタフェース１０６は、ネットワーク４０に接続されたサーバ３０との通信を制御する。インタフェース１０６では、ＴＣＰ／ＩＰ等の通信プロトコルを用いて、伝送データの欠落や到着順序を保証する。
【００２３】
記憶装置１０７は、半導体メモリ、磁気記録媒体、光記録媒体、ハードディスク等からなる。記憶装置１０７には、音声情報の入力を制御するための制御プログラム、サーバ３０で音声認識した結果を表示するための制御プログラム、サーバ３０で音声認識した結果に基づいて所定の操作を行うアプリケーションプログラム、ブートプログラム、オペレーションシステム（ＯＳ）等を格納する。
【００２４】
本実施形態の音声処理ユニット１０２は、ハードウェアで構成することもソフトウェアで構成することも可能である。ソフトウェアで構成する場合、このソフトウェアを実現するための制御プログラムは記憶装置１０７に格納される。そしてこの場合、制御部１０５は、クライアント１０の電源が投入されると、記憶装置１０７に格納されたブートプログラムとＯＳとを起動させ、しかる後、記憶装置１０７に格納された制御プログラムが起動させ、後述する音声処理ユニット１０２の処理手順を実行する。
【００２５】
次に、サーバ３０の構成について説明する。
【００２６】
１０８はネットワークインタフェース、１０９は表示装置、１１０は制御部、１１１は音声処理ユニット、１１２はＲＡＭ、１１３は記憶装置である。
【００２７】
インタフェース１０８は、ネットワーク４０に接続されたクライアント１０，２０との通信を制御する。インタフェース１０８では、ＴＣＰ／ＩＰ等の通信プロトコルを用いて、伝送データの欠落や到着順序を保証する。表示装置１０９は、液晶パネル等の表示器を具備する。
【００２８】
制御部１１０は中央処理ユニット（ＣＰＵ）を具備する。制御部１１０は、記憶装置１１３に記憶された各種の制御プログラムを読み出し、ＲＡＭ１１２を作業領域として用いて後述するサーバ３０の機能を制御する。
【００２９】
音声処理ユニット１１１は、インタフェース１０８で受信された圧縮音声パラメータを用いて音声認識を行う。音声認識した結果に対応する情報は、ネットワークインタフェース１０８に供給される。
【００３０】
記憶装置１１３は、半導体メモリ、磁気記録媒体、光記録媒体、ハードディスク等からなる。記憶装置１１３には、音声処理ユニット１１１で音声認識した結果に基づいて所定の操作を行うアプリケーションプログラム、ブートプログラム、オペレーションシステム（ＯＳ）等を格納する。
【００３１】
本実施形態の音声処理ユニット１１１は、ハードウェアで構成することもソフトウェアで構成することも可能である。ソフトウェアで構成する場合、このソフトウェアを実現するための制御プログラムは記憶装置１１３に格納される。そしてこの場合、制御部１１０は、サーバ３０の電源が投入されると、記憶装置１１３に格納されたブートプログラムとＯＳとを起動させ、しかる後、記憶装置１１３に格納された制御プログラムが起動させ、後述する音声処理ユニット１１１の処理手順を実行する。
【００３２】
図２は、第１の実施形態における音声処理ユニット１０２の構成と音声処理ユニット１１１の構成とを詳細に説明する図である。
【００３３】
まず、クライアント１０，２０の具備する音声処理ユニット１０２の構成について説明する。
【００３４】
２０１は音響分析部である。音響分析部２０１は、入力音声の音声区間を検出し、音声区間ごとに音響分析を行い、所定形式の音声パラメータを生成する。図２では、１２次元の静的な特徴パラメータ（例えば、ＬＰＣメルケプストラム）と、時間的な変化を示す１３次元の動的な特徴パラメータ（例えば、１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）とを音声パラメータとして生成する例について説明する。
【００３５】
２０２は圧縮符号化部である。圧縮符号化部２０２は、音響分析部２０１で生成された２５次元の音声パラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース１０６に供給され、サーバ３０のインタフェース１０８に伝送される。
【００３６】
例えば、フレーム周期１０ｍｓで音響分析し、２５次元の音声パラメータの各次元をスカラ量子化して４ビットの圧縮音声パラメータに変換した場合、圧縮音声パラメータのデータ伝送レートは、以下のようになる。
【００３７】
２５次元×１００フレーム／秒×４ビット＝１０ｋｂｐｓ
これに対して、２５次元の音声パラメータをスカラ量子化しないでサーバ３０側に伝送する音声認識システムの場合、音声パラメータのデータ伝送レートは、以下のようになる。
【００３８】
２５次元×１００フレーム／秒×４バイト×８ビット＝８０ｋｂｐｓ
以上説明したように、クライアント１０、２０では、音響分析から圧縮符号化までを実行するように構成することにより、最も負荷の大きい音声認識処理を実行しなくてもよくなる。これにより、クライアント側の負荷を大幅に低減させ、低コスト化を図ることができる。また、音声パラメータを圧縮符号化してからサーバ３０に伝送するように構成することにより、クライアント・サーバ間のデータ伝送量を大幅に抑えることができる。
【００３９】
次に、サーバ３０の具備する音声処理ユニット１１１の構成について説明する。
【００４０】
２０３は復号化部である。復号化部２０３は、データ伝送レート１０ｋｂｐｓの圧縮音声パラメータを復号化し、２５次元の音声パラメータ（１２次元のＬＰＣメルケプストラム、１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）に変換する。
【００４１】
２０４はＩＤＭＭ計算部である。ＩＤＭＭ計算部２０４は、ＩＤＭＭ（Independent Dimension Multi-Mixture computation）法に従い、受信した圧縮音声パラメータを用いて音響モデルの出力確率を高速に近似計算する。本実施形態では、音素を音韻単位とする混合連続分布型ＨＭＭを音響モデルとして用いる。
【００４２】
ＩＤＭＭ法とは、混合分布型音響モデルの出力確率を近似計算する計算方法である。本実施形態では、各混合分布を対角共分散行列ガウス分布とする例について説明する。
【００４３】
Ｎ次元の音声パラメータベクトルｘに対する音響モデルｓの出力確率ｂ_ｓ（ｘ）は、以下のように表される。
【００４４】
【数１】

【００４５】
一方、各次元が独立に計算できると仮定すると、音響モデルｓの出力確率＾ｂ_ｓ（ｘ）は以下のように定義できる。
【００４６】
【数２】

【００４７】
ここで、Ｍ_ｓは音響モデルｓの混合数を示し、Ｎ_{ｓ，ｍ，ｉ}は音響モデルｓのｍ番目の分布におけるｉ次元目のガウス分布関数を示し、ｗ_ｓ，ｍは音響モデルｓのｍ番目の分布における重みを示す。
【００４８】
また、対数出力確率を計算する場合、式（２）は以下のように定義される。
【００４９】
【数３】

【００５０】
本実施形態では、ｉ次元目の入力音声パラメータｘ_ｉの符号化コード（本実施形態ではスカラ量子化して求めた量子化値）とｉ次元目の対数混合ガウス分布の出力確率とを対応付けたテーブルを予め用意しておき、Ｎ回のテーブル参照とＮ−１回の加算とにより音響モデルｓの対数出力確率を高速に計算するように構成する。
【００５１】
２０５は再計算部である。再計算部２０５は、ＩＤＭＭ計算部２０４で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、復号化部２０３で求めた音声パラメータを用いてその出力確率を高精度に再計算する。
【００５２】
２０６は複数種類の言語に対応する単語辞書と文法規則を具備する言語探索部である。言語探索部２０６は、再計算部２０５の計算結果に基づいて言語探索を行い、受信した圧縮音声パラメータに対応する認識結果を求める。
【００５３】
以上説明したように、サーバ３０では、受信した圧縮音声パラメータをそのまま用いて音響モデルの出力確率を近似計算し、所定値よりも大きい出力確率については復号化した圧縮音声パラメータを用いてその出力確率を詳細に再計算するように構成することにより、認識率の低下を押さえつつ高速かつ高精度に出力確率を求めることができる。
【００５４】
図３は、第１の実施形態におけるクライアント１０，２０の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置１０７に記憶され、制御部１０５により実行される。
【００５５】
ステップＳ３０１において、Ａ／Ｄ変換部１０１は、ユーザの発声した音声情報をマイクロフォン１００から入力し、この音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。このディジタル音声情報は、音声処理ユニット１０２に供給される。
【００５６】
ステップＳ３０２において、音響分析部２０１は、所定の音声区間ごとに音響分析を行い、静的な特徴パラメータと動的な特徴パラメータとからなる２５次元の音声パラメータ（具体的には、１２次元のＬＰＣメルケプストラム、１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）を生成する。
【００５７】
ステップＳ３０３において、圧縮符号化部２０２は、音響分析部２０１で生成された２５次元の音声パラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース１０６に供給され、サーバ３０のインタフェース１０８に伝送される。
【００５８】
ステップＳ３０４において、インタフェース１０８は、圧縮符号化部２０２で圧縮符号化された圧縮音声パラメータをネットワーク４０に接続されたサーバ３０に伝送する。サーバ３０は、図４に示す処理手順に従って圧縮音声パラメータを音声認識する。
【００５９】
ステップＳ３０５において、インタフェース１０８は、サーバ３０で音声認識した文字情報または制御コードを受信したり、サーバ３０で音声認識した制御コードに対応する情報を受信したりする。
【００６０】
ステップＳ３０５で文字情報を受信した場合、表示装置１０４はその文字情報を表示する（ステップＳ３０６）。また、制御コードを受信した場合、制御部１０５はその制御コードを用いてクライアント１０の具備する所定のアプリケーションプログラムを操作し、その操作結果を表示装置１０４に表示する（ステップＳ３０６）。
【００６１】
図４は、第１の実施形態におけるサーバ３０の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置１１３に記憶され、制御部１１０により実行される。
【００６２】
ステップＳ４０１において、インタフェース１０８は、各クライアント１０，２０から伝送された圧縮音声パラメータを受信する。この圧縮音声パラメータは、音声処理ユニット１１１に供給される。
【００６３】
ステップＳ４０２において、復号化部２０３は、圧縮音声パラメータを復号化し、２５次元の音声パラメータ（１２次元のＬＰＣメルケプストラム、１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）に変換する。
【００６４】
一方、ステップＳ４０３において、ＩＤＭＭ計算部２０４は、圧縮音声パラメータの復号化と並行して、ステップＳ４０１で受信した圧縮音声パラメータを用いて音響モデルの出力確率を高速に近似計算する。
【００６５】
ステップＳ４０４において、再計算部２０５は、ステップＳ４０３で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、ステップＳ４０２で復号化した圧縮音声パラメータを用いてその出力確率を高精度に再計算する。
【００６６】
ステップＳ４０５において、言語探索部２０６は、ステップＳ４０４の計算結果に基づいて言語探索を行い、圧縮音声パラメータに対応する文字情報または制御コードを認識する。認識された文字情報や制御コードは、インタフェース１０８または制御部１１０に供給される。制御部１１０に制御コードが供給された場合、制御部１１０はその制御コードを用いてサーバ３０の具備する所定のアプリケーションプログラムを操作し、その操作結果をインタフェース１０８に供給してクライアントに伝送する。
【００６７】
所定のアプリケーションプログラムとしては、例えば、認識した制御コードに対応したコンテンツをサーバ３０からクライアント１０に提供するコンテンツ配信システムや、制御コードに対応した情報をサーバ３０からクライアント１０に提供する情報サービスシステムや、制御コードに対応したチケットを予約するチケット予約システム等がある。
【００６８】
以上説明したように、第１の実施形態によれば、クライアント側の負荷とクライアント・サーバ間のデータ伝送量とを抑え、クライアント側の低コスト化を可能とし、高速かつ高精度に音声認識を実行することのできるクライアント・サーバ側の音声認識システムを提供することができる。
【００６９】
＜第２の実施形態＞
図５は、第２の実施形態における音声処理ユニット１０２の構成と音声処理ユニット１１１の構成とを詳細に説明する図である。
【００７０】
動的な特徴パラメータであるΔパラメータは、サーバ３０側で計算することも可能である。第２の実施形態では、このΔパラメータをサーバ３０側で計算するように構成し、第１の実施形態よりもデータ伝送レートを向上させた例について説明する。
【００７１】
まず、クライアント１０，２０の具備する音声処理ユニット１０２の構成について説明する。
【００７２】
５０１は音響分析部である。音響分析部５０１は、入力音声の音声区間を検出し、音声区間ごとに音響分析を行い、所定形式の音声パラメータを生成する。図５では、１３次元の静的な特徴パラメータ（例えば、ＬＰＣメルケプストラムおよび１次元のパワー）を音声パラメータとして生成する例について説明する。
【００７３】
５０２は圧縮符号化部である。圧縮符号化部５０２は、音響分析部５０１で生成された１３次元の音声パラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース１０６に供給され、サーバ３０のインタフェース１０８に伝送される。
【００７４】
例えば、フレーム周期１０ｍｓで音響分析し、１３次元の音声パラメータの各次元をスカラ量子化して４ビットの圧縮音声パラメータに変換した場合、圧縮音声パラメータのデータ伝送レートは、以下のようになる。
【００７５】
１３次元×１００フレーム／秒×４ビット＝５．２ｋｂｐｓ
以上説明したように、第２の実施形態におけるクライアント１０，２０は、第１の実施形態よりも更にクライアント側の負荷を抑え、低コスト化を可能とし、データ伝送量を抑えることができる。
【００７６】
次に、サーバ３０の具備する音声処理ユニット１１１の構成について説明する。
【００７７】
５０３は復号化部である。復号化部５０３は、データ伝送レート５．２ｋｂｐｓの圧縮音声パラメータを復号化し、１３次元の音声パラメータ（１２次元のＬＰＣメルケプストラムおよび１次元のパワー）に変換する。
【００７８】
５０４はΔパラメータ計算部である。Δパラメータ計算部５０４は、復号化部５０３で復号化された１３次元の音声パラメータを用いて、１３次元のΔパラメータ（１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）を計算する。
【００７９】
５０５は圧縮符号化部である。圧縮符号化部５０５は、圧縮符号化部５０２と同様の符号化方法を用いて、Δパラメータ計算部５０４で計算された１３次元のΔパラメータを次元ごとに圧縮符号化する。本実施形態では、１３次元のΔパラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。
【００８０】
５０６はＩＤＭＭ計算部である。ＩＤＭＭ計算部５０６は、上述のＩＤＭＭ法に従い、受信した圧縮音声パラメータと圧縮符号化部５０５で求めた圧縮音声パラメータとを用いて音響モデルの出力確率を高速に近似計算する。
【００８１】
５０７は再計算部である。再計算部５０７は、ＩＤＭＭ計算部５０６で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、復号化部５０３とΔパラメータ計算部５０４とで求めた音声パラメータを用いてその出力確率を高精度に再計算する。
【００８２】
５０８は複数種類の言語に対応する単語辞書と文法規則を具備する言語探索部である。言語探索部５０８は、再計算部５０７の計算結果に基づいて言語探索を行い、受信した圧縮音声パラメータに対応する認識結果を求める。
【００８３】
以上説明したように、第２の実施形態におけるクライアント１０，２０は、復号化した静的な特徴パラメータから動的な特徴パラメータを計算する構成を備えることによって、サーバ・クライアント間のデータ転送量を第１の実施形態よりも更に抑えることができる。また、第１の実施形態と同様に、認識率の低下を押さえつつ高速かつ高精度に出力確率を求めることができる。
【００８４】
図６は、第２の実施形態におけるクライアント１０，２０の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置１０７に記憶され、制御部１０５により実行される。
【００８５】
ステップＳ６０１において、Ａ／Ｄ変換部１０１は、ユーザの発声した音声情報をマイクロフォン１００から入力し、この音声情報を所定のサンプリング周波数でサンプリングし、ディジタル音声情報に変換する。このディジタル音声情報は、音声処理ユニット１０２に供給される。
【００８６】
ステップＳ６０２において、音響分析部５０１は、所定の音声区間ごとに音響分析を行い、静的な特徴パラメータからなる１３次元の音声パラメータ（具体的には、１２次元のＬＰＣメルケプストラムおよび１次元のパワー）を生成する。
【００８７】
ステップＳ６０３において、圧縮符号化部５０２は、音響分析部５０１で生成された１３次元の音声パラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。この圧縮音声パラメータは、インタフェース１０６に供給され、サーバ３０のインタフェース１０８に伝送される。
【００８８】
ステップＳ６０４において、インタフェース１０８は、圧縮符号化部５０２で圧縮符号化された圧縮音声パラメータをネットワーク４０に接続されたサーバ３０に伝送する。サーバ３０は、図７に示す処理手順に従って圧縮音声パラメータを音声認識する。
【００８９】
ステップＳ６０５において、インタフェース１０８は、サーバ３０で音声認識した文字情報または制御コードを受信したり、サーバ３０で音声認識した制御コードに対応する情報を受信したりする。
【００９０】
ステップＳ６０５で文字情報を受信した場合、表示装置１０４はその文字情報を表示する（ステップＳ３０６）。また、制御コードを受信した場合、制御部１０５はその制御コードを用いてクライアント１０の具備する所定のアプリケーションプログラムを操作し、その操作結果を表示装置１０４に表示する（ステップＳ３０６）。
【００９１】
図７は、第２の実施形態におけるサーバ３０の処理手順を説明するフローチャートである。この処理手順を制御する制御プログラムは、記憶装置１１３に記憶され、制御部１１０により実行される。
【００９２】
ステップＳ７０１において、インタフェース１０８は、各クライアント１０，２０から伝送された圧縮音声パラメータを受信する。この圧縮音声パラメータは、音声処理ユニット１１１に供給される。
【００９３】
ステップＳ７０２において、復号化部５０３は、圧縮音声パラメータを復号化し、１３次元の音声パラメータ（１２次元のＬＰＣメルケプストラムおよび１次元のパワー）に変換する。
【００９４】
ステップＳ７０３において、Δパラメータ計算部５０４は、復号化部５０３で復号化された１３次元の音声パラメータを用いて、１３次元のΔパラメータ（１２次元のΔＬＰＣメルケプストラムおよび１次元のΔパワー）を計算する。
【００９５】
ステップＳ７０４において、圧縮符号化部５０５は、Δパラメータ計算部５０４で計算された１３次元のΔパラメータを次元ごとにスカラ量子化し、１次元につき４ビットの圧縮音声パラメータに変換する。
【００９６】
ステップＳ７０５において、ＩＤＭＭ計算部５０６は、ステップＳ７０１で得た圧縮音声パラメータとステップＳ７０４で得た圧縮音声パラメータとを用いて音響モデルの出力確率を高速に近似計算する。
【００９７】
ステップＳ７０６において、再計算部５０７は、ステップＳ７０５で求めた出力確率が所定値よりも大きいか否かを判定し、所定値よりも大きい場合には、ステップＳ７０２で復号化した圧縮音声パラメータとステップＳ７０３で復号化して得た音声パラメータとを用いて再計算する。
【００９８】
ステップＳ７０７において、言語探索部５０８は、ステップＳ７０６の計算結果に基づいて言語探索を行い、圧縮音声パラメータに対応する文字情報または制御コードを認識する。認識された文字情報や制御コードは、インタフェース１０８または制御部１１０に供給される。制御部１１０に制御コードが供給された場合、制御部１１０はその制御コードを用いてサーバ３０の具備する所定のアプリケーションプログラムを操作し、その操作結果をインタフェース１０８に供給してクライアントに伝送する。
【００９９】
所定のアプリケーションプログラムとしては、例えば、認識した制御コードに対応したコンテンツをサーバ３０からクライアント１０に提供するコンテンツ配信システムや、制御コードに対応した情報をサーバ３０からクライアント１０に提供する情報サービスシステムや、制御コードに対応したチケットを予約するチケット予約システム等がある。
【０１００】
以上説明したように、第２の実施形態によれば、第１の実施形態よりも更にクライアント側の負荷とクライアント・サーバ間のデータ伝送量とを抑えたクライアント・サーバ側の音声認識システムを提供することができる。
【０１０１】
上述の実施形態では、音声パラメータをスカラ量子化する例について説明したが、このような構成に限るものではない。音声パラメータをベクトル量子化するように構成してもよい。
【０１０２】
また、上述の実施形態では、サーバ３０で音声認識した結果を各クライアント１０，２０に返信する例について説明したが、このような構成に限るものではない。ネットワーク４０に接続された任意の端末あるいはクライアント１０，２０を含む複数の端末に伝送するように構成してもよい。
【０１０３】
また、上記実施形態におけるクライアント、及び、サーバは、パーソナルコンピュータやワークステーション等の汎用情報処理装置に前述した各実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、インストールし、コンピュータ（ＣＰＵやＭＰＵ）に実行させることでで達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【０１０４】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【０１０５】
【発明の効果】
以上説明したように本発明によれば、クライアントとサーバとの間のデータ転送量を抑えながら高精度な音声認識を実現することができる。
【図面の簡単な説明】
【図１】本実施形態における音声認識システムの一例を示すブロック図である。
【図２】第１の実施形態におけるクライアント側の音声処理ユニットの構成とサーバ側の音声処理ユニットの構成とを示すブロック図である。
【図３】第１の実施形態におけるクライアント側の処理手順を説明するフローチャートである。
【図４】第１の実施形態におけるサーバ側の処理手順を説明するフローチャートである。
【図５】第２の実施形態におけるクライアント側の音声処理ユニットの構成とサーバ側の音声処理ユニットの構成とを示すブロック図である。
【図６】第２の実施形態におけるクライアント側の処理手順を説明するフローチャートである。
【図７】第２の実施形態におけるサーバ側の処理手順を説明するフローチャートである。

Claims

音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理システムであって、
前記クライアントは、
入力された音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで圧縮符号化する符号化手段と、
圧縮符号化された音声情報を伝送する伝送手段とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段と
を備えたことを特徴とする音声処理システム。
前記第二計算手段は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項１記載の音声処理システム。
前記第二計算手段で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項１に記載の音声処理システム。
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信手段と、
前記受信手段で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算手段と、
前記圧縮符号化された音声情報を復号化する復号化手段と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算手段と、
前記第二計算手段で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識手段とを備えたことを特徴とする音声処理装置。
前記第二計算手段は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項４記載の音声処理装置。
前記第二計算手段で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項４に記載の音声処理装置。
前記特徴パラメータは、静的な特徴パラメータと動的な特徴パラメータとからなることを特徴とする請求項４に記載の音声処理装置。
前記特徴パラメータは、静的な特徴パラメータからなることを特徴とする請求項４に記載の音声処理装置。
音声情報の入力をクライアント側で行い、音声認識をサーバ側で行う音声処理方法であって、
前記クライアントは、
入力した音声から音声認識のための特徴パラメータを抽出し、抽出した特徴パラメータをスカラ量子化することで音声情報を圧縮符号化する符号化工程と、
圧縮符号化された音声情報を伝送する伝送工程とを備え、
前記サーバは、
圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程と
を備えたことを特徴とする音声処理方法。
前記第二計算工程は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項９記載の音声処理方法。
前記第二計算工程で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項９に記載の音声処理方法。
スカラ量子化された音声認識のための特徴パラメータで構成される、圧縮符号化された音声情報を受信する受信工程と、
前記受信工程で受信した圧縮符号化された音声情報を用いて、音響モデルの状態の出力確率を、第一の尤度として近似計算する第一計算工程と、
前記圧縮符号化された音声情報を復号化する復号化工程と、
前記復号化された音声情報を用いて、上位の尤度を選択するための条件に基づいて選択された前記第一の尤度が上位の音響モデルの状態の出力確率を、第二の尤度として計算する第二計算工程と、
前記第二計算工程で計算された音響モデルの状態の第二の尤度を用いて音声認識を行う認識工程と
を備えたことを特徴とする音声処理方法。
前記第二計算工程は、前記第一の尤度のみを用いて、音響モデルの状態を選択することを特徴とする請求項１２記載の音声処理方法。
前記第二計算工程で第二の尤度を求める対象は、所定値よりも大きな第一の尤度とすることを特徴とする請求項１２に記載の音声処理方法。
前記特徴パラメータは、静的な特徴パラメータと動的な特徴パラメータとからなることを特徴とする請求項１２に記載の音声処理方法。
前記特徴パラメータは、静的な特徴パラメータからなることを特徴とする請求項１２に記載の音声処理方法。
請求項１２乃至１６のいずれか１つに記載の方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体。