JP7121461B2

JP7121461B2 - コンピュータシステム、音声認識方法及びプログラム

Info

Publication number: JP7121461B2
Application number: JP2020547732A
Authority: JP
Inventors: 俊二菅谷
Original assignee: Optim Corp
Current assignee: Optim Corp
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-08-18
Anticipated expiration: 2038-09-27
Also published as: US20210312930A1; CN113168836B; JPWO2020065840A1; WO2020065840A1; CN113168836A

Description

本発明は、音声認識を実行するコンピュータシステム、音声認識方法及びプログラムに関する。

近年、様々な分野において、音声入力が盛んに行われている。このような音声入力の例としては、スマートフォンやタブレット端末等の携帯端末や、スマートスピーカ等に音声入力を行い、これらの端末類の操作、情報の検索又は連携家電の操作等を行うものがある。そのため、より正確な音声認識技術の需要が高まっている。

このような音声認識技術として、音響モデルと言語モデルとの異なるモデルにおける其々の音声認識の認識結果を結合することにより、最終的な認識結果を出力する構成が開示されている（特許文献１参照）。

特開２０１７－４０９１９号公報

しかしながら、特許文献１の構成では、複数の音声認識エンジンではなく、単一の音声認識エンジンが複数のモデルで音声認識するものに過ぎないことから、音声認識の正確性が十分なものではなかった。

本発明は、音声認識の認識結果に対する正確性を向上させることが容易なコンピュータシステム、音声認識方法及びプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

また、本発明は、音声データを取得する取得手段と、
取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるＮ通りの音声解析エンジンでＮ通りの音声認識を行うＮ通りの認識手段と、
前記Ｎ通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力手段と、
出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択手段と、
を備え、
前記Ｎ通りの認識手段は、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる、ことを特徴とするコンピュータシステムを提供する。

本発明によれば、コンピュータシステムは、音声データを取得し、取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるＮ通りの音声解析エンジンでＮ通りの音声認識を行い、前記Ｎ通りで行った音声認識のうち、認識結果が異なるもののみを出力させ、出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせ、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる。

本発明は、コンピュータシステムのカテゴリであるが、方法及びプログラム等の他のカテゴリにおいても、同様の作用・効果を発揮する。

本発明によれば、音声認識の認識結果に対する正確性を向上させることが容易なコンピュータシステム、音声認識方法及びプログラムを提供することが容易となる。

図１は、音声認識システム１の概要を示す図である。図２は、音声認識システム１の全体構成図である。図３は、コンピュータ１０が実行する第一の音声認識処理を示すフローチャートである。図４は、コンピュータ１０が実行する第二の音声認識処理を示すフローチャートである。図５は、コンピュータ１０が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。図６は、コンピュータ１０が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。図７は、コンピュータ１０が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［音声認識システム１の概要］
本発明の好適な実施形態の概要について、図１に基づいて説明する。図１は、本発明の好適な実施形態である音声認識システム１の概要を説明するための図である。音声認識システム１は、コンピュータ１０から構成され、音声認識を実行するコンピュータシステムである。

なお、音声認識システム１は、ユーザが所持するユーザ端末（携帯端末やスマートスピーカ等）等の他の端末類が含まれていてもよい。

コンピュータ１０は、ユーザが発した音声を、音声データとして取得する。この音声データは、ユーザ端末に内蔵されたマイク等の集音装置によりユーザが発した音声を集音し、ユーザ端末がこの集音した音声を、音声データとしてコンピュータ１０に送信する。コンピュータ１０は、この音声データを受信することにより、音声データを取得する。

コンピュータ１０は、この取得した音声データを、第一の音声解析エンジンにより音声認識を行う。また、コンピュータ１０は、同時に、この取得した音声データを、第二の音声解析エンジンにより音声認識を行う。この第一の音声解析エンジンと第二の音声解析エンジンとは、其々、異なるアルゴリズム又はデータベースによるものである。

コンピュータ１０は、第一の音声解析エンジンの認識結果と、第二の音声解析エンジンの認識結果とが異なる場合、双方の認識結果をユーザ端末に出力させる。ユーザ端末はこの双方の認識結果を、自身の表示部等に表示又はスピーカ等から放音することにより、ユーザに双方の認識結果を通知する。その結果、コンピュータ１０は、双方の認識結果を、ユーザに通知させることになる。

コンピュータ１０は、出力させた双方の認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる。ユーザ端末は、表示した認識結果へのタップ操作等の入力を受け付け、正しい認識結果の選択を受け付ける。また、ユーザ端末は、放音した認識結果への音声入力を受け付け、正しい認識結果の選択を受け付ける。ユーザ端末は、この選択された認識結果を、コンピュータ１０に送信する。コンピュータ１０は、この認識結果を取得することにより、ユーザが選択した正しい認識結果を取得する。その結果、コンピュータ１０は、正しい認識結果の選択を受け付けさせることになる。

コンピュータ１０は、第一の音声解析エンジンと第二の音声解析エンジンのうち、正しい認識結果として選択されなかった音声解析エンジンに対して、選択された正しい認識結果に基づいて学習させる。例えば、第一の音声解析エンジンの認識結果が正しい認識結果として選択を受け付けさせていた場合、第二の音声解析エンジンに、この第一の音声解析エンジンの認識結果を学習させる。

また、コンピュータ１０は、この取得した音声データを、Ｎ通りの音声解析エンジンにより音声認識を行う。このとき、Ｎ通りの音声解析エンジンは、其々、互いに異なるアルゴリズム又はデータベースによるものである。

コンピュータ１０は、Ｎ通りの音声解析エンジンによる認識結果のうち、認識結果が異なるものをユーザ端末に出力させる。ユーザ端末この認識結果が異なるものを自身の表示部等に表示又はスピーカ等から放音することにより、ユーザに認識結果が異なるものを通知する。その結果、コンピュータ１０は、Ｎ通りの認識結果のうち、認識結果が異なるものをユーザに通知させることになる。

コンピュータ１０は、出力させた認識結果が異なるもののうち、ユーザから正しい認識結果の選択を受け付けさせる。ユーザ端末は、表示した認識結果へのタップ操作等の入力を受け付け、正しい認識結果の選択を受け付ける。また、ユーザ端末は、放音した認識結果への音声入力を受け付け、正しい認識結果の選択を受け付ける。ユーザ端末は、この選択された認識結果を、コンピュータ１０に送信する。コンピュータ１０は、この認識結果を取得することにより、ユーザが選択した正しい認識結果を取得する。その結果、コンピュータ１０は、正しい認識結果の選択を受け付けさせることになる。

コンピュータ１０は、認識結果が異なるもののうち、正しい認識結果として選択されなかった音声解析エンジンに対して、選択された正しい認識結果に基づいて学習させる。例えば、第一の音声解析エンジンの認識結果が正しい認識結果として選択を受け付けさせていた場合、それ以外の認識結果の音声解析エンジンに、この第一の音声解析エンジンの認識結果を学習させる。

音声認識システム１が実行する処理の概要について説明する。

はじめに、コンピュータ１０は、音声データを取得する（ステップＳ０１）。コンピュータ１０は、ユーザ端末が入力を受け付けた音声を、音声データとして取得する。ユーザ端末は、自身に内蔵された集音装置によりユーザが発した音声を集音し、この集音した音声を音声データとしてコンピュータ１０に送信する。コンピュータ１０は、この音声データを受信することにより、音声データを取得する。

コンピュータ１０は、この音声データを、第一の音声解析エンジン及び第二の音声解析エンジンにより音声認識する（ステップＳ０２）。第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものであり、コンピュータ１０は、一の音声データに対して、２つの音声認識を実行するものである。コンピュータ１０は、例えば、スペクトラムアナライザ等により音声認識し、音声波形に基づいて、音声を認識する。コンピュータ１０は、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。コンピュータ１０は、其々の音声認識の結果として、音声を其々の認識結果のテキストに変換する。

コンピュータ１０は、第一の音声解析エンジンの認識結果と、第二の音声解析エンジンの認識結果とが異なる場合、双方の認識結果を、ユーザ端末に出力させる（ステップＳ０３）。コンピュータ１０は、双方の認識結果のテキストをユーザ端末に出力させる。ユーザ端末は、この双方の認識結果のテキストを、自身の表示部に表示又は音声により放音する。このとき、認識結果のテキストの一方には、認識結果が異なることをユーザに類推させるテキストが含まれる。

コンピュータ１０は、ユーザ端末に出力させた双方の認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる（ステップＳ０４）。コンピュータ１０は、ユーザからのタップ操作や音声入力により、認識結果に対する正解の選択を受け付けさせる。例えば、コンピュータ１０は、ユーザ端末に表示させたテキストの何れかに対する選択操作を受け付けさせることにより、認識結果に対する正解の選択を受け付けさせる。

コンピュータ１０は、出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を正解データとして、誤った音声認識を実行した音声解析エンジンに学習させる（ステップＳ０５）。コンピュータ１０は、第一の音声解析エンジンによる認識結果が正解データであった場合、第二の音声解析エンジンにこの正解データに基づいて学習させる。また、コンピュータ１０は、第二の音声解析エンジンによる認識結果が正解データであった場合、第一の音声解析エンジンにこの正解データに基づいて学習させる。

なお、コンピュータ１０は、２つの音声解析エンジンに限らず、三つ以上のＮ通りの音声解析エンジンにより音声認識を実行してもよい。このＮ通りの音声解析エンジンは、其々が異なるアルゴリズム又はデータベースによるものである。この場合、コンピュータ１０は、取得した音声データを、Ｎ通りの音声解析エンジンにより音声認識する。コンピュータ１０は、一の音声データに対してＮ通りの音声認識を実行するものである。コンピュータ１０は、Ｎ通りの音声認識の結果として、音声を其々の認識結果のテキストに変換する。

コンピュータ１０は、Ｎ通りの音声解析エンジンの認識結果において、認識結果が異なるものを、ユーザ端末に出力させる。コンピュータ１０は、認識結果が異なるテキストをユーザ端末に出力させる。ユーザ端末は、この異なる認識結果のテキストを、自身の表示部に表示又は音声により放音する。このとき、認識結果のテキストのうち、認識結果が異なることをユーザに類推するテキストが含まれる。

コンピュータ１０は、ユーザ端末に出力した認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる。コンピュータ１０は、ユーザからのタップ操作や音声入力により、認識結果に対する正解の選択を受け付けさせる。例えば、コンピュータ１０は、ユーザ端末に表示させたテキストの何れかに対する選択操作を受け付けさせることにより、認識結果に対する正解の選択を受け付けさせる。

コンピュータ１０は、出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を正解データとして、誤った音声認識を実行した音声解析エンジンに学習させる。

以上が、音声認識システム１の概要である。

［音声認識システム１のシステム構成］
図２に基づいて、本発明の好適な実施形態である音声認識システム１のシステム構成について説明する。図２は、本発明の好適な実施形態である音声認識システム１のシステム構成を示す図である。図２において、音声認識システム１は、コンピュータ１０から構成され、音声認識を実行するコンピュータシステムである。

なお、音声認識システム１は、図示していないユーザ端末等の他の端末類が含まれていてもよい。

コンピュータ１０は、上述した通り、図示していないユーザ端末等と公衆回線網等を介してデータ通信可能に接続されており、必要なデータの送受信を実行するとともに、音声認識を実行する。

コンピュータ１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備え、通信部として、ユーザ端末や他のコンピュータ１０と通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉ―Ｆｉ（Ｗｉｒｅｌｅｓｓ―Ｆｉｄｅｌｉｔｙ）対応デバイス等を備える。また、コンピュータ１０は、記録部として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。また、コンピュータ１０は、処理部として、各種処理を実行する各種デバイス等を備える。

コンピュータ１０において、制御部が所定のプログラムを読み込むことにより、通信部と協働して、音声取得モジュール２０、出力モジュール２１、選択受付モジュール２２、正解取得モジュール２３を実現する。また、コンピュータ１０において、制御部が所定のプログラムを読み込むことにより、処理部と協働して、音声認識モジュール４０、認識結果判定モジュール４１を実現する。

［第一の音声認識処理］
図３に基づいて、音声認識システム１が実行する第一の音声認識処理について説明する。図３は、コンピュータ１０が実行する第一の音声認識処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

音声取得モジュール２０は、音声データを取得する（ステップＳ１０）。ステップＳ１０において、音声取得モジュール２０は、ユーザ端末が入力を受け付けた音声を音声データとして取得する。ユーザ端末は、自身に内蔵された集音装置により、ユーザが発した音声を集音する。ユーザ端末は、この集音した音声を、音声データとしてコンピュータ１０に送信する。音声取得モジュール２０は、この音声データを受信することにより、音声データを取得する。

音声認識モジュール４０は、この音声データを、第一の音声解析エンジンにより、音声認識する（ステップＳ１１）。ステップＳ１１において、音声認識モジュール４０は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール４０は、認識した音声を、テキスト変換する。このテキストを第一の認識テキストと称す。すなわち、第一の音声解析エンジンによる認識結果が、第一の認識テキストである。

音声認識モジュール４０は、この音声データを、第二の音声解析エンジンにより、音声認識する（ステップＳ１２）。ステップＳ１２において、音声認識モジュール４０は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール４０は、認識した音声を、テキスト変換する。このテキストを、第二の認識テキストと称す。すなわち、第二の音声解析エンジンによる認識結果が、第二の認識テキストである。

上述した第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものである。その結果、音声認識モジュール４０は、一の音声データに基づいて、２つの音声認識を実行することになる。この第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。

認識結果判定モジュール４１は、其々の認識結果が、一致するか否かを判定する（ステップＳ１３）。ステップＳ１３において、認識結果判定モジュール４１は、第一の認識テキストと、第二の認識テキストとが一致するか否かを判定する。

ステップＳ１３において、認識結果判定モジュール４１は、一致すると判定した場合（ステップＳ１３ＹＥＳ）、出力モジュール２１は、第一の認識テキストと第二の認識テキストとの何れか一方を、認識結果データとしてユーザ端末に出力させる（ステップＳ１４）。ステップＳ１４において、出力モジュール２１は、其々の音声解析エンジンによる認識結果のうち、何れか一方のみの認識結果を、認識結果データとして出力させる。本例では、出力モジュール２１は、第一の認識テキストを、認識結果データとして出力させたものとして説明する。

ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストを、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストに基づいた音声を自身のスピーカから出力する。

選択受付モジュール２２は、この第一の認識テキストが正しい認識結果であった場合又は誤った認識結果であった場合の選択を受け付けさせる（ステップＳ１５）。ステップＳ１５において、選択受付モジュール２２は、ユーザ端末にユーザからのタップ操作や音声入力等の操作を受け付けさせることにより、正誤の認識結果の選択を受け付けさせる。正しい認識結果であった場合、正の認識結果の選択を受け付けさせる。また、誤った認識結果であった場合、誤の認識結果の選択を受け付けさせるとともに、タップ操作や音声入力等の操作を受け付けさせることにより、正の認識結果（正しいテキスト）の入力を受け付けさせる。

図５は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図５において、ユーザ端末は、認識テキスト表示欄１００、正解アイコン１１０、誤りアイコン１２０を表示する。認識テキスト表示欄１００は、認識結果であるテキストを表示する。すなわち、認識テキスト表示欄１００は、第一の認識テキスト「かえるのうたがきこえてくるよ」を表示する。

選択受付モジュール２２は、正解アイコン１１０又は誤りアイコン１２０への入力を受け付けさせることにより、この第一の認識テキストが正しい認識結果であるか又は誤った認識結果であるかの選択を受け付けさせる。選択受付モジュール２２は、正しい認識結果であった場合、正の認識結果の操作として、ユーザに正解アイコン１１０への選択を受け付けさせ、誤った認識結果であった場合、誤の認識結果の操作として、ユーザに誤りアイコン１２０への選択を受け付けさせる。選択受付モジュール２２は、誤りアイコン１２０への入力を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。

正解取得モジュール２３は、選択を受け付けさせた正誤の認識結果を、正解データとして取得する（ステップＳ１６）。ステップＳ１６において、正解取得モジュール２３は、ユーザ端末が送信した正解データを受信することにより、正解データを取得する。

音声認識モジュール４０は、この正解データに基づいて、音声解析エンジンに、正誤の認識結果を学習させる（ステップＳ１７）。ステップＳ１７において、音声認識モジュール４０は、正の認識結果を、正解データとして取得した場合、第一の音声解析エンジン及び第二の音声解析エンジンの其々に、今回の認識結果が正しいものであったことを学習させる。一方、音声認識モジュール４０は、誤の認識結果を、正解データとして取得した場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン及び第二の音声解析エンジンの其々に学習させる。

一方、ステップＳ１３において、認識結果判定モジュール４１は、一致しないと判定した場合（ステップＳ１３ＮＯ）、出力モジュール２１は、第一の認識テキストと、第二の認識テキストとの双方を、認識結果データとしてユーザ端末に出力させる（ステップＳ１８）。ステップＳ１８において、出力モジュール２１は、其々の音声解析エンジンによる認識結果の双方を、認識結果データとして出力させる。この認識結果データには、一方の認識テキストに、認識結果が異なっていることをユーザに類推させるテキスト（ひょっとして、もしかして等の可能性を認める表現）が含まれる。本例では、出力モジュール２１は、第二の認識テキストにこの認識結果が異なっていることをユーザに類推させるテキストが含まれるものとして説明する。

ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストとの双方を、自身の表示部に表示する。あるいは、ユーザ端末、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストとに基づいた音声を自身のスピーカから出力する。

選択受付モジュール２２は、ユーザ端末に出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる（ステップＳ１９）。ステップＳ１９において、選択受付モジュール２２は、ユーザ端末にタップ操作や音声入力等の操作を受け付けさせることにより、何れの認識テキストが正しい認識結果であるかの選択を受け付けさせる。認識テキストのうち、正しい認識結果のものに、正の認識結果の選択（例えば、この認識テキストをタップ入力、この認識テキストを音声入力）を受け付けさせる。

なお、選択受付モジュール２２は、何れの認識テキストも正しい認識結果ではない場合、誤の認識結果の選択を受け付けさせるとともに、タップ操作や音声入力等の選択を受け付けさせることにより、正の認識結果（正しいテキスト）の入力を受け付けさせてもよい。

図６は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図６において、ユーザ端末は、第一の認識テキスト表示欄２００、第二の認識テキスト表示欄２１０、誤りアイコン２２０を表示する。第一の認識テキスト表示欄２００は、第一の認識テキストを表示する。第二の認識テキスト表示欄２１０は、第二の認識テキストを表示する。この第二の認識テキストには、上述した第一の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。すなわち、第一の認識テキスト表示欄２００は、第一の認識テキスト「かえるのうたぎ超えてくるよ」を表示する。また、第二の認識テキスト表示欄２１０は、「※ひょっとしてかえるのうたがきこえてくるよ」を表示する。

選択受付モジュール２２は、第一の認識テキスト表示欄２００又は第二の認識テキスト表示欄２１０の何れかへの入力を受け付けさせることにより、この第一の認識テキスト又は第二の認識テキストの何れが正しい認識結果あるかの選択を受け付けさせる。選択受付モジュール２２は、第一の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第一の認識テキスト表示欄２００へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール２２は、第二の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第二の認識テキスト表示欄２１０へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール２２は、第一の認識テキスト及び第二の認識テキストの何れの認識テキストも正しい認識結果でなかった場合、誤の認識結果の選択として、誤りアイコン２２０への選択を受け付けさせる。選択受付モジュール２２は、誤りアイコン２２０への選択を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。

正解取得モジュール２３は、選択を受け付けさせた正しい認識結果を、正解データとして取得する（ステップＳ２０）。ステップＳ２０において、正解取得モジュール２３は、ユーザ端末が送信した正解データを、受信することにより、正解データを取得する。

音声認識モジュール４０は、この正解データに基づいて、正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を学習させる（ステップＳ２１）。ステップＳ２１において、音声認識モジュール４０は、正解データが、第一の認識テキストであった場合、正しい認識結果である第一の認識テキストを、第二の音声解析エンジンに学習させるとともに、第一の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール４０は、正解データが、第二の認識テキストであった場合、正しい認識結果である第二の認識テキストを、正解データとして、第一の音声解析エンジンに学習させるとともに、第二の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール４０は、正解データが、第一の認識テキスト及び第二の認識テキストの何れでもない場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン及び第二の音声解析エンジンに学習させる。

音声認識モジュール２３は、次回以降の音声認識に際して、学習させた結果を加味した第一の音声解析エンジン及び第二の音声解析エンジンを用いる。

以上が、第一の音声認識処理である。

［第二の音声認識処理］
図４に基づいて、音声認識システム１が実行する第二の音声認識処理について説明する。図４は、コンピュータ１０が実行する第二の音声認識処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。

なお、上述した第一の音声認識処理と同様の処理については、その詳細な説明を省略する。また、第一の音声認識処理と、第二の音声処理とは、音声認識モジュール４０が用いる音声解析エンジンの総数が異なっている。

音声取得モジュール２０は、音声データを取得する（ステップＳ３０）。ステップＳ３０の処理は、上述したステップＳ１０の処理と同様である。

音声認識モジュール４０は、この音声データを、第一の音声解析エンジンにより、音声認識する（ステップＳ３１）。ステップＳ３１の処理は、上述したステップＳ１１の処理と同様である。

音声認識モジュール４０は、この音声データを、第二の音声解析エンジンにより、音声認識する（ステップＳ３２）。ステップＳ３２の処理は、上述したステップＳ１２の処理と同様である。

音声認識モジュール４０は、この音声データを、第三の音声解析エンジンにより、音声認識する（ステップＳ３３）。ステップＳ３３において、音声認識モジュール４０は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール４０は、認識した音声を、テキスト変換する。このテキストを、第三の認識テキストと称す。すなわち、第三の音声解析エンジンによる認識結果が、第三の認識テキストである。

上述した第一の音声解析エンジンと、第二の音声解析エンジンと、第三の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものである。その結果、音声認識モジュール４０は、一の音声データに基づいて、三通りの音声認識を実行することになる。この第一の音声解析エンジンと、第二の音声解析エンジンと、第三の音声解析エンジンとは、其々が、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。

なお、上述した処理は、三通りの音声解析エンジンにおり音声認識を実行するものであるが、音声解析エンジンの数は、三通り以上のＮ通りのものであってもよい。この場合、Ｎ通りの音声解析の其々は、異なるアルゴリズム又はデータベースで音声認識を行うものである。Ｎ通りの音声解析エンジンを用いる場合、後述する処理において、Ｎ通りの認識テキストにおいて、後述する処理を実行することになる。

認識結果判定モジュール４１は、其々の認識結果が、一致するか否かを判定する（ステップＳ３４）。ステップＳ３４において、認識結果判定モジュール４１は、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとが一致するか否かを判定する。

ステップＳ３４において、認識結果判定モジュール４１は、一致すると判定した場合（ステップＳ３４ＹＥＳ）、出力モジュール２１は、第一の認識テキスト、第二の認識テキスト又は第三の認識テキストの何れかを、認識結果データとしてユーザ端末に出力させる（ステップＳ３５）。ステップＳ３５の処理は、上述したステップＳ１４の処理と略同様であり、相違点は、第三の認識テキストが含まれる点である。本例では、出力モジュール２１は、第一の認識テキストを、認識結果データとして出力させたものとして説明する。

選択受付モジュール２２は、この第一の認識テキストが正しい認識結果であった場合又は誤った認識結果であった場合の選択を受け付けさせる（ステップＳ３６）。ステップＳ３６の処理は、上述したステップＳ１５の処理と同様である。

正解取得モジュール２３は、選択を受け付けさせた正誤の認識結果を、正解データとして取得する（ステップＳ３７）。ステップＳ３７の処理は、上述したステップＳ１６の処理と同様である。

音声認識モジュール４０は、この正解データに基づいて、音声解析エンジンに、正誤の認識結果を学習させる（ステップＳ３８）。ステップＳ３８において、音声認識モジュール４０は、正の認識結果を、正解データとして取得した場合、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンの其々に、今回の認識結果が正しいものであったことを学習させる。一方、音声認識モジュール４０は、誤の認識結果を、正解データとして取得した場合、正しい認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンの其々に学習させる。

一方、ステップＳ３４において、認識結果判定モジュール４１は、一致しないと判定した場合（ステップＳ３４ＮＯ）、出力モジュール２１は、第一の認識テキスト、第二の認識テキスト又は第三の認識テキストのうち、認識結果が異なるもののみを、認識結果データとしてユーザ端末に出力させる（ステップＳ３９）。ステップＳ３９において、出力モジュール２１は、其々の音声解析エンジンによる認識結果のうち、認識結果が異なるものを、認識結果データとして出力させる。また、この認識結果データには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。

例えば、出力モジュール２１は、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとが其々異なる場合、これら三つの認識テキストを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキスト及び第三の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。

また、例えば、出力モジュール２１は、第一の認識テキストと、第二の認識テキストとが同一で、第三の認識テキストが異なる場合、第一の認識テキストと、第三の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第三の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。また、出力モジュール２１は、第一の認識テキストと、第三の認識テキストとが同一で、第二の認識テキストが異なる場合、第一の認識テキストと、第二の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。また、出力モジュール２１は、第二の認識テキストと、第三の認識テキストとが同一で、第一の認識テキストが異なる場合、第一の認識テキストと、第二の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。このように、認識結果データにおいて、認識テキストの一致率（複数の音声解析エンジンによる認識結果のうち、一致する認識結果の割合）が最も高いものをそのままの認識テキストとして出力させ、それ以外のものに認識結果が異なっていることをユーザに類推させるテキストを含めて出力させる。これは、音声解析エンジンの数が、４つ以上であっても同様である。

本例では、出力モジュール２１は、全ての認識テキストが異なっている場合と、第一の認識テキストと、第二の認識テキストとが同一で、第三の認識テキストが異なる場合とを例として説明する。

ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々に基づいた音声を自身のスピーカから出力する。

また、ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第三の認識テキストとを、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストと、第三の認識テキストとの其々に基づいた音声を自身のスピーカから出力する。

選択受付モジュール２２は、ユーザ端末に出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる（ステップＳ４０）。ステップＳ４０の処理は、上述したステップＳ１９の処理と同様である。

ユーザ端末が第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する例について説明する。

図７は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図７において、ユーザ端末は、第一の認識テキスト表示欄３００、第二の認識テキスト表示欄３１０、第三の認識テキスト表示欄３１２、誤りアイコン３３０を表示する。第一の認識テキスト表示欄３００は、第一の認識テキストを表示する。第二の認識テキスト表示欄３１０は、第二の認識テキストを表示する。この第二の認識テキストには、上述した第一の認識テキスト及び第三の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。第三の認識テキスト表示欄３２０は、第三の認識テキストを表示する。この第三の認識テキストには、上述した第一の認識テキスト及び第二の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。すなわち、第一の認識テキスト表示欄３００は、第一の認識テキスト「かえるのうたぎ超えてくるよ」を表示する。また、第二の認識テキスト表示欄３１０は、「※ひょっとしてかえるのうたがきこえてくるよ」を表示する。また、第三の認識テキスト３２０は、「※ひょっとしてかえるのぶたがこえてくるよ」を表示する。

選択受付モジュール２２は、第一の認識テキスト表示欄３００、第二の認識テキスト表示欄３１０又は第三の認識テキスト表示欄３２０の何れかの選択を受け付けさせることにより、この第一の認識テキスト、第二の認識テキスト又は第三の認識テキストの何れが正しい認識結果あるかの選択を受け付けさせる。選択受付モジュール２２は、第一の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第一の認識テキスト表示欄３００へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール２２は、第二の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第二の認識テキスト表示欄３１０へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール２２は、第三の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第三の認識テキスト表示欄３２０へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール２２は、第一の認識テキスト、第二の認識テキスト及び第三の認識テキストの何れの認識テキストも正しい認識結果でなかった場合、誤の認識結果の操作として、誤りアイコン３３０への選択を受け付けさせる。選択受付モジュール２２は、誤りアイコン３３０への選択を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。

ユーザ端末が第一の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する例については、上述した図６のものと同様であるため、説明は省略するが、相違点としては、第二の認識テキスト表示欄２１０に、第三の認識テキストを表示することになる。

正解取得モジュール２３は、選択を受け付けさせた正しい認識結果を、正解データとして取得する（ステップＳ４１）。ステップＳ４１の処理は、上述したステップＳ２０の処理と同様である。

音声認識モジュール４０は、この正解データに基づいて、正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を学習させる（ステップＳ４２）。ステップＳ４２において、音声認識モジュール４０は、正解データが、第一の認識テキストであった場合、正しい認識結果である第一の認識テキストを、第二の音声解析エンジン及び第三の音声解析エンジンに学習させるとともに、第一の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール４０は、正解データが、第二の認識テキストであった場合、正しい認識結果である第二の認識テキストを、正解データとして、第一の音声解析エンジン及び第三の音声解析エンジンに学習させるとともに、第二の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール４０は、正解データが、第三の認識テキストであった場合、正しい認識結果である第三の認識テキストを、正解データとして、第一の音声解析エンジン及び第二の音声解析エンジンに学習させるとともに、第三の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール４０は、正解データが、第一の認識テキスト、第二の認識テキスト及び第三の認識テキストの何れでもない場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンに学習させる。

以上が、第二の音声認識処理である。

なお、音声認識システム１は、三通りの音声解析エンジンで行った処理と同様の処理を、Ｎ通りの音声解析エンジンで行ってもよい。すなわち、音声認識システム１は、Ｎ通りで行った音声認識のうち、音声認識結果が異なるもののみを出力させ、この出力させた認識結果のうち、ユーザから正しい音声認識の選択を受け付けさせる。音声認識システム１は、正しい音声認識として選択されなかった場合に、選択された正しい音声認識結果に基づいて学習する。

上述した手段、機能は、コンピュータ（ＣＰＵ、情報処理装置、各種端末を含む）が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、コンピュータからネットワーク経由で提供される（ＳａａＳ：ソフトウェア・アズ・ア・サービス）形態で提供される。また、プログラムは、例えば、フレキシブルディスク、ＣＤ（ＣＤ－ＲＯＭなど）、ＤＶＤ（ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭなど）等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置（記録媒体）に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１音声認識システム、１０コンピュータ

Claims

音声データを取得する取得手段と、
取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるＮ通りの音声解析エンジンでＮ通りの音声認識を行うＮ通りの認識手段と、
前記Ｎ通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力手段と、
出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択手段と、
を備え、
前記Ｎ通りの認識手段は、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる、
ことを特徴とするコンピュータシステム。
コンピュータシステムが実行する音声認識方法であって、
音声データを取得する取得ステップと、
取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるＮ通りの音声解析エンジンでＮ通りの音声認識を行うＮ通りの認識ステップと、
前記Ｎ通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力ステップと、
出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択ステップと、
を備え、
前記Ｎ通りの認識ステップにおいて、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる、
ことを特徴とする音声認識方法。
コンピュータシステムに、
音声データを取得する取得ステップ、
取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベー
スによるＮ通りの音声解析エンジンでＮ通りの音声認識を行うＮ通りの認識ステップ、
前記Ｎ通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力ステップ、
出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択ステップ、
を実行させ、
前記Ｎ通りの認識ステップにおいて、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる、
ためのコンピュータ読み取り可能なプログラム。