[go: up one dir, main page]

JP7121461B2 - コンピュータシステム、音声認識方法及びプログラム - Google Patents

コンピュータシステム、音声認識方法及びプログラム Download PDF

Info

Publication number
JP7121461B2
JP7121461B2 JP2020547732A JP2020547732A JP7121461B2 JP 7121461 B2 JP7121461 B2 JP 7121461B2 JP 2020547732 A JP2020547732 A JP 2020547732A JP 2020547732 A JP2020547732 A JP 2020547732A JP 7121461 B2 JP7121461 B2 JP 7121461B2
Authority
JP
Japan
Prior art keywords
recognition
speech
recognition result
correct
recognized text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020547732A
Other languages
English (en)
Other versions
JPWO2020065840A1 (ja
Inventor
俊二 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optim Corp
Original Assignee
Optim Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optim Corp filed Critical Optim Corp
Publication of JPWO2020065840A1 publication Critical patent/JPWO2020065840A1/ja
Application granted granted Critical
Publication of JP7121461B2 publication Critical patent/JP7121461B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声認識を実行するコンピュータシステム、音声認識方法及びプログラムに関する。
近年、様々な分野において、音声入力が盛んに行われている。このような音声入力の例としては、スマートフォンやタブレット端末等の携帯端末や、スマートスピーカ等に音声入力を行い、これらの端末類の操作、情報の検索又は連携家電の操作等を行うものがある。そのため、より正確な音声認識技術の需要が高まっている。
このような音声認識技術として、音響モデルと言語モデルとの異なるモデルにおける其々の音声認識の認識結果を結合することにより、最終的な認識結果を出力する構成が開示されている(特許文献1参照)。
特開2017-40919号公報
しかしながら、特許文献1の構成では、複数の音声認識エンジンではなく、単一の音声認識エンジンが複数のモデルで音声認識するものに過ぎないことから、音声認識の正確性が十分なものではなかった。
本発明は、音声認識の認識結果に対する正確性を向上させることが容易なコンピュータシステム、音声認識方法及びプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
また、本発明は、音声データを取得する取得手段と、
取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるN通りの音声解析エンジンでN通りの音声認識を行うN通りの認識手段と、
前記N通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力手段と、
出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択手段と、
を備え
前記N通りの認識手段は、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる、ことを特徴とするコンピュータシステムを提供する。
本発明によれば、コンピュータシステムは、音声データを取得し、取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるN通りの音声解析エンジンでN通りの音声認識を行い、前記N通りで行った音声認識のうち、認識結果が異なるもののみを出力させ、出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせ、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果を学習させる。
本発明は、コンピュータシステムのカテゴリであるが、方法及びプログラム等の他のカテゴリにおいても、同様の作用・効果を発揮する。
本発明によれば、音声認識の認識結果に対する正確性を向上させることが容易なコンピュータシステム、音声認識方法及びプログラムを提供することが容易となる。
図1は、音声認識システム1の概要を示す図である。 図2は、音声認識システム1の全体構成図である。 図3は、コンピュータ10が実行する第一の音声認識処理を示すフローチャートである。 図4は、コンピュータ10が実行する第二の音声認識処理を示すフローチャートである。 図5は、コンピュータ10が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。 図6は、コンピュータ10が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。 図7は、コンピュータ10が認識結果データをユーザ端末の表示部に出力ささせた状態を示す図である。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[音声認識システム1の概要]
本発明の好適な実施形態の概要について、図1に基づいて説明する。図1は、本発明の好適な実施形態である音声認識システム1の概要を説明するための図である。音声認識システム1は、コンピュータ10から構成され、音声認識を実行するコンピュータシステムである。
なお、音声認識システム1は、ユーザが所持するユーザ端末(携帯端末やスマートスピーカ等)等の他の端末類が含まれていてもよい。
コンピュータ10は、ユーザが発した音声を、音声データとして取得する。この音声データは、ユーザ端末に内蔵されたマイク等の集音装置によりユーザが発した音声を集音し、ユーザ端末がこの集音した音声を、音声データとしてコンピュータ10に送信する。コンピュータ10は、この音声データを受信することにより、音声データを取得する。
コンピュータ10は、この取得した音声データを、第一の音声解析エンジンにより音声認識を行う。また、コンピュータ10は、同時に、この取得した音声データを、第二の音声解析エンジンにより音声認識を行う。この第一の音声解析エンジンと第二の音声解析エンジンとは、其々、異なるアルゴリズム又はデータベースによるものである。
コンピュータ10は、第一の音声解析エンジンの認識結果と、第二の音声解析エンジンの認識結果とが異なる場合、双方の認識結果をユーザ端末に出力させる。ユーザ端末はこの双方の認識結果を、自身の表示部等に表示又はスピーカ等から放音することにより、ユーザに双方の認識結果を通知する。その結果、コンピュータ10は、双方の認識結果を、ユーザに通知させることになる。
コンピュータ10は、出力させた双方の認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる。ユーザ端末は、表示した認識結果へのタップ操作等の入力を受け付け、正しい認識結果の選択を受け付ける。また、ユーザ端末は、放音した認識結果への音声入力を受け付け、正しい認識結果の選択を受け付ける。ユーザ端末は、この選択された認識結果を、コンピュータ10に送信する。コンピュータ10は、この認識結果を取得することにより、ユーザが選択した正しい認識結果を取得する。その結果、コンピュータ10は、正しい認識結果の選択を受け付けさせることになる。
コンピュータ10は、第一の音声解析エンジンと第二の音声解析エンジンのうち、正しい認識結果として選択されなかった音声解析エンジンに対して、選択された正しい認識結果に基づいて学習させる。例えば、第一の音声解析エンジンの認識結果が正しい認識結果として選択を受け付けさせていた場合、第二の音声解析エンジンに、この第一の音声解析エンジンの認識結果を学習させる。
また、コンピュータ10は、この取得した音声データを、N通りの音声解析エンジンにより音声認識を行う。このとき、N通りの音声解析エンジンは、其々、互いに異なるアルゴリズム又はデータベースによるものである。
コンピュータ10は、N通りの音声解析エンジンによる認識結果のうち、認識結果が異なるものをユーザ端末に出力させる。ユーザ端末この認識結果が異なるものを自身の表示部等に表示又はスピーカ等から放音することにより、ユーザに認識結果が異なるものを通知する。その結果、コンピュータ10は、N通りの認識結果のうち、認識結果が異なるものをユーザに通知させることになる。
コンピュータ10は、出力させた認識結果が異なるもののうち、ユーザから正しい認識結果の選択を受け付けさせる。ユーザ端末は、表示した認識結果へのタップ操作等の入力を受け付け、正しい認識結果の選択を受け付ける。また、ユーザ端末は、放音した認識結果への音声入力を受け付け、正しい認識結果の選択を受け付ける。ユーザ端末は、この選択された認識結果を、コンピュータ10に送信する。コンピュータ10は、この認識結果を取得することにより、ユーザが選択した正しい認識結果を取得する。その結果、コンピュータ10は、正しい認識結果の選択を受け付けさせることになる。
コンピュータ10は、認識結果が異なるもののうち、正しい認識結果として選択されなかった音声解析エンジンに対して、選択された正しい認識結果に基づいて学習させる。例えば、第一の音声解析エンジンの認識結果が正しい認識結果として選択を受け付けさせていた場合、それ以外の認識結果の音声解析エンジンに、この第一の音声解析エンジンの認識結果を学習させる。
音声認識システム1が実行する処理の概要について説明する。
はじめに、コンピュータ10は、音声データを取得する(ステップS01)。コンピュータ10は、ユーザ端末が入力を受け付けた音声を、音声データとして取得する。ユーザ端末は、自身に内蔵された集音装置によりユーザが発した音声を集音し、この集音した音声を音声データとしてコンピュータ10に送信する。コンピュータ10は、この音声データを受信することにより、音声データを取得する。
コンピュータ10は、この音声データを、第一の音声解析エンジン及び第二の音声解析エンジンにより音声認識する(ステップS02)。第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものであり、コンピュータ10は、一の音声データに対して、2つの音声認識を実行するものである。コンピュータ10は、例えば、スペクトラムアナライザ等により音声認識し、音声波形に基づいて、音声を認識する。コンピュータ10は、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。コンピュータ10は、其々の音声認識の結果として、音声を其々の認識結果のテキストに変換する。
コンピュータ10は、第一の音声解析エンジンの認識結果と、第二の音声解析エンジンの認識結果とが異なる場合、双方の認識結果を、ユーザ端末に出力させる(ステップS03)。コンピュータ10は、双方の認識結果のテキストをユーザ端末に出力させる。ユーザ端末は、この双方の認識結果のテキストを、自身の表示部に表示又は音声により放音する。このとき、認識結果のテキストの一方には、認識結果が異なることをユーザに類推させるテキストが含まれる。
コンピュータ10は、ユーザ端末に出力させた双方の認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる(ステップS04)。コンピュータ10は、ユーザからのタップ操作や音声入力により、認識結果に対する正解の選択を受け付けさせる。例えば、コンピュータ10は、ユーザ端末に表示させたテキストの何れかに対する選択操作を受け付けさせることにより、認識結果に対する正解の選択を受け付けさせる。
コンピュータ10は、出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を正解データとして、誤った音声認識を実行した音声解析エンジンに学習させる(ステップS05)。コンピュータ10は、第一の音声解析エンジンによる認識結果が正解データであった場合、第二の音声解析エンジンにこの正解データに基づいて学習させる。また、コンピュータ10は、第二の音声解析エンジンによる認識結果が正解データであった場合、第一の音声解析エンジンにこの正解データに基づいて学習させる。
なお、コンピュータ10は、2つの音声解析エンジンに限らず、三つ以上のN通りの音声解析エンジンにより音声認識を実行してもよい。このN通りの音声解析エンジンは、其々が異なるアルゴリズム又はデータベースによるものである。この場合、コンピュータ10は、取得した音声データを、N通りの音声解析エンジンにより音声認識する。コンピュータ10は、一の音声データに対してN通りの音声認識を実行するものである。コンピュータ10は、N通りの音声認識の結果として、音声を其々の認識結果のテキストに変換する。
コンピュータ10は、N通りの音声解析エンジンの認識結果において、認識結果が異なるものを、ユーザ端末に出力させる。コンピュータ10は、認識結果が異なるテキストをユーザ端末に出力させる。ユーザ端末は、この異なる認識結果のテキストを、自身の表示部に表示又は音声により放音する。このとき、認識結果のテキストのうち、認識結果が異なることをユーザに類推するテキストが含まれる。
コンピュータ10は、ユーザ端末に出力した認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる。コンピュータ10は、ユーザからのタップ操作や音声入力により、認識結果に対する正解の選択を受け付けさせる。例えば、コンピュータ10は、ユーザ端末に表示させたテキストの何れかに対する選択操作を受け付けさせることにより、認識結果に対する正解の選択を受け付けさせる。
コンピュータ10は、出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を正解データとして、誤った音声認識を実行した音声解析エンジンに学習させる。
以上が、音声認識システム1の概要である。
[音声認識システム1のシステム構成]
図2に基づいて、本発明の好適な実施形態である音声認識システム1のシステム構成について説明する。図2は、本発明の好適な実施形態である音声認識システム1のシステム構成を示す図である。図2において、音声認識システム1は、コンピュータ10から構成され、音声認識を実行するコンピュータシステムである。
なお、音声認識システム1は、図示していないユーザ端末等の他の端末類が含まれていてもよい。
コンピュータ10は、上述した通り、図示していないユーザ端末等と公衆回線網等を介してデータ通信可能に接続されており、必要なデータの送受信を実行するとともに、音声認識を実行する。
コンピュータ10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備え、通信部として、ユーザ端末や他のコンピュータ10と通信可能にするためのデバイス、例えば、IEEE802.11に準拠したWi―Fi(Wireless―Fidelity)対応デバイス等を備える。また、コンピュータ10は、記録部として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。また、コンピュータ10は、処理部として、各種処理を実行する各種デバイス等を備える。
コンピュータ10において、制御部が所定のプログラムを読み込むことにより、通信部と協働して、音声取得モジュール20、出力モジュール21、選択受付モジュール22、正解取得モジュール23を実現する。また、コンピュータ10において、制御部が所定のプログラムを読み込むことにより、処理部と協働して、音声認識モジュール40、認識結果判定モジュール41を実現する。
[第一の音声認識処理]
図3に基づいて、音声認識システム1が実行する第一の音声認識処理について説明する。図3は、コンピュータ10が実行する第一の音声認識処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
音声取得モジュール20は、音声データを取得する(ステップS10)。ステップS10において、音声取得モジュール20は、ユーザ端末が入力を受け付けた音声を音声データとして取得する。ユーザ端末は、自身に内蔵された集音装置により、ユーザが発した音声を集音する。ユーザ端末は、この集音した音声を、音声データとしてコンピュータ10に送信する。音声取得モジュール20は、この音声データを受信することにより、音声データを取得する。
音声認識モジュール40は、この音声データを、第一の音声解析エンジンにより、音声認識する(ステップS11)。ステップS11において、音声認識モジュール40は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール40は、認識した音声を、テキスト変換する。このテキストを第一の認識テキストと称す。すなわち、第一の音声解析エンジンによる認識結果が、第一の認識テキストである。
音声認識モジュール40は、この音声データを、第二の音声解析エンジンにより、音声認識する(ステップS12)。ステップS12において、音声認識モジュール40は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール40は、認識した音声を、テキスト変換する。このテキストを、第二の認識テキストと称す。すなわち、第二の音声解析エンジンによる認識結果が、第二の認識テキストである。
上述した第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものである。その結果、音声認識モジュール40は、一の音声データに基づいて、2つの音声認識を実行することになる。この第一の音声解析エンジンと第二の音声解析エンジンとは、其々が、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。
認識結果判定モジュール41は、其々の認識結果が、一致するか否かを判定する(ステップS13)。ステップS13において、認識結果判定モジュール41は、第一の認識テキストと、第二の認識テキストとが一致するか否かを判定する。
ステップS13において、認識結果判定モジュール41は、一致すると判定した場合(ステップS13 YES)、出力モジュール21は、第一の認識テキストと第二の認識テキストとの何れか一方を、認識結果データとしてユーザ端末に出力させる(ステップS14)。ステップS14において、出力モジュール21は、其々の音声解析エンジンによる認識結果のうち、何れか一方のみの認識結果を、認識結果データとして出力させる。本例では、出力モジュール21は、第一の認識テキストを、認識結果データとして出力させたものとして説明する。
ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストを、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストに基づいた音声を自身のスピーカから出力する。
選択受付モジュール22は、この第一の認識テキストが正しい認識結果であった場合又は誤った認識結果であった場合の選択を受け付けさせる(ステップS15)。ステップS15において、選択受付モジュール22は、ユーザ端末にユーザからのタップ操作や音声入力等の操作を受け付けさせることにより、正誤の認識結果の選択を受け付けさせる。正しい認識結果であった場合、正の認識結果の選択を受け付けさせる。また、誤った認識結果であった場合、誤の認識結果の選択を受け付けさせるとともに、タップ操作や音声入力等の操作を受け付けさせることにより、正の認識結果(正しいテキスト)の入力を受け付けさせる。
図5は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図5において、ユーザ端末は、認識テキスト表示欄100、正解アイコン110、誤りアイコン120を表示する。認識テキスト表示欄100は、認識結果であるテキストを表示する。すなわち、認識テキスト表示欄100は、第一の認識テキスト「かえるのうたが きこえてくるよ」を表示する。
選択受付モジュール22は、正解アイコン110又は誤りアイコン120への入力を受け付けさせることにより、この第一の認識テキストが正しい認識結果であるか又は誤った認識結果であるかの選択を受け付けさせる。選択受付モジュール22は、正しい認識結果であった場合、正の認識結果の操作として、ユーザに正解アイコン110への選択を受け付けさせ、誤った認識結果であった場合、誤の認識結果の操作として、ユーザに誤りアイコン120への選択を受け付けさせる。選択受付モジュール22は、誤りアイコン120への入力を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。
正解取得モジュール23は、選択を受け付けさせた正誤の認識結果を、正解データとして取得する(ステップS16)。ステップS16において、正解取得モジュール23は、ユーザ端末が送信した正解データを受信することにより、正解データを取得する。
音声認識モジュール40は、この正解データに基づいて、音声解析エンジンに、正誤の認識結果を学習させる(ステップS17)。ステップS17において、音声認識モジュール40は、正の認識結果を、正解データとして取得した場合、第一の音声解析エンジン及び第二の音声解析エンジンの其々に、今回の認識結果が正しいものであったことを学習させる。一方、音声認識モジュール40は、誤の認識結果を、正解データとして取得した場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン及び第二の音声解析エンジンの其々に学習させる。
一方、ステップS13において、認識結果判定モジュール41は、一致しないと判定した場合(ステップS13 NO)、出力モジュール21は、第一の認識テキストと、第二の認識テキストとの双方を、認識結果データとしてユーザ端末に出力させる(ステップS18)。ステップS18において、出力モジュール21は、其々の音声解析エンジンによる認識結果の双方を、認識結果データとして出力させる。この認識結果データには、一方の認識テキストに、認識結果が異なっていることをユーザに類推させるテキスト(ひょっとして、もしかして等の可能性を認める表現)が含まれる。本例では、出力モジュール21は、第二の認識テキストにこの認識結果が異なっていることをユーザに類推させるテキストが含まれるものとして説明する。
ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストとの双方を、自身の表示部に表示する。あるいは、ユーザ端末、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストとに基づいた音声を自身のスピーカから出力する。
選択受付モジュール22は、ユーザ端末に出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる(ステップS19)。ステップS19において、選択受付モジュール22は、ユーザ端末にタップ操作や音声入力等の操作を受け付けさせることにより、何れの認識テキストが正しい認識結果であるかの選択を受け付けさせる。認識テキストのうち、正しい認識結果のものに、正の認識結果の選択(例えば、この認識テキストをタップ入力、この認識テキストを音声入力)を受け付けさせる。
なお、選択受付モジュール22は、何れの認識テキストも正しい認識結果ではない場合、誤の認識結果の選択を受け付けさせるとともに、タップ操作や音声入力等の選択を受け付けさせることにより、正の認識結果(正しいテキスト)の入力を受け付けさせてもよい。
図6は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図6において、ユーザ端末は、第一の認識テキスト表示欄200、第二の認識テキスト表示欄210、誤りアイコン220を表示する。第一の認識テキスト表示欄200は、第一の認識テキストを表示する。第二の認識テキスト表示欄210は、第二の認識テキストを表示する。この第二の認識テキストには、上述した第一の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。すなわち、第一の認識テキスト表示欄200は、第一の認識テキスト「かえるのうたぎ 超えてくるよ」を表示する。また、第二の認識テキスト表示欄210は、「※ひょっとして かえるのうたが きこえてくるよ」を表示する。
選択受付モジュール22は、第一の認識テキスト表示欄200又は第二の認識テキスト表示欄210の何れかへの入力を受け付けさせることにより、この第一の認識テキスト又は第二の認識テキストの何れが正しい認識結果あるかの選択を受け付けさせる。選択受付モジュール22は、第一の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第一の認識テキスト表示欄200へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール22は、第二の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第二の認識テキスト表示欄210へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール22は、第一の認識テキスト及び第二の認識テキストの何れの認識テキストも正しい認識結果でなかった場合、誤の認識結果の選択として、誤りアイコン220への選択を受け付けさせる。選択受付モジュール22は、誤りアイコン220への選択を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。
正解取得モジュール23は、選択を受け付けさせた正しい認識結果を、正解データとして取得する(ステップS20)。ステップS20において、正解取得モジュール23は、ユーザ端末が送信した正解データを、受信することにより、正解データを取得する。
音声認識モジュール40は、この正解データに基づいて、正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を学習させる(ステップS21)。ステップS21において、音声認識モジュール40は、正解データが、第一の認識テキストであった場合、正しい認識結果である第一の認識テキストを、第二の音声解析エンジンに学習させるとともに、第一の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール40は、正解データが、第二の認識テキストであった場合、正しい認識結果である第二の認識テキストを、正解データとして、第一の音声解析エンジンに学習させるとともに、第二の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール40は、正解データが、第一の認識テキスト及び第二の認識テキストの何れでもない場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン及び第二の音声解析エンジンに学習させる。
音声認識モジュール23は、次回以降の音声認識に際して、学習させた結果を加味した第一の音声解析エンジン及び第二の音声解析エンジンを用いる。
以上が、第一の音声認識処理である。
[第二の音声認識処理]
図4に基づいて、音声認識システム1が実行する第二の音声認識処理について説明する。図4は、コンピュータ10が実行する第二の音声認識処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
なお、上述した第一の音声認識処理と同様の処理については、その詳細な説明を省略する。また、第一の音声認識処理と、第二の音声処理とは、音声認識モジュール40が用いる音声解析エンジンの総数が異なっている。
音声取得モジュール20は、音声データを取得する(ステップS30)。ステップS30の処理は、上述したステップS10の処理と同様である。
音声認識モジュール40は、この音声データを、第一の音声解析エンジンにより、音声認識する(ステップS31)。ステップS31の処理は、上述したステップS11の処理と同様である。
音声認識モジュール40は、この音声データを、第二の音声解析エンジンにより、音声認識する(ステップS32)。ステップS32の処理は、上述したステップS12の処理と同様である。
音声認識モジュール40は、この音声データを、第三の音声解析エンジンにより、音声認識する(ステップS33)。ステップS33において、音声認識モジュール40は、スペクトラムアナライザ等による音波波形に基づいて、音声を認識する。音声認識モジュール40は、認識した音声を、テキスト変換する。このテキストを、第三の認識テキストと称す。すなわち、第三の音声解析エンジンによる認識結果が、第三の認識テキストである。
上述した第一の音声解析エンジンと、第二の音声解析エンジンと、第三の音声解析エンジンとは、其々が、異なるアルゴリズム又はデータベースによるものである。その結果、音声認識モジュール40は、一の音声データに基づいて、三通りの音声認識を実行することになる。この第一の音声解析エンジンと、第二の音声解析エンジンと、第三の音声解析エンジンとは、其々が、提供者が異なる音声解析エンジンや、異なるソフトウェアによる音声解析エンジンを用いて音声認識を実行する。
なお、上述した処理は、三通りの音声解析エンジンにおり音声認識を実行するものであるが、音声解析エンジンの数は、三通り以上のN通りのものであってもよい。この場合、N通りの音声解析の其々は、異なるアルゴリズム又はデータベースで音声認識を行うものである。N通りの音声解析エンジンを用いる場合、後述する処理において、N通りの認識テキストにおいて、後述する処理を実行することになる。
認識結果判定モジュール41は、其々の認識結果が、一致するか否かを判定する(ステップS34)。ステップS34において、認識結果判定モジュール41は、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとが一致するか否かを判定する。
ステップS34において、認識結果判定モジュール41は、一致すると判定した場合(ステップS34 YES)、出力モジュール21は、第一の認識テキスト、第二の認識テキスト又は第三の認識テキストの何れかを、認識結果データとしてユーザ端末に出力させる(ステップS35)。ステップS35の処理は、上述したステップS14の処理と略同様であり、相違点は、第三の認識テキストが含まれる点である。本例では、出力モジュール21は、第一の認識テキストを、認識結果データとして出力させたものとして説明する。
ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストを、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストに基づいた音声を自身のスピーカから出力する。
選択受付モジュール22は、この第一の認識テキストが正しい認識結果であった場合又は誤った認識結果であった場合の選択を受け付けさせる(ステップS36)。ステップS36の処理は、上述したステップS15の処理と同様である。
正解取得モジュール23は、選択を受け付けさせた正誤の認識結果を、正解データとして取得する(ステップS37)。ステップS37の処理は、上述したステップS16の処理と同様である。
音声認識モジュール40は、この正解データに基づいて、音声解析エンジンに、正誤の認識結果を学習させる(ステップS38)。ステップS38において、音声認識モジュール40は、正の認識結果を、正解データとして取得した場合、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンの其々に、今回の認識結果が正しいものであったことを学習させる。一方、音声認識モジュール40は、誤の認識結果を、正解データとして取得した場合、正しい認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンの其々に学習させる。
一方、ステップS34において、認識結果判定モジュール41は、一致しないと判定した場合(ステップS34 NO)、出力モジュール21は、第一の認識テキスト、第二の認識テキスト又は第三の認識テキストのうち、認識結果が異なるもののみを、認識結果データとしてユーザ端末に出力させる(ステップS39)。ステップS39において、出力モジュール21は、其々の音声解析エンジンによる認識結果のうち、認識結果が異なるものを、認識結果データとして出力させる。また、この認識結果データには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。
例えば、出力モジュール21は、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとが其々異なる場合、これら三つの認識テキストを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキスト及び第三の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。
また、例えば、出力モジュール21は、第一の認識テキストと、第二の認識テキストとが同一で、第三の認識テキストが異なる場合、第一の認識テキストと、第三の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第三の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。また、出力モジュール21は、第一の認識テキストと、第三の認識テキストとが同一で、第二の認識テキストが異なる場合、第一の認識テキストと、第二の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。また、出力モジュール21は、第二の認識テキストと、第三の認識テキストとが同一で、第一の認識テキストが異なる場合、第一の認識テキストと、第二の認識テキストとを認識結果データとしてユーザ端末に出力させる。このとき、第二の認識テキストには、認識結果が異なっていることをユーザに類推させるテキストが含まれる。このように、認識結果データにおいて、認識テキストの一致率(複数の音声解析エンジンによる認識結果のうち、一致する認識結果の割合)が最も高いものをそのままの認識テキストとして出力させ、それ以外のものに認識結果が異なっていることをユーザに類推させるテキストを含めて出力させる。これは、音声解析エンジンの数が、4つ以上であっても同様である。
本例では、出力モジュール21は、全ての認識テキストが異なっている場合と、第一の認識テキストと、第二の認識テキストとが同一で、第三の認識テキストが異なる場合とを例として説明する。
ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々に基づいた音声を自身のスピーカから出力する。
また、ユーザ端末は、この認識結果データを受信し、この認識結果データに基づいて、第一の認識テキストと、第三の認識テキストとを、自身の表示部に表示する。あるいは、ユーザ端末は、この認識結果データに基づいて、第一の認識テキストと、第三の認識テキストとの其々に基づいた音声を自身のスピーカから出力する。
選択受付モジュール22は、ユーザ端末に出力させた認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる(ステップS40)。ステップS40の処理は、上述したステップS19の処理と同様である。
ユーザ端末が第一の認識テキストと、第二の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する例について説明する。
図7は、ユーザ端末が認識結果データを自身の表示部に表示した状態を示す図である。図7において、ユーザ端末は、第一の認識テキスト表示欄300、第二の認識テキスト表示欄310、第三の認識テキスト表示欄312、誤りアイコン330を表示する。第一の認識テキスト表示欄300は、第一の認識テキストを表示する。第二の認識テキスト表示欄310は、第二の認識テキストを表示する。この第二の認識テキストには、上述した第一の認識テキスト及び第三の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。第三の認識テキスト表示欄320は、第三の認識テキストを表示する。この第三の認識テキストには、上述した第一の認識テキスト及び第二の認識テキストと認識結果が異なっていることをユーザに類推させるテキストが含まれる。すなわち、第一の認識テキスト表示欄300は、第一の認識テキスト「かえるのうたぎ 超えてくるよ」を表示する。また、第二の認識テキスト表示欄310は、「※ひょっとして かえるのうたが きこえてくるよ」を表示する。また、第三の認識テキスト320は、「※ひょっとして かえるのぶたが こえてくるよ」を表示する。
選択受付モジュール22は、第一の認識テキスト表示欄300、第二の認識テキスト表示欄310又は第三の認識テキスト表示欄320の何れかの選択を受け付けさせることにより、この第一の認識テキスト、第二の認識テキスト又は第三の認識テキストの何れが正しい認識結果あるかの選択を受け付けさせる。選択受付モジュール22は、第一の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第一の認識テキスト表示欄300へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール22は、第二の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第二の認識テキスト表示欄310へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール22は、第三の認識テキストが正しい認識結果であった場合、正の認識結果の操作として、第三の認識テキスト表示欄320へのタップ操作や音声による選択を受け付けさせる。また、選択受付モジュール22は、第一の認識テキスト、第二の認識テキスト及び第三の認識テキストの何れの認識テキストも正しい認識結果でなかった場合、誤の認識結果の操作として、誤りアイコン330への選択を受け付けさせる。選択受付モジュール22は、誤りアイコン330への選択を受け付けさせた場合、さらに、正の認識結果として、正しいテキストの入力を受け付けさせる。
ユーザ端末が第一の認識テキストと、第三の認識テキストとの其々を、自身の表示部に表示する例については、上述した図6のものと同様であるため、説明は省略するが、相違点としては、第二の認識テキスト表示欄210に、第三の認識テキストを表示することになる。
正解取得モジュール23は、選択を受け付けさせた正しい認識結果を、正解データとして取得する(ステップS41)。ステップS41の処理は、上述したステップS20の処理と同様である。
音声認識モジュール40は、この正解データに基づいて、正しい認識結果の選択を受け付けなかった音声解析エンジンに、この選択された正しい認識結果を学習させる(ステップS42)。ステップS42において、音声認識モジュール40は、正解データが、第一の認識テキストであった場合、正しい認識結果である第一の認識テキストを、第二の音声解析エンジン及び第三の音声解析エンジンに学習させるとともに、第一の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール40は、正解データが、第二の認識テキストであった場合、正しい認識結果である第二の認識テキストを、正解データとして、第一の音声解析エンジン及び第三の音声解析エンジンに学習させるとともに、第二の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール40は、正解データが、第三の認識テキストであった場合、正しい認識結果である第三の認識テキストを、正解データとして、第一の音声解析エンジン及び第二の音声解析エンジンに学習させるとともに、第三の音声解析エンジンに、今回の認識結果が正しいものであったことを学習させる。また、音声認識モジュール40は、正解データが、第一の認識テキスト、第二の認識テキスト及び第三の認識テキストの何れでもない場合、正の認識結果として受け付けさせた正しいテキストを、第一の音声解析エンジン、第二の音声解析エンジン及び第三の音声解析エンジンに学習させる。
以上が、第二の音声認識処理である。
なお、音声認識システム1は、三通りの音声解析エンジンで行った処理と同様の処理を、N通りの音声解析エンジンで行ってもよい。すなわち、音声認識システム1は、N通りで行った音声認識のうち、音声認識結果が異なるもののみを出力させ、この出力させた認識結果のうち、ユーザから正しい音声認識の選択を受け付けさせる。音声認識システム1は、正しい音声認識として選択されなかった場合に、選択された正しい音声認識結果に基づいて学習する。
上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、コンピュータからネットワーク経由で提供される(SaaS:ソフトウェア・アズ・ア・サービス)形態で提供される。また、プログラムは、例えば、フレキシブルディスク、CD(CD-ROMなど)、DVD(DVD-ROM、DVD-RAMなど)等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置(記録媒体)に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 音声認識システム、10 コンピュータ

Claims (3)

  1. 音声データを取得する取得手段と、
    取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるN通りの音声解析エンジンでN通りの音声認識を行うN通りの認識手段と、
    前記N通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力手段と、
    出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択手段と、
    を備え、
    前記N通りの認識手段は、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果学習させる、
    ことを特徴とするコンピュータシステム。
  2. コンピュータシステムが実行する音声認識方法であって、
    音声データを取得する取得ステップと、
    取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベースによるN通りの音声解析エンジンでN通りの音声認識を行うN通りの認識ステップと、
    前記N通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力ステップと、
    出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択ステップと、
    を備え、
    前記N通りの認識ステップにおいて、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果学習させる、
    ことを特徴とする音声認識方法。
  3. コンピュータシステムに、
    音声データを取得する取得ステップ、
    取得した前記音声データの音声認識を行い、互いに異なるアルゴリズム又はデータベー
    スによるN通りの音声解析エンジンでN通りの音声認識を行うN通りの認識ステップ、
    前記N通りで行った音声認識のうち、認識結果が異なるもののみを出力させる出力ステップ、
    出力させた前記認識結果のうち、ユーザから正しい認識結果の選択を受け付けさせる選択ステップ、
    を実行させ、
    前記N通りの認識ステップにおいて、前記正しい認識結果として選択されなかった前記音声解析エンジンに、選択された正しい認識結果学習させる、
    ためのコンピュータ読み取り可能なプログラム。
JP2020547732A 2018-09-27 2018-09-27 コンピュータシステム、音声認識方法及びプログラム Active JP7121461B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/036001 WO2020065840A1 (ja) 2018-09-27 2018-09-27 コンピュータシステム、音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020065840A1 JPWO2020065840A1 (ja) 2021-08-30
JP7121461B2 true JP7121461B2 (ja) 2022-08-18

Family

ID=69950495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547732A Active JP7121461B2 (ja) 2018-09-27 2018-09-27 コンピュータシステム、音声認識方法及びプログラム

Country Status (4)

Country Link
US (1) US20210312930A1 (ja)
JP (1) JP7121461B2 (ja)
CN (1) CN113168836B (ja)
WO (1) WO2020065840A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
JP6824547B1 (ja) * 2020-06-22 2021-02-03 江崎 徹 アクティブラーニングシステム及びアクティブラーニングプログラム
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN116863913B (zh) * 2023-06-28 2024-03-29 上海仙视电子科技有限公司 一种语音控制的跨屏互动控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116796A (ja) 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP2009265307A (ja) 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
JP2010085536A (ja) 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
WO2013005248A1 (ja) 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325795A (ja) * 1993-11-17 1995-12-12 Matsushita Electric Ind Co Ltd 学習型認識判断装置
JPH11154231A (ja) * 1997-11-21 1999-06-08 Toshiba Corp パターン認識辞書学習方法、パターン認識辞書作成方法、パターン認識辞書学習装置、パターン認識辞書作成装置、パターン認識方法及びパターン認識装置
US8041565B1 (en) * 2007-05-04 2011-10-18 Foneweb, Inc. Precision speech to text conversion
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP5271299B2 (ja) * 2010-03-19 2013-08-21 日本放送協会 音声認識装置、音声認識システム、及び音声認識プログラム
JP5980142B2 (ja) * 2013-02-20 2016-08-31 日本電信電話株式会社 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
CN104823235B (zh) * 2013-11-29 2017-07-14 三菱电机株式会社 声音识别装置
JP6366166B2 (ja) * 2014-01-27 2018-08-01 日本放送協会 音声認識装置、及びプログラム
CN105261366B (zh) * 2015-08-31 2016-11-09 努比亚技术有限公司 语音识别方法、语音引擎及终端
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
CN106448675B (zh) * 2016-10-21 2020-05-01 科大讯飞股份有限公司 识别文本修正方法及系统
CN107741928B (zh) * 2017-10-13 2021-01-26 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116796A (ja) 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP2009265307A (ja) 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
JP2010085536A (ja) 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
WO2013005248A1 (ja) 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置

Also Published As

Publication number Publication date
US20210312930A1 (en) 2021-10-07
CN113168836B (zh) 2024-04-23
JPWO2020065840A1 (ja) 2021-08-30
WO2020065840A1 (ja) 2020-04-02
CN113168836A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
JP7121461B2 (ja) コンピュータシステム、音声認識方法及びプログラム
CN103279508B (zh) 修正语音应答的方法及自然语言对话系统
JP6651973B2 (ja) 対話処理プログラム、対話処理方法および情報処理装置
US8909525B2 (en) Interactive voice recognition electronic device and method
CN103268315A (zh) 自然语言对话方法及其系统
US11367443B2 (en) Electronic device and method for controlling electronic device
CN103280218A (zh) 基于语音识别的选择方法及其移动终端装置及信息系统
US12183349B1 (en) Voice message capturing system
JP7132090B2 (ja) 対話システム、対話装置、対話方法、及びプログラム
EP3505146A1 (en) Auditory training device, auditory training method, and program
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
JP2019040166A (ja) 音声合成辞書配信装置、音声合成配信システムおよびプログラム
KR20130108173A (ko) 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
US11561761B2 (en) Information processing system, method, and storage medium
KR102135182B1 (ko) 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
TW201405546A (zh) 可語音控制之點歌系統及其運作流程
CN107767862B (zh) 语音数据处理方法、系统及存储介质
US20240212687A1 (en) Supplemental content output
KR20220118698A (ko) 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치
KR20130116128A (ko) 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US12118991B2 (en) Information processing device, information processing system, and information processing method
US11755652B2 (en) Information-processing device and information-processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210401

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220803

R150 Certificate of patent or registration of utility model

Ref document number: 7121461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150