JP2020505643A

JP2020505643A - 音声認識方法、電子機器、及びコンピュータ記憶媒体

Info

Publication number: JP2020505643A
Application number: JP2019539928A
Authority: JP
Inventors: 秋生万
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-15
Filing date: 2017-11-27
Publication date: 2020-02-20
Anticipated expiration: 2037-11-27
Also published as: EP3584786A4; US11562736B2; WO2018149209A1; EP3584786B1; JP6771805B2; US20190295534A1; KR102222317B1; US20210249000A1; KR20190082900A; EP3584786A1; US11043211B2; CN108447471B; CN108447471A

Abstract

音声認識方法であって、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出し、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得してマッチング対象声紋情報とし、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中からマッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、各選別後声紋情報に対応する音声セグメントを組み合わせて組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定し、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とすることを含む。

Description

本願は、２０１７年２月１５日に中国特許庁に提出された、出願番号が２０１７１００８２１１１５であり、発明の名称が「音声認識方法及び音声認識装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。

本発明は、コンピュータ情報処理技術分野に関し、特に、音声認識方法、電子機器、及びコンピュータ記憶媒体に関する。

知能技術の発達に伴い、音声認識を行って、認識された音声に基づいて制御を行うことが、知能技術の適用における重要な内容となっている。様々なインテリジェント製品に音声認識技術を適用することにより、インテリジェント制御を実現する。インテリジェント製品の増加、及び、音声認識の正確さに対する要求がますます高くなることにつれて、様々な音声認識技術は、次々と現れて尽きない。

現在、よく使用されている音声認識方式では、ユーザが発した認識対象音声情報の特徴を抽出し、認識アルゴリズムによって、該ユーザが発した認識対象音声情報を認識する。しかしながら、複数人が話す場合（例えば、車内）に音声認識機能を使用すると、捉えられた認識対象音声情報には、複数人の話しの内容が含まれる可能性があり、そのうち一人のみの認識対象音声情報が有効であり、他人が発した雑音が存在するため、正しい意味が認識されることができない。これにより、音声認識の正確さが不足である。

本願の各実施形態により、音声認識方法、電子機器、及びコンピュータ記憶媒体が提供されている。

音声認識方法であって、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを含む。

電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを実行させる。

コンピュータプログラムを記憶したコンピュータ記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに上記音声認識方法を実行させる。

本願の１つ又は複数の実施形態の詳細は、次の図面及び説明に示される。本願の他の特徴、目的、及びメリットは、明細書、図面、及び特許請求の範囲から明らかになる。

本願の実施形態又は従来技術の構成をより明確に説明するために、以下、実施形態又は従来技術の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願の幾つかの実施形態を示しているにすぎず、当業者にとって、創造的な労力なしに、これらの図面から他の図面を得ることもできる。

一実施形態における音声認識方法の適用環境の模式図である。一実施形態における電子機器の内部構成の模式図である。一実施形態における音声認識方法の手順の模式図である。別の実施形態における音声認識方法の手順の模式図である。具体的な一実施形態における音声認識方法の手順の模式図である。一実施形態における電子機器の構成のブロック図である。別の実施形態における電子機器の構成のブロック図である。別の実施形態における電子機器の記憶モジュールの構成のブロック図である。

本発明の目的、解決手段、及びメリットをさらに明確にするために、以下、図面および実施形態を参照して、本発明をさらに詳しく説明する。理解すべきものとして、ここで説明される具体的な実施形態は、本発明を解釈するためのものにすぎず、本発明を限定するものではない。

図１は、一実施形態における音声認識方法の適用環境の模式図である。図１を参照すると、該音声認識方法は、音声認識システムに適用される。該音声認識システムは、ネットワークを介して通信可能な端末１０とサーバ２０とを備える。端末１０は、音声情報を認識して意味情報を得、意味情報をさらに処理して音声認識結果を決定してもよいし、ネットワークを介して、取得された音声情報を対応するサーバ２０にアップロードしてもよい。サーバ２０は、端末１０からアップロードされた音声情報を認識して、ネットワークを介して認識結果を端末１０に送信することができる。端末１０は、受信された認識結果を意味情報とし、受信された意味情報に基づいて音声認識結果を決定する。端末１０は、音声認識結果に基づいて、後続の関連動作を実行するための相応する命令を生成して、音声のインテリジェント制御を実現することができる。該端末１０は、インテリジェント入出力及び音声認識を実現可能ないかなる機器であってもよく、例えば、デスクトップ端末又は移動端末である。移動端末は、スマートフォン、タブレットコンピュータ、車載コンピュータ、ウェアラブルインテリジェントデバイスなどであってもよい。該サーバ２０は、音声情報を受信して音声認識を行うプラットフォームが位置するサーバであってもよい。サーバは、独立したサーバ、又は、複数のサーバからなるサーバクラスタで実現してもよい。

図２に示すように、一実施形態では、電子機器が提供されている。該電子機器は、図１の端末１０であってもよい。該電子機器は、システムバスを介して接続されるプロセッサと、非揮発性記憶媒体と、内部メモリと、通信インターフェースと、を備える。ここで、該電子機器の非揮発性記憶媒体には、オペレーティングシステム、ローカル声紋データベース、及びコンピュータ可読命令が記憶される。ローカル声紋データベースには、声紋情報が記憶される。該コンピュータ可読命令は、音声認識方法の実現に使用可能である。該電子機器のプロセッサは、計算及び制御の機能を提供し、電子機器全体の作動をサポートするものである。該電子機器の内部メモリには、コンピュータ可読命令を記憶してもよい。該コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに音声認識方法を実行させることが可能である。通信インターフェースは、サーバ２０との通信に用いられる。当業者であれば理解できるように、図２に示された構成は、本願発明に係る一部の構成のブロック図にすぎず、本願発明が適用される電子機器を限定するものではない。具体的な電子機器は、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。

図３に示すように、一実施形態では、音声認識方法が提供されている。本実施形態では、該方法を上記の図１の端末１０に適用することを例として説明する。該方法は、具体的に、下記のステップＳ３１０〜ステップＳ３６０を含む。

Ｓ３１０で、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定する。

本実施形態では、音声情報は、ユーザが端末の音声入力装置によって入力したオーディオ情報であってもよい。即ち、音声入力装置によって、ユーザの音声情報を採取することができる。認識対象音声情報の採取を完了すると、採取された認識対象音声情報を取得することができる。ここで、音声入力装置は、マイクを含んでもよいが、これに限定されない。認識対象音声情報とは、意味情報を得るために認識を必要とする音声情報を意味する。意味情報は、テキスト情報であってもよい。認識対象音声情報を音声認識して対応する意味情報を得ると、認識対象音声情報の意味情報を決定することができ、つまり、認識対象音声情報を入力したユーザの言い表した意味を決定することができる。

Ｓ３２０で、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する。

認識対象音声情報の意味情報を決定した後、該意味情報が所定の規則を満たすか否かを判断する必要がある。本実施形態では、所定の規則は、予め設定された、意味情報に対する要求であってもよい。つまり、意味情報が所定の規則を満たさない場合、該意味情報がそれに対する要求を満たさないことが表されるため、該意味情報が正確でないと認められる。例えば、オーディオに対する認識であるので、一般的に、ユーザが言い表したい内容をオーディオによって正確に言い表す際に、対応する音声情報は、人が話すときの文法要求を満たすべきである。このため、所定の規則は、意味情報が所定の文法規則に適合することであってもよい。

一方、本実施形態の音声認識方法を実現する端末は、複数の動作モードを有してもよい。これらの動作モードは、ナビゲーションモード、音楽モード、放送モード、及び番組モードなどを含んでもよいが、これらに限定されない。異なる動作モードで動作すると、端末は、異なるユーザ要求を満たすことができる。また、各動作モードは、その対応するレキシコンを有する。レキシコンには、動作モードに対応して使用され得る語彙が含まれる。意味情報を決定した後、意味情報を分割して得られたキーワードがレキシコンにあるか否かを判断してもよい。キーワードがレキシコンにある場合、ユーザの認識対象音声情報の意味情報は、端末の動作モードで使用され得る語彙であることが表される。

これにより、本実施形態では、所定の規則は、意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにあることであってもよい。意味情報が所定の規則を満たさない場合、認識対象音声情報を認識して得られた意味情報は、端末により正確に認識されることができず、相応する動作を実行するための対応する命令に変換されることができないと認められる。一方、所定の規則は、意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにあり、且つ、意味情報に対応する命令があることであってもよい。意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにある一方、意味情報が有効な命令に変換されることができず、即ち、該意味情報に対応する命令がない場合にも、該意味情報が所定の規則を満たさないと認められる。

具体的な一適用例では、例えば、決定された意味情報は「私はこんにちは音楽を再生したい」であり、これに対応してユーザＡが話したのは「私は音楽を再生したい」であるが、ユーザＡが話しているうちに、ユーザＢは、ユーザＡの「私は」の後に「こんにちは」を入れた。「音楽を再生したい」が、音楽モードに対応するレキシコンにあるが、センテンス全体の文法が人間の正常な文法に適合しないため、該意味情報が所定の規則を満たさないと認められる。また、例えば、意味情報は「こんにちは」であり、所定の文法規則に適合する上に、レキシコンにある。しかし、該意味情報は、制御語句でなく、実質的に挨拶語である。「こんにちは」に対応する命令が端末になく、即ち、相応する動作を実行するための命令を生成することができない。同様に、該意味情報が所定の規則を満たさないと認められる。

意味情報が所定の規則を満たさないと判定した場合、該意味情報が正確でないと認められ、認識の正確さを向上させるために、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する必要がある。各人の声紋情報が異なるため、同一の人の異なる音声情報は、同様の声紋情報に対応する。例えば、ユーザＡは、異なる音声情報を話したが、これら異なる音声情報は、同一のユーザＡが話したものであるため、その声紋情報が同様である。正確さを向上させるために、声紋情報の判断によって、一人の音声情報を特定してもよい。

Ｓ３３０で、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする。

ローカル声紋データベースは、声紋情報を記憶することができる。ローカル声紋データベースに記憶されている声紋情報は、端末と音声のやり取りを行ったことがあるユーザの声紋情報であって、それに対応する意味情報が少なくとも１回で所定の規則を満たした声紋情報であってもよい。各音声セグメントに対応する意味情報と、ローカル声紋データベースに記憶されている、マッチングされていない声紋情報とをマッチングする際に、まず、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする必要がある。即ち、各音声セグメントの声紋情報と、ローカル声紋データベースにおける声紋情報とのマッチングを行う際に、毎回にローカル声紋データベースにおける単一のマッチング対象声紋情報と、各音声セグメントの声紋情報とをマッチングする。このように、単一のユーザの音声情報を選別することができる。

Ｓ３４０で、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定する。

音声情報には、複数のユーザの音声が含まれる可能性がある。ローカル声紋データベースからマッチングされていない１つのマッチング対象声紋情報を選択した後、即ち、１つのユーザの声紋情報を選択した後、各音声セグメントの声紋情報と該マッチング対象声紋情報とをマッチングする。同一のユーザの声紋情報は同様であり、各音声セグメントの声紋情報のうち、マッチング対象声紋情報とのマッチングに成功した声紋情報は、マッチング対象声紋情報と同一のユーザの声紋情報であり、即ち、選別後声紋情報が、マッチング対象声紋情報に対応するユーザの声紋情報である。

Ｓ３５０で、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定する。

各選別後声紋情報が同一のユーザからのものであるため、各選別後声紋情報に対応する音声セグメントを組み合わせ、即ち、同一のユーザの音声セグメントを組み合わせてもよい。得られた組み合わせ音声情報は、即ち同一のユーザの音声であり、同一のユーザの音声データである。そして、組み合わせ音声情報の組み合わせ意味情報を決定する。組み合わせ意味情報は、即ち該ユーザの認識対象音声情報に対応する、正確に言い表した意味である。

Ｓ３６０で、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。

組み合わせ意味情報を得た後、組み合わせ意味情報は、上記ユーザの認識対象音声情報に対応する、正確に言い表した意味であるにもかかわらず、音声情報は、複数のユーザの音声である可能性があり、上記のステップによって得られた組み合わせ音声情報の組み合わせ意味情報は、所定の規則を満たさない可能性がある。正確さをさらに向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要がある。組み合わせ意味情報が所定の規則を満たす場合、該意味情報が正確であることがさらに表される。この場合、組み合わせ意味情報を音声認識結果とすることができ、音声認識の目的を達成する。その後、音声認識結果に基づいて、相応する命令を生成することができ、命令に応じて、相応する動作を実行することができる。例えば、意味情報は、「私はこんにちは音楽を再生したい」である。選択されたマッチング対象声紋情報がユーザＡの声紋情報であり、音声セグメント「私は」及び「音楽を再生したい」の声紋情報がユーザＡの声紋情報とのマッチングに成功し、即ち、選別後声紋情報が音声セグメント「私は」及び「音楽を再生したい」の声紋情報である場合、音声セグメント「私は」及び「音楽を再生したい」を組み合わせて、最終的な組み合わせ音声情報としてもよい。決定された組み合わせ意味情報は、「私は音楽を再生したい」であり、所定の文法要求に適合する上に、レキシコンにあり、且つ、音楽再生動作の実行を必要とする意味情報であり、対応する命令があり、即ち、該命令に応じて、音楽再生動作を実行することができる。該組み合わせ意味情報が所定の規則を満たすと認められ、「私は音楽を再生したい」を音声認識結果とする。その後、該音声認識結果に対応する音楽再生命令を生成して、音楽再生を実行することができる。

上記音声認識方法では、まず、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、この際に認識された意味情報が正確でない可能性があることが表される。この場合、認識対象音声情報をセグメンテーションして各音声セグメントを得、各音声セグメントの声紋情報を抽出する。ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、後続の声紋マッチングに対して根拠を提供し、即ち、声紋マッチングを行うための単一のユーザのマッチング対象声紋情報を提供する。そして、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、即ち、上記マッチング対象声紋情報とマッチングする単一のユーザの声紋情報を選別し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報を認識して、組み合わせ意味情報を得、単一のユーザが言い表した意味を得る。認識の正確さを向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要もある。組み合わせ意味情報が所定の規則を満たす場合、正確に認識された意味を得たこと、即ち、ユーザが言い表したい意味を正確に得たことが表される。この場合、組み合わせ意味情報を音声認識結果とし、音声認識の正確さを向上させる。

一実施形態では、上記音声認識方法は、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とするステップに戻るステップをさらに含む。

組み合わせ意味情報が所定の規則を満たさない場合、該組み合わせ意味情報がそれに対する要求を満たさないことが表されるため、該組み合わせ意味情報が正確でないと認められ、次のユーザの声紋情報のマッチングを行う必要がある。例えば、意味情報は、「私はこんにちは音楽を再生したい」である。選択されたマッチング対象声紋情報がユーザＢの声紋情報であり、音声セグメント「こんにちは」の声紋情報とユーザＢの声紋情報とのマッチングに成功し、即ち、選別後声紋情報が音声セグメント「こんにちは」の声紋情報である場合、音声セグメント「こんにちは」を最終的な組み合わせ音声情報としてもよい。決定された組み合わせ意味情報は、「こんにちは」であり、所定の文法要求に適合し、且つ、レキシコンにあるにもかかわらず、対応する命令がなく、即ち、動作を実行するための命令を生成することができない。このため、同様に、該組み合わせ意味情報が所定の規則を満たさないと認められる。このとき、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とするステップに戻り、次のマッチングされていない声紋情報を取得して、マッチング対象声紋情報とし、声紋マッチング過程を引き続き行う必要がある。

図４に示すように、一実施形態では、上記音声認識方法は、以下のステップをさらに含む。

Ｓ３７０で、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。

意味情報が所定の規則を満たす場合、該意味情報がそれに対する要求を満たすことが表されるため、該意味情報が正確であると認められ、該意味情報を音声認識結果とする。これにより、比較的正確な音声認識結果を得、音声認識の正確さを向上させることができる。

引き続いて図４を参照すると、一実施形態では、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、上記音声認識方法は、以下のステップをさらに含んでもよい。

Ｓ３８１で、認識対象音声情報の声紋情報を抽出する。

Ｓ３８２で、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する。

Ｓ３８３で、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する。

意味情報が所定の規則を満たす場合、該意味情報が比較的正確であると認められ、該意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出して、該声紋情報をローカル声紋データベースに記憶してもよい。具体的には、記憶する前に、該声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する必要もある。つまり、ローカル声紋データベースに記憶されている各声紋情報には、抽出された声紋情報とマッチングする声紋情報が存在するか否かを照合する。ローカル声紋データベースに記憶されている各声紋情報には、抽出された声紋情報とマッチングする声紋情報が存在しない場合、即ち、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、該抽出された声紋情報に対応するユーザが、端末と音声のやり取りを初めて行ったユーザであり、且つ、対応する意味情報が所定の規則を満たすことが表されるので、抽出された声紋情報をローカル声紋データベースに記憶する。

一実施形態では、声紋情報をローカル声紋データベースに記憶する方式は、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する、ことを含む。

ここで、ユーザ識別子は、ユーザの身分を一意に特定することができる識別子であり、数字、字母、及び文章記号の少なくとも１種の文字の文字列を含んでもよい。ユーザ識別子は声紋情報に対応付けられ、つまり、声紋情報と話し手との対応付けが実現される。抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報に対応するユーザが、音声のやり取りを初めて行ったユーザであり、且つ、意味情報が所定の要求を満たすことが表され、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する。例えば、初期レベルが１であることは、そのレベルが最も低いレベルであることを表す。優先レベルが高ければ高いほど、該ユーザによる音声のやり取りの回数が多くなり、その対応する声紋情報が重要になることが表される。

一実施形態では、上記音声認識方法は、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させるステップをさらに含んでもよい。

抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、該抽出された声紋情報が以前に記憶されたことが分かり、抽出された声紋情報に対応するユーザが、音声のやり取りを初めて行ったのではなく、以前に端末と音声のやり取りを行ったことがあり、且つ、対応する意味情報が所定の規則を満たすことが表される。この場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させることにより、該ユーザの声紋情報の重要度を高める。具体的には、所定のレベルは、１であってもよい。例えば、抽出された声紋情報に対応するユーザ識別子の優先レベルは、もと１であり、所定のレベルである１増加すると、２となる。

一実施形態では、ローカル声紋データベースにおいて、ユーザ識別子が作成されてもよい。ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられる。

これにより、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする方式は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含んでもよい。

このように、ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を、乱雑に選択するのではなく、秩序立って取得してマッチング対象声紋情報とし、間違いを効果的に防止することができる。

一実施形態では、所定のレベル順は、優先レベルの高い順、又は、優先レベルの低い順を含んでもよい。

ユーザ識別子の優先レベルが高ければ高いほど、対応する声紋情報が重要になり、つまり、よく音声によって制御を行うユーザである。例えば、車内では、端末が車載コンピュータであり、一般的に車の持ち主による音声制御が最も頻繁である。優先レベルが高ければ高いほど、その重要度が高くなり、認識対象音声情報に対応するユーザが車の持ち主である可能性が大きくなる。このため、優先レベルの高い順にマッチング対象声紋情報を選択することにより、秩序立って声紋マッチングを行い、間違いを防止することができるだけでなく、全体的な認識効率を向上させることができる。また、所定のレベル順は、優先レベルの低い順を採用する場合、マッチング対象声紋情報を秩序立って選択し、声紋マッチングを効果的に行い、間違いを防止することができる。

一実施形態では、上記音声認識方法は、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供するステップをさらに含んでもよい。

組み合わせ意味情報が所定の規則を満たさない場合、組み合わせ意味情報が正確でないことが表される。正確に認識するために、次のマッチングされていない声紋情報の選択を行う必要がある。しかし、ローカル声紋データベースにマッチングされていない声紋情報が存在しないことから、ローカル声紋データベースにおける声紋情報のいずれもマッチングされたことが分かり、声紋情報のマッチングが終了する。このとき、認識エラーのプロンプトメッセージを提供することにより、今回の音声認識が失効することをユーザに注意し、ユーザが迅速に次の音声制御過程に進むようにする。

一実施形態では、上記音声認識方法は、認識対象音声情報の意味情報を決定した後であって、認識対象音声情報をセグメンテーション処理する前に、意味情報のキーワードを抽出するステップをさらに含む。

意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に１つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する。

各動作モードにレキシコンが対応付けられ、即ち、動作モードは、レキシコンに対応付けられる。意味情報が所定の規則を満たすか否かを判断する際に、まず、該意味情報が所定の文法規則に適合するか否かを判断し、該意味情報が所定の文法規則に適合する場合、意味情報のキーワードが同時に１つのレキシコンにあるか否かを調べる。これは、複数の動作モードで複数のレキシコンがあり、キーワードが各レキシコンに分布し得、１回の音声によって、１つの動作モードで動作モードに対応する関連動作を実行することしかできないため、キーワードが各レキシコンに分布している場合、該意味情報のキーワードが所定の規則を満たさないことが分かるからである。また、ローカル命令ライブラリは、関連動作の実行を制御する命令を記憶するためのものである。具体的には、意味情報のキーワードと命令とが関連付けられて記憶され、意味情報のキーワードによって、対応する命令を見つけることができ、その後、命令に応じて、相応する動作を実行する。意味情報が所定の文法規則に適合し、且つ、対応するキーワードがすべて１つのレキシコンにある一方、ローカル命令ライブラリに該意味情報に対応する命令が存在しない場合、該音声情報が無効であり、対応する命令を得ることができなく、即ち、音声制御を実現できないことが分かる。例えば、意味情報は、「こんにちは」であり、所定の文法規則に適合し、且つ、１つのレキシコンに存在する一方、制御語句でなく、単なる挨拶語であり、ローカル命令ライブラリには、「こんにちは」に対応する、相応する動作を実行可能な命令が存在しない。

本実施形態では、上記音声認識方法は、組み合わせ音声情報の組み合わせ意味情報を決定した後であって、組み合わせ意味情報を音声認識結果とする前に、組み合わせ意味情報のキーワードを抽出するステップをさらに含む。

組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する。

組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと認められる。この場合、該組み合わせ意味情報を音声認識結果とすると、ローカル命令ライブラリから組み合わせ意味情報のキーワードに対応する命令を見つけることができるので、その後、該命令に応じて、関連動作を実行することができる。例えば、組み合わせ意味情報は、「私は音楽を再生したい」であり、所定の文法規則に適合し、そのキーワードが「再生」及び「音楽」であり、これらのキーワードが同時に音楽モードに対応するレキシコンに存在し、且つ、ローカル命令ライブラリに「再生」に対応する命令が存在する場合、「私は音楽を再生したい」が所定の規則を満たすと認められ、ローカル命令ライブラリから対応する再生命令を見つけて音楽を再生することができる。

一実施形態では、認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報を音声認識して、意味情報を得る、ことを含んでもよい。認識対象音声情報を認識する際に、端末のローカルで認識を行い、即ち、認識対象音声情報を音声認識して、意味情報を得るようにしてもよい。このように、意味情報の決定効率を向上させ、音声認識全体の効率を向上させることができる。

一実施形態では、認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。

これにより、クラウドサーバで認識を行い、即ち、認識対象音声情報をクラウドサーバに送信し、クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とするようにしてもよい。クラウドサーバには、認識の根拠となるデータを大量に記憶することができるので、認識の正確さを向上させることができる。

以下、具体的な一実施形態で上記音声認識方法を具体的に説明する。図５は、具体的な一実施形態の音声認識方法のフローチャートである。

まず、採取された認識対象音声情報を取得し、認識対象音声情報を認識して意味情報を得、又は、認識対象音声情報をクラウドサーバに送信し、クラウドサーバによる音声認識の認識結果を受信し、認識結果を意味情報とする。そして、意味情報が所定の規則を満たすか否かを判断し、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出し、ローカル声紋データベースにマッチングされていない声紋情報が存在するか否かを検索し、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定し、組み合わせ意味情報が所定の規則を満たすか否かを判断し、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。その後、認識対象音声情報の声紋情報を抽出し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶するようにしてもよい。また、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる。

また、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在するか否かを検索するステップに戻り、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする。ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する。意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。

図６に示すように、一実施形態では、本願は電子機器６００も提供している。電子機器６００の内部構成は、図２に示す構成に対応してもよい。下記の各モジュールは、全部又は一部が、ソフトウェア、ハードウェア、又はこれらの組み合わせによって実現されてもよい。電子機器６００は、意味情報決定モジュール６０１と、セグメンテーション声紋取得モジュール６０２と、マッチング対象声紋情報取得モジュール６０３と、マッチング選別モジュール６０４と、組み合わせモジュール６０５と、認識結果決定モジュール６０６と、を備える。

意味情報決定モジュール６０１は、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定する。

セグメンテーション声紋取得モジュール６０２は、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する。

マッチング対象声紋情報取得モジュール６０３は、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする。

マッチング選別モジュール６０４は、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定する。

組み合わせモジュール６０５は、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定する。

認識結果決定モジュール６０６は、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。

上記電子機器では、まず、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、この際に認識された意味情報が正確でない可能性があることが表される。この場合、認識対象音声情報をセグメンテーションして各音声セグメントを得、各音声セグメントの声紋情報を抽出する。ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、後続の声紋マッチングに対して根拠を提供し、即ち、声紋マッチングを行うための単一のユーザのマッチング対象声紋情報を提供する。そして、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、つまり、各音声セグメントの声紋情報の中から、上記マッチング対象声紋情報とマッチングする単一のユーザの声紋情報を選別し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、即ち、単一のユーザの組み合わせ音声情報を得、組み合わせ音声情報を認識して、組み合わせ意味情報を得、単一のユーザが言い表した意味を得る。認識の正確さを向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要もある。組み合わせ意味情報が所定の規則を満たす場合、正確に認識された意味を得たこと、即ち、ユーザが言い表したい意味を正確に得たことが表される。この場合、組み合わせ意味情報を音声認識結果とし、音声認識の正確さを向上させる。

一実施形態では、上記認識結果決定モジュール６０６は、さらに、組み合わせ意味情報が所定の規則を満たさない場合、マッチング対象声紋情報取得モジュール６０３が、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る。

一実施形態では、上記認識結果決定モジュール６０６は、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。

図７に示すように、一実施形態では、上記電子機器６００は、
認識結果決定モジュール６０６が、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出する音声声紋抽出モジュール６０７と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する声紋照合モジュール６０８と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する記憶モジュール６０９と、をさらに備える。

図８を参照すると、一実施形態では、記憶モジュール６０９は、
抽出された声紋情報のユーザ識別子を作成する識別子作成モジュール６０９１と、
抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する初期化モジュール６０９２と、を含む。

一実施形態では、上記電子機器は、レベル増加モジュールをさらに備える。

レベル増加モジュールは、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる。

一実施形態では、ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応づけられる。

上記マッチング対象声紋情報取得モジュール６０３は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする。

一実施形態では、所定のレベル順は、優先レベルの高い順、又は、優先レベルの低い順を含む。

一実施形態では、上記電子機器は、プロンプトモジュールをさらに備える。

プロンプトモジュールは、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する。

一実施形態では、上記電子機器は、情報キーワード抽出モジュールをさらに備える。

情報キーワード抽出モジュールは、意味情報のキーワードを抽出し、組み合わせ意味情報のキーワードを抽出する。

上記セグメンテーション声紋取得モジュール６０２は、意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に１つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する。

上記認識結果決定モジュール６０６は、組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する。

一実施形態では、上記意味情報決定モジュール６０１は、
認識対象音声情報を音声認識して、意味情報を得る認識モジュールを含み、
或いは、
認識対象音声情報をクラウドサーバに送信する情報送信モジュールと、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする意味情報取得モジュールと、を含む。

一実施形態では、電子機器であって、メモリとプロセッサとを備え、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されると、プロセッサに、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出し、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定し、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。声紋情報をローカル声紋データベースに記憶する方式は、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する、ことを含む。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、ことを実行させる。

コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする方式は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含む。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、認識対象音声情報の意味情報を決定した後であって、認識対象音声情報をセグメンテーション処理する前に、意味情報のキーワードを抽出し、
意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に１つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する、ことを実行させる。

本実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ音声情報の組み合わせ意味情報を決定した後であって、組み合わせ意味情報を音声認識結果とする前に、組み合わせ意味情報のキーワードを抽出し、
組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する、ことを実行させる。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。認識対象音声情報の意味情報を決定する方式は、認識対象音声情報を音声認識して、意味情報を得る、ことを含んでもよい。

一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。

当業者であれば理解できるように、上記の実施形態に係る方法の手順の全部又は一部は、コンピュータプログラムから関連のハードウェアへ指示することにより実行されてもよい。コンピュータプログラムは、非揮発性コンピュータ可読記憶媒体に記憶されてもよい。上記のような各方法の実施形態を含む手順を実現させるために、該コンピュータプログラムは、本発明の実施形態のように、コンピュータシステムの記憶媒体に記憶され、該コンピュータシステムの少なくとも１つのプロセッサによって実行されることが可能である。ここで、コンピュータ記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）やランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などであってもよい。

上述した実施形態の各構成要件は、任意に組み合わせされてもよい。説明を簡潔にするために、上記実施形態の各構成要件の可能な組み合わせがすべて説明されているわけではない。しかしながら、これらの構成要件の組み合わせは、矛盾がない限り、本明細書に記載された範囲にあると考えられるべきである。

上述した実施形態は、本発明の幾つかの実施形態を示したものにすぎず、説明が具体的で詳しいが、これによって発明の特許範囲への限定と理解されてはならない。留意すべきこととして、当業者にとっては、本発明の構想を逸脱しない前提で、若干の変形及び改良が可能である。これらの変形及び改良は、いずれも本発明の保護範囲に属する。それゆえ、本発明の特許保護範囲は、添付の特許請求の範囲に従うべきである。

１０端末
２０サーバ
６００電子機器
６０１意味情報決定モジュール
６０２セグメンテーション声紋取得モジュール
６０３マッチング対象声紋情報取得モジュール
６０４マッチング選別モジュール
６０５組み合わせモジュール
６０６認識結果決定モジュール
６０７音声声紋抽出モジュール
６０８声紋照合モジュール
６０９記憶モジュール
６０９１識別子作成モジュール
６０９２初期化モジュール

端末による音声認識方法であって、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを含む。

電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに上記音声認識方法を実行させる。

Claims

端末による音声認識方法であって、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、
ことを含むことを特徴とする音声認識方法。
前記組み合わせ意味情報が前記所定の規則を満たさない場合、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、
ことをさらに含むことを特徴とする請求項１に記載の音声認識方法。
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とする、
ことをさらに含むことを特徴とする請求項１に記載の音声認識方法。
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とした後に、
前記認識対象音声情報の声紋情報を抽出し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報とを照合し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された前記声紋情報を前記ローカル声紋データベースに記憶する、
ことをさらに含むことを特徴とする請求項３に記載の音声認識方法。
前記声紋情報を前記ローカル声紋データベースに記憶することは、
抽出された前記声紋情報のユーザ識別子を作成し、
抽出された前記声紋情報と、対応する前記ユーザ識別子とを関連付けて前記ローカル声紋データベースに記憶し、前記ユーザ識別子の優先レベルを初期レベルに初期化する、
ことを含むことを特徴とする請求項４に記載の音声認識方法。
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された前記声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、
ことをさらに含むことを特徴とする請求項５に記載の音声認識方法。
前記ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられ、
前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とすることは、
前記ユーザ識別子の優先レベルの所定のレベル順に基づいて、前記ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含む、
ことを特徴とする請求項１に記載の音声認識方法。
前記音声認識方法は、前記認識対象音声情報の意味情報を決定した後であって、前記認識対象音声情報をセグメンテーション処理する前に、前記意味情報のキーワードを抽出する、ことをさらに含み、
前記意味情報が所定の文法規則に適合しなく、又は、前記意味情報のキーワードが同時に１つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに前記意味情報のキーワードに対応する命令が存在しない場合、前記意味情報が前記所定の規則を満たさないと判定し、
前記音声認識方法は、前記組み合わせ音声情報の組み合わせ意味情報を決定した後であって、前記組み合わせ意味情報を音声認識結果とする前に、前記組み合わせ意味情報のキーワードを抽出する、ことをさらに含み、
前記組み合わせ意味情報が前記所定の文法規則に適合し、且つ、前記組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、前記ローカル命令ライブラリに前記組み合わせ意味情報のキーワードに対応する命令が存在する場合、前記組み合わせ意味情報が前記所定の規則を満たすと判定する、
ことを特徴とする請求項１に記載の音声認識方法。
電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、
ことを実行させる、電子機器。
前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記組み合わせ意味情報が前記所定の規則を満たさない場合、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、
ことを実行させることを特徴とする請求項９に記載の電子機器。
前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とする、
ことを実行させることを特徴とする請求項９に記載の電子機器。
前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とした後に、前記認識対象音声情報の声紋情報を抽出し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報とを照合し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された前記声紋情報を前記ローカル声紋データベースに記憶する、
ことを実行させることを特徴とする請求項１１に記載の電子機器。
前記コンピュータ可読命令は、さらに、前記プロセッサに、
抽出された前記声紋情報のユーザ識別子を作成し、
抽出された前記声紋情報と、対応する前記ユーザ識別子とを関連付けて前記ローカル声紋データベースに記憶し、前記ユーザ識別子の優先レベルを初期レベルに初期化する、ことを実行させることにより、
前記声紋情報を前記ローカル声紋データベースに記憶する、
ことを実行させることを特徴とする請求項１２に記載の電子機器。
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された前記声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、
ことを特徴とする請求項１３に記載の電子機器。
前記ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられ、
コンピュータ可読命令は、さらに、プロセッサに、
前記ユーザ識別子の優先レベルの所定のレベル順に基づいて、前記ローカル声紋データベースからマッチングされていない１つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを実行させることにより、
前記ローカル声紋データベースからマッチングされていない１つの声紋情報を取得して、マッチング対象声紋情報とする、
ことを実行させることを特徴とする請求項９に記載の電子機器。
コンピュータ可読命令は、さらに、プロセッサに、
前記認識対象音声情報の意味情報を決定した後であって、前記認識対象音声情報をセグメンテーション処理する前に、前記意味情報のキーワードを抽出し、
前記意味情報が所定の文法規則に適合しなく、又は、前記意味情報のキーワードが同時に１つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに前記意味情報のキーワードに対応する命令が存在しない場合、前記意味情報が前記所定の規則を満たさないと判定し、
前記組み合わせ音声情報の組み合わせ意味情報を決定した後であって、前記組み合わせ意味情報を音声認識結果とする前に、前記組み合わせ意味情報のキーワードを抽出し、
前記組み合わせ意味情報が前記所定の文法規則に適合し、且つ、前記組み合わせ意味情報のキーワードが同時に１つのレキシコンに存在し、且つ、前記ローカル命令ライブラリに前記組み合わせ意味情報のキーワードに対応する命令が存在する場合、前記組み合わせ意味情報が前記所定の規則を満たすと判定する、
ことを実行させることを特徴とする請求項９に記載の電子機器。
コンピュータプログラムを記憶したコンピュータ記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに、請求項１から８のいずれか一項に記載の音声認識方法を実行させる、コンピュータ記憶媒体。