JP2020505643A - 音声認識方法、電子機器、及びコンピュータ記憶媒体 - Google Patents
音声認識方法、電子機器、及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP2020505643A JP2020505643A JP2019539928A JP2019539928A JP2020505643A JP 2020505643 A JP2020505643 A JP 2020505643A JP 2019539928 A JP2019539928 A JP 2019539928A JP 2019539928 A JP2019539928 A JP 2019539928A JP 2020505643 A JP2020505643 A JP 2020505643A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voiceprint
- local
- voice
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを含む。
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを実行させる。
認識対象音声情報を音声認識して、意味情報を得る、ことを含んでもよい。認識対象音声情報を認識する際に、端末のローカルで認識を行い、即ち、認識対象音声情報を音声認識して、意味情報を得るようにしてもよい。このように、意味情報の決定効率を向上させ、音声認識全体の効率を向上させることができる。
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。
認識結果決定モジュール606が、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出する音声声紋抽出モジュール607と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する声紋照合モジュール608と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する記憶モジュール609と、をさらに備える。
抽出された声紋情報のユーザ識別子を作成する識別子作成モジュール6091と、
抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する初期化モジュール6092と、を含む。
認識対象音声情報を音声認識して、意味情報を得る認識モジュールを含み、
或いは、
認識対象音声情報をクラウドサーバに送信する情報送信モジュールと、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする意味情報取得モジュールと、を含む。
意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する、ことを実行させる。
組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する、ことを実行させる。
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。
20 サーバ
600 電子機器
601 意味情報決定モジュール
602 セグメンテーション声紋取得モジュール
603 マッチング対象声紋情報取得モジュール
604 マッチング選別モジュール
605 組み合わせモジュール
606 認識結果決定モジュール
607 音声声紋抽出モジュール
608 声紋照合モジュール
609 記憶モジュール
6091 識別子作成モジュール
6092 初期化モジュール
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを含む。
Claims (17)
- 端末による音声認識方法であって、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、
ことを含むことを特徴とする音声認識方法。 - 前記組み合わせ意味情報が前記所定の規則を満たさない場合、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、
ことをさらに含むことを特徴とする請求項1に記載の音声認識方法。 - 前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とする、
ことをさらに含むことを特徴とする請求項1に記載の音声認識方法。 - 前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とした後に、
前記認識対象音声情報の声紋情報を抽出し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報とを照合し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された前記声紋情報を前記ローカル声紋データベースに記憶する、
ことをさらに含むことを特徴とする請求項3に記載の音声認識方法。 - 前記声紋情報を前記ローカル声紋データベースに記憶することは、
抽出された前記声紋情報のユーザ識別子を作成し、
抽出された前記声紋情報と、対応する前記ユーザ識別子とを関連付けて前記ローカル声紋データベースに記憶し、前記ユーザ識別子の優先レベルを初期レベルに初期化する、
ことを含むことを特徴とする請求項4に記載の音声認識方法。 - 抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された前記声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、
ことをさらに含むことを特徴とする請求項5に記載の音声認識方法。 - 前記ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられ、
前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることは、
前記ユーザ識別子の優先レベルの所定のレベル順に基づいて、前記ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含む、
ことを特徴とする請求項1に記載の音声認識方法。 - 前記音声認識方法は、前記認識対象音声情報の意味情報を決定した後であって、前記認識対象音声情報をセグメンテーション処理する前に、前記意味情報のキーワードを抽出する、ことをさらに含み、
前記意味情報が所定の文法規則に適合しなく、又は、前記意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに前記意味情報のキーワードに対応する命令が存在しない場合、前記意味情報が前記所定の規則を満たさないと判定し、
前記音声認識方法は、前記組み合わせ音声情報の組み合わせ意味情報を決定した後であって、前記組み合わせ意味情報を音声認識結果とする前に、前記組み合わせ意味情報のキーワードを抽出する、ことをさらに含み、
前記組み合わせ意味情報が前記所定の文法規則に適合し、且つ、前記組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、前記ローカル命令ライブラリに前記組み合わせ意味情報のキーワードに対応する命令が存在する場合、前記組み合わせ意味情報が前記所定の規則を満たすと判定する、
ことを特徴とする請求項1に記載の音声認識方法。 - 電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、
ことを実行させる、電子機器。 - 前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記組み合わせ意味情報が前記所定の規則を満たさない場合、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、
ことを実行させることを特徴とする請求項9に記載の電子機器。 - 前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とする、
ことを実行させることを特徴とする請求項9に記載の電子機器。 - 前記コンピュータ可読命令は、さらに、前記プロセッサに、
前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とした後に、前記認識対象音声情報の声紋情報を抽出し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報とを照合し、
抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された前記声紋情報を前記ローカル声紋データベースに記憶する、
ことを実行させることを特徴とする請求項11に記載の電子機器。 - 前記コンピュータ可読命令は、さらに、前記プロセッサに、
抽出された前記声紋情報のユーザ識別子を作成し、
抽出された前記声紋情報と、対応する前記ユーザ識別子とを関連付けて前記ローカル声紋データベースに記憶し、前記ユーザ識別子の優先レベルを初期レベルに初期化する、ことを実行させることにより、
前記声紋情報を前記ローカル声紋データベースに記憶する、
ことを実行させることを特徴とする請求項12に記載の電子機器。 - 抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された前記声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、
ことを特徴とする請求項13に記載の電子機器。 - 前記ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられ、
コンピュータ可読命令は、さらに、プロセッサに、
前記ユーザ識別子の優先レベルの所定のレベル順に基づいて、前記ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを実行させることにより、
前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする、
ことを実行させることを特徴とする請求項9に記載の電子機器。 - コンピュータ可読命令は、さらに、プロセッサに、
前記認識対象音声情報の意味情報を決定した後であって、前記認識対象音声情報をセグメンテーション処理する前に、前記意味情報のキーワードを抽出し、
前記意味情報が所定の文法規則に適合しなく、又は、前記意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに前記意味情報のキーワードに対応する命令が存在しない場合、前記意味情報が前記所定の規則を満たさないと判定し、
前記組み合わせ音声情報の組み合わせ意味情報を決定した後であって、前記組み合わせ意味情報を音声認識結果とする前に、前記組み合わせ意味情報のキーワードを抽出し、
前記組み合わせ意味情報が前記所定の文法規則に適合し、且つ、前記組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、前記ローカル命令ライブラリに前記組み合わせ意味情報のキーワードに対応する命令が存在する場合、前記組み合わせ意味情報が前記所定の規則を満たすと判定する、
ことを実行させることを特徴とする請求項9に記載の電子機器。 - コンピュータプログラムを記憶したコンピュータ記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに、請求項1から8のいずれか一項に記載の音声認識方法を実行させる、コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710082111.5 | 2017-02-15 | ||
CN201710082111.5A CN108447471B (zh) | 2017-02-15 | 2017-02-15 | 语音识别方法及语音识别装置 |
PCT/CN2017/113154 WO2018149209A1 (zh) | 2017-02-15 | 2017-11-27 | 语音识别方法、电子设备以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020505643A true JP2020505643A (ja) | 2020-02-20 |
JP6771805B2 JP6771805B2 (ja) | 2020-10-21 |
Family
ID=63169147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019539928A Active JP6771805B2 (ja) | 2017-02-15 | 2017-11-27 | 音声認識方法、電子機器、及びコンピュータ記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11043211B2 (ja) |
EP (1) | EP3584786B1 (ja) |
JP (1) | JP6771805B2 (ja) |
KR (1) | KR102222317B1 (ja) |
CN (1) | CN108447471B (ja) |
WO (1) | WO2018149209A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447471B (zh) | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN110770820A (zh) * | 2018-08-30 | 2020-02-07 | 深圳市大疆创新科技有限公司 | 语音识别方法、装置、拍摄系统和计算机可读存储介质 |
CN110970020A (zh) * | 2018-09-29 | 2020-04-07 | 成都启英泰伦科技有限公司 | 一种利用声纹提取有效语音信号的方法 |
CN109841216B (zh) * | 2018-12-26 | 2020-12-15 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和智能终端 |
CN111756603B (zh) * | 2019-03-26 | 2023-05-26 | 北京京东尚科信息技术有限公司 | 智能家居系统的控制方法、装置、电子设备和可读介质 |
CN110163630B (zh) * | 2019-04-15 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 产品监管方法、装置、计算机设备及存储介质 |
CN112218412A (zh) * | 2019-07-10 | 2021-01-12 | 上汽通用汽车有限公司 | 基于语音识别的车内氛围灯控制系统和控制方法 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110853666B (zh) * | 2019-12-17 | 2022-10-04 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN110970027B (zh) * | 2019-12-25 | 2023-07-25 | 博泰车联网科技(上海)股份有限公司 | 一种语音识别方法、装置、计算机存储介质及系统 |
CN112102840B (zh) * | 2020-09-09 | 2024-05-03 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
CN112164402B (zh) * | 2020-09-18 | 2022-07-12 | 广州小鹏汽车科技有限公司 | 车辆语音交互方法、装置、服务器和计算机可读存储介质 |
CN114627883A (zh) * | 2020-12-11 | 2022-06-14 | 暗物智能科技(广州)有限公司 | 一种说话人角色识别模型、方法、装置及存储介质 |
CN112599136A (zh) * | 2020-12-15 | 2021-04-02 | 江苏惠通集团有限责任公司 | 基于声纹识别的语音识别方法及装置、存储介质、终端 |
CN112908299B (zh) * | 2020-12-29 | 2023-08-29 | 平安银行股份有限公司 | 客户需求信息识别方法、装置、电子设备及存储介质 |
CN112784734A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 一种视频识别方法、装置、电子设备和存储介质 |
CN113643700B (zh) * | 2021-07-27 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 一种智能语音开关的控制方法及系统 |
CN114299942A (zh) * | 2021-11-25 | 2022-04-08 | 合众新能源汽车有限公司 | 汽车天窗控制方法及装置 |
CN114611523B (zh) * | 2022-01-25 | 2024-12-27 | 北京探境科技有限公司 | 一种命令采集方法、装置和智能设备 |
CN116978359A (zh) * | 2022-11-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 音素识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034289A (ja) * | 1999-07-16 | 2001-02-09 | Nec Corp | 自然言語を用いた対話システム |
JP2006259164A (ja) * | 2005-03-16 | 2006-09-28 | Fujitsu Ltd | 音声認識システム、音声認識方法、及びコンピュータプログラム |
JP2009086132A (ja) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 |
JP2013164472A (ja) * | 2012-02-09 | 2013-08-22 | Mineo Fujioka | 通信装置及び認証方法 |
WO2016157662A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017010176A (ja) * | 2015-06-18 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
JP2004094158A (ja) * | 2002-09-04 | 2004-03-25 | Ntt Comware Corp | 母音検索を利用した声紋認証装置 |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US20150381801A1 (en) * | 2005-04-21 | 2015-12-31 | Verint Americas Inc. | Systems, methods, and media for disambiguating call data to determine fraud |
WO2009111884A1 (en) * | 2008-03-12 | 2009-09-17 | E-Lane Systems Inc. | Speech understanding method and system |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
US8315866B2 (en) * | 2009-05-28 | 2012-11-20 | International Business Machines Corporation | Generating representations of group interactions |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
GB2489489B (en) * | 2011-03-30 | 2013-08-21 | Toshiba Res Europ Ltd | A speech processing system and method |
JP2013005195A (ja) | 2011-06-16 | 2013-01-07 | Konica Minolta Holdings Inc | 情報処理システム |
JP5677901B2 (ja) | 2011-06-29 | 2015-02-25 | みずほ情報総研株式会社 | 議事録作成システム及び議事録作成方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
CN103888606A (zh) * | 2014-03-11 | 2014-06-25 | 上海乐今通信技术有限公司 | 移动终端及其解锁方法 |
CN104217152A (zh) * | 2014-09-23 | 2014-12-17 | 陈包容 | 一种移动终端在待机状态下进入应用程序的实现方法和装置 |
KR102097710B1 (ko) * | 2014-11-20 | 2020-05-27 | 에스케이텔레콤 주식회사 | 대화 분리 장치 및 이에서의 대화 분리 방법 |
CN106297775B (zh) * | 2015-06-02 | 2019-11-19 | 富泰华工业(深圳)有限公司 | 语音识别装置及方法 |
CN113206737A (zh) * | 2015-09-01 | 2021-08-03 | 北京三星通信技术研究有限公司 | 语音通信加密方法、解密方法及其装置 |
US10269372B1 (en) * | 2015-09-24 | 2019-04-23 | United Services Automobile Association (Usaa) | System for sound analysis and recognition |
US10049666B2 (en) * | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
CN105931644B (zh) | 2016-04-15 | 2019-10-25 | Oppo广东移动通信有限公司 | 一种语音识别方法及移动终端 |
CN106098068B (zh) * | 2016-06-12 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN108447471B (zh) | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
US10147438B2 (en) * | 2017-03-02 | 2018-12-04 | International Business Machines Corporation | Role modeling in call centers and work centers |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US10403288B2 (en) * | 2017-10-17 | 2019-09-03 | Google Llc | Speaker diarization |
US10636427B2 (en) * | 2018-06-22 | 2020-04-28 | Microsoft Technology Licensing, Llc | Use of voice recognition to generate a transcript of conversation(s) |
-
2017
- 2017-02-15 CN CN201710082111.5A patent/CN108447471B/zh active Active
- 2017-11-27 KR KR1020197016994A patent/KR102222317B1/ko active Active
- 2017-11-27 JP JP2019539928A patent/JP6771805B2/ja active Active
- 2017-11-27 EP EP17897119.8A patent/EP3584786B1/en active Active
- 2017-11-27 WO PCT/CN2017/113154 patent/WO2018149209A1/zh unknown
-
2019
- 2019-06-14 US US16/442,193 patent/US11043211B2/en active Active
-
2021
- 2021-04-29 US US17/244,737 patent/US11562736B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034289A (ja) * | 1999-07-16 | 2001-02-09 | Nec Corp | 自然言語を用いた対話システム |
JP2006259164A (ja) * | 2005-03-16 | 2006-09-28 | Fujitsu Ltd | 音声認識システム、音声認識方法、及びコンピュータプログラム |
JP2009086132A (ja) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 |
JP2013164472A (ja) * | 2012-02-09 | 2013-08-22 | Mineo Fujioka | 通信装置及び認証方法 |
WO2016157662A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017010176A (ja) * | 2015-06-18 | 2017-01-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3584786A4 (en) | 2019-12-25 |
US11562736B2 (en) | 2023-01-24 |
WO2018149209A1 (zh) | 2018-08-23 |
EP3584786B1 (en) | 2021-02-24 |
JP6771805B2 (ja) | 2020-10-21 |
US20190295534A1 (en) | 2019-09-26 |
KR102222317B1 (ko) | 2021-03-03 |
US20210249000A1 (en) | 2021-08-12 |
KR20190082900A (ko) | 2019-07-10 |
EP3584786A1 (en) | 2019-12-25 |
US11043211B2 (en) | 2021-06-22 |
CN108447471B (zh) | 2021-09-10 |
CN108447471A (zh) | 2018-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
US12249332B2 (en) | Proactive command framework | |
KR101768509B1 (ko) | 온라인 음성 번역 방법 및 장치 | |
US9390711B2 (en) | Information recognition method and apparatus | |
JP2021018797A (ja) | 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
US20220092276A1 (en) | Multimodal translation method, apparatus, electronic device and computer-readable storage medium | |
US20240331704A1 (en) | Caching scheme for voice recognition engines | |
US11494434B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
KR20210060897A (ko) | 음성 처리 방법 및 장치 | |
US12165640B2 (en) | Response method, terminal, and storage medium for speech response | |
US20210034662A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
WO2022143349A1 (zh) | 一种确定用户意图的方法及装置 | |
US11410656B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
KR102217621B1 (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 | |
US11804225B1 (en) | Dialog management system | |
US11361761B2 (en) | Pattern-based statement attribution | |
US11450325B1 (en) | Natural language processing | |
CN114154500A (zh) | 文本校对方法、装置、设备、介质和程序产品 | |
CN117334201A (zh) | 一种声音识别方法、装置、设备以及介质 | |
WO2021021529A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
CN115712699A (zh) | 语音信息提取方法、装置、设备及存储介质 | |
CN115410558A (zh) | 集外词处理方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190723 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200820 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6771805 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |