[go: up one dir, main page]

JP6916264B2 - 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents

切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP6916264B2
JP6916264B2 JP2019227539A JP2019227539A JP6916264B2 JP 6916264 B2 JP6916264 B2 JP 6916264B2 JP 2019227539 A JP2019227539 A JP 2019227539A JP 2019227539 A JP2019227539 A JP 2019227539A JP 6916264 B2 JP6916264 B2 JP 6916264B2
Authority
JP
Japan
Prior art keywords
attention
real
disconnection
spike
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019227539A
Other languages
English (en)
Other versions
JP2020112787A (ja
Inventor
シャオイン フー,
シャオイン フー,
ジンフェン バイ,
ジンフェン バイ,
ジジー チェン,
ジジー チェン,
ミンシン リャン,
ミンシン リャン,
シュウ チェン,
シュウ チェン,
リー ジア,
リー ジア,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020112787A publication Critical patent/JP2020112787A/ja
Application granted granted Critical
Publication of JP6916264B2 publication Critical patent/JP6916264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

技術の分野
本開示の実施例は、概して音声認識技術の分野に関し、より具体的には、切断アテンション(TRUNCATED ATTENTION)に基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体に関する。
音声認識とは、音声信号をコンピュータによって対応するテキストに変換するプロセスを指し、人と機械とのインタラクションを実現する主要なアプローチの一つである。近年、ディープラーニング技術が音声認識分野で広く利用されていることに伴い、音声認識の精度が大幅に向上した。また、スマートデバイスの普及により、音声を使用して認識を行う場面が既に非常に豊富になっている。例えば、音声認識技術は既に、音声入力、音声ダイヤル、車載ナビゲーションなどの様々な場面で広く利用されている。音声認識技術は、自然言語処理及び音声合成などの技術との組み合わせにより、スマートスピーカー、会議同時通訳、スマートカスタマーサービスアシスタントなどの、より複雑な応用を生成することができる。音声認識の精度は、音声関連製品のユーザの使用体験に直接影響するため、音声認識の使用場面が豊富になるとともに、音声認識の精度がより高く要求される。
リアルタイム音声認識とは、受信された連続音声に対して、音声の各セグメントを認識することで認識結果をリアルタイムに取得し、すべての音声入力が完了した後に認識を開始する必要がないプロセスを指す。大規模な語彙のオンライン連続音声認識において、システム性能に影響する重要な要素は、システムの認識精度と応答速度である。例えば、ユーザが発話しながら認識結果をリアルタイムで現れることを視認したい場面では、音声認識システムは、高い認識率を保ちながら、迅速に音声信号をデコードし、認識結果を出力する。ユーザの音声入力が完了した後に認識を開始する場合には、ユーザの使用体験に深刻な影響を及ぼすので、音声インタラクションがスムーズにならない。
本開示の例示的な実施例によれば、切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体を提供する。
本開示の第1の態様では、切断アテンションに基づくリアルタイム音声認識方法を提供する。当該方法は、入力された音声信号に基づいて、音声信号の特徴シーケンスを切断するための切断情報を取得するステップと、切断情報に基づいて、特徴シーケンスを複数のサブシーケンスに切断するステップと、複数のサブシーケンスのうちのサブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得するステップと、を含む。
本開示の第2の態様では、切断アテンションに基づくリアルタイム音声認識の装置を提供する。当該装置は、入力された音声信号に基づいて、音声信号の特徴シーケンスを切断するための切断情報を取得するよう構成される切断情報取得モジュールと、切断情報に基づいて、特徴シーケンスを複数のサブシーケンスに切断するよう構成される特徴シーケンス切断モジュールと、複数のサブシーケンスのうちのサブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得するよう構成される認識結果取得モジュールと、を含む。
本開示の第3の態様では、電子機器を提供し、一つ又は複数のプロセッサ及び記憶装置を含み、記憶装置は、一つ又は複数のプログラムを記憶する。一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合に、電子機器が本開示の実施例に係る方法又はプロセスを実現する。
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合に、本開示の実施例に係る方法又はプロセスが実現される。
なお、発明の概要に説明された内容は、本開示の実施例の肝心な又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により容易に理解され得る。
本開示の各実施例の前述及び/又は付加的な特徴及び利点は、図面を参照した以下の詳細な説明により明らかになる。図面では、同一又は類似の符号は、同一又は類似の要素を表す。
従来の音声認識プロセスの概略図を示す。 本開示の実施例に係る例示的なリアルタイム音声認識シーンの概略図を示す。 本開示の実施例に係る切断アテンションに基づくリアルタイム音声認識方法のフローチャートを示す。 本開示の実施例に係る切断アテンションに基づくリアルタイム音声認識プロセスの概略図を示す。 本開示の実施例に係るコネクショニスト時系列分類(CTC)スパイク情報に基づく多層注意力モデリング(SMLTA)モデルの例示的なアーキテクチャの概略図を示す。 本開示の実施例に係るCTCスパイク情報に基づくSMLTAモデルの例示的な動作原理図を示す。 本開示の実施例に係る切断アテンションに基づくリアルタイム音声認識装置のブロック図を示す。 本開示の複数の実施例を実施することができる電子機器のブロック図を示す。
以下に、図面を参照しながら本開示の実施例をさらに詳しく説明する。図面には、本開示の一部の実施例を示したが、本開示は、種々な形式により実現することができ、ここで説明された実施例に限定されるものであると理解されてはならない。逆に、これらの実施例を提供する目的は、本開示が完全に理解されることである。なお、本開示の図面及び実施例は、単なる例示であり、本開示の保護範囲を限定するものと理解されてはならない。
本開示の実施例の説明において、「含む」との用語及びその類似語は、開放的に含まれ、即ち「含むがこれらに限定されない」と理解すべきである。「基づく」は、「少なくとも部分に基づく」と理解すべきである。「一実施例」又は「当該実施例」は、「少なくとも一つの実施例」と理解すべきである。「第1」、「第2」等は、異なる又は同一の対象を指してもよい。以下の記載において、その他の明確及び暗黙的な定義も含み得る。
従来の音声認識システムは、主に、音響モデル、言語モデル、及びデコーダの三つの部分を含み、図1に示すように、従来の音声認識プロセス100の概略図を示す。収集された音声信号110を取得した後、まず、ブロック120で音声信号110に対して信号処理と特徴の抽出を行い、音響モデル132が処理するために入力された音声信号110から特徴を抽出することを含む。さらに、環境ノイズ又は他の要因が特徴に与える影響を低減するための、いくつかの信号処理技術を含む。
図1を参照すると、特徴を抽出した後、抽出された特徴をデコーダ130に入力し、デコーダ130によって処理された認識結果140を出力する。デコーダ130は、音響モデル132と言語モデル134に基づいて最大確率で出力される音声信号の単語シーケンスを検索し、音響モデル132は、音声を音節に変換し、言語モデル134は、音節をテキストに変換する。音響モデル132は、音響、音声学、環境特性、及び話者の性別とアクセントなどの情報を利用して、音声信号をモデリングする。例えば、音響モデル132は、隠れマルコフモデル(HMM:Hidden Markov Model)を使用してモデリングし、ある状態シーケンスに対する音声の特徴ベクトルシーケンスの事後確率を表すことができる。言語モデル134は、言語をモデリングする。通常、統計的なN元文法(N〜Gram)を使用して、前後にN個文字が出現する確率を統計する。図1に示すように、音響モデル132は、音声データベース133に基づいてトレーニング及び/又は動作することができ、言語モデル134は、テキストデータベース135に基づいてトレーニング及び/又は動作することができる。
一般的には、モデルの複雑度と計算量を減らすために、通常、音響モデル132と言語モデル134は、二つの独立したモデルとしてそれぞれトレーニング及び最適化を行う。図1に示すように、音声認識システムの構築は、特徴の抽出、音響モデルトレーニング、言語モデルトレーニング、及びデコーダ最適化などの複数のモジュールを共に結合する必要がある。特に、音響モデルトレーニングは、通常、専門的な音響知識を持つ者が開発及び最適化を行う必要があるため、音声認識システムの複雑さ及び人件費が増加する。
ニューラルネットワーク技術の継続的な発展に伴い、音響モデルの各モジュールは徐々にニューラルネットワークによって代替され、音響モデルの複雑度を簡略化したので、モデルの開発とデバッグの難易度を低下させるだけでなく、音声認識システムの性能を著しく向上させることができる。例えば、ディープニューラルネットワーク(DNN:Deep Neural Network)+HMMの音響モデルが出現する。その後、当該構造に基づいて、音響モデルは、さらに、ディープコンボリューショナルニューラルネットワーク(CNN:Convolutional Neural Network)、ゲート付き回帰型ユニット(GRU:Gated Recurrent Unit)、及び長・短期記憶ネットワーク(LSTM:Long Short−Term Memory)などのネットワーク構造を導入してDNNモデルに代わることで、ニューラルネットワークモデルのモデリング精度を著しく向上させる。
コネクショニスト時系列分類(CTC:Connectionist Temporal Classification)モデルは、大規模語彙の音声認識に用いられるエンドツーエンド(end〜to〜end)のモデルであり、DNN+HMMを混合する音響モデル構造は、完全に統一されたニューラルネットワーク構造によって代替され、音響モデルの構造とトレーニングの難しさを大幅に簡略化して、音声認識システムの精度をさらに向上させる。
しかしながら、本出願の発明者は、CTCモデルには以下のような欠点があることを認識している。(1)CTCモデルはエンドツーエンドモデルに属するが、CTCモデルは、依然として出力シーケンス分布が一定の条件を満たす独立的な仮定を要求する。このような独立的な仮定は、CTCモデルが音響モデルをトレーニングする間に、言語モデルの情報を有効に使用してモデリングすることができず、入力された音声信号に一定の環境ノイズが存在するか又は信号強度が低い場合には、音声認識システムは、音響情報に依存するだけでは、入力されたオーディオ特徴に対して効果的に区別することが難しく、認識性能が低下しやすい。(2)CTCモデルは、一定の割合で挿入エラーと削除エラーが発生しやすく、デコード時には言語モデルの重みを適切に設計することによってこのようなエラーをある程度緩和することができるが、CTCモデルのようなモデリング能力不足の問題を根本的に解決することができない。
アテンション(attention)モデルは、エンコーダ〜デコーダモデルに対する拡張であり、長いシーケンスで予測する効果を向上させることができる。まず、GRU又はLSTMモデルを使用して入力されたオーディオ特徴をエンコードして暗黙的な特徴を取得し、次に、アテンションモデル介してこれらの暗黙的な特徴の異なる部分に対して対応する重みを割り当て、最後に、デコーダは、モデリング粒度の違いに基づいて、対応するテキストを出力する。このような音響と言語モデルの結合モデリングの方式は、音声認識システムの複雑度をさらに簡素化することができる。
しかしながら、本出願の発明者は、アテンションモデルには依然に以下のような欠点があることを認識している。(1)従来のアテンションモデルは、リアルタイム音声認識を実現できず、オンライン音声インタラクション製品サービスでは、音声は、一つ一つのセグメントがユーザ機器からサーバにアップロードされ、各セグメントが来た時に、現在のセグメントのデコードが可能であることが要求される。これにより、デコード時間は、転送プロセスと並列して行うことができる。この時、ユーザが話し終わった後の認識結果の待ち時間は最後の一つのパケットのデコード時間であり、このプロセスはストリーミングデコード(「リアルタイム認識」とも呼ばれる)と呼ばれる。従来のアテンションモデルでは、すべての音声信号が入力完了した後にのみ、認識システムがデコードを開始することができ、ユーザの待ち時間は、音声全体のデコード時間である。このように、全文のアテンションメカニズムに基づくモデルは、音声インタラクションシステムにおいて、ユーザの長い待ち時間を引き起こし、リアルタイムの音声インタラクションを行うことができず、音声インタラクション系の工業製品で実際に使用することができない。(2)従来のアテンションモデルは長文に対するモデリング効果が悪く、認識精度が低く、全文に基づくアテンションモデルは、全文情報でアテンションモデリングを行う必要がある。音声認識の文情報は、音声フレームの長さの観点から見ると、最長数千フレームに達するので、アテンションモデリングの本質は、モデリングユニットに対する冗長な特徴の除去と最も重要な本質的な特徴の選択である。候補である特徴の範囲が大きすぎる場合(例えば、従来のアテンションモデルは、数千フレームの範囲でアテンションモデリングを行う必要がある)、同時にディープラーニングの収束は、標準の凸最適化ではなく、最終的にアテンションの学習プロセスが現在のモデリングユニットを真に説明できる核心の特質フレームに収束することが困難になるため、アテンションモデルのモデリング能力が低下し、長文のモデリング効果がよくないという欠陥がある。
入力特徴をヒューリスティックな固定長にしたがって切り分けるなどの、アテンションモデルに対する改善策が既に存在している。しかしながら、このような固定長の切り分けは、入力されたオーディオ特徴シーケンス自体を考慮しておらず、有効な特徴シーケンスが容易に除外されてしまい、音声認識のような発話速度と一時停止が連続的に変化する場合には、適応することが困難になる。したがって、このような改善策は、一部のリアルタイム音声認識には実現することができるが、音声認識の正確性を犠牲にするため、従来のアテンションモデルの全文モデリングよりも認識精度が低下する。つまり、従来の音声認識技術は、リアルタイムで音声認識できないか、または認識の精度が低いため、正確なリアルタイム音声認識を実現することができない。
上記の従来技術に存在する一つ又は複数の問題を解決するために、本開示の実施例は、切断アテンションに基づくリアルタイム音声認識の方案を提供し、切断情報を使用してアテンションモデル学習を指導するアイデアを提供する。本開示の実施例は、従来のアテンションモデルに、音声信号に基づいて決定された切断情報を導入することによって、アテンションモデルが各切断に対してそれぞれアテンションモデリングを行うことを指導することができるので、連続音声認識を実現することだけでなく、高精度を確保することもできる。また、選択可能に、切断情報は、CTC処理によって取得された音声信号のスパイク情報であってもよい。また、選択可能に、本開示のいくつかの実施例により提供されるCTCとアテンションダブルヘッド構造は、リアルタイム音声認識プロセスの計算量が小さくすることができ、本開示のいくつかの実施例により提供されるマルチレベルのアテンション構造は、音声認識の精度をさらに向上させることができる。以下、図2〜8を参照して本開示のいくつかの実施例を詳細に説明する。
図2は、本開示の実施例に係るリアルタイム音声認識シーン200の概略図を示す。シーン200は、本開示の実施例によって実現可能な一つの例示的なシーンに過ぎず、本開示の保護範囲を限定するものではないことを理解されたい。
図2に示すように、シーン200では、ユーザ210は、ユーザ機器220に対して発話し、ユーザ210によって生成された音声215(すなわち音声)がユーザ機器220によって収集される。例えば、ユーザ機器220の音声収集機器(マイクなど)によって音声215を収集する。ユーザ機器220は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス(スマートウォッチ、スマートメガネなど)、ナビゲーションデバイス、マルチメディアプレーヤーデバイス、教育機器、ゲームデバイス、スマートスピーカーなどの音声信号を収集可能な任意の電子機器を含むが、これらに限定されない。
ユーザ機器220は、音声215を収集するプロセスにおいて、ネットワーク225を介して音声215を分割してサーバ230に送信することができる。サーバ230は、本開示の実施例に係る音声認識のための切断アテンションモデル233(本開示のいくつかの実施例では、切断アテンションモデル233は、CTCスパイク情報に基づくストリーミングマルチレベルの切断アテンション(SMLTA)モデルでも良い)を含むことができる。ネットワーク225は、任意の有線ネットワークでも良いし、無線ネットワークでも良いし、又は有線ネットワークと無線ネットワークの組み合わせても良い。切断アテンションモデル233は、トレーニングデータ235によってトレーニングされた、リアルタイムで正確な音声認識を実現することができ、認識が完了した後、ネットワーク225を介して認識結果をユーザ機器220に送信することができる。
ユーザ機器220は、ディスプレイ223を介して認識結果をリアルタイムに表示することができる。本開示の実施例では、音声をリアルタイムに認識することができ、音声215を連続的に生成することによって、ディスプレイ223に表示される認識結果も動的に変化して、ユーザが認識された結果をリアルタイムに取得することができ、ユーザ体験を向上させることができる。いくつかの実施例では、ユーザ機器220は、ディスプレイ223を含まなくてもよいし、逆に、ユーザ機器220は、そのオーディオ出力機器(例えばスピーカ)を介して認識結果を出力してもよい。他のいくつかの実施例では、サーバ230は、音声の認識結果をユーザ機器220に送信することなく、認識結果に基づいてさらなる動作を直接実行する。
図2の環境200には、切断アテンションモデル233がユーザ機器220の遠位端のサーバ230側に配置されることが示されているが、切断アテンションモデル233は、ユーザ機器220のローカルに配置されてもよいことを理解されたい。あるいは、切断アテンションモデル233の一部をユーザ機器220のローカルに配置し、他の部分をサーバ230側に配置し、又は切断アテンションモデル233を複数のサーバに分散的に配置することができる。本開示の実施例は、切断アテンションモデル233の配置方式及び位置について限定しない。
図3は、本開示の実施例に係る切断アテンションに基づくリアルタイム音声認識方法300のフローチャートを示す。方法300は、上記の図2に説明されたサーバ230、又はユーザ機器220、又はそれらの組み合わせによって実行されてもよいことを理解されたい。方法300を明確かつ容易に説明するために、ここでは、図4の切断アテンションに基づくリアルタイム音声認識のプロセス400を参照しつつ、方法300を説明する。
ブロック302において、入力された音声信号に基づいて、音声信号の特徴シーケンスを切断するための切断情報を取得する。例えば、特徴シーケンスは、音声信号をエンコードすることによって取得される。例えば、図4に示すように、ユーザからの音声信号410を収集した後、エンコーダ420は、収集された音声信号410を暗黙的な特徴シーケンス430にエンコードし、暗黙的な特徴シーケンス430に基づいて切断情報435を決定する。したがって、本開示の実施例は、入力された音声信号の特徴に基づいて計算された切断情報を使用して、後続的な切断が音声認識の精度を影響しないようにすることで、音声信号のリアルタイム認識を実現し、音声認識の精度を確保することができる。
いくつかの実施例では、切断情報は、特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行うことによって音声信号に関するスパイク情報を取得することができる。CTC処理では、スパイクのシーケンスを出力することができ、スパイクの間は、空白(blank)で区切ることができる。一つのスパイクは、一つの音節(syllable)、又は高周波音素の組み合わせなどの1クループの音素(phone)として表示することができる。以下の部分は、CTCスパイク情報を使用して切断情報を提供する一例として説明するが、現在知られている、又は将来開発される、入力された音声信号を提供可能な切断情報の任意の他のモデル及び/又はアルゴリズムは、本開示の実施例と組み合わせて使用できることも理解されたい。
ブロック304において、切断情報に基づいて、特徴シーケンスを複数のサブシーケンスに切断する。例えば、図4に示すように、アテンションに基づくデコーダ440は、切断情報435に基づいて暗黙的な特徴シーケンス430を各暗黙的な特徴サブシーケンスに切断することができ、暗黙的な特徴シーケンスは、音声信号の特徴を表示するベクトルであってもよい。例えば、暗黙的な特徴シーケンスは、直接観測して取得することができないが、観測可能な変数によって決定された特徴ベクトルを指すことができる。従来技術における固定長を使用する切断方式とは異なり、本開示の実施例は、音声信号に基づいて決定された切断情報を使用して特徴切断を行うことにより、有効な特徴部分が除外されることを回避することができ、高精度を確保することができる。
ブロック306において、複数のサブシーケンスのうちの各サブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得する。例えば、音声215のデコーダ440は、切断によって生成された各暗黙的な特徴サブシーケンスに対して、アテンションモデルを使用して認識結果450を取得する。アテンションモデルは、重み付け特徴の選択が可能であり、暗黙的な特徴の異なる部分に対して対応する重みを割り当てる。現在知られている、又は将来開発されるアテンションメカニズムに基づく任意のモデル及び/又はアルゴリズムは、本開示の実施例と組み合わせて使用することができる。したがって、本開示の実施例は、音声信号に基づいて決定された切断情報を従来のアテンションモデルに導入することによって、アテンションモデルが各切断に対してそれぞれアテンションモデリングを行うことを指導することができ、連続音声認識を実現できるのみならず、高精度を確保することもできる。
いくつかの実施例では、暗黙的な特徴シーケンスが複数のサブシーケンスに打ち切られた後、複数のサブシーケンスのうちの第1のサブシーケンスに対してアテンションモデルの第1のアテンションモデリングを実行し、複数のサブシーケンスのうちの第2のサブシーケンスに対してアテンションモデルの第2のアテンションモデリングを実行することができ、第1のアテンションモデリングは第2のアテンションモデリングと異なる。つまり、本開示の実施例は、部分的に打ち切られるアテンションモデルのアテンションモデリングを行うことができる。
図5は、本開示の実施例に係るCTCスパイク情報に基づくSMLTAモデルのアーキテクチャ500の概略図を示す。図5に示すように、アーキテクチャ500は、主に、入力された音声信号510を暗黙的な特徴シーケンス530(すなわち暗黙的な特徴シーケンスh)にエンコードするよう構成される共有デコーダ520と、暗黙的な特徴シーケンス530に基づいてスパイク情報560を決定するよう構成されるCTCモジュール540と、暗黙的な特徴シーケンス530とスパイク情報560に基づいてリアルタイムの認識結果570を取得するよう構成されるアテンションデコーダ550との三つの部分を含む。図5に示されるアーキテクチャ500において、共有エンコーダ520は、CTCモジュール540とアテンションデコーダ550で共有され、CTCモジュール540とアテンションデコーダ550の二つのヘッドの「ダブルヘッド構造」を形成する。アーキテクチャ550における主な計算量は、共有エンコーダ520とアテンションデコーダ550に集中するため、従来のアテンションモデルと比較して、本開示の実施例に係るアーキテクチャ550では、モデルアーキテクチャ全体の計算量はほとんど増加しないが(増加はあるが、増加の割合は特に小さく、無視可能である)、CTC出力(すなわちスパイク情報560)とアテンション出力(すなわち認識結果570)を同時に提供することができ、本開示の実施例のアーキテクチャ500の大規模な工業展開の問題をうまく解決することができる。逆に、従来の方式では、二つのモデルを製品に組み合わせて使用しようとすると、オンラインの計算量が倍に増加するので、コストがかかりすぎ、大規模に工業的使用することができない。
図5に示すように、共有エンコーダ520は、一つの巻積層(Conv)、N個のLSTMと、バッチ正規化(BN)層とを含み、Nは正の整数(例えば5など)であってもよく、LSTMは単方向のLSTMであってもよい。所与の入力音声信号に対して、共有エンコーダ520は、まず、音声信号をエンコードし、対応する暗黙的な特徴シーケンス530を取得する。いくつかの実施例では、音声信号510は、共有エンコーダ520に入力される前に、モデル入力xとしてあらかじめ特徴抽出処理してもよい。共有エンコーダ520の内部階層構造が図5に示されているが、他の構造のエンコーダは、本開示の実施例と組み合わせて使用できることを理解されたい。
CTCモジュール540は、一つの線形変換(Linear)層と、一つの正規化(Softmax)層とを含み、CTCトレーニング基準を使用して入力された暗黙的な特徴シーケンス530のスパイクの記述情報を取得することによって、スパイク情報560を含むCTC出力を生成し、スパイク情報560を使用して暗黙的な特徴シーケンス530を複数のサブシーケンスに切断するために、スパイク情報560をアテンションデコーダ550に渡す。
引き続き図5を参照すると、アテンションデコーダ550は、一つのアテンションモデル層、M個のLSTM層及び正規化(LN)層、一つのSoftmax層とを含み、Mは正整数(例えば2など)であってもよく、LSTMは単方向のLSTMであってもよい。アテンションデコーダ550は、受信された暗黙的な特徴シーケンス530とスパイク情報560とに基づいて、暗黙的な特徴シーケンス530を一つ一つの連続したサブシーケンスに切断することができる。アテンションデコーダ550は、打ち切られたサブシーケンスをアテンションメカニズムによってスクリーニングし、最終的に対応する出力確率分布を取得する。共有エンコーダ520とデコーダ550は単方向LSTMを基本のネットワーク構造として使用する。このように暗黙的な特徴シーケンスをサブシーケンスに切断する方式は、暗黙的な特徴の履歴情報のみに依存するため、音声認識システムは、全体のオーディオ信号をすべて入力した後に、デコードを開始することなく、オーディオ信号が入力されると同時にリアルタイムでデコードし、リアルタイムで音声認識を実現する。図5にアテンションデコーダ550の内部階層構造が示されているが、他の構造のアテンションデコーダも本開示の実施例と組み合わせて使用してもよい。
図5に示すコンパクトなCTCとアテンションを一体とするSTMLAモデルでは、CTCモジュール540のヘッドとアテンションデコーダ550のヘッドと同時に有し、トレーニング時にはダブルヘッドとともにトレーニングする。CTCモジュール540のヘッドは、CTC損失関数でトレーニングし、アテンションデコーダ550のヘッドは、クロスエントロピー損失関数でトレーニングする。二つの損失関数は、線形差の重みで接続され、二つの損失関数は、それぞれに対応する重みを有する。このようなモデルによるオンラインでの計算量は一つのモデルとほぼ同じであるが、CTCとアテンションの二つの情報を同時に提供することにより、大規模な工業展開が可能である。
CTCモジュールにより出力されるスパイク情報は、一定の挿入エラーと削除エラーが存在する。このようなエラーは、切断して取得された暗黙的な特徴シーケンスのサブシーケンスの境界が不正確となりやすく、音声認識システムの認識性能に影響する。CTCモジュールの挿入エラーと削除エラーにより引き起こされたばらつきを緩和するため、本開示の実施例では、マルチレベルのアテンション構造に基づいて打ち切られたサブシーケンスを段階的にスクリーニングする方法をさらに提供し、アテンションデコーダのLSTMモデルによって最後の確率分布を出力する。例えば、図6は、本開示の実施例に係る2レベルのアテンション構造に基づくSMLTAモデルの動作原理図600を示す。
図6に示すように、CTCのスパイク情報610を使用して、暗黙的な特徴シーケンス620を複数の特徴サブシーケンスに切断することができる。truncは打ち切られた基本単位であり、一つのtruncは、暗黙的な特徴シーケンス620のうちの、一つのスパイクに対応する特徴部分を表示することができる。いくつかの実施例では、各スパイク(一つの音節又は高周波音素の組み合わせを表示することができる)について、当該スパイクに隣接する所定の数のスパイクに対応する特徴サブシーケンスを一つの切断として選択することができる。所定の数のスパイクは、当該スパイクの前の第1の数のスパイクと、当該スパイクの後の第2の数のスパイクとを含む。サブシーケンスは、これらのスパイクに対応する特徴部分であってもよい。通常、あるスパイクが時系列に前後に十分なスパイクが存在する場合、第1の数と第2の数の合計は所定の数と等しい。もちろん、当該スパイクの前に第1の数のスパイクが存在しない場合、当該スパイクの前のすべてのスパイクを選択し、当該スパイクの後に第2の数のスパイクが存在しない場合、当該スパイクの後のすべてのスパイクを選択することとしてもよい。
矢印630に示されるように、2レベルのアテンションモデリングを実行する。例えば、第iのスパイクについて、暗黙的な特徴シーケンス620における重畳する複数のサブシーケンス(例えば、図6の例では、三つのサブシーケンスは、それぞれtrunc1からtrunc2、trunc1からtrunc3、及びtrunc1〜trunc4である)に基づいて、第1レベルのアテンションメカニズムによって(例えば図6のattention1)複数の異なる特徴ベクトルをそれぞれ決定する(図6の例では、それぞれのci,1、ci,2、ci,3は、これらの特徴ベクトルは、それぞれ対応するアテンションベクトルαi,1、αi,2、αi,3を有する)。次に、決定された複数の特徴ベクトルに基づいて(すなわちci,1、ci,2、ci,3)、第2レベルのアテンションメカニズムによって(例えば図6のattention2)文脈特徴ベクトルをさらにスクリーニングして決定する(ciは、対応するアテンションベクトルβを有する)。三つの特徴ベクトルci,1、ci,2、ci,3を生成することが図6に示されているが、他の数の特徴ベクトルも可能であり、精度とデコードのハード遅延時間に依存するものであることを理解されたい。本開示の実施例は、ベクトルの数に限定されない。
引き続き図6を参照すると、デコーダを実行するデコードプロセスでは、矢印640に示されるように、文脈特徴ベクトルcをデコーダ(例えばRNN、LSTM又はGRUなど)入力にして認識結果yを出力し、図6のsは出力状態を表示し、hは暗黙的な状態を表示する。このような方式により、2レベルのアテンション構造によってCTCの挿入問題と削除問題を効果的に解決し、SMLTAモデルの音声認識の性能を著しく向上させることができる。
本開示の実施例によれば、CTCスパイク情報を使用してアテンションモデルに切断情報を提供するモデリング方法は、従来のアテンションモデルの長文でのモデリング精度が良くないという問題を解決するだけでなく、工業界において初めて、アテンションモデリング技術がリアルタイム音声認識のためのストリーミングデコードの要求を満たすことができ、世界規模での工業界における、ストリーミング音声サービスのための最初の高精度のアテンションモデルが実現される。現在、最も良いとされるCTCモデルに基づく音声認識システムと比較して、本開示のいくつかの実施例により提供されるCTCスパイク情報に基づくSMLTAモデルの認識エラー率は15%以上低下する。
したがって、本開示のいくつかの実施例によれば、切断に基づくエンドツーエンドのリアルタイム音声認識方法を提供する。文脈に関係ない音節を基本の音響モデリングユニットとして、CTCとアテンションを結合してモデリングする方式によって、まず、CTCのスパイク情報を使用して暗黙的な特徴シーケンスによって打ち切られた位置情報を取得する。次に、アテンションモデリング技術を導入してエンドツーエンド音声認識方法を実現する。当該方法は、特定の位置に切断情報を導入することによって、従来のアテンション全文モデリング方法ではリアルタイムにデコードができないという欠陥を回避することができる。また、アテンションのエンドツーエンドのモデリングによって、モデル精度をより高くすることができ、音声認識の製品性能を大幅に向上させることができる。このような切断に基づくエンドツーエンド音声認識モデリング方法は、大規模な語彙のリアルタイム連続音声認識のための構造革新を、エンドツーエンドモデリング技術により初めて実現した。
また、本開示のいくつかの実施例は、CTCスパイク情報に基づくストリーミングマルチレベルの切断アテンション(SMLTA)モデルをさらに提供する。当該モデルは、文脈に関係ない音節又は高周波音素の組み合わせを基本の音響モデリングユニットとして、CTCとアテンションモデルの結合モデリング技術によって、例えば数万時間のトレーニングデータの条件の下で、CTCモデルを超えて顕著な音声認識性能を取得する。従来のアテンションモデルでは、文全体のすべてのエンコードされた暗黙的な特徴を取得した後に各モデリングユニットのアテンションモデルのモデリングを行う必要があるのに対し、本開示の実施例では、CTCモデルの出力結果(スパイク情報とも呼ばれる)を利用して、連続エンコードされた暗黙的な特徴シーケンスを各暗黙的な特徴サブシーケンスに切断することを革新的に提供している。各モデリングユニットのアテンションモデルのモデリングは、一つの独立した暗黙的な特徴サブシーケンス上でのみ独立に行われる。このようなモデルでは、文全体の長さの範囲内でエンコードの暗黙的な特徴に対してアテンションモデリングを行う必要がなく、アテンションモデリングプロセスは、一つ一つの小さな特徴サブシーケンス上で行われるように制限される。これにより、従来のアテンションモデルが広範囲内でアテンションモデリングを行うと、精度が良くないという問題を克服することができる。同時に、CTCモデルのモデルによって出力されたスパイク情報は、左から右へと順次ストリーミングして展開されるため、上記のサブシーケンスも左から右へと順次ストリーミングして展開されることによって、最終的に、本開示のSMLTAモデルも左から右へとストリーミングすることができる。
したがって、従来の音声認識技術又はモデルと比較して、本開示の実施例は以下の利点を有する。
従来のCTCモデルと比較して、本開示の実施例は、CTCとアテンション結合トレーニングの方法を介して、音響モデルと言語モデルの結合モデリングを効果的に行うことができるので、従来のCTCモデルが音響モデルのみをモデリングする場合の不足を克服し、複雑な環境における音声認識システムのロバスト性を向上させる。また、CTCモデルには挿入の問題と削除の問題があるため、CTCモデルがアテンションモデルに提供する情報にも誤りがある可能性がある。したがって、本開示のいくつかの実施例では、2レベルのアテンション構造によってCTCモデルの不足を効果的に解決し、音声認識の性能を著しく向上させることができる。
従来のアテンションモデルと比較して、本開示のいくつかの実施例では、音声信号の切断情報を利用して打ち切られたアテンションモデルを行うことを使用して、従来のアテンションモデルによって構築された音声認識システムがリアルタイムにデコードできないという問題を回避することができ、システム応答速度に対するユーザのニーズを満たすことができる。また、従来のアテンションモデルの長文認識精度が低いことと比較して、本開示の実施例では、切断情報を使用して、各モデリングユニットのアテンションモデリングプロセスを各特徴サブシーケンスに集中してモデリングするので、アテンションモデルのモデリング精度を向上させ、広範囲でのアテンションモデルのモデリング精度が良くないという問題を解決することができる。
固定長の切り分けをサポートする従来のアテンションモデルと比較して、本開示の実施例では、切断情報によって取得された特徴サブシーケンスは、固定長の切り分けよりもより正確に、必要な特徴サブシーケンスを取得することができる。また、本開示のいくつかの実施例では、2レベルのアテンションによって特徴サブシーケンスの重畳を実現しており、より効果的に特徴をスクリーニングすることによって、モデリング精度が全文のアテンション方法を超える性能を取得することができる。
また、本開示のいくつかの実施例により提供されるコンパクトなCTCとアテンションを一体とする切断アテンションモデルでは、CTCのヘッドとアテンションのヘッドを同時に有しており、トレーニング時にもダブルヘッドとともにトレーニングしている。CTCのヘッドは、CTCの損失関数でトレーニングし、アテンションのヘッドは、クロスエントロピー損失関数でトレーニングし、二つの損失関数は、線形差の重みで接続している。このようなモデルのオンラインの計算量は、一つのモデルとほぼ同じであるので、余分なコンピューティングコストが増加することを回避することができ、大規模な工業展開のニーズを満たすことができる。
図7は、本開示の実施例に係る切断アテンションに基づくリアルタイム音声認識の装置700のブロック図を示す。図7に示すように、装置700は、切断情報取得モジュール710と、特徴シーケンス切断モジュール720と、認識結果取得モジュール730とを含む。切断情報取得モジュール710は、入力された音声信号に基づいて、音声信号の特徴シーケンスを切断するための切断情報を取得するよう構成される。特徴シーケンス切断モジュール720は、切断情報に基づいて、特徴シーケンスを複数のサブシーケンスに切断するよう構成される。認識結果取得モジュール730は、複数のサブシーケンスのうちのサブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得するよう構成される。
いくつかの実施例では、切断情報取得モジュール710は、特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行うことによって音声信号に関するスパイク情報を取得するよう構成されるスパイク情報取得モジュールと、取得されたスパイク情報に基づいて、切断情報を決定するよう構成される切断情報決定モジュールと、を含む。
いくつかの実施例では、認識結果取得モジュール730は、複数のサブシーケンスのうちの第1のサブシーケンスに対してアテンションモデルの第1のアテンションモデリングを実行するよう構成される第1のアテンションモデリング装置であって、アテンションモデルは重み付け特徴の選択が可能である第1のアテンションモデリング装置と、複数のサブシーケンスのうちの第2のサブシーケンスに対してアテンションモデルの第2のアテンションモデリングを実行するよう構成される第2のアテンションモデリング装置であって、第1のアテンションモデリングは第2のアテンションモデリングと異なる第2のアテンションモデリング装置と、を含む。
いくつかの実施例では、装置700は、音声信号を特徴シーケンスにエンコードするよう構成される共有エンコーダと、特徴シーケンスに基づいてスパイク情報を取得するよう構成されるコネクショニスト時系列分類(CTC)モジュールと、特徴シーケンスとスパイク情報とに基づいてリアルタイムの認識結果を取得するよう構成されるアテンションデコーダと、を含み、共有エンコーダは、CTCモジュールとアテンションデコーダで共有され、切断情報取得モジュール710は、CTCモジュールに含まれ、特徴シーケンス切断モジュール720と認識結果取得モジュール730とは、アテンションデコーダに含まれる。
いくつかの実施例では、装置700は、CTCモジュールをトレーニングするための第1の損失関数を決定するよう構成される第1の損失関数決定モジュールと、アテンションデコーダをトレーニングするための第2の損失関数を決定するよう構成される第2の損失関数決定モジュールと、第1の損失関数と第2の損失関数を使用してCTCモジュールとアテンションデコーダとを共にトレーニングするよう構成されるトレーニングモジュールと、をさらに含む。
いくつかの実施例では、特徴シーケンス切断モジュール720は、スパイク情報における各スパイクに対して、特徴シーケンスにおける各スパイクに隣接する所定の数のスパイクに対応するサブシーケンスを選択するよう構成されるサブシーケンス選択モジュールを含み、所定の数のスパイクは、各スパイクの前の第1の数のスパイクと各スパイクの後の第2の数のスパイクとを含む。
いくつかの実施例では、認識結果取得モジュール730は、特徴シーケンス内の重畳する複数のサブシーケンスに基づいて、第1レベルのアテンションメカニズムによって複数の特徴ベクトルをそれぞれ決定するよう構成される複数の特徴ベクトル決定モジュールと、決定された複数の特徴ベクトルに基づいて、第2レベルのアテンションメカニズムによって文脈特徴ベクトルを決定するよう構成される文脈特徴ベクトル決定モジュールと、決定された文脈特徴ベクトルに基づいて、リアルタイムの認識結果を決定するよう構成される認識結果決定モジュールと、を含む。
いくつかの実施例では、特徴シーケンスは暗黙的な特徴シーケンスであり、各スパイクは一つの音節又は1クループの音素を示す。
図7に示す切断情報取得モジュール710と、特徴シーケンス切断モジュール720と、認識結果取得モジュール730は、一つ又は複数の電子機器に含まれることができることを理解されたい。さらに、図7に示すモジュールは、本開示の実施例を参照する方法、又はプロセスにおけるステップ、又は動作を実行することができることを理解されたい。
図8は、本開示の実施を実現できる例示的な機器800の概略ブロック図を示す。機器800は、本開示により説明される切断アテンションに基づくリアルタイム音声認識の装置700、又はユーザ機器220、又はサーバ230を実現するために用いられる。図示されるように、機器800は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム命令、又は記憶ユニット808からランダムアクセスメモリ(RAM)803にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる中央処理装置(CPU)801を含む。RAM803には、機器800の操作に必要な各種のプログラム及びデータをさらに記憶することができる。CPU801と、ROM802と、RAM803とは、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
機器800におけるの複数のコンポーネントはI/Oインタフェース805に接続され、前記複数のコンポーネントは、キーボードやマウス等の入力ユニット806と、種々なディスプレイやスピーカ等の出力ユニット807と、磁気ディスクや光学ディスク等の記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバー等の通信ユニット809と、を含む。通信ユニット809は、機器800がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介してその他の機器と情報/データを交換することを許可する。
処理ユニット801は、前述した各方法及びプロセス、例えば方法300を実行する。例えば、いくつかの実施例では、方法は、記憶ユニット808のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ROM802及び/又は通信ユニット809を介して、機器800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされてCPU801により実行される場合に、前述した方法の一つ又は複数のステップを実行することができる。追加的に、他の実施例では、CPU801は、他の任意の適当な方式(例えば、ファームウェアを借りる等)により方法を実行するよう構成される。
本明細書では、前述した機能は、少なくとも部分的に一つ又は複数のハードウェアロジックコンポーネントによって実行することができる。例えば、非限定的に使用可能なハードウェアロジックコンポーネントとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)等が挙げられる。
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又はその他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/操作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、又は完全にリモートマシン又はサーバで実行されてもよい。
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線に基づいた電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD−ROM)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含んでもよい。
また、特定の順番で各動作又はステップを説明したが、このような動作又はステップを、示される特定の順番又は順次で実行することが求められ、又は図示した動作又はステップの全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスク及び並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現詳細が含まれるが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、一つの実施形態で組み合わせて実現することができる。逆に、一つの実施形態に説明された種々な特徴は、個別又は任意の適切なサブ組み合わせの方式で複数の実施形態で実現することができる。
構成の特徴及び/又は方法の論理動作を特定した言語により、本開示の実施例を説明したが、特許請求の範囲に限定される主題は、上記の特定の特徴又は動作に限定されない。上記の特定の特徴と動作は、特許請求の範囲を実現する例に過ぎない。

Claims (16)

  1. 切断アテンションに基づくリアルタイム音声認識方法であって、
    入力された音声信号に基づいて、前記音声信号の特徴シーケンスを切断するための切断情報を取得するステップと、
    前記切断情報に基づいて、前記特徴シーケンスを複数のサブシーケンスに切断するステップと、
    前記複数のサブシーケンスのうちのサブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得するステップと、を含み、
    音声信号の特徴シーケンスを切断するための切断情報を取得するステップは、
    前記特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行うことによって前記音声信号に関するスパイク情報を取得するステップと、
    取得された前記スパイク情報に基づいて、前記切断情報を決定するステップと、を含むことを特徴とする、切断アテンションに基づくリアルタイム音声認識方法。
  2. アテンションメカニズムによってリアルタイムの認識結果を取得するステップは、
    前記複数のサブシーケンスのうちの第1のサブシーケンスに対してアテンションモデルの第1のアテンションモデリングを実行するステップであって、前記アテンションモデルは重み付け特徴の選択が可能であるステップと、
    前記複数のサブシーケンスのうちの第2のサブシーケンスに対して前記アテンションモデルの第2のアテンションモデリングを実行するステップであって、前記第1のアテンションモデリングは前記第2のアテンションモデリングと異なるステップと、を含むことを特徴とする、請求項1に記載の切断アテンションに基づくリアルタイム音声認識方法。
  3. 前記方法は、
    共有エンコーダによって前記音声信号を前記特徴シーケンスにエンコードし、
    コネクショニスト時系列分類(CTC)モジュールによって前記特徴シーケンスに基づいて前記スパイク情報を取得し、
    アテンションデコーダによって前記特徴シーケンスと前記スパイク情報とに基づいて前記リアルタイムの認識結果を取得し、前記共有エンコーダは、前記コネクショニスト時系列分類(CTC)モジュールと前記アテンションデコーダで共有されることを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識方法。
  4. 前記方法は、
    前記コネクショニスト時系列分類(CTC)モジュールをトレーニングするための第1の損失関数を決定するステップと、
    前記アテンションデコーダをトレーニングするための第2の損失関数を決定するステップと、
    前記第1の損失関数と前記第2の損失関数を使用して前記コネクショニスト時系列分類(CTC)モジュールと前記アテンションデコーダとを共にトレーニングするステップと、をさらに含むことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識方法。
  5. 前記特徴シーケンスを複数のサブシーケンスに切断するステップは、
    前記スパイク情報における各スパイクに対して、前記特徴シーケンスにおける各スパイクに隣接する所定の数のスパイクに対応するサブシーケンスを選択するステップを含み、前記所定の数のスパイクは、各スパイクの前の第1の数のスパイクと各スパイクの後の第2の数のスパイクとを含むことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識方法。
  6. アテンションメカニズムによってリアルタイムの認識結果を取得するステップは、
    前記特徴シーケンス内の重畳する複数のサブシーケンスに基づいて、第1レベルのアテンションメカニズムによって複数の特徴ベクトルをそれぞれ決定するステップと、
    決定された前記複数の特徴ベクトルに基づいて、第2レベルのアテンションメカニズムによって文脈特徴ベクトルを決定するステップと、
    決定された前記文脈特徴ベクトルに基づいて、前記リアルタイムの認識結果を決定するステップと、を含むことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識方法。
  7. 前記特徴シーケンスは暗黙的な特徴シーケンスであり、各スパイクは一つの音節又は1クループの音素を示すことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識方法。
  8. 切断アテンションに基づくリアルタイム音声認識装置であって、
    入力された音声信号に基づいて、前記音声信号の特徴シーケンスを切断するための切断情報を取得するよう構成される切断情報取得モジュールと、
    前記切断情報に基づいて、前記特徴シーケンスを複数のサブシーケンスに切断するよう構成される特徴シーケンス切断モジュールと、
    前記複数のサブシーケンスのうちのサブシーケンスに対して、アテンションメカニズムによってリアルタイムの認識結果を取得するよう構成される認識結果取得モジュールと、を含み、
    前記切断情報取得モジュールは、
    前記特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行うことによって前記音声信号に関するスパイク情報を取得するよう構成されるスパイク情報取得モジュールと、
    取得された前記スパイク情報に基づいて、前記切断情報を決定するよう構成される切断情報決定モジュールと、を含むことを特徴とする、切断アテンションに基づくリアルタイム音声認識装置。
  9. 前記認識結果取得モジュールは、
    前記複数のサブシーケンスのうちの第1のサブシーケンスに対してアテンションモデルの第1のアテンションモデリングを実行するよう構成される第1のアテンションモデリング装置であって、前記アテンションモデルは重み付け特徴の選択が可能である第1のアテンションモデリング装置と、
    前記複数のサブシーケンスのうちの第2のサブシーケンスに対して前記アテンションモデルの第2のアテンションモデリングを実行するよう構成される第2のアテンションモデリング装置であって、前記第1のアテンションモデリングは前記第2のアテンションモデリングと異なる第2のアテンションモデリング装置と、を含むことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識装置。
  10. 前記装置は、
    前記音声信号を前記特徴シーケンスにエンコードするよう構成される共有エンコーダと、
    前記特徴シーケンスに基づいて前記スパイク情報を取得するよう構成されるコネクショニスト時系列分類(CTC)モジュールと、
    前記特徴シーケンスと前記スパイク情報とに基づいて前記リアルタイムの認識結果を取得するよう構成されるアテンションデコーダと、を含み、
    前記共有エンコーダは、前記コネクショニスト時系列分類(CTC)モジュールと前記アテンションデコーダで共有され、
    前記切断情報取得モジュールは、前記コネクショニスト時系列分類(CTC)モジュールに含まれ、前記特徴シーケンス切断モジュールと前記認識結果取得モジュールは、前記アテンションデコーダに含まれることを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識装置。
  11. 前記装置は、
    前記コネクショニスト時系列分類(CTC)モジュールをトレーニングするための第1の損失関数を決定するよう構成される第1の損失関数決定モジュールと、
    前記アテンションデコーダをトレーニングするための第2の損失関数を決定するよう構成される第2の損失関数決定モジュールと、
    前記第1の損失関数と前記第2の損失関数を使用して前記コネクショニスト時系列分類(CTC)モジュールと前記アテンションデコーダとを共にトレーニングするよう構成されるトレーニングモジュールと、をさらに含むことを特徴とする、請求項10に記載の切断アテンションに基づくリアルタイム音声認識装置。
  12. 前記特徴シーケンス切断モジュールは、
    前記スパイク情報における各スパイクに対して、前記特徴シーケンスにおける各スパイクに隣接する所定の数のスパイクに対応するサブシーケンスを選択するよう構成されるサブシーケンス選択モジュールを含み、前記所定の数のスパイクは、各スパイクの前の第1の数のスパイクと各スパイクの後の第2の数のスパイクとを含むことを特徴とする、請求項に記載の切断アテンションに基づくリアルタイム音声認識装置。
  13. 前記認識結果取得モジュールは、
    前記特徴シーケンス内の重畳する複数のサブシーケンスに基づいて、第1レベルのアテンションメカニズムによって複数の特徴ベクトルをそれぞれ決定するよう構成される複数の特徴ベクトル決定モジュールと、
    決定された前記複数の特徴ベクトルに基づいて、第2レベルのアテンションメカニズムによって文脈特徴ベクトルを決定するよう構成される文脈特徴ベクトル決定モジュールと、
    決定された前記文脈特徴ベクトルに基づいて、前記リアルタイムの認識結果を決定するよう構成される認識結果決定モジュールと、を含むことを特徴とする、請求項12に記載の切断アテンションに基づくリアルタイム音声認識装置。
  14. 前記特徴シーケンスは暗黙的な特徴シーケンスであり、各スパイクは一つの音節又は1クループの音素を示すことを特徴とする、請求項12に記載の切断アテンションに基づくリアルタイム音声認識装置。
  15. 電子機器であって、
    一つ又は複数のプロセッサと、
    一つ又は複数のプログラムを記憶するための記憶装置と、を含み、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行される場合に、前記電子機器が請求項1からのいずれかに記載の方法を実現することを特徴とする、電子機器。
  16. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサにより実行される場合に、請求項1からのいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
JP2019227539A 2019-01-08 2019-12-17 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Active JP6916264B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910016861.1A CN111429889B (zh) 2019-01-08 2019-01-08 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN201910016861.1 2019-01-08

Publications (2)

Publication Number Publication Date
JP2020112787A JP2020112787A (ja) 2020-07-27
JP6916264B2 true JP6916264B2 (ja) 2021-08-11

Family

ID=68916172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019227539A Active JP6916264B2 (ja) 2019-01-08 2019-12-17 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US10854193B2 (ja)
EP (1) EP3680894B1 (ja)
JP (1) JP6916264B2 (ja)
KR (1) KR102333939B1 (ja)
CN (1) CN111429889B (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429889B (zh) * 2019-01-08 2023-04-28 百度在线网络技术(北京)有限公司 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
US11404047B2 (en) * 2019-03-08 2022-08-02 International Business Machines Corporation Feature and feature variant reconstruction for recurrent model accuracy improvement in speech recognition
US11210477B2 (en) * 2019-05-09 2021-12-28 Adobe Inc. Systems and methods for transferring stylistic expression in machine translation of sequence data
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
JP7566789B2 (ja) * 2019-06-04 2024-10-15 グーグル エルエルシー 2パスエンドツーエンド音声認識
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
WO2021113443A1 (en) 2019-12-04 2021-06-10 Google Llc Two-pass end to end speech recognition
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111667828B (zh) * 2020-05-28 2021-09-21 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
CN111862987B (zh) * 2020-07-20 2021-12-28 北京百度网讯科技有限公司 语音识别方法和装置
WO2022024202A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 学習装置、音声認識装置、学習方法、音声認識方法、学習プログラム及び音声認識プログラム
CN111933122B (zh) * 2020-09-07 2024-06-18 北京有竹居网络技术有限公司 语音识别方法、装置、电子设备和计算机可读介质
CN112487812B (zh) * 2020-10-21 2021-07-06 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112466282B (zh) * 2020-10-22 2023-11-28 北京仿真中心 一种面向航天专业领域的语音识别系统和方法
CN112489637B (zh) * 2020-11-03 2024-03-26 北京百度网讯科技有限公司 语音识别方法和装置
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112382278B (zh) * 2020-11-18 2021-08-17 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112466288B (zh) * 2020-12-18 2022-05-31 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质
CN112802467B (zh) * 2020-12-21 2024-05-31 出门问问(武汉)信息科技有限公司 语音识别方法及装置
CN112466285B (zh) * 2020-12-23 2022-01-28 北京百度网讯科技有限公司 离线语音识别方法、装置、电子设备及存储介质
CN113327603B (zh) * 2021-06-08 2024-05-17 广州虎牙科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
WO2022259555A1 (ja) * 2021-06-11 2022-12-15 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
CN113470620A (zh) * 2021-07-06 2021-10-01 青岛洞听智能科技有限公司 一种语音识别方法
CN113674732B (zh) * 2021-08-16 2022-05-17 北京百度网讯科技有限公司 语音置信度检测方法、装置、电子设备和存储介质
CN113889076B (zh) * 2021-09-13 2022-11-01 北京百度网讯科技有限公司 语音识别及编解码方法、装置、电子设备及存储介质
CN113990325A (zh) * 2021-09-29 2022-01-28 联想(北京)有限公司 流式语音识别方法及装置、电子设备、存储介质
CN114155834A (zh) * 2021-11-29 2022-03-08 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端系统及设备
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN115223574B (zh) * 2022-07-15 2023-11-24 北京百度网讯科技有限公司 语音信息处理方法、模型的训练方法、唤醒方法及装置
CN115132210B (zh) * 2022-09-02 2022-11-18 北京百度网讯科技有限公司 音频识别方法、音频识别模型的训练方法、装置和设备
KR102515914B1 (ko) 2022-12-21 2023-03-30 주식회사 액션파워 Stt 모델을 활용하는 발음 전사 방법
CN116074446B (zh) * 2023-03-27 2023-12-01 北京科东电力控制系统有限责任公司 基于隐性马尔可夫模型训练的话务调配方法及系统
CN116682436A (zh) * 2023-07-27 2023-09-01 成都大成均图科技有限公司 一种应急警情受理信息识别方法及装置
CN116701610A (zh) * 2023-08-03 2023-09-05 成都大成均图科技有限公司 一种基于应急多源报警有效警情识别方法及装置
CN116946610B (zh) * 2023-09-21 2023-12-12 中科源码(成都)服务机器人研究院有限公司 一种智能仓储系统货物拾取方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257495A (ja) * 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
CN105529027B (zh) * 2015-12-14 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
US11087213B2 (en) * 2017-02-10 2021-08-10 Synaptics Incorporated Binary and multi-class classification systems and methods using one spike connectionist temporal classification
US10762427B2 (en) * 2017-03-01 2020-09-01 Synaptics Incorporated Connectionist temporal classification using segmented labeled sequence data
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing
CN111429889B (zh) * 2019-01-08 2023-04-28 百度在线网络技术(北京)有限公司 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质

Also Published As

Publication number Publication date
KR20200086214A (ko) 2020-07-16
US10854193B2 (en) 2020-12-01
CN111429889B (zh) 2023-04-28
EP3680894B1 (en) 2024-03-20
US20200219486A1 (en) 2020-07-09
JP2020112787A (ja) 2020-07-27
KR102333939B1 (ko) 2021-12-01
CN111429889A (zh) 2020-07-17
EP3680894A1 (en) 2020-07-15

Similar Documents

Publication Publication Date Title
JP6916264B2 (ja) 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP7167074B2 (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
CN116888662A (zh) 学习用于子词端到端自动语音识别的词级置信度
JP7590520B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
JP7375211B2 (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
KR20230158107A (ko) 효율적인 스트리밍 비-순환 온-디바이스 엔드-투-엔드 모델
JP2024512606A (ja) 自己アライメントを用いたストリーミングasrモデル遅延の短縮
JP2023084085A (ja) 音声認識のためのシステムおよび方法
JP2024512071A (ja) 自動音声認識のための多言語再スコアリングモデル
CN113763939A (zh) 基于端到端模型的混合语音识别系统及方法
CN116229940A (zh) 语音识别方法、系统及终端
JP7656680B2 (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
US20240153495A1 (en) Multi-Output Decoders for Multi-Task Learning of ASR and Auxiliary Tasks
Bijwadia et al. Text injection for capitalization and turn-taking prediction in speech models
US20240290321A1 (en) Chunk-wise attention for longform asr
KR20240068699A (ko) 마스크킹된 음성 모델링을 위한 안내 데이터 선택
CN116189666A (zh) 语音识别方法、系统及终端
Kimura et al. Expansion of wfst-based dialog management for handling multiple asr hypotheses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6916264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250