JP2024506544A - トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 - Google Patents
トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2024506544A JP2024506544A JP2023546106A JP2023546106A JP2024506544A JP 2024506544 A JP2024506544 A JP 2024506544A JP 2023546106 A JP2023546106 A JP 2023546106A JP 2023546106 A JP2023546106 A JP 2023546106A JP 2024506544 A JP2024506544 A JP 2024506544A
- Authority
- JP
- Japan
- Prior art keywords
- training
- model
- machine learning
- learning model
- computing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
Description
本出願は、米国仮特許出願第63/145,830号に対する優先権およびその利益を主張する。米国仮特許出願第63/145,830号は、その全体が参照により本明細書に組み込まれる。
概して、本開示は、機械学習型モデルの漸進学習を対象とする。より詳細には、本開示は、トレーニング速度を最適化するための、機械学習型モデルのトレーニング中の正則化の漸進調節に関する。例として、複数のトレーニングサンプル(たとえば、トレーニング画像、トレーニングデータセットなど)を、機械学習型モデル(たとえば、畳み込みニューラルネットワーク、深層学習ネットワークなど)用に取得することができる。1つまたは複数のトレーニング反復に対して、機械学習型モデルは、第1の正則化規模に基づいて、これらのトレーニングサンプルのうちの1つまたは複数を使ってトレーニングされ得る。第1の正則化規模は、1つまたは複数の正則化技法(たとえば、モデルドロップアウト、トレーニングデータ増補など)の相対的効果を制御するように構成され得る。1つまたは複数の第2のトレーニング反復に対して、モデルは、第1の正則化規模よりも大きい第2の正則化規模に少なくとも部分的に基づいてトレーニングされ得る。さらに、いくつかの実装形態では、トレーニングサンプルの複雑さ(たとえば、画像サイズ、データセットサイズなど)は、実質的に同様に、漸進的に増大され得る。比較的弱いレベルの正則化およびデータ複雑さでモデルを最初にトレーニングし、次いで、両方のパラメータを漸進的に増大させることによって、本開示のシステムおよび方法は、比較的早期のトレーニング反復中に要する計算リソースを実質的に削減し、したがって、モデルの正確さを増すとともに、モデルをトレーニングする全体的速度を同時に増大させる。
このセクションでは、EfficientNetのトレーニングボトルネックについて検討し、提案されるトレーニング認識NASおよびスケーリング、ならびにEfficientNetV2モデルを紹介する。
EfficientNetは、FLOPsおよびパラメータ効率のために最適化される系統のモデルである。これは、NASを活用して、正確さおよびFLOPsにおける、より優れたトレードオフを有するベースラインEfficientNet-B0を探索する。ベースラインモデルは次いで、モデル系統B1~B7を取得するように、複合スケーリング戦略でスケールアップされる。最近の研究は、トレーニングまたは推論速度での大きい利得を主張しているが、しばしば、パラメータおよびFLOPs効率ではEfficientNetよりも悪い。本開示は、パラメータ効率を保ったままトレーニング速度を向上する。
本セクションは、EfficientNet(これ以降、EfficientNetV1と呼ぶ)のトレーニングボトルネック、およびトレーニング速度を向上するためのいくつかの簡易技法について記載する。非常に大きい画像サイズでのトレーニングは遅く、以前の研究によって指摘されているように、EfficientNetV1の大きい画像サイズの結果、メモリ使用が多大になる。GPU/TPUにおける総メモリは固定なので、これらのモデルは概して、より小さいバッチサイズでトレーニングされ、これにより、トレーニングが徹底的に低速化する。簡単な向上は、推論用よりも小さい画像サイズをトレーニング用に使うことによって、FixResを適用することである。より小さい画像サイズは、より少ない計算につながり、大きいバッチサイズを可能にし、したがって、トレーニング速度を最大で2.2倍向上する。より小さい画像サイズをトレーニングに使うことは、わずかにより優れた正確さにもつながる。いくつかの実装形態では、トレーニングの後、どのレイヤも微調整されない。深度単位畳み込みは、早期レイヤにおいては遅いが、後の段階では効果的であり、EfficientNetV1の別のトレーニングボトルネックは、広範囲の深度単位畳み込みに由来する。深度単位畳み込みは、通常の畳み込みよりも少ないパラメータおよびFLOPsを有するが、しばしば、進歩的なアクセラレータを十分に使用することができない。最近、Fused-MBConvが、モバイルまたはサーバアクセラレータをより良好に使用するのに使われている。Fused-MBConvは、Gupta, S.およびTan, M. EfficientNet-EdgeTPU: Creating accelerator-optimized neural networks with automl. https://ai.googleblog.com/2019/08/efficientnetedgetpu-creating.html、2019に記載されている。Fused-MBConvは、MBConvにおける深度単位conv3×3および拡張conv1×1を、単一の通常conv3×3で置き換える。MBConvは、Sandlerら、Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR、2018ならびにTan, M.およびLe, Q. V. EfficientNet: Rethinking model scaling for convolutional neural networks. ICML、2019aに記載されている。Fused-MBConvおよびMBConvアーキテクチャは、図2Aに示される。
本開示の例示的実装形態は、トレーニング速度を向上するための複数の設計選択肢を提供する。それらの選択肢の最良の組合せを探索するために、このセクションでは、トレーニング認識NASを提案する。NAS探索、すなわち、本開示によって提案される例示的トレーニング認識NASフレームワークは、進歩的なアクセラレータにおいて、正確さ、パラメータ効率、およびトレーニング効率を合わせて最適化することを目指す。具体的には、NASは、そのバックボーンとして、EfficientNetを使う。探索空間は、Tanら、Mnasnet: Platform-aware neural architecture search for mobile. CVPR、2019と同様の、段階ベースの因数分解空間であってよいが、これは、畳み込み動作タイプ{MBConv,Fused-MBConv}、レイヤの数、カーネルサイズ{3×3,5×5}、拡張比{1,4,6}のための設計選択肢からなる。一方、探索空間サイズは任意選択で、(1)プーリングスキップオプションなど、不必要な探索オプションを、オリジナルEfficientNetでは使われることがないので取り除くこと、(2)バックボーンからの同じチャネルサイズを、オリジナルEfficientNetにおいてすでに探索されているので再利用することによって、低減することができる。探索空間はより小さいので、探索プロセスは、EfficientNet-B4と匹敵するサイズを有するはるかに大きいネットワークにおいて、強化学習または単にランダムな探索を適用することができる。具体的には、例示的探索手法は、最大で1000個のモデルをサンプリングし、トレーニング用の低減された画像サイズで、各モデルを約10エポックだけトレーニングすることができる。例示的探索報酬は、モデル正確さA、正規化トレーニングステップ時間S、およびパラメータサイズPを、単純な加重積A・Sw・Pvを使って組み合わせることができ、ここで、w=-0.07およびv=-0.05は、トレードオフを釣り合わせるために経験により判断される。
例示的誘導
前のセクションにおいて論じたように、画像サイズは、トレーニング効率において重要な役割を果たす。FixResに加え、多くの他の研究が、トレーニング中に画像サイズを動的に変えるが、しばしば、正確さの低下を引き起こす。この正確さの低下は、不均衡な正則化による見込みがあり、異なる画像サイズでトレーニングするとき、正則化強度をそれに従って(以前の研究でのように、固定された正則化を使うのではなく)調節することも、やはり最良である。実際、大きいモデルは、過剰適合に対抗するために、より強い正則化を要することが一般的であり、たとえば、EfficientNet-B7は、B0よりも大きいドロップアウトおよび強いデータ増補を使う。本開示は、同じネットワークに対してであっても、より小さい画像サイズがより小さいネットワーク容量につながり、したがって、より弱い正則化を必要とし、逆も真であり、より大きい画像サイズが、より大きい容量でのより多くの計算につながり、したがって、過剰適合に対してより脆弱であることを示唆する。
改良型漸進学習を用いる一例示的トレーニングプロセスは以下の通りであり、すなわち、早期トレーニングエポックにおいて、ネットワークは、より小さい画像および弱い正則化でトレーニングされ、そうすることによって、ネットワークは、簡易表現を容易に、速く学習することができる。次いで、画像サイズは徐々に増大され得るが、より強い正則化を加えることによって、学習もより困難にされる。
入力:初期画像サイズS0および正則化
入力:最終画像サイズSeおよび正則化
入力:総トレーニングステップ数Nおよび段階M。
for i=0 to M-1 do
画像サイズ:
end for
図1Aは、本開示の例示的実施形態による、漸進正則化を使ってモデルトレーニングを実施する例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
図2Bは、本開示の例示的実施形態による、トレーニング速度を高めるためのアーキテクチャ探索技法を通して生成された例示的機械学習型モデル202のブロック図を示す。いくつかの実装形態では、機械学習型モデル202は、入力データ204(たとえば、画像データ、統計的データ、ビデオデータなど)のセットを受信し、入力データ204の受信の結果として、出力データ210を与えるようにトレーニングされる。より具体的には、機械学習型モデル202は複数の段階を含み得る。機械学習型モデル202は、第1のモデル段階206および第2のモデル段階208を含み得る。
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに取られるアクション、およびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性は、構成要素の間でのタスクおよび機能の多種多様な可能な構成、組合せ、および分割を可能にする。たとえば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素、または組合せにおいて働く複数のデバイスもしくは構成要素を使用して実装され得る。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムにわたって分散され得る。分散構成要素は、順次または並行して動作することができる。
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ、コンピューティングデバイスメモリ
120 モデル、機械学習型モデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
140 モデル、機械学習型モデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
160 モデル訓練器
180 ネットワーク
202 機械学習型モデル
302 トレーニングコントローラ
304 訓練器
306 機械学習型モデル
402 モデル探索アーキテクチャ
404 機械学習型モデル
410 機械学習型モデル
Claims (24)
- 効率的機械学習型モデルトレーニングのためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、機械学習型モデル向けの複数のトレーニングサンプルを取得するステップと、
1つまたは複数の第1のトレーニング反復に対して、
前記コンピューティングシステムによって、1つまたは複数の正則化技法の相対的効果を制御するように構成された第1の正則化規模に少なくとも部分的に基づいて、前記複数のトレーニングサンプルのうちの1つまたは複数のそれぞれの第1のトレーニングサンプルを使って、前記機械学習型モデルをトレーニングするステップと、
1つまたは複数の第2のトレーニング反復に対して、
前記コンピューティングシステムによって、前記第1の正則化規模よりも大きい第2の正則化規模に少なくとも部分的に基づいて、前記複数のトレーニングサンプルのうちの1つまたは複数のそれぞれの第2のトレーニングサンプルを使って、前記機械学習型モデルをトレーニングするステップとを含む、コンピュータ実装方法。 - 機械学習型モデル向けの前記複数のトレーニングサンプルを取得するステップは、前記コンピューティングシステムによって、前記1つまたは複数の第1のトレーニングサンプル向けの第1のサンプル複雑さを判断するステップをさらに含み、
前記1つまたは複数のそれぞれの第2のトレーニングサンプルを使って前記機械学習型モデルをトレーニングするのに先立って、前記方法は、前記コンピューティングシステムによって、前記1つまたは複数の第2のトレーニングサンプル向けの第2のサンプル複雑さを判断するステップを含み、前記第2のサンプル複雑さは前記第1のサンプル複雑さよりも大きい、請求項1に記載のコンピュータ実装方法。 - 前記複数のトレーニングサンプルは、それぞれの複数のトレーニング画像を含み、
前記1つまたは複数の第2のトレーニングサンプル向けの前記第2のサンプル複雑さを判断するステップは、前記コンピューティングシステムによって、1つまたは複数の第2のトレーニング画像のサイズを調節するステップを含み、前記1つまたは複数の第2のトレーニング画像の前記サイズは、1つまたは複数の第1のトレーニング画像のサイズよりも大きい、請求項2に記載のコンピュータ実装方法。 - 前記機械学習型モデル用の前記複数のトレーニングサンプルを取得するのに先立って、
機械学習型モデル探索アーキテクチャを使う前記コンピューティングシステムによって、1つまたは複数のそれぞれのパラメータについての1つまたは複数の第1の値を含む初期機械学習型モデルを生成するステップと、
前記コンピューティングシステムによって、前記初期機械学習型モデルの第1のトレーニング速度を判断するステップと、
前記機械学習型モデル探索アーキテクチャを使う前記コンピューティングシステムによって、前記機械学習型モデルを生成するステップであって、前記機械学習型モデルは、前記1つまたは複数のそれぞれのパラメータについての1つまたは複数の第2の値を含み、前記1つまたは複数の第2の値のうちの少なくとも1つは、前記1つまたは複数の第1の値とは異なる、ステップとを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。 - 前記コンピューティングシステムによって、前記機械学習型モデルの第2のトレーニング速度を判断するステップをさらに含み、前記第2のトレーニング速度は前記第1のトレーニング速度よりも大きい、請求項4に記載のコンピュータ実装方法。
- 前記機械学習型モデルは複数のシーケンシャルモデル段階を含み、各モデル段階は1つまたは複数のレイヤを含み、第1のモデル段階は、前記複数のモデル段階のうちの第2のモデル段階よりも少ないレイヤを含む、請求項4または5に記載のコンピュータ実装方法。
- 前記1つまたは複数の正則化技法は、
前記コンピューティングシステムによって、前記機械学習型モデルの少なくとも1つのレイヤのモデルチャネルの数を調節すること、または
前記コンピューティングシステムによって、前記複数のトレーニングサンプルの1つまたは複数のトレーニングサンプルの少なくとも1つの特性を調節することのうちの少なくとも1つを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。 - 前記第2の正則化規模は、前記1つまたは複数の第1のトレーニング反復からの1つまたは複数のそれぞれのトレーニング出力に少なくとも部分的に基づく、請求項1に記載のコンピュータ実装方法。
- 最適化されたトレーニング速度をもつモデルの判断のためのコンピューティングシステムであって、
1つまたは複数のプロセッサと、
コンピュータ可読命令を記憶する1つまたは複数の有形非一時的コンピュータ可読媒体とを備え、前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させ、前記動作は、
定義されたモデル探索空間から第1の機械学習型モデルを生成することであって、前記定義されたモデル探索空間は1つまたは複数の探索可能パラメータを含み、前記第1の機械学習型モデルは、前記1つまたは複数の探索可能パラメータについての1つまたは複数の第1の値を含む、ことと、
前記第1の機械学習型モデルに対してモデルトレーニングプロセスを実施して、第1のトレーニング速度を記述する第1のトレーニングデータを取得することと、
前記第1のトレーニングデータに少なくとも部分的に基づいて、前記定義されたモデル探索空間から第2の機械学習型モデルを生成することであって、前記第2の機械学習型モデルは、前記1つまたは複数の探索可能パラメータについての1つまたは複数の第2の値を含み、前記1つまたは複数の第2の値のうちの少なくとも1つは、前記1つまたは複数の第1の値とは異なる、ことと、
前記第2の機械学習型モデルに対して前記モデルトレーニングプロセスを実施して、第2のトレーニング速度を記述する第2のトレーニングデータを取得することであって、前記第2のトレーニング速度は前記第1のトレーニング速度よりも速い、こととを含む、コンピューティングシステム。 - 前記定義されたモデル探索空間の複数のモデルレイヤは、
畳み込みレイヤ、または
融合畳み込みレイヤのうちの少なくとも1つを含む、請求項9に記載のコンピューティングシステム。 - 前記第2の機械学習型モデルは複数のシーケンシャルモデル段階を含み、各モデル段階は1つまたは複数のモデルレイヤを含み、第1のモデル段階は、前記複数のモデル段階のうちの第2のモデル段階よりも少ないモデルレイヤを含む、請求項9または10に記載のコンピューティングシステム。
- 前記第1のトレーニングデータは、第1のトレーニング正確さをさらに記述し、前記第2のトレーニングデータは、前記第1のトレーニング正確さよりも大きい第2のトレーニング正確さをさらに記述する、請求項9から11のいずれか一項に記載のコンピューティングシステム。
- 前記定義されたモデル探索空間から前記第2の機械学習型モデルを生成することは、前記第1のトレーニング正確さにさらに少なくとも部分的に基づく、請求項12に記載のコンピューティングシステム。
- 前記第1の機械学習型モデルに対してモデルトレーニングプロセスを実施することは、
前記第1の機械学習型モデル用の複数のトレーニングサンプルを取得することと、
1つまたは複数の第1のトレーニング反復に対して、
1つまたは複数の正則化技法の相対的効果を制御するように構成された第1の正則化規模に少なくとも部分的に基づいて、前記複数のトレーニングサンプルのうちの1つまたは複数のそれぞれの第1のトレーニングサンプルを使って、前記第1の機械学習型モデルをトレーニングすることと、
1つまたは複数の第2のトレーニング反復に対して、
前記第1の正則化規模よりも大きい第2の正則化規模に少なくとも部分的に基づいて、前記複数のトレーニングサンプルのうちの1つまたは複数のそれぞれの第2のトレーニングサンプルを使って、前記第1の機械学習型モデルをトレーニングすることとを含む、請求項9から13のいずれか一項に記載のコンピューティングシステム。 - 前記複数のトレーニングサンプルは、それぞれの複数のトレーニング画像を含み、
前記1つまたは複数の第2のトレーニングサンプル向けの第2のサンプル複雑さを判断することは、1つまたは複数の第2のトレーニング画像のサイズを調節することを含み、前記1つまたは複数の第2のトレーニング画像の前記サイズは、1つまたは複数の第1のトレーニング画像のサイズよりも大きい、請求項14に記載のコンピューティングシステム。 - 前記複数のトレーニングサンプルは、それぞれの複数のトレーニング画像を含み、
前記1つまたは複数の第2のトレーニングサンプル向けの前記第2のサンプル複雑さを判断することは、1つまたは複数の第2のトレーニング画像のサイズを調節することを含み、前記1つまたは複数の第2のトレーニング画像の前記サイズは、1つまたは複数の第1のトレーニング画像のサイズよりも大きい、請求項15に記載のコンピューティングシステム。 - 前記1つまたは複数のパラメータのうちの少なくとも1つは、モデルレイヤのタイプまたは機械学習型モデルに含まれるモデルレイヤの数のうちの1つまたは複数を制御するように構成される、請求項9から16のいずれか一項に記載のコンピューティングシステム。
- 前記動作は、前記第2の機械学習型モデルを出力として提供することをさらに含む、請求項9から17のいずれか一項に記載のコンピューティングシステム。
- 前記定義されたモデル探索空間から前記第2の機械学習型モデルを生成することは、前記第2の機械学習型モデルのための複数のシーケンシャル処理段階を判断することをさらに含み、前記複数のシーケンシャル処理段階の各々は、1つまたは複数のモデルレイヤに関連付けられ、前記複数の処理段階のうちの第2の処理段階に関連付けられたモデルレイヤの数は、前記複数の処理段階の第1の処理段階に関連付けられたモデルレイヤの数よりも大きい、請求項9から18のいずれか一項に記載のコンピューティングシステム。
- 1つまたは複数の有形非一時的コンピュータ可読媒体であって、
複数のFused-MBConv段階の第1のシーケンス、および
複数のMBConv段階の第2のシーケンスであって、前記複数のMBConv段階の前記第2のシーケンスは、前記複数のFused-MBConv段階の前記第1のシーケンスに続く、複数のMBConv段階の第2のシーケンスを含む機械学習型モデルと、
1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させるコンピュータ可読命令とを記憶し、前記動作は、
モデル入力を取得することと、
前記モデル入力を前記機械学習型モデルで処理して、モデル出力を生成することとを含む、1つまたは複数の有形非一時的コンピュータ可読媒体。 - 前記複数のFused-MBConv段階は、3つのFused-MBConv段階からなる、請求項20に記載の1つまたは複数の有形非一時的コンピュータ可読媒体。
- 前記3つのFused-MBConv段階は、2、4、および4つのレイヤをそれぞれ有する第1、第2、および第3のFused-MBConv段階を含む、請求項21に記載の1つまたは複数の有形非一時的コンピュータ可読媒体。
- 前記3つのFused-MBConv段階は、24、48、および64個のチャネルをそれぞれ有する第1、第2、および第3のFused-MBConv段階を含む、請求項21または22に記載の1つまたは複数の有形非一時的コンピュータ可読媒体。
- 前記3つのFused-MBConv段階は、3×3カーネルを各々が有する第1、第2、および第3のFused-MBConv段階を含む、請求項21から23のいずれか一項に記載の1つまたは複数の有形非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163145830P | 2021-02-04 | 2021-02-04 | |
US63/145,830 | 2021-02-04 | ||
PCT/US2021/065448 WO2022169521A1 (en) | 2021-02-04 | 2021-12-29 | Systems and methods for progressive learning for machine-learned models to optimize training speed |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024506544A true JP2024506544A (ja) | 2024-02-14 |
Family
ID=80001529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023546106A Pending JP2024506544A (ja) | 2021-02-04 | 2021-12-29 | トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US11450096B2 (ja) |
EP (1) | EP4238008A1 (ja) |
JP (1) | JP2024506544A (ja) |
CN (1) | CN116868204A (ja) |
WO (1) | WO2022169521A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2024506544A (ja) * | 2021-02-04 | 2024-02-14 | グーグル エルエルシー | トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 |
EP4327298A1 (en) * | 2021-04-21 | 2024-02-28 | Volta Charging, LLC | System and method for automatic treadwear classification |
US12144672B2 (en) * | 2021-11-29 | 2024-11-19 | GE Precision Healthcare LLC | System and method for autonomous identification of heterogeneous phantom regions |
CN115861855B (zh) * | 2022-12-15 | 2023-10-24 | 福建亿山能源管理有限公司 | 一种光伏电站的运维监测方法及系统 |
CN116910185B (zh) * | 2023-09-07 | 2023-11-28 | 北京中关村科金技术有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN118170930B (zh) * | 2024-03-25 | 2024-08-30 | 杭州朗视视频技术有限公司 | 基于元学习的媒体内容安全监测系统及方法 |
CN118011514B (zh) * | 2024-04-10 | 2024-07-05 | 成都理工大学 | 一种应用于盆地基底界面起伏及密度的预测方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756175B1 (en) * | 2012-02-22 | 2014-06-17 | Google Inc. | Robust and fast model fitting by adaptive sampling |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
US10217060B2 (en) * | 2016-06-09 | 2019-02-26 | The Regents Of The University Of California | Capacity augmentation of 3G cellular networks: a deep learning approach |
US10586310B2 (en) * | 2017-04-06 | 2020-03-10 | Pixar | Denoising Monte Carlo renderings using generative adversarial neural networks |
US10325602B2 (en) * | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
US10789158B2 (en) * | 2018-03-21 | 2020-09-29 | Sap Se | Adaptive monitoring of applications |
US10769766B1 (en) * | 2018-05-31 | 2020-09-08 | Amazon Technologies, Inc. | Regularized multi-label classification from partially labeled training data |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
US10922816B2 (en) * | 2018-08-27 | 2021-02-16 | Siemens Healthcare Gmbh | Medical image segmentation from raw data using a deep attention neural network |
US11687086B2 (en) * | 2020-07-09 | 2023-06-27 | Brookhurst Garage, Inc. | Autonomous robotic navigation in storage site |
US20220067146A1 (en) * | 2020-09-01 | 2022-03-03 | Fortinet, Inc. | Adaptive filtering of malware using machine-learning based classification and sandboxing |
US12131231B2 (en) * | 2020-09-16 | 2024-10-29 | International Business Machines Corporation | Federated learning technique for applied machine learning |
JP2024506544A (ja) * | 2021-02-04 | 2024-02-14 | グーグル エルエルシー | トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 |
EP4327298A1 (en) * | 2021-04-21 | 2024-02-28 | Volta Charging, LLC | System and method for automatic treadwear classification |
US20230153577A1 (en) * | 2021-11-16 | 2023-05-18 | Qualcomm Incorporated | Trust-region aware neural network architecture search for knowledge distillation |
US20230394781A1 (en) * | 2022-06-01 | 2023-12-07 | Nvidia Corporation | Global context vision transformer |
-
2021
- 2021-12-29 JP JP2023546106A patent/JP2024506544A/ja active Pending
- 2021-12-29 WO PCT/US2021/065448 patent/WO2022169521A1/en active Application Filing
- 2021-12-29 US US17/564,860 patent/US11450096B2/en active Active
- 2021-12-29 EP EP21848102.6A patent/EP4238008A1/en active Pending
- 2021-12-29 CN CN202180093041.8A patent/CN116868204A/zh active Pending
-
2022
- 2022-09-13 US US17/943,880 patent/US12062227B2/en active Active
-
2024
- 2024-07-01 US US18/761,065 patent/US20240355101A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US12062227B2 (en) | 2024-08-13 |
US20240355101A1 (en) | 2024-10-24 |
US20220245928A1 (en) | 2022-08-04 |
WO2022169521A1 (en) | 2022-08-11 |
US20230017808A1 (en) | 2023-01-19 |
US11450096B2 (en) | 2022-09-20 |
CN116868204A (zh) | 2023-10-10 |
EP4238008A1 (en) | 2023-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2024506544A (ja) | トレーニング速度を最適化するための機械学習型モデル向けの漸進学習のためのシステムおよび方法 | |
JP2024519657A (ja) | 精度が向上し、計算リソースの消費が減少した拡散モデル | |
US20230401382A1 (en) | Dynamic Language Models for Continuously Evolving Content | |
JP7604675B2 (ja) | 畳み込みおよび注意を有する機械学習型モデルのためのシステムおよび方法 | |
US20230124288A1 (en) | Responsible Artificial Intelligence Controller | |
WO2023133204A1 (en) | Machine learning models featuring resolution-flexible multi-axis attention blocks | |
WO2024086598A1 (en) | Text-driven image editing via image-specific finetuning of diffusion models | |
Park et al. | Videomamba: Spatio-temporal selective state space model | |
EP4165557A1 (en) | Systems and methods for generation of machine-learned multitask models | |
US20210383237A1 (en) | Training Robust Neural Networks Via Smooth Activation Functions | |
US20240232637A9 (en) | Method for Training Large Language Models to Perform Query Intent Classification | |
EP4107671A1 (en) | System and method for training a sparse neural network whilst maintaining sparsity | |
WO2021236051A1 (en) | Few-shot domain adaptation in generative adversarial networks | |
US20230297852A1 (en) | Multi-Stage Machine Learning Model Synthesis for Efficient Inference | |
US20230401429A1 (en) | Method and apparatus for audio processing using a convolutional neural network architecture | |
EP3888010A1 (en) | Systems and related methods for reducing the resource consumption of a convolutional neural network | |
WO2023172692A1 (en) | Maximizing generalizable performance by extraction of deep learned features while controlling for known variables | |
JP7653406B2 (ja) | 機械学習推論用のグラフィックス処理の最適化のためのシステムおよび方法 | |
US20240428137A1 (en) | Typicality of Batches for Machine Learning | |
US20220414542A1 (en) | On-The-Fly Feeding of Personalized or Domain-Specific Submodels | |
US20210383221A1 (en) | Systems And Methods For Machine-Learned Models With Message Passing Protocols | |
JP2023157833A (ja) | 機械学習推論用のグラフィックス処理の最適化のためのシステムおよび方法 | |
WO2024215729A1 (en) | Conditional adapter models for parameter-efficient transfer learning with fast inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230927 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240930 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250318 |