JP2025508348A - バイオ医薬品製造における精製プロセスのための高度なデータ駆動モデリング - Google Patents
バイオ医薬品製造における精製プロセスのための高度なデータ駆動モデリング Download PDFInfo
- Publication number
- JP2025508348A JP2025508348A JP2024545897A JP2024545897A JP2025508348A JP 2025508348 A JP2025508348 A JP 2025508348A JP 2024545897 A JP2024545897 A JP 2024545897A JP 2024545897 A JP2024545897 A JP 2024545897A JP 2025508348 A JP2025508348 A JP 2025508348A
- Authority
- JP
- Japan
- Prior art keywords
- model
- level
- chemical process
- performance
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 116
- 230000008569 process Effects 0.000 title claims description 70
- 229960000074 biopharmaceutical Drugs 0.000 title description 6
- 238000001311 chemical methods and process Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000000746 purification Methods 0.000 claims description 26
- 238000000513 principal component analysis Methods 0.000 claims description 24
- 108090000623 proteins and genes Proteins 0.000 claims description 17
- 102000004169 proteins and genes Human genes 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 16
- 238000011161 development Methods 0.000 claims description 12
- 238000012856 packing Methods 0.000 claims description 12
- 238000004587 chromatography analysis Methods 0.000 claims description 9
- 238000010828 elution Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 6
- 238000005406 washing Methods 0.000 claims description 6
- 238000004113 cell culture Methods 0.000 claims description 5
- 239000012460 protein solution Substances 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 claims description 3
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 239000002609 medium Substances 0.000 claims description 3
- 239000006143 cell culture medium Substances 0.000 claims description 2
- 241000700605 Viruses Species 0.000 claims 1
- 238000007670 refining Methods 0.000 claims 1
- 238000000491 multivariate analysis Methods 0.000 description 24
- 239000011159 matrix material Substances 0.000 description 19
- 238000012544 monitoring process Methods 0.000 description 15
- 238000001042 affinity chromatography Methods 0.000 description 14
- 238000011068 loading method Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 13
- 238000002790 cross-validation Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 238000010977 unit operation Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000011067 equilibration Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000011324 bead Substances 0.000 description 4
- 238000013406 biomanufacturing process Methods 0.000 description 4
- 239000012535 impurity Substances 0.000 description 4
- 239000003446 ligand Substances 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 229940088679 drug related substance Drugs 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 230000005526 G1 to G0 transition Effects 0.000 description 2
- 238000012369 In process control Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000001261 affinity purification Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 238000010965 in-process control Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001742 protein purification Methods 0.000 description 2
- 229960000160 recombinant therapeutic protein Drugs 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000011210 chromatographic step Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012777 commercial manufacturing Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000012149 elution buffer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- GPRLSGONYQIRFK-UHFFFAOYSA-N hydron Chemical compound [H+] GPRLSGONYQIRFK-UHFFFAOYSA-N 0.000 description 1
- 238000004191 hydrophobic interaction chromatography Methods 0.000 description 1
- 238000005342 ion exchange Methods 0.000 description 1
- 238000004255 ion exchange chromatography Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000011534 wash buffer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8693—Models, e.g. prediction of retention times, method development and validation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
- G01N2030/8886—Analysis of industrial production processes
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
- Peptides Or Proteins (AREA)
Abstract
一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための例示的な方法は、化学プロセスのインスタンスに関連するデータを取得するステップと、化学プロセスのインスタンスに関連するデータに基づいて、複数の性能閾値を使用して化学プロセスのインスタンスの性能を評価するステップと、を含み、複数の性能閾値は、化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、階層モデルは、階層の第1のレベルの複数のバッチ進化モデル(BEM)と、階層の第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)と、階層の第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルと、を含む。
【選択図】図1
【選択図】図1
Description
関連出願の相互参照
本出願は、2022年2月4日に出願された米国仮特許出願第63/306,971号の益を主張し、その開示は、その全体が参照により本明細書に組み込まれる。
本出願は、2022年2月4日に出願された米国仮特許出願第63/306,971号の益を主張し、その開示は、その全体が参照により本明細書に組み込まれる。
本開示は、概して化学プロセスの性能を評価することに関し、より具体的には、一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するために機械学習およびデータモデリング技術を使用することに関する。
精製は、その活性形態の治療用タンパク質を他の不純物から分離することを可能にする、バイオ医薬品製造における重要なプロセスである。典型的な精製プロセスは、いくつかのクロマトグラフィベースの単位操作を含むことができ、各単位操作は、複数のフェーズを含むことができる。
各クロマトグラフィステップの操作中、連続的な(各バッチのパラメータ毎の時系列データ)は、生産フロアのクロマトグラフィスキッドに設置されたインライン/オンラインセンによって生成され得、バッチデータ(例えば、各バッチのパラメータ毎に1つのデータポイント)は、それぞれアットライン/オフラインインプロセス試料によって生成され得る。これらのバイオ製造プロセスデータは、プロセス専門家の決定および行動を支持するための彼らの洞察を生成することができる高度なデータ駆動モデルの開発のために活用することができる。
従来、インライン/オンライン/アットライン/オフライン分析の各々の管理チャートは、バイオ製造プロセスを監視するために、単変量的(例えば、チャート毎に1つのパラメータ)な傾向がある。これにより、パラメータ間の任意の相関を見つけるために、同時に複数のチャートを検討する必要が生じる。これにより、リアルタイムの早期障害検出および遡及的な根本原因分析は時間がかかり、面倒になる。加えて、各パラメータの個々のチャートを単純に検討することによって複数の属性間の関係を見出そうとすることは、例外的に困難であり、基礎となる相関を全て捕捉する上で制限される可能性がある。多変量データ解析(MVDA)は、大きく複雑な異種データセットを全て同時に効果的に分析するために使用することができる高度な統計技術を含む方法論である。このようなMVDAモデルの開発および展開は、より効果的で効率的なほぼリアルタイムのプロセス監視、早期障害検出および診断を可能にする。MVDAモデルは、プロセス変数間の相関構造において見出された有用なプロセス情報を活用しながら、わずかな多変量メトリックのみを用いて複数のプロセス変数を監視するために使用することができる。したがって、MVDAは、プロセスエクスカーションの根本原因特定によってプロセス技術者および科学者を支援し、全体的なプロセスの理解および制御を強化するために活用することができる製造作業の多くの洞察を提供するために使用することができる、強力な方法論である。
本開示の実施形態は、商用生物製剤製造におけるアフィニティクロマトグラフィカラムへの高度なデータ駆動モデリングの適用を含む。これは、精製ステップにおいてプロセスパラメータおよびインプロセス制御パラメータを使用し、その間の相関を視覚化する、多変量モデルを開発することを含む。具体的には、本開示の実施形態は、(a)精製単位操作およびその対応するフェーズの効果的な監視のための階層データ駆動モデリング方法論の適用を提示し、(b)このようなデータ駆動モデルの有用性を強調し、(c)生物製剤製造における高度なデータ駆動モデルの開発に含まれる重要なステップの概要を提供するために使用することができる。モデルはアフィニティクロマトグラフィカラムのために開発されているが、イオン交換、水素イオン濃度など、他のタイプのクロマトグラフィカラムを監視するために、同様のモデリング手法を採用することができる。本明細書で論じられるデータ駆動モデリング手法の基本概念は、バイオ製造プロセス中に生成されたデータの相関およびパターンを見出すことである。
一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための例示的な方法は、化学プロセスのインスタンスに関連するデータを取得するステップと、化学プロセスのインスタンスに関連するデータに基づいて、複数の性能閾値を使用して化学プロセスのインスタンスの性能を評価するステップと、を含み、複数の性能閾値は、化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、階層モデルは、階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチ進化モデル(BEM)と、階層の第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチレベルモデル(BLM)と、階層の第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、全体性能モデルは一連の連続フェーズの全てに対応する、全体性能モデルと、を含む。
いくつかの実施形態では、化学プロセスは、1つ以上のクロマトグラフィカラムを使用して細胞培養液中の他のタンパク質から組換えタンパク質を分離するための精製プロセスである。
いくつかの実施形態では、一連のフェーズは、1つ以上のクロマトグラフィカラムの平衡化、充填、洗浄、および溶出を含む。
いくつかの実施形態では、化学プロセスは、細胞培養開発プロセス、細胞分離プロセス、ウイルス不活性化プロセス、医薬品の製造プロセス、またはこれらの任意の組み合わせを含む。
いくつかの実施形態では、複数のBEMの各BEMは、化学プロセスのフェーズに関連するインラインデータを評価するための1つ以上の性能閾値を取得するように訓練される。
いくつかの実施形態では、1つ以上の性能閾値は、ホテリングのT2法および1つ以上のモデル残差を含む。
いくつかの実施形態では、複数のBEMは、化学プロセスの1つ以上の履歴インスタンスに関連するインラインデータを使用して訓練される。
いくつかの実施形態では、インラインデータは、1つ以上のセンサから取得された時系列データを含む。
いくつかの実施形態では、インラインデータは、定義された頻度で補間される。
いくつかの実施形態では、複数のBEMの各BEMモデルは、部分最小二乗(PLS)モデルである。
いくつかの実施形態では、複数のBLMの各BLMは、化学プロセスのフェーズに関連するインラインデータ、アットラインデータ、およびオフラインデータを評価するための1つ以上の性能閾値を取得するように訓練される。
いくつかの実施形態では、1つ以上の性能閾値は、ホテリングのT2法および1つ以上のモデル残差を含む。
いくつかの実施形態では、複数のBLMは、化学プロセスの1つ以上の履歴インスタンスに関連するインラインデータ、アットラインデータ、およびオフラインデータを使用して訓練される。
いくつかの実施形態では、アットラインデータおよびオフラインデータは、タンパク質溶液(バルク)属性、バルク融解プロセス属性、カラム充填属性、カラム属性、溶出属性、試料測定値、またはこれらの任意の組み合わせを含む。
いくつかの実施形態では、複数のBLMの各BLMモデルは、主成分分析(PCA)モデルである。
いくつかの実施形態では、全体性能モデルは、第2のレベルの訓練されたBLMモデルに基づいて訓練される。
いくつかの実施形態では、方法は、化学プロセスのインスタンスの評価された性能の1つ以上の結果をディスプレイに表示するステップをさらに含む。
いくつかの実施形態では、方法は、化学プロセスのインスタンスの評価された性能に基づいて化学プロセスの変数を更新するステップをさらに含む。
一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための例示的なシステムは、1つ以上のプロセッサと、メモリと、1つ以上のプログラムであって、1つ以上のプログラムは、メモリに記憶されており、1つ以上のプロセッサによって実行されると、化学プロセスのインスタンスに関連するデータを取得し、化学プロセスのインスタンスに関連するデータに基づいて、複数の性能閾値を使用して化学プロセスのインスタンスの性能を評価するための命令を含み、複数の性能閾値は、化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、階層モデルは、階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチ進化モデル(BEM)と、階層の第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチレベルモデル(BLM)と、階層の第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、全体性能モデルは一連の連続フェーズの全てに対応する、全体性能モデルと、を含む、1つ以上のプログラムと、を備える。
例示的な非一時的コンピュータ可読記憶媒体は、一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための1つ以上のプログラムを記憶し、1つ以上のプログラムは、電子デバイスの1つ以上のプロセッサによって実行されると、電子デバイスに、化学プロセスのインスタンスに関連するデータを取得させ、化学プロセスのインスタンスに関連するデータに基づいて、複数の性能閾値を使用して化学プロセスのインスタンスの性能を評価させる、命令を含み、複数の性能閾値は、化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、階層モデルは、階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチ進化モデル(BEM)と、階層の第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは一連の連続フェーズのうちの1つのフェーズに対応する、複数のバッチレベルモデル(BLM)と、階層の第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、全体性能モデルは一連の連続フェーズの全てに対応する、全体性能モデルと、を含む。
以下の説明は、当業者が様々な実施形態を作成および使用することを可能にするために提示される。具体的なデバイス、技術、および用途の説明は、例としてのみ提供される。本明細書に記載される例に対する様々な修正が当業者にとって明らかとなり、本明細書で定義される一般原理は、様々な実施形態の趣旨および範囲から逸脱することなく、他の例および用途に適用され得る。したがって、様々な実施形態は本明細書に記載および図示される例に限定されることを意図するものではなく、特許請求の範囲と一致する範囲が与えられるべきである。
1.材料および方法
1.1.精製プロセス
精製プロセスは、任意の組換え治療用タンパク質の製造プロセスにおける細胞培養および分離ステップの下流にある。精製中、選択された組換えタンパク質は、無数のタンパク質、DNA、代謝体などのプールから分離され、細胞培養中の哺乳動物宿主細胞ならびに他のプロセスおよび生成物に関連する不純物によって合成される。精製されているタンパク質のタイプに応じて、特定のタンパク質の精製中に異なるクロマトグラフィカラムが使用される。イオン交換、疎水性相互作用、およびアフィニティクロマトグラフィは、タンパク質精製のために実施される最も広く使用される分離技術に含まれる。精製プロセスは通常、平衡、充填、洗浄、溶出、および最終的に精製カラムの生成および貯蔵などのいくつかのフェーズに分離される。アフィニティクロマトグラフィカラムを使用する治療用タンパク質精製プロセスのオンライン監視のために開発された多変量モデルが、本明細書で論じられる。このカラムは、「充填」フェーズの間に標的タンパク質分子を捕捉し、「溶出」フェーズの間にタンパク質分子を放出する固定フェーズビーズ上の(標的タンパク質結合ドメインを有する)ペプチドリガンドを含む。カラムリガンドに対する親和性のない非標的タンパク質は、廃棄物としてカラムを流れる。
1.1.精製プロセス
精製プロセスは、任意の組換え治療用タンパク質の製造プロセスにおける細胞培養および分離ステップの下流にある。精製中、選択された組換えタンパク質は、無数のタンパク質、DNA、代謝体などのプールから分離され、細胞培養中の哺乳動物宿主細胞ならびに他のプロセスおよび生成物に関連する不純物によって合成される。精製されているタンパク質のタイプに応じて、特定のタンパク質の精製中に異なるクロマトグラフィカラムが使用される。イオン交換、疎水性相互作用、およびアフィニティクロマトグラフィは、タンパク質精製のために実施される最も広く使用される分離技術に含まれる。精製プロセスは通常、平衡、充填、洗浄、溶出、および最終的に精製カラムの生成および貯蔵などのいくつかのフェーズに分離される。アフィニティクロマトグラフィカラムを使用する治療用タンパク質精製プロセスのオンライン監視のために開発された多変量モデルが、本明細書で論じられる。このカラムは、「充填」フェーズの間に標的タンパク質分子を捕捉し、「溶出」フェーズの間にタンパク質分子を放出する固定フェーズビーズ上の(標的タンパク質結合ドメインを有する)ペプチドリガンドを含む。カラムリガンドに対する親和性のない非標的タンパク質は、廃棄物としてカラムを流れる。
1.1.1.平衡化
平衡化の間、精製カラムは、標的タンパク質を充填する前に、その内部pHおよび導電率に関して平衡化される。これは、選択されたタンパク質の適切な条件でカラムに緩衝液を流すことによって達成される。
平衡化の間、精製カラムは、標的タンパク質を充填する前に、その内部pHおよび導電率に関して平衡化される。これは、選択されたタンパク質の適切な条件でカラムに緩衝液を流すことによって達成される。
1.1.2.充填
カラムは、まず標的タンパク質溶液で充填される。このフェーズの間、不純物はペプチドリガンドに対する親和性がないので、不純物が廃棄されるためにカラムを流れている間、カラム内の充填されたビーズに対する親和性を有する治療用タンパク質分子は、ビーズと結合する。
カラムは、まず標的タンパク質溶液で充填される。このフェーズの間、不純物はペプチドリガンドに対する親和性がないので、不純物が廃棄されるためにカラムを流れている間、カラム内の充填されたビーズに対する親和性を有する治療用タンパク質分子は、ビーズと結合する。
1.1.3.洗浄
しっかりと保持された標的タンパク質分子を固定フェーズビーズに結合されたまま、緩く結合された不純物のみを除去するために、洗浄緩衝液がカラムに通される。
しっかりと保持された標的タンパク質分子を固定フェーズビーズに結合されたまま、緩く結合された不純物のみを除去するために、洗浄緩衝液がカラムに通される。
1.1.4.溶出
標的タンパク質とペプチドリガンドとの間の結合を破壊し、カラムからの標的タンパク質分子の除去を容易にする溶出緩衝液が、カラムに通される。標的タンパク質を含有するカラム溶出液が、さらなる処理のために収集される。
標的タンパク質とペプチドリガンドとの間の結合を破壊し、カラムからの標的タンパク質分子の除去を容易にする溶出緩衝液が、カラムに通される。標的タンパク質を含有するカラム溶出液が、さらなる処理のために収集される。
1.2.データおよびデータソース
データは、本明細書に記載されるモデリングの努力の基礎である。アフィニティクロマトグラフィカラムのためのMVDAモデルの開発に使用されるデータには2つのカテゴリがある。
データは、本明細書に記載されるモデリングの努力の基礎である。アフィニティクロマトグラフィカラムのためのMVDAモデルの開発に使用されるデータには2つのカテゴリがある。
インライン/オンラインデータ
モデルで使用されるインライン測定は、以下のタイプである:(a)クロマトグラフィカラムからの廃液の総体積、(b)導電率、(c)紫外線吸光度(UV)、(d)温度、(e)圧力、および(f)流量。プロセス測定値からのデータは、PI process historian(OSIsoft)と呼ばれるデータベースに記憶される。導電率センサなどのプロセスセンサから取得された全ての時系列データはPIアーカイブに記憶され、その対応するバッチコンテキスト(例えば、バッチID、個々のプロセスフェーズの開始および終了タイムスタンプなど)は、PIアセットフレームワーク(AF)データベースに記憶される。
モデルで使用されるインライン測定は、以下のタイプである:(a)クロマトグラフィカラムからの廃液の総体積、(b)導電率、(c)紫外線吸光度(UV)、(d)温度、(e)圧力、および(f)流量。プロセス測定値からのデータは、PI process historian(OSIsoft)と呼ばれるデータベースに記憶される。導電率センサなどのプロセスセンサから取得された全ての時系列データはPIアーカイブに記憶され、その対応するバッチコンテキスト(例えば、バッチID、個々のプロセスフェーズの開始および終了タイムスタンプなど)は、PIアセットフレームワーク(AF)データベースに記憶される。
アットライン/オフラインデータ
アットラインおよびオフラインデータの両方は、リレーショナルデータベースであるDiscoverant(BIOVIA)を介してアクセス可能である。製造実行システム(MES)、実験室情報管理システム(LIMS)、ならびにシステムアプリケーションおよび製品(SAP)などの基礎となるデータシステムからデータを取得するために、構造化照会言語(SQL)が使用される。モデル開発に使用されるアットライン/オフラインデータのタイプは、タンパク質溶液(バルク)属性、バルク融解プロセス属性、カラム充填属性、カラム属性、溶出属性、および試料測定値を含む。
アットラインおよびオフラインデータの両方は、リレーショナルデータベースであるDiscoverant(BIOVIA)を介してアクセス可能である。製造実行システム(MES)、実験室情報管理システム(LIMS)、ならびにシステムアプリケーションおよび製品(SAP)などの基礎となるデータシステムからデータを取得するために、構造化照会言語(SQL)が使用される。モデル開発に使用されるアットライン/オフラインデータのタイプは、タンパク質溶液(バルク)属性、バルク融解プロセス属性、カラム充填属性、カラム属性、溶出属性、および試料測定値を含む。
1.3.ソフトウェア
このケーススタディでは、以下のソフトウェアを使用した。
このケーススタディでは、以下のソフトウェアを使用した。
モデリング:Simca 14.1(Sartorius Stedim Biotech)およびMatlab 2015b(MathWorks)
データ取得、前処理、視覚化、およびモデル自動化:Matlab,Python 3.6(Python Software Foundation)。
データ取得、前処理、視覚化、およびモデル自動化:Matlab,Python 3.6(Python Software Foundation)。
1.4.インライン/オンラインデータ前処理
PI process historianから取得したインライン/オンラインデータは、バッチ間比較を容易にするために、データを捕捉するとともにデータを標準形式に整列させながら、明らかな異常(クロマトグラムベースラインオフセットなど)を除去するために標準化された方法で処理する必要がある。精製プロセスのためのデータ前処理は、以下のステップを含む:(a)補間、(b)セグメント化、および(c)整列。
PI process historianから取得したインライン/オンラインデータは、バッチ間比較を容易にするために、データを捕捉するとともにデータを標準形式に整列させながら、明らかな異常(クロマトグラムベースラインオフセットなど)を除去するために標準化された方法で処理する必要がある。精製プロセスのためのデータ前処理は、以下のステップを含む:(a)補間、(b)セグメント化、および(c)整列。
バッチの進行中に様々なセンサによって捕捉されたインラインデータは、異なるプロセスパラメータについて不均一なサンプリング周波数でPI historianに保存される。バッチの各々がどのようにして精製プロセスを進むかを監視し、その性能を比較するために、定義された頻度で全てのパラメータについてインラインデータが補間される。アフィニティカラムのバッチを含むいくつかのフェーズの各々について、開始時点と終了時点との間で連続的に記録された時系列データを抽出することによって、インラインデータを対応するフェーズにセグメント化するために、開始および終了タイムスタンプを含むメタデータを活用した。アフィニティ精製プロセスのサブフェーズ毎に全てのバッチが開始時間に対して整列されていることを保証するために、各カラムセンサの時系列データを前処理した。
1.5.多変量データ解析
多変量データ解析(MVDA)は、3つ以上の変数からのデータを共同で分析するために使用される統計技術およびアルゴリズムを指す。具体的には、これらのアルゴリズムは、データ内のパターンおよび関係を検出するために使用することができる。これらの方法のいくつかの用途は、クラスタリング(グループ化の検出)、分類(グループ/クラスメンバーシップを決定)、および回帰(入力と連続数値出力との間の関係を決定)である。広く使用されているMVDA技術のいくつかは、主成分分析(PCA)および潜在構造への部分最小二乗投影(PLS-以下、部分最小二乗と呼ばれる)である。
多変量データ解析(MVDA)は、3つ以上の変数からのデータを共同で分析するために使用される統計技術およびアルゴリズムを指す。具体的には、これらのアルゴリズムは、データ内のパターンおよび関係を検出するために使用することができる。これらの方法のいくつかの用途は、クラスタリング(グループ化の検出)、分類(グループ/クラスメンバーシップを決定)、および回帰(入力と連続数値出力との間の関係を決定)である。広く使用されているMVDA技術のいくつかは、主成分分析(PCA)および潜在構造への部分最小二乗投影(PLS-以下、部分最小二乗と呼ばれる)である。
1.5.1.主成分分析
主成分分析(PCA)は、先験的情報および目標値または出力値への先験的情報のラベリングまたはマッピングなしで基礎となるデータの概要を取得するために使用することができるMVDA法である。PCAは、共線関係が存在するデータセットの次元数を減少させることによって、データ内の構造およびパターンを見出すことができる。PCAの動作原理は、主成分と呼ばれる新しい直交する潜在変数を定義することによって元データを要約することである。これらの主成分(PC)は、データセット内の元の変数の線形結合を含む。これらは、固定数のPCによって説明される分散が最大化されるように選択される。新しい潜在変数空間における元データの値は、スコアと呼ばれる。n個の観測値およびm個の変数を有するnxm行列によって記述されるデータセットが与えられると、Tは、スコアと呼ばれるk個の主成分値を含むnxk行列を示す。主成分に対するi=1,...,nを有する各個々の変数Xijの寄与を決定するJ=1,...,mおよびq=1,...,kを有する係数pjqは、負荷と呼ばれる。mxk行列Pは負荷行列と呼ばれ、T、X、およびPの間の関係は、式(2.1)によって行列表記法において与えられる。
主成分分析(PCA)は、先験的情報および目標値または出力値への先験的情報のラベリングまたはマッピングなしで基礎となるデータの概要を取得するために使用することができるMVDA法である。PCAは、共線関係が存在するデータセットの次元数を減少させることによって、データ内の構造およびパターンを見出すことができる。PCAの動作原理は、主成分と呼ばれる新しい直交する潜在変数を定義することによって元データを要約することである。これらの主成分(PC)は、データセット内の元の変数の線形結合を含む。これらは、固定数のPCによって説明される分散が最大化されるように選択される。新しい潜在変数空間における元データの値は、スコアと呼ばれる。n個の観測値およびm個の変数を有するnxm行列によって記述されるデータセットが与えられると、Tは、スコアと呼ばれるk個の主成分値を含むnxk行列を示す。主成分に対するi=1,...,nを有する各個々の変数Xijの寄与を決定するJ=1,...,mおよびq=1,...,kを有する係数pjqは、負荷と呼ばれる。mxk行列Pは負荷行列と呼ばれ、T、X、およびPの間の関係は、式(2.1)によって行列表記法において与えられる。
X=TPT+E (2.1)
ここで、Eは残差nxm行列を示す。残差は、主成分lからkによって説明されない分散を含む。PCAの詳細な紹介は、参照により本明細書に組み込まれる、Basilevsky,A.,“Statistical factor analysis and related methods:theory and applications”,John Wiley&Sons,2009において入手可能である。モデル品質は、交差検証(セクション2.5.4参照)、ならびに利用可能であれば外部データセットを用いて評価される。この目的のために、R2およびQ2統計が評価される。R2統計は、モデルによって説明される平方和の割合を記述し、Q2統計は、モデルの予測能力に関する情報を伝達する。両者の詳細な導出は、参照により本明細書に組み込まれる、Eriksson,L.,Byrne,T.,Johansson,E.,Trygg,J.およびVikstrom,E.,“Multi-and megavariate data analysis:Basic Principles and Applications”(2013):425で与えられる。
ここで、Eは残差nxm行列を示す。残差は、主成分lからkによって説明されない分散を含む。PCAの詳細な紹介は、参照により本明細書に組み込まれる、Basilevsky,A.,“Statistical factor analysis and related methods:theory and applications”,John Wiley&Sons,2009において入手可能である。モデル品質は、交差検証(セクション2.5.4参照)、ならびに利用可能であれば外部データセットを用いて評価される。この目的のために、R2およびQ2統計が評価される。R2統計は、モデルによって説明される平方和の割合を記述し、Q2統計は、モデルの予測能力に関する情報を伝達する。両者の詳細な導出は、参照により本明細書に組み込まれる、Eriksson,L.,Byrne,T.,Johansson,E.,Trygg,J.およびVikstrom,E.,“Multi-and megavariate data analysis:Basic Principles and Applications”(2013):425で与えられる。
1.5.2.部分最小二乗
部分最小二乗(PLS)回帰は、入力と出力との間の関数関係を決定することを目的とするMVDA法である。この方法は、参照により本明細書に組み込まれる、SIAM J.Sci.Stat.Comput.5(3)1984:735-743で公開されたWold Sらによる“The Collinearity Problem in Linear Regression:The Partial Least Squares(PLS)Approach to Generalized Inverses”およびIntell.Lab.Syst.58(2)2001:109-130で公開されたWold Sらによる“PLS Regression:A Basic Tool of Chemometrics”にさらに記載されている。簡潔には、データセット内で利用可能な元の変数に対してではなく、潜在変数と呼ばれるより少ない直交する変数に対して回帰が行われる点で、PCAと同様の手法がとられる。これらは、元の変数の線形結合である。分散を最大化するように潜在変数が選択されるPCAとは対照的に、PLSでは、従属変数と独立変数との間の共分散を最大化するように潜在変数が決定される。回帰問題の解を得るために、X空間およびY空間の両方において以下の演算が行われる。X空間では、線形変換は、以下のように定義される。
部分最小二乗(PLS)回帰は、入力と出力との間の関数関係を決定することを目的とするMVDA法である。この方法は、参照により本明細書に組み込まれる、SIAM J.Sci.Stat.Comput.5(3)1984:735-743で公開されたWold Sらによる“The Collinearity Problem in Linear Regression:The Partial Least Squares(PLS)Approach to Generalized Inverses”およびIntell.Lab.Syst.58(2)2001:109-130で公開されたWold Sらによる“PLS Regression:A Basic Tool of Chemometrics”にさらに記載されている。簡潔には、データセット内で利用可能な元の変数に対してではなく、潜在変数と呼ばれるより少ない直交する変数に対して回帰が行われる点で、PCAと同様の手法がとられる。これらは、元の変数の線形結合である。分散を最大化するように潜在変数が選択されるPCAとは対照的に、PLSでは、従属変数と独立変数との間の共分散を最大化するように潜在変数が決定される。回帰問題の解を得るために、X空間およびY空間の両方において以下の演算が行われる。X空間では、線形変換は、以下のように定義される。
T=XW* (2.2)
および
X=TPT+E (2.3)
ここで、TはXスコアnxk行列を示し、PはX負荷mxk行列を示し、W*はX重みmxk行列を示し、Eはk<mのX残差nxm行列を示す。Y空間では、変換は以下のように求められる。
および
X=TPT+E (2.3)
ここで、TはXスコアnxk行列を示し、PはX負荷mxk行列を示し、W*はX重みmxk行列を示し、Eはk<mのX残差nxm行列を示す。Y空間では、変換は以下のように求められる。
Y=UCT+G (2.4)
ここで、UはYスコアnxk行列を示し、CはY重みqxk行列を示し、GはY残差nxq行列を示す。Xスコアは、X残差Eを最小化し、Yの良好な予測子となるように選択され、Yスコアは、Y残差Gを最小化するように選択される。PCAと同様に、PLSモデルについてR2およびQ2を計算することができる。
ここで、UはYスコアnxk行列を示し、CはY重みqxk行列を示し、GはY残差nxq行列を示す。Xスコアは、X残差Eを最小化し、Yの良好な予測子となるように選択され、Yスコアは、Y残差Gを最小化するように選択される。PCAと同様に、PLSモデルについてR2およびQ2を計算することができる。
1.5.3.階層モデリング
階層モデリングは、PCA、PLSのいずれか、または両方の異なるモデルからのデータの結合を容易にする。これは、典型的に、正確には類似していないが相互接続されているプロセスの異なる部分からの情報を要約するために行われる。これの適用は、平衡化、充填、洗浄、および溶出などのアフィニティクロマトグラフィベースの精製プロセスにおける異なるフェーズを組み合わせることであり、これらの全ては、フェーズの各々について特定の目的を達成し、最終的に精製物を出力するために、順次実行される。
階層モデリングは、PCA、PLSのいずれか、または両方の異なるモデルからのデータの結合を容易にする。これは、典型的に、正確には類似していないが相互接続されているプロセスの異なる部分からの情報を要約するために行われる。これの適用は、平衡化、充填、洗浄、および溶出などのアフィニティクロマトグラフィベースの精製プロセスにおける異なるフェーズを組み合わせることであり、これらの全ては、フェーズの各々について特定の目的を達成し、最終的に精製物を出力するために、順次実行される。
階層MVDAモデルは、複数のレベルを含む。階層モデルの詳細な説明は、参照により本明細書に組み込まれる、Wold,S.,Kettaneh,N.,Friden,H.およびHolmberg,A.,“Modelling and diagnostics of batch processes and analogous kinetic experiments”,Chemometrics and Intelligent Laboratory Systems 44(1998):331-340に見出すことができる。ベースレベル(BL)モデルおよびトップレベル(TL)モデルを有する2レベル階層モデル構造の例が、それぞれデータX1およびX2を有する2つのフェーズ1および2を用いるプロセスについて図1に示されている。ベースレベルモデルは、(a)複数の数であり、PCAまたはPLSのいずれかに基づき、(b)その潜在変数(すなわち、スコア行列Tj)によって入力データを要約し、(c)PCAモデルのPjなどの負荷行列によって記述することができ、ここでjは異なるBLモデルを示す。両方のベースレベルモデルからの情報(データセットX1およびX2に対応する)は、次元nxk1およびnxk2を有するそれぞれのスコア行列T1およびT2を通じてトップレベルモデルに供給される。観測値の数はnで表され、フェーズ1および2のBLモデルの潜在変数の数は、それぞれk1およびk2である。TLモデル入力は、2つのBLモデルからのスコアを含むnx(k1+k2)行列Rによって定義される。具体的には、個々のXブロックからのスコア行列Tjは、TLモデルのスコアおよび負荷を計算するために使用されるコンセンサス行列R(式(2.5))を形成するために結合される。PCA TLモデルでは、スコア行列TTP、負荷PTP、およびR行列の間の関係は、式(2.6)によって与えられる。
R=[T1,T2] (2.5)
TTP=RPTP (2.6)
一般に、kTL<(k1+k2)であり、これは、MVDA階層モデリング構造が全ての異なるBLモデルの圧縮を容易にすることを示す。階層モデルの重要な利点は、異なる次元を有するX1およびX2などのデータブロックの各々が、TLモデルに対する相当な寄与を維持することである。T1がT2(k1<k2)と比較してより少ない潜在変数を含む場合であっても、階層モデリングは、同様の重み付けで両方のBLモデルからのスコア行列を処理する。
TTP=RPTP (2.6)
一般に、kTL<(k1+k2)であり、これは、MVDA階層モデリング構造が全ての異なるBLモデルの圧縮を容易にすることを示す。階層モデルの重要な利点は、異なる次元を有するX1およびX2などのデータブロックの各々が、TLモデルに対する相当な寄与を維持することである。T1がT2(k1<k2)と比較してより少ない潜在変数を含む場合であっても、階層モデリングは、同様の重み付けで両方のBLモデルからのスコア行列を処理する。
1.5.4.交差検証
交差検証は、データ内の基礎となる統計的関係が、モデル訓練に使用されなかったデータセットを予測するのに十分に一般的であるかどうかを評価するために使用されるモデル試験技術である。交差検証技術では、所与のデータセットが訓練および試験サブセットに分割される。モデルは、訓練データセットを使用して開発され、次いで試験サブセットに対して評価される。いくつかのラウンドの交差検証が(異なる分割を用いて)実行され、複数の並列モデルをもたらす(図2参照)。全ての並列モデルからの結果は、モデルの最終予測力を推定するために平均化される。交差検証の主な目的は、モデルが訓練データセットに非常によく適合するが、独立したデータセットを合理的に良好に予測するのに十分なほど一般的ではない条件である、過剰適合の可能性を低減することである。
交差検証は、データ内の基礎となる統計的関係が、モデル訓練に使用されなかったデータセットを予測するのに十分に一般的であるかどうかを評価するために使用されるモデル試験技術である。交差検証技術では、所与のデータセットが訓練および試験サブセットに分割される。モデルは、訓練データセットを使用して開発され、次いで試験サブセットに対して評価される。いくつかのラウンドの交差検証が(異なる分割を用いて)実行され、複数の並列モデルをもたらす(図2参照)。全ての並列モデルからの結果は、モデルの最終予測力を推定するために平均化される。交差検証の主な目的は、モデルが訓練データセットに非常によく適合するが、独立したデータセットを合理的に良好に予測するのに十分なほど一般的ではない条件である、過剰適合の可能性を低減することである。
結果および考察
本明細書で論じられるMVDA精製監視モデルをエンドユーザにとって使用可能なツールにするために、以下の要因を検討した。(a)モデルがプロセスエクスカーションを検出できるように、有意義なモデリング手法の実装、(b)履歴バッチに対する新しいバッチのベンチマーク。この目的のために、(a)モデル開発および(b)ベンチマークの2段階でモデリング作業を実行した。
本明細書で論じられるMVDA精製監視モデルをエンドユーザにとって使用可能なツールにするために、以下の要因を検討した。(a)モデルがプロセスエクスカーションを検出できるように、有意義なモデリング手法の実装、(b)履歴バッチに対する新しいバッチのベンチマーク。この目的のために、(a)モデル開発および(b)ベンチマークの2段階でモデリング作業を実行した。
1.6.モデル開発
アフィニティクロマトグラフィカラムのためのMVDA監視モデルの開発は、モデル選択、モデル訓練、およびモデル試験の3つのステップを含み得る。
アフィニティクロマトグラフィカラムのためのMVDA監視モデルの開発は、モデル選択、モデル訓練、およびモデル試験の3つのステップを含み得る。
2.1.1.モデル選択
アフィニティクロマトグラフィの全ての単フェーズ、例えば平衡化、充填、洗浄、および溶出(以下、フェーズと呼ばれる)のバッチ軌道の評価は、バッチ進行の関数としてのインラインデータの変化を考慮するモデルの開発を必要とする。このようなモデルは、バッチ進化モデル(BEM)と呼ばれる。
アフィニティクロマトグラフィの全ての単フェーズ、例えば平衡化、充填、洗浄、および溶出(以下、フェーズと呼ばれる)のバッチ軌道の評価は、バッチ進行の関数としてのインラインデータの変化を考慮するモデルの開発を必要とする。このようなモデルは、バッチ進化モデル(BEM)と呼ばれる。
各フェーズは、アットラインおよびオフラインデータを考慮することにより、精製バッチ完了後にさらに評価され得る。したがって、アットライン/オフラインディスクリートプロセスパラメータおよび属性に加えてインライン時系列データを組み込むことができるMVDAモデルが必要とされている。これに関して、バッチレベルモデル(BLM)を使用することができる。
最後に、アフィニティクロマトグラフィ単位操作の包括的評価は、全てのフェーズを一緒に評価する能力を必要とする。このような目的は、階層モデリング構造を介して達成することができる。階層モデルのレベルの各々の詳細は、後続のセクションに記載される。
2.1.1.1 バッチ進化モデル
バッチ進化モデルは、この階層モデル構造における第1のレベルである。バッチ進化モデルは、様々なプロセスパラメータのインラインデータを考慮することにより、バッチがどのように進行しているかに関する考えを提供する。バッチ進行(処理の時間または処理される物質の体積のいずれかに関する)は、少数の潜在変数によって要約される、全ての利用可能なインラインプロセスパラメータの関数として表される。BEMは、X変数としてのプロセスパラメータおよびY変数としてのバッチ進行成熟度を有するPLSモデルである。いくつかの実施形態では、11個のインラインプロセスパラメータはX変数を含み、カラム体積は変数Yとして使用される。BEMは、全てのプロセスパラメータXおよびバッチ成熟度Yの間の共分散を最大化することに焦点を当てている。BEMを生成するために使用されるデータセットは、複数のバッチの時系列データを含む。データセット内の列の各々は、モデル開発に使用される異なる変数に対応する。行の各々は、そのバッチの測定における異なる時点に対応する(図3A)。
バッチ進化モデルは、この階層モデル構造における第1のレベルである。バッチ進化モデルは、様々なプロセスパラメータのインラインデータを考慮することにより、バッチがどのように進行しているかに関する考えを提供する。バッチ進行(処理の時間または処理される物質の体積のいずれかに関する)は、少数の潜在変数によって要約される、全ての利用可能なインラインプロセスパラメータの関数として表される。BEMは、X変数としてのプロセスパラメータおよびY変数としてのバッチ進行成熟度を有するPLSモデルである。いくつかの実施形態では、11個のインラインプロセスパラメータはX変数を含み、カラム体積は変数Yとして使用される。BEMは、全てのプロセスパラメータXおよびバッチ成熟度Yの間の共分散を最大化することに焦点を当てている。BEMを生成するために使用されるデータセットは、複数のバッチの時系列データを含む。データセット内の列の各々は、モデル開発に使用される異なる変数に対応する。行の各々は、そのバッチの測定における異なる時点に対応する(図3A)。
2.1.1.2 バッチレベルモデル
バッチレベルモデルは、階層モデル構造における第2のレベルである。バッチレベルモデルは、インラインおよびアットライン/オフラインデータを考慮して、精製プロセスのフェーズが完了すると、履歴バッチと比較して、バッチがどのように実行されるかに関する考えを提供する。ここでのBLMは、本質的に、異なるプロセス変数に存在する変動を説明することに焦点を当てるPCAモデルである。全てのインライン時系列データは、BLMデータセットの各行が単一のバッチを表すように転置される(図3B参照)。
バッチレベルモデルは、階層モデル構造における第2のレベルである。バッチレベルモデルは、インラインおよびアットライン/オフラインデータを考慮して、精製プロセスのフェーズが完了すると、履歴バッチと比較して、バッチがどのように実行されるかに関する考えを提供する。ここでのBLMは、本質的に、異なるプロセス変数に存在する変動を説明することに焦点を当てるPCAモデルである。全てのインライン時系列データは、BLMデータセットの各行が単一のバッチを表すように転置される(図3B参照)。
2.1.1.3 トップレベルモデル
トップレベルモデルは、階層モデル構造の第3の最も高いレベルである。TLモデルは、多変量モデリング構造内の異なるレベルを結合し、精製プロセスの全てのフェーズを通じて単一のバッチの性能の包括的な見解を提供する(図4参照)。階層内の最も低いレベルは、各フェーズのインラインデータのみを有する、PLSモデルであるバッチ進化モデル(BEM)である。階層内の次に低いレベルは、各フェーズのインラインおよびアットライン/オフラインデータを結合する、PCAモデルであるバッチレベルモデル(BLM)である。最後に、トップレベルモデルは、まとめられた全てのフェーズのインラインおよびアットライン/オフラインデータを含むPCAモデルである。
トップレベルモデルは、階層モデル構造の第3の最も高いレベルである。TLモデルは、多変量モデリング構造内の異なるレベルを結合し、精製プロセスの全てのフェーズを通じて単一のバッチの性能の包括的な見解を提供する(図4参照)。階層内の最も低いレベルは、各フェーズのインラインデータのみを有する、PLSモデルであるバッチ進化モデル(BEM)である。階層内の次に低いレベルは、各フェーズのインラインおよびアットライン/オフラインデータを結合する、PCAモデルであるバッチレベルモデル(BLM)である。最後に、トップレベルモデルは、まとめられた全てのフェーズのインラインおよびアットライン/オフラインデータを含むPCAモデルである。
2.1.2.モデル訓練
モデルの構造、この場合はベースレベルおよび包括的なトップレベルモデルにバッチ進化およびバッチレベルモデルを有する階層構造を定義した後、次のステップは、モデルを訓練することである。ここでのモデル訓練は、「許容可能な動作範囲」となる多変量管理限界を定義するために履歴データを使用するプロセスを指す。いくつかの実施形態では、モデル訓練のために60の原薬(DS)バッチを含む履歴データを使用した。これらの全てのバッチは許容可能な動作範囲を表すので、これらをモデル訓練のために検討した。具体的には、これらのDSバッチが生産した最終製品の質は発表するのに許容可能であるから、バッチのいずれもモデル訓練のために排除されなかった。
モデルの構造、この場合はベースレベルおよび包括的なトップレベルモデルにバッチ進化およびバッチレベルモデルを有する階層構造を定義した後、次のステップは、モデルを訓練することである。ここでのモデル訓練は、「許容可能な動作範囲」となる多変量管理限界を定義するために履歴データを使用するプロセスを指す。いくつかの実施形態では、モデル訓練のために60の原薬(DS)バッチを含む履歴データを使用した。これらの全てのバッチは許容可能な動作範囲を表すので、これらをモデル訓練のために検討した。具体的には、これらのDSバッチが生産した最終製品の質は発表するのに許容可能であるから、バッチのいずれもモデル訓練のために排除されなかった。
履歴データ(許容可能なバッチ)を用いてモデルを訓練することで、実際には許容可能な動作範囲である多変量管理限界を定義することが可能になる。BEMレベルでは、元の時系列データは、ごくわずかな潜在変数で記述され、これらをカラム体積の関数として視覚化することができる。図5では、BEMからの単一のバッチの第1の主成分のスコアプロットが、カラム体積の関数として示されている。BEMの多変量限界は、履歴データ平均(緑色の破線で示される)の±3標準偏差(赤色の破線で示される)である。図6は、モデル訓練のために検討された全ての精製フェーズおよびバッチのBEM表現を示す。モデル訓練に使用されたバッチのほとんどは、多変量限界内に収まっている。(過剰適合の可能性を低減するために)訓練データセットにおける変動性を高めるために、多変量限界の外側にあるが精製プロセスの下流でプロセスおよび製品に影響を及ぼさないいくつかのバッチを含めた。BLMおよびトップレベルモデルのスコアプロットは、図7および図8にそれぞれ示されている。
プロセス監視は、2つの多変量メトリック、すなわちホテリングのT2およびモデル残差を使用して容易になる。ホテリングのT2は、履歴平均からの観測値の距離を表す。残差は、モデルによって説明することができないデータセットの部分、通常はデータ内のノイズ、または以前はモデルによって見ることがなかった発生を指す。あるバッチのホテリングのT2および残差の許容範囲は、95%の臨界レベルによって定義される。バッチがホテリングのT2および残差の許容範囲内に収まっている場合、何の措置も取られない。しかしながら、バッチが一方または両方のメトリックについてこれらの許容範囲外にある場合には、寄与因子のさらなる調査がもたらされる。寄与プロットは、特定のエクスカーションに対する異なるプロセスパラメータの潜在的な寄与の定量的比較を提供する。これは、全てのバッチの平均に対する選択されたバッチまたはバッチグループの差を示す。
図9は、単一のBLMについての2つのエクスカーション検出メトリック(ホテリングのT2およびモデル残差)および1つの診断メトリック(変数寄与)の例を示す。しかしながら、これらは、全てのBLM(図7に示される)およびトップレベル(図8に示される)に関して計算された。
2.1.3.モデル試験
MVDAモデルは、以下の目的に基づいて試験される。まず、訓練データセットを使用して開発されたモデルが独立したデータセットを記述するのに十分なほど一般的であることを保証するための試験が行われる。このために、交差検証が実施される(セクション1.5.4参照)。モデル試験目的のために7ラウンドの交差検証を使用した。
MVDAモデルは、以下の目的に基づいて試験される。まず、訓練データセットを使用して開発されたモデルが独立したデータセットを記述するのに十分なほど一般的であることを保証するための試験が行われる。このために、交差検証が実施される(セクション1.5.4参照)。モデル試験目的のために7ラウンドの交差検証を使用した。
さらに、エクスカーションを検出し、基礎となる寄与パラメータを決定するモデルの能力を実証するための試験が行われる。プロセスエクスカーションを検出するため、およびモデルベンチマークのために、アフィニティクロマトグラフィプロセスのための11個の追加のバッチを2倍使用した。
2.2 モデルベンチマーク
モデルベンチマークは、プロセスの許容可能な動作範囲を表す履歴からの予想に対する新しいバッチ(モデル訓練に使用されないバッチ)の評価を指す。これにより、潜在的なエクスカーションの評価、およびもしあれば、特定された寄与因子の調査が可能になる。
モデルベンチマークは、プロセスの許容可能な動作範囲を表す履歴からの予想に対する新しいバッチ(モデル訓練に使用されないバッチ)の評価を指す。これにより、潜在的なエクスカーションの評価、およびもしあれば、特定された寄与因子の調査が可能になる。
(訓練データセットに含まれない)11の精製バッチをモデルベンチマークに使用した。これは、エクスカーションを検出するモデルの能力の試験として機能した(モデル試験のセクション3.1.3で述べられるとおり)。バッチを評価するために、多変量メトリック、すなわちホテリングのT2およびモデル残差を使用した。モデル試験/ベンチマークの例が図10に示されている。アフィニティクロマトグラフィカラムについて、ホテリングのT2およびモデル残差値(両方とも許容レベル外)の両方のバッチのうちの1つでプロセスエクスカーションを検出した。エクスカーションは、充填フェーズBEMのMVDAスコア空間で確認された。図10(C)に示される寄与プロットにおいて、ポンプ流量がこのエクスカーションに対して最も高い寄与を有することがわかった。単変量プロットをより深く調べると、図10(D)の充填フェーズの間、ポンプがしばらくの間停止していたことがわかった。加えて、Manufacturing Sciencesの主題の専門家は、充填フェーズの間に何らかの技術的問題によってポンプが実際に停止したことを確認した。したがって、この監視手順を通じて、製品品質に影響があろうとなかろうと、エクスカーションを検出することができる。
3.結論
バイオ医薬品の商用製造中に、豊富なプロセスおよび製品データが生成される。これらの大規模で複雑なデータセットは、典型的に、様々な単位操作のためのインライン/オンラインセンサから、ならびに生産フロアおよび品質管理研究所のベンチトップ分析器から生成される。本開示は、プロセス専門家の洞察を生成して組織的決定を支援するために活用することができる高度なデータ駆動モデルを開発するために、精製プロセスのための大量の製造データをどのように利用することができるかを記載している。具体的には、組換え治療用タンパク質の製造で使用される分取アフィニティクロマトグラフィのケーススタディを提示した。
バイオ医薬品の商用製造中に、豊富なプロセスおよび製品データが生成される。これらの大規模で複雑なデータセットは、典型的に、様々な単位操作のためのインライン/オンラインセンサから、ならびに生産フロアおよび品質管理研究所のベンチトップ分析器から生成される。本開示は、プロセス専門家の洞察を生成して組織的決定を支援するために活用することができる高度なデータ駆動モデルを開発するために、精製プロセスのための大量の製造データをどのように利用することができるかを記載している。具体的には、組換え治療用タンパク質の製造で使用される分取アフィニティクロマトグラフィのケーススタディを提示した。
利用可能なインライン、オンライン、アットライン、およびオフラインデータを使用する効果的で効率的なインライン/オンラインプロセス監視の目的で、アフィニティクロマトグラフィカラムのために多変量モデルを開発した。アフィニティクロマトグラフィ単位操作を含むいくつかの精製フェーズを考慮し、その包括的な評価を容易にするために、多変量階層モデリング手法を採用した。これは、階層モデルが、インプロセス制御とのプロセスパラメータの共同評価に加えて、プロセスフェーズ毎のプロセスパラメータの軌道を監視できることを暗示する。具体的には、個々のバッチ進化およびバッチレベルモデルをフェーズ毎に開発し、履歴からの予想の観点から新しいバッチの進行の評価を可能にした。これらのモデルの訓練に利用可能な履歴データを活用し、モデル試験およびベンチマークに追加のデータを使用した。開発されたモデルは、新しいバッチの評価に使用される、履歴的に許容される動作条件を記述する。ベンチマークは、あったとしても、エクスカーションに潜在的に寄与する因子(元の変数)を強調する多変量診断および寄与分析をほとんど介さずに、実行することができる。本明細書に提示されたモデルは、エクスカーションを検出することができるものとして試験および図示した。
本ケーススタディは、高度な階層データ駆動モデルの開発が、単位操作を含む全てのフェーズの包括的な評価を介した効果的な精製プロセス監視、ならびに各フェーズ内および異なるフェーズにわたるパターンおよび関係を検出する能力をどのように可能にするかを実証している。個々の単変量解析を細部まで調査する能力を維持しながら、わずかな多変量メトリックのみを介して多くのプロセスパラメータを評価することができるので、多変量モデリングはまた効率的なプロセス監視を保証する。また、本明細書で論じられるモデリング手法は、精製のみに限定されず、バイオ製造プロセス中に複数の単位操作に適用することができる。細胞培養、ウイルス不活性化、および最終製品製造(充填および仕上げ)プロセスのために多変量モデルを開発することはまた、全体的プロセス監視および早期障害検出の追加のプロセス理解および効率的な方法を提供することができる。
全体として、高度な多変量データ駆動モデリングは、生物製剤製造プロセスのプロセス理解および制御のための全体的な組織的努力を支援しながら、同時に、精製単位操作の早期障害検出および障害診断のためのプロセス監視を強化することができる。
添付の図面を参照して本開示および例を完全に記載してきたが、様々な変更および修正が当業者にとって明らかとなることに留意されたい。このような変更および修正は、特許請求の範囲によって定義されるように、本開示および例の範囲に含まれるものとして理解されるべきである。
上記の説明は、説明を目的として、特定の実施形態を参照して記載されてきた。しかしながら、上記の例示的な説明は、網羅的であること、または本発明を開示された正確な形態に限定することを意図していない。上記の技術を考慮した上で、多くの修正および変形が可能である。実施形態は、本教示の原理およびその実際的応用を最もよく説明するように選択および記載された。これにより、当業者は、企図される特定の使用に適した様々な修正を用いて本技術および様々な実施形態を最良に利用することが可能になる。
Claims (20)
- 一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための方法であって、
前記化学プロセスの前記インスタンスに関連するデータを取得するステップと、
前記化学プロセスの前記インスタンスに関連する前記データに基づいて、複数の性能閾値を使用して前記化学プロセスの前記インスタンスの前記性能を評価するステップと、
を含み、
前記複数の性能閾値は、前記化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、
前記階層モデルは、
階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第1のレベルの複数のバッチ進化モデル(BEM)と、
前記階層の前記第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第2のレベルの複数のバッチレベルモデル(BLM)と、
前記階層の前記第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、前記全体性能モデルは前記一連の連続フェーズの全てに対応する、第3のレベルの全体性能モデルと、
を含む、方法。 - 前記化学プロセスは、1つ以上のクロマトグラフィカラムを使用して細胞培養液中の他のタンパク質から組換えタンパク質を分離するための精製プロセスである、請求項1に記載の方法。
- 前記一連のフェーズは、前記1つ以上のクロマトグラフィカラムの平衡化、充填、洗浄、および溶出を含む、請求項2に記載の方法。
- 前記化学プロセスは、
精製プロセス、
細胞培養開発プロセス、
細胞分離プロセス、
ウイルス不活性化プロセス、
医薬品の製造プロセス、または
これらの任意の組み合わせ
を含む、請求項1に記載の方法。 - 前記複数のBEMの各BEMは、前記化学プロセスのフェーズに関連するインラインデータを評価するための1つ以上の性能閾値を取得するように訓練される、請求項1~4のいずれか一項に記載の方法。
- 前記1つ以上の性能閾値は、ホテリングのT2法および1つ以上のモデル残差を含む、請求項5に記載の方法。
- 前記複数のBEMは、前記化学プロセスの前記1つ以上の履歴インスタンスに関連するインラインデータを使用して訓練される、請求項1~6のいずれか一項に記載の方法。
- 前記インラインデータは、1つ以上のセンサから取得された時系列データを含む、請求項7に記載の方法。
- 前記インラインデータは、定義された頻度で補間される、請求項7に記載の方法。
- 前記複数のBEMの各BEMモデルは、部分最小二乗(PLS)モデルである、請求項1~9のいずれか一項に記載の方法。
- 前記複数のBLMの各BLMは、前記化学プロセスのフェーズに関連するインラインデータ、アットラインデータ、およびオフラインデータを評価するための1つ以上の性能閾値を取得するように訓練される、請求項1~10のいずれか一項に記載の方法。
- 前記1つ以上の性能閾値は、ホテリングのT2法および1つ以上のモデル残差を含む、請求項11に記載の方法。
- 前記複数のBLMは、前記化学プロセスの前記1つ以上の履歴インスタンスに関連するインラインデータ、アットラインデータ、およびオフラインデータを使用して訓練される、請求項1~12のいずれか一項に記載の方法。
- 前記アットラインデータおよびオフラインデータは、タンパク質溶液(バルク)属性、バルク融解プロセス属性、カラム充填属性、カラム属性、溶出属性、試料測定値、またはこれらの任意の組み合わせを含む、請求項13に記載の方法。
- 前記複数のBLMの各BLMモデルは主成分分析(PCA)モデルである、請求項1~14のいずれか一項に記載の方法。
- 前記全体性能モデルは、前記第2のレベルの前記訓練されたBLMモデルに基づいて訓練される、請求項1~15のいずれか一項に記載の方法。
- 前記化学プロセスの前記インスタンスの前記評価された性能の1つ以上の結果をディスプレイに表示するステップをさらに含む、請求項1~16のいずれか一項に記載の方法。
- 前記化学プロセスの前記インスタンスの前記評価された性能に基づいて前記化学プロセスの変数を更新するステップをさらに含む、請求項1~17のいずれか一項に記載の方法。
- 一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するためのシステムであって、
1つ以上のプロセッサと、
メモリと、
1つ以上のプログラムとを含み、前記1つ以上のプログラムは、前記メモリに記憶されており、前記1つ以上のプロセッサによって実行されるように構成され、前記1つ以上のプログラムは、
前記化学プロセスの前記インスタンスに関連するデータを取得し、
前記化学プロセスの前記インスタンスに関連する前記データに基づいて、複数の性能閾値を使用して前記化学プロセスの前記インスタンスの前記性能を評価する、
ための命令を含み、
前記複数の性能閾値は、前記化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、
前記階層モデルは、
階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第1のレベルの複数のバッチ進化モデル(BEM)と、
前記階層の前記第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第2のレベルの複数のバッチレベルモデル(BLM)と、
前記階層の前記第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、前記全体性能モデルは前記一連の連続フェーズの全てに対応する、第3のレベルの全体性能モデルと、
を含む、
システム。 - 一連の連続フェーズを有する化学プロセスのインスタンスの性能を評価するための1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムは、電子デバイスの1つ以上のプロセッサによって実行されると、前記電子デバイスに、
前記化学プロセスの前記インスタンスに関連するデータを取得させ、
前記化学プロセスの前記インスタンスに関連する前記データに基づいて、複数の性能閾値を使用して前記化学プロセスの前記インスタンスの前記性能を評価させる、
命令を含み、
前記複数の性能閾値は、前記化学プロセスの1つ以上の履歴インスタンスに基づいて階層モデルを訓練することによって取得され、
前記階層モデルは、
階層の第1のレベルの複数のバッチ進化モデル(BEM)であって、各BEMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第1のレベルの複数のバッチ進化モデル(BEM)と、
前記階層の前記第1のレベルより上の第2のレベルの複数のバッチレベルモデル(BLM)であって、各BLMモデルは前記一連の連続フェーズのうちの1つのフェーズに対応する、第2のレベルの複数のバッチレベルモデル(BLM)と、
前記階層の前記第2のレベルより上の第3のレベルの第3のレベルの全体性能モデルであって、前記全体性能モデルは前記一連の連続フェーズの全てに対応する、第3のレベルの全体性能モデルと、
を含む、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263306971P | 2022-02-04 | 2022-02-04 | |
US63/306,971 | 2022-02-04 | ||
PCT/US2023/011409 WO2023150037A1 (en) | 2022-02-04 | 2023-01-24 | Advanced data-driven modeling for purification process in biopharmaceutical manufacturing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2025508348A true JP2025508348A (ja) | 2025-03-26 |
Family
ID=85283841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024545897A Pending JP2025508348A (ja) | 2022-02-04 | 2023-01-24 | バイオ医薬品製造における精製プロセスのための高度なデータ駆動モデリング |
Country Status (6)
Country | Link |
---|---|
US (1) | US20250053712A1 (ja) |
EP (1) | EP4473303A1 (ja) |
JP (1) | JP2025508348A (ja) |
KR (1) | KR20240145988A (ja) |
CN (1) | CN118613721A (ja) |
WO (1) | WO2023150037A1 (ja) |
-
2023
- 2023-01-24 JP JP2024545897A patent/JP2025508348A/ja active Pending
- 2023-01-24 US US18/720,910 patent/US20250053712A1/en active Pending
- 2023-01-24 WO PCT/US2023/011409 patent/WO2023150037A1/en active Application Filing
- 2023-01-24 CN CN202380020249.6A patent/CN118613721A/zh active Pending
- 2023-01-24 KR KR1020247025849A patent/KR20240145988A/ko active Pending
- 2023-01-24 EP EP23706189.0A patent/EP4473303A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN118613721A (zh) | 2024-09-06 |
US20250053712A1 (en) | 2025-02-13 |
EP4473303A1 (en) | 2024-12-11 |
KR20240145988A (ko) | 2024-10-07 |
WO2023150037A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11680930B2 (en) | Methods and systems for chromatography data analysis | |
JP7562563B2 (ja) | バイオ医薬品生産における細胞株選択のためのデータ駆動予測モデリング | |
EP2338049B1 (en) | Methods for evaluating chromatography column performance | |
Sun et al. | A method for multiphase batch process monitoring based on auto phase identification | |
CA2934161A1 (en) | Method and system for preparing synthetic multicomponent biotechnological and chemical process samples | |
Rendall et al. | A unifying and integrated framework for feature oriented analysis of batch processes | |
Rathore et al. | Chemometrics applications in biotechnology processes: predicting column integrity and impurity clearance during reuse of chromatography resin | |
Rato et al. | A Systematic Methodology for Comparing Batch Process Monitoring Methods: Part I Assessing Detection Strength | |
Karlberg et al. | Exploiting mAb structure characteristics for a directed QbD implementation in early process development | |
Tian et al. | Fault detection and diagnosis for non-gaussian processes with periodic disturbance based on AMRA-ICA | |
Zhao et al. | Reconstruction based fault diagnosis using concurrent phase partition and analysis of relative changes for multiphase batch processes with limited fault batches | |
JP2025508348A (ja) | バイオ医薬品製造における精製プロセスのための高度なデータ駆動モデリング | |
Bachhav et al. | " AI-DRIVEN DATA ANALYSIS FOR IDENTIFICATION OF IMPURITIES IN HPLC CHROMATOGRAMS & ARTIFICIAL INTELLIGENT SYSTEM FOR HPLC COLUMN SELECTION AND METHOD DEVELOPMENT | |
Maiti et al. | T WITH PERMISSION O | |
Rathore et al. | Chemometrics applications in process chromatography | |
HK40073911A (en) | Methods and systems for chromatography data analysis | |
EA047516B1 (ru) | Способы и системы анализа хроматографических данных | |
HK40014100B (en) | Methods and systems for chromatography data analysis | |
Braatz | Robust Data Analytics in Biopharmaceutical Manufacturing |