[go: up one dir, main page]

JP7628731B2 - 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム - Google Patents

検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム Download PDF

Info

Publication number
JP7628731B2
JP7628731B2 JP2023529793A JP2023529793A JP7628731B2 JP 7628731 B2 JP7628731 B2 JP 7628731B2 JP 2023529793 A JP2023529793 A JP 2023529793A JP 2023529793 A JP2023529793 A JP 2023529793A JP 7628731 B2 JP7628731 B2 JP 7628731B2
Authority
JP
Japan
Prior art keywords
fine
black
brought
inter
perfectly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023529793A
Other languages
English (en)
Other versions
JPWO2022270289A5 (ja
JPWO2022270289A1 (ja
Inventor
昌信 内藤
裕理 日比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute for Materials Science
Original Assignee
National Institute for Materials Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute for Materials Science filed Critical National Institute for Materials Science
Publication of JPWO2022270289A1 publication Critical patent/JPWO2022270289A1/ja
Publication of JPWO2022270289A5 publication Critical patent/JPWO2022270289A5/ja
Application granted granted Critical
Publication of JP7628731B2 publication Critical patent/JP7628731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0009Calibration of the apparatus

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラムに関する。
従来、多成分の混合系である検体における成分組成を推定するための方法としては、例えば、検体中の各成分を何らかの方法で分離して、それぞれの分画成分を同定、定量する方法が知られている。この同定方法の一つとして、質量分析装置によって得られるマススペクトルが使われることがあった。
ところが、マススペクトルから得られる情報は、多数の相関関係を有する膨大な多次元データであるため、成分の同定につながる特徴的な信号を直感的、又は、経験的に抽出するのは困難であった。近年、非特許文献1に記載されているとおり、これらの多次元データを主成分分析によって次元削減し、特徴を探索する方法が用いられてきている。しかし、これら既知のデータ解析手法を用いても、ピーク強度がイオン化効率によって左右されるマススペクトルを用いて定量を行うことは本質的に困難であった。定量分析を行うためには、各化合物ごと有する未知変数であるイオン化効率をまず求める必要があり、そのためには検体量が既知、かつイオン化効率が同じとなる同位体検体を標準物質として用いる必要があった。
Analytical chemistry,2020,vol.92,issue2,P.1925-1933
非特許文献1に記載された方法は、次元削減の過程で、もとの多次元データが有する多くの情報が失われ、成分の定性的な分析はできても、定量分析を行うことはできなかった。
また、そもそも、成分の種類や試験環境等によって、成分ごとのイオン化効率が異なるという特性がある以上、得られるマススペクトルの大きさ(面積)の比は、混合物中における各成分の含有量の比を反映せず、これがマススペクトルによる定量分析の妨げの一つの要因となっていた。
近年、質量分析方法の一つとして、アンビエントな条件(大気圧の開放空間にある)にある試料を前処理なしで質量分析するアンビエント脱離イオン化法(ADI)が広く用いられるようになってきている。この方法は、未処理の試料や開放系の試料を固体のまま分析できるという利点がある一方で、各成分のイオン化率の不一致、及び、測定環境からの影響等によって、定量分析がより困難だと考えられてきた。
上記事情を考慮し、本発明はアンビエントな条件で得られるマススペクトルからであっても、未知の混合物の成分の組成を推定することができる、成分の含有量比の推定方法を提供することを課題とする。
また、本発明は、組成推定装置、及び、プログラムを提供することも課題とする。
本発明者らは、上記課題を達成すべく鋭意検討した結果、以下の構成により上記課題を達成することができることを見出した。
[1] Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の上記成分を含む推定対象検体における、上記成分の含有量比を推定する方法であって、上記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、及び、上記成分を含まないバックグラウンド検体を準備することと、上記推定対象検体、上記学習用検体、及び、バックグラウンド検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測することと、加熱温度ごとに得られた上記マススペクトルを各行に格納し、上記検体ごとの二次元マススペクトルを得て、上記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換することと、上記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行うことと、上記基底スペクトル行列と上記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、上記ノイズ成分の影響を減ずるよう上記強度分布行列を補正して、補正後強度分布行列を得ることと、上記補正後強度分布行列を上記検体のそれぞれに対応する小行列に分割し、上記小行列を特徴ベクトルとして、ベクトル空間内で上記検体のそれぞれを表現することと、上記特徴ベクトルの全てを内包するK-1次元単体を設定し、上記K-1次元単体におけるK個のエンドメンバーを決定することと、上記K個のエンドメンバーと、上記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、上記ユークリッド距離の比により、上記推定対象検体中の上記成分の含有量比を推定することと、を含み、上記Kが3以上の場合、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、上記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、上記学習用検体が上記エンドメンバーの少なくとも1つを含む、方法。
[2] 上記Kが2以上の整数であり、上記推定対象検体が、上記成分の混合物である、[1]に記載の方法。
[3] 上記学習用検体が、上記エンドメンバーを含む、[1]又は[2]に記載の方法。
[4] 上記エンドメンバーの決定が、上記学習用検体に付された判別ラベルに基づき行われる、[3]に記載の方法。
[5] 上記エンドメンバーの決定が、上記学習用検体の上記特徴ベクトルの頂点成分分析によって行われる、[3]に記載の方法。
[6] 上記エンドメンバーの決定が、上記K-1次元単体が最小体積となるように頂点を定めるアルゴリズムによって実施される、[1]に記載の方法。
[7] 上記エンドメンバーの決定が、上記補正後強度分布行列を非負値行列因子分解し、上記検体中のK種類の上記成分の重量分率を表す行列と、K種類の個別の上記成分ごとのフラグメント存在強度を表す行列との積に分解する第2のNMF処理により行われる、[6]に記載の方法。
[8] 上記学習用検体が、上記エンドメンバーを含まない、[6]又は[7]に記載の方法。
[9] 上記補正後強度分布行列を得ることは、更に、上記強度分布行列の強度補正を行うことを含む、[1]~[8]のいずれかに記載の方法。
[10] 上記検体セットが、更に、キャリブレーション検体を含み、上記キャリブレーション検体は、上記K種類の成分を全て含み、かつ、その組成が既知であり、上記強度補正は、上記強度分布行列を規格化することを含む、[9]に記載の方法。
[11] 上記強度補正は、上記強度分布行列の少なくとも一部を、上記検体セットのうち対応する上記検体の質量と環境変数の積で割り付けることを含み、
上記環境変数は、上記観測の際における上記成分のイオン化効率への影響を表す変数である、[9]に記載の方法。
[12] 上記環境変数が、上記観測の際に、雰囲気中に所定量含まれる分子量50~1500の化合物、又は、上記検体セットのそれぞれに所定量含まれる分子量50~500の有機低分子化合物のマススペクトルのピークの合計値である、[11]に記載の方法。
[13] Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の上記成分を含む推定対象検体における、上記成分の含有量比を推定する組成推定装置であって、上記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、上記成分を含まないバックグラウンド検体、及び、上記推定対象検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、上記観測されたマススペクトルを処理する情報処理装置と、を備え、上記情報処理装置は、加熱温度ごとに得られた上記マススペクトルを各行に格納し、上記検体ごとの二次元マススペクトルを得て、上記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換する、データ行列作成部と、上記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行う、NMF処理部と、上記基底スペクトル行列と上記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、上記ノイズ成分の影響を減ずるよう上記強度分布行列を補正して、補正後強度分布行列を作成する、補正処理部と、上記補正後強度分布行列を上記検体セットのそれぞれに対応する小行列に分割し、上記小行列を特徴ベクトルとして、ベクトル空間内で上記検体のそれぞれを表現する、ベクトル処理部と、上記特徴ベクトルの全てを内包するK-1次元単体を設定し、上記K-1次元単体におけるK個のエンドメンバーを決定する、エンドメンバー決定部と、上記K個のエンドメンバーと、上記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、上記ユークリッド距離の比により、上記推定対象検体中の上記成分の含有量比を推定する、含有量比計算部と、を含み、上記Kが3以上の場合、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、上記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、上記学習用検体が上記エンドメンバーの少なくとも1つを含む、組成推定装置。
[14] 上記エンドメンバー決定部は、上記学習用検体に付された判別ラベルに基づいて上記エンドメンバーを決定する、[13]に記載の組成推定装置。
[15] 上記エンドメンバー決定部は、上記K-1次元単体が最小体積となるように頂点を定めるアルゴリズムによって上記エンドメンバーを決定する、[13]に記載の組成推定装置。
[16] 上記エンドメンバー決定部は、上記補正後強度分布行列を非負値行列因子分解し、上記検体中のK種類の上記成分の重量分率を表す行列と、K種類の個別の上記成分ごとのフラグメント存在強度を表す行列との積に分解する第2のNMF処理により上記エンドメンバーを決定する、[15]に記載の組成推定装置。
[17] 上記補正処理部は更に、上記強度分布行列の強度補正を行う、[15]に記載の組成推定装置。
[18] 上記検体セットが、更に、キャリブレーション検体を含み、上記キャリブレーション検体が、上記K種類の成分を全て含み、かつ、その組成が既知であり、上記強度補正が、上記強度分布行列を規格化することを含む、[17]に記載の組成推定装置。
[19] 上記強度補正は、上記強度分布行列の少なくとも一部を、上記検体セットのうち対応する上記検体の質量と環境変数の積で割り付けることを含み、
上記環境変数は、上記観測の際における上記成分のイオン化効率への影響を表す変数である、[17]に記載の組成推定装置。
[20] 上記質量分析装置は減圧ポンプを更に備え、上記環境変数が、上記減圧ポンプの稼働によって生ずる物質のマススペクトルのピークの合計値である、[19]に記載の組成推定装置。
[21] Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の上記成分を含む推定対象検体における、上記成分の含有量比を推定する組成推定装置において用いられるプログラムであって、上記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、上記成分を含まないバックグラウンド検体、及び、上記推定対象検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、上記観測されたマススペクトルを処理する情報処理装置と、を備え、上記質量分析装置によって、加熱温度ごとに取得された上記マススペクトルを各行に格納し、上記検体ごとの二次元マススペクトルを得て、上記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換する、データ行列作成機能と、上記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行う、NMF処理機能と、上記基底スペクトル行列と上記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、上記ノイズ成分の影響を減ずるよう上記強度分布行列を補正して、補正後強度分布行列を作成する、補正処理機能と、上記補正後強度分布行列を上記検体のそれぞれに対応する小行列に分割し、上記小行列を特徴ベクトルとして、ベクトル空間内で上記検体のそれぞれを表現する、ベクトル処理機能と、上記特徴ベクトルの全てを内包するK-1次元単体を設定し、上記K-1次元単体におけるK個のエンドメンバーを決定する、エンドメンバー決定機能と、上記K個のエンドメンバーと、上記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、上記ユークリッド距離の比により、上記推定対象検体中の上記成分の含有量比を推定する、含有量比計算機能と、を含み、上記Kが3以上の場合、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、上記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、上記学習用検体が上記エンドメンバーの少なくとも1つを含む、プログラム。
本発明の方法(以下「本方法」ともいう。)は、検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測し、得られた加熱温度ごとのマススペクトルを各行に格納した検体ごとの二次元マススペクトルを得て、これらをまとめたデータ行列を非負値行列因子分解(NMF)によって、規格化された基底スペクトル行列とその強度分布行列の積に分解し、正準相関分析によって強度分布行列に含まれるノイズ成分を抽出して補正し、各検体の特徴ベクトルを含む補正後強度分布行列を得て、その後の定量計算を行う点に特徴点の一つがある。
この正準相関分析によって強度分布行列を補正する処理を行うことによって、(詳細は後述するが)より容易に、かつ、高精度で定量分析が可能になった。
また、Kが2以上の整数であり、推定対象となる検体(推定対象検体)がK種類の成分の混合物である場合、本方法によって、推定対象検体中におけるK種類の成分の混合比(組成)を推定することができる。
また、学習用検体がエンドメンバーを含む場合、より正確、かつ、より容易に検体の組成を推定することができる。
また、学習用検体にエンドメンバーの判別するための判別ラベルが付されている場合、そのラベルの情報からエンドメンバーを決定できるため、より容易に検体の組成を推定することができる。
また、判別ラベルが付されていない場合であって、学習用検体がエンドメンバーを含んでいる場合には、学習用検体の特徴ベクトルの頂点成分分析によってエンドメンバーを決定でき、検体の組成が推定できる。
また、学習用検体がエンドメンバーを含んでいない場合であっても、K-1次元単体が最小体積となるように頂点を定めるアルゴリズムを用いることによってエンドメンバーを決定することで、検体の組成が推定できる。学習用検体にエンドメンバーを必須としない点で優れている。
また、補正後強度分布行列が、強度分布行列の強度補正後のものであると、推定の正確性がより高まる。
また、検体セットが更に、キャリブレーション検体を含む場合であって、強度補正が強度分布行列を規格化することを含む場合、より簡便な手順で、より高精度に検体の組成が推定できる。
また、強度分布行列における各検体に対応する部分を検体の質量と環境変数の積で割り付けることによれば、観測の際における各成分のイオン化効率による影響が補正され、検体セットにキャリブレーション検体が含まれない場合であっても、検体の組成が高精度に推定できる。
また、上記割り付けに使用される環境変数が観測の際の雰囲気中に所定量含まれる分子量50~1500の化合物、又は、検体セットのそれぞれの検体に所定量含まれる分子量50~500の有機低分子化合物のマススペクトルのピークの合計値である場合、検体セットにキャリブレーション検体が含まれない場合であっても、より簡便な操作で、より正確な組成推定結果が得られる。
本発明の実施形態に係る組成推定方法のフローチャートである。 Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。 本発明の実施形態に係る組成推定装置のハードウェア構成図である。 本発明の実施形態に係る組成推定装置の機能ブロック図である。 「MSE_calib」についてのオリジナルなスペクトル(A)と、処理を行った後、再構築したスペクトル(B)を表す図である。 NMF分解後のC行列の一部Cδ(MSE_Calib)と、CCA-Filterによってバックグラウンド及び不純物のスペクトルを除いた後のSである。 M(ポリメチルメタクリレート)、S(ポリスチレン)、E(ポリエチルメタクリレート)三成分系の組成解析結果である。 NMFの条件から、直交制約を解除した場合の組成推定結果である。 NMF最適化の条件から、merging Sのみ解除した場合の組成推定結果である。 CCA-filterを解除した場合の結果(比較例)の組成推定結果である。 「MSE_calib」についてのオリジナルなスペクトル(上、raw of MSE_calib)と、CCA-filterを解除した上記で処理を行った後、再構築したスペクトルを表す図である。 環境変数による補正を行わなかった場合の組成推定結果である。 Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。 本発明の第2実施形態におけるエンドメンバーの決定方法の仕組みの説明図である。 実施例2の推定結果を表す図である。 実施例3の推定結果を表す図である。
以下、本発明について詳細に説明する。
以下に記載する構成要件の説明は、本発明の代表的な実施形態に基づいてなされることがあるが、本発明はそのような実施形態に制限されるものではない。
なお、本明細書において、「~」を用いて表される数値範囲は、「~」の前後に記載される数値を下限値及び上限値として含む範囲を意味する。
[用語の定義]
本明細書において使用される用語について説明する。なお、以下に説明のない用語については、当業者の間で普通に理解される意味で使用される。
本明細書において、「成分」とは、各検体を構成する物質を意味し、推定対象検体、学習用検体、及び、キャリブレーション検体は、成分の組合せによって構成される混合物を意味する。
「推定対象検体」とは、組成を推定すべき検体で、含まれている成分の数、及び、各成分の含有量はいずれも未知であってよい。
「学習用検体」とは、後述するK-1次元単体のK個のエンドメンバー決定に必要な検体を意味し、これらの検体には、K種類の成分から選択される少なくとも1種の成分が含まれ、それぞれ組成が異なっている。含まれる成分数は特に制限されず1~K種類であってよい。なお、学習用検体には、推定対象検体と同一の組成のものが含まれていてもよい。すなわち、推定対象検体と学習用検体とは同一であってもよいが、学習用検体はそれぞれ異なる。
「エンドメンバー」とは、K-1次元単体の頂点に対応するベクトルを意味し、このエンドメンバーは、K種類のうちの1成分のみからなる検体(学習用検体、又は、仮想の検体)の特徴ベクトルに対応する。
「バックグラウンド検体」とは、推定対象検体、及び、学習用検体とは異なる検体であって、上記成分のいずれをも含まない検体を意味する。
「キャリブレーション検体」とは、推定対象検体、学習用検体、及び、バックグラウンド検体とは異なる検体であって、K種類の成分を全て含み、その組成が明らかな検体を意味する。
[本方法の第1実施形態]
図1は、本発明の実施形態に係る組成推定方法(以下、「本方法」ともいう。)のフローチャートである。
まず、推定対象検体、互いに組成の異なるK個以上の学習用検体、及び、バックグラウンド検体(以上をまとめて「検体セット」という。)が準備される(ステップS101)。なお、検体セットは、キャリブレーション検体を更に含んでもよい。
推定対象検体は、K種類の成分のうち少なくとも1種の成分を含む。推定対象検体が1種類の成分を含む場合、本方法によってその成分の純度を推定することができる。この場合、推定対象検体には、上記「成分」と、それ以外の不純物とが含まれる。
Kが2以上の場合、推定対象検体は、成分の混合物である。本方法におけるKは1以上であれば、上限は特に制限されない。典型的には、Kは、1000以下が好ましい。
なお、学習用検体の個数は成分数Kに関係して、K個以上である必要がある。K個以上であれば、学習用検体の数としては特に制限されないが、より多い場合、後述するK-1次元単体の頂点の決定の精度がより高くなりやすく、結果として、より正確な組成推定結果が得られやすい。
すなわち、成分数Kに対する学習用検体の数の比(学習用検体の数/成分数)は、1以上であり、2以上が好ましく、3以上がより好ましく、5以上が更に好ましく、10以上が特に好ましい。一方、上限値は特に制限されないが、一般に、1000以下が好ましい。
学習用検体は、互いに組成が異なる。組成は、含まれる成分の種類と数、及び、各成分の含有量によって決まる。組成が同一とは、含まれる成分の種類、数、及び、それぞれの含有量が同一であることを意味し、いずれか1つが異なれば、それは「互いに組成が異なる」状態となる。
なお、本方法において、学習用検体は、互いに組成が異なっていれば、それ以外の情報、すなわち、含まれる成分の種類、成分数、及び、各含有量は、推定対象検体の組成推定には必要ない。すなわち、学習用検体の組成は、未知であってよい。
推定対象検体と学習用検体との相違点は、学習用検体はそれぞれ組成が異なることが必要である点である。なお、学習用検体は、推定対象検体と組成が同一のものを含んでいてもよい。
学習用検体は、エンドメンバーを含んでいてもよい。すなわち、学習用検体は、K種類の成分から選択される1種類の成分からなるもの(単味のもの、ピュア)を含んでもよい。学習用検体がエンドメンバーを含む場合、より容易に、高精度な組成推定が可能である。
このとき、エンドメンバーである学習用検体は、判別ラベルを含んでもよい。学習用検体が判別ラベルを含む場合、エンドメンバーの決定がより容易になる点で好ましい。
次に、推定対象検体をそれぞれ加熱して、熱脱着、及び/又は、熱分解によって生ずるガスを順次イオン化し、マススペクトルを取得する(ステップS102)。
マススペクトルを取得する方法としては特に制限されないが、アンビエントな条件にある試料を前処理なしで質量分析する方法が好ましい。このようなイオン化、及び、質量分析方法としては、DART(Direct Analysis in Real Time)イオン源と呼ばれるイオン源と質量分析計とを組合わせたDART-MSと呼ばれる質量分析装置が知られている。
質量分析計としては特に制限されず、精密質量分析が可能なものが好ましく、四重極型、及び、飛行時間(TOF)型等のいずれでもよい。
マススペクトルの取得について、具体的な条件は特に制限されないが、非限定的な一例を挙げると、検体セットに含まれるそれぞれの検体を順次50℃/minの昇温速度で加熱し、50~550℃の温度範囲で生じる熱分解ガスに対して50shot/minの間隔でヘリウムイオンを噴射しガスをイオン化させ、横軸にm/z、縦軸に温度を有する二次元MSスペクトルを得るという手順が挙げられる。
次に、加熱温度ごとに得られたマススペクトルを各行に格納し、検体ごとの二次元マススペクトルを得て、この二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換する(ステップS103)。
データ行列の取得方法を具体的に説明する。
ステップS102では、所定の昇温間隔ごとに連続的にマススペクトルが取得される。これらのマススペクトルは、そのままデータ行列の作成に使用されてもよいが、所定の昇温温度範囲ごとに平均して使用されてもよい。所定の昇温温度範囲ごとに平均してマススペクトルを1本にまとめることで、データ量を圧縮することができる。このような昇温温度範囲としては、例えば、10~30℃程度が挙げられる。
また、各スペクトルにおいて、ピーク強度は規格化されていてもよい。規格化の方法としては、例えば、ピーク強度の二乗和が1になるように規格化する方法が挙げられる。
このようにすることで、ある検体について、一回の測定することで、加熱温度ごと(又は、所定の範囲ごとにまとめられた加熱温度ごと)に、所定の本数(まとめ方によって異なる、例えば、20本等)のマススペクトルが得られる。
このマススペクトルが各行に格納され、加熱温度が各列に格納されると、検体ごとの二次元マススペクトルが得られる。
こうして、検体ごとの二次元マススペクトルが得られたら、これらの少なくとも2つ以上をまとめてデータ行列Xに変換する。
データ行列Xの作成に用いられる二次元マススペクトルの個数は2つ以上であれば特に制限されないが、検体セットに含まれる全検体の二次元マススペクトルが用いられることが好ましい。
なお、1つの検体について2回以上、測定が行われる場合には、2回以上の測定で得られた二次元マススペクトルの一部、又は、全てがデータ行列Xの作成に用いられてもよい。
次に、得られたデータ行列を非負値行列因子分解(NMF)し、規格化された基底スペクトル行列と、その強度分布行列との積に分解する(ステップS104)。
非負値行列因子分解について説明する。
スペクトルの強度とサンプルの成分組成の間に線形加成性が成り立つという仮定の下で、スペクトルのデータ行列は一般に、
Figure 0007628731000001
と行列分解できる。ここでデータ行列Xはチャンネル数MのスペクトルをN本積み重ねてできるN×Mのデータ行列、Sは基底スペクトル行列、Cはその強度分布行列である。データセットに含まれるすべての成分数をKとすればCはN×K行列、SはM×K行列になる。実際の計測にはノイズが含まれるので、
Figure 0007628731000002
と誤差行列Nを考慮にいれ、Nを最小化するようにC,S行列を定める。行列右肩のTは転置行列を意味する。ここでガウスノイズを仮定すれば
Figure 0007628731000003
なるC、Sについての最適化問題として定式される。なお、
Figure 0007628731000004
は、行列のフロベニウスノルム、
Figure 0007628731000005
は、ベクトルのL1ノルム、
Figure 0007628731000006
は、ベクトルのL2ノルムを表すものとする。
なお、上式におけるC、Sは唯一解が定まらないので、物理的要請からスペクトルが満たすであろう拘束条件を課す。NMFは、組成比やスペクトル強度が非負の値をとるという自明な要請から、
Figure 0007628731000007
として立式される。しかし、非負条件だけでは唯一解が定まらないので、測定装置に応じたさらなる拘束条件を適用することが求められる。以下では、本ステップにおけるNMFの拘束条件について説明する。
(NMF更新式について)
本ステップにおけるNMF処理は、以下に述べる制約を組み込みやすいHierarchical alternating least square (HALS)により、C、Sの列ベクトルワイズに交互に更新していくことで、上記式(数7)をC、Sの各列についての凸最適化問題として解くことが好ましい。
本方法では、各検体を加熱しながら、熱脱着、及び/又は、熱分解させて生じるガスについて質量分析を行うため、熱分解後の成分数Kを事前情報として得ることは難しく、データから推定する必要がある。推定方法としては、Automatic relevance determination (ARD)が好ましい。これは強度分布行列Cにスパース性を仮定するもので、ある成分の熱分解はその成分を含む検体の特定温度でのみ起こることを考えれば、自然な仮定といえる。これによりなるべく少ない成分数にする力と上記式(数7)を最小化する力が釣り合い、最適な成分数を求めることができる。
(直交制約)
質量分析計は、一般に0.1~0.001m/z程度の分解能を有する。したがって、異なるガス成分のm/zが小数点以下まで一致し、同一のチャネルを占めるという状況は稀にしか生じない。したがって、基底スペクトル行列Sの列ベクトル間にはある程度の直交性を仮定するのが妥当である。
これには良い局所解に導く効果のみならず、強度の強いピークにのみフィッティングが集中することを防ぐ効果も期待できる。一方で、完全な直交かつ非負は強すぎる制約となってしまうので、ラグランジュ未定乗数を有するペナルティー項を加える形でソフトに直交制約を課すことが好ましい(ソフト直交制約)。
(成分のマージング)
CとSの更新途中で、ほとんど同じ基底スペクトルが複数得られた場合は一つのスペクトルにまとめることで正しい成分数nを得ることができる。EALSのスペクトライメージをNMFに適用すると、Sのk番目の列ベクトルをS:kと書いて、S :k:m>thresholdなるk<mが存在するときに、
Figure 0007628731000008
によって一本化できる(Merging C)。ここでThresholdは0.9~0.99で与えられるハイパーパラメータである。これと同様に類似Sのマージングを行い、更に、Cの複数の列ベクトルが平行であったときも、対応するSの列ベクトルをCの重みに応じて重ね合わせることが好ましい。すなわち、
Figure 0007628731000009
なるk≠mが存在するときに、
Figure 0007628731000010
と一本化する(Merging S)。これには同位体ピークやオリゴマーピークを一つの基底スペクトルにまとめる効果があると考えられる。
(更新式の立式)
上記によって得られる更新式について説明する。
モデルの全同時分布は
Figure 0007628731000011
ここではσは分散パラメータ、
Figure 0007628731000012
の要素λは成分kがデータ中に占める重要度を表す逆ガンマ分布に従うパラメータである。ノイズにガウス分布を仮定したので
Figure 0007628731000013
Cが従う指数分布は、Kを初期値として入力する十分大きな任意の成分数(50程度)として、
Figure 0007628731000014
λが従う逆ガンマ分布は、
Figure 0007628731000015
ここでaはa-1が極めて小さな正の数となるようなハイパーパラメータ、bはデータ行列の平均値μにより
Figure 0007628731000016
として定まるパラメータである。また、Cの要素の期待値は
Figure 0007628731000017
p(X,C,S)の負の対数尤度は
Figure 0007628731000018
ここで、ガウス分布を仮定したときの分散パラメータσ2は、
Figure 0007628731000019
で与えられ、また、λについて凸関数なので
Figure 0007628731000020
を得ることができる。
次に、Sの更新式について説明する。まず、負対数尤度関数からS:kに関連する項J(S:k)のみを取り出すことを考える。Xに対するk成分の寄与、
Figure 0007628731000021
を用いて、
Figure 0007628731000022
と書けるので、定数項を除いて、
Figure 0007628731000023
上記は、Shiga,M.et al.Sparse modeling of EELS and EDX spectral imaging data by nonnegative matrix factorization. Ultramicroscopy 170,43-59(2016).をベースに導出された。ここで、上述したSに加える直交制約によるペナルティー項を加える。
Figure 0007628731000024
ここで、ξはラグランジュ未定乗数、
Figure 0007628731000025
である。s:kで微分して
Figure 0007628731000026
Figure 0007628731000027
とおいて、s:kについての更新式
Figure 0007628731000028
を得る。完全直交条件を与えるξは、
Figure 0007628731000029
より、
Figure 0007628731000030
より見積もることができる。ソフト直交条件はξに[0,1]のハイパーパラメータwをかけて、完全直交と直交制約なしとの間で自由に直交度合いを調整することができる。最終的な更新式は、
Figure 0007628731000031
次に、Cの更新式について説明する。負対数尤度関数からC:kに関連する項J(C:k)のみを取り出すことを考える。
Figure 0007628731000032
Figure 0007628731000033
と規格化しておけば、更新式は
Figure 0007628731000034
より、
Figure 0007628731000035
具体的なアルゴリズムは以下のとおりである。
Figure 0007628731000036
図1に戻り、次に、基底スペクトル行列とデータ行列とを正準相関分析して補正後強度分布行列を得る(ステップS105)。
具体的には、基底スペクトル行列とデータ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、ノイズ成分の影響を減ずるよう強度分布行列を補正して、補正後強度分布行列を得る。
NMFはデータ行列の低ランク近似であるため、実際にはi番目のスペクトルには存在しない成分kであっても、存在するとしたほうが最小二乗の意味で近似が良くなるのであればCik>0とする。多くの場合このようなCikは非常に小さく、NMF解析において問題にならない場合が多い。
しかし、微量成分検出においては、j番目のスペクトルに微量実在するCjk>0と、NMFアーティファクトであるCik>0を区別し、ゴーストピークであるCikには0を代入することが好ましい。NMFアルゴリズムのアーティファクトに由来する偽ピークをノイズの1つとして除くことによりより精度の高い推定結果が得られるからである。
本ステップでは、上記を解決するために、正準相関分析(Canonical Correlation Analysis )を用いる。本ステップは本方法の特徴点の一つであり、本発明者らは本ステップを、Canonical Correlation Analysis (CCA) Filterと命名した。
CCA filterは、概念的には、NMFから出力される基底スペクトルSの各成分が実際に元データに含まれていたかをサンプルワイズにスキャンし、元データに類似のピークパターンが見られなければそのサンプルのスペクトルから消去することによる。L番目のサンプルから生成されるスペクトルがデータ行列Xのl行からl′行までに格納されていた場合、その部分を抜き出した小行列をXδ(L)と書く。すなわちδ(L)={l,l+1,…,l′-2,l′-1}ある。
CCAは従来、二系統のデータ間の相関を調べる手法として知られており、以下で定式される。
N個のp次元ベクトルからなる行列を
Figure 0007628731000037
N個のq次元ベクトルデータからなる行列を
Figure 0007628731000038
として、
Figure 0007628731000039
ここで、
Figure 0007628731000040
である。
すなわち、ある軸にYとZを投影して、その相関係数ρが最大となるような解(a,bを見つけることがCCAの問題設定である。
(a,bと相関係数ρは次式の一般固有値問題の固有ベクトルと固有値として与えられ、すべての固有ベクトル(a,bをまとめて(A,Bと書くと、
Figure 0007628731000041
いま、ある成分kの基底スペクトルS:kが、サンプルLに含まれているか、いないかを判定したいとする。まず、データ行列Xから該当の部分データ行列Xδ(L)を抜き出す。一方Sは、S:k と似たすべてのスペクトル群をSsim 、それとは大きく異なるスペクトル群をSout と、二つの行列に分け、
Figure 0007628731000042
としてCCAを行う。ここである値t∈(0,1]に対して、ρ>tなるすべての固有値を取り出し、それに対応する固有ベクトルbの第一成分がその最大成分に対してb>tmaxを満たせば、成分kの基底スペクトルS:kがサンプルLに含まれていると判定する。そうでなければ、対応するCδ(L)k=0とする。
ここで、t、tはハイパーパラメータで、NMFのフィッティング精度、すなわちNMFハイパーパラメータであるthresholdの影響を強く受けるので、慎重に吟味する必要がある。経験的にt=0.9threshold,t∈[0.1,0.3]程度がよい結果を与える。
上記は、CCA filterをNMFアーティファクト(ノイズ)に適用する例について説明したが、上記のノイズ除去は、NMFアーティファクトだけでなく、バックグラウンドやコンタミネーションの除去にも適用できる。
すなわち、CCA filterで除去できるノイズとしては、例えば、(1)NMFのアーティファクト(いわゆる偽ピーク)、(2)装置の周辺環境から紛れ込む微量化学物質由来のピーク(バックグラウンド)、(3)検体中に含まれるが、分析に含めるとその本質をゆがめる恐れのある物質由来のピーク(コンタミネーション)が挙げられる。
本方法で扱う検体セットには、バックグランド検体が含まれているため、
Figure 0007628731000043
とすれば、基底スペクトルS:kがバックグランドファイルに含まれていたどうかが判定できる。もし含まれていたのであれば、それは環境由来のシステムノイズであるから、C:k=0とすればサンプルから当該スペクトルを取り除くことができる。
なお、更に、バックグラウンド検体がコンタミネーション物質を含む場合、上記と同様の手順によって、コンタミネーション由来のノイズも除去することができる。コンタミネーション物質としては特に制限されないが、例えば、検体の作製やロードに用いた溶媒等が挙げられる。
本ステップは更に、強度分布行列の強度補正を行うステップを含んでいてもよい。
例えば、DART-MSは、空気中の水やアンモニアをヘリウムイオンで一次的にイオン化し、これによりサンプルを二次的にイオン化する。そのため、湿度等、大気条件によってピーク強度が変化する場合がある。またロードする検体質量も検体ごとに異なっているのが普通であり、これもピーク強度に影響を及ぼす。また、検体に含まれる各成分のイオン化効率も一般にはそれぞれ異なり、これもピーク強度に影響を及ぼす。
強度分布行列の強度補正によれば、上記の影響を減じて、より正確な定量結果を得ることができる。
全検体が、K種類の成分を全て含み、かつ、その組成が既知であるキャリブレーション検体を含む場合、上記強度補正は、上記強度分布行列を規格化することによって実施できる。
強度分布行列を規格化するとは、C行列を検体ごとに規格化することであり、より具体的には、検体ごとにすべての要素を足して1になるようにする操作を意味する。
C行列をサンプルワイズに分割し、サンプルLに由来するC行列をCδ(L)とかくと、
Figure 0007628731000044
組成分析においては分解温度の情報は不要であるので、
Figure 0007628731000045
を縦方向に加算して得られるベクトル
Figure 0007628731000046
をサンプルLの特徴量ベクトルとする。次にエンドメンバーとして測定したp個の単成分サンプルの特徴ベクトルを並べて、エンドメンバー行列
Figure 0007628731000047
を作る。混合サンプルの特徴ベクトル
Figure 0007628731000048
はエンドメンバーの特徴ベクトルの線形和で書けるので、その係数ベクトル
Figure 0007628731000049
を使って、
Figure 0007628731000050
と書ける。
一つのキャリブレーション検体は必ず一つ以上の熱分解サンプルを与えるので、熱分解後の成分数はPは列フルランクな縦長の行列である。したがって一般的には解は不能で、最小二乗の意味での近似解は二次計画法で解くことができる。
本方法において得られるマススペクトルでは、イオン化効率が化合物ごとに異なるうえ、熱分解効率も異なり、化合物量とピーク強度は比例しない。
しかし、NMFによって成分kのイオン化効率を含めたピーク強度比はS:k の中にすでに反映されており、スペクトル間の強度比はC:kに反映されている。
このNMFによって形成された階層的データ構造のおかげで、エンドメンバーにおけるピーク強度比さえ考慮にいれれば、未知のイオン化効率を求めなくても、より正確な定量的な組成分析が可能になる。
一方、検体セットがキャリブレーション検体を含まない場合、強度分布行列の少なくとも一部(好ましくは全部)を、対応する検体の質量と環境変数の積で割り付けることによって、より正確な定量分析が可能となる。
ここで、環境変数とは、観測の際における各成分のイオン化効率への影響を表す変数である。
イオン化効率が高い成分であれば、ピーク強度は大きくなり、イオン化効率が低い成分であれば、ピーク強度が小さくなる。
また、検体の質量についても、これが大きくなれば、一般的にピーク強度は大きく成り、小さく成れば、ピーク強度は小さくなる。
検体セットがキャリブレーション検体を含まない場合、強度分布行列を規格化せず、強度分布行列が保持している検体間の強度情報を用いることができるよう、C行列を次のように補正する。
Figure 0007628731000051
ここでmはサンプルLの質量、Iは610m/zに全温度域で観測される、DART-MS付属のオイルポンプから生じる(ポリ)ジメチルシロキサンのピーク強度である。Iはその測定時の待機状態を反映しており、実際雨の日と晴れの日ではピーク強度に3倍程度の差がある。これにより補正した
Figure 0007628731000052
縦方向に加算して得られるベクトル
Figure 0007628731000053
をサンプルLの特徴ベクトルとする。あとは同様にエンドメンバーの特徴ベクトルからエンドメンバー行列
Figure 0007628731000054
をつくり、
Figure 0007628731000055
よりrを求める。
なお、上記ではIは、(ポリ)ジメチルシロキサン由来の610m/zとしたが、上記に制限されず、観測の際に雰囲気中に所定量に含まれる分子量50~1500の化合物に由来するもの、及び/又は、全検体のそれぞれに所定量含まれる分子量50~500の有機低分子化合物に由来するものであることが好ましい。
図1に戻り、次に、補正後強度分布行列を検体セットに含まれる検体のそれぞれの検体に対応する小行列に分割し、これを特徴ベクトルとしてベクトル空間内で各検体を表現する(ステップS106)。
さらに、これらの特徴ベクトル(それぞれ各検体に対応する)の全てを内包するK-1次元単体を設定し、K-1次元単体におけるK個のエンドメンバーを決定する(ステップS107)。
学習用検体がエンドメンバーを含む場合であって、学習用検体に判別ラベル(当該学習用検体が「エンドメンバー」であると判別するためのラベル)が付されている場合、そのラベルを元にエンドメンバーが決定される。
学習用検体がエンドメンバーを含む場合であって、学習用検体に判別ラベルが付されていない場合、すなわち、学習用検体にエンドメンバーが含まれてはいるが、どの学習用検体がエンドメンバーかが不明である場合、特徴ベクトルの頂点成分分析(Vertex Component Analysis)によってエンドメンバーが決定される。
学習用検体がエンドメンバーを含まない場合には、K-1次元単体が最小体積となるように頂点を定めるアルゴリズムによってエンドメンバーが決定される。なお、K-1次元単体が最小体積になる、とは、2次元単体(3角形)の場合は、最小面積を意味する。
本方法の一形態においては、学習用検体がエンドメンバーを含まない場合でも、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、学習用検体の特徴ベクトルの少なくとも1つが位置しているため(Kが3以上の場合)、精度よくエンドメンバーを決定することができる。
図2は、Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。K-1次元単体10は、学習用検体16、17、及び、18によって決定されたエンドメンバー13、14、及び、15を頂点とする三角形である。
図2のように、学習用検体16、17、及び、18が、K-1次元単体の内接超球12(この場合「円」)の外側の領域19(ハッチング)のそれぞれに位置していると、精度の高い定量分析結果が得られる。
なお、上記はRobust Volume Minimization-Based Matrix Factorization for Remote Sensing and Document Clustering, IEEE TRANSACTIONS ON SIGNAL PROCESSING,VOL. 64,NO. 23,DECEMBER 1,2016をベースに考案された。
K-1次元単体が最小体積となるように頂点を定めるアルゴリズムとしては特に制限されず、公知のアルゴリズムが適用できる。このようなアルゴリズムとしては、例えば、Minimum volume constraint-NMF法、Minimum Distance Constraint-NMF法、Simplex identification via split augmented Lagrangian法、及び、Simplex volume minimization法等が挙げられる。
次に、K個のエンドメンバーと、推定対象検体の特徴ベクトルとのユークリッド距離をそれぞれ計算し、検体中の各成分の含有量比を推定する(ステップS108)。
なお、本方法の他の一形態として、学習用検体が、エンドメンバーを少なくとも1つ含む(学習用検体の少なくとも1つがエンドメンバーである)場合、他の学習用検体の特徴ベクトルは、K-1次元単体に内接する超球体の内側の領域に位置していてもよい。図13は、図2と同様に、Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。K-1次元単体60は、エンドメンバーである学習用検体61、それ以外の学習用検体62、及び、学習用検体63によって決定されたエンドメンバー64、及び、65を頂点とする三角形である。図2と異なるのは、学習用検体62、及び、63が、K-1次元単体に内接する超球体の内側の領域に位置していることである。
なお、学習用検体の少なくとも1つがエンドメンバーである場合であっても、他の学習用検体は、K-1次元単体に内接する超球体上に位置していてもよいし、外側の領域に位置していてもよい。すなわち、この場合、他の学習用検体の位置は任意でよい。
なかでも、より優れた本発明の効果が得られる点では、他の学習用検体は、エンドメンバーである学習用検体とは異なるエンドメンバーの成分(他のエンドメンバーの成分)を20質量%以上含むことが好ましく、40質量%以上含むことがより好ましい。
本方法によれば、溶媒に溶解しにくく、従来の組成分析が行いにくい固体の検体であっても、特段の前処理なしに分析に供することができ、かつ、正確な定量分析が可能になる。本方法は、特に、複数の成分の混合物である検体の品質管理、及び、不良原因の調査等に適用した場合、結果を得るために必要な時間を大幅に短縮することができる。
[本方法の第2実施形態]
本方法の第2実施形態は、すでに説明した第1実施形態におけるステップS107において、学習用検体がエンドメンバーを含まない場合、すなわち、K-1次元単体頂点に位置する学習用検体が1つもない場合のエンドメンバー(頂点)の決定方法を含む。
本実施形態に係る方法の特徴点の一つは、エンドメンバーの決定が、検体ごとのフラグメント存在強度を表す行列を非負値行列因子分解し、検体中のK種類の成分の重量分率を表す行列と、K種類の成分の各単体ごとのフラグメント存在強度を表す行列との積に分解する第2のNMF処理により行われる点にある。
図14は、その仕組みを説明するための模式図である。
各検体は、K種類の成分の混合物(以下では、「ポリマー」の混合物として説明する)であるが、実際に観測できるのは、各ポリマーが熱分解して生じたM種類のフラグメントガスのスペクトルSの適当な線形和である。
本実施形態に係る上記特徴点は、その係数行列を
Figure 0007628731000056
とすれば、
Figure 0007628731000057
であり、仮にK個のポリマーの単体について測定できたとして、それが
Figure 0007628731000058
と観測されたとすると、
Figure 0007628731000059
と、二度目のNMF処理を行えば、組成Cが得られる、という着想に基づいている。
なお、ここで
Figure 0007628731000060
はK個の単体(ポリマー)から生じるM個のフラグメントの存在量を表す。
以下では、図1のフローにおける、ステップS104のNMF処理(以下、「1回目のNMF処理」ともいう。)と、ステップS107におけるエンドメンバーの決定において実施されるNMF処理(以下「2回目のNMF処理」ともいう。)の違い等について詳述する。なお、以下に説明のないステップ等については、原則として、第1実施形態における各ステップと同様である。
以下の説明において、第1実施形態における説明で使用した各記号等を以下の表のとおり置き換えて説明する。
Figure 0007628731000061
また、以下の説明において、多くは信号処理で一般的に使われている表記法に従う。
Figure 0007628731000062
は、は非負、又は、実数のN×M行列を表す。
ある行列
Figure 0007628731000063
に対して、
Figure 0007628731000064
はそれぞれn番目の行ベクトル、m番目の列ベクトル、(n, m)-要素を表す。XはXの転置行列、
Figure 0007628731000065
はフロベニウスノルムを表す。
Figure 0007628731000066
はXのn行目の
Figure 0007628731000067
を表す。Xが正方行列のとき、Tr(X)はトレース、diag(X)は対角成分からなる対角行列を表す。1と11はすべての要素が1のN次元ベクトル又は(N,N)行列を表す。IはN次元の単位行列を表す。
(1回目のNMF)
Figure 0007628731000068
入力:データ行列
Figure 0007628731000069
出力:分布行列
Figure 0007628731000070
基底フラグメントスペクトル
Figure 0007628731000071
ここで、N:サンプル数、T:温度帯域分割数、D:チャネル数、M:基底スペクトル数である。
一回目のNMFは、志賀らによって提案されたARD-SO-NMFに対して以下3点を主な変更点として加え、MS(Mass spectrometry)のデータ解釈によく適合するように開発した。
1)チャネルごとのガウスノイズの分散共分散行列
Figure 0007628731000072
を自然同位体ピークに基づき見積もること
2)ソフト直交制約を基底フラグメントスペクトル間に適用すること
3)似た強度分布を有するフラグメントスペクトル同士を統合すること(マージング条件の拡張)
1)については、以下しばらくの間、分散σで独立等分散(i.i.d)のガウスノイズを仮定し、途中で分散共分散行列Rを導入する。ノイズにi.i.dを仮定すると、データ行列Xの確率生成モデルは、
Figure 0007628731000073
と書ける。基底スペクトル数Mは未知なので、自動的に推定できるように、automatic relevance determination (ARD)を分布行列Aのスパース性に基づいて導入する。まず、基底成分ごとにλでパラメトライズされた指数分布をAの事前分布として仮定する。
すなわち、
Figure 0007628731000074
に対して、
Figure 0007628731000075

全体の確率モデルとしては、
Figure 0007628731000076
と書ける。ここで、p(S)は、
Figure 0007628731000077
の超球面上の一様分布を、p(λ|a,b)は(a,b)でパラメトライズされる逆ガンマ分布、すなわち
Figure 0007628731000078
とする。aはスパース性を調整するハイパーパラメータで、a=1+10-16、bは経験的にAimの期待値E(Aim)から見積もれて、
Figure 0007628731000079
と関係づけられる。これは更にE(Xid)と
Figure 0007628731000080
なる関係があり、E(Xid)をXの平均μで近似すると、
Figure 0007628731000081
よりbは、
Figure 0007628731000082
と定まる。したがって負対数尤度関数は、
Figure 0007628731000083
と書ける。これはλに対して下に凸な関数なので、
Figure 0007628731000084
すなわち、
Figure 0007628731000085
としてλに関する更新式が得られる。ここまでは志賀らの報告したARD-SO-NMFの導出に完全に従った。
ノイズに対するi.i.dガウス分布の仮定はMSデータについては当てはまらず、大きいシグナルほど大きなノイズを有する傾向があることが知られている。そこで、ノイズ分布
Figure 0007628731000086
を自然同位体ピークによる線形回帰の残渣成分として求めた。すなわち、
Figure 0007628731000087
ここで
Figure 0007628731000088
はチャネルdを中心にした[d-30,d-20,d-10,d+10,d+20,d+30]なるチャネルで、チャネルdの±3m/zの同位体ピークである(チャネル間隔が0.1m/zであることに留意)。チャネルごとの分散共分散行列
Figure 0007628731000089

Figure 0007628731000090
として求まる。これを用いて尤度関数を書き直すと、
Figure 0007628731000091
となる。Rは定数行列であることに注意する。全体の負対数尤度関数は、
Figure 0007628731000092

となる。λについての更新式Eq.S3を代入し、定数項を落として簡略化すると、
Figure 0007628731000093
となる。この関数のA、Sに関する最小化はhierarchical alternating least square (HALS)により行う。簡便のため、以下のベクトル表記を用いる。
Figure 0007628731000094
HALSでは残差X-ASを
Figure 0007628731000095
として表す。ここで
Figure 0007628731000096

である。これによりL(X,A,S,λ)は成分mごとに分離して書けて、
Figure 0007628731000097
Sについてのソフト直交制約はペナルティー項
Figure 0007628731000098
として目的関数Lに組み込むことができる。ここで
Figure 0007628731000099
である。この項はm-成分とその他成分の非直交性を表し、ξは厳密に直交性が満たされる際のラグランジェ未定乗数を表す。この項は更にw∈[0,1]によって緩和される。したがって最小化すべき目的関数は、
Figure 0007628731000100
となり、aとsに関する勾配は、
Figure 0007628731000101
となり、これらをゼロと置けば、更新式は
Figure 0007628731000102
となる。sは更新毎に規格化されるので、定数係数は省略した。非負制約は、更新毎に非負象限に射影することにより満たした。具体的には例えば、
Figure 0007628731000103
によって射影できる。ここで
Figure 0007628731000104
は要素ごとに絶対値を取ったベクトルを意味する。未定乗数ξ
Figure 0007628731000105
をEq.S6の左側から乗じ、厳密な直交条件、
Figure 0007628731000106
とw=1を適用することで、
Figure 0007628731000107
と得られる。以上Eq.S1-S7を用いて以下のアルゴリズム1を提案する。
Figure 0007628731000108
ここで、AとSの更新毎に、似た成分同士をマージングするようにする。同様のスペクトルを有する成分同士をマージすることが志賀らに提案されているが、ここではさらに、同様の強度分布を有する成分同士もマージングすることにした。これにより、同位体ピーク、異なるイオン付加によりイオン化されたフラグメントシリーズ、モノマー数違いのオリゴマーピークシリーズなどを一つの成分とすることで、より解釈性の高い結果を与えることができる。
(Canonical correlation analysis filter (CCA-filter)の導出)
入力:1回目NMFの出力
Figure 0007628731000109
、バックグラウンドスペクトル
Figure 0007628731000110
出力:バックグランド由来と判定された成分番号のリスト
1回目のNMFで得られたM-成分の中には、バックグランドや混入物に由来する成分が含まれ、これらは組成分析結果をゆがめる可能性があるため、AやSから取り除くことが好ましい。M′-成分がバックグラウンド由来の成分だとCCA-filterにより判定されたとすると、
Figure 0007628731000111
及び
Figure 0007628731000112
はそれぞれ、
Figure 0007628731000113

Figure 0007628731000114
になる。単純のため、CCA-filter適用後の成分数はM-M′になるが、一貫してMを用いる。
CCA-filterを用いるためには、バックグラウンドスペクトル
Figure 0007628731000115
をデータセットに含めて、サンプルスペクトルと併せて1回目のNMFを行う必要がある。もし何らかの混入物が予想できる場合は、その混入物について測定したスペクトルをXBGとして用いることができる。CCA-filterは成分m=1,…,Mについてひとつずつ、そのスペクトルSm:がXBGに含まれているか確認していく。
最初のステップは、M-スペクトルからなる
Figure 0007628731000116
されたSを、Sm:に似たスペクトルセット
Figure 0007628731000117
と、似ていないスペクトルセット
Figure 0007628731000118
に分割することである。この分割は、
Figure 0007628731000119
が満たされるように行う。t∈[0,1]はある閾値で本発明では一貫してt=0.2を用いた。なお、Sm:は常にYに含まれるので、Yの一列目にSm:を格納した。ZはXBGと結合し、
Figure 0007628731000120
とした。YとZは、平均ゼロとなるように、
Figure 0007628731000121
とした。これら二つのスペクトルセットに対して、CCAを行う。CCAは、二つのスペクトルセット内の線形結合により、なるべく似たペアのスペクトルを作り出す。
Figure 0007628731000122
及び
Figure 0007628731000123
の線形結合の係数がベクトル
Figure 0007628731000124
及び
Figure 0007628731000125
に格納されているとする。従ってスペクトルペアはそれぞれ、
Figure 0007628731000126
及び
Figure 0007628731000127
と書ける。その類似度は相関係数ρによって評価され、
Figure 0007628731000128
ここで、
Figure 0007628731000129
CCAの問題設定は、
Figure 0007628731000130
と書ける。その解
Figure 0007628731000131
は一般固有値問題の解として与えられて、
Figure 0007628731000132
ここで
Figure 0007628731000133
は固有ベクトル
Figure 0007628731000134
をその固有値が大きい順に列ベクトルとして並べて得られる行列である。
各固有値
Figure 0007628731000135
は、対応する(u,v)を係数として線形結合で作られたyとzの相関係数になっている。ここではρ>tを満たすすべての固有値に対応するuを取り出し、もしSm:の係数に対応する1番目の要素がuに大きく寄与する大きな成分であれば、すなわち
Figure 0007628731000136
であれば、成分mはバックグラウンドに由来する成分と判定して、システムから除く。ここでt∈[0.9,0.99]、t∈[0,1]である。これを以下にアルゴリズム2としてまとめた。
Figure 0007628731000137
バックグラウンド成分が特定されたあとは、対応するAの列ベクトル、及びSの行ベクトルを削除することで、システムから除いた。
CCA-filterから出力された、バックグラウンドに由来するM′-成分除去済みの
Figure 0007628731000138
(以下、簡単のためM-M′をMと置き換えて、
Figure 0007628731000139
と表す)は、サンプル量及び内部標準ピークで割り付け強度を補正する。その後、サンプルnに関するAの小行列部分A(n)を一次元ベクトル化した
Figure 0007628731000140
をサンプルnの特徴ベクトルとして二回目のNMFの入力としてもよいが、組成分析においてはM-フラグメントの温度分布は不要な情報のため、サンプル毎にすべての温度帯域を足し合わせてサンプル毎のM-フラグメント存在強度(fragment abundance; FA)を表す
Figure 0007628731000141
を入力としてもよい。ここでは簡単のため
Figure 0007628731000142
について二回目のNMFを行うことにする。
以下のセクションでは、Non-negative least square (NNLS)によるフィッティングを頻繁に使う。この問題は、最適な非負係数
Figure 0007628731000143
を用いて、定数行列
Figure 0007628731000144
の列ベクトル線形結合により
Figure 0007628731000145
を近似するもので、
Figure 0007628731000146
により求められる。これを解くには、alternating direction multiplier methods (ADMM)(1)を含む数多くの最適化手法が使えるが、ここではFu. et. al. (2)により開発されたADMM-NNLSを用いてこの問題をとき、解を
Figure 0007628731000147
と表記する。近似するベクトルセットY=[y,..,y]に対応する非負係数ベクトルx (l=1,..,L)は個別に計算できて、
Figure 0007628731000148
または行列形式で、
Figure 0007628731000149
と書くことにする。ここで
Figure 0007628731000150
である。同様の問題で、係数ベクトルの総和が1になるような拘束条件付の問題はfully constrained least square (FCLS)とよばれ、ADMMを用いて同じく解くことができて、
Figure 0007628731000151
または行列表記で、
Figure 0007628731000152
と書くことにする。
(2回目のNMF)
入力:サンプル毎のFAを表す
Figure 0007628731000153
、基底M-フラグメントごとのスペクトル
Figure 0007628731000154
、ポリマー成分数K
出力:サンプル毎のポリマー重量分率
Figure 0007628731000155
、単位重量K-基底ポリマーごとのFA
Figure 0007628731000156
2回目のNMF:
Figure 0007628731000157
は、リーマン計量を用いてその近似残差
Figure 0007628731000158
を評価する、すなわち、
Figure 0007628731000159
ここで、
Figure 0007628731000160
である。下三角行列
Figure 0007628731000161
をコレスキー分解G=LLにより得れば、
Figure 0007628731000162
と書ける。ここで
Figure 0007628731000163
であり、
Figure 0007628731000164
と行列分解することと等値である。
Figure 0007628731000165
の行ベクトルで張られるシンプレックスの体積項を
Figure 0007628731000166
の行ベクトル間の非直交性項を
Figure 0007628731000167
として、α>0とβ∈[0,1]を重みとすれば、
Figure 0007628731000168
により
Figure 0007628731000169
が求まる。ここで、Fuらは(3)外れ値へのロバスト性を付与するために、
Figure 0007628731000170
なる重み行列の導入を提案している。ここで、p∈(0,2]、かつεは小さな正則化パラメータである。本発明では、一貫してp=1.5かつε=10-8とした。最適化問題は
Figure 0007628731000171
となる。Cと
Figure 0007628731000172
はblock coordinate descent (BCD) 理論により交互に最適化する。今、t回の最適化を行い、
Figure 0007628731000173
を得たとする。なお、初期化には、vertex component analysis (VCA)(4)を用いて、
Figure 0007628731000174
のN-行ベクトルの中からシンプレックスのK-頂点に近いK個の行ベクトルを選択し、これを
Figure 0007628731000175
とした。
Figure 0007628731000176
に基づくCのアップデートは、
Figure 0007628731000177
により単純に行える。そこでC(t)に基づく
Figure 0007628731000178
から
Figure 0007628731000179
へのアップデートについて考える。なお、
Figure 0007628731000180
で、
Figure 0007628731000181
は未定乗数である。また
Figure 0007628731000182
ここで、
Figure 0007628731000183
は小さな正則化パラメータで、一貫してτ=10-8を用いた。ここで、
Figure 0007628731000184
のMajorizer関数を導入する。接線不等式より、一期前の
Figure 0007628731000185
に基づいて、
Figure 0007628731000186
が成立する。ここで
Figure 0007628731000187

Figure 0007628731000188
のH(t)における勾配で、
Figure 0007628731000189
より、
Figure 0007628731000190
ここで、
Figure 0007628731000191
かつ、constは定数項である。したがって、
Figure 0007628731000192

Figure 0007628731000193
で置き換えて、すべてのペナルティー項を合わせて書くと、
Figure 0007628731000194
ここで
Figure 0007628731000195
従って
Figure 0007628731000196
のアップデートは以下を解くことで得られる。
Figure 0007628731000197
複雑な制約条件を整理するために、
Figure 0007628731000198
なる制約をラグランジェ未定乗数
Figure 0007628731000199
を用いて、目的関数に組み込み、ADMMの枠組みでこの問題を解く。
Figure 0007628731000200
ここで、
Figure 0007628731000201
かつμはADMMのハイパーパラメータである(ここでは一貫してμ=1とした)。Z′は一期前のZを表し、
Figure 0007628731000202
のときに目的関数はZについて最大化された、
Figure 0007628731000203
を与える。これを
Figure 0007628731000204
について最適化すればよい。
Figure 0007628731000205
をサイクリックに最適化し、アルゴリズムをAlgorithm3にまとめた。
Figure 0007628731000206
目的関数
Figure 0007628731000207

Figure 0007628731000208
については拘束条件なしの二次関数の最適化なので、
Figure 0007628731000209
より最小化される。また
Figure 0007628731000210
はNNLSにより解けて、
Figure 0007628731000211
と更新される。以上より元の問題Eq.S11を解くための
Figure 0007628731000212
の更新式が得られた。最後にV=αF(t)+βΛ(t)の更新について考える。F(t)については
Figure 0007628731000213
と簡単に求まる。Λ(t)は厳密な直交条件、すなわち
Figure 0007628731000214

Figure 0007628731000215
を組み合わせて、
Figure 0007628731000216
をEq.S19の右側からかけると、
Figure 0007628731000217
と得られる。Eq.S18とEq.S20より、
Figure 0007628731000218
が与えられる。以上を用いて、問題Eq.S11を解くためのアルゴリズムは以下のとおりである。
Figure 0007628731000219
(SとBの張る超平面へのテストデータの射影)
データセットからSとBを推定したのちに、SとBの推定には用いなかったデータ(ここではテストデータと呼ぶ)
Figure 0007628731000220
を、SとBの張る超平面へ射影する方法について述べる。
まずS-超平面への射影により、
Figure 0007628731000221
が得られる。すなわち、
Figure 0007628731000222
温度帯域について総和をとり、
Figure 0007628731000223
に変換したのちに、B-超平面への射影と規格化により、
Figure 0007628731000224
が得られる。すなわち、
Figure 0007628731000225
なお、データセットとハイパーパラメータは以下のとおりである。
Figure 0007628731000226
また、引用文献は、以下のとおりである。
Figure 0007628731000227
(組成推定装置)
次に、本発明の実施形態に係る組成推定装置について、図面を参照しながら説明する。図3は、本発明の実施形態に係る組成推定装置のハードウェア構成図である。
組成推定装置30は、質量分析装置31と、情報処理装置33とを備え、質量分析装置31は、減圧ポンプ32を備えている。情報処理装置33は、プロセッサ34と、記憶デバイス35と、表示デバイス36と、入力デバイス37とを有し、質量分析装置31と情報処理装置33とは相互にデータを送受信できるよう構成されている。
プロセッサ34は、例えば、マイクロプロセッサ、プロセッサコア、マルチプロセッサ、ASIC(application-specific integrated circuit)、FPGA(field programmable gate array)、及び、GPGPU(General-purpose computing on graphics processing units)等である。
記憶デバイス35は、各種プログラム、及び、データを一時的に、及び/又は、非一時的に記憶する機能を有し、プロセッサ34の作業エリアを提供する。
記憶デバイス35は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、及び、SSD(Solid State Drive)等である。
入力デバイス37は、各種情報入力を受け付け、また、組成推定装置30への指示の入力を受け付けることができる。入力デバイス37は、キーボード、マウス、スキャナ、及び、タッチパネル等でよい。
表示デバイス36は、組成推定装置30のステータス、分析の進捗、及び、組成推定結果等を表示できる。表示デバイス36は、液晶ディスプレイ、及び、有機EL(Electro Luminescence)ディスプレイ等でよい。
また、表示デバイス36は、入力デバイス37と一体として構成されていてもよい。この場合、表示デバイス36がタッチパネルディスプレイであって、GUI(Graphical User Interface)を提供する形態が挙げられる。
データバスにより相互にデータを通信可能なプロセッサ34、記憶デバイス35、入力デバイス37、及び、表示デバイス36を備える、情報処理装置33は、典型的にはコンピュータである。
質量分析装置31は、減圧ポンプ32を備え、典型的には、DARTイオン源、検体加熱装置、及び、飛行時間型質量分析計を備える質量分析装置である。質量分析装置31が備えるイオン源、及び、質量分析計は、いずれも非限定的な例であり、本組成推定装置が備える質量分析装置の構成は上記に限定されない。
図4は、本発明の実施形態に係る組成推定装置30の機能ブロック図である。組成推定装置30は、全検体の質量分析を行う質量分析部41と、質量分析部41によって得られたマススペクトルを処理する情報処理部42とを有する。
質量分析部41は、質量分析装置31を含んで構成され、質量分析装置31が後述する制御部43に制御されて実現する機能である。
質量分析部41は、ロードされた検体セット(検体、学習用検体、及び、バックグラウンド検体、図4中、符号a)について、加熱しながら熱脱着、及び/又は、熱分解されて生ずるガス成分をイオン化し、順次質量分析して、マススペクトルを出力する(図4中、符号c)。
この際、質量分析装置31の設置されている環境に起因した環境要因(図4中、符号b、例えば、減圧ポンプ32から生ずる(ポリ)ジメチルシロキサン)も同時に質量分析装置31にロードされ、マススペクトルに影響を与える。
次に、情報処理装置33を含んで構成される情報処理部42の各部の機能について説明する。
制御部43は、プロセッサ34を含んで構成される。制御部43は、各部を制御して、組成推定装置30の各機能を実現する。
記憶部44は、記憶デバイス35を含んで構成される。記憶部44には予め各部の制御のためのプログラムが記憶され、また、各部によって入出力されるデータの一時的、又は、非一時的な記憶領域を提供する。記憶部44は、制御部43によって制御され、データを読み出したり、書き込んだりすることができる。
入力部45は入力デバイス37を含んで構成される。また、出力部46は、表示デバイス36を含んで構成される。制御部43がこれらを制御することで、組成推定装置30の使用者からの入力を受け付けて、これを記憶部44に記憶させたり、記憶部44に記憶された情報を各部に送信したり、出力部46を介して組成推定装置30の使用者に対して表示したりできる。
データ行列作成部47は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
データ行列作成部47は、質量分析部41によって加熱温度ごとに取得されたマススペクトル(図4中、符号c)を各行に格納した二次元マススペクトルからデータ行列Xを作成し、後述するNMF処理部48に渡す(図4中、符号d)。なお、データ行列Xの詳細については、すでに説明したとおりである。
NMF処理部48は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
NMF処理部48は、データ行列作成部47によって作成されたデータ行列X(図4中、符号d)を非負値行列因子分解(NMF)し、規格化された基底スペクトル行列(S)とその強度分布行列(C)との積(X=C×S)に分解する。その結果は、補正処理部49に渡される(図4中、符号e)。なお、NMF処理の詳細はすでに説明したとおりである。
補正処理部49は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
補正処理部49は、NMF処理部48によって作成された基底スペクトル行列とデータ行列との正準相関分析によって強度分布行列を補正して、補正後強度分布行列を作成する機能である。作成された補正後強度分布行列はベクトル処理部50に渡される(図4中、符号f)。
なお、補正処理部49は、上記の正準相関分析による補正に加えて、すでに説明した強度補正を更に行ってもよい。この際、強度補正に用いるキャリブレーション検体の組成(calib検体組成)がある場合は、入力部45を介して補正処理部49に渡される(図4中、符号k)。正準相関分析による補正(CCA filter)、及び、強度補正の詳細はすでに説明したとおりである。
ベクトル処理部50は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
ベクトル処理部50は、補正処理部49により作成された補正後強度分布行列を全検体のそれぞれに対応する小行列に分割し、これを特徴ベクトルとしてベクトル空間内で全検体を表現する。この結果は、エンドメンバー決定部51に渡される(図4中、符号g)。
エンドメンバー決定部51は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
エンドメンバー決定部51は、ベクトル処理部50によって作成された特徴ベクトルの全てを内包するK-1次元単体を設定し、K-1次元単体におけるK個のエンドメンバーを決定する。この結果は、含有量比計算部52に渡される(図4中、符号h)。
この際、学習用検体にエンドメンバーが含まれる場合であって、判別ラベルを有する場合には、入力部45から判別ラベルの情報がエンドメンバー決定部51に渡される(図4中、符号j)。
しかし、すでに説明したとおり、エンドメンバーの決定(エンドメンバー決定部51の処理)には判別ラベルは必須ではない。
含有量比計算部52は、記憶部44に記憶されたプログラムが制御部43により実行されて実現される機能である。
含有量比計算部52は、エンドメンバー決定部51によって決定されたK個のエンドメンバーと、ベクトル処理部50により作成された推定対象検体の特徴ベクトルとのユークリッド距離をそれぞれ計算し、K個のエンドメンバーと検体の特徴ベクトルとのユークリッド距離の比から、推定対象検体中のK個の成分の含有量比を推定する。この含有量比の推定結果(図4中、符号i)は、出力部46から出力される。
なお、この際、学習用検体の組成推定結果もあわせて出力してもよい。
本組成推定装置よれば、溶媒に溶解しにくく、従来の組成分析が行いにくい固体の検体であっても、特段の前処理なしに分析に供することができ、かつ、正確な定量分析結果が得られる。本組成推定装置は、特に、複数の成分の混合物である検体の品質管理、及び、不良原因の調査等に適用した場合、結果を得るために必要な時間を大幅に短縮することができる。
以下では、実施例をもとに、本組成分析方法について詳述する。なお、本発明の組成分析方法は下記の特定の実施例によって限定的に解釈されるものでない。
[実施例1]
(検体の準備)
ポリメチルメタクリレート(poly(methyl methacrylate)、記号「M」)、ポリスチレン(polystyrene、記号「S」)、ポリエチルメタクリレート(poly(ethyl methacrylate)、記号「E」)の三種類の高分子のジオキサン溶液(約4質量%、高分子の固形分として0.4mg程度)を、サンプルポット上にキャストした後に一晩風乾して検体を得た。表4は、各検体の組成である。なお、質量分析は、SHIMADZU社製LCMS-2020を検出器として、IonSense社製DARTイオン源として、バイオクロマト社製イオンロケットをサンプルの加熱部として用いて行った。
Figure 0007628731000228
得られたマススペクトルについて、以下の(i)~(iv)を実装したアルゴリズムによって解析を行った。
(i)C行列ARDとS行列へのソフト直交制約
(ii)NMF最適化中のマージング条件
(iii)CCA-filterによるNMFアーティファクト、及び、バックグラウンド、コンタミネーション除去
(iv)環境変数を補正項にいれることで、キャリブレーション不要の定量分析
解析に使用したハイパーパラメータは以下のとおりである。
NMF:
orthogonal constrain weight w=0.2, initial component number K=50, small positive number a=1+0.1-15, iteration number L=2000, threshold=0.9
CCA-Filter:
=0.8,t=0.2,
図5は、「MSE_calib」についてのオリジナルなスペクトル(A)と、上記処理を行った後、再構築したスペクトル(B)を表す図である。両者の波形は類似していることがわかる。すなわち、上記処理によってオリジナルなスペクトルの特徴は保存され、組成分析に用いやすいデータとなったことが示された。
また、オリジナルデータにはエアコン等から排出されるフタル酸エステル等のバックグラウンドが390m/zに観測される(図5(A)中、「BG」と表示した部分)が、再構築されたピーク(B)では、これが除去されている。また、検体の作成に用いられた溶媒であるジオキサン(図5(A)中、「DOX」と表示した部分)も除去されていた。これらはいずれもノイズに該当するものであり、本方法によって、効果的にノイズが除去されたことが示された。
また、図6は、NMF分解後のC行列の一部Cδ(MSE_Calib)と、CCA-Filterによってバックグラウンド及び不純物のスペクトルを除いた後のSである。
図7は、M、S、E三成分系の組成解析結果である。図7中、中空円で表され、凡例に「Calibrated」とあるのは、MSE_calibをキャリブレーション検体とした場合、つまり、MSE_calibの組成情報を既知として与え、強度分布行列を強度補正した場合の検体の組成推定結果である。
また、図7中、中実円で表され、凡例に「Non-calibrated」とあるのは、環境変数(すなわち、610m/z:ポリジメチルシロキサンのピーク強度)と検体質量の積を用いて、強度分布行列を強度補正した場合の検体の組成推定結果である。
また、図7中、星印で表され、凡例に「Known」とあるのは、実際の組成(真の値)を表している。
図7に示した結果から、「Calibrated」、「Non-calibrated」のいずれの場合にも真の値に近い、優れた推定結果が得られた。
次に、図8は、NMFの条件から、(1)の直交制約を解除した場合の組成推定結果である。各プロットの定義は、図7と同様である。
図8の結果から、NMFが直交制約を有する方が、より優れた推定結果が得られることがわかった。
次に、図9は、NMF最適化の条件から、merging Sのみ解除した場合の組成推定結果である。各プロットの定義は、図7と同様である。
図9の結果から、NMF最適化の条件がmerging Sを有する方が、より優れた推定結果が得られることがわかった。
なお、成分数はARDによって36までしか減らせないが、Merging Sの条件を維持したときは成分数9でより精度よく組成が推定できることから、Merging Sの重要性がわかった。
図10は、CCA-filterを解除した場合の結果(比較例)の組成推定結果である。各プロットの定義は図7と同様である。
図10においては、検体「SE」は、Mの含有量は0%にも関わらず1%程度入っているという計算結果となった。0%を1%と推定してしまうと、数%の推定精度もないということになり実用的ではない。
図11は、「MSE_calib」についてのオリジナルなスペクトル(上、raw of MSE_calib)と、CCA-filterを解除した上記で処理を行った後、再構築したスペクトル(下、reconstructed of MSE_calib)を表す図である。
この結果から、CCA-filterを解除すると、DOX、BG(図5の説明を参照)のいずれのノイズも除去できていないことがわかった。
図12は、環境変数による補正を行わなかった場合の組成推定結果である。図12の結果においては、中実円で表された「Non-calibrated」がKnownからのずれが大きく成っており、環境変数による補正により、得られる推定結果がより正確となることがわかった。
[実施例2]
(エンドメンバーを含まない検体による推定)
学習用検体を含む検体(群)が、エンドメンバーを含まない場合にも精度よく推定できることを確かめるために、表5に記載したサンプルを調製して実施例1と同様の試験を行った。
なお、表中、記号「M」「S」「E」が意味するものは、表4(実施例1)と同様である。また、各サンプルは、単独の成分(ポリマー)の重量分率が80%を超えないように調整されている。
Figure 0007628731000229
上記検体について、実施例1と同様の方法で二次元マススペクトルを得て、データ行列に変換した。得られたデータ行列について、すでに説明した1回目のNMF処理、すなわち、
Figure 0007628731000230
を実施した。なお、ノイズの分散共分散行列の見積もりは、Xのみを用いて計算できるので、1回目のNMF処理におけるモジュール内部処理とした。
次に、Aに対するCCA-Filter、重さや標準ピークによる強度補正を行った。なお、組成分析には温度分布情報は不要なため、温度軸に沿ってサンプル毎に総和を取って、
Figure 0007628731000231
としてもよい。
次に、
Figure 0007628731000232
の2回目のNMF処理を実施した。なお、リーマン計量による評価等は、2回目のNMF処理の内部処理として実施した。図15はその結果として、CとBSとを図示したものである。
図中Cでは、本方法によって、推定された組成を丸印で、使用したサンプルの組成(正しい組成)を星印で示している。いずれもよい一致を示している。
ここでは、使用した検体にエンドメンバー、すなわち、E、S、Mのピュアポリマーが含まれていないことが、Cの各頂点にプロットがないことからもわかる。
また、図中BSは、推測によって得られたE、M、Sのピュアポリマーのスペクトルと、実測のE、M、Sのスペクトルとを重ねて示しているが、両者に差はなく、絶対強度を含めて、よく推定されていることが確かめられた。
このように、本発明の方法によれば、図15のBSに示されたように、E、M、Sのピュアポリマーのスペクトル、及び、混合物の組成が、正確に推測され得ることが確かめられた。
なお、テストデータがある場合には、XtestをSとBに連続射影してCtestを得る。
[実施例3]
(エンドメンバーを1つ含む検体による推定)
次に、(学習用)検体のうち1つがエンドメンバーを含む場合に、他の検体における成分含有量が任意となる(K-1次元単体の内接円の外側の領域でなくてもよい)ことを検証した。
表5に記載したサンプルのうち、Sを40質量%以上含むサンプルを除き、かつ、サンプルとしてMピュアポリマーを加えたこと以外は、実施例2と同様にして、組成推定を行った。図16は結果である。
図16において、中実円で表された点は、B、Sの推定に用いた検体の推定結果を表し、星印がその実際の組成である。この結果から、Sについては、内接円の外側の領域に検体はなかったものの(中空円は、推定に使用しなかった検体である)、精度よく推定することができることが確認された。
上記原因のひとつは、すでに説明した2回目のNMF処理(Eq.11)において基底の非直交性項
Figure 0007628731000233
をペナルティー項として組み込んだことによるものと考えらえる。
材料開発の多くの場合で、材料性能を各構成成分に還元して考察することが求められる。これには、成分の同定と定量が必要だが、系が複雑化するほどその難易度は上がる。異なる成分のピークが互いにオーバーラップする可能性が低い高解像度の質量分析は、複雑な混合物系における成分の化学構造を同定するうえで最も強力な分析手法と言える。一方で、質量分析は定量性を有さないことが問題となる。また、本質的には分離を必要としないものの、その結果得られるスペクトルは複雑で現実的には読解不能に陥りやすい。
本発明では、材料の破片を大気下・前処理なしで直接熱分解させ、そこから生じるガスをDART-MSで分析し、そのスペクトルを教師無し学習することで、各成分のピュアなエンドメンバースペクトルを推定し、その線形和で検体のスペクトルを表す手法を開発した。これは、複雑な組成からなる材料であっても分離を必要とせずに、その成分の同定と定量を可能とする。
同定については、他の成分に由来するピークをすべて排除した可読性の高いエンドメンバースペクトルを得られれば、あとは比較的容易である。一方で、定量分析の妨げとなる、ピークごとにイオン化効率が異なりピーク強度とその存在比が比例しない、という事実は本発明においても同様である。しかし、本発明ではエンドメンバースペクトルの各ピーク強度を、規格化された相対値ではなく、絶対強度として推定できるため、エンドメンバースペクトルの線形和で検体スペクトルを表現する際、その線形係数をそのまま組成比として求めることができる。
検体を成分ごとに分解し、その含有比まで求める本発明は、材料の性能を発揮する要因となったキー成分の同定など、材料開発において重宝されるツールになり得るのは明らかであるが、さらには劣化成分の含有量検査等の品質管理、危険物含有量等の法令順守検査、及び、権利侵害の検出のための検査等、きわめて広範な応用が期待される。さらには樹脂の劣化・寿命予測、樹脂・有機材料における極微不純物成分の検出、嗅覚や味覚の定量分析、食品等のトレーサビリティー・産地偽装防止タグなどの技術が加速すると期待できる。
また、Plastics Europeは2021年9月に欧州委員会に対して2030年までにプラスチック容器包装に再生プラスチック30%含有の義務化を提言するなど、再生材の利用が促進されているが、含有量を測定する一般的手法は確立されていない。本発明はバージン剤と再生材の比率を正確に測定し得る技術としても、品質管理や法令順守検査などへの応用が期待される。
10:K-1次元単体、 12:内接超球、 13-15:エンドメンバー、 16-18:学習用検体、 19:領域、 30:組成推定装置、 31:質量分析装置 、32:減圧ポンプ、 33:情報処理装置、 34:プロセッサ、 35:記憶デバイス、 36:表示デバイス、 37:入力デバイス、 41:質量分析部、 42:情報処理部、 43:制御部、 44:記憶部、 45:入力部、 46:出力部、 47:データ行列作成部、 48:NMF処理部、 49:補正処理部、 50:ベクトル処理部、 51:エンドメンバー決定部、 52:含有量比計算部

Claims (21)

  1. Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の前記成分を含む推定対象検体における、前記成分の含有量比を推定する方法であって、
    前記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、及び、前記成分を含まないバックグラウンド検体を準備することと、
    前記推定対象検体、前記学習用検体、及び、バックグラウンド検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測することと、
    加熱温度ごとに得られた前記マススペクトルを各行に格納し、前記検体ごとの二次元マススペクトルを得て、前記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換することと、
    前記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行うことと、
    前記基底スペクトル行列と前記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、前記ノイズ成分の影響を減ずるよう前記強度分布行列を補正して、補正後強度分布行列を得ることと、
    前記補正後強度分布行列を前記検体のそれぞれに対応する小行列に分割し、前記小行列を特徴ベクトルとして、ベクトル空間内で前記検体のそれぞれを表現することと、
    前記特徴ベクトルの全てを内包するK-1次元単体を設定し、前記K-1次元単体におけるK個のエンドメンバーを決定することと、
    前記K個のエンドメンバーと、前記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、前記ユークリッド距離の比により、前記推定対象検体中の前記成分の含有量比を推定することと、を含み、
    前記Kが3以上の場合、前記K-1次元単体に内接する超球体の外側の領域のそれぞれに、前記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、前記学習用検体が前記エンドメンバーの少なくとも1つを含む、方法。
  2. 前記Kが2以上の整数であり、前記推定対象検体が、前記成分の混合物である、請求項1に記載の方法。
  3. 前記学習用検体が、前記エンドメンバーを含む、請求項1又は2に記載の方法。
  4. 前記エンドメンバーの決定が、前記学習用検体に付された判別ラベルに基づき行われる、請求項3に記載の方法。
  5. 前記エンドメンバーの決定が、前記学習用検体の前記特徴ベクトルの頂点成分分析によって行われる、請求項3に記載の方法。
  6. 前記エンドメンバーの決定が、前記K-1次元単体が最小体積となるように頂点を定めるアルゴリズムによって実施される、請求項1に記載の方法。
  7. 前記エンドメンバーの決定が、前記補正後強度分布行列を非負値行列因子分解し、前記検体中のK種類の前記成分の重量分率を表す行列と、K種類の個別の前記成分ごとのフラグメント存在強度を表す行列との積に分解する第2のNMF処理により行われる、請求項6に記載の方法。
  8. 前記学習用検体が、前記エンドメンバーを含まない、請求項6又は7に記載の方法。
  9. 前記補正後強度分布行列を得ることは、更に、前記強度分布行列の強度補正を行うことを含む、請求項1に記載の方法。
  10. 前記検体セットが、更に、キャリブレーション検体を含み、
    前記キャリブレーション検体は、前記K種類の成分を全て含み、かつ、その組成が既知であり、
    前記強度補正は、前記強度分布行列を規格化することを含む、請求項9に記載の方法。
  11. 前記強度補正は、前記強度分布行列の少なくとも一部を、前記検体セットのうち対応する前記検体の質量と環境変数の積で割り付けることを含み、
    前記環境変数は、前記観測の際における前記成分のイオン化効率への影響を表す変数である、請求項9に記載の方法。
  12. 前記環境変数が、前記観測の際に、雰囲気中に所定量含まれる分子量50~1500の化合物、又は、前記検体セットのそれぞれに所定量含まれる分子量50~500の有機低分子化合物のマススペクトルのピークの合計値である、請求項11に記載の方法。
  13. Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の前記成分を含む推定対象検体における、前記成分の含有量比を推定する組成推定装置であって、
    前記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、前記成分を含まないバックグラウンド検体、及び、前記推定対象検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、
    前記観測されたマススペクトルを処理する情報処理装置と、を備え、
    前記情報処理装置は、
    加熱温度ごとに得られた前記マススペクトルを各行に格納し、前記検体ごとの二次元マススペクトルを得て、前記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換する、データ行列作成部と、
    前記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行う、NMF処理部と、
    前記基底スペクトル行列と前記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、前記ノイズ成分の影響を減ずるよう前記強度分布行列を補正して、補正後強度分布行列を作成する、補正処理部と、
    前記補正後強度分布行列を前記検体セットのそれぞれに対応する小行列に分割し、前記小行列を特徴ベクトルとして、ベクトル空間内で前記検体のそれぞれを表現する、ベクトル処理部と、
    前記特徴ベクトルの全てを内包するK-1次元単体を設定し、前記K-1次元単体におけるK個のエンドメンバーを決定する、エンドメンバー決定部と、
    前記K個のエンドメンバーと、前記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、前記ユークリッド距離の比により、前記推定対象検体中の前記成分の含有量比を推定する、含有量比計算部と、を含み、
    前記Kが3以上の場合、前記K-1次元単体に内接する超球体の外側の領域のそれぞれに、前記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、前記学習用検体が前記エンドメンバーの少なくとも1つを含む、組成推定装置。
  14. 前記エンドメンバー決定部は、前記学習用検体に付された判別ラベルに基づいて前記エンドメンバーを決定する、請求項13に記載の組成推定装置。
  15. 前記エンドメンバー決定部は、前記K-1次元単体が最小体積となるように頂点を定めるアルゴリズムによって前記エンドメンバーを決定する、請求項13に記載の組成推定装置。
  16. 前記エンドメンバー決定部は、前記補正後強度分布行列を非負値行列因子分解し、前記検体中のK種類の前記成分の重量分率を表す行列と、K種類の個別の前記成分ごとのフラグメント存在強度を表す行列との積に分解する第2のNMF処理により前記エンドメンバーを決定する、請求項15に記載の組成推定装置。
  17. 前記補正処理部は更に、前記強度分布行列の強度補正を行う、請求項15に記載の組成推定装置。
  18. 前記検体セットが、更に、キャリブレーション検体を含み、
    前記キャリブレーション検体が、前記K種類の成分を全て含み、かつ、その組成が既知であり、
    前記強度補正が、前記強度分布行列を規格化することを含む、請求項17に記載の組成推定装置。
  19. 前記強度補正は、前記強度分布行列の少なくとも一部を、前記検体セットのうち対応する前記検体の質量と環境変数の積で割り付けることを含み、
    前記環境変数は、前記観測の際における前記成分のイオン化効率への影響を表す変数である、請求項17に記載の組成推定装置。
  20. 前記質量分析装置は減圧ポンプを更に備え、
    前記環境変数が、前記減圧ポンプの稼働によって生ずる物質のマススペクトルのピークの合計値である、請求項19に記載の組成推定装置。
  21. Kを1以上の整数としたとき、K種類の成分から選択される少なくとも1種の前記成分を含む推定対象検体における、前記成分の含有量比を推定する組成推定装置において用いられるプログラムであって、
    前記K種類の成分から選択される少なくとも1種の成分を含み、互いに組成の異なるK個以上の学習用検体、前記成分を含まないバックグラウンド検体、及び、前記推定対象検体を含む検体セットに含まれるそれぞれの検体を加熱しながら、熱脱着、及び/又は、熱分解によって生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、
    前記観測されたマススペクトルを処理する情報処理装置と、を備え、
    前記質量分析装置によって、加熱温度ごとに取得された前記マススペクトルを各行に格納し、前記検体ごとの二次元マススペクトルを得て、前記二次元マススペクトルの少なくとも2つ以上をまとめてデータ行列に変換する、データ行列作成機能と、
    前記データ行列を非負値行列因子分解し、規格化された基底スペクトル行列とその強度分布行列の積に分解するNMF処理を行う、NMF処理機能と、
    前記基底スペクトル行列と前記データ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、前記ノイズ成分の影響を減ずるよう前記強度分布行列を補正して、補正後強度分布行列を作成する、補正処理機能と、
    前記補正後強度分布行列を前記検体のそれぞれに対応する小行列に分割し、前記小行列を特徴ベクトルとして、ベクトル空間内で前記検体のそれぞれを表現する、ベクトル処理機能と、
    前記特徴ベクトルの全てを内包するK-1次元単体を設定し、前記K-1次元単体におけるK個のエンドメンバーを決定する、エンドメンバー決定機能と、
    前記K個のエンドメンバーと、前記推定対象検体の特徴ベクトルとの、ユークリッド距離をそれぞれ計算し、前記ユークリッド距離の比により、前記推定対象検体中の前記成分の含有量比を推定する、含有量比計算機能と、を含み、
    前記Kが3以上の場合、前記K-1次元単体に内接する超球体の外側の領域のそれぞれに、前記学習用検体の特徴ベクトルの少なくとも1つが位置する、又は、前記学習用検体が前記エンドメンバーの少なくとも1つを含む、プログラム。
JP2023529793A 2021-06-24 2022-06-06 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム Active JP7628731B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021104510 2021-06-24
JP2021104510 2021-06-24
PCT/JP2022/022813 WO2022270289A1 (ja) 2021-06-24 2022-06-06 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム

Publications (3)

Publication Number Publication Date
JPWO2022270289A1 JPWO2022270289A1 (ja) 2022-12-29
JPWO2022270289A5 JPWO2022270289A5 (ja) 2024-03-06
JP7628731B2 true JP7628731B2 (ja) 2025-02-12

Family

ID=84544540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023529793A Active JP7628731B2 (ja) 2021-06-24 2022-06-06 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム

Country Status (4)

Country Link
US (1) US20240297031A1 (ja)
EP (1) EP4361624A1 (ja)
JP (1) JP7628731B2 (ja)
WO (1) WO2022270289A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025033010A1 (ja) * 2023-08-09 2025-02-13 国立研究開発法人物質・材料研究機構 組成推定方法、組成推定装置、プログラム、検体容器、及び、熱重量・質量分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012516445A (ja) 2009-01-27 2012-07-19 ホロジック,インコーポレイテッド 体液における新生児敗血症の検出のためのバイオマーカー
JP2013528287A (ja) 2010-06-10 2013-07-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 質量スペクトルを分析するための方法、コンピュータ・プログラム、およびシステム
WO2016120958A1 (ja) 2015-01-26 2016-08-04 株式会社島津製作所 3次元スペクトルデータ処理装置及び処理方法
WO2018158801A1 (ja) 2017-02-28 2018-09-07 株式会社島津製作所 スペクトルデータの特徴抽出装置および方法
JP2021081365A (ja) 2019-11-21 2021-05-27 株式会社島津製作所 糖ペプチド解析装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012516445A (ja) 2009-01-27 2012-07-19 ホロジック,インコーポレイテッド 体液における新生児敗血症の検出のためのバイオマーカー
JP2013528287A (ja) 2010-06-10 2013-07-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 質量スペクトルを分析するための方法、コンピュータ・プログラム、およびシステム
WO2016120958A1 (ja) 2015-01-26 2016-08-04 株式会社島津製作所 3次元スペクトルデータ処理装置及び処理方法
WO2018158801A1 (ja) 2017-02-28 2018-09-07 株式会社島津製作所 スペクトルデータの特徴抽出装置および方法
JP2021081365A (ja) 2019-11-21 2021-05-27 株式会社島津製作所 糖ペプチド解析装置

Also Published As

Publication number Publication date
JPWO2022270289A1 (ja) 2022-12-29
EP4361624A1 (en) 2024-05-01
WO2022270289A1 (ja) 2022-12-29
US20240297031A1 (en) 2024-09-05

Similar Documents

Publication Publication Date Title
JP7628737B2 (ja) 眼鏡および光学素子
JP7628802B2 (ja) 半導体装置及び電子機器
JP7628696B2 (ja) 車両インテリア用制御システム
JP7628764B2 (ja) Asgr阻害剤
JP7628742B2 (ja) 飛行装置
JP7628781B2 (ja) 車両速度推定のための方法及びシステム
JP7628732B2 (ja) 金属酸化物半導体及び薄膜トランジスタと応用
JP7628743B2 (ja) 電子タバコカートリッジ
JP7628783B2 (ja) 塩、酸発生剤、レジスト組成物及びレジストパターンの製造方法
JP7628705B2 (ja) 人工心臓システム
JP7628708B2 (ja) 柱状欠陥のない超電導体磁束ピンニング
JP7628765B2 (ja) 廃熱回収システムおよびそのためのタービン膨張機
JP7628809B2 (ja) ランプ装置
JP7628712B2 (ja) 接続構造体
JP7628690B2 (ja) 継手ユニットおよび継手ユニットの組立方法
JP7628731B2 (ja) 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム
JP7628784B2 (ja) 遊技機
JP7628786B2 (ja) 遊技機
JP7628785B2 (ja) 遊技機
JP7628794B2 (ja) データ生成システム及びデータ生成方法
JP7628728B2 (ja) 腫瘍特異的t細胞の検出方法
JP7628719B2 (ja) 遊技機
JP7628797B2 (ja) 積層体の製造方法、塗装物の製造方法、接合構造体の製造方法、熱転写シート、及び積層体
JP7628702B2 (ja) がん検出方法、がん検査方法、及びこれらに用いるキット
JP7628780B2 (ja) 非水系二次電池用セパレータ及び非水系二次電池

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250123

R150 Certificate of patent or registration of utility model

Ref document number: 7628731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150