[go: up one dir, main page]

CN105138834A - 基于近红外光谱波数k均值聚类的烟草化学值定量方法 - Google Patents

基于近红外光谱波数k均值聚类的烟草化学值定量方法 Download PDF

Info

Publication number
CN105138834A
CN105138834A CN201510508335.9A CN201510508335A CN105138834A CN 105138834 A CN105138834 A CN 105138834A CN 201510508335 A CN201510508335 A CN 201510508335A CN 105138834 A CN105138834 A CN 105138834A
Authority
CN
China
Prior art keywords
tobacco
model
infrared
spectrum
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510508335.9A
Other languages
English (en)
Inventor
毕一鸣
储国海
周国俊
夏琛
吴继忠
袁凯龙
史春云
夏骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN201510508335.9A priority Critical patent/CN105138834A/zh
Publication of CN105138834A publication Critical patent/CN105138834A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Manufacture Of Tobacco Products (AREA)

Abstract

本发明公开了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤:建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,以及目标成分含量;采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;每一次聚类完成后,利用PLS分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差;以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。本发明与现有的PLS方法相比,能显著降低模型的预测误差。

Description

基于近红外光谱波数K均值聚类的烟草化学值定量方法
技术领域
本发明涉及烟草的理化检测技术领域,具体涉及一种基于近红外光谱波数K均值聚类的烟草化学值定量方法。
背景技术
烟草中的主要化学成分如总糖、烟碱、还原糖、总氮等对烟叶品质具有重要影响,是决定烟气劲头,醇和度等的主要因素。在烟草工业中,常规化学成分的分析测定对卷烟成品质量的控制具有重要的意义。
近红外光谱能够表征待测物中多种含氢基团信息,具有采样方便、无损伤、无污染、能够在线检测等优点,非常适合用于各种复杂混合物的检测。近红外光谱检测技术目前已广泛应用于烟草领域,例如打叶复烤中基于烟碱含量的均质化加工及卷烟生产中的质量监测等。应用近红外分析技术,可以较好的预测烟叶中烟碱,总糖,总氮等主要化学成分含量,对烟叶质量进行快速初步的评价有极大地帮助。
目前基于近红外的烟叶主要化学成分建模主要是通过偏最小二乘算法(PartialLeastSquares,PLS)来实现,PLS是为了弥补最小二乘在计算强共线性数据时的缺陷而提出的(参见文献H.Martens,S.A.Jensen,andP.Geladi,“Multivariatelinearitytransformationsfornearinfraredreflectancespectroscopy,”inProc.NordicSymp.AppliedStatistics,1983,pp.205–234.)。
考虑一组因变量Y={y1,y2,…,yq}和一组自变量X={x1,x2,…,xp},在X存在严重多重相关性或者样本数量少于变量个数时,对矩阵XTX求逆将会失效。PLS采用成分提取的办法解决这个问题,通过在X和Y中依次提取出成分分量,保证X中分量与Y中分量的协方差最大,从而实现回归建模、数据结构简化以及分析两组变量之间的相关性,能够有效地处理多变量和共线性问题,非常适合应用于近红外光谱的定量分析。
然而,针对烟草等复杂的天然产品,PLS方法在算法执行中对所有波数信息统一进行处理,对感兴趣物质含量相关区域、无信息区域以及噪声区域等没有进行甄别,致使模型的预测精度和解释能力没有达到最优。同时,由于近红外光谱定量分析属于二次分析方法,即在标准分析方法(如流动分析等)的基础上进行建模,其模型误差对后续应用有较大影响。
例如,打叶复烤中根据化学值对烟叶进行调配,保证复烤烟叶质量均一稳定,又如,在烟叶醇化过程中,监测不同种类烟叶随醇化时间的烟叶化学值和品质变化过程,优选最佳的醇化时间等。在上述应用中,都需利用近红外光谱快速大量的获取分析数据,同时,由于其预测精度对后续的调配,加工等至关重要,因此,需优化定量分析模型以提供精准的化学值预测。
现有的基于近红外的烟草化学值的建模方法为单一PLS算法,该算法执行中对光谱的各局部信息没有进行筛选或处理,导致部分高噪声变量同时进入到建模过程中,对于与待测化学值关联性较强的谱段没有进行适当的增强,致使模型的预测精度和解释能力没有达到最优。
由于现有的基于近红外的烟草化学值的建模方法为单一PLS算法,对近红外光谱中的各个波段统一处理,存在对光谱噪声的抑制能力不强,对光谱中的有效信息挖掘能力不够的缺点。
发明内容
本发明提供了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,利用近红外光谱的波数K均值聚类和模型集成,建立烟草中化学成分的定量模型,降低近红外光谱信号中的干扰因素,提高定量模型的预测精度。
一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤:
(1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练集中各烟草样本的目标成分含量;
(2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;
(3)每一次聚类完成后,利用偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差(即RootMeanSquareErrorforCross-Validation,RMSECV);
(4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;
(5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。
本发明中利用近红外光谱波数K均值聚类和模型集成的建模方法分为三步:首先,通过K均值聚类和子类建模,对近红外光谱的局部信息进行提取,其次,通过对子类进行比较和加权,确定各局部信息在全谱模型中的权重,最终得到全谱模型,最后,利用交叉验证的方法,对不同的聚类和建模效果进行比较,确定最优的聚类类别数和相应的模型回归系数,利用模型回归系数对测试集中各烟草样本的目标成分进行预测。本发明将局部信息提取和模型相融合,提高了模型的预测精度和解释能力。
步骤(1)中利用现有技术中的国际国内标准或其他已经成熟的测试方法测量训练集中各烟草样本的目标成分含量,目标成分根据需要进行选择,优选地,步骤(1)中的目标成分为总糖、烟碱、还原糖或总氮。
步骤(2)中聚类的最大聚类数为2~10。最大聚类数依据近红外光谱所含变量的数目确定,优选地,步骤(2)中聚类的最大聚类数为2~5。
本发明中,为了获得更好的精度以及计算效率,优选地,偏最小二乘法采用非线性迭代偏最小二乘法。交叉验证均方根误差采用五折交叉验证算法。
作为优选,步骤(4)中各关系模型的权重wk计算公式如下:
w k = ( 1 / e k ) 2 Σ k = 1 n ( 1 / e k ) 2 , k = 1 , 2 , ... , n
式中:ek为第k个子类的交叉验证均方根误差;
n为子类的个数。
将各关系模型加权求和,得到全谱模型,全谱模型中各回归系数β的计算公式如下:
β = Σ k = 1 n w k β k
式中,wk,βk分别为第k个关系模型的权重和回归系数。
为了获得理想的近红外光谱,需要对烟草样本进行预处理,预处理过程如下:
烟草样本烘干后,磨碎至40目,密封平衡24~36h后,进行近红外光谱测量。
本发明提供的基于近红外光谱波数K均值聚类的烟草化学值定量方法,与现有的PLS方法相比,能够显著降低模型的预测误差,适用于近红外光谱中对烟草样本化学值的准确定量。
附图说明
图1为本发明基于近红外光谱波数K均值聚类的烟草化学值定量方法的流程图;
图2聚类数为4时,烟草样本近红外光谱与波数K均值聚类的示意图。
具体实施方式
下面结合附图,对本发明基于近红外光谱波数K均值聚类的烟草化学值定量方法做详细描述。
如图1所示,一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤:
(1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练集中各烟草样本的目标成分含量。
选取云南、湖南、湖北、山东、福建、河南等9个省2011年上、中、下部位93个烤烟烟草样本(品种包括NC55,K326,云烟85,云烟87,云烟97和CB1,等级包括B1F,B2F,C1F,C2F,C3F,X1F和X2F),置于烘箱中,40℃下干燥4h,磨碎过40目筛,密封平衡1d后进行近红外光谱测量。
另外再制备上述9个产区其他32个烟草样本作为测试集,样品选择尽可能分布均匀,采用相同的烘箱烘干和平衡处理后,进行近红外光谱采集,得到的样品光谱作为测试集。
各烟草样本的烟叶化学值(总糖,烟碱,还原糖,总氮)由流动分析仪按相应的国标检测方法测得。
本发明中近红外光谱数据以二维矩阵形式存储,矩阵的行列分别代表烟草样本的数目和近红外光谱的维数。
近红外光谱与每种化学值分别进行建模,即每种化学值分别利用步骤(2)~步骤(5)进行全谱模型建立和含量计算。
(2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类。
依据近红外光谱所含的变量数确定K均值聚类的最大聚类数,例如在变量数为1609的情况下,变量的最大聚类数为K=10,然后对近红外光谱进行K-1次均值聚类,分别将各变量聚类至2~K类。
(3)每一次聚类完成后,利用非线性迭代偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差(采用五折(5-fold)交叉验证算法)。
(4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;
各关系模型的权重wk计算公式如下:
w k = ( 1 / e k ) 2 Σ k = 1 n ( 1 / e k ) 2 , k = 1 , 2 , ... , n
式中:ek为第k个子类的交叉验证均方根误差;
n为子类的个数。
将各关系模型加权求和,得到全谱模型,全谱模型中各回归系数β的计算公式如下:
β = Σ k = 1 n w k β k
式中,wk,βk分别为第k个关系模型的权重和回归系数。
(5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。
训练集中各烟叶样本的近红外光谱以及在K=4时K均值聚类的聚类效果如图2所示,从图2中可以看出,相似性较高的波数被聚为一类,同类别波数间具有较高的相似性,不同类间波数具有明显的差异。这说明利用K均值聚类可以很好的对近红外光谱信息进行区分,再通过各关系模型的加权,达到有用信息强化和噪声抑制的目的。
本发明方法与PLS方法的模型预测效果对比如表1所示。
表1
通过四种化学成分对预测集误差的比较发现,相比PLS方法,本发明提供的新方法可以降低模型的预测误差,在四种成分的预测模型中,误差分别降低了:总糖:17.6%;烟碱:19.2%;还原糖:3.7%;总氮:9.7%,预测误差平均降低12.5%,表明了本发明方法在基于近红外光谱的烟草化学值定量建模中的有效性。

Claims (7)

1.一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,包括如下步骤:
(1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练集中各烟草样本的目标成分含量;
(2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;
(3)每一次聚类完成后,利用偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差;
(4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;
(5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。
2.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,步骤(2)中聚类的最大聚类数为2~10。
3.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,偏最小二乘法采用非线性迭代偏最小二乘法。
4.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,交叉验证均方根误差采用五折交叉验证算法。
5.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,步骤(4)中各关系模型的权重wk计算公式如下:
w k = ( 1 / e k ) 2 Σ k = 1 n ( 1 / e k ) 2 , k = 1 , 2 , ... , n
式中:ek为第k个子类的交叉验证均方根误差;
n为子类的个数。
6.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,步骤(1)中的目标成分为总糖、烟碱、还原糖或总氮。
7.如权利要求1所述的基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,烟草样本烘干后,磨碎至40目,密封平衡24~36h后,进行近红外光谱测量。
CN201510508335.9A 2015-08-18 2015-08-18 基于近红外光谱波数k均值聚类的烟草化学值定量方法 Pending CN105138834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510508335.9A CN105138834A (zh) 2015-08-18 2015-08-18 基于近红外光谱波数k均值聚类的烟草化学值定量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510508335.9A CN105138834A (zh) 2015-08-18 2015-08-18 基于近红外光谱波数k均值聚类的烟草化学值定量方法

Publications (1)

Publication Number Publication Date
CN105138834A true CN105138834A (zh) 2015-12-09

Family

ID=54724179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510508335.9A Pending CN105138834A (zh) 2015-08-18 2015-08-18 基于近红外光谱波数k均值聚类的烟草化学值定量方法

Country Status (1)

Country Link
CN (1) CN105138834A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106338488A (zh) * 2016-10-31 2017-01-18 浙江大学 一种转基因豆奶粉的快速无损鉴别方法
CN107179292A (zh) * 2016-03-10 2017-09-19 中国农业机械化科学研究院 不同近红外光谱变量优选结果融合方法及应用
CN107563448A (zh) * 2017-09-11 2018-01-09 广州讯动网络科技有限公司 基于近红外光谱分析的样本空间聚类划分法
CN109558424A (zh) * 2018-11-03 2019-04-02 复旦大学 一种高效的流数据模式挖掘方法
CN110163276A (zh) * 2019-05-15 2019-08-23 浙江中烟工业有限责任公司 一种近红外光谱建模样本的筛选方法
CN110736718A (zh) * 2019-10-16 2020-01-31 浙江中烟工业有限责任公司 一种烤烟烟丝的产地及等级识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BI YI-MING等: ""Ensemble Partial Least Squares Algorithm Based on Variable Clustering for Quantitative Infrared Spectrometric Analysis"", 《CHINESE JOURNAL OF ANALYTICAL CHEMISTRY》 *
YIMING BI等: ""Dual stacked partial least squares for analysis of near-infrared spectra"", 《ANALYTICA CHIMICA ACTA》 *
丛智博等: ""基于激光诱导击穿光谱的合金钢组分偏最小二乘法定量分析"", 《光谱学与光谱分析》 *
毕一鸣等: ""红外光谱定量分析中的一种变量聚类偏最小二乘算法"", 《分析化学研究报告》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179292A (zh) * 2016-03-10 2017-09-19 中国农业机械化科学研究院 不同近红外光谱变量优选结果融合方法及应用
CN106338488A (zh) * 2016-10-31 2017-01-18 浙江大学 一种转基因豆奶粉的快速无损鉴别方法
CN107563448A (zh) * 2017-09-11 2018-01-09 广州讯动网络科技有限公司 基于近红外光谱分析的样本空间聚类划分法
CN107563448B (zh) * 2017-09-11 2020-06-23 广州讯动网络科技有限公司 基于近红外光谱分析的样本空间聚类划分法
CN109558424A (zh) * 2018-11-03 2019-04-02 复旦大学 一种高效的流数据模式挖掘方法
CN109558424B (zh) * 2018-11-03 2023-04-18 复旦大学 一种高效的流数据模式挖掘方法
CN110163276A (zh) * 2019-05-15 2019-08-23 浙江中烟工业有限责任公司 一种近红外光谱建模样本的筛选方法
CN110736718A (zh) * 2019-10-16 2020-01-31 浙江中烟工业有限责任公司 一种烤烟烟丝的产地及等级识别方法

Similar Documents

Publication Publication Date Title
CN105138834A (zh) 基于近红外光谱波数k均值聚类的烟草化学值定量方法
CN107796782B (zh) 基于烟叶特征光谱一致性度量的复烤质量稳定性评价方法
CN108181263B (zh) 基于近红外光谱的烟叶部位特征提取及判别方法
CN105630743B (zh) 一种光谱波数的选择方法
CN107247033B (zh) 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法
CN109187392B (zh) 一种基于分区建模的锌液痕量金属离子浓度预测方法
CN105891147A (zh) 一种基于典型相关系数的近红外光谱信息提取方法
CN110132880B (zh) 一种基于近红外光谱的烟叶整体感官质量评价方法
CN106918567B (zh) 一种测量痕量金属离子浓度的方法和装置
CN104990895B (zh) 一种基于局部区域的近红外光谱信号标准正态校正方法
CN104062258B (zh) 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
CN108844917A (zh) 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法
CN102937575B (zh) 一种基于二次光谱重组的西瓜糖度快速建模方法
CN106501208A (zh) 一种基于近红外光谱特征的烟叶风格相似性分类方法
CN114624142B (zh) 基于热解动力学参数的烟叶总糖、还原糖定量分析方法
CN115561223A (zh) 一种基于拉曼光谱检测冠心宁水提物含量的方法及应用
CN110363119A (zh) 基于小波变换-随机森林算法的烟叶霉变快速识别方法
CN106153561A (zh) 基于波长筛选的紫外可见光谱多金属离子检测方法
CN107132198A (zh) 一种近红外光谱数据预处理方法
CN102135496A (zh) 基于多尺度回归的红外光谱定量分析方法和装置
Wang et al. Monitoring model for predicting maize grain moisture at the filling stage using NIRS and a small sample size
CN114428061A (zh) 一种基于紫外-可见-近红外光谱预测蕨菜中总多糖含量的方法
CN103344598A (zh) 一种梗丝与卷烟叶组配伍性的判定方法
CN106442397A (zh) 一种基于光谱比例扣除的稻谷近红外光谱模型优化方法
Liu et al. An advanced variable selection method based on information gain and Fisher criterion reselection iteration for multivariate calibration

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209

RJ01 Rejection of invention patent application after publication