CN109726510B

CN109726510B - 一种蛋白质糖化位点鉴定方法

Info

Publication number: CN109726510B
Application number: CN201910061890.XA
Authority: CN
Inventors: 杨润涛; 陈金桂; 张承进; 张丽娜; 宋勇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2022-12-23
Anticipated expiration: 2039-01-23
Also published as: CN109726510A

Abstract

本申请提供了一种蛋白质糖化位点鉴定方法，收集糖化位点训练数据集，从所述糖化位点训练数据集中提取肽链，利用肽链数字矢量、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度来编码表征蛋白质，选用最大相关性最小冗余(mRMR)特征选择算法找到最佳特征集，然后在支持向量机上训练获得预测器，从而进行蛋白质糖化位点鉴定。本申请提供的蛋白质糖化位点鉴定方法，充分考虑肽链中氨基酸序列、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度，有助于提高蛋白质糖化位点鉴定的准确性。

Description

一种蛋白质糖化位点鉴定方法

技术领域

本申请涉及蛋白质功能预测技术领域，尤其涉及一种蛋白质糖化位点鉴定方法。

背景技术

在没有酶参与下，还原糖分子与蛋白质通过共价键结合的过程称为糖化。糖化是蛋白质最重要的翻译后修饰过程(PTM)之一，涉及两步反应。首先，对不稳定的希夫碱进行重排，形成更稳定的Amadori产物；然后，生成了晚期糖化终产物(AGEs)。AGEs本身或其交联产物会导致蛋白质结构和功能的直接变化。当AGEs堆积到一定程度的时候就会侵害身体的各个器官。越来越多的研究表明在眼球蛋白，血浆，红细胞，动脉和肾脏等部位中均存在AGEs，而通过免疫化学方法也发现，各组织中AGEs的量随着年龄增长而增加，从而导致各种疾病，如糖尿病、阿尔茨海默病和动脉粥样硬化等。糖尿病前期的主要症状是高血糖，诱发高血糖的两个因素是胰岛素抵抗和β细胞衰竭。越来越多的证据表明，AGEs不仅有助于胰岛素抵抗，还会直接损害β细胞，从而导致功能受损甚至β细胞死亡。因为糖化反应大多发生在赖氨酸的ε氨基与还原糖的醛或酮基之间，所以赖氨酸糖化和氧化之间的协同相互作用引起了研究人员的强烈兴趣。

在高通量测序技术的支持下，已发现的蛋白质数量呈指数式增长，仅由基于质谱分析等的传统方法来鉴别蛋白质各糖化位点功能耗时且昂贵。为此研究人员们开发了各种基于机器学习的方法来预测蛋白质糖化位点。如：Johansen等人通过手动收集400篇论文得到了第一个糖化位点数据集，并在此数据集的基础上构建基于神经网络的糖化位点预测器；基于Johansen等人收集的数据集上，刘等人使用支持向量机算法开发了改进的预测器；徐等人讨论了序列顺序信息和位置特异性氨基酸倾向在糖化位点预测中的应用，并使用另一个训练数据集来训练了一个称为“Gly-PseAAC”的预测器；赵等人利用二级结构信息，AAindex，k间隔氨基酸对等特征来编码肽，在徐等人收集的数据集基础上使用新的两步特征选择算法筛选特征并构建预测模型；Islam等人提出了一种名为iProtGly-SS的方法，用于从序列和二级结构信息中提取特征，使用特征选择算法来找到最佳特征集，基于支持向量机算法训练了一个预测器。

尽管已经开发出这些模型来预测糖化位点，但仍存在一些问题。首先，之前文章所用的数据集中的一些蛋白质肽链已在Uniprot中更新，如果继续使用会在训练时引入不必要的噪声。其次，研究人员只使用了单肽链的特征而忽略了肽链之间的关系，提取出的特征信息不完善，会影响结果的准确性。

发明内容

本申请提供了一种蛋白质糖化位点鉴定方法，用于蛋白质糖化位点的鉴定，提高蛋白质糖化位点鉴定的准确性。

本申请提供了一种蛋白质糖化位点鉴定方法，所述方法包括：

收集糖化位点训练数据集，从所述糖化位点训练数据集中提取肽链P＝A_-ηA_-(η-1)...A_-2A_-1KA₁A₂...A_η-1A_η，K为赖氨酸，η是赖氨酸上游或下游的氨基酸数量，A为20种天然氨基酸之一；

采用20维二进制编码表示所述肽链中的氨基酸，将所述肽链转换为20(2η+1)维数字矢量；

计算所述肽链中氨基酸的可及表面积；

计算所述肽链中氨基酸的二级结构概率；

计算所述肽链的灰色关联度；

获取所述肽链的特征数字向量，所述特征数字向量包括所述20(2η+1)维数字矢量、所述肽链中氨基酸的可及表面积、所述肽链中氨基酸的二级结构概率和所述肽链的灰色关联度；

基于最大相关性最小冗余算法从所述特征数字向量中筛选若干特征，获得最佳特征集；

根据所述最佳特征集，基于支持向量机训练获得预测器；

基于所述预测器鉴定蛋白质糖化位点。

可选的，上述蛋白质糖化位点鉴定方法中，所述方法还包括：

当所述肽链中赖氨酸上游或下游的氨基酸数量小于η时，使用符号X对扩展所述肽链；

X的20维二进制编码为00 000 000 000 000 000 000，X的可及表面积为0，X的二级结构概率均为0。

可选的，上述蛋白质糖化位点鉴定方法中，η＝11。

收集糖化位点测试数据集，从所述糖化位点测试数据集中提取测试肽链；

根据所述测试肽链，通过灵敏度(SEN)、特异性(SPC)、准确率(ACC)和马氏相关系数(MCC)评估所述预测器。

调整所述最佳特征集的特征数量，根据调整后最佳特征集，基于支持向量机训练获得预测器，找寻使准确率(ACC)较高的预测器。

当所述预测器的准确率(ACC)较高时，统计所述最佳特征集中各特征种类的占有量，获取对所述预测器影响最大的特征种类。

本申请提供的蛋白质糖化位点鉴定方法，收集糖化位点训练数据集，从所述糖化位点训练数据集中提取肽链，利用肽链数字矢量、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度来编码表征蛋白质，选用最大相关性最小冗余(mRMR)特征选择算法找到最佳特征集，然后在支持向量机上训练获得预测器，从而进行蛋白质糖化位点鉴定，本申请提供的蛋白质糖化位点鉴定方法，充分考虑肽链中氨基酸序列、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度，有助于提高蛋白质糖化位点鉴定的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的蛋白质糖化位点鉴定方法的结构流程图；

图2为本申请实施例提供的一种编译结果输出控制方法的结构流程图；

图3为本申请实施例提供的另一种编译结果输出控制方法的结构流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

附图1为本申请实施例提供的蛋白质糖化位点鉴定方法的结构流程图。如附图1所示，本申请实施例提供的蛋白质糖化位点鉴定方法包括：

计算所述肽链中氨基酸的可及表面积；

计算所述肽链中氨基酸的二级结构概率；

计算所述肽链的灰色关联度；

根据所述最佳特征集，基于支持向量机训练获得预测器；

基于所述预测器鉴定蛋白质糖化位点。

下面结合具体实例对本申请实施例提供的蛋白质糖化位点鉴定方法进行详细说明。

糖化位点训练数据集可在现有论文或数据库中获取。具体的：

Johansen等人从400篇论文中手动筛选出了第一个糖化数据集，称之为数据集A。但是在与Uniprot数据库中的蛋白质肽链序列进行比较后，发现了数据集中的一些肽链序列因为技术的不断进步已经被更新。所以我们用Uniprot中的更新的肽链替换数据集A中的旧肽链。并且删除相似性大于60％的肽链。获得68个正样本和90个负样本。

徐等人从CPLM数据库中提取的数据集包含223个正样本和446个负样本，称之为数据集B。

最后一个数据集是刘等人论文中的独立训练集，称之为数据集C，但经过比较后发现数据集C与数据集B有很大的重叠。为了防止训练数据出现冗余，删除了数据集C的重合部分。

至此，我们获得了310个正样本和576个负样本的数据集。但是在训练模型时，大量的负样本会导致训练样本的不平衡从而使训练好的预测器在预测时有偏向，偏向于将样本判定为负样本。对此使用K-最近邻算法去除一些冗余的负样本以减少它们的统计噪声。对于每个负样本，找到最近的K个邻居，其中K是阴性样本的数量除以阳性样本的数量。如果K个最近邻居中的至少一个属于正子集，则移除该负样本。

最后，收集的糖化位点训练数据集，包含310个正样本和421个负样本。从收集的糖化位点训练数据集中提取肽链，肽链中可能存在许多赖氨酸，但并非所有赖氨酸都会发生糖化反应。将肽链P表述为如下形式：

P＝A_-ηA_-(η-1)...A_-2A_-1KA₁A₂...A_η-1A_η

K为赖氨酸，以赖氨酸为中心，其中η是上游或下游氨基酸的数量，为自然数，A_-η是20种天然氨基酸之一。

在本申请实施例中，η＝11。如果上游或下游氨基酸的数量少于η，将使用特殊符号“X”对其进行扩展以制备肽链。

在本申请实施例中，提取各肽链中特征。

采用20维二进制编码表示所述肽链中的氨基酸，将所述肽链转换为20(2η+1)维数字矢量。每个肽链由多个天然氨基酸组成，使用20维二进制编码，将氨基酸序列转换为数字矢量。20天然氨基酸的编码顺序如下，“A”，“R”，“N”，“D”，“C”，“Q”，“E”，“G”，“H”，“I”，“L”，“K”，“M”，“F”，“P”，“S”，“T”，“W”，“Y”，“V”。例如，丙氨酸(A)编码为“10 000 000 000 000000 000”，精氨酸(R)编码为“01 000 000 000 000 000 000”，依次编码。特殊符号“X”是“00 000 000 000 000 000 000”。如此，将所述肽链转换为20(2η+1)维数字矢量(AAS)，可在蛋白质糖化位点鉴定过程中考虑糖化位点周围的氨基酸影响性，提高蛋白质糖化位点鉴定的准确度。

计算所述肽链中氨基酸的可及表面积(ASA)，在本申请实施例中，可通过SPIDER3工具计算每种氨基酸的ASA，特殊符号“X”的值设为零。肽链中的氨基酸ASA决定肽链性质的关键因素，也反映了其基本结构，在蛋白质糖化位点鉴定中考虑氨基酸ASA有助于提高蛋白质糖化位点鉴定的准确度。

肽链中的每个氨基酸都对我们理解蛋白质局部3D结构提供了信息。有三种类型的二级结构，即α螺旋，β折叠和随机卷曲，P(h)表示α螺旋的概率，P(e)表示β折叠的概率和P(c)表示随机卷曲。计算所述肽链中氨基酸的二级结构概率(SSP，Secondary StructureProbability)，可通过运行SPIDER3工具并预测每种氨基酸的二级结构概率获得。在本申请中，特殊符号“X”的P(h)、P(e)和P(c)均为0。

使用灰色关联度(Gary)来衡量糖化和非糖化肽链之间的接近程度。1982年，为了研究系统的不确定性，邓等人提出了灰色系统理论。该理论认为，如果系统的信息是完全已知的，就称为“白色系统”；如果对该系统完全不了解，就称为“黑色系统”；如果部分已知，则称该系统为“灰色系统”。灰色关联度是刘等人灰色系统理论的主要组成部分之一。而糖化位点周围的生物学特征尚不完全清楚，因此糖化位点预测是一个灰色系统。为了避免完全丧失序列信息，使用假氨基酸组成(PseAAC)来表示氨基酸序列。具体可使用由周等人搭建的网站来生成PseAAC的值。

将肽链P表达为：

其中：20+λ是使用假氨基酸组成表示氨基酸序列；λ属于0-6，本申请中优选6；i是肽链索引，表示肽链编号。

灰色关系系数定义为，

是第q条肽链的假氨基酸组成形式下的第j位数，

是第i条肽链的假氨基酸组成形式下的第j位数。

其中：

灰色关联度定义为：

Pⁱ代表训练集中的任一肽链，P^q是糖化位点训练数据集的目标氨基酸序列，目标氨基酸序列是任一肽链外的其他肽链。ρ是一个区别系数，取值在0到1之间。在本申请实施例中，优选中间值ρ＝0.5。

ω_j是加权因子，必须满足

灰色关联度

表示目标肽链P^q与训练数据集中的随机肽链Pⁱ之间的相似程度。当P^q＝Pⁱ，则Γ(P^q,Pⁱ)＝1，即两条肽链完全相似。

将上述提取到的肽链特征整合，获取肽链的特征数字向量。如，肽链中含有23个氨基酸，用二进制编码后，得到23×20＝460维的数字向量；氨基酸的可及表面积用23×1＝23维的数字向量来表示；用23×3＝69维的数字向量来表示二级结构概率；以及根据收集的糖化位点训练数据集的数量731，用731维的数字向量来表示肽链灰色关联度。如此，每一条肽链共有460+23+69+731＝1283个维度，即采用1283个维度的特征数字向量表征每一条肽链。

基于最大相关性最小冗余(mRMR)算法筛选特征数字向量中的特征。mRMR算法对特征进行排序，排名靠前的特征被认为是“好”特征，“好”特征与分类目标之间有最大相关性并且特征之间的冗余度最小。这些“好”特征可以为糖化位点预测提供更多的信息。

最大相关性定义为：

最小冗余定义为：

I(x_i；c)是特征i和目标类别c之间的互信息，I(x_i；x_j)是特征i和特征j之间的互信息，|S|为样本个数。最大化D(S,c)是最大化特征集合S中的特征和类别之间的相关性。最小化R(S)是最小化S中的特征的互相关程度。

加法整合：

maxΦ(D,R),Φ＝D-R，Φ是最大相关性和最小冗余之差

假设我们有S_m-1个特征集。从剩下的特征集X-S_m-1中找到第m个特征，以最大化Φ。

增量算法优化了以下条件，

S_m就是最佳特征集。

根据上述选择的最佳特征集，基于支持向量机(SVM)训练获得预测器。即，对于给定的训练样本x_i及其对应的分类标签y_i，分类任务可以描述为：

s.t.y_i(ωx_i+b)≥1-ξ_i,(ξ_i≥0,i＝1,...,l)

其中，ω表示构建分类超平面时训练样本中不同特征的重要性。ξ_i是一个非负的松弛变量。C是一个惩罚参数，C越大，错误分类的惩罚就越大。

支持向量机是一种基于统计学习理论的机器学习方法。它通常涉及对线性不可分的高维数据集进行分类。基于支持向量机训练获得预测器，便于提高蛋白质糖化位点鉴定的准确度。

在本申请实施例中，所述蛋白质糖化位点鉴定方法还包括：收集糖化位点测试数据集，从所述糖化位点测试数据集中提取测试肽链；

在本申请中，比较糖化位点训练数据集和CPLM数据库进行比较后，发现51个新的正样本，81个新的负样本；除此之外还在CPLM数据库中发现了3个有糖化位点的新收录的蛋白质序列，包括11个正样本和14个负样本；在PLMD数据库中，发现了2个新的蛋白质序列，包括3个正样本和5个负样本。如此，将上述65个正样品和100个负样品作为糖化位点测试数据集。

定义如下：

其中，

FN：False Negative,被判定为负样本，但事实上是正样本。

FP：False Positive,被判定为正样本，但事实上是负样本。

TN：True Negative,被判定为负样本，事实上也是负样本。

TP：True Positive,被判定为正样本，事实上也是正样本。

灵敏度(SEN，S_n)：表示的是所有正例中被分对的比例，衡量预测器对正例的识别能力.

特效度(SPC，S_p)：表示的是所有负例中被分对的比例，衡量了预测器对负例的识别能力。

准确率(ACC)：分对的样本数除以所有的样本数，通常来说，准确率越高，预测器越好。

马修相关系数(MCC)：当正样本的数量与负样本的数量差别较大时，能够更为公平的反映预测能力。

基于本申请实施例提供的糖化位点训练数据集和糖化位点测试数据集，调整所述最佳特征集的特征数量，训练获得预测器，根据准确率(ACC)，找寻使准确率(ACC)较高的预测器。测试准确率如附图2所示。由此可知，在本申请实施例中，当最佳特征集的特征数量为170时，即当数据维度为170时，获得的预测器的分类预测判断能力最好。此时，独立测试集的分类准确率达到69.091％，此时，模型预测对的正性样本个数是41，模型预测对的负性样本个数是73，模型预测错的阳性样本个数是24，模型预测错的阳性样本个数是27。

评估获得预测器，对比本申请实施例获得的预测器与现有预测器的评估参数，详见表一。

表一：

	S<sub>n</sub>	S<sub>p</sub>	ACC	MCC
					本申请预测器	63.120％	73.921％	69.091％	36.425％
对比预测器	54.085％	69.387％	63.038％	23.225％

进一步，在本申请实施例中，当所述预测器的准确率(ACC)较高时，统计所述最佳特征集中各特征种类的占有量，获取对所述预测器影响最大的特征种类。在本申请实施例中，当最佳特征集的特征数量为170时，氨基酸序列的二进制编码特征对糖化位点预测的影响最大(占到所选特征数目的一半以上)，第二大因素是灰度关联度，可达面面积和二次结构概率对蛋白质糖化位点鉴定也有一定影响，如附图3所示。如此，可表明在进行蛋白质糖化位点鉴定时，各要素之间的密切关系是不可忽视的。

本申请实施例提供的蛋白质糖化位点鉴定方法，收集糖化位点训练数据集，从所述糖化位点训练数据集中提取肽链，利用肽链数字矢量、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度来编码表征蛋白质，选用最大相关性最小冗余(mRMR)特征选择算法找到最佳特征集，然后在支持向量机上训练获得预测器，从而进行蛋白质糖化位点鉴定。本申请实施例提供的蛋白质糖化位点鉴定方法，充分考虑肽链中氨基酸序列、肽链中氨基酸的可及表面积、肽链中氨基酸的二级结构概率和肽链的灰色关联度，有助于提高蛋白质糖化位点鉴定的准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处，相关之处参见方法实施例的部分说明即可。本领域技术人员在考虑说明书及实践这里的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种蛋白质糖化位点鉴定方法，其特征在于，所述方法包括：

收集糖化位点训练数据集，从所述糖化位点训练数据集中提取肽链P＝A_-ηA_-(η-1)...A_- ₂A_-1KA₁A₂...A_η-1A_η，K为赖氨酸，η是赖氨酸上游或下游的氨基酸数量，A为20种天然氨基酸之一；

采用20维二进制编码表示所述肽链中的氨基酸，将所述肽链转换为20(2η+1)维数字矢量；其中：当所述肽链中赖氨酸上游或下游的氨基酸数量小于η时，使用符号X对扩展所述肽链；X的20维二进制编码为00 000 000 000 000 000 000，X的可及表面积为0，X的二级结构概率均为0；

计算所述肽链中氨基酸的可及表面积；

计算所述肽链中氨基酸的二级结构概率；

计算所述肽链的灰色关联度；

根据所述最佳特征集，基于支持向量机训练获得预测器；

基于所述预测器鉴定蛋白质糖化位点。

2.根据权利要求1所述的蛋白质糖化位点鉴定方法，其特征在于，η＝11。

3.根据权利要求1所述的蛋白质糖化位点鉴定方法，其特征在于，所述方法还包括：

根据所述测试肽链，通过灵敏度SEN、特异性SPC、准确率ACC和马氏相关系数MCC评估所述预测器。

4.根据权利要求3所述的蛋白质糖化位点鉴定方法，其特征在于，所述方法还包括：

调整所述最佳特征集的特征数量，根据调整后最佳特征集，基于支持向量机训练获得预测器，找寻使准确率ACC较高的预测器。

5.根据权利要求4所述的蛋白质糖化位点鉴定方法，其特征在于，所述方法还包括：

当所述预测器的准确率ACC较高时，统计所述最佳特征集中各特征种类的占有量，获取对所述预测器影响最大的特征种类。