LSPpred套件,用于预测植物无领导分泌蛋白

前言

LSPpred套件是基于计算机算法和生物信息学技术,能够分析植物蛋白序列的特征和模式,并预测其是否具有无领导分泌的潜力,我们经过实验发现,LSPpred套件通过分析蛋白序列的物理化学性质、信号肽特征和次级结构等信息,识别出潜在的无领导分泌蛋白。

生成无领导分泌蛋白数据库(LSPDB)

LSP分类器利用来自定制无领导分泌蛋白数据库的精选训练数据。

当拟南芥蛋白质组和蛋白质亚型中存在或缺乏经典分泌特征(如信号肽),LSP分类器会预测与其相关的分泌特征,以确定其进入常规分泌途径、跨膜结构域或附着到细胞质膜上的GPI锚。

这些预测结果用于高通量地捕获分泌物的所有相关特征,而不考虑现有的注释。

这些类别包括观察到的经典分泌蛋白(SECs)、未观察到的经典分泌蛋白(SPT/SP_THEORY)、观察到缺乏分泌特征的蛋白质(未分类)以及大多数未观察到和缺乏分泌特征的蛋白质(NONSEC)。

具有未分类标签的蛋白质被认为是LSP的候选者,其与其他类别的相似性被用于将未分类蛋白质分层为高、中和低置信度的LSP,依据网络相互作用、GO项和PFAM结构域等三个标准。

利用这些个体置信度分数的组合,为未分类数据分配总体高、中或低的LSP分数。

分类器的输入数据

利用LSPDB分类构建随机森林分类器模块进行LSP预测,每个模块使用不同的LSPDB数据和不同的方法来解决工厂中的LSP预测问题。

这些方法导致LSPDB数据的不同组合被选择为正数据和/或负数据,输入数据的选择还可以指导预测器的操作方式,因此每个模块都有多个版本。

LSPpred模块使用未分类的高和中等类别的假定LSP作为正训练数据,与经典(SEC)和非保密(NONSEC)数据相比,使用假定LSP特有的特征作为预测的基础,低置信度和剩余的未分类蛋白质保留作为评估数据,不包括在训练中。

修改是通过对蛋白质序列进行文本操作来完成的,在修改阴性数据的情况下,删除注释的SP区域或等于观察到的SP平均值的等效长度,如果恢复了前导蛋氨酸残基,则在去除SP后将其添加回蛋白质中。

对于每个预测模块,以FASTA格式提取来自LSPDB基因类别的相关蛋白质,鉴于基因和蛋白质之间可能存在的“一对多”关系,选择来自分类基因的所有蛋白质。

中等置信度列表中的几种核糖体LSP被排除在外,因为在检查中,单一的蛋白质-蛋白质相互作用(PPI)导致核糖体复合物被包括在内。

为了避免对相似序列(来自同一基因或基因家族)的偏倚和过度依赖,使用CD-hit来选择每类中最大同一性高达40%的蛋白质序列。

这类似于将SecretomeP划分为非相似集合,它们之间具有大约26%的同一性以进行交叉验证。

选择40%的阈值来平衡基于独立数据的预测与有限的原始数据大小,序列相似性度量可确保数据集不同,并防止一个基元的准确性过度影响数据。

相似性选择后,每类的输入减少到322SEC,1178未分类,1439SPT和10,523NONSEC蛋白,这些选定的蛋白质被用作其类别的代表。

使用ProFET工具套件创建训练序列特征的数值表示,最初为输入派生了一组203个类别,共有1170个比例要素。

这些类别包括序列长度、重量、等电点、水肿的总平均值(GRAVY,计算为氨基酸水病值之和除以长度)、氨基酸组成、基于压缩氨基酸字母的组成,用单个值替换相关氨基酸、PTM的可能位点、自相关以及缩放和转换的特征。

在不平衡数据上训练随机森林模型

尽管LSPpred和SPLpred方法中的阳性和阴性数据是分开定义的,它们共同的目标是对LSP进行分类。

这两种方法都使用相同的大量初始蛋白质特征表示(ProFET),并且事先并不知道哪些特征与生物学相关。

决策树由一系列级联节点组成,每个节点基于输入特征进行分类测试。

随机森林对于LSP的一个有用特性是,它可以通过特征的基尼重要性(或简单重要性)来衡量这些特征对树的贡献,从而推断其生物学意义并提供未来实验工作的建议。

另一个关键考虑因素是输入数据的来源,对于LSPpred来说,LSP数据是从LSPDB中选择的,LSPDB是基于实验观察和蛋白质特征构建的,而不是从大量经过实验验证的LSP中选择的。

通用的机器学习模型(如随机森林)适合在这个空间中进行预测的探索,而不需要更复杂的方法。

随机森林是使用Python的Scikit-learn库实现的,在处理不平衡数据时,随机森林可能会表现不佳。

为了解决这个问题,使用了一种名为平衡随机森林分类器(BRF)的不平衡学习扩展方法。

BRF通过在训练过程中对每个类别的样本进行欠采样或过采样,以平衡不平衡数据集,这有助于提高随机森林在处理不平衡数据时的泛化效果。

将每个版本的SPLpred/LSPpred的输入数据分为训练集和测试集,其中75%用于训练,25%用于测试,并进行分层采样以保持阳性和阴性样本的相对比例。

使用5倍交叉验证对BRF模型进行训练以估计准确性,通过这种训练和验证过程,可以对BRF模型进行准确性评估,并选择最佳的模型参数和特征组合。

这样可以提高在不平衡数据集上的预测性能,并增强对LSP的分类能力。

首选分类器模型选择的指标

根据以假阳性率(FPR)为0.05的惯例作为目标,从交叉验证的接收器操作特征曲线(ROC)中,我们可以通过计算不超过5.0FPR的5个阈值的平均值来估计预测阈值。

我们也可以通过计算在相同阈值下的平均真阳性率(TPR)来估计该阈值下的真实阳性率。

交叉验证还能确定最重要的特征,对于每个预测变量,我们对这些特征进行排名,并选择上四分位数作为阈值,使用BRF模型在简化的特征集上对整个数据集进行训练。

采用交叉验证的阈值来计算完整模型在排除的测试数据上的准确性,这可以通过将超过该阈值的任何值作为阳性进行预测来实现。

对于置信度较低的分类,不受所需FPR限制,我们可以使用0.5作为阈值来进行预测。

为了处理每个版本中正数据点较少的类别不平衡问题,我们使用平衡精度对检验数据进行评估,该精度定义为正数据和负数据精度的平均值。

通过使用这个指标来比较不同版本,确保了对于稀缺的阳性数据和准确识别真阴性数据的性能同样重要

为了评估SPLpred修改后的预测因子中的偏差,将每个经过训练的模型应用于两个版本的SPT数据集,一个是删除了SP的版本,一个是保留了SP的版本。

使用两种预测分布的核密度估计图(KDE)来计算具有SP和没有SP的蛋白质的预测分数的平均差异,对使用训练数据进行了修改或未修改的版本进行类似的测试。

如果使用删除了SP的数据作为训练输入,则使用序列的完整长度版本的分数进行比较。

由于模型已经接触到这些数据,任何偏差都表明是由于输入修改而导致的,这些偏差和准确性指标用于比较预测工具的替代设计,并选择LSPpred和SPLpred的首选候选者。

结果

在目标将假阳性率(FPR)控制在0.05的惯例下,从交叉验证的接收者操作特征曲线(ROC)中估计预测阈值,取跨折叠不超过5.0FPR的0.05个阈值的平均值作为预测阈值。

还可以通过取相同阈值下的平均真阳性率(TPR)来估计该阈值下的真实阳性率,通过交叉验证,确定了最重要的特征。

使用平衡随机森林(BRF)模型在简化的特征集上训练整个数据集,交叉验证的阈值用于计算在排除测试数据上的完整模型的准确性,即对超过该阈值的值进行肯定预测。

因为LSPpred的底层模型基于假设的LSP,所以CSP不适合作为评估准确性的合适代理,为了评估准确性和假阳性率,需要增加来自拟南芥以外的经过验证的植物LSP样本。

LSPpred在预测这些独立测试数据时,结合了内部交叉验证的TPR为35%和FPR为5%的能力,这表明它可以识别出一些具有可接受误差估计的植物LSP。

由于HeLa-S3不是植物LSP,它强调了使用来自其他系统的LSP可以塑造未来的实验设计,以测试哪些LSP维持生物体之间的非常规分泌,并可能揭示常见的分泌机制。

LSPDB输出的标准选择也受到限制,GO术语和PFAM域的置信标准是基于排他性或多数性而不是统计富集来确定的。

NONSEC组可能包含未观察到的LSP,而且这些类中的PFAM分布和层次结构GO项不均匀,导致了这些简化的标准。

通过建立SEC蛋白之间的相互作用临界值来评估PPI网络,确定了网络标准,许多蛋白质中没有PPI可能意味着阈值不足以识别所有SEC蛋白质,因此在应用于其他类别时,预计也会受到限制。

将类似的统计框架应用于GO术语,使用PPI和PFAM域将CSP的“基线”与LSP候选进行比较,这是未来建立数据库标准的迭代途径。

LSPpred2和SPLpred3共有301个和289个特征,其中99个是两者共有的,基尼重要性总和为1,每个排名靠前的特征对预测的贡献最大。

每个预测变量,基尼重要性最高的特征的贡献仍然相对较低,在SPLpred中,"二级结构转换23"对预测的贡献仅为3.3%,"G熵"贡献了1.5%。

剩余的基尼重要性(96.7%和98.5%)来自其他特征的长尾,这表明模型基于许多蛋白质元素的组合进行预测。

LSPpred中包含天冬酰胺和甘氨酸残基的简单氨基酸频率和基于熵的特征为LSP候选物提供了进一步研究分泌途径的方向,这两种氨基酸被认为是GPI锚切割位点的目标。

另一个与分泌途径相关的方面可能是N-连接的糖基化,它从内质网开始并在高尔基体中继续。

鉴于UPS作为一种可能的分泌途径,研究这种糖基化和其他与天冬酰胺和甘氨酸相关的修饰(例如乙酰化、肉豆蔻酰化)可以进一步探索它们与LSP之间的关系。

结论

通过利用定制的无领导分泌蛋白数据库和随机森林分类器模块,LSPpred能够高效地预测植物蛋白是否具有分泌特征,该套件使用多个LSPDB数据集和不同的方法来解决植物中LSP预测的挑战。

通过将正数据和负数据组合起来,并结合相关蛋白质组学文献的观察结果和指定的类别,LSPpred能够准确地分类植物蛋白为经典分泌蛋白、未观察到的经典分泌蛋白、观察到缺乏分泌特征的蛋白和大多数未观察到和缺乏分泌特征的蛋白。

这种预测可以帮助研究人员更好地理解植物无领导分泌蛋白的功能和作用机制,通过LSPpred套件的应用,我们可以快速、准确地预测植物蛋白的分泌特征,为进一步的研究和应用提供了有力的工具和指导。

参考文献:

【1】丁英,《植物非常规蛋白质分泌(UPS)途径》

【2】贝鲁奇,《内质网是将蛋白质分选至非常规交通途径和内共生细胞器的枢纽》

【3】崔莹,《植物细胞外囊泡》

【4】尼尔森,《预测无信号的真核蛋白分泌》

展开阅读全文

页面更新:2024-02-05

标签:蛋白   阈值   套件   不平衡   序列   蛋白质   模型   特征   植物   类别   森林   领导   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top