代谢组学的数据分析技术
- 格式:doc
- 大小:18.50 KB
- 文档页数:3
代谢组学的数据分析技术
摘要:代谢组学是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。文章主要综述了将代谢组学中的图谱、数据信息转换为相应的参数所采用的分析方法。
关键词:代谢组学;数据分析方法
代谢组学是以代谢物分析的整体方法来研究功能蛋白如何产生能量和处理体内物质,评价细胞和体液内源性和外源性代谢物浓度及功能关系的新兴学科,是系统生物学的重要组成部分,其相应的研究能反映基因组、转录组和蛋白组受内外环境影响后相互协调作用的最终结果,更接近反映细胞或生物的表型,因此被越来越广泛地应用。而代谢组学的数据分析包括预处理和统计分析方法,多元统计分析方法主要分为两大类:非监督和监督方法,非监督方法包括主成分分析PCA;聚类分析CA等;监督方法包括显著性分析、偏最小二乘法等,本文就是主要综述代谢组学图谱信息转化为参数信息所采用的数据分析方法。
1预处理
数据的预处理过程包括以下:谱图的处理;生成原始的数据矩阵;数据的归一化以及标准化处理过程。针对实验性质、条件以及样品等因素采用不同的预处理方法。在实际应用过程中,预处理可以通过实验系统自带的软件如XCMS软件。进行,因此一般较容易获得所需的数据形式。
2数据分析方法
2.1 主成分分析PCA是多元统计中最常用的一种方法,它是在最大程度上提取原始信息的同时对数据进行降维处理的过程,其目的是将分散的信息集中到几个综合指标即主成分上,有助于简化分析和多维数据的可视化,进而通过主成分来描述机体代谢变化的情况。PCA 的具体过程是通过一种空间转换,形成新的样本集,按照贡献率的大小进行排序,贡献率最大的称为第一主成分,依次类推。经验指出,当累计贡献率大于85%时所提取的主成分就能代表原始数据的绝大多数信息,可停止提取主成分。在代谢组数据处理中,PCA是最早且广泛使用的多变量模式识别方法之一。,具有不损失样品基本信息、对原始数据进行降维处理的同时避免原始数据的共线性问题等优点,但在实际应用过程中,PCA存在着自身的缺点[1]:离群样本点的存在严重影响其生物标志物的寻找;非保守性的代谢组分扰乱正确的分类以及尺度的差异影响小浓度组分的表现等,其他的问题之前也有讨论[2]。针对PCA 的缺陷采用了不同的改进措施,与此同时,为了简化计算,侯咏佳等[3]。提出了一种主成分分析算法的FPGA实现方案,通过Givens算法和CORD IC算法的矢量旋转,用简单的移位和加法操作来实现协方差矩阵的特征分析,只需计算上三角元素,因此计算复杂度小、迭代收敛速度快。
2.2 聚类分析CA是用多元统计技术进行分类的一种方法。其主要原理是:利用同类样本应彼此相似,相类似的样本在多维空间里的彼此距离应较小,而不同类的样本在多维空间里的
距离较大。具体的做法是先将每个样本自成一类,选择距离最小的一对并成一个新类,计算新类与其他类之间的距离,再将距离最小的两类并为一类,直至所有样本都成为一类为止。目前多维空间里的两样本距离的算法主要有:欧氏距离、闵氏距离、马氏距离等,其中以欧氏距离最常用。
2.3 判别分析DA又称分辨分析或分辨法,是在一系列多因子(xi)观测值的基础上,对事物的属性差别进行分类或分辨的统计学法,主要用于定性预测。其基本方法是根据样品的P 个测定指标,对一批位置样品进行分类;前提是已知一些样品的分类,然后根据P个测定指标来确定未知样品究竟归属哪一类。在判别分析中,判别函数有最佳型判别函数和固定型判别函数两类。目前,判别分析的准则和方法亦有许多,如马氏距离判别法、Fisher判别法、Bayes判别法、逐步判别法等等。
2.4 偏最小二乘法PLS是SWold和CAlbano等[19] 1983年首次提出的回归方法。它在克服自变量多重相关性的情况下,能对较少的样本量进行建模以及有效的筛选。叶莺等[4]实验证明,与一般最Jb---乘法及PCA相比,PLS计算所得的拟合残差最小,稳定度最高,能改善各变量的作用方向并使其更符合专业解释,成为模型变量筛选的有效工具。其基本原理如下:①将数据进行中心化和标准化,形成自变量和因变量的矩阵;②求协方差矩阵,并根据协方差求其最大特征值对应的特征向量;③通过检验交叉有效性来确定提取成分的个数;④求相应的回归方程及相应的回归系数,最后还原回归模式。
在数据处理过程中,PLS提供了一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量又少时,采用PLS建立的模型具有独特的优点。对于解释变量个数大于观察个体数相当有效[21]。具有PCA、典型相关分析和多元线性回归分析的优点[5]。
2.5 其他在代谢组学的研究中,除了以上所提及的分析方法外,还有非线性映射(NLM)、k 最邻近法(K—NN)、正交偏最小二乘法-判别分析(OPLS—DA)、系统聚类法(Hierachical clustering Method)HCM以及非负矩阵分解(NMF)等模式识别技术用于其数据分析。NLM是解决非线性问题的模式识别方法;KNN用于非参数的模式识别;OPL$一DA可以直接显示组内哪些代谢物升高或降低,而NMF与PCA比较,在可分性方面更容易解释,并且更适用于代谢组学数据的处理。
在实际数据分析应用过程中,由于不同的模式识别技术适用范围和优缺点各不相同,例如PCA是代谢组学中最常规的分析方法,能找出各主成分就能进行数据降维,但可能导致一些有用数据的丢失;P1.S用于建立预测回归方程,但只能作定性分析,并尽量减少解释变量;而ANN在处理规律不明显、组分变量多的问题方面却具有特殊的优越性。因此必须将他们有机结合起来,并寻找更多更有效的统计分析方法,从而为代谢组学的数据进行有效的处理提供很好的平台。出4种相当重要的代谢物:苹果酸、柠檬酸、葡萄糖和果糖。
3总结
随着代谢组学的日益发展,越来越多的人把目光转向代谢组学的研究,而其数据处理也已经成为研究中重要的难题。虽然目前国内外代谢组学的研究已经取得了一些成果,但由于其尚未有功能完备的数据库,数据分析受到一定的限制。与此同时,生物样本的复杂性使得代谢组学的研究难以达到分析全部的组分以及所有的代谢成分的要求,这就需要进一步发展高通量、高效、快速的以及整合化的仪器分析技术,开发能满足全组分分析的算法和软件,将仪