2000年全国大学生数学建模竞赛A题 DNA序列分类
- 格式:doc
- 大小:27.00 KB
- 文档页数:4
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
第31卷第1期2001年1月数学的实践与认识M A TH EM A T I CS I N PRA CT I CE AND TH EO R YV o l131 N o11 Jan.2001 sequences.T he second is the peri odic p roperty of the DNA sequences.T he th ird is that amoun tof info rm ati on of the sequences.By u sing th is m ethod,w e classify the natu re sequences andartifical sequences.A t last,w e analyze the characteristic in th is model and con sider thegeneralizati on of th is model.关于D NA序列分类问题的模型冯 涛, 康吉吉雯, 韩小军指导老师: 贺明峰(大连理工大学,大连 116024)编者按: 本文以统计方法提取样本特征,以之作为BP神经网络的输入,用M A TLAB中相应算法进行训练.然后用于解决本分类问题,得到了较准确的结果.本文提取特征时考虑较为全面,在此基础上正确地运用了神经网络方法,发挥了神经网络适用于非线性问题、具有自适应能力的优点.思路清楚,文字简练.摘要: 本文提出了一种将人工神经元网络用于DNA分类的方法.作者首先应用概率统计的方法对20个已知类别的人工DNA序列进行特征提取,形成DNA序列的特征向量,并将之作为样本输入BP神经网络进行学习.作者应用了M A TLAB软件包中的N eural N etwo rk Too lbox(神经网络工具箱)中的反向传播(Backp ropagati on BP)算法来训练神经网络.在本文中,作者构造了两个三层BP神经网络,将提取的DNA特征向量集作为样本分别输入这两个网络进行学习.通过训练后,将20个未分类的人工序列样本和182个自然序列样本提取特征形成特征向量并输入两个网络进行分类.结果表明:本文中提出的分类方法能够以很高的正确率和精度对DNA序列进行分类,将人工神经元网络用于DNA序列分类是完全可行的.1 问题重述(略)DNA序列由四个碱基A、T、C、G按一定规律排列而成.已知所给人工序列1-10属于A类,11-20属于B类.本题中,我们的主要工作有两个:1)提取A、B两类特征;2)以所提取A、B两类特征为依据,把20个人工序列及182个自然序列分为A、B两类(可能存在同时不具有A、B两类特征,不能归为A、B中任一类的序列).在本题中,先以序列1-20为依据,提取出A、B两类序列的统计特征,然后运用神经网络中的B P网络对未知序列进行了分类识别.2 模型建立的理论依据神经网络是近年来发展的一种大规模并行分布处理的非线性系统[1],其主要特点有:1)能以任意精度逼近任意给定连续的非线性函数;2)对复杂不确定问题具有自适应和自学习能力;3)具有较强的容错能力和信息综合能力,能同时处理定量和定性的信息,能很好地协调多种输入信息的关系.传统的分类识别方法,对于一般非线性系统的识别很困难,而神经网络却为此提供了一 个强有力的工具.它实质上是选择了一个适当的神经网络模型来逼近实际系统.目前,在神经网络中应用最多的是B P 网络.对于具有n 个输入节点,m 个输出节点的B P 网络,输入到输出的关系可以看作是一个n 维欧式空间到m 维欧式空间的映射,F :R n →R m ,这一映射是高度非线性映射.K .T .Funahash i 于1989年证明了这样的一个定理[2]:如果B P 网络隐层节点可以根据问题的不同作相应的配置的话,那么用三层的激励函数为双曲线正切型的B P 网络,可以以任意精度逼近任意连续函数.这一定理保证了B P 网络在分类识别问题中的可用性.将复杂系统看作是一个黑箱,以实测输入,输出数据为学习样本,送入B P 网络,网络通过样本进行学习,在学习过程中,网络的权值不断地修改[3],使输入到输出的映象逐渐与实际对象的特性相逼近,但网络输出的整体误差E 小于给定的标准时,整个网络便模拟出实际系统的外部特性.实际分类识别问题中,输入空间一般是多维欧式空间,我们可以计算空间中点与点的欧式距离,并根据这些距离知道哪些样本互相靠得近,哪些样本相距甚远,也就是说在输入空间中存在着一个距离度量,只要输入模式接近于某个输出模式,由于B P 网络所具有的联想记忆能力,则网络的输出亦会接近学习样本的输出.3 模型的基本假设1)假设碱基序列的特征值包括以下两个内容:(1)单个碱基在序列中的数量特征,即A ,T ,C ,G 四种碱基在序列中的含量;(2)特征碱基串在序列中的数量特征(包括双字符碱基串和三字符碱基串).2)由于给定的已知碱基序列是从DNA 全序列中随机截取出来的,因此无法确定序列的起始位,无法从序列中辨认出氨基酸.假设在对DNA 序列分类时,是从碱基层次上进行分类,而不是从氨基酸层次上分类.4 模型的建立与求解4.1 提取A 、B 两类的特征经过计算,我们提取出A 、B 两类的统计特征(a )和(b ),具体方法如下:特征(a ):单个字符出现的频率.特征(a )对应基本假设1中的第1条对1-20每个人工序列,我们统计出单个字符A 、T 、C 、G 出现的频率P i ,P i =T i(S —M +1),i =A ,T ,C ,GS 为序列长度,M 为字符长度(这里,M =1),T i 为每个序列中i 出现的次数.序列1-20特征(a )的数值如下:(略)特征(b ):特征字符串出现的频率.特征(b )对应基本假设1中的第2条通过对序列1-20种A 、T 、C 、G 四字母的不同组合(如两两组合,三三组合,四四组合)出现频率的分析,可以知道:对于双字符串和三字符串,均出现了数种多次出现较有规律的组合形式,而对于四四组合及更长的组合,字符串重复出现的频率小,分散度大,未得出较有规律的组合方式.我们认为:充分统计并分析序列1-20种双字符串及三字符串出现的规律已能较为全面地认识序列中的局部相关性及A 、B 两类的特征差异.因此,只对序列1-20种的双、三字符串进行统计分析,找出特征双字符串,特征三字符串.721期冯 涛等:关于DNA 序列分类问题的模型82数 学 的 实 践 与 认 识31卷以下是以提取特征三字符串为例介绍统计算法:第一步 确定各字符串的优先权重三字符串共有64种可能排列方式,对这些三字符串进行初次排列,确定优先权重.以A类序列1为例,aggcacggaa......gcttgg.1)指针指向第一个字符a,向后数两个字符,第一个出现的三字符串是agg,记录agg.2)指针向后移一个字符,第二个出现的三字符串是ggc.3)以此类推,记录到该序列中最后一个三字符串(tgg)(特别的,如果相邻两个字符串完全相同,只纪录一次).同理可得序列2-10种所有出现的三字符串,最后把A类中所有这些三字符串按其出现频率大小进行排序,出现频率多的字符串优先权重就大.第二步 选出特征字符串,对字符串进行二次排序,找出特征字符串.仍以A类序列1为例:aggcacggaa1)先考虑前5个字符,aggca,其中包含了3个三字符串:agg,ggc,gca,按第一步所得的三字符串优先权重的大小,确定这3个字符串中有一个为特征字符串(如果ggc在前10个序列中出现的频率比agg和gca大,那么在本例中就选ggc,而不考虑第一个字符a).2)再把指针移至特征字符串后的第一个字符(本例中移向a)重复(1)操作.以此类推,直至找出A类序列1-10种所有特征字符串.我们采用分类统计的方法进行排序,B类的操作方法同A类.第三步 把A、B两类的所有特征字符串进行排序,计算出每个特征字符串在两类序列(1-20)中出现的总次数.如果小于5次,认为此字符串不能体现A、B两类的特征差异,不予考虑.这样,统计出1-20中出现频率较大的特征三字符串(共21种),他们在每个序列中出现的频率为:33该字符串在本序列中出现的次数 (S—M+1),这里,M=3)统计特征二字符串时,采取类似的方法,得出15个特征二字符串:他们在每个序列中出现的频率为:23该字符串在本序列中出现的次数 (S—M+1),这里,M=3).4.2 网络输入与输出变量的选取及处理选取网络的输入变量时,如输入变量过少,能引起建模不充分,过多的输入变量会降低网络的学习速度,延长收敛时间,使模型的输入输出关系过于复杂.结合本题的实际情况,我们提出两套输入变量选取方案.方案1 输入每个序列中单字符及特征三字符串出现的频率(共25个输入变量)方案2 输入每个序列中单字符及特征双字符串出现的频率(共19个输入变量)如果要同时考虑单字符,特征双、三字符串出现的频率共需40个输入变量,模型过于复杂.因此,暂不考虑这种方案.规定:A类序列的期望输出值为-1,B类为1.这样,通过观察B P网络的输出值,可以直观地判断未知序列的类别.4.3 BP网络的结构与参数B P网络的结构与参数决定着网络学习的效果和分类识别的精度.其中,输入、输出节点数由实际问题决定,本题中输出节点为1个.需要选择的是网络的激发函数,隐层数及各层隐节点数.对方案1、2,各构造网络1、2与之相对应.对于这两个网络,均选用三层B P网络,各层激发函数均为双曲线正切函数(函数值在-1~+1之间变化).R .P L i ppm ann 研究中指出[4]:对于任给K 个实数值样本,有2K +1个隐节点的三层网络可以记忆它们,这个隐单元的激发函数可以是任何渐近函数.基于这一结论,我们根据样本集的规模,选隐层节点数N =5,这样可使网络有能力记忆全体样本,不至于在学习过程中丢失前面的学习过的样本的信息.4.4 网络的训练及检验在已知类别序列1~20中,取A 类前7个序列(1~7)和B 类前7个序列(11~17)作为训练样本集Strain ,序列8~10、18~20作为检验样本集Stest 对网络1:25-5-1及网络19-5-1进行训练,给定样本总体误差标准为10-5.当网络学习收敛于给定的标准后,用检验样本集进行分类检验,考察其分类识别的准确性.网络1、2的初始权值均为-012~+012之间的随机数.学习算法采用了两种改进措施相结合的B P 算法,即变周期和变步长相结合的方法,用以提高网络的收敛速度.在网络1开始训练时,学习率Γ取019(网络2取110),惯性系数Α取016(网络2取Α为017),修正周期T 取101随着误差E 的减少,网络不断逼近对象的输出特性,此时,逐渐减少Γ及Α,增大T ,直至网络收敛于给定的标准.训练达到稳定时,两个网络对训练样本集的学习速率曲线如图1(a )和图2(a )(略),此时对检验样本的检验结果如图1(b )和图2(b )(略):图1(a )和图2(a ),网络1进行了303步,网络2进行了241步的学习后,就达到了精度要求,均学习速率较快,效率较高.图1(b )和图2(b ),如果允许误差为10%,那么此时网络1对检验样本分类的准确性为9813%,网络2为9417%,命中率均为100%,我们将检验集加入到训练集中,得组合集Strain +test .网络用此集进行学习.收敛后,网络1、2可对未知序列进行分类识别了.5 结果及分析511 对人工序列21~40的分类我们应用M A TLAB 软件包中的神经网络工具箱(B P 网络)对未知序列进行分类.我们发现:若以高于019和低于-019作为分类标准,两个B P 网络的命中率相同,但输出函数值不等,网络1的输出值与期望值更接近.这种情况出现的原因是:①网络2中输入变量较网络1少,在样本集个数相同的情况下,建模不够充分;②双字符串的组合形式较三字符串少,因此,采用特征三字符串能能更好的体现序列中片段的相关性.经过反复训练、检验、分类,我们发现:网络1较网络2学习速度快,对未知序列区分的精度更高,因此,认为网络1更优.在这里,采用网络1的分类结果,即:A 类:22,23,25,27,29,34,35,37,39;B 类:21,24,26,28,30,31,32,33,36,38,40.5.2 对182个自然序列的分类我们把21~40中已明确分类的序列加入到样本中,重新对网络1进行训练,直至达到误差10-5.分别以高于0,012,015和低于0,012,015作为分类标准,对182个自然序列的分类结果为:(略)随着分类标准的变化,分类率随之变化.采用0作为分类标准可把182个自然序列分开.921期冯 涛等:关于DNA 序列分类问题的模型03数 学 的 实 践 与 认 识31卷6 模型的优缺点及改进方向优点:①基因特征这种非线性系统很难用数学方程表达出来,而且可利用的样本有限,以至于传统的分类识别方法显得无效,神经网络从其良好的学习功能和很强的非线性计算能力,为分类提供了一种新方法;②传统的分类方法是一种模型驱动方法,大部分统计模型基于线性回归,而神经网络用数据驱动方式来解决分类问题,它通过样本学习逼近实际系统模型的能力很强;③由于B P网络的信息分布性,各输入变量对输出变量的影响在对样本学习时已自动记下,并由整个网络的内部表达而表现出来,从而省略了通常建模前所需的对各变量的相关分析;④B P网络有更多的可调变量(各权值、阀值),故网络可以以更复杂的方式逼近系统的外部特征.B P模型的不足之处在于存储于各权上的知识人们无法理解,所建立的模型难以用解析方式表达出来.改进方向:①样本集如何处理,更能改善网络的学习效果,提高识别精度;②研究网络的结构及诸参数与分类效果的关系;③如何根据样本集的选择网络学习参数,以提高网络的收敛速度;④研究适用于分类识别问题的神经网络的闭环结构,利用反馈信息,提高网络预测的精度.参考文献:[1] 王永骥,徐 建1神经网络控制1机械工业出版社,19981[2] Funahash i K J1the A pp roni m ate R ealizati on of Continuous M app ing by N eural N etwo rk s1N eutral N etwo rk s,1989,(2).[3] R um elhart D E,M oclell J L.Parallel D istributed P rocessing:Exp lo rati on in the M icro structure of cogniti on.M ITP ress,L ondon,1996.[4] 袁曾任1人工神经网络及其应用1清华大学出版社,19991[5] 陈 明1神经网络模型1大连理工大学出版社,19951[6] 楼顺天,施 阳1基于M A TLAB的系统分析与设计——神经网络1西安电子科技大学出版社,19991[7] 王士同,陈剑天1问题求解的人工智能神经网络方法1气象出版社,19951[8] 胡守仁1神经网络应用技术1国防科技大学出版社,19931A M odel for D NA Sequence Cluster i ng ProblemFEN G T ao, KAN G Zhe2w en, HAN X iao2jun(D alian U n iversity of T echno logy,D alian 116024)Abstract: T h is paper p resen ts a m ethod app lying artificial neu ral netw o rk(NN)to DNAclu stering p rob lem.F irst w e u se the p robab ility statistics m ethod to ex tract the characters fromthe20artificial DNA sequences w ho se catego ries are know n.T hu s w e can get the charactervecto rs of the DNA sequences and inpu t them as samp les in to BP neu ron NN fo r learn ing.W eemp loy the BP(back p ropagati on)algo rithm to train NN by u se of the N eu ral N etw o rkToo lbox in M A TLAB softw are package.In th is paper,tw o th ree2sto ry NN are created to inpu tthe ex tracted DNA character vecto rs as samp les in to them.A fter the train ing,characters areex tracted from the20unclassified artificial sequence samp les and182natu ral sequence samp lesto fo rm the character vecto rs as inpu t of the tw o NN fo r clu stering.T he resu lts show s:theclu stering m ethod p resen ted in th is paper can classify the DNA sequences in qu ite h igh accu racyand p recisi on.It is qu ite feasib le to app ly the artificial neu ral netw o rk to DNA sequenceclu stering.D NA 分 类 模 型杨 健, 王 驰, 杨 勇指导老师: 王 鸣(北京大学,北京 100871)编者按: 本文将DNA序列的碱基的组合看作“文章”的关键词,用逐步优选法对关键词进行优选并用分层分类的方法进行分类.从理论上说,这一方法可以提取较好的特征,而且分类也较精细.这一模型有一定创造性,分析问题比较精细而贴近实际,思路清楚,叙述通顺简练.摘要: 本模型充分利用了所给数据的特点,运用统计、最优化等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,据此提出量化的分类标准,能较好的对任给DNA序列进行分类.首先,从已知样本序列中用广度优先法选出所有重复出现的字符串,并计算其标准化频率及分散度.然后,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数,并且逐步优化其参数使之达到稳定,提高了可信度.最后,根据优先级函数找出关键词,然后确定权数,用层次分析法对未知样本进行分类,并定出显著水平,从而得到了一个比较通用的分类方法.经过检验,此方法对21—40号待测样本进行了很好的分类,对后面的182个DNA序列进行同样的操作,也有较好的效果.1 问题的重述(略)2 模型假设(1)假定待分类样本21—40中既不属于A类也不属于B类的样本百分比不超过5%.(2)假设keyw o rd的重要性与t和s有确定的关系,且只与t和s有关(t,s定义见下).(3)假设不代表A、B类特征的字符串在DNA序列中是均匀分布的.3 模型的分析从所给的DNA序列观察发现,很多字符串重复出现的频率很高,而且有些字符串在A 类和B类中出现的次数有很明显的差距,这暗示把某些字符串作为A,B两类的一个分类标准.所以应对A、B两类已知样本做统计分析,找出其中可能代表该类特征的字符串.因为每个字符串重要性可能不一样,所以对这些字串的重要性排序,选出最能代表该类特征的一部分字串.然后用这些字串作为标准判断验证A,B两类,看所选的标准的准确性,最后用于任何一个DNA序列的分类.D NA序列的分类模型汤诗杰, 周 亮, 王晓玲指导老师: 孙广中(中国科技大学,合肥 230026)编者按: 本文提出了DNA序列分类的三种模型,其一,基于A、G、T、C四种碱基出现的频率;其二利用了同一碱基在序列中的间隔,这一信息是单纯考虑频率所不能包含的;在第三种模型中,作者把DNA序列视为一个信息流,考虑每增加一个字符所带来的信息增量.尽管文中信息量的定义方式仍可讨论,但本文思想新颖活跃,有其独特之处.本文最后的分类方法,是以上三种的综合使用.摘要: 本文针对DNA序列分类这个实际问题,提出了相应的数学模型.为了很好的体现DNA序列的局部性和全局性的特征,我们给出了衡量分类方法优劣的标准,即在满足一定限制条件的情况下,是否能充分反映序列的各方面特性.依据我们提出的判别标准,单一标准的分类是无法满足要求的.我们的方法是侧重点不同的三种方法的综合集成.这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量.利用这个方法,完成了对未知类型的人工序列及自然序列的分类工作.最后,对分类模型的优缺点进行了分析,并就模型的推广作了讨论.1 问题的提出(略)2 问题的分析这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题.已知字母序列S1,S2,S3……S40,S i=x1x2x3…x n i,其中x j∈{a,t,c,g};有字符序列集合A,B,满足A∩B=<,并当1ΦiΦ10时,S i∈A;当11ΦiΦ20时,S i∈B.现要求考虑当21ΦiΦ40时,S i与集合A及集合B的关系.在这里,问题的关键就是要从已知的分好类的20个字母序列中提取用于分类的特征.知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将首先对用于分类的标准问题进行必要的讨论.3 分类的标准及评价首先,我们提取的特征应该满足以下两个条件:(1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好的区分已经标示分类的20个序列.这是比较显然的一个理由.(2)所取特征必须是有一定的实际意义的.这一点是决不能被忽视的.比如,如果不考虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在B类中的十个序列都是以g t开始的,而已知在A类中10个序列没有以g t开始的,甚至以g开始的都没有.显然这是满足上面的第一个条件的.如果仅因此就认为这种特征是主要的,并简单的利用这个特征将所有待分类的序列分成两类,显然是不甚合理的.。
DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA序列的分类结果 ...KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述KB)。
DNA序列分类模型
刘丽
【期刊名称】《重庆通信学院学报》
【年(卷),期】2005(32)3
【摘要】本文对2000年全国大学生数学建模竞赛A题DNA序列分类给出了高达92.73%的分类方法,方法简明有效,可作为这一问题的经典解法.
【总页数】4页(P393-396)
【作者】刘丽
【作者单位】合肥工业大学理学院
【正文语种】中文
【中图分类】O29
【相关文献】
1.DNA序列判别分类模型 [J], 王显金;阳军
2.DNA序列判别分类模型 [J], 王显金;阳军
3.基于隐马尔科夫模型的DNA序列分类方法 [J], 郭彦明;陈黎飞;郭躬德
4.基于模糊聚类算法的DNA序列分类模型 [J], 韦相
5.应用LDA模型的DNA序列分类方法 [J], 冯超
因版权原因,仅展示原文概要,查看原文内容请购买。
DNA序列分类的统计分析承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):山东省山东工商学院数学与信息科学学院参赛队员 (打印并签名) :1. 许东方2. 钱丽美3. 吴文姝指导教师或指导教师组负责人 (打印并签名):刘重阳日期: 2012 年 8 月 16 日赛区评阅编号(由赛区组委会评阅前进行编号):全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):DNA序列分类的统计分析摘要:本问题是一个关于DNA序列分类的统计分析的问题,题中可以分为两个问题,问题一:从已经分类中的DNA序列中提取特征,构造分类方法,并用已知类别的序列,衡量该方法是否足够好并用最满意的方法,对另外20个未标明类别的人工序列进行分类;问题二:数据文件给出了182个较长的自然DNA序列,用问题一中的最优分类方法对它们进行分类,给出分类结果。
故,本文针对DNA序列的碱基(碱基a, 碱基t碱基,g, 碱基c)的含量特征将DNA序列进行分类。
问题一是在已知A、B两类DNA序列模型的条件下,在基于碱基含量特征的判别模型中找到DNA序列的判定标准。
再利用不同判定标准将各个串DNA序列进行分类,并找到最优判定方法。
用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。
近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。
本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。
通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。
关键词:DNA序列、Fisher判别法、判别函数、错判率。
一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。
对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
2.问题有20个已知类别的人工序列:A类,B类。
1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。
2)具有给予未知类别的DNA序列分类的功能。
3)能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。
题目 D N A 序列摘要本文主要研究D N A 序列的结构问题,通过建立相应的数学模型,对D N A 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘D N A 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用M atlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SP SS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111m in (,)(())..1(1,2,6)01ncq ikik k i cik i ik J U V ud s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分D N A 题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的D N A 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 M atlab 软件 Spss 软件一、问题重述1.1背景分析随着D N A测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对D N A序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
2000年全国大学生数学建模竞赛A题DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类__________ ;B类_______________ 。
请详细描述你的方法,给出计算程序。
如果你部分地使用了现成的分类方法,也要将方法名称准确注明。
这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:网易网址: 教育频道在线试题;教育网: New mcm2000教育网: /mcm2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。
用你的分类方法对它们进行分类,像1)一样地给出分类结果。
提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。
Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaag gaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacggga caaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacgga cggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaat aaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgttt cggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatattt cggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatg gaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaa ggaggcggaccataggaggcggattaggaacggttatgagg9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaa aatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccagg cgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatcca acgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaag gtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaatta ttttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatatt ctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttt tttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgt aaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagag aaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttc tttatataggatctcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctt taaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtacc gtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccgga ttccggaaagccgattaaggaccgatcgaaaggg23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagc ttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagcca gcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggca aaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcag ctcagttttaacgcgggatctttagcttcaagctttttac27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgcca aaggacgctggtttagccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagac gttagggcttatcagttatggattaatttagcttattttcga29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccat ttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgcc aagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta 31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctag caatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgttt agtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaag g33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttag ctaggaatttatgctgacgtagcgatcgactttagcac34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgt aggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacagg ataaaagttaagggaccggtaagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaa ggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgattta cgtataatttgaccttattttggacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgc agctaccgtttaccgtacgttgcaagtcaaatccatattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttga aatttttggactagcttaccctggatttaacggccagttt。