数学建模dna序列分类模型终稿
- 格式:doc
- 大小:683.50 KB
- 文档页数:37
2000年全国大学生数学建模竞赛A题DNA序列分类2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类__________ ;B类_______________ 。
2000年A题《DNA序列的分类》题目、论文、点评DNA序列的分类模型汤诗杰,周亮,王晓玲,孙广中本文针对 DNA序列分类这个实际问题 ,提出了相应的数学模型 .为了很好的体现 DNA序列的局部性和全局性的特征 ,我们给出了衡量分类方法优劣的标准 ,即在满足一定限制条件的情况下 ,是否能充分反映序列的各方面特性 .依据我们提出的判别标准 ,单一标准的分类是无法满足要求的 .我们的方法是侧重点不同的三种方法的综合集成 .这三种方法分别体现了序列中元素出现的概率 ,序列中元素出现的周期性 ,序列所带有的信息含量 .利用这个方法 ,完成了对未知类型的人工序列及自然序列的分类工作 .最后 ,对分类模型的优缺点进行了分析 ,并就模型的推广作了讨论DNA序列的分类模型.pdf (230.27 KB)关于DNA序列分类问题的模型冯涛,康喆雯,韩小军,贺明峰本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的Neural Network Toolbox(神经网络工具箱)中的反向传播( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于DNA序列分类是完全可行的关于DNA序列分类问题的模型.pdf (359.1 KB)DNA分类模型杨健,王驰,杨勇,王鸣本模型充分利用了所给数据的特点 ,运用统计、最优化等数学方法 ,从已知样本序列中提炼出能较好代表两类特征的关键字符串 ,据此提出量化的分类标准 ,能较好的对任给 DNA序列进行分类 .首先 ,从已知样本序列中用广度优先法选出所有重复出现的字符串 ,并计算其标准化频率及分散度 .然后 ,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数 ,并且逐步优化其参数使之达到稳定 ,提高了可信度 .最后 ,根据优先级函数找出关键词 ,然后确定权数 ,用层次分析法对未知样本进行分类 ,并定出显著水平 ,从而得到了一个比较通用的分类方法 .经过检验 ,此方法对 2 1— 4 0号待测样本进行了很好的分类 ,对后面的1 82个 DNA序列进行同样的操作 ,也有较好的效果DNA分类模型.pdf (382.26 KB)DNA序列的分类韩轶平,余杭,刘威,杨启帆本文对 A题中给出的 DNA序列分类问题进行了讨论 .从“不同序列中碱基含量不同”入手建立了欧氏距离判别模型 ,马氏距离判别模型以及 Fisher准则判定模型 ;又从“不同序列中碱基位置不同”入手建立了利用序列相关知识的相关度分类判别算法 ,并进一步研究了带反馈的相关度分类判别算法 .对于题中所给的待分类的人工序列和自然序列 ,本文都一一作了分类 .接着 ,本文又对其它各种常见的分类算法进行了讨论 ,并着重从分类算法的稳定性上对几种方法作了比较 .DNA序列的分类.pdf (219.79 KB)DNA序列分类的数学模型吕金翅,马小龙,曹芳,陶大程本文从三个不同的角度分别论述了如何对 DNA序列进行分类的问题 ,依据这三个角度分别建立了三类模型 .首先 ,从生物学背景和几何对称观点出发 ,建立了 DNA序列的三维空间曲线的表达形式 .建立了初步数学模型 -积分模型 ,并且通过模型函数计算得到了 1到 2 0号 DNA序列的分类结果 ,发现与题目所给分类结果相同 ,然后我们又对后 2 0个 DNA序列进行了分类 .然后 ,从人工神经网络的角度出发 ,得到了第二类数学模型 -人工神经网络模型 .并且选择了三种适用于模式分类的基本网络 ,即感知机模型 ,多层感知机 ( BP网络 )模型以及 LVQ矢量量化学习器 ,同时就本问题提出了对 BP网络的改进 (改进型多层感知机 ) ,最后采用多种训练方案 ,均得到了较理想的分类结果 .同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的 (前四十个 ) .最后 ,我们对碱基赋予几何意义 :A.C.G.T分别表示右 .下 .左 .上 .用 DNA序列控制平面上点的移动 ,每个序列得到一个游动曲线 ,提取游动方向趋势作为特征 ,建立起了模型函数 ,同时也得到了后二十个 DNA 序列的分类结果 ...DNA序列分类的数学模型.pdf (387.46 KB)DNA序列中的结构与简化模型孟大志本文简述 2 0 0 0年全国大学生数学建模竞赛 A题的科学研究背景 ,以及题目的立意和设计 .进而对解答 A题的大学生们的出色方法进行介绍与评述DNA序列中的结构与简化模型.pdf (211.8 KB)。
2000年论文选附2001年全国大学生数学建模竞赛题目(本科组)全部题目(包括数据)可以从以下网址下载:/mcm 网易教育频道A题血管的三维重建·断面可用于了解生物组织、器官等的形态。
例如,将样本染色后切成厚约如m的切片,在显微镜下观察该横断面的组织形态结构。
如果用切片机连续不断地将样本切成数十、成百的平行切片,可依次逐片观察。
根据拍照并采样得到的平行切片数字图象,运用计算机可重建组织、器官等准确的三维形态。
假设某些血管可视为一类特殊的管道,该管道的表面是由球心沿着某一曲线(称为中轴线)的球滚动包络而成。
例如圆柱就是这样一种管道,其中轴线为直线,由半径固定的球滚动包络形成。
现有某管道的相继100张平行切片图象,记录了管道与切片的交。
图象文件名依次为0.bmp、1.bmp、…、99.bmp,格式均为BMP,宽、高均为512个象素(pixel)。
为简化起见,假设:管道中轴线与每张切片有且只有一个交点;球半径固定;切片间距及图象象素的尺寸均为1。
取坐标系的Z轴垂直于切片,第1张切片为平面Z=0,第100张切片为平面Z=99。
Z=Z 切片图象中象素的坐标依它们在文件中出现的前后次序为(—256,—256,Z),(—256,—255,Z),…(—256,255,Z)(—255,—256,Z),(—255,—255,Z),…(—255,255,Z)……(255,—256,Z),(255,—255,Z),…(255,255,Z)。
试计算管道的中轴线与半径,给出具体的算法,并绘制中轴线在XY、YZ、ZX平面的投影图。
下面是100张平行切片图象中的6张,全部图象请从网上下载。
关于BMP图象格式可参考:1.《VisualC+ +数字图象处理》第12页2.3.1节。
何斌等编著,人民邮电出版社,2001年4月。
2.http:///home/mxr/gfx/2d/BMP.txtB题公交车调度公共交通是城市交通的重要组成部分,作好公交车的调度对于完善城市交通环境、改进市民出行状况、提高公交公司的经济和社会效益,都具有重要意义。
题目 DNA 序列摘要本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。
对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题:2111min (,)(())..1(1,2,6)01n cq ik ik k i cik i ik J U V u d s t u k u ======≤≤∑∑∑用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分题一相同的方法进行分类,分类结果见问题二的求解。
总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。
关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件一、问题重述1.1背景分析随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。
如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。
本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。
1.2问题重述2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
队号 10209 2000年全国大学生数学模型竞赛 A B请在选中的题号上画圈 摘要本文尝试了几种DNA分类方法对未知类别的DNA序列进行分类结构等方面的特征然后利用概率统计模型I通过对DNA序列所对应的蛋白质的含氮量的分析进行Bayes区分无效直接对DNA片段本身的统计特征进行多元正态概率分析难以反映DNA序列的宏观特征的的缺点取得了较好的结果DNA序列的分类问题的提出 2000年6月预计2001年可以完成精确的全序列图天书这本大自然写成的是由4个字符AC其中没有除了这4个字符表示4种碱基以外内容难以读懂天书研究DNA全序列具有什么结构又是解读这部天书的基础Bioinformatics)最重要的课题之一提出了以下对集合进行分类的问题构造分类方法并用合适的方法对未知的序列集合进行分类 所给的DNA序列取自某DNA单链2¶ÔÓ¦ÓÚÖÕÖ¹·ûºÅµÄ3个三元组不进行计算即在所给样本中不存在未转录为蛋白质的部分 模型中抽取的特征分量都服从正态分布 所给DNA片段的来源反映了人类的共同遗传特性同时这些片段也不存在个人的差异 所给DNA序列的长度对于分类是有效的6¿É¿¿µÄ7²»´æÔÚÎóÅÐ互补的双链中嘌呤GC的含量相等假设2假设4ËüÃÇ¿ÉÄÜ»áÓ°ÏìÇø·ÖµÄÕýÈ·ÐÔ符号约定 V 成分集合 {A,G,C,T} Si 第i条序列 S 任意一条序列 L(S 序列S中X出现的次数 {A,G,C,T} X(S)/L(S X Fn 序列S的n维特征向量r 未知序列中B类序列数目与A类序列数目的比率对论文中其他地方用到的符号在使用处说明,不在此一一列出描述某一生物体的全部信息本身就是一件非常复杂的事作为生物全部信息记录载体的DNA序列由于目前研究尚处于起始阶段突出特征有利于表示成适当的数学对象 DNA从化学角度上讲具有化学成分的比例特征,而从信息学角度上讲则记录了生物体的全部信息,两方面是密不可分的.但从研究的角度上讲我们可以先分别从化学成分的特征方面和信息特征方面来考虑这个问题.对具体的分类问题需要比较两种方法的优劣.就化学成分而言,可以有两种方案:其一,以氨基酸的编码作为基本分析单位以相对含量{A,G,C,T}模型的建立DNA序列分析和基因模式识别已有若干成熟方法和工具[1]½üËÆ×Ö·û´®Æ¥Åäftp://r.it/pub/embnet/software/CleanupLasVagas基因预测法可进行准确无误的基因和exon判定Procrustes (/software/procrustes)软件可以从局部切割后对齐从未完成的cosmid大小的基因组序列中识别出不完整基因上述方法和工具对于我们进行DNA序列的分类具有一定的参考价值我们依次提出如下三个模型对应蛋白质的含氮量分析 DNA分析的困难之一是数据源的高维性模型I的主要目的是提取低维特征量我们通过DNA序列所对应的蛋白质的含氮量来进行序列的分类DNA的作用是用来合成生物蛋白B两类序列进行区分而蛋白质是由氨基酸组成的当DNA合成氨基酸时现已得知每三个碱基对都确定一个氨基酸我们就可根据碱基序列得出与其匹配的序列见附录一)按编码来对所给序列的碱基进行匹配DNA在复制时有明确的复制起始位我们并不知道碱基序列的开头于是我们对于每条数据错位计算3次其中*为分隔符每次匹配令Ki为编号为i的氨基酸的数量计算完40组以后结果见图一可作为异常样本剔除分,由图可见未知类别的二十组序列被明显的分为A B 假设数据服从正态分布在此不对其进行分布检验A 组的平均值u1=0.1617,方差s1=0.0069B 组的平均值u2=0.1617,方差s2=0.0069,用其代替数学期望与均方差令w 表示状态w = w2 表示B 类但p (wi )(i=1,2)是我们所未知的由前面的结果为基础当计算出P(w1|x),P(w2|x)后1. 如果)|()|(max 2,1x j P x P j i ωω==Wi2. 如果)()|()()|(max2,1j j j i i P x p P x p ωωωω==Wi3. 如果)()()|()|()(1221ωωωωP P x p x p x l ≠=则 ∈21ωωx用计算机进行搜索n最后182组数据须10秒UUUUAUBAAUBUAAAAAAAAABBBUBAUUBUAU UUAUAUUUABUABABAUAAABABBAAUAAUUBU AAAAAUAABBAUABBAUBBBAUAAABAUUUUBU AUUBAUABUABUAUUABAABAUBBAUUUBBBBU BAUABBUBABUBUBAABAUAUAABUABUBBBBB BUBUBAUBBBUUBBBBBA 表示A 组U 表示不属于A 与B 组5 8 9 13 14 15 16 17 18 19 20 21 27 32 36 38 42 45 47 49 51 52 53 55 58 59 61 62 67 68 69 70 71 73 74 77 79 82 87 89 90 91 93 100 104 106 109 112 115 117 118 120 124 134 136 141 147 148 150 152 154 155 158 171 B A60个 其它模型碱基的多维统计分析以氨基酸的含氮量作为指标对基因序列进行分类是从基因的一维特征量的角度出发进行分类的,而如果从多维特征量出发会得到稳定性更好的分类方案对DNA序列而言大量的碱基单元并不对应于任何蛋白质无效的但这些片段可能用于基因调控和生物体行为的控制模型I针对DNA在遗传密码作用下对应的蛋白质特征进行的分类因为大量的实际上可能在实际上是不存在的我们将直接通过对DNA序列本身统计特性的分析来进行分类来自不同生物体的DNA序列GT的相对含量有所差别[5]对高等生物而言而对低等生物而言因此我们尝试着先用各序列S的AGCT得到统计数据如下16 0.35 0.10 0.46 0.08 17 0.35 0.14 0.26 0.25 18 0.29 0.09 0.50 0.12 19 0.22 0.07 0.56 0.15 20 0.20 0.06 0.56 0.17 表一: DNA碱基所占比例从以上表格中数据不难看出B而言两个参量差别较大两个参量的差别则比较小 我们设想先去掉AC而以向量F2,T由于此时特征向量为二维向量我们先以形式表示如下图所示图二 AB 类对碱基G³ýÁ˸ö±ðµã¶øÍâB Á½×éµÄÌØÕ÷µã·Ö±ð¾Û¼¯ÓÚͼÖÐÁ½¸ö²»Í¬ÇøÓò 由以上直观的结果可以通过以上描述的方法来对待测的我们不妨假设随机变量Y 对A类而言−+−−−−−−−=2222212121212221)())((2)()1(21exp 121),(a a a a a a a a a a a a a y y x x y x f µµσσµµρσµρρµπµ对B类而言−+−−−−−−−=2222212121212221)())((2)()1(21exp 121),(b b b b b b b b b b bb b y y x x y x g µµσσµµρσµρρµπµ 其中a2 : 0.156 a2 : 0.060 b1 : 0.102 b2 : 0.100 x , y 它属于A类的概率为),(),(),(),(y x g r y x f y x f y x p ⋅+=其中r为A类和B类群体的比值X只需检验PY图三 人工样本及AB ÀàÒÔ¼°´ý²âÀàÔÚXOY ƽÃæÉϵķֲ¼Çé¿öʵ¼Ê¼ÆËãʱ¿ÉÒÔ½«ËüÃÇÌÞ³ýÔòÈÏΪËüÃǼȲ»ÊôÓÚA ÀàÒ²²»ÊôÓÚB ÀàÈç¹ûÐèÒª´¦ÀíµÄÊý¾Ý±È½Ï¶àÒ²¿ÉÒÔÓüÆËã´ý²âÑù±¾µãÓëÁ½ÀàµÄÖÐÐĵÄÅ·ÊϾàÀëµÄ·½·¨À´´¦ÀíA21 24 26 28下面是问中182 组待测数据在平面上的分布情况图四 自然样本的分布图241log 4141=−∑=i ∑ii i f f log ii i f f D ∑=−=411log 2∑∑∑===−−−=414144112)log ()log(i j k k k j i j i f f f f f f D ∑∑∑∑====−−−=4...441 (11414) (441) (114)1)log ()|log()|(x i k k kj x xj ix x xjix n f ff f f f f fD (2碱基的信息熵分析在模型I和II中但上述统计方法是针对序列的少数几个特征进行的同时前述的两个模型中的方法,从本质上说是以DNA的化学特征作为数学参量来对DNA序列进行分类的,这样做就完全忽略了DNA的有序性.换句话说,就是完全不考虑DNA所记录的信息.虽然现在距离人们破译DNA所记录的遗传信息的时日还十分遥远,但是我们可以从最简单的情况入手,即忽略DNA所记录的信息内容而仅仅只考虑所记录的信息数量. 事实上,来自高等生物DNA所记录的信息量比低等生物DNA记录的信息量要多一些.对同一生物的来讲,用于记录复杂器官的基因比用于记录简单器官的基因信息要多.信息反映了DNA序列的宏观特征如用于解决算法概率(Algorithm probability),最小信息长度(Minimum message length)和最小描述长度(Minimum description length)等问题[1]信息体现了基因的宏观统计特性复杂性度量碱基)其中1 ,2 ,3 ,4 分别对应碱基对数的底为实际序列中熵为´Ó¶ø¸´ÔÓÐÔËðʧÁ¿»ò¼´ÐÅÏ¢¶ÈÁ¿Îª Ö®¼äµÄ²îÒì从到此处记法对应的是涉及的几个核苷酸联体其他n其中联体联体为为联体预期频率联体的条件概率它们分别根据设可以证明总有且21=∑∞=n nDËĸö·ûºÅµÄÿ¸ö¼î»ùÓдÓÉÏÊö·ÖÎö¿ÉÒÔ¿´³öÁªÌåƵÂÊÓëÕâ¾ÍÊÇËù½ÒʾµÄÐÅÏ¢ 曾被用来作为物种进化程度的指标在计算时需要计算4n 个n 联体的频率,但n 较大时(如n=7时,47=16384),需要很大的内存,也限制了计算速度,故计算n 较大时的实际意义不大.我们用上述公式计算了AB 组的片断中n<=6的值,如下表所示.组别 编号D1 D2 D3 D4 D5 D6 1 .1319 .0131 .0099 .0380 .1690 .40602 .1153 .0185 .0119 .0340 .1140 .2970 3 .0664 .0113 .0070 .0140 .0300 .1170 4 .2536 .0145 .0117 .0210 .0360 .0990 5 .0690 .0122 .0069 .0150 .0320 .11906 .0843 .0120 .0093 .0160 .0320 .11707 .0703 .0097 .0076 .0150 .0310 .11108 .1338 .0214 .0655 .0100 .0070 .0200 9 .0432 .0202 .0052 .0040 .0080 .0130 A 10 .0359 .0160 .0210 .0370 .0920 .290011 .0114 .0270 .0248 .0330 .0880 .3360 12 .0088 .0318 .0115 .0150 .0620 .2380 13 .0051 .0821 .0098 .0101 .0480 .1520 14 .0052 .0729 .0093 .0150 .0490 .1810 15 .0022 .0437 .0086 .0100 .0360 .1540 16 .0023 .0571 .0064 .0140 .0400 .1340 17 .0021 .0497 .0107 .0080 .0260 .0780 18 .0035 .0725 .0098 .0100 .0230 .0670 19 .0172 .0534 .0095 .0140 .0340 .1360 B 20 .0322 .0467 .0089 .0040 .0120 .0320表二 两组待测样本的信息熵分析结果有上表可见,对于A 组都有D1>D2>D3,对于B 组都有D2>D3>D1,故我们可据此对数据分类,得到分类的结果为47 49 52 58 59 60 61 62 64 66 67 68 69 70 71 73 77 79 81 82 89 90 91 93 95 100 101 104 105 106 108 109 111 112 113 115 117 118 120 124 132 134 135 136 139 141 145 148 154 155 158 171 172 176 182 B: 7 10 12 22 23 24 26 28 30 34 43 48 50 54 57 65 75 76 80 84 85 86 92 98 102 103 107 53 55 110 114 116 119 121 122 123 125 127 128 129 130 131 138 140 142 143 144 146 151 156 159 160 161 162 163 166 168 170 173 174 134 135 175 179 180 181 优缺点分析和结论模型的优缺点分析:优点 模型中用几种不同的方法对待测数据进行了分析处理采用了有效的降维思想减少了运算量模型降维的效果尤其明显 模型中不但考虑到了DNA无序化后的特征缺点如全局和局部相关性从而也未能揭示各类DNA在这些方面的区别本文针对DNA序列的分析进行建模模型II克服了可能存在DNA片段的问题作为统计方法的自然延伸难以反映DNA序列的宏观特征的的缺点本文还可以在如下方向进行改进 可以利用目前已公开的DNA分析算法和工具对本文结果进行比较和检验2ÎÒÃÇÖ»½øÐÐÁ˶þάÌØÕ÷µÄ·ÖÀàÓÉÓÚA+C+G+T=100%3Ñù±¾³¤¶ÈÂÔ¶ÌÁíÍ⵫ÏãÅ©ÐÅÏ¢ÍêÈ«Å×ÆúÁËÑù±¾µÄÓïÒâºÍÓïÓÃÌØÕ÷ÓïÓÃÐÅÏ¢ºÍÈ«ÐÅÏ¢[7]的角度扩展该模型生物化学(上册)1982ÒÅ´«µÄ½á¹¹Ó빦ÄÜ1984¸ÅÂÊÂÛÓëÊýÀíͳ¼Æ1997·Ö×ÓÉúÎïѧ1999附录1. 遗传密码表第二字母第一字母U C A G 第三字母U UUU 苯丙氨酸UUCUUA 亮氨酸UUGUCU丝氨酸UCCUCAUCGUAU酪氨酸UAGUAA 终止UAGUGU半膀氨酸UGCUGA终止UGG色氨酸UCAGC CUUCUCCUACUGCCU脯氨酸CCCCCACCGCAU组氨酸CACCAA谷氨酰胺CAGCGU精氨酸CGCCGACGGUCAGA AUU异亮氨酸AUCAUAAUG甲硫氨酸ACU 苏氨酸ACCACAACGAAU天冬酰胺AACAAA赖氨酸AAGAGU丝氨酸AGCAGA精氨酸AGGUCAGG GUUGUC 撷氨酸GUAGUGGCUGCCGCA丙氨酸GCGGAU 天冬氨酸GACGAA 谷氨酸GAGGGUGGCGGA 甘氨酸GGGUCAG2. 各种氨基酸含氮量氨基酸N分子数量Nnumi 分子量Modui丙氨酸 1 89缬氨酸 1 117亮氨酸 1 131异亮氨酸 1 131脯氨酸 1 115苯甲氨酸 1 165色氨酸 2 204 甲硫氨酸(蛋氨酸) 1 149甘氨酸 1 75丝氨酸 1 105苏氨酸 1 119半膀氨酸 1 121酪氨酸 1 181天冬酰胺 2 133谷氨酰胺 2 146赖氨酸 2 146精氨酸 3 174组氨酸 3 155天冬氨酸 1 134谷氨酸 1 1473. 程序#include <iostream>#include <fstream>#include <string>using namespace std;struct dna{int n,w;};fstream fin;fstream fin1;fstream kout;fstream fout;fstream fao,fbo;int re(char hh){if (hh == 'a')return 0;if (hh == 't')return 1;if (hh == 'g')return 2;if (hh == 'c')return 3;}int value(char h1,char h2,char h3){return re(h1)*16+re(h2)*4+re(h3);}void main(){int A,B,C;A =B =C = 0;int i,j;float key;string temp;fin.open("input.txt"); //所要处理的DNA序列文件格式和网上所给相同 fin1.open("input2.txt");fout.open("output.txt");kout.open("resultoutput.txt");fao.open("aout.txt");fbo.open("bout.txt");struct dna gen[65];int gnum=0,x,y;string str;fin1>>x>>y;while (x > -1){fin1>>str;while (str != "#"){gnum = value(str[0],str[1],str[2]);gen[gnum].n = x;gen[gnum].w = y;fin1>>str;}fin1>>x>>y;}float N1,N2,N3,W1,W2,W3;float r1,r2,r3;char ch1,ch2,ch3,ch4,ch5;fin>>ch1;N1 = N2 = N3 = W1 = W2 = W3 = 0;while(!((ch1 > 'a'-1)&&(ch1 < 'z' + 1)))fin>>ch1;fin>>ch2;while(!fin.eof()){fin>>ch1;while(!((ch1 > 'a'-1)&&(ch1 < 'z' + 1))){fin>>ch1;if (fin.fail())goto aim;}fin>>ch2;fin>>ch3>>ch4>>ch5;while(((ch5 > 'a'-1)&&(ch5 < 'z' + 1))||(ch5 == '\n')) {if (ch5 == '\n')fin>>ch5;j = value(ch1,ch2,ch3);N1 = N1 + gen[j].n;W1 = W1 + gen[j].w;i += 3;j = value(ch2,ch3,ch4);N2 = N2 + gen[j].n;W2 = W2 + gen[j].w;i += 3;j = value(ch3,ch4,ch5);N3 = N3 + gen[j].n;W3 = W3 + gen[j].w;i += 3;ch1 = ch2;ch2 = ch3;ch3 = ch4;ch4 = ch5;fin>>ch5;}r1 = N1*14/W1;r2 = N2*14/W2;r3 = N3*14/W3;N1 = N2 = N3 = W1 = W2 = W3 = 0;if((abs(r1-0.16))>(abs(r2-0.16))){if((abs(r2-0.16))>(abs(r3-0.16)))key = r3;elsekey = r2;}else{if((abs(r1-0.16))>(abs(r3-0.16))) key = r3;elsekey = r1;}if (r1>0.1491){A++;kout<<"A";fao<<A+B+C<<" ";}else if ((r1<0.1440)&&(r1>0.1025)) {B++;kout<<"B";fbo<<A+B+C<<" ";}else{C++;kout<<"U";}}aim:cout<<endl;cout<<"A: "<<A<<endl;cout<<"B: "<<B<<endl;cout<<"C: "<<C<<endl;}4. 程序#include <iostream>#include <fstream>#include <math.h>using namespace std ;ifstream fin ;ofstream fout ;const int A=0 , G=1 , C=2 , T=3 ;void main(){int cou[4] ;char s[100] ;char lei[300] ;double xa=0.40,ya=0.14,xb=0.10,yb=0.53 ;double x,y,l0,la0,lb0,la,lb,alfa=0.05 ;double r = 1.5 ;int i,suma=0,sumb=0 ;memset(lei,'U',sizeof(lei)) ;fin.open("yangben.txt",ios::in) ;if( !fin ){cout<<"Can't open this file ."<<endl ;return ;}fout.open("yangout.txt",ios::out) ;if( !fout ){cout<<"Can't open this file ."<<endl ;return ;}l0 = sqrt((xa-xb)*(xa-xb) + (ya-yb)*(ya-yb) ) ; la0 = l0*( 1 /(1+r) ) ;lb0 = l0*( r /(1+r) ) ;la0 *= ( 1 - alfa ) ;lb0 *= ( 1 - alfa ) ;while(true){fin>>i>>x>>y ;if( fin.fail() )break ;la = sqrt((x-xa)*(x-xa) + (y-ya)*(y-ya) ) ; lb = sqrt((x-xb)*(x-xb) + (y-yb)*(y-yb) ) ; if(la <=la0){lei[i] = 'A' ;suma++ ;}if(lb <=lb0){lei[i] = 'B' ;sumb++ ;}}//output A class :fout<<"A class :"<<endl ;for(i=1;i<300;i++)if( lei[i]=='A' )fout<<i<<" " ;//output B class :fout<<"B class: "<<endl ;for(i=1;i<300;i++)if( lei[i]=='B' )fout<<i<<" " ;fout<<"suma = "<<suma<<endl ;fout<<"sumb = "<<sumb<<endl ;}5. 程序#include<iostream>#include<fstream>#include<string.h>#include<math.h>using namespace std;fstream fin,fout;char flow[31000];double shannona[6],shannonb[6],dd[6]; char temp[6];int step;char core[4]={'a','c','t','g'};void init();void creation(int dep);void main(void){int i,j;fin.open("str10000.txt",ios::in);fout.open("output.txt",ios::out);init();for(i=0;i<1;i++){memset(shannonb,0,sizeof(shannonb));fin.getline(flow,31000,'\n');fout<<"Gene "<<i+1<<" : ";for(j=0;j<6;j++){step=j+1;creation(0);fout.setf(ios::fixed);fout.width(5);fout.precision(3);dd[j]=shannona[j]-shannonb[j];fout<<dd[j]<<" ";}fout<<dd[1]+dd[0]<<endl;}fin.close();fout.close();}void creation(int dep){int i,j;if(dep==step){int tot=0,len;double fre,t;len=strlen(flow)-step+1;for(i=0;i<len;i+=3){for(j=0;j<step;j++)if(flow[i+j]!=temp[j])break;if(j>=step)tot++;}len/=3;fre=(double)tot/len;if(tot!=0)shannonb[step-1]+=-fre*log(fre)/log(2.0);}elsefor(i=0;i<4;i++){temp[dep]=core[i];creation(dep+1);}}void init(){int i,j,t=1;for(i=0;i<6;i++){t=t*4;shannona[i]=0.0;for(j=0;j<t;j++)shannona[i]+=-(1.0/t)*log(1.0/t)/log(2.0);}}。
第31卷第1期2001年1月数学的实践与认识M AT HEM A TICS IN PRACTICE A ND T HEORYV ol.31 N o.1 Jan.2001 DNA序列分类的数学模型吕金翅, 马小龙, 曹 芳指导老师: 陶大程(中国科学技术大学,合肥 230026)编者按: 本文能从生物学背景提出不同的三种判别模型.建模的分析和文字叙述条理清楚,模型一对21—40和182样本均进行了分类,分类正确率较高.摘要: 本文从三个不同的角度分别论述了如何对DNA序列进行分类的问题,依据这三个角度分别建立了三类模型.首先,从生物学背景和几何对称观点出发,建立了DNA序列的三维空间曲线的表达形式.建立了初步数学模型-积分模型,并且通过模型函数计算得到了1到20号DNA序列的分类结果,发现与题目所给分类结果相同,然后我们又对后20个DNA序列进行了分类.然后,从人工神经网络的角度出发,得到了第二类数学模型-人工神经网络模型.并且选择了三种适用于模式分类的基本网络,即感知机模型,多层感知机(BP网络)模型以及LVQ矢量量化学习器,同时就本问题提出了对BP网络的改进(改进型多层感知机),最后采用多种训练方案,均得到了较理想的分类结果.同时也发现了通过人工神经网络的方法得到的分类结果与积分模型得到的分类结果是相同的(前四十个).最后,我们对碱基赋予几何意义:A.C.G.T分别表示右.下.左.上.用DNA序列控制平面上点的移动,每个序列得到一个游动曲线,提取游动方向趋势作为特征,建立起了模型函数,同时也得到了后二十个DNA序列的分类结果,而且发现结果与上述两个模型所得到的分类结果几乎相同(其中有一个不同,在本模型中表示为不可分的).此模型保留的信息量更多,而且稳定性更强.1 问题的重述(略)2 基本假设及模型建立:第一类数学模型:积分模型DNA序列是一种用4种字母符号(A、T、G、C)表达的一维链.在这条链上不仅包含有制造人类全部蛋白质的信息(也就是基因),还有按照特定的时空模式把这些蛋白质装配成生物体的四维调控信息(三维空间和一维时间),找到这些信息的编码方式和调节规律是人类基因组研究的首要科学问题.下面我们首先将着手从几何学的角度来分析DNA序列.鉴于自然界对称这一朴素原理,我们的模型始于对4种碱基对称性的考察.图1.1(略)从纯化学的角度,我们可以将碱基进行两类划分:(1)按双环或单环结构,可分为:嘌呤碱基R(A 或G)与嘧啶碱基Y(C或T)(2)按环中对应位置上是否存在氨基或酮基,可分为:氨基碱基M(A或C)与酮基碱基K(G或T)从生物学的角度,在双螺旋结构中,按碱基对形成氢键的数目或强弱,碱基又可分:强氢键碱基S(G或C)与弱氢键碱基W(A或T),这一种划分既包含了化学的也包含了DNA双螺旋的结构信息在内.参照基本粒子理论中的做法,我们利用三维Euclid空间中的对称几何图形——立方体G来表示碱基的上述三种对称性.如图1.2所示,以G的中心为坐标原点建立三维直角坐标系,使G 的三组对面分别与三条坐标轴相垂直.分别与X ,Y ,Z 轴相交的G 的三组对面称为嘧啶/嘌呤面,酮基/氨基面,弱氢键/强氢键面.在G 的六个面中各引一条对角线,使相对面的对角线两两相互垂直,如图1.2所示.在嘌呤面对角线的两端分别标上A 和G ;在嘧啶面对角线的两端分别标上C 和T ,如图1.2所示.显然,此时上述碱基的三种对称关系全部自动成立.而且,六条对角线刚好是正四面体ACGT 的六条棱.图1.2 用立方体表示碱基的三种对称性现在考察一个长为L 的单链DNA 序列,阅读方向不限.从第一个碱基开始,依次考察此序列,每次只考察一个碱基.当考察到第n 个碱基时(n =1,2,…,L ),统计一下从1到n 这个子序列中四种碱基各自出现的次数,并以A n 、C n 、G n 、T n 分别表示4种碱基A 、C 、G 、T 出现的次数,如图1.3所示.显然它们都是非负整数.根据正四面体的对称性我们可以证明,正四面体内存在唯一的一个点P n 与这四个非负整数一一对应.在图1.3所示建立的坐标系之下,点P n 的坐标可用四个非负整数来表达. X n =2(A n +G n )-n ,Y n =2(A n +C n )-n ,Z n =2(A n +Tn )-n ,X n ,Y n ,Z n ∈[-n ,n ],n =1,2,…,L ;其中X n ,Y n 和Z n 为点P n 的三个坐标分量.当n 从1到L 时,我们依次得到P 1,P 2,…,P L 共L 个点.将相邻两点用适当的曲线连接所得到的整条曲线,就成为表示此DNA 序列的P -曲线.可以证明,P -曲线与所表示的DNA 序列是一一对应的,也就是说,给定一定DNA 序列,存在唯一的一条P -曲线与之对应;反之,给定一条P -曲线,可以找到唯一的一个DNA 序列与之对应.换言之,P -曲线很大程度上包含了DNA 序列的内蕴信息.P -曲线471期吕金翅等:DN A 序列分类的数学模型48数 学 的 实 践 与 认 识31卷图1.3 D NA序列示意图是与符号DNA序列等价的另一种几何表现形式.我们的核心想法就是通过对P-曲线的研究来挖掘DNA序列的内蕴信息.P-曲线的三个分量都具有明确的生物学意义:X n表示嘌呤/嘧啶碱基沿序列的分布.当从1到n这个子序列中嘌呤碱基多于嘧啶碱基时,X n>0;否则X n<0;当两者相等时X n =0.同样,Y n表示氨基/酮基碱基沿序列的分布.当在子序列中氨基碱基多于酮基碱基时, Y n>0;否则,Y n<0;当两者相等时Y n=0.Z n表示强/弱氢键碱基沿序列的分布.当弱氢键碱基多于强氢键碱基时,Z n>0;否则,Z n<0;当两者相等时Z n=0.由概率论中的结论:如果任何一种分布均不能由其他两种分布的线性叠加表示出来,则这三种分布是相互独立的.给定的DNA序列唯一的决定了这三种分布;这三种分布唯一的描述了DNA序列.我们对P n的三个坐标分量分别积分,发现Y n、Z n两个方向上并没有什么区别,而在X n 方向上,A组均大于零,B组均小于零.f(t)=∫L0X n(t)d t这表明在整个序列上不同结构的碱基对所占的成分,即A组嘌呤的含量较大,B组嘧啶的含量较大.以“X方向分量大于/小于零”为标准对给出的序列21~40进行分类,得到如下结果: A类:2,3,5,7,9,14,15,17,19;B类:1,4,6,8,10,11,12,13,16,18,20第二类数学模型:神经网络模型由于神经网络具有运用已知认识新信息,解决新问题,学习新方法,预见新趋势,创造新思维的能力,所以我们将神经网络处理问题的方法介入进来,处理模式分类的问题.在本题中,采用如下几种方案:1.单层感知机; 2.双层感知机; 3.改进型双层感知机.4.LVQ矢量量化学习对于每种算法我们又采用了三种统计方案,即:1.统计a c g t在DNA序列中出现的次数(共有4种)2.统计a c g t的两两组合在DNA序列中出现的次数(共有42种不同的组合)3.统计a c g t的三三组合在DNA序列中出现的次数(共有43种不同的组合)所以总共可以得到12种模式分类模型.下面给出详细讨论,但只列出12种方案中的四种,因为剩下八种只是在统计方案上有所不同,其训练实质和学习实质以及最后的模拟实质是相同的,所以不需要一一罗列.第一方案(单层感知机)1.综述:单层感知机是一个具有单层计算神经元的神经网络,并由线形域值单元组成.原始的Perceptron 算法只有一个输出节点,它相当于单个神经元.当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开. F.Rosenblatt 也已证明,如果两类模式是线形可分的(指存在一个超平面将它们分开),则算法一定收敛.感知器特别适用于简单的模式分类问题,也可用于基于模式分类的学习控制和多模态控制中.2.修正方案:首先分析问题实质,即采用一个单一神经元解决简单分类问题:将n 个输入矢量分为两类,其中一部分为1,另一部分为0.最后确定网络结构(图1.4):图1.43.训练算法:(采用单层感知机的经典算法,这里略去)判定网络收敛的标准有两种:一是平均平方误差,二是误差平方和.这里采用第二种.学习结束后的网络将学习样本模式以连接权的形式分布记忆下来.当给网络提供一输入模式时,网络将按上式计算出输出值y k ,并可根据y k 为1或0判断出这一输入模式属于记忆中的哪一种模式.4.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,再对20个序列(向量)进行重新模拟,其正确率为90%,发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.b)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行两次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.c)每次从20个已知结果的DNA 序列中随机选取不同的4个序列(向量)进行训练,共进行三次,再对20个序列(向量)进行重新模拟,其正确率为95%,依然发现出错的原因在于,第4个和第17个序列在这几种统计方式下具有相似性.5.结论:数据为线性不可分的,所以单层网络不能实现完全识别.6.优缺点分析:以上采用的是单个神经元的网络进行分类,其优点是运算速度快,但模式分类正确率较低.第二方案(双层感知机,即BP 网络)1.综述:BP 神经网络,由于含有隐藏层,所以可实现非线性分类.BP 算法属于 算法,491期吕金翅等:DN A 序列分类的数学模型是一种监督式的学习算法.2.算法推导:(略)3.网络结构(图1.5):图1.54.训练算法:由于其训练过程与学习过程相似,所以这里不再赘述.5.训练和模拟结果:与第一方案相似,只是分类正确率有所提高.7.结论:本题所给数据是线性不可分的,而且通过简单的模式分类也很难行得通,所以即使用多(双)层网络也难以实现完全识别.8.优缺点分析:以上采用的是多个神经元的带有一个隐藏层的网络进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第三方案(改进型双层感知机)1.综述:为了改进上述算法的不可完全识别的缺点,现在对网络进行改进,其目的是使网络可以对所有向量进行正确的分类.2.改进的方案:以提取更多的1分类信息为原网络结构与BP 神经网络相似,但随机感知机层的响应函数采用sigmo id 函数.3.训练算法:采用与BP 网络相同的训练算法.4.训练和模拟结果:(分类正确率有所提高,这里略去)5.结论:数据是线性不可分的,而且通过简单的模式分类也很难行的通,所以只是简单改进网络结构,是很难实现完全识别的.所以下面将采用其它方法(LVQ 矢量量化学习)进行模式识别.6.优缺点分析:以上采用的是改进型多个神经元的带有一个隐藏层的网络(也就是改进型BP 神经网络)进行分类,其优点是运算速度较快,且模式分类正确率较高,但依然存在不可完全识别的问题.第四方案(LVQ 学习向量量化)1.综述:学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.竞争层将自动学习对输入向量进行分类,这种分类的结果仅仅依赖于输入向量之间的距离.如果两个输入向量之间特别相近,竞争层就把他们分在同一类.50数 学 的 实 践 与 认 识31卷2.训练算法:(采用经典算法这里略去)3.训练和模拟结果:(分类正确率有所提高,这里略去)4.要想从网络角度和学习算法上调整,使得对已有的数据进行正确分类,必须进行大规模学习,但是如果对所有的样本进行训练再检策网络分类能力,其可信服程度就大大降低了.所以最后将采用改进网络输入的办法,即结合生物学结论.5.优缺点分析:可靠性较高,但算法复杂度较大.第五方案:仅从神经网络结构上的角度考虑,我们发现很难找到一个很好的网络,所以将结合生物学重建神经网络.引用生物学的结论,我们将输入模式变为100*4,其中4表示从20个已知样本中随机抽取4个样本.100表示(A +G )含量的输入序列.采用BP 神经网络结构.训练方案采用方案二中的误差逆传播算法.训练和模拟结果:a)从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,再对20个向量进行重新模拟,其正确率为95%(较单层感知机有所改进,但与BP 网络和LVQ 向量量化学习是相同的),发现出错的原因是由于学习不充分造成的.其本质是第4组数据和第17组数据可分性不好,所以反应到网络上其可学习性又较大;但如果学习不足,则会导制误判,所以应加大学习力度.b )每次从20个已知结果的DNA 序列中随机选取不同的4个向量进行训练,共进行两次,在对20个向量进行重新模拟,其正确率为100%.这次的结果充分说明了上述问题.结论:目前的方法已很好的解决了分类的问题,所以如果加大训练力度可以对其它数据进行正确率更高的分类.我们对网络进行了100次随机抽取,每次抽取的结果均进行训练,最后对40个数据进行模拟,发现前20个数的输出完全正确,而且发现误差曲线也是十分好的,所以有理由认为这个结论的正确性.模拟结果序列21~40为:A 类:22,23,25,27,29,34,35,37,39;B 类:21,24,26,28,30,31,32,33,36,38,40第三类数学模型:二维随机游动模型以四种碱基分别代表复平面上四个不同的方向,顺序读取DN A 序列,得到一条由原点出发的每次向相应方向移动单位长度的轨迹.发现曲线明显地向两个相反的方向收敛(图1.6)(略).我们依此建立如下的数学模型:设DNA 序列长为L ,记A n ,G n ,C n ,T n 为1到n 这个子序列中碱基A ,G ,C ,T 所出现的次数,令P n 为复平面上的点,且P n =A n +G n i -T n -C n =(A n -T n )+i (G n -C n )=r n e i n ,其中r n =(A n -T n )2+(G n -C n )2, n =A rgP n , =1L ∑Lk =1 K 假设n =0时,A n =G n =C n =T n =0,当n 从0到L 时,在复平面上便得到了L +1个点,并且得到了从原点出发的一条游动轨迹.鉴于幅角信息的突出重要地位,我们依此对DNA 序列进行分类,为了避免那种螺旋轨511期吕金翅等:DN A 序列分类的数学模型迹我们假设DNA 序列可分类,当且仅当 p ∈N ,s.t.当n >p 时∑n i =1i 保持定号.模型一:对20个参数已知的DNA 序列,分别求出其相应的游动方程P n =(A n -T n )+i (G n -C n ),设 ij ,k 为第i 类第j 个DNA 序列的Arg P K i j=1L ∑L k =1 i j ,k ,j =1,2,…,10,i =1,2.在每一类中求出 i min =m in 1≤j ≤10 i j , i max =m ax 1≤j ≤10i j ,从而得到每个类的辐角特征区间[ i min , i max ].如果[ 1min , 1max ]∩[ 2min , 2max ]= ,则对任意DNA 序列,若可分类,则满足 ∈[ i min , i max ]的属于第i 类;否则,不可分类.显然,这时存在着不可分类的情形,这主要是由于我们从DNA 序列样本中提取了两类游动在辐角上的趋势信息并将作为我们进行分类的标准.这一点,在模型二中得到了改进.而实际上L 总有限,前面关于可分类的假设是基于对游动辐角变化总体趋势的一种控制,对于有限而言,对此也有刻画即 p ∈N s.t.当n >p ,辐角保持后续信息.模型二、上面模型一提取了DNA 序列的最本质的辅角特征,这里我们假设各类的DNA 序列的 在如下变换后满足正态分布.首先辐角值可以与复平面中的圆周上的点建立自然的对应关系,并且圆周挖去一点之后同胚于实直线,为方便起见,投影后的点仍用原来的字母表示,从{ i j ∶1≤j ≤10}可得均值 i 和方差 i 及在第i 类的概率密度函数为p i ( )=12ie -( - i )2.任给一个DNA 序列, 它属于第i 类的概率:P i ( )=lim →0+∫ + - p i ( )d ∫+ - [p 1( )+p 2( )]d =p i ( )p 1( )+p 2( )以概率0.5为阀值,如p i ( )〉0.5,则属于第i 类.下面再用区间估计法给出结果在统计意义上的可信度,设n 个相互独立的样本X i ~N (a , 2),i =1,2,…,n ,令Z =(X 1+X 2+…+X n )/n ,则Y =(Z -a )/( 2/n )1/2~N (0,1),但 2未知,必须先把它估计出来,用Sn 2=[(X 1-Z )2+(X 2-Z )2+…+(X n -Z )2]/(n -1)代替 2,(Z -a )/(Sn 2/n )1/2=(Z -a )( 2/n )-1/2/(Sn 2/ 2)1/2=Y /(S n 2/ 2)1/2,因Y ~N (0,1),(S n 2/ 2)1/2={[(X 1-Z )/ ]2+[(X 2-Z )/ ]2+…+[(X n -Z )/ ]2}/(n -1)~ 2(n -1),因而t =(Z -a )/(S n 2/n )1/2~t (n -1),这里要求Y 与(Sn 2/ 2)1/2相互独立.于是给定 后,查表t (n -1)可得t *,使得P r ( t ≤t *)=1- ,即P r ( Z -a /(S n 2/n )1/2≤t *)=1-,从而我们便得到了a 的1- 水平上的置信区间为[Z -t *S n /n 1/2,Z +t *S n /n 1/2].现在共有10个已知样本点X 1,X 2,…,X 10,为了保证Y 与(Sn 2/ 2)1/2相互独立,现将这10个样本点等分成两组这样便得到Z =(X 1+X 2+…+X 5)/5,Z ′=(X 6+X 7+…+X 10)/5,Y =(Z -a )/( 2/5)1/2,S 52=[(X 6-Z ′)2+(X 7-Z ′)2+…+(X 10-Z ′)2]/(5-1),t =(Z -a )/(S 52/5)1/2,依前所述给定 ,我们可得a 的1- 水平上的置信区间为[Z -t *S 5/51/2,Z +t *S 5/51/2].由该模型可以看出曲线的趋向正代表着序列中所含对应元素的整体含量和分布.当基因序列中所含的非特征随机信息较多时,会导致游动曲线螺旋摇摆情形,从而导致前进距离52数 学 的 实 践 与 认 识31卷变短,但是由随机信号在各方向上的平均性,总体前进方向并未受到影响,故我们只提取方向而忽略距离作为特征信息.我们从不同角度,提取序列整体上和局部之间的特征,建立了以上三种数学模型.三种模型各有优劣,但他们在特征提取,模式识别和分类上的都具有一定的普适性和优越性.参考文献:[1] 郝柏林,刘寄星.理论物理与生命科学.上海科学技术出版社.[2] 金冬燕,金 奇,侯云德.核酸和蛋白质的化学合成与序列分析.科学出版社.The Mathematical Models on the Classificationof The DNA SequencesLU Jin-chi, M A Xiao-long , CA O Fang(T he U niver sity o f Science and T echnolog y o f China ,Hefei 230026)Abstract : T his paper deals w it h the pr oblem of ho w to classify t he D NA sequences fro m thr ee different ang les and acco rdingly est ablishes three kinds of mo dels.F irstly ,on t he point of bio lo gical backg ro und and g eomet rical symmetr y ,we established adescr iptiv e model o f 3-dimensional space cur ve on the DN A sequence ,by w hich we g ot a r udimentar y mathematical m odel-Calculus mo del.T hr oug h the integr ation o f the model funct ion,w e have acquir ed the classificatio n r esults o f t he DN A sequences fr om 1t o 20,and fo und t hem identical to the classificatio n results g iv en by the pro blem .T hen we classified t he latter 20DN A sequences.T hen,on the v iew of the ar tificial neur al netw o rks,a second model -T he A r tificial neur alnetw or ks model wa s est ablished.We cho sen t hr ee kinds o f basic netw or ks,w hich w ell fit into the classificatio n at last .And by the same tim e ,w e pro posed the impr o vement of the BP net wo rk ,and finally pro cur ed co mparatively ideal classificat ion r esults by va rio us training pro g rammes.also ,w e fo und the result s identical to what we hav e go t by Calculus mo del.By the end,we endow ed A ,C ,G ,T w ith g eomet rical m eaning :A indicates r ig ht,while C asdow n ,G as up ,T as left .We g o t a mo bile cur ve fr om each sequence w it h the po ints o f the plain mo ving acco rding t o the contr olling of the DN A sequence.By fo llow ing the feat ur e of the mov ing direction,t he m odel funct ion w as established.By the w ay w e acquir ed the classificatio n r esults o f the latter 20DN A sequences and fo und them pr actically identical to the r esults o f the two abov e mo dels (One of results differ ent ly sho wed in this mo del is r egar ded as indiv isible ).T his model contains mo re info rma tio n,and is mo re stable.531期吕金翅等:DN A 序列分类的数学模型。
DNA序列分类模型重庆市数学建模竞赛一等奖王勇, 莫志锋, 秦力顼(1999级自动化学院)[摘要]本文根据题中所给两个已知类别的DNA序列进行结构特征分析,从中提取信息和构造分类模型,对未知类别的DNA序列进行分类。
我们构造了三个分类模型,它们分别是:特征密码子概率分布判别模型、图论最小生成树模型和向量空间直观判别模型。
后两种分类结果几乎一致,判别率在90%左右,误判率控制在(0.05-0.1)范围。
问题一结果为:模型一的结果:A类有7个:22,23,27,29,34,35,37;B类有10个:21,24,26,28,30,31,32,33,38,40;不能判断的有3个:25,36,39;模型三的结果:A类有10种:22,23,25,27,29,34,35,36,37,39;B类有10种:21,24,26,28,30,31,32,33,38,40;问题二结果为:模型二的结果:A类有108个,B类有74个。
具体情况见文中答案。
模型三的结果:A类有120个,B类有62个。
具体情况见文中答案。
我们还对三种分类方法进行了类比,认为模型二、三方法新颖独特,结果稳定,它们是一种较好的分类方法。
并且对各种计算结果进行误差分析和检验等工作。
一、问题的重述本问题为一个DNA序列分类问题。
假定已知两组人工已分类的DNA序列(20个已知类别的人工制造的序列),其中序列标号1—10 为A类,11-20为B类。
要求我们从已经分类了的DNA序列片段中提取共同特征构造分类方法,并评价所用分类方法的好坏,从而构造或选择一种较好的分类方法。
测试对象是20个未标明类别的人工序列(标号21—40)和182个自然DNA序列。
二、模型的假设及符号说明1、名词解释:碱基:在生物学中,用A,T,C,G四个字符代表组成DNA序列的四种碱基;密码子:在遗传学中每三个碱基的组合被称为一个密码子,可以编码一个氨基酸,共有64个,还可以由密码子组成20个氨基酸。
DNA序列分类模型DNA序列分类模型摘要本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。
首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。
计算人工DNA序列的特征量,给出各序列的统计数据。
其次用聚类分析延拓模型进行分类。
用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。
再对选取的特征变量进行改进,提高模型的分类效果。
最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。
再次用马尔可夫模型进行分类。
将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。
再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。
最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29,30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。
182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。
基于数学建模方法对DNA序列分类的探究摘要运用模糊聚类数学建模方法对DNA序列进行分类。
对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵比较方法进行DNA序列分类。
关键词模糊聚类分析;DNA分类;数学建模中图分类号O242 文献标识码 A 文章编号1673-9671-(2012)052-0202-021 概述2000年6月,人类基因组计划中DNA全序列草图完成。
DNA序列由A、T、C、G4种碱基按一定规律排列而成。
当前生物信息学最重要的课题之一是研究由这4种碱基排列成的序列中蕴藏的规律。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究其规律性和结构。
现已知20个人工序列1~10属于A类,11~20属于B类,要求运用数学建模方法发掘已知类别DNA序列的特征,从而据此对未知类别的20个DNA序列进行分类。
本文对T和G碱基在各DNA序列中所占的比例数据进行标准化处理,放大两类DNA序列的差异,采用模糊相似矩阵,模糊等价矩阵,λ截矩阵方法对DNA序列进行分类。
2 模糊聚类分析模型2.1 主要研究步骤通过观察发现,A类DNA序列中G碱基含量较多,T碱基含量较少,而B 类DNA序列则刚好相反。
所以可用这20条DNA序列中T和G碱基在自身序列中所占的频率作为基本研究对象,并对T、G碱基所占的比例的原始数据进行标准化,放大差异。
再建立相应的模糊相似矩阵,模糊等价矩阵和λ截矩阵,找出一个最优的λ值进行DNA序列分类并使分类准确度达到最高。
最后用上述方法以及λ值对另外20个未明类别的序列进行分类。
2.2 原始数据标准化先对T和G碱基频率作标准化处理。
平移—标准差变换(i=1,2…,20;j=2,4)其中xi是第i个DNA序列,x’ij是指碱基A,G,C,T在第i个DNA序列中出现的频率,x”ij是对x’ij进行标准化后的标准频率值,,,(j=2,4)。
dna分子的数学模型
DNA是生物体内最基本的遗传物质,是遗传信息的携带者。
对于
人类来说,理解DNA的结构和功能是关键的科学研究之一。
在数学上,DNA也被建立了很多的模型,以揭示其内在的结构和特点。
首先,DNA分子可以被建立为线性链,其中每一个单元是一种特
定的核苷酸。
在这个模型中,我们可以用数学公式描述出这个线性链
的形状和运动状态。
此外,越来越多的研究人员采用较新的方法,如
纳米科技和单分子成像技术,来获得DNA的更多信息。
另外一个重要的DNA数学模型是DNA的二级结构。
这个结构包括
了两个核苷酸链相互缠绕形成的双螺旋的形态。
在这个模型中,我们
可以用数学公式描述出双螺旋的形状和结构,以及核苷酸之间的距离
和角度等特征。
除此之外,还有很多其他的DNA数学模型,如DNA序列分析模型、三维DNA模型等等。
这些模型都能够对DNA的科学研究和应用起到促
进作用。
例如,在基因编辑和疾病预测等领域,DNA数学模型的应用将有助于科学家在基因工程和医学治疗上取得更好的进展。
总之,DNA数学模型在现代生物技术研究中扮演着不可或缺的角色。
它们揭示了DNA分子的结构和特点,为我们深入了解生命的奥秘
提供了帮助,同时也为未来的基因工程和医学治疗提供了重要的科学
依据。
用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。
近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。
本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。
通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。
关键词:DNA序列、Fisher判别法、判别函数、错判率。
一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。
在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。
对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。
2.问题有20个已知类别的人工序列:A类,B类。
1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。
2)具有给予未知类别的DNA序列分类的功能。
3)能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。
DNA序列分类模型DNA序列分类模型毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:日期:学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:日期:年月日导师签名:日期:年月日注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)原创性声明3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论7)参考文献8)致谢9)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3)毕业论文须用A4单面打印,论文50页以上的双面打印4)图表应绘制于无格子的页面上5)软件工程类课题应有程序清单,并提供电子文档5.装订顺序1)设计(论文)2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订3)其它摘要本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。
首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。
计算人工DNA序列的特征量,给出各序列的统计数据。
其次用聚类分析延拓模型进行分类。
用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。
再对选取的特征变量进行改进,提高模型的分类效果。
最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。
再次用马尔可夫模型进行分类。
将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。
再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。
最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29,30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。
182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。
关键词DNA序列分类聚类分析延拓法Lance和Williams距离马尔可夫法一、问题重述1.1题目背景(1)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
(2)这本“天书”是由4个字符A,T,C,G按一定顺序排成的无间隔的长约30亿的序列,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少。
因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
(3)为解读这部“天书”,首先要研究DNA全序列具有什么结构,以及由这4个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的课题。
1.2题目信息(1)DNA序列分为编码区与非编码区。
编码区是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。
(2)在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。
(3)利用统计的方法还发现序列的某些片段之间具有相关性。
这些发现说明DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列有十分重要的意义。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
1.3题目要求(1)有20个已知类别的人工制造的DNA序列(见附件1),其中序列标号1—10 为A类,11-20为B类。
从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。
(2)用(1)中的分类方法对另外20个未标明类别的人工序列(见附件1,标号21—40)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A类或B类,无法分类的不写入)。
要求详细描述所选的分类方法,给出计算程序。
若论文中部分地使用了现成的分类方法,应将方法名称准确注明。
(3)已知182个自然DNA序列(见附件2),它们都较长。
同样用以上所选的分类方法对它们进行分类,并根据分类效果对方法不断完善,像(2)中一样给出最终的分类结果。
二、名词解释1.编码区与非编码区:编码区是指DNA上编码蛋白质的序列片段,而非编码区不用于编码蛋白质。
2.聚类分析:由已知数据,计算各个观察个体或变量之间亲疏关系的统计量。
再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类的分类方法。
其中,对样品所作的分类为Q-型聚类,对变量所作的分类为R-型聚类。
3.相似性度量:对数值型数据而言,两个个体的相似度是指它们在欧氏空间中互相邻近的程度;而对分类型数据而言,两个个体的相似度与它们取值相同的属性的个数有关。
4.样品:每个观察个体即每条DNA序列为一个样品。
5.样品变量:每个样品所具有的不同特征用不同的变量来表示,变量数等于特征数。
6.碱基丰度:每条DNA序列中碱基A、G、C或T出现的频率。
三、问题分析DNA序列分类问题要求在对DNA序列的一些规律和结构有所了解的基础上,从20个已知类别的人工制造的DNA序列中提取特征,构造分类方法,并用所选择的分类方法对其余未知类别的20个人工制造的DNA序列以及182个自然DNA 序列进行分类。
3.1建模目标的分析DNA序列分类是一个复杂的统计分析问题,数据量大,影响因素多,无法直接从20条已知类别的人工制造的DNA序列中提取出所有的有效特征,因此有必要对这20条DNA序列进行预处理。
观察并分析数据预处理结果,归纳总结出A类和B类的有效特征,将其表示成适当的数学对象,并选择适当的分类方法,建立普遍意义下数学模型,再用得到的模型对其余未知类别的20个人工制造的DNA序列以及182个自然DNA序列进行分类。
由题意,建立的数学模型应该保证分类结果具有以下特点:(1)类别间差异尽量大;(2)类别内差异尽量小;(3)样品能够尽可能的落入A、B范围,且只能落入其中的一个。
3.2建模及求解方向1.分析已知类别的DNA序列1-20的结构,提取出相应的特征。
主要的特征有:碱基的丰度、碱基或碱基序列的重复出现情况、碱基或碱基序列之间的相邻情况、不同碱基的丰度之比(如碱基A与碱基T的丰度之比)等。
2. 根据提取出的特征,选用合适的分类方法。
对数据进行预处理后,尝试以下方法建立模型:(1)根据聚类分析法,建立模型一。
由题意,DNA序列分类属于对样品所做的分类,为Q-型聚类。
首先引入样品变量,例如可选择碱基T的丰度、碱基G的丰度、碱基T与碱基G的丰度之比、碱基A与碱基T的丰度之比等。
由已知数据,计算出每条已知类别的人工制造的DNA序列的各个样品变量值,存入向量中。
根据相似性度量原理,计算20个样品两两之间的Lance和Williams距离,选择相距最远的两个样品(假设为样品3和样品16)分别作为A类和B类,再分别以样品3和样品16为标准点,通过分别计算样品3和样品16与其余18个样品之间的Lance和Williams距离,找出与其相距最近的一个样品(假设为样品1和样品18)归为一类。
此时,新的标准点变为样品1与样品3的中点、样品16与样品18的中点。