计算生物学重点.含答案doc2

  • 格式:doc
  • 大小:153.22 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名词解释(共21分,每小题3分):

Motif:DNA、蛋白质等生物大分子中的保守序列。

部分酶切:将样本DNA在有限的时间内进行酶切,结果,在某个概率下,任意两个(不一定是相邻的)位点间的区段可能没有发生酶切,因此会生成任意两个限制酶切位点间的片段。

贪婪算法(登山法):根本思想是逐步到达山顶,即逐步获得最优解,是解决最优化问题时的一种简单但适用范围有限的策略。贪婪算法的理想结果就是通过反复的将第i个元素移动到第i个位置上来不断的增加prefix(p) 值。在每次迭代中寻找最有吸引力的那项。

无根树:只是标注出在节点之间的关系,没有显示在进化上有直接的关系。有根树:不仅表示出生物类群的亲疏,而且反映出它们有共同的起源及进化方向。即树中有共同祖先。

汉明距离:dH(v,w)是两序列v和w比对时,不一致的核苷酸数目。

有向无圈图:

Open reading frame:mRNA从5'至3'方向,SD序列后第一个AUG开始至终止密码子,可称为一个开放读码框架,读码框架内每3个碱基组成的三联体,就是决定一个氨基酸的遗传密码。

熵Entropy:多重序列中,每种字符在每一列中出现的频率。

Intron:

exon :真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。

限制性酶切图谱:限制性酶切图谱即DNA分子限制酶切位点图。

穷举搜索算法:即强力算法,检测各种可能的途径从而求解。只在少数情况下实用; 通常是不切实际,难以实现的

大O记号:描述一个算法的运行时间

缺口罚分联配:

反序排序法:给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列。

序列相同的百分比:两条氨基酸或核酸序列相似的程度

保守序列:氨基酸的改变倾向于保持原有残基的物化性质。

基因: 编码蛋白质的核苷酸序列

基因预测问题: 预测基因在基因组中位置的计算问题

选择题(共20分,每小题2分);填空题(共14分,每空1分)

矩阵和数组的加、减、乘、除;矩阵中元素的引用,绘制不同图形使用的函数,什么是for, while循环等等。

给定序列t条,如何计算剖面矩阵得分,汉明距离。

什么是反序排序,断点。

在任何相邻的不连续的元素之间存在断点breakpoint

若ρ=8为引入缺口罚分,σ=2为缺口中每个字符的罚分,则序列中5个连续的单字符缺口罚分之和为18 。

蛋白质序列比较的常用得分矩阵有PAM 和BLOSUM 。

菲波那契问题中第8个菲波那契数F(8)是21 。

计算题(共30分,每小题10分);论述题(共15分)

1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10, 11, 12}

求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。

2. 1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1,1,1,2,2,3,3,3,4,4,5,5,6,6,6,9,9,10,11,12,15}

求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。

2.现有两条序列分别是v = TACGGGTGA和w=GGACGTACG,假设匹配得分=1,错配得分=-2,空位罚分=-1,利用动态规划算法对这两条序列进行全局比对,画出对应于计算过程的得分矩阵及最优路径,并给出这两条序列最终的比对结果。

3.现有两条序列v = TACGGGTGA和w=GGACGTACG,假设匹配奖励为+1,错配罚分为-2和插缺罚分均为-1.填写序列v和w之间的局部联配的动态

规划表。并给出这两条序列局部比对的最终结果。

5.利用反序设计一个排序基因组的近似算法(即将它变换成恒等排列)(书写伪代码),并估计该算法的性能保证。

性能保证max|p| = n A(p) / OPT(p)

6.对于发现基序和寻找中间字符串问题,穷举搜索法/分支定界法/贪婪算法/动态规划法需要运行的时间(即算法复杂度)分别是多少?各方法的优缺点是?

分支界定法:

3.给定一棵树T,其每片叶子是由4个字母(A T C G)所标记,4×4阶的可加权得分矩阵如下表,求解树T最小化加权简约得分的内部顶点的标记。

A T G C

A 0 4 7 6

T 4 0 6 8

G 7 6 0 9

C 6 8 9 0

A T G C

2.给定一个4×4阶的可加距离矩阵D ,求解一棵符合D 的含有4片叶子的

A T G C