计算生物学重点.含答案doc2
- 格式:doc
- 大小:153.22 KB
- 文档页数:4
名词解释(共21分,每小题3分):
Motif:DNA、蛋白质等生物大分子中的保守序列。
部分酶切:将样本DNA在有限的时间内进行酶切,结果,在某个概率下,任意两个(不一定是相邻的)位点间的区段可能没有发生酶切,因此会生成任意两个限制酶切位点间的片段。
贪婪算法(登山法):根本思想是逐步到达山顶,即逐步获得最优解,是解决最优化问题时的一种简单但适用范围有限的策略。贪婪算法的理想结果就是通过反复的将第i个元素移动到第i个位置上来不断的增加prefix(p) 值。在每次迭代中寻找最有吸引力的那项。
无根树:只是标注出在节点之间的关系,没有显示在进化上有直接的关系。有根树:不仅表示出生物类群的亲疏,而且反映出它们有共同的起源及进化方向。即树中有共同祖先。
汉明距离:dH(v,w)是两序列v和w比对时,不一致的核苷酸数目。
有向无圈图:
Open reading frame:mRNA从5'至3'方向,SD序列后第一个AUG开始至终止密码子,可称为一个开放读码框架,读码框架内每3个碱基组成的三联体,就是决定一个氨基酸的遗传密码。
熵Entropy:多重序列中,每种字符在每一列中出现的频率。
Intron:
exon :真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
限制性酶切图谱:限制性酶切图谱即DNA分子限制酶切位点图。
穷举搜索算法:即强力算法,检测各种可能的途径从而求解。只在少数情况下实用; 通常是不切实际,难以实现的
大O记号:描述一个算法的运行时间
缺口罚分联配:
反序排序法:给定一个排列, 找到一个能将此排列变成恒等排列的最短的反序序列。
序列相同的百分比:两条氨基酸或核酸序列相似的程度
保守序列:氨基酸的改变倾向于保持原有残基的物化性质。
基因: 编码蛋白质的核苷酸序列
基因预测问题: 预测基因在基因组中位置的计算问题
选择题(共20分,每小题2分);填空题(共14分,每空1分)
矩阵和数组的加、减、乘、除;矩阵中元素的引用,绘制不同图形使用的函数,什么是for, while循环等等。
给定序列t条,如何计算剖面矩阵得分,汉明距离。
什么是反序排序,断点。
在任何相邻的不连续的元素之间存在断点breakpoint
若ρ=8为引入缺口罚分,σ=2为缺口中每个字符的罚分,则序列中5个连续的单字符缺口罚分之和为18 。
蛋白质序列比较的常用得分矩阵有PAM 和BLOSUM 。
菲波那契问题中第8个菲波那契数F(8)是21 。
计算题(共30分,每小题10分);论述题(共15分)
1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10, 11, 12}
求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。
2. 1.考虑部分酶切,,以下为已知的任意两个酶切位点之间片段的长度集合L={1,1,1,2,2,3,3,3,4,4,5,5,6,6,6,9,9,10,11,12,15}
求解L的部分酶切问题(即寻找△X=L的X),即酶切图谱上所有酶切位点的位置的集合,包括开始和结束。
2.现有两条序列分别是v = TACGGGTGA和w=GGACGTACG,假设匹配得分=1,错配得分=-2,空位罚分=-1,利用动态规划算法对这两条序列进行全局比对,画出对应于计算过程的得分矩阵及最优路径,并给出这两条序列最终的比对结果。
3.现有两条序列v = TACGGGTGA和w=GGACGTACG,假设匹配奖励为+1,错配罚分为-2和插缺罚分均为-1.填写序列v和w之间的局部联配的动态
规划表。并给出这两条序列局部比对的最终结果。
5.利用反序设计一个排序基因组的近似算法(即将它变换成恒等排列)(书写伪代码),并估计该算法的性能保证。
性能保证max|p| = n A(p) / OPT(p)
6.对于发现基序和寻找中间字符串问题,穷举搜索法/分支定界法/贪婪算法/动态规划法需要运行的时间(即算法复杂度)分别是多少?各方法的优缺点是?
分支界定法:
3.给定一棵树T,其每片叶子是由4个字母(A T C G)所标记,4×4阶的可加权得分矩阵如下表,求解树T最小化加权简约得分的内部顶点的标记。
A T G C
A 0 4 7 6
T 4 0 6 8
G 7 6 0 9
C 6 8 9 0
A T G C
2.给定一个4×4阶的可加距离矩阵D ,求解一棵符合D 的含有4片叶子的
A T G C