关于蛋白质的序列分析及结构预测

格式：ppt
大小：5.23 MB
文档页数：139

下载文档原格式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
蛋白质数据库特征:
• 这些数据库种类有差别, 但内部是相互联系的.
• 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库.
• 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
（2）SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
（1）PROSITE 蛋白质家族及结构域数据库 ( www.expasy.org/prosite/ )
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出wk.baidu.com个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。
② MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
1. 蛋白质序列数据库
（1）PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
关于蛋白质的序列分析及结构预测
DNA sequence Protein sequence Protein structure Protein function
一、蛋白质数据库介绍二、蛋白质序列分析三、蛋白质结构预测四、应用分子设计
一、蛋白质数据库介绍
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 1. 蛋白质序列数据库：如PIR、SWISS-PROT、NCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库：如PROSITE、Pfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库：如PDB 等, 这些数据库主要以蛋白质的结构测量数据为主; 4. 蛋白质分类数据库：如SCOP、CATH、FSSP 等, 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。

关于蛋白质的序列分析及结构预测

合集下载

相关主题

文档推荐

最新文档