- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、蛋白质的序列分析
1. 蛋白质序列信息的获取 2. 蛋白质序列分析
这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ ) BLOCKS 是通过一些高度保守的蛋白质区域比对出来
的无空位的片段。
➢ 蛋白质结构域数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库 Pfam( protein families database of alignments and HMMs)
(3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子 进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个 参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这 些结构域又在系统进化树分布、功能分类、三级结构和重要 的功能残基方面做了注解。 http://smart.embl-heidelberg.de/
• PROSITE 中涉及的序列模式包括酶的催化位点、配体结合 位点、金属离子结合位点、二硫键、小分子或者蛋白质结合 区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱 ( profile) , 能更敏感地发现序列中的信息。
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包 含 PROSITE 数据库中的序列模式或者SWISSPROT 数据库中已提交的序列模式;
蛋白质数据库特征:
• 这些数据库种类有差别, 但内部是相互联系的.
• 每个数据库都有指针指向其他数据库, 而且数据 库之间的序列以及相应的结构是共享的, 同一种 蛋白质依次会出现在不同的数据库.
• 这样的数据沟通有助于更深层地挖掘蛋白质的 内在生物信息, 这些数据库是融序列信息的索取、 处理、存储、输出于一身的。
4.蛋白质结构分类数据库
(1) CATH 数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、 分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点 和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、 序列变异体等信息。
2. 模体以及结构域数据库
➢ 模体数据库
(1)PROSITE 蛋白质家族及结构域数据库 ( www.expasy.org/prosite/ )
• PROSITE 数据库收集了有显著生物学意义的蛋白质位点序 列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属 性快速可靠地鉴定出wk.baidu.com个未知功能蛋白质序列属于哪个蛋白 质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过 搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分 析数据库。
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网 址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
3. 蛋白质结构数据库
PDB( protein data bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病 毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结 构研究的研究机构, 并由RCSB 维护和注释。
② MotifScan 用于查找未知序列中所有可能的已知结 构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
模体数据库
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数 据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序 列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
关于蛋白质的序列 分析及结构预测
DNA sequence Protein sequence Protein structure Protein function
一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计
一、蛋白质数据库介绍
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构 以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些 数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数 据库主要收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质 的结构测量数据为主; 4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中 有以序列比较为基础的序列分类数据库以及以结构比较为基 础的结构分类数据库之分。