生物信息技术第三次作业
- 格式:doc
- 大小:117.00 KB
- 文档页数:5
UniProt 数据库检索及数据条目注释信息
1. UniProt 蛋白质序列数据库
1) 参阅Swiss-Prot 和TrEMBL 统计报表(Release Statistics ),列表说明这两个子库的
总数据量,以及不同蛋白质证据(Protein Existence )的数据条目数。
2) 列表说明Swiss-Prot 和TrEMBL 中数据条目数列前10位的物种,包括中文名、英
文名和拉丁文学名。
表1 Swiss-Prot 中数据条目数列前10位的物种
Swiss-Prot 中文名 英文名 拉丁文学名
1 智人 Human Homo sapiens
2 小家鼠 Mouse
Mus musculus
3 拟南芥 Mouse-ear cress Arabidopsis thaliana
4 大鼠 Rat
Rattus norvegicus
5 酿酒酵母 Baker's yeast Saccharomyces cerevisiae
6 牛
Bovine
Bos taurus
7 裂殖酵母 Fission yeast Schizosaccharomyces pombe 8 大肠杆菌 strain K12 Escherichia coli 9 枯草杆菌 strain 168 Bacillus subtilis
10 盘基网柄菌
Slime mold Dictyostelium discoideum
表2 TrEMBL 中数据条目数列前10位的物种
3) 列表说明以下已基本完成基因组测序的重要模式生物数据条目数总数N 、已审阅序
列条目数Nr 、具有蛋白质证据的序列条目数Np 、在参考序列数据库RefSeq 中具有mRNA 序列的序列条目数Nm 、在蛋白质结构数据库PDB 中具有结构的序列条
数据库子库 总数据量 Protein Existence 数据条目数 蛋白水平证据 转录水平证据 同源性推断
预测 不确定 Swiss-Prot 542782 82087 62272 380832 15705 1886 TrEMBL
54247468
22013 931313
13573938 39720204 0
TrEMBL 中文名
英文名 拉丁文学名
1 人类免疫缺陷病毒 HIV
Human immunodeficiency virus 1 2 未培养细菌 Uncultured bacteria
uncultured bacterium 3 智人 Human Homo sapiens
4 小麦 Wheat Triticum aestivum
5 粳稻
Rice Oryza sativa subsp. japonica 6 丙型肝炎病毒 HCV Hepatitis C virus 7 乙型肝炎病毒 HBV Hepatitis B virus 8 大豆 Soybean
Glycine max
9 宏基因组 mine drainage metagenome
mine drainage metagenome
10 二棱大麦
Two-rowed barley Hordeum vulgare var. distichum
目数Nb。
2.序列条目注释信息
1)以人血红蛋白alpha亚基为例,说明一般注释信息(General Annotation)主要包括
哪些内容。
亚基结构:两个alpha亚基和两个beta亚基的四聚体组成成熟的血红蛋白A;2个alpha亚基和2个deltal亚基的四聚体组成成熟的血红蛋白A2;2个alpha亚基和2个epsilon亚基的四聚体组成胚胎早期的的血红蛋白Gower-2;2个alpha亚基和2个gamma 亚基的四聚体组成胎儿期的血红蛋白F。
组织特性:血液红细胞。
转录以后修饰:起始的甲硫氨酸在各种thionville中没有裂开,并且进行乙酰化。
涉及的人类疾病
贫血(HEIBAN)[MIM:140700】:细胞非球形的Dacie类型1的溶血性贫血。脾脏切除后,几乎没有好转,红细胞中的嗜碱性的夹杂物被证明为海因茨小体。脾脏切除前分散或点状的嗜碱性粒细胞明显。大多数情况下可能是血红蛋白病的实例。血红蛋白呈现热不稳定性。海因茨小体也观察到与Ivemark综合征(无脾与心血管异常)和还原型谷胱甘肽过氧化物酶的缺乏。
注释:这类病可能是由于突变效应在基因中的表达。
Alpha-地中海贫血(A-THAL)[MIM:604131]:地中海贫血的一种形式。地中海贫血是常见的单基因疾病,主要在发生地中海和东南亚人口。alpha-地中海贫血的标志是一个失衡globin-chain生产成的人HbA分子。α链水平的产物的范围可以从没有到几乎正常的水平。删除两个α-珠蛋白基因的副本导致α(0)-地中海贫血,也称为纯合子的α地中海贫血。由于没有完整的α链,主要的胎儿血红蛋白四聚物的gamma链(Bart血红蛋白),基本上没有携带氧的能力。这将导致胎儿组织氧饥饿导致产前杀伤力或早期新生儿死亡。两个α基因导致的损失轻微alpha-地中海贫血,也称为杂合的alpha-地中海贫血。影响个人小红细胞和心肌梗死。假如四分之三的Alpha珠蛋白基因起作用,人基本就没有症状。很少的alpha-地中海贫血类型是由于突变引起的(非删除的alpha-地中海贫血)
血红蛋白H病(HBH)[MIM:613978]:一种alpha-thalassemia由于损失三个α基因。这
将导致高水平的四聚物的四种β链(血红蛋白H),导致严重和致命的贫血。治疗,大多数病人死在童年或者青春期的早期阶段。
注释:这类病可能是由于突变效应在基因中的表达。
其他信息:使血液呈现红色。
序列相似性:属于珠蛋白家族。
2)以人血红蛋白alpha亚基为例,说明序列特征注释信息(Sequence Annotation)主
要包括哪些内容。
序列特征注释信息(Sequence Annotation)包括一些重要序列信息的发生位点、序列长度、具体说明、图示以及特征识别。
具体重要序列信息包括分子处理如起始氨基酸的去除,重要位点如金属结合位点,氨基酸修饰位点如糖基化,自然突变位点,实验水平的一些信息,以及序列的二级结构。
3)以人血红蛋白alpha亚基为例,说明数据库交叉链接(Cross Reference)主要包括
哪些数据库。
序列数据库:Genbank EMBL DDBJ PIR Uni Gene RefSeq
3D结构数据库:PDB ProteinModelPortal SMR ModBase MobiDB
蛋白质相互作用数据库:BioGrid DIP IntAct MINT STRING
化学库:ChEMBL DrugBank
PTM数据库:PhosphoSite
二维凝胶数据库:SWISS-2DPAGE UCD-2DPAGE DOSAC-COBS-2DPAGE REPRODUCTION-2DPAGE
蛋白质组数据库:PRIDE PaxDb Peptide Atlas
协议和材料数据库:DNASU StructuralBiologyKnowledgebase
基因组注释数据库:Emsemble KEGG UCSC GeneID
物种特异数据库:CTD GeneCards HGNC HPA MIM
分子系统数据库:InParanoid KO OMA TreeFam
酶和通路数据库:Reactome
基因表达数据库:Bgee CleanEx Array Genevestigator
家族和结构域数据库:Gene3D InterPro PANTHER Pfam PRINTS
其他:EvolutionaryTrace Genewiki NextBio ChiTaRS PRO
3.数据库检索
1)写出从UniProt数据库中检索已审阅的人珠蛋白(globin)家族12个亚
基的步骤。列表说明这12个珠蛋白的登录号、蛋白质名称、和序列长度。
其中与血红蛋白alpha亚基差异最大的序列是哪个?相同位点百分比?
与血红蛋白beta亚基差异最小的序列是哪个?差异位点共多少个?
在UniProtKB中利用高级检索,依次增加Organism:human、ProteinFamily:globin两个限定条件后,选中reviewed的序列,即可出现库中已审阅的人珠蛋白家族的12个亚基。
登录号蛋白名称序列长度
P02008 血红蛋白δ亚基142
P69905 血红蛋白α亚基142