Biology 版 (精华区)
发信人: lilyhua (1000), 信区: Biology
标 题: 第三课:生物信息学术语简介
发信站: 哈工大紫丁香 (2003年05月14日21:18:57 星期三), 站内信件
第三课:生物信息学术语简介
BLAST:Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种
快速查找与给定序列具有连续相同片断的序列的技术。
Entrez:美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与
其原始文献出处链接在一起。
NCBI:美国国立生物技术信息中心(National Center for Biotechnology Informatio
n),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一
。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,Pub
Med医学文献检索数据库等。
Conserved sequence:保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中
的氨基酸序列。
Domain:功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋
白质中所有功能域组合其起来决定着该蛋白质的全部功能。
EBI:欧洲生物信息学研究所(European Bioinformatics Institute)。
EMBL:欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。
GenBank:由美国国家生物技术信息中心提供的核酸序列数据库。
Gene:基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置
上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。
DUST:A program for filtering low complexity regions from nucleic acid seque
nces.
Gene expression:基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过
程。
Gene family:基因家族。一组密切相关的编码相似产物的基因。
Gene mapping:基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确
定的过程。
Genetic code:遗传密码。以三联体密码子形式编码于mRNA中的核苷酸序列,决定着所
合成蛋白质中的氨基酸序列。
Genome:基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱
基对总数表示。
Genomics:基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关
系的研究。
HGMP:英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。
Informatics:信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组
计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和
从DNA序列数据中预测蛋白质序列和结构方法的开发。
Physical map:物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因
等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理
图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。
Promoter:启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。
Proteome:蛋白质组。一个基因组的全部蛋白产物及其表达情况。
Regulatory region or sequence:调控区或调控序列。控制基因表达的DNA碱基序列。
Ribosomal RNA:核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。
Sequence tagged site:序列示踪位点,简写为STS。在人类基因组中只出现一次的位置
和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源
于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基
因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的S
TSs。
Single-gene disorder:单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜
兴肌营养不良和成视网膜细胞瘤等)。
UniGene:美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同
一条基因的所有片断拼接成完整的基因进行收录。
非蛋白质编码区:非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表
明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类
型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫
星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短
散置元(short interspersed elements)、长散置元(long interspersed elements)
、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非
编码序列。
双重序列对比:两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的
软件如BLAST、FASTA等。
Autosome:常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,
其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。
sex chromosome.:包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模
体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋
白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠
群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAS
T是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代
型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAS
T 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如线
虫的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GT
P 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显
著同源或相似(其中含有P-loop保守区)。但PHI- BLAST搜索,另有一个显著同源(E=
0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋
白确实在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中
的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族
,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌
DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不
到的。
深层事项
后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。
1 、序列、结构和功能
自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,
对此理解已有长足的深化。
同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序
列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不
相似(在序列与结构水平上)
酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。
例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶
。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定
功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属
于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。
何谓功能?功能有层次的:表型的,细胞的和分子的。
目前开始高层功能预测,分子相互作用、代谢途径和调控网络。
目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。
2 、结构基因组学中的生物信息学
希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作
用,一方面规划好测定的对象,另一方面可靠地模建结构。
3 、功能基因组学中的生物信息学
美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学
和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编
码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学
)。
蛋 白 质 组 学(Proteomics)
蛋白质组学研究的目的和任务
20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分
子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科
学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计用
15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平
上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(
基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划已经取
得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定
,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的形势下,科
学家们认为,生命科学已经入了后基因组时代。
在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体
水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(
Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千上
万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。
但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅
从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋
白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组
水平上获知。
正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研
究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白
质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Pr
oteome)为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相
应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双
向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而“蛋白质组”的名词则
是由Wilkins创造的,发表在1995年7月的Electrophoresis杂志上。
蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因
组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动
态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段
,在不同的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表
达模式,表现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不
同时间和空间出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息
,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就
更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数
目可能远大于一。对细菌,可能为1.2~1.3;对酵母则为3;而对人,可高达10。后基因组
和蛋白质组研究,是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部
分,无疑将成为21世纪生命科学研究的主要任务。
--
其实 我盼望的 也不过就只是那一瞬
我从没要求过 你给我 你的一生
如果能在开满了栀子花的山坡上 与你相遇
如果能深深地爱过一次 再别离
那么 再长久的一生
不也就只是 就只是回首时 那短短的一瞬
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.247.15]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.590毫秒