精华区文章阅读

发信人: lilyhua (1000), 信区: Biology
标题: 　　　　　　　　第一课概论
发信站: 哈工大紫丁香 (2003年05月14日21:17:27 星期三), 站内信件

第一课：概论
1.1 什么是生物信息学？
1.2 生物信息学----基因组研究的有力工具
1.3 人类基因组测序完成之后-生物信息学的科学目标
1.1什么是生物信息学？
　　以核酸、蛋白质等生物大分子数据库为主要对象，以数学、信息学、计算机科学为
主要手段，以计算机硬件、软件和计算机网络为主要工具，对浩如烟海的原始数据进行
存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息
的查询、搜索、比较、分析，从中获取基因编码、基因调控、核酸和蛋白质结构功能及
其相互关系等理性知识。在大量信息和知识的基础上，探索生命起源、生物进化以及细
胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题，搞清它们的基本规
律和时空联系，建立" 生物学周期表"。
　　生物信息学研究、开发的主要内容
　　构成和维持一个生活有机体所必备的基本信息包含于它的基因组之中，由细胞内进
行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分翻译成蛋
白和R NA，其它部分调控这些大分子的表达。翻译出来的蛋白及RNA折叠成高度专一的三
维结构，在体内的特定位置上实现它的功能。这些过程的大量细节都是在分子生物学研
究的实验室里揭示出来的，所形成的大量数据，存储于数据库中。生物信息学试图从这
些数据中提取新的生物学信息和知识，是一门深深植根于全面深入的实验事实和数据的
理论生物学。它的研究范围十分广泛，大体包括以下方面：基因组序列分析和解释、药
物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预
报、基因进化、基于遗传的流行病学等。
　　基因组序列的分析
　　在基因组测序的原始数据发表后，仍有许多信息研究需要开展，比如注释、同源性
分析、基因分类、基因结构分析等，这方面的研究需要建立较优化的数理统计模型，大
规模的数据库检索，模式识别和可视化等。
　　基因进化
　　根据多种生物的基因组数据及对垂直进化和平行演化的研究，可以对生命至关重要
的基因结构及它的调控进行研究，对此需要建立较完整的生物进化模型，用基因组的数
据来鉴别出环境因素对其进化的影响。这次研究成果应对生态环境，环境卫生提出指导
性影响，对研究生命起源也有科学意义。
　　药物设计
　　生物信息学所提供的数据资料，可以指导对药物作用靶位的选定和药物分子的设计
。这种方法有快速高效的特点，它的研究包括大分子结构功能的模拟和预报，药物分子
与大分子结合的模拟，关键性基因的致病机制，及生物分子同源性的分析，生物分子在
指定细胞的分布和位点等。
　　基因多态性分析
　　即使一个基因的序列已经确定，它只是有代表性的序列之一。在群体的分布中，仍
存在有基因的多态性。由于多态性的存在，生物表型及对环境、外源物和药物的反应即
不同。研究基因多态性可以对群体的基因共性及其中的基因个性( SNPs)都有明确的认识
。
　　基于遗传的流行病学研究
　　流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究
与分子基因信息结合起来，会导致对疾病的机理、个体对某种疾病的易感性和疾病在群
体中的分布有更明确的认识，对疾病的预防和治疗有极大的指导意义。
　　关键性基因签定
　　通过基因与生物表型、致病机制和其它生命现象之间的关联，可以发现一些至关重
要的基因，结合定向的生物实验，可以确认新的关键性基因。
　　基因产物功能预报
　　在确认了基因的基础上，通过与已知的基因产物的结构和功能、代谢途径和其它生
物功能对照，可以实现新基因产物功能的预报，结合定向的生物实验，可以证实预报的
功能。
　　完整基因组的比较基因组学
　　在后基因组时代，生物信息学家不仅有大量的序列和基因而且有越来越多的完整基
因组。有了这些资料人们就能对若干重大生物学问题进行分析。有的科学家估计不同人
种间基因组的差别仅为 0.1%；人猿间差别约为1%。但他们表型间的差异十分显著。因此
其表型差异不仅应从基因、DNA 序列找原因，也应考虑到整个基因组、考虑染色体组织
上的差异。
1.2 生物信息学----基因组研究的有力工具
　　什么是生物信息学？生物信息学（Bioinformatics）是一门新兴的交叉学科。很多
人会认为：生物信息学既涉及生物又涉及物理，一定是一个内容十分广泛的学科领域。
其实它的内涵十分具体，范围非常明确。生物信息学是伴随基因组研究而产生的，因此
它的研究内容就紧随着基因组研究而发展。
　　广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配
、分析和解释。这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就
是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。
　　具体地说，生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代
表蛋白质和RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破
译隐藏在DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及
其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。
　　生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能
的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，
最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。
　　基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传
信息传递的中心法则，因而必然有机地连接在一起。
　　为什么基因组研究需要依赖生物信息学呢？首先伴随着基因组研究，相关信息出现
了爆炸性增长，迫切需要对海量生物信息进行处理。自1995年科学家破译了全长为180万
核苷酸的嗜血流感杆菌基因组以来，到目前已有大约60个微生物和若干真核生物，如：
酵母、线虫、果蝇、拟南芥的完整基因组完成测序。至2001年的春天，科学家又公布了
人类基因组的绝大部分序列，即：人类基因组的工作草图。这些成就意味着基因组的研
究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库的统计，1999年12月DN
A碱基数目为30亿，2000年4月DNA碱基数目是60亿，现在这一数目已达140亿，大约每14
个月翻一番。同时，电子计算机芯片对于数字处理能力的增长也相当于每18个月翻一番
。因此，计算机能够有效地管理和运行海量数据。
　　但是，更为本质的原因是基因组数据的复杂性。所谓某种生物的基因组就是指该生
物所有遗传物质的总和。生物的遗传物质是一类称为脱氧核糖核酸（DNA）的生物大分子
，它是由4种核苷酸串接起来组成的，通常用字符A、T、G、C代表。通俗地说，生物的遗
传密码就是这4个字符连接起来的线状长链。这种链往往很长，比如：人的遗传密码就含
有32亿个字符，将它们堆起来就构成了一部100多万页、每页有3000字符的"天书"。这本
"天书"包含了人体的结构和功能以及生命活动过程的大量信息，却仅仅由4个字符组成，
既无词法，又无句法，还没有标点符号，看起来每一页都是相似的。如何读懂它是个极
大的难题。基因组研究最终是要把生物学问题转化成对数字符号的处理问题。要解决这
样的问题就必须发展新的分析理论、方法、技术、工具，就必须依赖计算机的信息处理
。
　　从事生物信息学研究应具备多方面的科学基础。首先，它需要一定的计算能力，包
括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交
流。要有发达、稳定的互联网络系统；同时，生物信息学需要强有力的创新算法和软件
。没有算法创新，生物信息学就无法获得持续的发展。最后，它要与实验科学，特别是
与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技
术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。因
此，从事生物信息学研究的人员也必须具备多学科交叉的知识。
　　我国生物信息学的研究和应用有一定的基础，因而有望取得突破性成果，这对于增
强我国在基础研究领域的实力，在某些方面占据国际领先地位是十分重要的。生物信息
学成果的应用也会产生巨大的社会效益和经济效益。
　　当前主要研究内容
　　一．获取人和各种生物的完整基因组
　　基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基，而
现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说，要得到人的全部遗传
密码首先要把人的基因组打碎，测完一个个小段的序列后再把它们重新拼接起来。
　　但是，我们很容易想象：如果把一本书撕成大小一样的碎片，就再也无法把它们重
新正确地拼接起来，这是因为撕的同时丢失了书的上下文联系。这该如何办呢？我们可
以取两本一样的书，按照不同的撕法把它们分头打碎。通过不同碎片互相参照，找到相
同的单词，就可以部分恢复书的上下文联系。撕的书越多，恢复的上下文联系也越多。
因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍，往往要测很多遍。比如
，今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道，它含有约29
亿碱基，其物理图谱覆盖率为96％，序列覆盖率为94％。有大于90％的连续序列群已大
于10万碱基；有约25％的连续序列群已等于或大于千万碱基。在这些序列中发现了3－4
万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。
要作到这一点就需要把几千万个小片段通过比对再连接起来，这就是常说的基因组序列
数据的拼接和组装。
　　在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样
与分析、碱基读出、载体标识与去除、拼接、填补序列间隙，到重复序列标识、读框预
测和基因标注，每一步都是紧密依赖生物信息学的软件和数据库的。其中，序列拼接和
填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据，而且在于它
含有高度重复的序列。为此，这一过程特别需要把实验设计和信息分析时刻联系在一起
。另一方面，必须按照不同步骤的要求，发展适当的算法及相应的软件，以应对各种复
杂的问题。国际上很多著名的基因组研究中心，都有自己的拼接和组装策略，并且这样
的工作都是在超级计算机上完成的。
　　有了完整基因组，人类对自身的认识就更为细致、更为精确。比如：发现在我们的
基因组中真正编码蛋白质（称为外显子）等的部分很少，只占1．1％；外显子与外显子
之间的区域（称为内含子）占了24％；而基因与基因之间的间隔序列却占了75％，也就
是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之
其它生物体的基因更为复杂，有更为丰富的剪接方式。发现基因组中片段重复现象很普
遍，这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定，而男性的第12号
染色体和女性的第16号染色体是易变的，等等。
　　二．发现新基因和新的单核苷酸多态性
　　发现新基因是当前国际上基因组研究的热点，使用生物信息学的方法是发现新基因
的重要手段。比如：啤酒酵母完整基因组所包含的约6000个基因，大约60％是通过信息
分析得到的。
　　（1）基因的电脑克隆利用EST数据库发现新基因也被称为基因的电脑克隆。EST序
列是基因表达的短cDNA序列，它们携带着完整基因的某些片段的信息。到2001年10月，
GenBank的EST数据库中人类EST序列已超过380万条，它大约覆盖了人类基因的90％以上
。
　　我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单，就
是找到属于同一基因的所有EST片段，再把它们连接起来。由于EST序列是全世界很多实
验室随机产生的，所以属于同一基因的很多EST序列间必然有大量重复小片段，利用这些
小片段作为标志就可以把不同的EST连起来，直到发现了它们的全长，这样我们就可以说
通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过，那我们就找到了一个新
基因。但是进行电脑克隆程序设计是复杂的，计算量是巨大的。
　　（2）从基因组DNA序列中预测新基因从基因组序列预测新基因，本质上是把基因组
上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在
编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进
行比较，就可以发现新的基因了。
　　发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂
志，人的第22号染色体数据已鉴定出679个基因，其中55％的基因是未知的。有35种疾病
与该染色体突变相关，像免疫系统疾病、先天性心脏病和精神分裂症。但是，要将人类
的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中，
依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的"整合
基因索引"及与之相关的"整合蛋白索引"。
　　（3）发现单核苷酸多态（SNP）有的人吸烟喝酒却长寿，也有人自幼就病痛缠身；
同一种治疗肿瘤的药物对一些人非常有效，对另一些人则完全无效。这是为什么？答案
是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异，也就是单核苷酸
的多态性（SNP）。
　　现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将
提供一个强有力的工具，用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测
试以及生物学的基础研究等。SNP在基因组中分布相当广泛，近来的研究表明在人类基因
组中每300碱基对就出现一次。大量存在的SNP位点，使人们有机会发现与各种疾病，包
括肿瘤相关的基因组突变；从实验操作来看，通过SNP发现疾病相关基因突变要比通过家
系来得容易；有些SNP并不直接导致疾病基因的表达，但由于它与某些疾病基因相邻，而
成为重要的标记。SNP在基础研究中也发挥了巨大的作用，近年来对Y染色体SNP的分析，
使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
　　三．基因组中非编码蛋白质
　　区域的结构与功能研究
　　近年来的研究表明，在细菌这样的微生物中，非编码蛋白质的区域只占整个基因组
序列的10％到20％。随着生物的进化，非编码区越来越多，在高等生物和人的基因组中
非编码序列已占到基因组序列的绝大部分。这表明：这些非编码序列必定具有重要的生
物功能。普遍的认识是，它们与基因的表达调控有关。
　　对人类基因组来说，迄今为止，人们真正掌握规律的只有DNA上的编码蛋白质的区域
（基因），最新资料说明这部分序列只占基因组的1．1％。仅占人类基因组1．1％的编
码区的相关研究已经缔造了数十名诺贝尔奖获得者，98％非编码区蕴含的成果数量将是
十分可观的，因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内
的热点课题，是取得重要成果的源泉。
　　四．在基因组水平研究生物进化
　　近几年来，随着基因组序列数据的大量增加，对序列差异和进化关系的争论也越来
越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时，对"垂
直进化"和"水平演化"之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因
的"横向迁移现象"。即：基因可以在同时存在的种群间迁移，其结果虽可导致序列差异
，但这种差异与进化无关。甚至，对人类基因组的分析发现，有几十个人的基因只与细
菌基因相似，而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得
到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别
是：在分子进化分析中，"相似性"和"同源性"是两个不同的概念。相似性只反映两者类
似，并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。
　　五．完整基因组的比较研究
　　在后基因组时代，完整基因组数据越来越多，有了这些资料人们就能对若干重大生
物学问题进行分析研究，如：生命是从哪里起源的？生命是如何进化的？遗传密码是如
何起源的？估计最小独立生活的生物体至少需要多少基因？这些基因是如何使生物体活
起来的？等等。这些重大的问题只有在基因组水平上才能回答。举例来说，鼠和人的基
因组大小相似，都含有约30亿碱基对，基因的数目也类似，且大部同源。可是鼠和人差
异却如此之大，这是为什么？同样，有的科学家估计不同人种间基因组的差别仅为0．1
％；人猿间差别约为1％。但他们表型间的差异十分显著。因此，这种差异不仅应从基因
、DNA序列找原因，也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了
比较基因组学。
　　科学家们发现：全部基因可以按照功能和系统发生分为若干类，其中包括与复制、
转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋
白质分类提供了新的途径。同时，科学家们通过几个完整基因组的比较，统计出维持生
命活动所需要的最少基因的个数为250个左右。同样，当我们比较鼠和人的基因组就会发
现，尽管两者基因组大小和基因数目类似，但基因组的组织却差别很大。例如存在于鼠
1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在
同一界中，某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系，亲缘关系越近
，基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育
关系。
　　我国从1998年开始就开展了微生物完整基因组的大规模测序和分析工作。现在正进
行和已完成的有：我国自行鉴定的Thermotogales科的高温真细菌、泉生热袍菌；福氏痢
疾杆菌；钩端螺旋体出血黄疸型赖株；表皮葡萄球菌；菊花黄单胞菌。我国科学家在完
成人类基因组的1％测序工作的同时，最近又完成了具有4．3亿碱基对的水稻基因组的"
工作草图"。这些数据将为我国在这一领域的研究提供最直接的素材。
　　六．从功能基因组到系统生物学在不同的组织中表达基因的数目差别是很大的，脑
中基因表达的数目最多，约有3－4万个转录子，有的组织中只有几十或几百个基因表达
。同一组织在不同的个体生长发育阶段，表达基因的种类、数量也是不同的，有些基因
是在幼年时期表达的，有些是中年阶段表达的，有些要到老年时期才表达。我们不仅需
要了解基因的序列，还要了解基因的功能，也就是要了解在不同的时间、不同的组织中
基因的表达谱。这就是通常所说的功能基因组研究。
　　为了得到基因的表达谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就
是在核酸层次上的基因芯片（或称DNA芯片）技术和在蛋白质层次上的大规模蛋白质分离
和序列鉴定技术，也称蛋白质组技术。由于芯片上样品点的密度很大，可以达到每片几
十万，因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无论是生物芯片
还是蛋白质组技术的发展，都更强烈地依赖于生物信息学的理论、技术与数据库。下一
步，功能基因组研究将朝着复杂系统的方向发展，即：探讨生物系统中各部分、各层次
的相互作用，从而进入系统生物学的领域。
　　七．蛋白质结构模拟与药物设计
　　蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速
发展，这一领域面临着新的态势，即：找到人类3-4万个基因的碱基序列是指日可待的事
，因而确定它们表达产物的氨基酸顺序也会逐渐实现，此时预测这些蛋白的空间结构，
进而实现针对性的药物设计，就成了迫在眉睫的任务。这也是大规模的计算问题。
　　八．生物信息学的应用与发展研究
　　生物信息学的研究结果不仅具有重要的理论价值，也可直接应用到工农业生产和医
疗实践当中去。因此，生物信息学相关的分析与应用算法、软件和数据库，都具有重要
的经济价值，最终都会形成商品，提供经济和社会效益。
　　（1）疾病相关的基因信息及相关算法和软件开发
　　很多疾病与基因突变或基因多态有关，有人估计与癌症相关的原癌基因约有1000个
，抑癌基因约有100个。约有6000种以上的人类疾患与各种人类基因的变化相关联。更多
的疾病是环境（包括致病微生物）与人类基因（基因产物）相互作用的结果。随着人类
基因组计划的深入，当我们知道了人类全部基因在染色体上的位置、它们的序列特征（
包括SNPs）以及它们表达规律和产物（RNA和蛋白质）特征以后，人们就可以有效地判定
各种疾患的分子机制，进而发展合适的诊断和治疗手段。为此，有两项生物信息学工作
是重要的：一是构建与疾病相关的人类基因信息数据库（包括SNP数据库），二是发展有
效地分析基因分型数据的生物信息学算法，特别是将SNP数据与疾病和致病因素相关的计
算方法。
　　（2）建立与动、植物良种繁育相关的基因组数据库，发展分子标记辅助育种技术根
据不同物种间的进化距离和功能基因的同源性，可以比较容易地找到各种家畜、经济作
物与其经济效益相关的基因，并进一步认识它们发育、生长和抗逆的各种途径和机制。
在此基础上，利用相关的基因组分子标记，可以加快育种的速度，对它们按照人们的愿
望加以改造。
　　（3）研究与发展药物设计软件和基于生物信息的分子生物学技术
　　人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因。同时，分子
生物学常用的表达载体、PCR和杂交引物以及各种试剂盒（包括DNA芯片）的设计必须依
赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的天
地。
　　最近两、三年来，美国一些最著名的大学，如哈佛大学、普林斯顿大学、斯坦福大
学、伯克利加州大学等都投资几千万到一亿多美元成立了生物学、物理学、数学等学科
交叉的新中心，诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio－X。1999
年6月3日，美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研
基金，并成立5到20个计算中心以处理海量的基因组相关信息。
　　生物信息学的发展，不仅导致生物学、物理学、数学、计算机科学等多种科学文化
的融合，也必将造就一批新的从事交叉学科研究的科学工作者。科学家们普遍相信本世
纪最初的若干年是人类基因组研究取得辉煌成果的时代，也是它创造巨大的经济效益和
社会效益的时代。让我们作为见证人欣赏生物信息学的蓬勃发展吧！
1.3 人类基因组测序完成之后-生物信息学的科学目标
生物信息学是当前生物学领域的研究热点，预计在未来的若干年它将变得越来越重要、
越来越引起人们的重视。
近期任务
由于未来几年蛋白质和核酸的测序数据将以指数方式增加，近期生物信息学将在以下几
方面迅速发展：
大规模基因组测序中的信息分析
大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前
，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列
间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软
件和数据库的。特别是拼接和填补序列间隙更需要把实验设讨和信息分析时刻联系在一
起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显
得尤其突出。
新基因和新SNPs（单核苷酸多态性）的发现与鉴定
人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学
的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法
预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含的6千多个基因，大约60％
是通过信息分析得到的。
当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病
人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相
关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spp
s的研究。在我国开展中华民族SNPs研究也是至关重要的。
完整基因组的比较研究
现在，生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些
资料人们就能对若干重大生物学问题进行分析，比如：研究生命是从哪里起源的？生命
是如何进化的？遗传密码是如何起源的？估计最小独立生活的生物至少需要多少基因，
这些基因是如何使它们活起来的？比如，鼠和人的基因组大小相似，都含有约三十亿碱
基对，基因的数目也类似。可是鼠和人差异确如此之大，这是为什么？同样，有的科学
家估计不同人种间
因组的差别仅为0．1％；人猿间差别约为I％。但他们表型间的差异十分显著。因此其表
型差异不仅应从基因、DNA序列找原因，也应考虑到整个研究组、考虑染色体组织上的差
异。总之，这些例子说明由完整基因组研究所导致的比较基因组学必将为基因组研究开
辟新的领域。
大规模基因功能表达谱的分析
随着人类基因组测序逐渐接。近完成、一些学者就提出如下的问题：即使我们已经获得
了人的完整基因图谱，那我们对人的生命活动能说明到什么程度呢？于是他们提出了一
系列由上述数据所不能说明的问题，例如：基因表达的产物是否出现与何时出现；基因
表达产物的浓度是多少；是否存在翻译后的修饰过程，若存在是如何修饰的；基因敲出
（knock-out）或基因过度表达的影响是什么；多基因的表现型如何，等。概括这些问题
，其实质应该是：我们虽然知道了基因，知道了核酸序列，但我们不知道它们是如何发
挥功能的，或者说它们是如何按照特定的时间、空间进行基因表达的，表达量有多少。

为了得到基因表达的功能谱，国际上在核酸和蛋白质两个层次上都发展了新技术。这就
是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术，也称
蛋白质组技术。
生物大分子的结构模拟与药物设计
随着人类基因组计划的执行，估计几年之内就可找到人类的8万到10万个基因，也就是发
现它们的一级序列。然而要了解他们的功能、要找到这些蛋白质功能的分子基础，必须
进一步知道它们的三维结构。与此同时，要设计药物也需要了解相应的蛋白质受体的三
维结构。这是摆在科学家面前的紧迫任务。
远期任务
生物信息学的远期任务是读懂人类基因组，发现人类遗传语言的根本规律。从而阐u若干
生物学中的重大自然哲学问题，像生命的起源与进化等。这一研究的关键和核心是了解
非编码区。
非编码区信息结构分析
近年来完整基因组的研究表明，在细菌这样的微生物中非编码区只占整个基因组序列的
10％到 20％。而高等生物和人的基因组中非编码区都占到基因组序列的绝大部分。从生
物进化的观点看来，随着生物体功能的完善和复杂化非编码区序列明显增加的趋势表明
：这部分序列必定具有重要的生物功能。普遍的认识是，它们与基因在四维时空的表达
调控有关。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内
的热点课题。
对人类基因组来说，迄今为止，人们真正掌握规律的只有DNA上的编码蛋白质的区域（基
因），很多资料说u这部分序列只占基因组的3％到5％，也就是说，人类基因组中多达
95％到97％是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的
一个真正的挑战。
遗传密码起源和生物进化的研究
自 1859年Darwin的物种起源发表以来，进化论成为对人类自然科学和自然哲学发展的最
重大贡献之一。进化论研究的核心是描述生物进化的历史（系统进化树）和探索进化过
程的机制。自本世纪中叶以来，随着分子生物学的不断发展，进化论的研究也进入了分
子水平。当前分子进化的研究已是进化论研究的重要手段，并建立了一套依赖于核酸、
蛋白质序列信息的理论方法。近年来，随着序列数据的大量增加，对序列差异和进化关
系的争论也越来越激烈。不少的研究结果并不支持分子钟的假设。因为基于某一种分子
序列所重构出的进化树，只能反映这种序列的系统发育关系，并不一定能代表物种之间
真正的进化关系，即可能存在着基因树与物种树之间的差异。同时，对垂直进化和水平
演化之间关系的讨论正逐渐引起人们的重视。当前的资料给了我们。一个更为复杂也更
为丰满的进化模式，它启示我们要彻底了解进化的规律必须使用整个基因组的信息。相
应地必须发展新的理论方法。
总之，当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组
研究的收获时代，它不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效
益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长，这是一个难得的
机会，我国应尽早利用这些数据就可能走在国际科学界的最前沿。

--
其实　我盼望的也不过就只是那一瞬
我从没要求过　你给我你的一生
如果能在开满了栀子花的山坡上与你相遇　
如果能深深地爱过一次再别离
那么　再长久的一生
不也就只是　就只是回首时那短短的一瞬

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.247.15]

Biology 版 (精华区)