精华区文章阅读

发信人: ssos (存在与虚无·守拙), 信区: Algorithm
标  题: 生物信息学简介
发信站: 哈工大紫丁香 (2002年08月31日20:23:18 星期六), 站内信件

　生物信息学简介
　　　
　　
一.  生物信息学诞生的历史必然性
生物信息学（Bioinformatics）就其萌生而言，是一门相当古老的学科，因为早在计算
机初创期的1956年就已经在美国田纳西州的Gatlinburg召开过首次“生物学中的信息理
论讨论会”；而就其发展而言，却是一门相当年轻的学科，因为继20余年的沉默之后，
只有伴随着八九十年代计算机技术的迅猛发展，它才同时得以获得自身的大发展。无论
从理论上来讲还是从现实情况来看，生物信息学的实质就是利用计算机科学和网络技术
来解决生物学问题。它的诞生和发展是应时所需，是历史的必然，已经悄然渗透到生物
科学的每一个角落，以至人们在意识到它的存在之前就已经离不开它了！
二十世纪尤其是末期，生物科学技术的迅猛发展，无论从数量上还是从质量上，都极大
地丰富了生物科学的数据资源，数据资源的急剧膨胀首先迫使我们不得不考虑寻求一种
强有力的工具去组织他们，以利于对已知生物学知识的储存和进一步加工利用。大量多
样化的生物学数据资源中必然蕴含着大量重要的生物学规律，这些规律是我们解决许多
生命之谜的关键所在，然而继续沿用传统手段以人脑来分析如此庞杂的数据实在是太勉
为其难了！人们同样需要寻求一种强有力的工具去协助人脑完成这些分析工作。可以说
，伴随着二十一世纪的到来，生物科学的重点和潜在的突破点已经由二十世纪的试验分
析和数据积累转移到数据分析及其指导下的试验验证上来，生物科学也正在经历着一个
从分析还原思维到系统整合思维的转变。
那么，我们所寻求的那种强有力的数据处理分析工具就成为未来生物科学的关键所在；
似乎是上帝的恩赐，伴随着生物科学这一需求的加剧，以数据处理分析为本质的计算机
科学技术和网络技术同样获得了突飞猛进的进展,自然就成为生物科学家的必然选择，计
算机科学技术和网络技术日益渗透到生物科学的方方面面，一门崭新的、正是如火如荼
的、拥有巨大发展潜力的生物信息学也就悄然而坚定地发展和成熟起来了！可以说，历
史必然性的选择了生物信息学——生物科学与计算科学的融合体——作为下一代生物科
学研究的重要工具。
关于生物信息学的定义，由于生物科学家们各自所从事的具体领域不同，因此存在着形
形色色的理解，并没有一个统一的概念，其实文字界定并不重要，关键是要充分发挥计
算机和网络在生物科学各个领域的数据处理分析能力，帮助我们尽快全面系统地认识生
命的本质，这恐怕才是所有生物科学家的共同理解和目的所在。
二、生物信息学的重要性
生物信息学不仅仅是一门科学学科，它更是一种重要的研究开发工具。
从科学的角度来讲，它是一门研究生物和生物相关系统中信息内容物和信息流向的综合
系统科学，只有通过生物信息学的计算处理，我们才能从众多分散的生物学观测数据中
获得对生命运行机制的详细和系统的理解。
从工具的角度来讲，它是今后几乎进行所有生物（医药）研究开发所必需的舵手和动力
机，只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析
，我们才能选择正确的研发方向，同样，只有选择正确的生物信息学分析方法和手段，
我们才能正确处理和评价新的观测数据并得到准确的结论。
可见生物信息学在今后的无论是生物（医药）科研还是开发中都具有广泛而关键的应用
价值；而且，由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术
等密切结合的交叉性学科，使其具有非常强的专业性，这就使得专业的生物（医药）科
研或开发机构自身难以胜任它们所必需的生物信息学业务，残酷的市场竞争及其所带来
的市场高度专业化分工的趋势，使得专业的生物（医药）开发机构不可能在自身内部解
决对生物信息学服务的迫切需求，学术界内的生物（医药）科研机构也是如此，而这种
需求，仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。
可见，在生命科学的新世纪，生物信息学综合服务将是一个非常重要的也是一个极具挑
战性的领域。
三、生物信息学（Bioinformatics）这一名词的来由
人们可能不禁要问，生物信息学（Bioinformatics）这一名词是从何而来的呢？这还要
从头说起。
八十年代末期，林华安博士认识到将计算机科学与生物学结合起来的重要意义，开始留
意要为这一领域构思一个合适的名称。起初，考虑到与将要支持他主办一系列生物信息
学会议的佛罗里达州立大学超型计算机计算研究所的关系，他使用的是“CompBio”；之
后，又将其更改为兼具法国风情的“bioinformatique”，看起来似乎有些古怪。因此不
久，他便进一步把它更改为“bio-informatics（或bio/informatics）”。但由于当时
的电子邮件系统与今日不同，该名称中的-或/符号经常会引起许多系统问题，于是林博
士将其去除，今天我们所看到的“bioinformatics”就正式诞生了，林博士也因此赢得
了“生物信息学之父”的美誉。
四.  生物信息学的国内外现状
二十一世纪是生命科学的世纪，其里程碑就是即将完成的、历时13年、耗资数十亿的著
名的人类基因组计划(Human Genome Project，HGP)，因为该计划的完成将为最终揭示人
体构造之迷奠定坚实的数据基础；而应人类基因组计划和生物科学迅猛发展的要求而迅
速兴起的生物信息学则历史性地成为下一世纪生命科学浪潮中当仁不让的弄潮儿。
通俗来讲，基因组是由四种不同的脱氧核糖核苷酸(A、T、C和G)按照特定的编码规则串
联成的脱氧核糖核苷酸串（DNA），其中蕴藏着生物体中所有的结构信息和控制信息，因
此，基因组可以说就是生物体内的控制中心，其中的功能单位可以转录为核糖核苷酸序
列（RNA），有的就以RNA的形式发挥生物功能，有的则进一步被翻译成为各种蛋白质而
行使生物体构建和生命调控功能。因此，基因组是一本完整地讲述人体构造和运转情况
的指南，有了它，就可以揭开有关人体生长、发育、衰老、患病和死亡的秘密，因而危
害人类健康的5000多种遗传病以及与遗传密切相关的癌症、心血管疾病、关节炎、糖尿
病、高血压、阿尔茨海默氏症以及多发性硬化症和精神病等，就都可以得到诊断和治疗
。
人类基因组计划就是要测出人类基因组的全部脱氧核糖核苷酸序列（估计其中编码有约
十万多个蛋白质基因），进而弄清楚其中所有功能单位的组织结构形式以及调节机制，
并绘制成直观图谱，该计划实现之后更深入的工作就是要弄清楚基因组所编码的所有蛋
白质的表达情况，最终达到从整体系统水平上认识人体构造与功能并帮助制定有效治疗
策略和开发有效治疗药物的目的。除此以外，还要对其它几个属于不同生物进化期的模
式生物的基因组进行测序，如酵母、果蝇、蠕虫和小鼠等，利用这些模式生物可以进行
很多在人体内不可能进行的实验研究，是我们了解人类基因组功能的重要工具。所有这
些工作都涉及到大量数据的处理工作，而且数据量也在以科学史上前所未有的高速度增
长着，所有这些情况表明，生物学已不再是仅仅基于试验观察的科学，仅靠传统的研究
手段是无济于事的，理论和计算将越来越发挥巨大作用，数学、物理、计算机科学将日
益渗透到生物学研究中来，海量的数据必须通过生物信息学的手段进行收集、分析和整
理后，才能成为有用的信息和知识，才能再加以传播应用，也就是说，只有经过生物信
息学手段的分析处理，我们才能获得对基因组的正确理解，因此可以说生物信息学兴盛
于人类基因组计划，因为人类基因组计划首次为生物信息学创造了施展身手的巨大空间
；当然，生物信息学并不局限于人类基因组工程，它已经深入到生命科学的方方面面。

国外一直非常重视生物信息学的发展，各种专业研究机构和公司如雨后春笋般涌现出来
，生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。但由于对生物信
息学的需求是如此迅猛，即使是象美国这样的发达国家也面临着供不应求、人才匮乏的
局面。
尽管在许多大学和研究机构已经各自成立了自己的生物信息学部门或中心，1999年6月3
日，美国国家卫生研究院（NIH）的专家委员会还是建议，迅速在大学和研究机构中建立
20个生物计算中心，给予每个中心每年800万美元的支持，从事有关研究和人才培养，该
建议可能在2001年开始实施。
近来，英国鉴于国内对生物信息学专业人才日益迫切的需求，所有主要的研究资助机构
[医学研究委员会（MRC，Medical Reasearch Council）、生物技术和生物科学研究委员
会、工程学和物理科学研究委员会（EPSRC，Engineering and Physical Sciences Res
earch Council）、粒子物理和天文学研究委员会（PPARC，Particle and Astronomy R
esearch Council）和Wellcome Trust]不仅已经达成共识，认为应该高度优先地满足对
生物信息学技术的需求，而且已经实现了对生物信息学人才培养的大力资助。
事实上，欧美等发达国家在生物信息方面已有较长时间的积累。
从数据库的角度来讲，早在60年代，美国就建立了手工搜集数据的蛋白质数据库。美国
洛斯阿拉莫斯国家实验室1979年就已经建立起genBank数据库，欧洲分子生物学实验室1
982年就已经提供核酸序列数据库EMBL的服务，日本也于1984年着手建立国家级的核酸序
列数据库DDBJ并于1987年开始提供服务。
从专业机构的角度来讲，美国于1988年在国会的支持下成立了国家生物技术信息中心（
NCBI），其目的是进行计算分子生物学的基础研究，构建和散布分子生物学数据库；欧
洲于1993年3月就着手建立欧洲生物信息学研究所（EBI）,日本也于1995年4月组建了自
己的信息生物学中心（CIB）。
从数据分析技术的角度来讲，早在1962年，Zuckerkandl和Pauling就将序列变异分析与
其演化关系联系起来，从而开辟了分子演化的崭新研究领域；1964年，Davies开创了蛋
白质结构预测的研究；1970年，Needleman和Wunsch发表了广受重视的两序列比较算法
；1974年，Ratner首先运用理论方法对分子遗传调控系统进行处理分析；1975年，Pipa
s和McMahon首先提出运用计算机技术预测RNA二级结构；随着1976年之后大量生物学数据
分析技术的涌现，Science于1980年第209卷就已经发表了关于计算分子生物学的综述；
正如我们现在所看到的那样，在八九十年代，生物学数据分析技术在国外更是获得了突
飞猛进的发展。
从专业出版业来看，由于没有专业领域专门的期刊，起初的专业文献都散落在各种其他
领域的期刊中，到了1970年，出现了Computer Methods and Programs in Biomedicine
这本相关期刊，到1985年4月，就有了第一种生物信息学专业期刊——Computer Applic
ation in the Biosciences；现在，我们可以看到的专业期刊已经很多了，包括书面期
刊和网上期刊两种，如Bioinformatics (formerly Computer Applications in the Bi
osciences) 、Acta Biotheoretica 、Bio Informatics Technology & Systems  、Bi
oinform Newsletter 、Briefings in Bioinformatics 和Journal of Computational
Biology 等。
从网络资源来看，国外互联网上的生物信息学网点非常繁多，大到代表国家级研究机构
的、小到代表专业实验室的都有，大型机构的网点一般提供相关新闻、数据库服务和软
件在线服务，小型科研机构一般是介绍自己的研究成果，有的还提供自己设计的算法的
在线服务，总体而言，基本都是面向生物信息学专业人士，各种分析方法虽然很全面，
但却分散在不同的网点，分析结果也需专业人士来解读。
目前，绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生；他们
共同组成了DDBJ/EMBL/GenBank国际核酸序列数据库，每天交换数据，同步更新。其他一
些国家，如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等，在分享网络共享
资源的同时，也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业
数据库以及自己的分析技术，服务于本国生物（医学）研究和开发，有些服务也开放于
全世界。
国内对生物信息学领域也越来越重视，在一些著名院士和教授的带领下，在各自领域取
得了一定成绩，有的在国际上还占有一席之地，如北京大学的罗静初和顾孝诚教授在生
物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基
因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面、中科院理论物理所
郝柏林院士、清华大学的李衍达院士和孙之荣教授、内蒙古大学的罗辽复教授、上海的
丁达夫教授等等……；北京大学于1997年3月成立了生物信息学中心，中科院上海生命科
学研究院也于2000年3月成立了生物信息学中心，分别维护着国内两个专业水平相对较高
的生物信息学网站……，但从全国总体上来看与国际水平差距很大。一方面，国内生物
（医药）科学研究与开发对生物信息学研究和服务的需求市场非常广阔，另一方面，真
正开展生物信息学具体研究和服务的机构或公司却相对较少，仅有的几家科研机构主要
开展生物信息学理论研究，声称提供生物信息学服务的公司所提供的服务也仅局限于简
单的计算机辅助分子生物学实验设计，而且服务体系并不完善；目前国内互联网上已经
有了几家生物信息学网站，但大部分偏于所有生物（医）学领域的新闻报道，生物信息
学专业技术服务的含量太少（这其实也是国内生物信息学研究力量薄弱的必然体现），
这就与国外有了较大差距。
　
五.  生物信息学的最终目的
自从1987年出现Bioinformatics这一词汇以来，其内涵随着科研和现实需要的变化而几
经更迭，当前，一般认为，生物信息学主要是一门研究生物学系统和生物学过程中的信
息流的综合系统科学，通过它独特的桥梁作用和整合作用，使我们能够从各生物学科中
众多分散的观测资料中获得对生物学系统和生物学过程的运作机制的理解，最终达到自
由应用于相关实践的目的。
例如就疾病而言，生物信息学就是要系统地理解导致机体功能异常的生物机制并从而得
出科学的治疗方案；就生物演化而言，生物信息学就是要系统地解释生物界演化的从微
观分子水平到宏观形体功能水平的根本原则，从而使人类更好地认识自己在自然界中的
地位，科学地认识和改造人类的未来。
无论从对生命运行机制的理解方面，还是从药品开发方面来讲，生物信息学就像一部高
性能的涡轮动力机一样，吃进的是纷繁芜杂的数据，释放出来的却是对生命运行机制的
高超理解力和相应的药品开发的高效力，因此与以往相比，生物信息学无论从认识水平
上还是从实践水平上都开创了一种崭新的模式。
六.  生物信息学当前的主要任务
纵观当今生物信息学界的现状，可以发现，大部分人都把注意力集中在基因组、蛋白质
组、蛋白质结构以及与之相结合的药物设计上，具体如下：
1. 基因组
1.   1   新基因的发现：
包括通过计算分析从EST（Expressed Sequence Tags）序列库中拼接出完整的新基因编
码区，也就是通俗所说的“电子克隆”；通过计算分析从基因组DNA序列中确定新基因编
码区，经过多年的积累，已经形成许多分析方法，如根据编码区具有的独特序列特征、
根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络
方法、根据分形方法和根据密码学方法等。
1.   2   非蛋白编码区生物学意义的分析：
非蛋白编码区约占人类基因组的95%，其生物学意义目前尚不是很清楚，但从演化观点来
看，其中必然蕴含着重要的生物学功能，由于它们并不编码蛋白，一般认为，它们的生
物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的
策略有两种，一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征，
预测非蛋白编码区中可能含有的功能已知的DNA元件，从而预测其可能的生物学功能，并
通过实验进行验证；另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列
特征，并从理论上预测其可能的信息含义，最后同样通过实验验证。
1.   3   基因组整体功能及其调节网络的系统把握：
把握生命的本质，仅仅掌握基因组中部分基因的表达调控是远远不够的，因为生命现象
是基因组中所有功能单元相互作用共同制造出来的。基因芯片技术由于可以监测基因组
在各种时间断面上的整体转录表达状况，因此成为该领域中一项非常重要和关键的实验
技术，对该技术所产生的大量实验数据进行高效分析，从中获得基因组运转以及调控的
整体系统的机制或者是网络机制，便成了生物信息学在该领域中首先要解决的问题。
1.   4   基因组演化与物种演化：
尽管已经在分子演化方面取得了许多重要的成就，但仅仅依靠某些基因或者分子的演化
现象，就想阐明物种整体的演化历史似乎不太可靠。例如，智人与黑猩猩之间有98%-99
%的结构基因和蛋白质是相同的，然而表型上却具有如此巨大的差异，这就不能不使我们
联想到形形色色千差万别的建筑楼群，它们的外观如此不同，但基础的部件组成却是几
乎一样的，差别就在于这些基础部件的组织方式不同，这就提示我们基因组整体组织方
式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传
信息的储藏库，从根本上决定着物种个体的发育和生理，因此，从基因组整体结构组织
和整体功能调节网络方面，结合相应的生理表征现象，进行基因组整体的演化研究，将
是揭示物种真实演化历史的最佳途径。
2.        蛋白质组
基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行，由于基因芯片技术
只能反映从基因组到RNA的转录水平上的表达情况，由于从RNA到蛋白质还有许多中间环
节的影响，因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者——蛋白质
的整体表达状况；因此，近几年在发展基因芯片的同时，人们也发展了一套研究基因组
所有蛋白质产物表达情况——蛋白质组研究技术，从技术上来讲包括二维凝胶电泳技术
和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况
，通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题，
最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据，从中还原出生命
运转和调控的整体系统的分子机制。
　
3.        蛋白质结构
基因组和蛋白质组研究的迅猛发展，使许多新蛋白序列涌现出来，然而要想了解它们的
功能，只有氨基酸序列是远远不够的，因为蛋白质的功能是通过其三维高级结构来执行
的，而且蛋白质三维结构也不一定是静态的，在行使功能的过程中其结构也会相应的有
所改变。因此，得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的
紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振（NMR）波谱分析和电
子显微镜二维晶体三维重构（电子晶体学，EC）等物理方法得到蛋白质三维结构之外，

另外一种广泛使用的方法就是通过计算机辅助预测的方法，目前，一般认为蛋白质的折
叠类型只有数百到数千种，远远小于蛋白质所具有的自由度数目，而且蛋白质的折叠类
型与其氨基酸序列具有相关性，这样就有可能直接从蛋白质的氨基酸序列通过计算机辅
助方法预测出蛋白质的三维结构。
　
4.        新药设计
近年来随着结构生物学的发展，相当数量的蛋白质以及一些核酸、多糖的三维结构获得
精确测定，基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不
仅可提供生物大分子空间结构的信息，还能提供电子结构的信息，如能级、表面电荷分
布、分子轨道相互作用等以及动力学行为的信息，如生物化学反应中的能量变化、电荷
转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分
子的量子效应。
但生物信息学的任务远不止于此。在以上工作的基础上，最重要的是如何运用数理理论
成果对生物体进行完整系统的数理模型描述，使得人类能够从一个更加明确的角度和一
个更加易于操作的途径来认识和控制自身以及所有其他的生命体。
　
　

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 211.93.34.115]

Algorithm 版 (精华区)