精华区文章阅读

发信人: efreet (水水——武林神话，水出无名), 信区: Biology
标题: 生物信息学——简述
发信站: 哈工大紫丁香 (2003年02月24日15:08:21 星期一), 站内信件

生物信息学（bioinformatics）是生物学与计算机科学以及应用数学等学科相互交叉而形
成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达
到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子
生物学，生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等
方面，所以目前生物信息学可以狭义地定义为：将计算机科学和数学应用于生物大分子信
息的获取、加工、存储、分类、检索。
生物信息学最终是一门研究生物系统中信息现象的学科。但目前的生物信息学基本上只是
分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就
是各种各样的生物学数据，其研究工具是网上的各种计算机，研究方法包括对生物学数据
的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。
20世纪90年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和
Internet的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学
工作者提出了严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息
怎样控制有机体的发育？基因组本身又是怎样进化的？
对生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理
论生物学家达半个世纪，如今找到问题答案要求正变得日益迫切。
诺贝尔奖获得者W. Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。
现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究
模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或
验证这些理论假设”。
从目前生物信息学的研究情况来看，国际上公认的生物信息学的研究内容，大致包括以下
几个方面：
１. 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输
的国际联网系统；建立生物信息数据质量的评估与检测系统；生物信息的在线服务；生物
信息可视化和专家系统。
２. 基因组序列信息的提取和分析。包括基因的发现与鉴定，如利用国际EST 数据库
(dbEST) 和各自实验室测定的相应数据，经过大规模并行计算发现新基因和新SNPs以及
各种功能位点；基因组中非编码区的信息结构分析，提出理论模型，阐明该区域的重要生
物学功能；进行模式生物完整基因组的信息结构分析和比较研究；利用生物信息研究遗传
密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物
进化关系等生物学的重大问题。
３. 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究，基
因表达调控网络的研究；与基因组信息相关的核酸、蛋白质空间结构的预测和模拟，以及
蛋白质功能预测的研究。
４. 生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设
计；蛋白质空间结构模拟和分子设计；具有不同功能域的复合蛋白质以及连接肽的设计；
生物活性分子的电子结构计算和设计；纳米生物材料的模拟与设计；基于酶和功能蛋白质
结构、细胞表面受体结构的药物设计；基于DNA结构的药物设计等。
５. 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软
件、数据库以及若干数据库工具，诸如电子网络等远程通讯工具；改进现有的理论分析方
法，如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂
性分析方法、密码学方法、多序列比较方法等；创建一切适用于基因组信息分析的新方法
、新技术。包括引入复杂系统分析技术、信息系统分析技术等；建立严格的多序列比较方
法；发展与应用密码学方法以及其他算法和分析技术，用于解释基因组的信息，探索DNA
序列及其空间结构信息的新表征；发展研究基因组完整信息结构和信息网络的研究方法等
；发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。
６. 应用与发展研究。汇集与疾病相关的人类基因信息，发展患者样品序列信息检测技术
和基于序列信息选择表达载体、引物的技术，建立与动植物良种繁育相关的数据库以及与
大分子设计和药物设计相关的数据库。
由于当前生物信息学发展的主要推动力来自HGP，所以生物信息学与HGP的关系就显得更为
密切，其与HGP相关的研究主要表现在如下几个方面：
（1）高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化
为计算机能够处理的数字信息，是生物学的一个重要课题。这种转化大量地体现在各种自
动化分子生物学仪器应用上，如DNA测序仪，PCR仪等。这类仪器将实验所得的物理化学信
号转化为数字信息，并对其作简单分析，再将分析结果用于实验条件的控制，完成高度自
动化的实验过程。
（2）序列片段的拼接目前DNA自动测序仪每个反应只能测序500bp左右。如何将这些序列
片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进
行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自
动而高速地拼接序列的算法，不仅避免了亚克隆排序所需的大量繁琐的工作，还使序列具
有一定的冗余性（redundancy，即一定数量的重复）以保证序列中每个碱基的准确性。

3）基因区域的预测
在完成序列的拼接后，我们得到的是很长的DNA序列，甚至可能是整个基因组的序列。这
些序列中包含着许多未知的基因，下一步就是将基因区域从这些长序列中找出来。
所谓基因区域的预测，一般是指预测DNA顺序中编码蛋白质的部分，即外显子部分。不过
目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种
外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识，预测出可能的
完整基因。
（4）基因功能预测
用实验手段证实一个预测的新基因后，下一步要做的就是寻找这个基因的功能。生物信息
学为此提供了一系列方法，使我们的研究能够有的放矢。
（5）分子进化的研究
通过上述种种方法我们可以预测出一个新基因可能具有的功能。然而预测新基因只是生物
信息学研究的一个方面，这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。
对于基因组研究来说，一个重要的研究方向就是分子序列的进化。通过比较不同生物基因
组中各种结构成分的异同，可以大大加深我们对生物进化的认识。这方面的研究已逐步形
成一个称为比较基因组学（Comparative Genomics）的新学科。
因此，各国政府和工业界对此极为重视，投入了大量资金。欧美各国及日本相继成立了生
物信息中心，如美国的国家生物技术信息中心（National Center for Biotechnology
Informatics，NCBI）、欧洲生物信息学研究所 (European Bioinformatic Institute，
EBI)、日本信息生物学中心（Center for Information Biology，CIB）等。NCBI、EBI和
CIB相互合作，共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算
机网络互相交换数据，使得三个数据库能同时获得最新数据。此外，他们每年召开两个年
会讨论合作事宜。
在我国，生物信息学随着人类基因组研究的展开才刚刚起步，但已显露出蓬勃发展的势头
。在政府的支持和科学家的呼吁下，国家级生物医学信息学中心正在筹建之中。各地政府
也给予了足够重视，北京市已经成立了北京生物工程学会生物信息学专业委员会（即北方
生物信息学研究会），目的在于联合北方地区从事生物信息学的专家，加强合作，促进学
科的发展，并为政府决策提供参考意见。
国内一些科研单位已经开始摸索着从事这方面的工作。清华大学在基因调控及基因功能分
析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中
科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学
研究所在蛋白质分子设计方面、华大基因组研究中心（中科院遗传所人类基因组研究中心
）在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京
大学已建立了EMBL中国镜像数据库，将该数据库移植到中国本地，并提供部分的检索服务
（http：//www.Ipc.pku.edu.cn/mirror/mirror.html；http：//www.Ebi.pku.edu.cn）
；复旦大学遗传学研究所为克隆新基因而建立的一整套生物信息系统也已初具规模；中科
院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。

--
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.17]

Biology 版 (精华区)