精华区文章阅读

发信人: zjliu (Robusting), 信区: Biology
标题: 生物信息学（6）
发信站: 哈工大紫丁香 (Tue Dec 24 21:12:18 2002) , 转信

6 基因组序列信息分析

DNA序列自身编码特征的分析是基因组信息学研究的基础，特别是随着大规模测序的日益增

加，它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、

载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步

都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设

计和信息分析时刻联系在一起。

基因组不仅是基因的简单排列，更重要的是它有其特有的组织结构和信息结构，这种结构

是在长期的演化过程中产生的，也是基因发挥其功能所必须的。利用国际EST 数据库 (db

EST) 和各实验室测定的相应数据，经过大规模并行计算识别并预测新基因，新SNPs以及各

种功能位点，如剪接与可变剪接位点等。

到1998年底在人类的约10万个基因中有3万多个已被发现，尚有约7万个未被发现。由于新

基因带来的显著经济效益和社会效益，它们成为了各国科学家当前争夺的热点。EST序列
(Expressed Sequence Tags) 到1999年12月已搜集了约200万条，它大约覆盖了人类基因的

90％，因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时1998年国际上

又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新基因、新SNPs以及各种

功能位点是近几年的重要研究方向。

虽然对约占人类基因组 95％的非编码区的作用人们还不清楚，但从生物进化的观点看来，

这部分序列必定具有重要的生物功能。普遍的认识是，它们与基因在四维时空的表达调控

有关。寻找这些区域的编码特征，信息调节与表达规律是未来相当长时间内的热点，是取

得重要成果的源泉。

在不同物种、不同进化水平的生物的相关基因之间进行比较分析，是基因研究的重要手段

。目前，模式生物全基因组序列数据越来越多，因此，基因的比较研究，也必须从基因的

比较，上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效

地揭示基因在生命系统中的地位和作用，解释整个生命系统的组成和作用方式。

　

6.1 基因组序列分析工具

1. Wisconsin软件包（GCG）

Genetics Computer Group公司开发的Wisconsin软件包，是一组综合性的序列分析程序，

使用公用的核酸和蛋白质数据库。SeqLab是其图形用户界面（GUI），通过它可以使用所有

Wisconsin软件包中的程序及其支持的数据库。此外，它还提供了一个环境用于创建、显示

、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库

。

Wisconsin软件包由120多个独立的程序组成，每个程序进行一项单一的分析任务。包括所

有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。GCG支

持两种核酸数据库(GenBank数据库, 简化版的EMBL核酸序列数据库)和三种蛋白质数据库(

PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有GCG格式的（供大多数Wisconsin软件包程

序使用），也有BLAST格式的（供BLAST数据库搜索程序使用）。同时还提供了用于LookUp

程序以及数据库参考搜索的索引。

关于GCG，Wisconsin软件包，支持的平台以及硬件需求的一般性信息可以在GCG的主页以及

Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及Wisconsin软件包程序的

完整列表。

SeqLab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题

或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点

使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab可

以解决的序列分析问题：

(1)在两条mRNA中寻找开放阅读框架，翻译并对比RNA与蛋白质序列

对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架（ORF）、翻译以及进行核酸

与氨基酸序列间的两两对比。

把序列加入SeqLab Editor中，从Functions菜单中选中Map选项运行Map程序。Map输出文件

包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止位置可进行

标记并选为SeqLab Editor中序列显示的范围，然后可用Edit菜单的Translate操作进行翻

译。翻译结果自动出现在SeqLab Editor中。

两条相关的核酸或蛋白质序列可用Gap程序或BestFit程序进行对比。Gap程序寻找两条序列

间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit程序寻找两

条序列的局部最优对比结果，它适用于两条序列不是进化相关而是功能相关的情况。

(2)通过参考搜索寻找数据库中的相关条目并进行对比

研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序

列对比。

从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建

立匹配条目的列表。在参考部分的Definiton, Author, Keyword和Organism域中搜索描述

词并在词之间使用“and”（&）、“or”（|）以及“but not”（！）布尔表达式。例如

，在SWISS-PROT条目的Description域搜索“lactate & dehydrogenase & h & chain”将

产生一个输出文件，其中列出了乳酸脱氢酶 H 链（lactate dehydrogenase H chain）条

目。这个输出文件可以从Output Manager窗口中加以显示，然后与用户的序列一起添加到

SeqLab Editor中。

要创建所有这些序列的多序列对比，只要根据序列名称选中这些序列并从Functions菜单中

运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添

加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格（Features ta

ble）信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的，并且如果数据

库条目有相似的特征，这些特征可被附加给用户序列。

(3)用查询序列搜索数据库，将找到的条目与查询序列进行对比并产生进化系统树

克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索

到了，用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系

图。

往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在

数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直

接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区

域被加以标记。如果要显示的话，每个数据库条目只有这种区域可以显示在SeqLab Edito

r中。不要的条目可以从SeqLab Editor中一起被删除。
产生一个输出文件，其中列出了乳酸脱氢酶 H 链（lactate dehydrogenase H chain）条

目。这个输出文件可以从Output Manager窗口中加以显示，然后与用户的序列一起添加到

SeqLab Editor中。

要创建所有这些序列的多序列对比，只要根据序列名称选中这些序列并从Functions菜单中

运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添

加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格（Features ta

ble）信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的，并且如果数据

库条目有相似的特征，这些特征可被附加给用户序列。

(3)用查询序列搜索数据库，将找到的条目与查询序列进行对比并产生进化系统树

克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索

到了，用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系

图。

往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在

数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直

接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区

域被加以标记。如果要显示的话，每个数据库条目只有这种区域可以显示在SeqLab Edito

r中。不要的条目可以从SeqLab Editor中一起被删除。

从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manage

r窗口中加以显示并添加到SeqLab Editor中更新已经存在的未对比序列。必要时可对这一

对比结果进行编辑，并且数据库条目的有用的特征表格信息也可以添加给查询序列。

从Functions菜单中选取PaupSearch程序，程序提供了一个PAUP（进化系统简约性分析（P

hylogenetic Analysis Using Parsimony））中树搜索方式的GCG接口。PaupDisplay程序

为PAUP中的树操作，鉴定以及显示方式提供了一个GCG接口。

(4)拼接交叠序列片段产生一连续序列，寻找并翻译这一序列的编码区域并在数据库中搜索

相似序列

克隆了一个基因，把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把

这些序列片段重新组装为一条连续的序列。一旦contig拼接完成，用户可能希望在序列中

寻找阅读框架，翻译并在数据库中搜索相似序列。

Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。

GelEnter程序把序列片段复制到项目中。GelMerge程序寻找片段之间的交叠并把它们拼接

成contig。GelAssemble程序是一个编辑器，可用于编辑这些连续的部分并解决片段之间的

冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成，最终构成此con

tig的连续序列可以被保存为一个序列文件并添加到SeqLab Editor中。

使用Map、Frames、TestCode或Codon Preference程序可预测序列中的编码区（所有这些程

序可以从Functions菜单中选中）。使用Edit菜单的Select Range功能选择这些程序预测的

区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为

核酸共有序列的特征被加入。

选取蛋白质序列然后选择Functions菜单中BLAST。BLAST程序在数据库中搜索与查询序列相

似的条目，此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Man

ager窗口中加以显示。如果被搜索的是一个本机的数据库，结果文件可以加入SeqLab Edi

tor或Main List窗口中，并允许对找到的序列进行进一步分析。

(5)对比相关的蛋白质序列，计算对比结果的共有序列，辨识序列中新的特征序列模式，在

数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式

辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以

在对比结果中找到保守模式，用户可能希望在数据库中搜索包含这种模式的其它序列。用

户可能还希望在计算出的共有序列搜索已知的蛋白质模式。

选取待对比的序列，从Functions菜单中选取PileUp程序创建多序列对比，PileUp程序的输

出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor中。用户可以对对比结

果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行Pi

leUp即可。从PileUp Options窗口中选取"realign a portion of an existing alignmen

t（重新对比一个已存在的对比结果的一部分）"，这可能有利于选择一个替代评分矩阵或

不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重

新对比的区域。

用Edit菜单中Consensus操作计算对比结果的共有序列。如果保守模式可被辨识，从Funct

ions菜单中选取FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到Fi

ndPatterns模式选择器中，并在数据库中搜索包含这一模式的序列。

此外，运行Motif程序可在共有序列中搜索已知的蛋白质模式。Motif在蛋白质序列中搜索

在PROSITE，蛋白质位点和模式的PROSITE字典中已知的蛋白质模式。如果辨识出一个Moti

f，则给所有序列增加一个特征，并标出它的位置。图4.9显示了一个蛋白质序列的匹配、

一个共有序列以及Motif搜索的结果。

(6)使用Profile进行相似性搜索并对比相关序列

序列分析的一个新的扩展领域是Profile技术。一个profile是一个位置特定的评分矩阵，

它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同，共有序

列中只包含每个位置的保守残基的信息。Profile做好后可用于搜索数据库、数据库划分或

在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列

与一个对比结果进行对比。

使用ProfileMake程序可创建一个序列对比结果的profile。使用ProfileSearch程序可用p

rofile对数据库进行搜索，ProfileSegment程序可以显示搜索结果。使用ProfileGap程序

可将一个序列与profile进行对比。ProfileMake, ProfileSearch, ProfileSegments以及

ProfileGap程序都可以从Functions菜单中启动。

GCG的主页 http://www.gcg.com

2. ACEDB

ACEDB是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因

组计划。该软件是免费的，并且可运行在Unix和Macintosh OS系统下，Windows版本马上就

会推出。数据库以丰富的图形界面提供信息，包括有具体显示的基因图谱，物理图谱，新

陈代谢的途径和序列等。数据用流行的对象的形式进行组织，使用大家熟悉的类别如，相

关的文献，基因，描述，和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采

集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限

的计划，这往往是决定使用ACEDB的关键因素。

3．其它工具

不同的基因组测序中心都有其特有的一套序列管理分析方案及工具，并且在不断发展完善

之中，具体细节可访问这些测序中心的网站了解。

　

6.2人类和鼠类公共物理图谱数据库的使用

1．物理图谱的类型

物理图谱有许多结构和形式。限制性图谱（restriction map），用于对小区域、如kb量级

做精细结构制图，细胞遗传学图（cytogenetic map），用于对以104 kb为长度量级的区域

制图。最常用的两种类型是STS含量图（STS content map）和放射性杂交图（radiation
hybrid map），它们的分辨区域都大于1Mb，并且有能使用简易PCR中的定位标记物的优点

。

在STS含量图中，STS标记物通过多聚酶链反应所监测，在反应中它与一个大的插入克隆基

因库反应，如酵母人工染色体（TACs），细菌人工染色体（BACs）和粘粒等。如果两个或

多个STS被发现是存在于同一个克隆之中，那么这些标记位点紧密相邻的机会就很高（不是

100%，因为在制图过程中存在一些假象，如出现嵌合克隆体）。一段时期以来，根据STS含

量图已经建立起一系列重叠群，如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由

一些因子决定，如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图以

长1Mb的插入YAC库为基础，分辨率为几百个bp。如果使用插入部分较小的克隆载体，图谱

就会有一个更高的理论分辨率，但是覆盖基因组同样大小面积就需要更多的STS。虽然一般

有可能从STS含量图上得到标记物的相对顺序，但是相邻标记物之间的距离还是无法精确测

得。尽管如此，STS含量图还是有与克隆原相关的优点，并且可将其用于更进一步的研究，

如次级克隆或DNA测序。到目前为止，STS含量图制图简单而使用最多的来源是巴黎的CEPH

（centre dEtudes du Polymorphisme Humain）中的YAC库。它是一个10×覆盖率的文

库，平均插入长度为~1Mb。

放射性杂交图（对片段DNA的断点作图。在此技术中，一个人体细胞系被致死性的gamma射

线照射，染色体DNA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救，并能繁殖几代

。在这期间，人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更

多的杂合细胞系克隆体中，每一个都有不同数量的染色体片段，筛选生长后，就可以形成

一套杂合组，供接下来的制图实验用了。

如果要在一个放射性杂交组中对一个STS作图，那就要将每种杂交组细胞系中的DNA进行ST

S的PCR操作。细胞系中如果含有该STS的染色体片段，那么就能得到一个正的PCR信号。在

基因组中相邻很近的STS有相似的固位模式（retention pattern），因为放射性引起的断

点落在它们中间的几率很小。相邻较远的STS固位模式相似性ACs）和粘粒等。如果两个或

多个STS被发现是存在于同一个克隆之中，那么这些标记位点紧密相邻的机会就很高（不是

100%，因为在制图过程中存在一些假象，如出现嵌合克隆体）。一段时期以来，根据STS含

量图已经建立起一系列重叠群，如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由

一个放射性杂交图的分辨率依赖于杂交体片断的大小，而这又依赖于人体细胞系所受的辐

射量。一般对基因组大小作图的细胞系分辨率为～1M。

除STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与S

TS含量图不同的技术来决定克隆体的接近程度。例如，CEPH YAC图谱法综合利用指纹法（

fingerprinting）、间－Alu产物杂交法（inter-Alu product hybridization）和STS含量

图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组（可以

人工引进或由实验本身引起），从而将标记物放在由染色体断点所限定的bin?中。FISH图

谱使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况，从而以细胞遗传学图中一

条带的位置定出克隆体的位置。

研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列，和那些

从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量EST的工程

已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致?

如果要在一个放射性杂交组中对一个STS作图，那就要将每种杂交组细胞系中的DNA进行ST

S的PCR操作。细胞系中如果含有该STS的染色体片段，那么就能得到一个正的PCR信号。在

基因组中相邻很近的STS有相似的固位模式（retention pattern），因为放射性引起的断

点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低，相邻很远的STS的固位

模式将会截然不同。与基因图谱所用方法类似，算法类的软件也能推出STS在放射性杂交图

上的相对顺序，并通过断点落在其中间的可能性，用某一距离系统计算相邻标记物之间的

距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值（优势对数值）。

2.大型公用数据库中的基因组图谱

人类基因组物理图谱信息的主要来源是由NCBI和GDB提供的大型公用数据库。这些数据库提

供各种图谱的来源，使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定

程度下，这些数据库还能进行图谱的综合及分析。

（1）NCBI Entrez的染色体图谱

Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供。Entr

ez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以及一个

目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多，而且界面简单，

Entrez 可作为搜索图谱的一个起始点。

除人类基因组，Entrez还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱

。尽管可比较的（同线性）图仍不可获得，但它代表了现在最大和最完整的一套多生物体

的图谱信息。

（2）GDB的浏览染色体图谱

另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性才构

第二大基因图谱由人类连锁合作中心（Cooperative Human Linkage Center）制造，CHLC

图由10775个标记物组成，大多数为微卫星重复片断，间隔3.7cM。

人类基因组的转录物图

在1996年10月，Horno sapiens的一个全基因组转录物图由一个国际合作的研究实验室发表

于Science上。这个图由～15000个不同的表达序列组成，由放射性杂交法定位，与Geneth

on基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添了1000个表达序列

。在这张图中，大约1/5的标记物有已知的或是假定的功能，而余下的代表了未知功能的表

达序列。制成图的序列一般由UniGeneset衍生而来，它是一个由NCBI管理的公用重复ESTs

数据库。

转录物图是通过将八家不同实验室的图谱数据综合而得到的。?

基因组的基因图谱

基因图谱是制作许多物理图谱时工作的基本骨架，也是许多制图项目的起点。有两种基因

组范围的基因图谱可供选择。Genethon图含5264个多样性微卫星重复片断，间隔1.6cM。完

整的数据库文件，以及图谱的PostScript方式图形表示，在Genethon的FTP站点上均可获得

，这些图通过GDB也可以获得。

第二大基因图谱由人类连锁合作中心（Cooperative Human Linkage Center）制造，CHLC

图由10775个标记物组成，大多数为微卫星重复片断，间隔3.7cM。

人类基因组的转录物图

在1996年10月，Horno sapiens的一个全基因组转录物图由一个国际合作的研究实验室发表

于Science上。这个图由～15000个不同的表达序列组成，由放射性杂交法定位，与Geneth

on基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添了1000个表达序列

。在这张图中，大约1/5的标记物有已知的或是假定的功能，而余下的代表了未知功能的表

达序列。制成图的序列一般由UniGeneset衍生而来，它是一个由NCBI管理的公用重复ESTs

数据库。

转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同

，表达序列被放在由Genethon基因图谱衍生的框架上。结果，该图的最大分辨率为～2cM。

很多情况下，可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息，特别

是the Whitehead Institute和Stanford University的。

浏览NCBI转录物图

转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因

组转录物图的Science文章的全文，以及彩色的图象，但一般都只有装饰性的墙面图案。另

外，也有搜索页可以让浏览者对特别感兴趣的基因进行查询，或是通过对功能未知，但其

读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。

NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但

是通过Mapview微程序就可以得到其图形显示。从GDB的首页，沿着Whats New的链接，

可找到全基因组转录物图（到本书出版时链接形式可能已有所不同）。同样，可以认为转

录物图也是Entrez网将要制作的一部分。

White head Institute提供的人类物理图谱

The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的

最初来源。其中一张是STS含量图，内含指定为YAC的10000多个标记物，以及一张含12000

个左右标记物的放射性杂交图。Whitehead所用的G4杂交板（Genebridge 4 radiation hy

brid panel）分辨率为～1Mbp，而以YAC为基础作的图分辨率大约为200kbp。这些图已经和

Genethon基因图相结合，产生了一张合图，在平均150kb范围内有20000个STSs。Whitehea

d图上大约有一半的标记物是表达序列，它们在人类转录物图上也会出现。

WI（Whitehead Institute）图可通过网络从Whitehead Center for Genome Research的主

页上得到。沿着“人类物理图项目”（Human Physical Mapping Project）的链接就可以

转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因

组转录物图的Science文章的全文，以及彩色的图象，但一般都只有装饰性的墙面图案。另

外，也有搜索页可以让浏览者对特别感兴趣的基因进行查询，或是通过对功能未知，但其

读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。

NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但

是通过Mapview微程序就可以得到其图形显示。从GDB的首页，沿着Whats New的链接，

可找到全基因组转录物图（到本书出版时链接形式可能已有所不同）。同样，可以认为转

录物图也是Entrez网将要制作的一部分。

White head Institute提供的人类物理图谱

The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的

最初来源。其中一张是STS含量图，内含指定为YAC的10000多个标记物，以及一张含12000

个左右标记物的放射性杂交图。Whitehead所用的G4杂交板（Genebridge 4 radiation hy

brid panel）分辨率为～1Mbp，而以YAC为基础作的图分辨率大约为200kbp。这些图已经和

Genethon基因图相结合，产生了一张合图，在平均150kb范围内有20000个STSs。Whitehea

d图上大约有一半的标记物是表达序列，它们在人类转录物图上也会出现。

WI（Whitehead Institute）图可通过网络从Whitehead Center for Genome Research的主

页上得到。沿着“人类物理图项目”（Human Physical Mapping Project）的链接就可以

得到感兴趣的图，这些图可通过几种方法浏览。选择一系列pop-up菜单可以产生所选染色

体的图，选择选项按钮可以综合放射性杂交图、STS含量图和基因图。与Entrez一样，这些

图不是固定不变的。点击一个STS或是重叠群，会弹出关于该图素详细信息的页面。图形式

图谱在网址上可按GIF或Macintosh最初模式（PICT）下载。Whitehead网址上还提供了对图

谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank通道号、STS型号、

染色体分配进行搜索。另外，Whitehead网页也可根据功能关键字搜索制图转录序列，并提

供与NCBI中的主转录物图的链接。

Whitehead也为那些希望建立他们自己的STS 的研究者提供服务，并将之放在一个或多个图

上，这些服务包括：

一个在线的引物选择程序，引物3

将一个STS放在STS/YAC含量图上的服务

将一个STS放在放射性杂交图上的服务

Whitehead图远未完善，对合图进行监督性测试就能显示出在基因图、放射性杂交图和STS

/YAC图上的STSs位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图的一

个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地连

接标记物，但在低于约2兆时就无法准确解决两个STS的顺序问题了。放射性杂交图能够测

知约10Mb的连接，有效分辨率达～1Mb（更小的间隔也能排序，但是不可靠性逐步增加）。

STS/YAC图可以测知两个相互间隔1Mb的STS的连接，估计分辨力达100～300kb。理解图谱时

头脑中应有这些尺度上的差异。一般在1Mb的范围以下，STS/YAC图是说明顺序的图谱中最

可靠的一种。

在STS含量图中，由于STS和YAC的不等分布，可靠性也会有地域差异。在YAC密集的区域（

每一个STS有5个或更多的YAC），在排序信息的重要性上，图谱结果是相对更可靠的。在低

密度区，图谱结果中就会有几种同时可能替代的STS顺序，并会附上数据。假定的错误的反

面情况，如图12.8中，表示为图中的空白框。这一点也会严重降低图谱的准确性。最后，

因为在所有YAC库中都存在嵌合现象的问题，双键（例如，一对STS同时与2个或更多YAC连

接）比单键（STS只由1个YAC连接）更能可靠说明相邻关系。尽管只有在基因图或放射性杂

交图中存在支持性数据时，图上才能构建单键信息，但单由两个STS相连形成的连接仍保留

怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。

下面的部分介绍如何在Whitehead图上，通过Whitehead网址安置新的STS。从STS设计和针

对Whitehead和放射性杂交图进行制图开始。

设计一个STS，置于Whitehead上

设计一个STS需要一个高质量的DNA序列，至少长达所需的PCR产物。为得到最好的结果，这

些序列应不含重复元素和载体序列，并且质量相对高些。任何支持一个WWW浏览器的计算机

系统都可以使用该程序，支持TCP/IP的网络连接也是必须的。
选。STS接着就可以用以下步骤放在图上了。

使浏览器连向Whitehead的主页，并点击标有Human Physical Mapping Project的链接以跳

到该组织的物理制图页。从这儿，再找到并选择“Search for a YAC to its address”，

接着出现一页，内有一系列pop-up菜单，能用于输入单个YAC的地址、或一个输入单个YAC

名称的主题栏、或一个能粘贴一列YAC地址的大型区域。后者适用于将多个YAC用于研究的

时候。在这个地方输入YAC列表，再使用“plate_row_column”形式，这里是用“_”号分

离板块、排和列这三维（如709_A_1），也可输入多个YAC地址，用空格或carriage回车隔

开。搜索过程输入格式并不固定，它也可识别多个YAC模式（包括709_a_1和709a1）。

当YAC表完成后，按Search键，得到一个表，列有各个YAC，其重叠群位置和染色体分配，

以及附近STS的位置。这些STS位于放射性杂交图和（或）基因图上。

要理解该搜索结果，应该知道CEPH库中相当数量（40－50％）的克隆都是嵌合体，这意味

着单个YAC可能存在于位于基因组不同部分的重叠群中。由于这个原因，需要找到多个YAC

来证明单个STS分配到了某一特定重叠群中，或是从其它方法来证明（比如FISH，体细胞杂

交制图，放射性杂交图制图数据）。

每张图对应输入的一个YAC地址，每个表包括已知YAC中的STS表，以及STS制图信息。对于

每个STS，染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外，果，这

些序列应不含重复元素和载体序列，并且质量相对高些。任何支持一个WWW浏览器的计算机

系统都可以使用该程序，支持TCP/IP的网络连接也是必须的。
接重叠群（例如由成对YAC共有的重叠群）短一些，在构图的起始阶段中是可创造的更可靠

的重叠群，它们可以被放心地忽略。单个重叠群长一些，在不同方式下也应承认其合理性

。

Whitehead放射性杂交图

STS也能被置于Whitehead放射性杂交图中，这比STS/YAC含量图的问题简单很多，因为在放

射性杂交图上搜索一个STS只用93次PCR，而不是1000次。Whitehead放射性杂交图使用Gen

ebridge 4 radiation hybrid panel。与CEPH YAC库一样，这些细胞谱系的DNA也可以从一

些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果，PCR必须在与

制作Whitehead图的相同条件下进行，并应在复制时进行。复制PCR间出现的不同结果说明

应继续重复或以未知物对待。

首先，将杂交模板筛选结果重定为“rhv”格式，看上去如下：

sts_name1 00100101100000100000001101000110111001110010100121100111010101010010

1000

sts_name2 00000111100000100000001101000000111001110010100121100111010101010010

0000

每个数字代表每个放射性杂交细胞系的PCR结果：0说明PCR结果为负（无反应产物），1说

明为正，2说明为“未知”或“未完成”。载体上数字的顺序是很重要的，必须与G4rhp中

的正式顺序相对应。为找到该顺序，可沿（Whitehead物理图页上）标有“How the radia

tion hybrid maps were constructed”（如何构建放射性杂交图）的链接，再按下标有“

G40”的链接。该顺序与它们由Research Genetics运输时包装的DNA顺序相同，所以它一般

还不是结果。要增加可读性，可在载体内加入空格，用一个或多个空格、或Tab键就可以将

STS名称与扫描数据分离开了。

从Whitehead物理图页上，按下标有“Place your own STSs on the genome framework m

ap”（将你自己的STS放入基因组框架图中）的链接，再输入提示的合适的Email地址，并

将PCR值粘贴至位于该页上的大型主题框。输入正确的Email地址很重要，否则制图结果将

有可能被误解。

默认时，制图数据会以正文形式返回。为产生放在Whitehead图上的STS的图形，选择一个

标有Mac PICT（针对Macintosh系统）或GIF（针对Windows和Uinx系统）的选项按钮。

当设置完成时，按下“提交”键。当数据已被转交或正在制图时，你会得到一个证明，在

一小时内结果将会通过Email回执给你。

对于大量的筛选数据，如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可

以将数据以纯文本形式存在用户盘上，然后用RH制图页中的浏览键来定义并提交此文件给

服务器，同样，Email地址也要手工输入。

对于～98％的提交的标记物，Whitehead放射性杂交图制图服务器都会找到特定的位置。如

果安置成功，软件将会给一回执，包括该标记物的染色体分布和在染色体连接群中的位置

、对标记物的表格式说明、和在Whitehead放射性杂交图上两侧标记物的存在时其数据情况

。按要求将会得到一张Macintosh图或GIF格式图。这些图由Whitehead框架图组成，所提交

STS的位置以红色标明。

如果发现标记物连接的染色体多于一个或是根本就没有连接，制图过程也可能失败。在前

一种情况中，可以重新提交并设置高优势对数值，这样服务器将会认为其连接一个染色体

，在后一种情况中，你可以试着利用放射性杂交图页上的一个pop-up菜单将限制性降低。

如果一个标记物确实连向多个染色体，那么有可能用STS探测出重复序列。

Stanford University放射性杂交图

Stanford Human Genome Center已经用G3制图板发展了一张基因组放射性杂交图。由于比

G4板所用放射量更高，G3板的分辨率更高，但是代价是在探测长距离连接时限制很大。St

anford图一般在平均375kb的范围内存在～8000个STS，这些标记物中，3700个左右是表达

序列，存在于NCBI转录物图中。同以往一样，在基因组很多部分中，Stanford图中的表达

序列比“全包容”NCBI图中的准确性更高。

Stanford提供一个放射性杂交图制图服务器。如同Whitehead服务，这个服务器允许对从R

执。Stanford服务器以一系列相对基因标记物的位置返回制图结果。对于每个STS，服务器

会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离（以centirays为单位

）。尽管并不提供制图结果的图形显示，制图信息仍可用于和以上标出了用户的STS相对S

tanford图谱上的其它STS的位置的可浏览型图谱相结合。

CEPH YAC图

1993年，巴黎的CEPH（Centre dÉtudes du Polymorphisme Humain），与Gen

ethon合作?
Stanford服务器返回的制图结果由一系列相应的标记物分布组成。对于每一个STS，服务器

都会报告离其最近的基因标记物、染色体、和标记物到STS的距离，以centiray（cR）为单

位。尽管对于制图结果并不提供图形显示，图谱信息还是可以用来与以上讨论的浏览图形

结合来说明所提交STS相对于Stanford图上其它STS的位置。

要提交这一数据，连接Stanford的主页，并按下RH服务器的链接，然后是RH Server Web
Submission。输入Email地址和提交号的区域已被说明。Email地址对于保证收到制图结果

是很重要的。提交号是一个可选择栏，它会同结果一起回执给用户，并且用于帮助工作人

员使结果组织化。如果STS的染色体分布已知，那么应输入到标有Chromosome Number的区

域。这个信息会增加制图软件测出一个正确连接的能力。

现在，将筛选数据粘到大型正文栏中，并按提交键。制图结果一般在几分钟内通过Email回

执。Stanford服务器以一系列相对基因标记物的位置返回制图结果。对于每个STS，服务器

会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离（以centirays为单位

）。尽管并不提供制图结果的图形显示，制图信息仍可用于和以上标出了用户的STS相对S

tanford图谱上的其它STS的位置的可浏览型图谱相结合。

CEPH YAC图

1993年，巴黎的CEPH（Centre dÉtudes du Polymorphisme Humain），与Gen

ethon合作，发表了人类基因组的第一张物理图谱。这张图由几套重叠YAC组成，形成连接

邻近基因标记物的途径。YAC重叠可由几种技术鉴定，包括YAC指纹印迹法（YAC fingerpr

inting）、与inter-Alu PCR结果杂交法、荧光原位杂交（FISH）和STS含量图。尽管YAC克

隆图大部分已被更方便的以STS为基础的图谱替代，对于要包括CEPH YAC库或以克隆为基础

的反应物的制图项目还是有用的。

由于YAC库中的高嵌合率，在两个通过指纹法或inter-Alu PCR杂交法确定相互重叠的YAC之

间，每一小步可能都很可能跨过基因组的一个物理距离。基于这一点，短距离比长距离更

可靠，这一概念已植入CEPH的词条“level”中。一个1级（level）途径，由两个锚定STS

组成，它们应至少有一个YAC直接连接。这类途径，与平面STS含量图中用于确定相邻关哮

域。这个信息会增加制图软件测出一个正确连接的能力。

现在，将筛选数据粘到大型正文栏中，并按提交键。制图结果一般在几分钟内通过Email回

执。Stanford服务器以一系列相对基因标记物的位置返回制图结果。对于每个STS，服务器

会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离（以centirays为单位

）。尽管并不提供制图结果的图形显示，制图信息仍可用于和以上标出了用户的STS相对S

tanford图谱上的其它STS的位置的可浏览型图谱相结合。

CEPH YAC图

1993年，巴黎的CEPH（Centre dÉtudes du Polymorphisme Humain），与Gen

ethon合作，发表了人类基因组的第一张物理图谱。这张图由几套重叠YAC组成，形成连接

邻近基因标记物的途径。YAC重叠可由几种技术鉴定，包括YAC指纹印迹法（YAC fingerpr

inting）、与inter-Alu PCR结果杂交法、荧光原位杂交（FISH）和STS含量图。尽管YAC克

隆图大部分已被更方便的以STS为基础的图谱替代，对于要包括CEPH YAC库或以克隆为基础

的反应物的制图项目还是有用的。

由于YAC库中的高嵌合率，在两个通过指纹法或inter-Alu PCR杂交法确定相互重叠的YAC之

间，每一小步可能都很可能跨过基因组的一个物理距离。基于这一点，短距离比长距离更

可靠，这一概念已植入CEPH的词条“level”中。一个1级（level）途径，由两个锚定STS

组成，它们应至少有一个YAC直接连接。这类途径，与平面STS含量图中用于确定相邻关系

的键或单键相类同。可以让研究者从一个STS跳到另一个，而无需跳过任何YAC/YAC连接点

。相反，一个2级途径，由两个锚定STS组成，不直接由单个YAC连接，而是由inter-Alu P

CR或指纹法确定在包含它们的两个或多个YAC间有一个重叠，所以2级途径需要跳过一个YA

C/YAC连接点。3级途径需跳过2个。4级需跳过3个，等等。尽管每一种的可靠性尚未经验性

证明，通过对一套CEPH数据的分析暗示4级或更高时可能不精确。而幸好CEPH途径中近90％

的基于间距为3级的或更低。

从CEPH服务器得到YAC重叠

CEPH图可以在其单位的网址上在线获得。这里可找到的链接有YAC库信息，也有一系列图谱

的后转录文件，用于制图的QuickMap软件，以及含原始图谱数据的文件。浏览CEPH图最好

的作用方法为下载QuickMap文件，安装并利用它来观看数据文件。然而，由于QuickMap只

在Sun工作站工作，这种方法已经不可行。CEPH也提供针对QuickMap的一种在线界面，在通

过标有Infoclone的链接处可以获得。这时会弹出一页，可以提交一个STS、或一个基因标

记物或一个YAC的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接，

可以从一个YAC的单一inter-Alu PCR杂交跳至另一个。

要得到数据，将浏览器连到CEPH的网址上。这会弹出ECPH Genethon网页。现在找到并选择

I链接，接下来的一页会要你在一个小文本栏中输入一个YAC或一个STS的名称。YAC应遵循

简便的plate_row_column（板块_排_列）格式，如923_f_6。对于STS，可以用GDB分配的D

－片断名（如果可得的话）或是实验室分配的研究名称。该文件只针对特定事例，所以输

入AFM20ZE3不会得到正确的名为AFM220ZE3的STS。也应注意YAC地址中排的名称应小写。

C/YAC连接点。3级途径需跳过2个。4级需跳过3个，等等。尽管每一种的可靠性尚未经验性

证明，通过对一套CEPH数据的分析暗示4级或更高时可能不精确。而幸好CEPH途径中近90％

的基于间距为3级的或更低。

从CEPH服务器得到YAC重叠

CEPH图可以在其单位的网址上在线获得。这里可找到的链接有YAC库信息，也有一系列图谱

的后转录文件，用于制图的QuickMap软件，以及含原始图谱数据的文件。浏览CEPH图最好

的作用方法为下载QuickMap文件，安装并利用它来观看数据文件。然而，由于QuickMap只

在Sun工作站工作，这种方法已经不可行。CEPH也提供针对QuickMap的一种在线界面，在通

过标有Infoclone的链接处可以获得。这时会弹出一页，可以提交一个STS、或一个基因标

记物或一个YAC的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接，

可以从一个YAC的单一inter-Alu PCR杂交跳至另一个。

要得到数据，将浏览器连到CEPH的网址上。这会弹出ECPH Genethon网页。现在找到并选择

I链接，接下来的一页会要你在一个小文本栏中输入一个YAC或一个STS的名称。YAC应遵循

简便的plate_row_column（板块_排_列）格式，如923_f_6。对于STS，可以用GDB分配的D

－片断名（如果可得的话）或是实验室分配的研究名称。该文件只针对特定事例，所以输

入AFM20ZE3不会得到正确的名为AFM220ZE3的STS。也应注意YAC地址中排的名称应小写。

除基因组图谱外，许多个体染色体物理图谱也由研究实验室和基因组中心构建起来了。在

很多情况下，这些图谱能比相应基因组范围图谱提供更详尽的信息。在GDB的来源页面上可

得到一个最新的表。另一张表由NHGRI的网址保存。

3．鼠类图谱来源

现在对鼠类作物理图活动最多的地点是Whitehead Institute/MIT Center for Genome Re

search，而且一张murine STS/YAC含量图已经被构建起来了。这张图，最终将在24000个Y

AC上含有10000个STS。

MIT的物理图谱可以在Whitehead的主页上在线浏览。先按下Mouse Genetic and Physical

Mapping Project（鼠类基因图和物理图制图项目）的链接，然后向下滚动到标有鼠类ST

S物理图谱的部分。这一部分与Whitehead人类物理图谱有相同的搜索项和用户界面，但是

放射性杂交图数据还不可得。

在Whitehead网址上还可以得到基于6331个简单相邻长度多态性的鼠类物理图谱，以及这张

图与Copeland/Jenkins限制性片断长度多态性图的整合。这些RFLP图，分辨率为1.1cM。分

辨率更高的鼠类基因图正由European Collaborative Interspecific Mouse BackCros项目

得到。该图最大的理论分辨率将会达0.3cM，并且可以在ECJMBC的主页上在线得到。到199

7年5月已完成5条染色体。

The Mouse Genome Database（MGD）是由Bar Harbor的Jackson Laboratory维持的一个大

型鼠类基因信息的公用数据库。尽管它基本上还是一个基因图库，MGD还是保留了很多物理

图谱信息，包括细胞遗传图谱和synteny图，将来一旦得到数据就会加进去。MGD可在Jack

son Laboratory的主页上得到。按下标有Mouse Genome Informatics的链接，然后是标有

Mouse Genome Database的链接，可得到用于不同研究的一个起始网页。在所列选项中包括

目录检索、基因和标记物符号检索、以及多态性检索。

CEPH YAC图
http://www.cephb.fr/ceph-genethon-map.html

CHLC图
http://www.chlc.org

ECIMBC主页
http://www.hgmp.mrc.ac.uk/MBx/MbxHomepage.html

Entrez主页
http://www.ncbi.nlm.nih.gov/Entrez/

Entrez全览页
http://www.ncbi.nlm.nih.gov/Entrez/nentrez.overview.html

GDB主页
http://gdbwww.gdb.org/

GDB来源页
http://gdbwww.gdb.org/gdb/hgp_resources.html

Genethon FTP站点
ftp://ftp.genethon.fr/pub/Gmap/Nature-1995

I.M.A.G.E. Consortium
http://www.bio.llnl.gov/bbrp/image/iresources.html

Jackson实验室
http://www.jax.org/

NHGRI来源页
http://www.nhgri.nih.gov/Data/

Science转录物图谱
http://www.ncbi.nlm.nih.gov/Science96/

。目前，我们有了越来越多的模式生物全基因组序列数据，因此，基因的比较研究，也必

须从基因的比较，上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研

究将更有效地揭示基因在生命系统中的地位和作用，解释整个生命系统的组成和作用方式

。

对伴随人类基因组而完成的大量微生物完整基因组的信息分析，不仅将直接帮助破译人类

遗传密码，其本身也可能解决重大的科学问题。因此，由完整基因组研究所导致的比较基

因组学必将为后基因组研究开辟新的领域。

11.6.4 SNP的发现

人类基因组计划持续产生大量序列数据，清楚表明不同个体在整个基因组有许多点存在DN

A序列的基本变异。最常见的变异发生在分散的单个核苷酸位置，即单核苷酸多态性（SNP

s），估计发生频率大约每1000个核苷酸有1个。那么，没每1000个核苷酸，具有一个群体

的基本频率的任何一个双拷贝染色体之间的在任一个位置平均核苷酸的一致性是不同的。

SNPs是双等位基因多态性，即多原则上态性位点的核苷酸一致性通常在人类中倾向于二分

之一的机率，而不是四核苷酸机率。

SNPs在人类遗传学研究中有重要意义。首先，一组SNPs发生在蛋白质编码区。特定的SNPs

等位基因可被认为是人类遗传疾病的致病因子。在个体中筛选这类等位基因可以检查其对

之一的机率，而不是四核苷酸机率。

SNPs在人类遗传学研究中有重要意义。首先，一组SNPs发生在蛋白质编码区。特定的SNPs

等位基因可被认为是人类遗传疾病的致病因子。在个体中筛选这类等位基因可以检查其对

疾病的遗传易感性。其次，SNPs可作为遗传作图研究中的遗传标记，帮助定位和鉴定功能

基因。推算3000个双等位SNP标记将足够进行人类全基因组作图；100,000或更多的SNPs能

够在更大的群体中进行有效的遗传作图研究。因此，需要发展进行大量SNP分析的廉价高效

技术，包括DNA芯片技术，MALDI-TOF质谱等。

SNPs是人类遗传多样性最丰富的形式，可用做复杂遗传性状作图。通过高通量的测序项目

的得到的大量数据是丰富的大部分没接上的SNP来源。这里介绍一种认一DNA来源的遗传序

列数据变异发现的整体途径。计划用迅速出现的基因组序列作为模板放置没有作图片段化

的序列数据，并用碱基质量数值区别真正的等位基因变异与测序错误。

上一页下一页返回目录返回茶庄

--

※ 来源:．哈工大紫丁香 http://bbs.hit.edu.cn [FROM: 202.118.229.86]

Biology 版 (精华区)