精华区文章阅读

人类基因组计划
    几十年来，人们对人类遗传学的研究，已将16,000种基因在
染色体上定位，即知道这些基因突变所设计的DNA片段的位置。
这当然是很重要的成就，但是，对了解整个基因组所包含的100,000
个基因来说只是一小部分。怎样才能使人们对整个基因组的结构和
功能有一个全面的了解呢？这就要靠人类基因组计划。
  1985年美国能源部(DOE)提出，要对人类基因组全部DNA的碱基序列，
约3×109碱基对(bp)分析清楚，以解决上述问题。1986年，美国宣布
成立"人类基因组启动计划"。1989年，美国国家卫生研究院(NIH)建
立了国家人类基因组研究中心(NCHGR)。1990年，NIH和DOE联合提出
了美国人类基因组计划(HGP)，从1990年10月1日起，到2005年9月30日
完成，耗资30亿美元。
  由于人类基因组计划的科学意义重大，一般认为其重要性不亚于
60年代的人类登月计划，他将推动整个生命科学的发展。一旦人类
基因组计划完成，必将揭示一些危害人类健康的多基因病，如冠心病、
高血压、糖尿病、癌、精神病、自身免疫性疾病等复杂疾病的病因，
弄清致病基因或易感基因，建立对各种疾病的诊断和治疗方法，从而
为人类的健康做出重要贡献。同时，它也必将带动农业、工业进入新
的发展时代，使社会生产力极大地提高，解决人类所面临的粮食问题
和环境问题。正因为如此，欧共体、日本、加拿大、澳大利亚、俄国
等先后提出了各自的HGP，并且建立了国际协作的人类基因组组织(HUGO)，
以协调国际间的合作。我国也于1993年，开始了人类基因组的研究，
建立了人类基因组计划(CHGP)。1996年，在我国北京召开了第二届
人类基因组南北会议。几年来，人类基因组的研究取得了令人瞩目
的进展。
   人类基因组的研究包括遗传图绘制、物理图构建、测序、转录
图绘制和基因鉴定等几方面的工作。近年来的发展已形成了一门专
门的学科，称为基因组学(genomics)。这包括(1)结构基因组学，
即着重遗传图、物理图、测序等方面的研究；(2)功能基因组学，
这包括以转录图为基础而建立的人类基因组功能制图，即基因组
表达图；(3)比较基因组学，这包括对不同进化阶段生物基因组的
比较研究，也包括不同人种、族群、群体基因组的比较研究。此外，
也发展建立了工业基因组学、环境基因组学、药物基因组学、疾病
基因组学等多种分支学科。
  以下仅就人类基因组计划的研究及其进展略作介绍。
一、遗传图的绘制
遗传图也称为连锁图，遗传图的绘制是人类基因组研究的第一步，
即利用染色体上某一点为遗传标记，以与此遗传标记相伴遗传的
特征为对象，经过连锁分析，将该特征的基因定位于某染色体的
一定位置上。例如，已知ABO血型基因中的基因IA决定抗原A的存
在，即A型血型，基因IA位于人类染色体长臂的3区4带(9q34)。
由于ABO是广泛存在的表型特征，所以可用它来做遗传标记。又
在某一家庭中观察到指甲髌骨综合征与A型血相伴遗传，我们可以
认为这种病的致病基因(NP)与IA基因相连锁，即也位于9q34。但是，
又观察到在这个家庭中的后代中，有1/10的人有A型血而无指甲髌骨
综合征，这表明在IA基因和NP基因之间发生了交换，交换率(或称
重组率)为1/10。这时，我们说IA基因和NP基因在9号染色体上相距
较近，为10厘摩(cM)。cM是连锁图的图距单位，重组率1%即为1cM。
现在知道，连锁图中的1cM大体上相当于DNA分子中一百万个碱基对
(1Mb)那么远。一个人类基因组共有约3600cM，如果只用已知定位
的少数几个基因作遗传标记，则遗传标记数目太少，很难绘制完
整的连锁图。
  人类基因组DNA中，存在着大量的"微卫星"，它是长约2~6个bp的
短串联重复的序列，在染色体的某一点上可重复几次到几十次，
称为短串联重复(STR)。STR在染色体上散在分布，数量很多，可
多达6000多个，而且不同个体的STR其重复次数是不同的。例如，
有的人某个STR，如(CA)n重复20次，另外的人可以重复16次、
23次、30次-……，所以称为短串联重复多态(STRP)。STR的存
在就为遗传图的绘制提供了丰富的遗传标记，利用这些遗传标
记就可以绘制完整的连锁图了。以STR两侧的基因作定点标记，
用聚合酶链反应(PCR)和自动化、电脑化方法，1996年已建成完
整的连锁图，两个遗传标记建的平均距离仅0.7cM(图1)。

二、物理图的构建
遗传图是通过连锁分析所确认的各基因间的相对位置，物理图
则是染色体上个DNA片段的实际顺序。这首先靠一种限制性内切
核酸酶(限制酶)，来将DNA切成一个个大小不同的片段，然后再
将这些片段搭配起来，构成连续的序列。例如限制酶EcoR1可识
别DNA分子中的6个碱基，G↓AATTC，并在G与A之间切开DNA分子，
使之成为两个片段。一个DNA分子中含有多数G↓AATTC系列，所
以如果用EcoR1来进行酶切，可切割成很多DNA片段，每个片段平
均约长3000碱基对(3kb)。这种限制酶所切割出的DNA片段太多、
太小，不利于DNA片段的排序。有一类稀有的限制酶，如NotI，可
以识别DNA分子中的8个碱基，GC↓GGCCGC，并在C与G之间切开DNA
分子。由于DNA分子中这样的序列比较少，所以用它酶切后，可将
DNA分子切割成约近于百万碱基(Mb)大的片断。这样，就有利于将
切出的DNA片段排序。不过，Mb大小的DNA片段，用一般的聚丙烯酰
胺凝胶电泳法，不能将它分开，必须用脉冲场凝胶电泳法才能分
离这样大的DNA片段。
  此外，在进行DNA分子克隆时，也不能用细菌质粒或噬菌体来运载
并在大肠杆菌中进行克隆，因为质粒或噬菌体容纳不了这么大的DNA
片段。所以，必须用一种特殊的载体--酵母人工染色体(YAC)导入酵母，
在酵母细胞中进行克隆。这里所谓克隆，是指分子克隆，即由一个DNA
分子复制成多数结构完全相同的DNA分子。YAC的结构如图2所示，它有
一个着丝粒(CEN)、两个端粒(TEL)及一个自主复制序列(ARS)，这是作
为一个染色体所必需的片断。此外，还有BamHI和EcoRI限制酶切点，
TRP和URA3是酵母色氨酸营养缺陷型的野生型等位基因，在相应的营
养缺陷性酵母宿主细胞中可作为选择性标记。pBR322的Ori和Amp提供
了YAC在大肠杆菌中存在和复制的可能性，便于制备载体DNA。Sup是
酵母酪氨酸赭石突变校正基因，当外源DNA插入时，该基因被隔断，
使宿主菌落由白色转为红色。
  由于YAC中可以插入0.5~2Mb的DNA大片段，所以它是运载大片段DNA、
并在酵母细胞中进行克隆的极好工具。YAC中的DNA大片段是靠系列标
记位标(STS)来识别的。STS是一段200~500bp的已知系列，在染色体
上有一定的位置，所以用STS作位标可将不同YAC克隆排列成邻接克
隆群(contig) (图3)。
  现在，人来基因组24条染色体的YAC contig、Bac contig、
P1 contig均已建立，约100Kb物理图已基本绘制完成，并已开始
进行大规模测序。
三、测序
  以YAC克隆位基础而建立的contig，由于运载的DNA片段太大，
不适于测序，需要另外的几种载体来进行克隆以弥补这一缺陷。
细菌人工染色体(BAC)可运载约300Kb的DNA片段，噬菌体人工染
色体(P1)可运载约100Kb的DNA片段，粘粒(cosmid)可运载约40~50Kb
的DNA片段，细菌质粒则可运载约10Kb的DNA片段。这几类载体的运用，
就使YAC克隆的DNA大片段可先分解成相应克隆的小片段，便于测序(图4)。
  测序一般一次只能测定不超过1000bp，然后用已知序列的下游部分
合成引物而进行另一次测序，这样一步步地"步行"，逐步完成较大
片段的序列测定。因此，需要先用质粒建立多数克隆，形成质粒文
库，对这些质粒克隆进行测序，然后用电脑进行搭配成contig。
  由于测序的自动化和机器人的应用，现在，一天可进行10万个测
序反应。现已完成人类基因组80Mb的测序，约占全基因组的5~6%。
一些著名实验室如华盛顿大学、Baylor医学院均已完成几个到几十
个Mb的测序，错误率仅为1/10,000。这表明测序速度和准确性已有
很大的提高，看来在2005年完成全部基因组的测序，没有什么问题。
四、转录图的绘制
  生物的性状，包括疾病都是由蛋白质决定的，而所有蛋白质都是由
mRNA编码的，mRNA又是从DNA转录而来的。人类基因组中只有1~5%的
DNA是编码的序列(基因)。在成人中，每一种组织中只有约10%的基
因是表达的，即是转录和翻译为蛋白质的。所以，建立转录图(或从
mRNA逆转录而来的cDNA图)是分离、定位和克隆基因的关键。
  这里，表达序列位标(EST)有重要意义。EST是长约100~300bp的cDNA
片段，它在染色体上的位置不明，但是它是表达基因的一部分。EST由
于序列比较短，很难在染色体上定位，只有筛到较长的基因片段(>1Kb)，
才能用荧光原位杂交(FISH)法在染色体上定位。
  EST可以用工业化的程序生产，只要分离到某一发育阶段的某一组
织的mRNA，就可以用逆转录的方法从mRNA合成相应的cDNA片段，即EST，
而且用它作探针，就可以从基因组文库中筛到全长的基因序列。至1998
年2月为止，已发现约92万条EST，这大约包括90%的基因，94%的癌基因
和抑癌基因。看来，转录图的制作有了好的开始，但这时后基因组计
划的工作。
五、基因的鉴定
  鉴定有功能的基因，可以用定位克隆、候选克隆和
功能克隆三种方法进行。
(一) 定位克隆
定位克隆首先是定位，然后是克隆该基因。这一般是选定一个
多态性致病基因座位，在这个座位上至少有两个等位基因，一
个是正常的，一个是致病的。选定一个家系，用6000多个STR
位标对患者进行一一分析。如果发现致病基因与某一STR重组
率为50%，就表明它们之间不连锁，可将它们从这一STR标记
附近排除；如果发现致病基因与某一STR重组率小于50%，就
表明该致病基因位于该STR标记附近；如果发现致病基因与某
一STR标记间的重组率为0，就表明该致病基因已非常接近STR
位标。这就是全基因组扫描策略。这里，包括3~4代，有多个
患者的大家系是至关重要的，以为这种情况下，容易确定出单
体型，检出重组事件机率比较高，比较容易确定重组点，并
容易缩小定位的区域。
  有了大家系，就应该作"基因分型"，即对家系中每一个个体
的DNA进行分型，定出每一个个体的标记等位基因。先用选定的
STR的引物进行PCR反应，纪录所得等位基因片段的数目与长度，
确定该个体在该座位上的基因型。完成全部检测以后，输入
电脑进行分析。
  注意，应选择更多的STR标记，以求得最邻近的STR标记，
这就使候选区大为缩小。
  得到适当的候选区后，就要构建YAC contig。这可以从数
据库查询，直接拿到所有的YAC 克隆，以此来构建YAC cont
ig，进行筛选。如果需要，还应用BAC contig和PI contig来
筛选。
  筛选中，从侯选区筛选编码的系列是定位克隆的重要途径。
这用cDNA文库直接筛选的方法是简单易行的。用PCR法进行
cDNA选择是常用的方法。将基因组DNA片段固定在2mm的尼龙
膜上，以cDNA文库的PCR产物作探针与之进行分子杂交，再用
PCR技术扩增那些能杂交到尼龙膜上的cDNA片段。得到cDNA片
段以后，首先要将待测基因组基因片段进行染色体定位，
然后进行序列分析，将序列送进GenBank查询，查看是否与
已知基因有一定程度同源。最后，进行致病基因突变的筛选，
这可用DNA单链构象多态(SSCP)法进行，如能确认突变，即完
成基因鉴定。例如乳腺癌基因(Brca I)就是用这种方法克隆鉴定的。
(二) 候选克隆
候选克隆是在人类基因组计划的进展基础上，已定位、克隆基因
愈来愈多的情况下，产生的一种新捷径。这又包括定位候选克隆
和功能候选克隆。
1. 定位候选克隆是在将致癌基因经连锁分析基本定位以后，
从GDB中检索该标记附近所有的已知基因、EST，用他们直接
进行突变的筛选。
2. 功能候选克隆是根据致病基因的可能功能，检测GDB或
GenBank中的基因功能域，将近于功能域的基因用于致病
突变的检测。例如Marfan综合征的致病基因经过大家系分
析定位于15q21以后，几乎同时，原纤维蛋白基因(FBN1)
也定位在15q21，从生物化学分析上看，二者很可能在功
能上有联系，从而将FBN1定为候选基因。以后经突变检测，
证实了FBN1即为Marfan综合征的致病基因。
(三) 功能克隆
功能克隆是从蛋白质功能着手分离基因的策略。例如镰状
细胞贫血可能是红细胞的血红蛋白异常所致，这是构成珠
蛋白的氨基酸改变造成的。按珠蛋白的氨基酸序列设计了
核苷酸片段，以此为探针筛选有核红细胞的cDNA文库，得
到了β珠蛋白基因的cDNA，比较正常人和患者的cDNA，从
而确定了突变类型。这样，就确认了镰状细胞贫血的致癌
基因。现在，用各种方法已定位了16000个基因，并已
克隆了844个基因。
六、人类基因组的多样性
    不同人种、不同民族、不同群体在其遗传性状上，
特别是对疾病与对致病病原体的易感性或抗性上是不同的。
例如广东人易患鼻烟癌而世界其他地区的发病率则很低；
又如海南岛黎族人不患钩端螺旋体病而当地汉族人则可以
感染而患病；再如河南林县和山西阳城地区的人易患食管癌
而其他地区的人群则只有低的发病率。这提示对人类不同基
因组的研究的重要性，这方面的研究对人类疾病的诊断、防
治有重要意义。此外，对古代人类DNA的研究可为弄清人类
进化的历史提供最有说服力的证据。例如，最近对已灭绝的、
与现代人近缘的尼安德特人的线粒体基因组的比较研究，就是
很好的范例。所以，对人类基因组多样的研究日益受到重视。
现在，国际上已建立了人类基因组多样性计划(HGDP)。
七、中国的人类基因组计划
我国的人类基因组计划启动于1993年，第一阶段至1997年，
共选了4方面的课题：
(一) 我国东北和西南地区少数民族基因组的保存
由于改革开放，社会文化的进步，原来隔离、封闭的少数
民族地区，由于民族间的通婚正日益普遍，因而如何将有
特色的少数民族基因组保存下来已成为迫切的问题。这主
要靠用EB病毒感染外周血淋巴细胞，以获得永生细胞系，
然后在液氮中保存。需要时，复苏后即可用作研究材料。
4年来的工作进展是令人满意的，不仅建立了12个少数民族
733个永生细胞系，而且对一些基因座位进行了比较研究。
最近，我国又参与了法国CEPH的细胞库，这必将为基因组
多样性的研究提供更为便利的条件。
(二) 新技术的发展
    由于我国的人类基因组计划起点低，必须不断引入和
发展新技术，才能迎头赶上，跟上国际上的进展。这方面
如YAC克隆库、BAC克隆库的引入，cosmid克隆库的建立，
mRNA差异展示技术、比较基因组杂交技术等的引入对我国
基因组研究的进展均起到一定的推动作用。
(三) 致病基因的分离
结合我国临床资料分离、克隆某些致病基因，既可对一些
疾病的防治提供重要的手段，又可丰富人类基因组制图的
内容，几年来，上海第二医科大学陈竺院士的实验室对早
幼粒白血病的研究，在有t(15;17)(q22:q21)易位的患者中
发现PML-RARα融合基因；在有t(11;17)易位的患者中也发
现PML-RARα融合基因。异常的RARα融合基因的显性副作用
抑制了野生型RARα基因的活性，而导致了早幼粒白血病。
他们还发现用全反式维甲酸可有效地治疗白血病。
湖南医科大学夏家辉教授的实验室对外生骨疣Ⅱ型进行
基因定位和克隆分析，将该基因(EXT2)定位于11p11，并
克隆了该基因。EXT2的cDNA全长3003bp，编码728氨基酸，
并可能为一致癌基因。
  中国医学科学院肿瘤研究所吴闽院士的实验室和上海市肿
瘤研究所顾建人教授的实验室分别用消减杂交法和mRNA差
异展示法，发现食管癌的特异缺失DNA片段和肝癌在17p上
的缺失DNA片段。中山医科大学在鼻咽癌的3p和7q上发现杂
合性丢失。
此外，复旦大学等单位的科学家先后获得了约100条新
基因的全长cDNA。旻
(四) 生物信息学
  中国科学院生物物理所陈润生教授在生物信息学方面做
了大量工作，已建立了生物信息学的服务系统。在吴旻教
授倡导下，中国医学科学院肿瘤研究所建立了"你好计划"，
这是一个生物信息导航系统。
以上情况表明，我国的人类基因组计划的启动，已经取得了
良好的开端。
(五) 未来的展望
  我国是世界上的人口大国，拥有约占全世界人口的22%，由55个
少数民族，其中包括了丰富的疾病人群资源。保护和利用这种
资源，首先要建立中华民族基因资源库，用微卫星或单核苷酸
多态(SNP)等遗传标记，并创造条件，采用DNA芯片和显微矩阵
(microarray)技术进行基因分型，迅速获得一批完整的基因频
率。在此基础上进行比较研究，为探明中华民族的各群体的起
源以及亚洲大陆现代人的起源做出贡献。
  其次，要瞄准对疾病相关基因的探索，尤其是对多基因病致病
基因的分析，揭示基因组与环境因子、致病因子的相互作用，
阐明疾病易感性或抗性的遗传基础。也就是说，要发展疾病基
因组学(morbid genomics)的研究。
  再有，就是应该完成部分DNA测序，以与国际上的人类基因
组研究接轨，这方面的工作应立即开展，以作出我国应有的贡献。
  此外，还要加强功能基因组学的研究。这方面首先需要发展生物
信息学，开发新的计算方法和新软件，为识别人类新基因及
对其功能的研究做出贡献。
  最后，应重视对基因组研究中的伦理、法律、社会问题，
制定既符合国际准则又适合我国国情的一些对策，如"知情
同意"原则。还应在各层次上进行国际上学科间的交流，并
及时向广大群众宣传、教育，以提高全民的认识。

Biology 版 (精华区)