Math 版 (精华区)
发信人: Car (ambivalent), 信区: Math
标 题: 数学建模A题。
发信站: 哈工大紫丁香 (2000年09月28日07:14:13 星期四), 站内信件
A题 DNA序列分类
2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列
图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的"天书"。这本大
自然写成的"天书"是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有
"断句"也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的"内容"知之
甚少,难以读懂。破译这部世界上最巨量信息的"天书"是二十一世纪最重要的任务之一
。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中
隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要
的课题之一。
虽然人类对这部"天书"知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在
全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符
串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序
列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结
构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,
等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的
结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某
些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方
法往往有助于研究规律性和结构。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
1)下面有20个已知类别的人工制造的序列(见反面),其中序列标号1-10 为A类,
11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方
法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21
-40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写
入):
A类 ; B类 。
请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要
将方法名称准确注明。
这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:
网易网址:www.163.com 教育频道 在线试题;
教育网: www.cbi.pku.edu.cn News mcm2000
教育网: www.csiam.edu.cn/mcm
2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。
用你的分类方法对它们进行分类,像1)一样地给出分类结果。
提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取
序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或
构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等
。
Art-model-data
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttg
tctacggccggaagtgaagggggatatgaccgcttgg
2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaagg
aaggcggctggaacaaccggacggtggcagcaaagga
3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacg
gaggaaggagggcggcaatcggtacggaggcggcgga
4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaa
atttgtattattatggtatcataaaaaaaggttgcga
5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcgg
aaaggcggagggctggcaggaggctcattacggggag
6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagt
ggatattaggagggcggaataaaggaacggcggcaca
7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaa
aggactaggaatcggcggcaggaaggatatggaggcg
8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggag
gcggaccataggaggcggattaggaacggttatgagg
9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgt
gggcggcggcagcgctggccggagtttgaggagcgcg
10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcg
cacgctcggcgcggcaggaggcacgcgggaaaaaacg
11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatc
caacgtttttattactttttaaaattaaatatttatt
12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttt
taaggtagttatttaattatcgttaaggaaagttaaa
13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccg
aattattttctttaaagacgttacttaatgtcaatgc
14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttca
tattctaatctgtctttattaaatcttagagatatta
15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaattttttttttt
ttttttttttttttttttttaaaatttataaatttaa
16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataa
tgtaaacttattgaatctatagaattacattattgat
17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaa
tcaatccctaaacccttaaaaaacggcggcctatccc
18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtccta
tagagaaattacttacaaaacgttattttacatactt
19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttacttt
ttttcttctttatataggatctcatttaatatcttaa
20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaactttt
gtttctttaaggattttttttacttatcctctgttat
21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtacc
gtaatttagcttagatttggatttaaaggatttagattga
22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggatt
ccggaaagccgattaaggaccgatcgaaaggg
23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttccc
gggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagccttt
aaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt
25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaag
ctgacgggcaattgcaatttaggcttaggcca
26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgca
gctcagttttaacgcgggatctttagcttcaagctttttac
27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaagg
acgctggtttagccagtccgttaaggcttag
28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttag
acgttagggcttatcagttatggattaatttagcttattttcga
29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcgg
tttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagta
atttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta
31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagc
aatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgttta
gtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg
33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttag
ctaggaatttatgctgacgtagcgatcgactttagcac
34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggct
gacgctaggcttaggttggaacccggaaa
35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataa
aagttaagggaccggtaagtcgcggtagcc
36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgc
aaaagtccccagctttagccccagagtcgacg
37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaagga
ggcccaccgggtagatgccasagtgcaccgt
38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatt
tacgtataatttgaccttattttggacactttagtttgggttac
39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagc
taccgtttaccgtacgttgcaagtcaaatccat
40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctt
tgaaatttttggactagcttaccctggatttaacggccagttt
--
尘世间最远的距离不是天涯海角,
而是我在你身边,你却不知我爱你!
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.247.254]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.573毫秒