您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物竞赛-生物信息学部分-核酸序列比较
121认识序列序列(sequence)就是个字符串(string)。s=abcdefghijklmnopqrstuvwxyzsi代表序列s的第i个字符,比如s4=ds’=abcde,序列s’是序列s的子序列(substring)3nameCTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTGAGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAGCGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTGGCCTAGCTACCATCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCTTGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCCTCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGGGAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT核酸序列:由4个不同的字母(碱基)排列组合而成。(DNA序列,RNA序列)FASTA格式:第一行:大于号加名称或其它注释第二行以后:每行60个字母(也有80的,不一定)1认识序列:核酸序列4nameMHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSGDSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVTRGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAARNVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSFGVVMWEVLAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPRFSQIVSVLDALIRSPESLRATATVS蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。FASTA格式:第一行:大于号加名称或其它注释第二行以后:每行60个字母(也有80的,不一定)1认识序列:蛋白质序列5在麻将连连看中,你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。2序列相似性•数据库中的序列相似性搜索6对于一个蛋白质或核酸序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用眼睛比较一对序列都是不可能做到的。……BLAST2序列相似性•数据库中的序列相似性搜索7•序列相似性的重要性相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。相似的序列相似的结构相似的功能2序列相似性8结构相似?功能相似?•序列相似性的重要性相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。2序列相似性9结构相似?功能相似?•序列相似性的重要性相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。2序列相似性10一致度:如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。•序列一致度(identity)与相似度(similarity)2序列相似性111.等价矩阵(unitarymatrix):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。2.转换-颠换矩阵(transition-transversionmatrix):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环数不变,则成为转换,如A→G、C→T;如果环数发生变化,则成为颠换,如A→C、A→T等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。3.BLAST矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。ATCGATCGATCGA1000A1-5-5-1A5-4-4-4T0100T-51-1-5T-45-4-4C0010C-5-11-5C-4-45-4G0001G-1-5-51G-4-4-45①②③3替换记分矩阵•DNA序列的替换记分矩阵121.等价矩阵(unitarymatrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blockssubstitutionmatrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性≥80%的序列计算而来,同理,62是指该矩阵由一致性≥62%的序列计算而来。3替换记分矩阵•蛋白质序列的替换记分矩阵131.等价矩阵(unitarymatrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blockssubstitutionmatrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性≥80%的序列计算而来,同理,62是指该矩阵由一致性≥62%的序列计算而来。3替换记分矩阵•蛋白质序列的替换记分矩阵PAM-250矩阵对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。141.等价矩阵(unitarymatrix):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2.PAM矩阵(Dayhoff突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n,即发生了更多次突变。3.BLOSUM矩阵(blockssubstitutionmatrix):BLOSUM矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1矩阵的产生是基于相似性较高(85%)的序列比对,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。和PAM矩阵一样,BLOSUM矩阵也有不同编号,如BLOSUM-80,BLOSUM-62。80代表该矩阵是由一致性≥80%的序列计算而来,同理,62是指该矩阵由一致性≥62%的序列计算而来。3替换记分矩阵•蛋白质序列的替换记分矩阵15BLOSUM-62对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。3替换记分矩阵•蛋白质序列比对的替换记分矩阵163替换记分矩阵•蛋白质序列替换记分矩阵PAM-?还是BLOSUM-?BLOSUM-80BLOSUM-62BLOSUM-45PAM-1PAM-120PAM-250亲缘关系较近的亲缘关系较远的序列之间的比对序列之间的比对对于关系较远的序列之间的比较,由于PAM-250是推算而来,所以其准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之间的比较,用PAM或BLOSUM矩阵做出的比对结果,差别不大。最常用的:BLOSUM-6217一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。•序列一致度(identity)与相似度(similarity)2序列相似性序列1:CLHK序列2:CIHL一致度=2/4=50%相似度=3/4=75%18•序列一致度(identity)与相似度(similarity)2序列相似性BLOSUM-62对角线上的数值为匹配氨基酸的得分;其他位置上,≥0的得分代表对应氨基酸对为相似氨基酸。19一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。相似度:如果两个序列(蛋白质或DNA)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。问题:哪个残基与哪个残基算作相似答:残基两两相似的量化关系被替换记分矩阵所定义。•序列一致度(identity)与相似度(similarity)2序列相似性序列1:CLHK序列2:CIHL一致度=2/4=50%相似度=3/4=75%20一致度:如果两个序列(蛋白质或DNA)长度相同,那么它们的一
本文标题:生物竞赛-生物信息学部分-核酸序列比较
链接地址:https://www.777doc.com/doc-5131974 .html