您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 科内培训-基因变异的表述方法
基因变异的表述方法武汉分子生物学实验室陈然KGDiagnosticsConfidential上集回顾@DNA的化学结构。@查找序列。@正义链和反义链。@碱基书写顺序。@mRNA和前体mRNA。@外显子和内含子。@CDS和UTR。@外显子≠CodingDNA。@全基因突变、热点突变和已知突变。KGDiagnosticsConfidentialHGVS规范了基因及蛋白的变异表述表述不统一将造成互相理解障碍KGDiagnosticsConfidential“突变”与“多态性”的不同Mutation突变Change改变(罕见的)Disease-causingchange致病改变Polymorphism多态性Changein1%inpopulation人类群体中大于1%的改变Notdiseasecausingchange不致病的改变KGDiagnosticsConfidential建议使用的词语Mutation突变Polymorphism多态性负面正面建议使用中性词Variant/Alteration变异CNV拷贝数变异SNV(NotSNP)单核苷酸变异KGDiagnosticsConfidential“指南”的定义——《测序技术的个体化医学检测应用技术指南(试行)》国家卫生计生委个体化医学检测技术专家委员会制定KGDiagnosticsConfidentialPGM中的VariantKGDiagnosticsConfidentialVariantCaller的导出结果写成“SNV”为好KGDiagnosticsConfidential报告有待规范写成“变异”为好KGDiagnosticsConfidential规范的基因名称-1网址:或搜索引擎搜索关键词“HGNCgene”KGDiagnosticsConfidential规范的基因名称-2KGDiagnosticsConfidential参考序列出处-1基因的核酸信息包括染色体基因组DNA序列和mRNA序列,核酸信息参考NCBIGenBank核酸序列数据库参考序列(ReferenceSequence,RefSeq)。基因组DNA序列GenBank注册号前面用NT、NC或AC加下划线进行标注,其中以“NT_”标注的序列为BAC克隆或鸟枪测序法获得的不完整的基因组测序序列。如10号染色体上的片段NT_030059,同一序列号有不同的版本号时,后面用点加版本号表示,如NT_030059.14。成熟mRNA转录本序列的注册号前用NM加下划线(NM_)进行标注。微小RNA(microRNA,miRNA)的核酸序列信息参考miRBase序列数据库,miRNA前体序列前用“MI”标注,miRNA的成熟体序列前用“MIMAT”标注。——《测序技术的个体化医学检测应用技术指南(试行)》国家卫生计生委个体化医学检测技术专家委员会制定KGDiagnosticsConfidential参考序列出处-2美国国立生物技术信息中心(NCBI)收录的参考序列编码具有权威性及唯一性。其中前缀“NM_”表示为mRNA序列,“NP_”表示多肽序列,“NG_”表示基因组序列。基因组参考序列应列出完整基因序列,包括5'以及3'非编码区(UTR)。当使用某段编码DNA参考序列描述突变时,应选择合适的转录体,且转录体的起始转录点应当明确,例如选择最常见的转录体,或者是已知的最大转录体,或者具有组织特异性的编辑转录体。当某一参考序列具有多种转录方式时,选择NCBI数据库里注释最全面的版本。——《肿瘤个体化检测治疗指南(试行)》国家卫生计生委个体化医学检测技术专家委员会制定KGDiagnosticsConfidential参考序列出处-HGVS有不同看法HGVS建议使用LRG(LocusReferenceGenomic)序列作为首选参考序列。如果该基因没有LRG序列,则采用RefSeq作为参考序列。HGNC的页面KGDiagnosticsConfidentialLRG序列的web页面点击这些绿色的+号得到有意思的内容KGDiagnosticsConfidential前缀——应指出突变位于哪种序列中“g.”表示基因组序列,如g.476AT。“c.”表示CodingDNA(编码DNA)序列,如c.76AT。“m.”表示线粒体DNA序列,如m.8993TC。“r.”表示RNA序列,如r.76au。“n.”表示非编码RNA序列。“p.”表示蛋白质序列,如p.Lys76Asn。对于DNA变异的表述,“c.”优于“g.”——直观地得知该变异点在外显子上还是内含子上,会不会造成氨基酸编码改变,与表型联系起来。KGDiagnosticsConfidential序列位置编号-1基因组、线粒体DNA、RNA、非编码RNA、蛋白序列:以参考序列的第一个碱基或氨基酸确立为1,直接数其在对应参考序列中的位置即可。如:g.476,m.9222,p.76。KGDiagnosticsConfidential序列位置编号-2CodingDNA(编码DNA)序列:•将CodingDNA看成连续的(排除内含子间隔),以起始密码子ATG的第一个碱基A确立为1,以终止密码子的最后一个碱基确立为结束N。若碱基在CodingDNA范围内,则其位置为1~N区间内的自然数,如c.112。•起始密码子ATG的上游的第一个碱基确立为-1,一直向5’端推移编号为-2、-3……,整个5’UTR区域位置均为负数表示,如c.-72。——没有“0”碱基。•终止密码子下游的第一个碱基确立为*1,一直向3’端推移编号为*2、*3……,整个3’UTR区域位置均为“*自然数”表示,如c.*85。•对于内含子起始片段内的位点,以上一外显子最后一个碱基的位置、加号和距离这个碱基的位置表示,如c.77+1;对于内含子末端的位置,以下一外显子第一个碱基的位置、减号和距离这个碱基的位置表示,如c.77-2。——“+”和“-”的分界线需谨慎决定。•5’UTR若有内含子,内含子上的碱基位置以“-23+1,-23+2,...,-22-2,-22-1”形式表示;3’UTR若有内含子,内含子上的碱基位置以“*154+1,*154+2,...,*155-2,*155-1”形式表示。不建议使用c.IVS1+1G,c.IVS1-2G形式的表示(IVS:interveningsequence)。原因:外显子/内含子的编号比CodingDNA编号更易引起混乱。KGDiagnosticsConfidential序列位置编号-列表举例KGDiagnosticsConfidentialc.171c.247c.246c.312序列位置编号-外显子&内含子举例c.246+6c.247-4KGDiagnosticsConfidential序列位置编号-5’端举例c.-26c.-25-6c.-25c.1KGDiagnosticsConfidential变异的表述总体规范-1“”(英文输入法的大于号)表示碱基替换,如c.76AT。“_”(英文输入法的下划线,不是中划线)表示从起始位置编号到终止位置编号范围的受到影响,如c.76_78del。“del”表示缺失,如c.76delA。“dup”表示重复,如c.8dupG(不是c.8_9insG,重复和插入的定义不同,见后)。“ins”表示插入,如c.76_77insG。“delins”表示同时有缺失和插入,如c.112_117delinsTG。“inv”表示倒位,如c.76_83inv。“con”表示转换,如c.123_678conNM_004006.1:c.123_678。“fs”表示移码(frameshift),变异导致在起始密码子和终止密码子之间的开放阅读框发生改变,如p.Arg97Profs*23。“ext”表示延伸(extension),变异发生在起始密码子或终止密码子上,导致氨基酸序列较之原序列变长了。如p.Met1ValextMet-12。“()”(英文输入法的圆括号)表示发生变异的具体位置不确定,如c.(67_70)insG,但是圆括号内的位置范围要尽可能缩到最小。“[]”(英文输入法的方括号)表示发生在某个等位基因上,如c.[76AT];或者已确定的数量,如c.123_124[4]。KGDiagnosticsConfidential变异的表述总体规范-2DNA:前缀(c.)+位置编号(76)+参考序列碱基(A)+变化()+改变后的碱基(如果有)(T):c.76AT。碱基以大写字母表示,包括A、T、G、C、Y、R、W等。RNA:前缀(r.)+位置编号(39)+参考序列碱基(a)+变化()+改变后的碱基(如果有)(u):r.39au。碱基以小写字母表示,包括a、u、g、c、y、r、w等。蛋白:前缀(p.)+参考序列氨基酸(Trp)+位置编号(52)+变化(没有“”,但“del”、“ins”等不变)+改变后的氨基酸(如果有)(Ala):p.Trp52Ala。氨基酸以三字母(第一个字母大写)或单字母表示,如Trp或W。建议以三字母表示(第一个字母大写),不建议以单字母表示,因为单字母容易和碱基混淆。KGDiagnosticsConfidential变异的表述总体规范-关于氨基酸终止HGVS:用“Ter”或“*”(英文输入法且英文字体下的星号键)表示氨基酸翻译终止,如p.Asn26Ter或p.Asn26*,不使用“X”表示氨基酸翻译终止。原因:IUPAC-IUB(InternationalUnionofPureandAppliedChemistry,InternationalUnionofBiochemistryandMolecularBiology)已规定“X”用来表示未指定或未知氨基酸,所以不能用来表示终止。“X”符号代表终止密码子。例如,p.Gly542X表示542位点的甘氨酸残基被终止密码子所代替。——《肿瘤个体化检测治疗指南(试行)》此处存在争议KGDiagnosticsConfidential变异的表述——替换替换(substitution):一个碱基/氨基酸被另一个碱基/氨基酸替换。特征是“一对一”。如果是一个碱基/氨基酸变异成多个碱基/氨基酸,那是缺失-插入。如果是多个碱基/氨基酸变异成一个碱基/氨基酸,那是缺失或缺失-插入。如果是多个碱基/氨基酸变异成多个碱基/氨基酸,那是缺失-插入或转换。故没有“c.76_77AGTT”这种写法。用“”(英文输入法的大于号)表示某个碱基变成了另一个碱基,不建议使用“A76T”类似的形式表示。但是氨基酸替换没有“”,要写成“p.Trp52Ala”这样的形式。举例:c.76AT,p.Glu26Asp。KGDiagnosticsConfidential变异的表述——缺失缺失(deletion):原本该有的没有了。举例:c.76del或c.76delA;c.76_78del或c.76_78delACT(可以不用写成c.76_78del3);p.Gln8del;p.Gln8_Ala10del。氨基酸移码变化见后。最靠近3’端法则(most3’position):缺失的碱基,认为其靠近3’端,而不是5’端。ACTTTGTGCC变成ACTTGCC,缺失了哪三个碱基?ACTTTGTGCC还是ACTTTGTGCC?——TGT比TTG更靠近序列的3’端,故认为缺失了TGT(c.5_7del),而不是TTG(c.4_6del)。ctttagGCATG变成cttagGCATG,写成c.301-3delT,而不是c.301-4delT、c.301-5delT。但是该法则有例外,在描述外显子/内含子边界的变异时,认为缺失的碱基影响外显子大于影响内含子。如CAGgtg变成CAgtg,写成c.3delG,而非c.3+1delG。不确定断裂位置的情况(见于使用MLPA和PCR法发现的外显子缺失),要使用圆括号和预估的断裂位置范围,例如
本文标题:科内培训-基因变异的表述方法
链接地址:https://www.777doc.com/doc-4960332 .html