您好,欢迎访问三七文档
1TranscriptomeShotgunAssembly(TSA)数据提交指南版本:1.02012年5月11日2目录1.TSA数据库...............................................................................................................32.TSA的特点...............................................................................................................33.TSA通则...................................................................................................................34.注册新的BioProject...............................................................................................44.创建提交文档..........................................................................................................75.提交工具...................................................................................................................86.创建结构注释表.......................................................................................................931.TSA数据库TSA是一个将EST、traces和新一代测序技术等的原始数据进行计算组装结果存放的文档。它通过软件计算将测序序列组装为转录本,而非使用传统的克隆和对克隆的cDNA进行测序等方法。TSA要求用于组装的原始序列数据需要经过同一提交者进行实验验证方可使用。2.TSA的特点TSA序列展示方法和其他国际核酸序列数据库协会(INSDC)记录基本相似,区别主要在于以下内容:1.关键词:TSA(TranscriptomeShotgunAssembly,转录组鸟枪法组装);2.TSA标签:位于每个定义行的起始处;3.BioProjectID;4.组装数据结构注释;5.注释中会对多阶程序的结果进行组装描述;6.将新一代测序技术所得的序列用于组装并提交给SRA时,数据库会自动连接到SRA数据库的SRR入口;7.其他的特征、参考信息和GenBank/EMBL/DDBJ等结果展示类似;例如某一提交的TSA编号为JL968987.8.TSA序列信息在所有的INSDC数据库中是共享的,而且都可以在EntrezNucleotide和EntrezProtein中通过特异性搜索获得。3.TSA通则提交的核苷酸序列需要符合以下标准:1.序列信息中要求去除所有的载体污染及载体信息,包括新一代测序所用到的测序引物。2.剔除200bp以下的序列。3.剔除N达到10%以上或连续N达到14个以上的序列。4.所有序列的组装信息须经数据提交者进行实验验证后方能提交。5.所有原始序列必须提交到SRA,并提供SRArun的编号(SRR)。6.其他要求:注册登陆BioProject数据库时,您的项目须是转录组鸟枪法组装项目。请参考图例填写每个对话框的相关信息,填写时,请参考蓝色问号处的填写提示;不是直接测序得到的序列组装数据不提交到TSA,如,基于克隆的组装数据必须提交给GenBank;由测序仪内部自带软件组装得到的含有gaps的组装结果不能提交(其包括由N来代替gap的结果)不提交到TSA;多个物种测序组装成一个混合结果不提交到TSA。44.注册新的BioProject图1注册新的BioProject图2项目类型图例5Projectdatatype:项目类型针对TSA数据,请填写TranscriptomeorGeneexpression:转录组或表达谱Samplescope:样品范围Monoisolate:多种群;Multiisolate:单种群;Multi-species:多物;Environment:物种信息未知;Synthetic:人工合成;Other:其他Material:原料Genome:基因组;PurifiedChromosome:纯化的染色体;Transcriptome:转录组;Phenotype:表观数据;Reagent:试剂;Proteome:蛋白组织;Other:其他针对转录组数据,此处请填写Transcriptome:转录组;Capture:捕获区域Whole:所有区域;Cloneends:克隆末端数据;Exome:外显子;Targetedlocusloci:指定基因位点;Other:其他Methodology:方法Sequencing:测序;Array:芯片;MassSpectrometry:质谱;Other:其他图3目标图例Organismname:生物体名称TaxonomyID:NCBItaxonomy物种分类编号在网页,输入物种名称进行搜索,如下图。6图4物种分类编号图例图5常规信息图例Projecttitle:项目名Publicdescription:项目描述Relevance:相关领域7图6发表情况图例如未发表,可不填写;Overview:核对之前的信息是否填写准确,点提交即可。需要组装数据的结构注释。请见CreatingtheStructuredCommentTable.如果是多阶组装需要有一个组装过程的说明。原始数据的文库信息需要注释其来源特征如果注释信息中有产品名称则需遵循UniProt-SwissProtnomenclatureguidelines.4.创建提交文档提交流程:提交文档可以用Sequinortbl2asn(下文有相关介绍)创建。oCreatesubmissiontemplate.o使用软件tbl2asn将unigene从fasta格式转变为sqn格式Sequin文件必须用GenomesMacroSend来发送,在提交的表格中选择TSA选项8图7上传页面展示上传后,将下面信息以邮件形式发送到gb-admin@ncbi.nlm.nih.gov,o从GenomesMacroSend获得的GDSub号码o释放日期:立即释放或月/日/年oSRR编号(如果有)如果在准备上传过程中没有提供以下信息,请在邮件中也列出来oBioProject数据库中的BioProjectIDo如果.sqn文件中没有组装数据,请提供一个限定格式的组装数据表格。具体操作指南请见CreatingtheStructuredCommentTable。5.提交工具Sequin选择'UseasubmissionwizardforTSA'在Sequin文件创建过程中,将会弹出对话框要求输入结构注释(thestructuredcomment),项目(project)和组装信息(assemblydescriptioninformation)。tbl2asntbl2asn随着序列以及列表文件读取模板,并输出提交给GenBank的ASN.1tbl2asn为TSA做如下设置使用fastadefline中[moltype=mRNA]将分子类型指定为mRNAIncludethetechnique[tech=TSA]inthefastadefline.在fastadefline中技术设定为[tech=TSA]在fastadefline中BioProject设为[bioproject=PRJNAXXXX1]使用下面的指令输入组装数据(Assemblydata)请点击CreatingtheStructuredCommentTable获得更多信息其他指令如果你已经向SRA提交了包含fastadefline中SRR登陆号在内的原始数据,例如[SRA=SRRXXXXX1]9如果你的数据是通过多步的组装得到的,包括下面的描述步骤:创建一个描述数据的test文件,并命名为评论(comment)(只是个例子)。在你的指令行使用-Y评论。验证你的指令行中包含提交的TSA需求信息:-Mt这个命令包含标准效验器和额外的TSA检验。命令行举例:使用CMD工具:tbl2asn-p./fsa(inputfastadir)-r./sqn(outputsqnfilesdir)-ttemplete.sbt(submissiontemplatefile)-azs-Vvb-j[organism=Musaacuminata(AAA)RootTissueculturalseedling](organismname)[common=dessertbanana](commenname)[cell-line=CHO-K1](cell-linename)[Tissue-type=RootTissueculturalseedling](tissuetype)[Tissue-lib=Brizilan](libraryname)[mol_type=mRNA][tech=TSA][lineage=Eukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Zingiberales;saceae;Musa.](organismtaxonomiclineage)-Ycomment.txt(txtfileofdenovoanalysisdescription)-wassembly.cmt(structuredcommentfile)tbl2asn–iabc.fsa(singleinputfastafile)–oabc.sqn(singleoutputsqnfile)-tfcb.sbt(submissiontemplatefile)-azs-Vvb-j[organism=Musaacuminata(AAA)RootTissueculturalseedling](organismname)[common=dessertbanana](commenname)[cell-line=CHO-K1](cell-linename)[Tissue-type=RootTissueculturalseedling](tissuetype)[Tissue-lib=Brizilan](libraryname)[mol_type=mRNA][tech=TSA][lineage=Eukaryota;Viridiplantae;Streptophyta;Embryophyta;Tracheophyta;Spermatophyta;Magnoliophyta;Liliopsida;Zingiberales;saceae;Musa.](organismtaxonomiclineage)-Ycomment.txt(txtfileofdenovoanalysisdescription)-wassembly.cmt(structuredcommentfile)更多有用参数请查阅:创建结构注释表结构注释
本文标题:TSA数据提交指南
链接地址:https://www.777doc.com/doc-6134585 .html