您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 数据提交NCBI科普文件
数据提交NCBI近些年来,随着测序技术的发展和成本的降低,高通量测序技术日益普及,更多的科研工作者可以使用这种通量高、效率高、性价比高的科研手段对研究样本开展平行大规模的研究。与高通量迅猛发展伴随的,是海量测序数据的产生,NCBI是一个很好的测序数据管理和共享平台,通常科研工作者在发表paper的时候,需要提前向NCBI提交序列获得登录号。然而,如何向NCBI提交这些序列,提交什么序列?这一系列的数据提交问题则成为了科研工作者不得不面对的一个棘手难题。在此,上海翰宇生物将对目前高通量测序数据的提交做一个简单概述,并着重对提交原始数据进行讲解,以期为科研工作者提供稍许的帮助,希望对大家有用。一、目前高通量数据提交分为哪些种类?就数据类型而言,上传的数据可归纳为两大类:测序原始数据和分析数据。原始数据(Rawdata)指测序下机的最初文件,未经任何处理和分析,常见的是illumina机器产生的fastq文件,454机器产生的sff文件等。这一类型的文件需要向NCBI的SRA数据库进行提交,提交操作步骤相对比较简单。分析数据提交则根据不同的项目类型需要向不同的数据库提交不同的分析结果。目前的高通量测序就项目类型而言可概括分类为:基因组测序、转录组测序和meta测序(如16S测序等)。基因组测序数据可以提交组装结果和注释信息到WGS数据库,转录组测序数据可以提交组装结果到TSA数据库。提交用到的软件也不尽相同,包括Sequin、BankIt等。分析结果提交相对步骤繁琐,还需借助一些特定的程序和命令对数据进行处理修改,难度较高。HowtosubmitsequencedatatoNCBI,详细可以参见如下链接:;。二、什么数据应当提交到什么对应的数据库?NCBI的sequencedata包括GenBank、Genomes(WGS)、TSA、SRA、GEO,用于收录不同的测序类型数据。测序数据需要提交到正确对应的数据库,在此上海翰宇生物为大家做简单介绍:Meta的测序分析数据,如16S/18S/ITS测序的OTU序列,需要使用BankIt、Sequin、tbl2asn等软件提交到GenBank数据库。HowtosubmittoGenBank详细见。基因组的组装结果和注释信息需要提交到WGS或者CompleteGenomes,而基因组草图draft只能提交到WGS数据库,可以借助Sequin、tbl2asn软件。GenomeSubmissionGuide详细见。TSA是收录转录组测序组装结果EST的数据库,SRA是收录各种测序原始数据的数据库,而表观遗传学等数据则需要提交到GEO数据库。详细见。三、提交数据到NCBI需要做什么前期准备工作?首先,我们需要建立一个属于自己的NCBI的登陆账户,用以提交数据。其次,不管我们提交什么数据到NCBI,都需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等,即在提交数据前,我们需要先申请BioProject号和BioSample号描述样本及背景。然后就是准备好我们的数据,进入对应的数据库界面开始提交数据了。四、测序原始数据提交流程上海翰宇生物将以Metagenome测序原始数据提交为例,和大家一起分享原始数据提交的详细流程。首先要建立BioSample账号,登陆如下链接:,在界面选择newsubmission。鼠标放到蓝色“?”区可以显示每个选项的描述。带*选项为必填选项,需留意email选项中,两个邮箱里一定要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱地址发送邮件到NCBI,NCBI才会受理。在如上界面上可以选择立即释放,或者选定一个特定的释放时期,最长可以选择延时四年释放。如果中途需要修改释放时间,可以写信给NCBI要求修改。然后需要建立BioProject账号,登陆如下链接:,在界面上选择newsubmission填取项目描述信息建立账号。在如上步骤完成后,NCBI会生成两个登录号给我们,通常BioSample号以SAMN开头,如SAMN*****;BioProject号以PRJNA开头,如PRJNA*****。这两个号需要在后续SRA提交过程中使用。登陆如下链接,选择NCBIPDA入口,NIH为NIH内部人员登陆入口。登陆后createnewsubmission。Alias可以对提交样本数据进行临时命名,该名称可以随意填写,最终提交完成后不会显示该命名。释放时间最晚只能延迟一年释放。Save保存后,出现如下界面,点击newexperiment,一个submissionID下可以添加多个experiment。点击newexperiment后,出现以下界面,填写全部*标记选项。选择对应的测序平台。alias和title是临时描述,提交完成后不显示。填写我们前面申请到的BioProject号和BioSample号。Layout选项中,如果是illumina系统测序机型的双端测序模式选择paired,454测序的单端测序模式选择fragment。保存后createnewrun,填写原始数据的MD5值,MD5值可以认为是对所要上传的数据的一个描述,用于确保信息传输完整一致。filename和MD5checksum的文件名必须填原始文件名,否则和您上传的原始数据文件无法对应成功提交。提交界面会给出NCBI服务器的链接地址以及对应的登陆账户和密码,根据界面提示把您的原始数据(如sff文件或者fastq文件),上传到NCBI的服务器,到此原始数据提交就完成了。我们得到的SRX/SRR开头的号即客户发表文章需要的登录号。五、基因组组装结果及注释信息提交基因组组装结果及注释信息提交相对复杂,也是先要建立sample和project号。通常可以使用sequin和tbl2asn完成。需要注意的要点有:1.序列需要去除载体或者测序引物;序列长度不能少于200bp;序列不能包括太多的N,少于10%或者小于14个N。2.注释信息文件需要与序列文件严格对应匹配。3.样本属性描述要尽量详尽,如样本来源、物种属性、strain信息等。以上便是上海翰宇与大家一起分析的数据提交经验概述了,希望对大家提交数据有所帮助。上海翰宇生物会以专业的能力和热忱的态度为您提供高通量测序及分析服务,期待与各位科研工作者的合作。上海翰宇生物科技有限公司编辑
本文标题:数据提交NCBI科普文件
链接地址:https://www.777doc.com/doc-2333623 .html