您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学之数据库及在线分析工具
生物信息学数据库及在线分析工具SeeQ@ZIFF一、数据库(Database)用于收集、整理、储存、加工、发布和检索数据的系统。生物类的数据库种类很多(序列、结构、生物分子互作、其他)投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中数据库记录通常包括两部分原始数据对这些数据进行的生物学意义的注释一个数据库通常链接了多个相关数据库核苷酸数据库-水稻抗病相关基因OsDR8DQ176424Taxonomy数据库Pubmed数据库NCBI-Protein数据库(一)数据库工具建立纯文本数据库GenBank数据库、EMBL核苷酸数据库数据库工具SQL(结构化查询语言)是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像下载网址AceDB数据库工具AceDB:AC.elegansDataBase(线虫数据库)被广泛应用的管理和提供基因组数据的工具数据形式丰富遗传图谱G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011新陈代谢途径物理图谱1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(二)各种生物数据库1、核苷酸数据库DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列主要是非实验来源数据codingsequence(CDS)EXONINTRONCDS(codingsequence)ORF(openreadingframe)数据库种类很多三大核苷酸数据库GenBank、EMBL核苷酸数据库、DDBJUnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)收集了专利的核苷酸序列信息资源共享:以天为基础进行数据库之间的序列数据交换(1)GenBank美国NCBI的数据库,有部分蛋白质序列数据每天更新,每年发行六版releaseRelease172(2009.6.15)106,073,709entries105,277,306,080bases来源于260,000多个物种大约12%的序列来源于人(Homosapiens)……GrowthofGenBankLocusname(位点名)Accessionnumber(注册号或登陆号)GI(GenInfoidentifier)NID(NucleotideID)每个序列有一个flatfile每条序列有三个专有的编号或标识(identifier)LOCUSlineSamplerecord分支缩写分支全称PRI灵长类序列(primatesequences)ROD啮齿类序列(rodentsequences)MAM其它哺乳类序列(othermammaliansequences)VRT其它脊椎动物序列(othervertebratesequences)INV无脊椎动物序列(invertebratesequences)PLN植物、真菌和海藻类序列(plant,fungal,andalgalsequences)BCT细菌序列(bacterialsequences)VRL病毒序列(viralsequences)PHG噬菌体序列(bacteriophagesequences)SYN合成序列(syntheticsequences)ThedivisionsofGenBank分支缩写分支全称UNA未注释的序列(unannotatedsequences)EST表达序列标签(expressedsequencetags)PAT已专利的序列(patentsequences)STS序列标签位点(sequencetaggedsites)GSS基因组勘察序列(genomesurveysequences)HTG高产出基因组序列(highthroughputgenomicsequences)HTC高产出cDNA序列(highthroughputcDNAsequences)ENV环境样品序列(Environmentalsamplingsequences)(2)dbEST(DatabaseofExpressedSequenceTags)GenBank的二级数据库5’端或3’端的cDNA序列(EST)200-500bp“Single-passread”sequenceGenBank中60%以上的序列是EST(3)UniGene数据库NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群人、大鼠、小鼠、斑马鱼、牛、蛙等拟南芥、水稻、小麦、大麦、玉米等共计100多个物种UniGene主页输入关键词检索(4)dbSTS(DatabaseofSequenceTaggedSites)GenBank的二级数据库UniSTS短序列(200-500bp),仅在基因组中出现一次已定位于染色体上如何找到一个STS检索:GenBank主页选择UniSTS后输入关键词检索到的条目每一条目详细内容点击“mv”查看染色体定位contig(5)dbGSS(DatabaseofGenomeSurveySequences)GenBank的二级数据库基因组短序列cosmid/BAC/YAC外源插入片段的末端序列AluPCR序列cosmid/BAC/YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011(6)HTG(High-ThroughputGenomicSequences)GenBank的二级数据库尚未完成测序的重叠群(2kb)的序列新序列的增加速度很快cosmid/BAC/YACPhase0Phase1Phase2Phase3逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。中国水稻基因组计划的经费预算(7)基因组数据库=genomeNCBI的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank已经完成测序的基因组(截止2009年2月)GenomeProject——Statistics(8)dbSNP(DatabaseofSingleNucleotidePolymorphisms)单核苷酸多态性数据库=snpNCBI的数据库,创建于1998.9约每300bp有一个SNP数据种类SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS)发现致病基因、进化分析…dbSNP主页输入关键词检索到的条目每一条目详细内容代码碱基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C标准碱基多意代码(9)EMBL(EuropeanMolecularBiologyLaboratory)NucleotideSequenceDatabaseEBI(EuropeanBioinformaticsInstitute)管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank不同数据库主页输入关键词检索到的条目每一条目详细内容(10)DDBJ(DNADataBankofJapan)主要是日本产生的DNA和RNA序列数据库主页输入关键词检索到的条目每一条目详细内容发表文章要提供Accessionnumber(11)EPD(EukaryoticPromoterDatabase)由WeizmannInstituteofScienceinRehovot(Israel)开创4809条真核生物启动子序列(2009.2)人类基因组中的启动子大约19万个同一个基因具有多个启动子2、蛋白质数据库(1)SWISS-PROT由EBI和瑞士创办有详细注释的序列,数据来源于实验与44个数据库相互参照(cross-reference)数据库主页点击SRS在查询网页输入关键词检索到的条目(2)TrEMBL(TranslationofEMBL)EBI的数据库提交到EMBL核苷酸数据库中所有CDS的氨基酸序列SWISS-PROT和TrEMBL数据库合并UniProt(UniversalProteinResource)检索方法与检索SWISS-PROT相同查询结果和数据格式(3)PIR(ProteinInformationResource)由NationalBiomedicalResearchFoundation创办蛋白质家族分类蛋白质整合信息(4)PRF(ProteinResearchFoundation)由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序
本文标题:生物信息学之数据库及在线分析工具
链接地址:https://www.777doc.com/doc-6311500 .html