您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据库 > 数据库简介-北大罗静初课件
第三讲分子生物信息数据库与生物信息学基本问题《永乐大典》明永乐元年至六年(1403-1408)翰林学士解缙等奉旨编纂,共22877卷,目录60卷,11095册,总字数约3.7亿。是中国古代最大的“百科全书”。中国国家图书馆现藏《永乐大典》仅221册。人类获取信息的能力在不断进步之中……§3.1分子生物信息数据库简介1960年代,第一个分子生物学数据库——FredSanger的胰岛素序列测定(1955)——蛋白质数据库PSD(ProteinSequenceDatabase)——MargaretDayhoff:1960年代,创立PSD,即PIR的前身1978,scoringmatrices——PAM§3.1.1分子生物信息数据库概述PioneerinBioinformaticsDr.MargaretO.Dayhoff(1925-1983)FredSangeratTheWellcomeTrustSangerInstitute1982年,第一个核酸序列数据库GenBank(LosAlamos)——1982年,606条序列,长度680,338bp——2004年,约43,322,756条序列,长度约7.11010bp2005:Internationalsequencedatabasesexceed100gigabases!一级数据库直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库:SWISS-PROT库、PIR库一级蛋白质结构数据库:PDB数据库二级数据库在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。建立分子生物信息数据库的流程图一个数据库记录(entry)一般由两部分组成:1.原始序列数据(sequencedata)2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量:1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面数据库的动态更新:1.不断增加2.不断修正人类遗传信息数据与科学家的社会责任“如果你们想使你们一生的工作对人类有益,那么你们只了解应用科学本身还是不够的。关心人本身必须始终成为一切技术努力的目标,要关心如何组织人的劳动和商品分配,从而以这样的方式保证我们科学思维的结果可以造福于人类,而不致成为诅咒的祸害。当你们沉思你们的图表和方程式时,永远不要忘记这一点!”——爱因斯坦人类遗传数据国际宣言纲要(修正稿)联合国教科文组织国际生命伦理学委员会2003年1月,巴黎“…它们关系到对人权和基本自由的保护,关系到在收集、处理和储存科学数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,承认人类遗传数据因其敏感的性质所拥有的特殊地位,因为它们既可以提供医学信息又可以提供关系一生的个人信息,而且可能含有关于家庭的信息,包括子孙后代,或者在某种情况下涉及到当事人所属社群的信息,考虑到人类遗传数据的收集、处理、使用和储存对于科学与医学的进步,以及对于把它们用于非医学目的、特别用于司法目的是至关重要的。”“尽管如此,意识到人类遗传数据的收集、处理、使用和储存,对于人权和基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,重申世界人类基因组与人权宣言制定的原则,以及平等、公正、团结、尊重人类尊严、人权和基本自由的原则,既有研究的自由又有对隐私的保护,这些必须是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,并采用目前的宣言。”术语的含义人类遗传数据:指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信息。生物学样本:指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,血液、皮肤和骨细胞或血浆)。基于人群的遗传学研究:指以了解种群内个体间和/或跨种群个体间遗传变异的性质和程度为目的的研究。行为遗传学研究:指以建立遗传特征和行为之间的可能联系为目的的研究。纲要摘要个人身份——每个人都有一套独特的基因结构。尽管如此,一个人的身份不应被归结为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、精神和文化纽带决定的。特殊意义——人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊的文化意义,因此需要给予它们特殊的考虑和尊重。研究目的——人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,包括流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,以及任何其它与有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。程序——人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使用和储存,这些程序使社会作为一个整体知情参加。不歧视和不羞辱——人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。应该特别关注以人群为基础的遗传学研究和行为遗传学研究的结果以及对这些结果的解释。同意——对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达的同意,这种收集或者通过侵入性或者通过非侵入性的程序,以及对于它们随后的处理、使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。决定是否被告知研究结果的权利——当为了医学和科学研究目的,包括流行病学和以人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,同意应包括让个人做出是否被告知研究或筛查检测结果的选择。利益分享——为了医学和科学研究,包括以人群为基础的遗传学研究而收集的人类遗传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式:对参加研究的个人和群体的特殊援助;获得医疗保健;为源于研究的新的治疗方法或药物提供便利;为卫生服务提供支持;符合本宣言提出的原则的任何其它形式;§3.1.2一级数据库世界三大核酸序列数据库(公共序列数据库,PublicSequenceDatabase)GenBank(美国)EMBL(欧洲)DDBJ(日本)GenBankDDBJEMBLA)核酸(DNA)序列数据库GenBank(美国国家生物技术信息中心,NCBI)1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)GenBank网址(欧洲分子生物学实验室,EMBL)1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)EMBL网址(日本国家遗传学研究所,NIG)1986DatabankofJapanNIG(NationalInstituteofGenetics)DDBJ网址数据库序列总长增长趋势5.8105bp7.11010bpEMBL2003年8月数据状况(Release76)DivisionEntriesNucleotides表达序列标签(ESTs)18,001,3329,172,848,447真菌(Fungi)81,533124,814,006基因组检测序列(GSSs)5,951,5523,541,699,334高通量cDNA(HTC)148,033198,301,795高通量基因组(HTG)69,07011,827,270,957人(Human)253,1223,999,942,455无脊椎动物(Invertebrates)126,656618,391,776其它哺乳动物(OtherMammals)51,211117,048,169鼠(Musmusculus)79,1681,331,593,999细胞器(Organelles)217,902180,804,604专利(Patents)1,326,009717,107,725噬菌体(Bacteriophage)2,3219,413,526植物(Plants)214,323700,212,325原核生物(Prokaryotes)200,833690,274,487啮齿动物(Rodents)25,45964,607,453序列标签位点(STSs)239,292114,379,671合成(Synthetic)9,19616,869,561未分类(Unclassified)1,8602,167,222病毒(Viruses)196,817175,615,411其它脊椎动物(OtherVertebrates)52,583282,545,232总计27,248,47533,885,908,155EMBL2004年8月数据状况(Release80)来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序B)基因组数据库部分生物基因组计划网址老鼠(Mouse)小鼠(Rat)狗(Dog)牛(Cow)猪(Pig)羊(Sheep)鸡(Chicken)斑马鱼(Zebrafish)线虫(C.elegans)果蝇(Drosophila)蚊子(Mosquito)拟南芥(Arabidopsis)棉花(Cotton)玉米(Maize)水稻(Rice)大豆(Soya)树(Trees)(美国、加拿大)1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-relatedsoftwareandpublicdataweretransferredtoRTIInternational.数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源(EMBL、GenBank…)的链接GDB网址线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分
本文标题:数据库简介-北大罗静初课件
链接地址:https://www.777doc.com/doc-6704846 .html