您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 第一章生物信息学简介Microsoft-PowerPoint-演示文稿
生物信息学参考书籍1、《生物信息学》孙啸东南大学2、《生物信息学概论》罗静初北京大学北京大学出版社3、《生物信息学》赵国屏中科院上海生命科学院科学出版社4、《生物信息学—基因和蛋白质分析的使用指南》李衍达清华大学清华大学出版社5、《生物信息学手册》郝柏林中科院物理所上海科学技术出版社6、《简明生物信息学》钟扬复旦大学高等教育出版社2020/3/243第一节引言第二节生物信息学的研究概况第三节人类基因组计划和基因组信息学第一章生物信息学概论第一节引言一、生物信息学发展1、20世纪50年代以来,生命科学进入了前所未有的高速发展阶段文献数:从60年代的20多万篇增长到2000年的50多万篇序列数:至2000年底,国际数据库中记录的接近1000万条;DNA序列的碱基数已超过100亿。数据库:美国核酸数据库GenBank;欧洲分子生物学数据库EMBL;亚洲核酸数据库DDBJ。2、计算机的快速发展是生物信息学产生的前提条件计算机芯片处理的能力已达到千亿次乃至万亿次每秒计算方法的创新和发展网络的快速发展和普及HGP生物数据的激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)的诞生3、生物信息学的诞生20世纪后期,生物科学技术迅猛发展,极大地丰富了生物科学的数据资源。海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键。数据资源的剧增迫使人们寻求一种强有力的工具去组织、管理这些数据,以利于储存、加工和进一步利用。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展。于是,一门崭新的、拥有巨大发展潜力的新兴交叉学科——生物信息学——悄然兴起。2020/3/247生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学4、生物信息学的概念广义:生物信息学是指对生物信息的获取、加工、存储、分配、分析和解读,并综合应用数学、计算机和生物学工具,以更好理解数据中的生物学含义。生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘狭义:是以基因组DNA序列信息分析作为基础,找到基因组序列中代表蛋白质和RNA基因的编码区,阐明非编码区的信息实质,破译隐藏在DNA序列中的遗传规律;同时,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识生物代谢、发育、分化、进化规律。生命的物质基础、能量转换、代谢过程;生命信息的组织、传递、表达过程物理化学分子生物学遗传学信息技术2020/3/2410二、生物大分子蕴涵的生物信息细胞分子存贮、复制、传递和表达遗传信息的系统生物信息的载体生物分子信息DNA序列数据蛋白质序列数据生物分子结构数据生物分子功能数据最基本直观复杂生物分子数据类型数据源数据量生物信息学任务DNA序列11.5百万条序列125.0亿个碱基分离编码与非编码区域;识别内含子与外显子;基因产物预测;基因功能注释;基因调控信息分析蛋白质序列40.0万条序列(每条序列平均有300氨基酸)序列比较;多重序列比对;识别保守的序列模式;进化分析大分子结构1.5万个结构(每个结构平均1000个原子坐标)二级结构、空间结构预测,三维结构比对,蛋白质几何学度量,表面和形态计算,分子间相互作用分析;分子模拟基因组300个基因组标注重复序列;基因结构分析;系统发生分析基因与疾病的连锁分析;基因组比较;遗传语言分析基因表达酵母6000个基因在约20时间点表达值达模式相关分析基因表基因调控网络分析表达调控信息分析至2001年初已经得到的各类数据及基本数据处理任务2020/3/2413生物分子至少携带着三种信息:遗传信息与功能相关的结构信息进化信息2020/3/2414生物信息学主要研究两种信息载体DNA分子蛋白质分子2020/3/2415DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。DNA序列控制着蛋白质的合成DNARNA蛋白质转录翻译遗传信息的载体——DNA基因的DNA序列DNA前体RNAmRNA多肽链蛋白质序列遗传密码DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码生命体系千姿百态的变化生物分子数据及其关系2020/3/2419FromtheCelltoProteinMachines三、生物信息学研究内容基本内容:基因组信息学;蛋白质结构计算与模拟;分子与药物设计;基础内容:数据库系统;创新算法和软件;自动化大规模高通量的生物学研究方法与平台技术。研究目标:揭示“基因组信息结构的复杂性及遗传语文的根本规律”,认识生物界信息存贮和传递的本质。目前生物信息学具体研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测6、研究药物作用机制和开发新药基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子数据的收集与管理2、数据库搜索及序列比较搜索同源序列,通过序列比较寻找相似序列。序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述。多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。发现同源分子3、基因组序列分析遗传语言分析——天书基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点。研究方法:基因芯片,蛋白质谱技术和蛋白质组研究。目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。基因芯片5、蛋白质结构预测蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测:模式识别问题。空间结构预测:同源模型法。生物信息学最新研究热点内容1.大规模基因组测序中的信息分析2.新基因和新SNP的发现与鉴定3.非编码区信息结构分析4.遗传密码的起源和生物进化5.完整基因组的比较研究6.大规模基因功能表达谱的分析7.生物大分子的结构模拟与药物设计8.生物信息学分析方法的研究9.建立国家生物医学数据库与服务系统10.应用与发展研究四、生物信息学研究意义认识生命本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。创新生物学研究方法,揭示生命运行机制引进现代信息学方法,建立新的生物学研究开发工具。在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据第二节生物信息学的研究概况总体经历了3个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、序列对位比较;基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组时代--大规模基因组分析、蛋白质组分析。生物信息学国内外发展现状国外:欧美各国及日本成立了生物信息中心:美国的国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本国家遗传学研究所(NIG)。NCBI、EBI和NIG共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换、更新数据。近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿。现在,2001年初生物的EST序列已达600多万条,其中人类的EST序列超过300万条,估计覆盖人类基因90%以上。生物信息学国内外发展现状国内:在我国,生物信息学随着人类基因组研究的展开才起步,已显露出蓬勃发展的势头。北京大学于1997年3月成立了生物信息学中心。中科院上海生命科学研究院于2000年3月成立了生物信息学中心。我国首家自主开发的核酸序列公共数据库于2001年7月3日上网试运行,并接受我国核酸序列的注册登记。第三节人类基因组计划与生物信息学1、人类基因组计划简介基因组——一个物种中所有基因的整体组成。基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。原核生物(细菌、病毒等)真核生物(真菌、植物、动物等)人类基因组:3.2×109bp60年代初,美国总统Kennedy提出两个科学计划:登月计划攻克肿瘤计划人类遗传信息的复杂性人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘为什么提出HGP?曼哈顿原子弹计划阿波罗登月计划人类基因组计划人类基因组计划启动1986年,诺贝尔获得者RenatoDulbecco发表文章《肿瘤研究的转折点:人类基因组测序》(Science,231:1055-1056)。人类基因组计划(humangenomeproject,HGP)是由美国科学家于1986年率先提出,1990年正式启动。美、英、法、德、日本和中国科学家共同参与,耗资30亿美元。计划旨在为30多亿个碱基对构成的人类基因组精确测序。HGP的目的是解码生命、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。2000年6月26日,人类基因组草图的绘制工作宣告完成。美国和英国科学家2006年5月18日在英国《自然》杂志网络版上发表了人类最后一个染色体——1号染色体的基因测序。在人体全部22对常染色体中,1号染色体包含基因数量最多,达3141个,是平均水平的两倍,共有超过2.23亿个碱基对,破译难度也最大,由150名英国和美国科学家组成的团队历时10年,才完成了1号染色体的测序工作。在新公布的人类基因组图谱中,有许多十分惊人的发现以及重要数据:1、人类基因组约有2.91Gbp,有39000多个基因;平均的基因大小27kbp;19号染色体是含基因最丰富的染色体,而13号染色体含基因数最少。2、发现和定位了26000多个功能基因,其中42%的基因功能尚不清楚。3、基因数量少得惊人:一些研究人员曾经预测人类约有14万个基因,但Celera公司将人类基因总数定在2.6万到3.9万个之间,不超过40,000。4、人类单核苷酸多态性的比例约为1/1250bp。不同人群仅有140万个核苷酸差异,人与人之间99.99%的基因密码是相同的。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。5、人类基因组中存在“热点”和大片“荒漠”。基因组上大约有1/4的区域没有基因的片段。6、男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。7、人类基因组中大约有200多个基因是来自于插入人类祖先基因组的细菌基因。8、发现了大约一百四十万个单核苷酸多态性,初步确定了30多种致病基因。9、人类基因组编码的全套蛋白质(蛋白质组)比无脊椎动物编码的蛋白质组更复杂。人类基因组人类基因组的组成线粒体基因组(16.6kb)细胞核基因组(3200Mb)基因外序列基因和基因有关序列约10%约90%专一或中等重复序列Non-codingDNA假基因内含子基因片段10%90%专一的或低拷贝数序列中度至高度重复序列20~30%70~80%分散重复序列串联重复序列/成簇重复序列约60%约40%蛋白编码基因rRNA基因tRNA基因CodingDNA人类基因组构成——24条染色体和线粒体HGP的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转
本文标题:第一章生物信息学简介Microsoft-PowerPoint-演示文稿
链接地址:https://www.777doc.com/doc-4544138 .html