您好,欢迎访问三七文档
生物信息学论文题目:生物信息学的发展前景及在基因组研究中的应用得分:________评卷人:________姓名:学号:生物信息学的发展前景及在基因组研究中的应用摘要:生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴交叉学科;生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学的前沿。本文对对生物信息学的发展前景及其在基因组研究中的应用进行阐述。关键词:生物信息学;发展前景;基因组研究;应用1引言生物信息学是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储。传播。分析与解析的科学[1~3]。生物信息学是当今最具发展前途的学科之一,它缘于近10年来生物学相关信息量的“革命性爆炸”,又得益于近10年来信息技术的“革命性发展”[4]。生物信息学的出现极大地推动了分子生物学的发展。生物信息学已成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设、环境监测的重要组成部分。生物信息学在基因的功能发现,疾病基因诊断、蛋白质结构预测、基于结构的药物设计、药物合成和制药工业中起着极其重要的作用,生物信息学的应用大大加快了药物的研究开发进程。2生物信息学产生的背景生物信息学是80年代未随着人类基因组计划(Humangenomeproject)的启动而兴起的一门新的交叉学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。事实上,它是一门理论概念与实践应用并重的学科。生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。美国人类基因组计划中给基因组信息学的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。3生物信息的学发展前景21世纪是生命科学的时代,也是信息时代。随着人类基因组计划的各项任务接近完成,有关核酸,蛋白质的序列和结构数据呈指数增长。面对巨大而复杂的数据,运用计算机技术更加有效管理数据、控制误差、加速分析过程势在必行。从而使生物信息学成为当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。随着后基因组时代的到来,生物信息学研究的重点讲逐步转移到功能基因组信息研究。其研究的内容不仅包括基因的查询和同源性分析,而且进一步发展到基因和基因组的功能分析。即所谓的功能基因组学研究。具体表现在将已知基因的序列与功能联系在一起进行研究;从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的基因分离;从单个基因致病机理的研究转向多个基因致病机理的研究;从组织与组织之间的比较来研究功能基因组合蛋白质组,这类比较主要有:正常与疾病组织之间的比较,正常与激活组织之间的比较,疾病与处理(或治疗)组织之间的比较,不同发育过程的比较等。今后网络数据库和软件算法的发展取向,一时发展集成的生物数据仑库和联邦数据库技术。目的是对分散的,异构的甚至是冗余和混乱的生物学数据库在公认的注释标准下进行整理,建立整合的、非冗与的数据库体系,建立不同生物学数据之间的关联,以利于数据挖掘。二十发展整合功能基因组数据分析软件体系。单一功能的生物信息分析软件已不再是生物信息学应用研究的主流,要发展一大类算法,数据库和分析软件有机地整合集成在一起,以完成系统的功能的分析,保证大规模的功能基因组数据分析的需求。三是发展有效的生物学文献的信息管理、搜索和挖掘工具。文献挖掘工具已成为新兴的生物信息学的研究方向,如何从海量文献信息中发现关联信息,高通量,高准确度地进行知识发现,为基因表达谱数据分析、基因调控网络分析和蛋白质—蛋白质相互作用分析等功能组基因分析提供帮助,已成为生物信息学必须要解决的问题之一,也是生物信息学发展面临的有一挑战[5]。生物信息学将会揭示人类及重要动植物种的基因的信息,为生物大分子结构模拟和药物设计提供巨大的帮助。生物信息学不仅对认识生物体和生物信息的起源,、传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础。生物信息学不仅具有重大的科学意义,而且有巨大的经济效益。一只小鼠的肥胖基因都值上亿美元,更何况关系人类自身生老病死的基因了。生物信息学的许多研究成果可以较快地产业化,成为价值很高的产品。生物信息学的这一特点在现在的血多学科中几乎是独一无二的,应用的领域十分广阔,具有重要的现实意义和深远的战略意义。生物信息学的发展已经超越了他最初的目标。现在可以说生物信息学的重要目标在于理解生物学数据和揭示生命本质,但是它的前景仍然是不可估量的。可以可定,在不远的将来,生物信息学的研究成果不仅被应用与生物、医学等相关领域,同时它将对其它学科,包括信息科学、数学、计算机科学、物理学等的研究产生巨大的影响。4基因组研究中的应用4.1大规模基因组测序中的信息分析如何将实验室中得到的生物信息转化为计算机能够处理的数字信息,是生物信息学的一个重要课题,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙到重复序列标识、可读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。4.2大规模基因功能表达谱的分析第一阶段的人类基因组研究称为测序基因组(sequencinggenome),下一个研究阶段即后基因组时代(postgenomeera),已转入功能基因组研究(functionalgenome)。随着功能基因组实验技术的深入,海量的数据不断涌现,因此数据库将成为支持这些技术的必然组成部分,像蛋白质序列数据库(如SWISSPROT)、核酸序列数据库(如GENBANK)、结构域数据库(如PROSITE)、三维结构数据库(如PDB)、基因组数据库(如OMIM)以及代谢数据库等。没有这些数据库的资料,新技术是很难应用的。所以无论是生物芯片还是蛋白质组技术的进展都更强烈地依赖生物信息学的理论、技术与数据库[6]。4.3序列片段的拼接目前DNA自动测序仪每个反应只能测序500bp左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序[1]。这些工作需要大量的人力和物力。现在,生物信息学为其提供了自动而高速的拼接序列的算法,即利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行拼接,保证了序列中每个碱基的准确性,为人类基因组计划的顺利完成作出了重要贡献,并被证明是一种非常高效而廉价的技术。4.4新基因和新SNP(singlenucleotidepolymorphisms)的发现与鉴定利用EST数据库(dbEST)发现新基因和新SNP。EST(expresssequencetags)序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。目前,GenBank的EST数据库中人类EST序列已超过160万条,约覆盖了人类基因的90%以上。因此如何利用这些信息发现新基因成了近几年的重要研究课题。1998年国际上开展了以EST为主发现新SNP的研究。其原理很简单,就是对同一基因从EST数据库拼接得到不同的转录物,它们很可能是一组SNP。4.5非编码区信息结构分析[6]高等生物和人的基因组中非编码区都占到基因组序列的绝大部分,研究表明这部分序列具有重要的生物功能。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上能编码蛋白质的区域(基因),这部分序列只占基因组的3%~5%,也就是说,人类基因组多达95%~97%是非编码区。如何深入了解这些非编码区序列的功能是当前科学家面临的一个挑战。所以要研究非编码区,首先要有办法将完成同一功能的序列搜集在一起,然后建立专门的数据库。4.6密码起源和生物进化的研究(1)序列相似性比较:就是将待研究的序列与DNA或蛋白质序列进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。常用的程序包有BLAST和FASTA等。(2)序列同源性分析:是将待研究序列加入到一组与之同源,来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。程序包主要是CLUSTAL。(3)构建系统进化树:根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,如PYLIP和MEGAT等。参考文献:[1]贺林.解码生命—人类基因组计划[M].北京:科学出版社.2000[2]欧阳曙光.贺福初.生物信息学:生物实验数据和计算机技术结合的新领域[J].科学通报,1999,44(14):1457-1468[3]陈润生.当前生物信息学的重要研究任务[J],生物工程进展,1999,19(14):11-14[4]BongukiMS,Biointormatics—anewera[M],TIBC,1998,(TrendsSupp):1-3[5]王正华.王勇献.后基因组时代生物信息学的新进展[J].国防科技大学学报,2003.25(1):1-6[6]陈竺.基因组科学与人类疾病[M].北京:科学出版社,2000
本文标题:生物信息学论文
链接地址:https://www.777doc.com/doc-7230189 .html