您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 【论文】生物信息学的现状与未来
口岸卫生控制第9卷第5期・40・PORTHEALTHCONTROL生物信息学的现状与未来郑伟国郭英中国民用航空学院理学院(300300)常春艳天津出入境检验检疫局(300456)Vol.9No.5摘要生物信息学已成为整个生命科学发展的重要组成部分,是生命科学研究的前沿领域。现对生物信息学研究对象、重要技术、数据库建设及其研究现状等方面进行了综述,并展望生物信息学的发展前景。关键词生物信息学基因组学蛋白组学功能蛋白质组学AbstractBioinformaticsisanimportantcomponentofthewholelifescience,hasbecometheadvancedresearchdomainoflifescience.Thesepaperoverviewsonitsresearchsubject,themaintechnolosies,itscur2rentstatusinerectionofbiologydatabaseandresearchwork,alsopropectitsforeground.KeywordsBioinformaticsGenomicsProteonicFunctionalproteoni随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对己知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科———生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被誉为“解读生命天书的慧眼”1。生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程。对生物信息学的定义,国内外至今尚未形成统一的认识。以下是一些较有影响的看法:美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学科。北京生物技术和新医药产业中心认为,生物信息学是在生命科学研究中以计算机为工具对生物信息进行储存、检索和分析的科学2。1995年,在人类基因组计划(HGP)第一个5年总结报告中给出了一个较为完整的生物信息学定义:生物信息学是包含生物信息的获取、处理、储存、传递、分析和解释的所有方面的一门学科。纵观生物信息学丰富多彩的相关学科、研究领域及其由信息流方向主导的研究过程,现归纳出如下定义:生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。1研究对象生物信息学主要包括基因组学(Genomics)和蛋白组学(Proteomics),其实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息。1.1基因组学第9卷第5期口岸卫生控制Vol.9No.5PORTHEALTHCONTROL・41・一种生物的全部遗传构成称为该种生物的基因组,有关基因组的研究称为基因组学,它包含对基因组信息的获取、处理、存储、分配和解释等。其中,序列基因组学(Sequencegenomics)主要研究测序和核苷酸序列,为绘制图谱提供材料2;结构基因组学(Structuralgenomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学(Functionalgenomics)则研究以转录图为基础的基因组表达图谱3,4;比较基因组学(Comparativegenomics)的研究内容则包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较5。1.2蛋白组学由于基因表达水平并不能代表细胞中活性蛋白质的数目(准确的说是开放读框‘ORF’的数目),基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程,澳大利亚学者Wasinger等在1994年首次提出了蛋白组(Proteme)的概念6。在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式,有关蛋白组的研究称为蛋白组学。其中,蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容7。1.3两者的关系基因组基本上是固定不变的,而蛋白质组是动态的,具有时空性和可调节性,能反映某基因的表达时间、表达量,以及蛋白质翻译后的加工修饰和亚细胞分布等,因此提出了功能蛋白质组学(Func2tionalproteonic)的概念,它是指在特定时间、特定环境和实验条件下8基因组中活跃表达的蛋白质9。2重要技术2.1.1结构基因组学与生产线模式把结构基因组的研究机构称之为蛋白质结构工厂,而把它的研究流程称为生产线(见图1)10。这一过程是以传统的结构解析法为基础设计的,但与传统的结构解析法相比,生产线模式增添了自动化操作,使整个过程得以快速高效地完成,这也使得大规模解析蛋白质结构得以实现。首先是基因组计划的圆满完成、cDNA文库的日趋完善等为结构基因组研究提供了较好的基础,而与表达、纯化及结构测定相关的技术的发展与设备的改进也为这一过程自动化提供了良好的条件。此过程中的重要步骤,蛋白质的结构测定技术——X光衍射和核磁共振光谱法(NMR)11,近几年也有了很多新的改进,出现了很多新的功能完善的仪器,为生产线的顺利完成提供了设备保障。2.1.2比较基因组学和模式生物体图1结构基因组研究生产线鉴定基因功能最有效的方法是观察基因表达口岸卫生控制第9卷第5期・42・PORTHEALTHCONTROL被阻断或增加后在细胞和整体水平上所产生的表combination)15。Vol.9No.5型变化12,这就需要建立一个有效的模式生物体(modelorganism)。迄今为止已有多种生物被当作模型使用,如大肠杆菌、酿酒酵母、美丽线虫、果蝇、小鼠等,但在研究人类疾病和哺乳动物发育时,小鼠显得更有优势。所有生物都可以通过一株共同的进化树而联系在一起,因此研究一个生物可为其它生物提供有用的信息。人类基因组计划(HGP)已把比较基因组学(Comparativegenomics)作为今后工作重点之一,预计到2005年完成小鼠的全基因组测序,同时逐渐从结构的比较转向功能的比较13。2.1.3功能基因组与微点阵、SAGE技术功能基因组学(Functionalgenomics)的研究通常被称为后基因组学(Postgenomics)研究,它是利用结构基因组学提供的信息和产物,系统地研究基因功能,以高通量、大规模实验方法及统计与计算机分析为特征14。高通量的基因表达分析方法需要借助新技术———微点阵(microarray)技术和基因表达系列分析(SerialanalysisofgeneexpressionSAGE)。微点阵技术是指将几百甚至上万个寡核苷酸或DNA密集排列在硅片、玻璃片、聚丙烯等固相支持物上,作为探针。把要研究的样品(称为靶DNA)标记后与微点阵进行杂交,用合适的检测系统进行检测。根据杂交信号强弱及探针位置和序列,确定靶DNA的表达情况以及突变和多态性的存在。根据制作方法的不同,微阵列技术可分为合成和点样两大系别。SAGE技术的主要理论依据有两个:一个9~10碱基的短核苷酸序列标签包含有足够信息,能够唯一确认一种转录物;如果能将9碱基的标签集中于一个克隆中进行测序,并将得到的短序列核苷酸顺序以连续的数据形式输入计算机中进行处理,就能对数以千计的mRNA转录物进行分析。这种方法在癌组织基因的差异表达研究方面有独到的优点,有助于发现肿瘤特异基因。2.2功能基因组学与诱变技术2.2.1定向诱变(targetedmutagenesis)定向诱变是利用同源重组技术,使胚胎干细胞(EmbryonicstemcellEScell)内目的基因产生定点突变。这些突变可进一步用于基因敲除、转基因动物、显性负突变等研究。近几年发展了许多构建靶结构的新方法,如酿酒酵母中微同源重组(microhomologousre22.2.2表型诱变(phenotype-drivenmutagenesis)定向诱变用于已知基因的突变,而表型诱变是用于未知基因。主要优点是无需知道哪个基因以及这些基因的何种突变导致特定的表型或疾病16。用表型诱变剂进行诱变后,可以用筛查整个基因组的办法来寻找新的显性或隐性突变。3.研究现状3.1生物学数据库的建设数据库是生物信息学的主要内容,至今世界各国纷纷建立了生物信息数据库17,其数量呈爆炸性增长,几乎涉及了生命科学的各个研究领域。目前主要有美国国立卫生研究院全国生物技术研究中心(NCBl)的GenBank();欧洲生物信息学研究所(EBl)的(EMBL)()数据库;日本国立遗传学研究所(NIG)的DNA数据库(DDBJ)()(瑞士生物信息学研究所(SIB)的SWISSPROT();美国Brookhaven国家实验室的PDB();NCBI开发的ENTERZ系统综合了上述各大数据库的信息和MEDLINE的文献信息。目前我国在生物信息数据库领域的主要任务是:实验室数据信息化管理、数据库标准化、数据库共享与集成;建立基因信息的评估与检测系统;构建我国自己特殊需要的二级、三级数据库和专业数据库,并与国际常用数据库有效连接和及时更新18。3.2新型生物信息学研究方法近年来,生物信息学家已经取得了多项研究成果,确定了数千个基因的功能,其中包括搜索碱基对序列匹配的有效方法,统计学工具,利用新的计算机工具组装整个基因组等,但生物信息学的发展面临新的挑战,迫切需要新的研究手段和研究方法。加利福尼亚大学能源系结构生物学和分子医学实验室的主任DavidEisenberg暗示,新的生物信息学方法19,包括罗塞塔石和系统发生图谱法,将“超越寻找氨基酸序列间相关性的传统测序方法”。“罗塞塔石”法:如果两个蛋白来自于同一类型细胞,比如在酵母中,“它们融合为一个蛋白质单链,我们推测这两个蛋白的功能是相同的,因为它们一直在同一个分子中,因此我们推测:假如在大肠杆菌中它们也能发生相互作用,那么这两个信息为我们提供了关于此系统的相同信息。”Eisenberg第9卷第5期口岸卫生控制Vol.9No.5PORTHEALTHCONTROL・43・补充说“通过使用这两种方法或更多的方法:,我们就能构建出交互蛋白质的网络。”系统发生图谱可以预测蛋白质与蛋白质之间的相互影响,编录试验的交互作用,但这两种类型的信息必须被建立,预测和比较,而且评估和区分预测的良莠的统计方法需要精炼。系统发生图谱使科学家能把某个蛋白放置在细胞功能的环境下加以研究。Eisenberg说:“我们先观察某个蛋白质所在的已测序的所有基因组,然后我们观察第二个蛋白质,它在同一个基因组位置出现。因此这个两个蛋白的出现和不出现是一致的。我们推测这两个蛋白的功能是共同的,所以它们同时出现或不出现的原因是它们一起工作,因此我们就能推测出许多相关性。”4.未来发展前景《第三次技术革命》里有这样的描述:“一场与工业革命和以计算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将是基因组革命时代,它现在处于初期阶段。”基因组学的发展已经进入后基因组研究阶段20,致力于蛋白质功能研究的蛋白质组学和功能蛋白质组学正在蓬勃发展,
本文标题:【论文】生物信息学的现状与未来
链接地址:https://www.777doc.com/doc-2823016 .html