您好,欢迎访问三七文档
《生物信息学》第一章绪论1.人类基因组计划简介人类基因组计划(HumanGenomeProject,HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,basepair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本任务,在此基础上人类才能解读和破译生物体生老病死以及与疾病相关的遗传信息。2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图。人类基因组计划进行得非常顺利,已经于2003年完成。我国于1999年9月正式参与人类基因组计划,并承担了1%的测序任务,成为国际上承担HGP任务的6个国家之一。人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。2.大规模测序基本策略:逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)3.生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。4.生物信息学主要研究两种载体,即DNA分子和蛋白质分子。基因识别包括:识别基因组编码区,识别基因结构5.生物信息学定义:1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整的生物信息学的定义:生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量生物信息的生物学意义。6.生物信息学主要研究内容1生物分子数据的收集与管理;2数据库搜索及序列比较;3基因组序列分析;4基因表达数据的分析和处理;5蛋白质结构预测;思考:生物信息学分析的数据对象主要有哪几种?这些数据之间存在着什么关系?第二章生物信息学的生物学基础1.核酸是遗传信息的携带者蛋白质是信息转化成生物结构和功能的表达者,氨基酸(aminoacid)是蛋白质的基本结构单位2.蛋白质二级结构主要有以下几种形式。(1)螺旋(-helix)(2)折叠(-platedsheet)3)-转角(-turn)(4)无规卷曲(5)无序结构(4)--花样3.维持蛋白质三级结构的作用力主要是氢键、疏水相互作用、离子键(即盐键)、范德华力以及共价二硫键。思考:简述分子生物学的中心法则。简述蛋白质的各级结构。第三章生物分子数据库1.生物分子数据库:一级数据库,数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。2.国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJ各数据库的序列格式代表什么意义?如:LUCUSAY6672477066bpDNAlinearPLN06-DEC-2004表示什么意思?你能获得哪些信息3.基本数据库可分为哪三大类?4.什么是二级(一级)数据库?5.国际上有哪三大主要核酸序列数据库?6.你了解的国内、外分子生物信息网站及其网址思考:目前国际上著名的核酸序列数据库有哪几个?这些数据库之间有什么关系?第四章数据库查询与数据库搜索1.所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。2.数据库搜索指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。3.Entrez系统的特点:1使用方便(综合数据库);2把数据库和应用程序结合在一起;4.SRS查询的三种查询方式:1标准查询2扩展查询3快速查询5.相似性(similarity):指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低,属于量的判断。6.同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。7.最流行的序列数据库快速搜索程序–FastA–BLASTBLAST是BasicLocalAlignmentSearchTool的缩写.它是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法.已知一个包含若干序列的数据库,BLAST搜索可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列思考:1.SRS和Entrez各是什么数据库的查询系统?2.什么是NCBI的相似结构搜索工具,它将一个新的蛋白质三维结构与PDB或MMDB数据库中的结构进行比较?它列出若干与查询待查询结构相似的蛋白质,用户利用系统提供的哪种交互显示软件观察重叠的分子模型图,详细分析这些蛋白质空间结构的关系,分析蛋白质因为进化而改变的结构区域?(VAST,Cn3D)3.我的查询序列是蛋白质,我要搜索蛋白质数据库,应选用哪个BLAST程序?BLASTP。如果我的查询序列发生变化,我选择的数据库也发生变化,我又该如何选择程序?FastA程序包你会选择么?第五章序列分析1.序列比较的根本任务是:1发现序列之间的相似性,2辨别序列之间的差异。2.序列比较的基本操作是比对(Alignment),两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列。多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系3.最简单的距离就是海明(Hamming)距离。对于两条长度相等的序列,海明距离等于对应位置字符不同的个数。4.为了解决字符插入和删除问题,引入字符“编辑操作”(EditOperation)的概念,通过编辑操作将一个序列转化为一个新序列。用一个新的字符“-”代表空位(或空缺,Space),并定义下述字符编辑操作:Match(a,a)—字符匹配;Delete(a,-)—从第一条序列删除一个字符,或在第二条序列相应的位置插入空白字符;Replace(a,b)—以第二条序列中的字符b替换第一条序列中的字符a,a¹b;Insert(-,b)—在第一条序列插入空位字符,或删除第二条序列中的对应字符b。5.序列的两两比对(PairwiseSequenceAlignment)就是对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符,使得两条序列达到一样的长度,并使两条序列中相同的字符尽可能地一一对应。6.用于序列相似性的打分矩阵(scoringmatrix)核酸打分矩阵:(1)等价矩阵(2)BLAST矩阵(3)转换-颠换矩阵核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换(transition),如AG,CT;如果环数发生变化,则称为颠换(transversion),如AC,AT等。在进化过程中,转换发生的频率远比颠换高蛋白质打分矩阵:(1)等价矩阵(2)遗传密码矩阵GCM(3)疏水矩阵(4)PAM矩阵(5)BLOSUM矩阵思考:你会绘制简单的点阵图么?你会计算海明距离,比对得分和比对代价么?什么是同源?什么叫相似?TAC是AGTACA的子串么?是它的子序列么?DNA片段组装1、序列片段组装过程:三个步骤(1)首先进行序列片段的两两比较,确定可能的片段之间的覆盖(或者重叠);(2)确定所有片段统一的覆盖模式,即确定各个序列片段的相对位置;(3)最后确定片段组装结果,即确定目标序列。2、三种片段组装模型:(1)最短公共超串模型(2)重建模型(3)多重连续区模型最短公共超串模型:给定一个字符串集合F,求出一个最短的字符串S,使得对于所有属于F的字符串f,S是f的超串(或者f是S的子串)重建模型:给定一个字符串集合F,求一个最短的字符串S,使得对于所有属于F的字符串f,下式成立:min(ds(f,S),ds(f’,S))f其中f’是f的反向互补串。多重连续区模型:给定一个片段集合F和一个整数t(0),将F分割为最小数目的子集Ci,1ik,每个Ci允许一个多重比对。3.序列片段组装:给定一组取自特定字母表的字符串集合F,寻找一个最短的字符串s,使得F中的每一个字符串都是s的一个连续子串。这里,集合F的字符串相当于待组装的序列片段,而s则是序列片段组装的结果。4.在进行序列片段组装时会遇到哪些问题:(1)碱基标识错误(2)不知道片段的方向(3)存在重复区域(4)缺少覆盖思考:什么是序列片段组装?为什么要进行序列的片段组装?你会进行简单的序列片段组装么?第六章基因组信息分析DNA序列分析包括分析:基因序列;基因表达调控信息。在DNA序列中,除了基因之外,还包含许多其它信息。其中存放这些信息的DNA片段称为功能位点,如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。真实基因组的核苷酸分布则是非均匀的;如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近(如何解释?)。不同基因组中两个连续核苷酸出现的频率也是不相同的。在基因中,同义密码子的使用并不是完全一致的,不同物种、不同生物体的基因密码子使用存在着很大的差异,这是密码子的使用偏性。功能位点:与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段。核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等。原核基因识别:重点在于识别编码区域基因识别的主要方法:从头算方法,基于同源序列比较的方法第七章系统发生分析1.系统发生(phylogeny)——是指生物形成或进化的历史2.系统发生学(phylogenetics)——研究物种之间的进化关系3.系统发生树(phylogenetictree)——表示形式,描述物种之间进化关系4.系统发生分析步骤:(1)序列比对(2)确定替换模型(3)构建系统发生树(4)评价所建立的树5.系统树的构建主要有3种方法:1距离法2最简约法3最大似然法思考:什么是有根数?什么是无根树?如何获得相似性序列?第八章基因芯片(genechip):1.基因芯片又称DNA微阵列(DNAmicroarray),是采用原位合成或直接点样的方法将大量DNA片段或寡核苷酸片段以预先设计的方式排列在硅片、玻璃等介质上形成微矩阵,待检测样品用荧光分子标记后,与微矩阵杂交,通过荧光扫描及计算机分析即可获得样品中大量的基因序列及表达信息,以达到快速、高效、高通量的分析生物信息的目的。2.根据片基或支持物不同:无机片基和有机合成物片基根据探针阵列的形式:原位合成与预先合成然后点样根据探针长度:长探针芯片和短探针芯片根据探针的类型不同:cDNA微阵列和寡核苷酸阵列根据芯片的功能:基因表达谱芯片和DNA测序芯片3.基因芯片的相关技术:基因芯片设计;基因芯片制备;靶基因的制备;杂交和检测;检测结果分析4.基因芯片的制备主要有两种基本方法:一是在片合成法;另一种方法是点样法5.一个理想的基因芯片图像具有以下几个性质:(1)芯片单元的形状和尺寸相同;(2)每个单元的中心位于象素点上;(3)无灰尘等引起的噪声信号;(4)最小和均匀的图像背景强度。第九章蛋白质结构预测1.蛋白质结构预测分为二级结构预测和空间结构预测2.蛋白质结构预测主要有两大类方法:(1)理论分析方法–通过理论计算(如分子力学、分子动力学计算
本文标题:生物信息学复习
链接地址:https://www.777doc.com/doc-2199589 .html