您好,欢迎访问三七文档
生物信息学一:绪论1、基因(Gene):基因是DNA分子上携带有遗传信息的功能片断。2、基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。3、人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2×109个碱基对的序列测定,主要任务包括做图、测序和基因预测,其根本任务是解读和破译生物体的生老病死以及与疾病相关的遗传信息。4、有人称德利思为“人类基因组计划之父”——他不是第一个提出人类基因组计划的人,但他促成了第一个人类基因组研究项目的启动。5、4张图:遗传图物理图序列图转录图HGP的终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。6、遗传图谱(geneticmap)又称连锁图谱(linkagemap),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。7、遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。8、物理图谱(physicalmap)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。9、转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。10、随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。11、大规模测序基本策略:逐个克隆法:小片段针对图谱的!!全基因组鸟枪法:大片段-测序-组装(美国Celera公司)Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。12、人类基因组计划的实施意义:(1)人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。(2)人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。(3)研究多种模式生物基因组将有助于研究地球生物的进化史。13、生物信息学:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。14、生物信息学主要研究内容:1)、生物分子数据的收集与管理2)、数据库搜索及序列比较3)、基因组序列分析4)、基因表达数据的分析与处理5)、蛋白质结构预测15、生物信息学主要研究两种信息载体:DNA分子、蛋白质分子16、生物分子信息的特征:生物分子信息数据量大;生物分子信息复杂;生物分子信息之间存在着密切的联系。17、基因组序列分析:遗传语言分析——天书基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较18、目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。19、基因芯片(genechip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。20、蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。21、蛋白质结构预测分为:二级结构预测、空间结构预测。22、蛋白质复杂结构分析:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法。23、生物信息学研究意义:1)认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系2)改变生物学的研究方式改变传统研究方式,引进现代信息学方法3)在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据24、生物信息学当前的主要任务:基因组蛋白质组蛋白质结构药物设计25、什么事件大大促进了生物信息学的发展——人类基因组计划26、生物信息学中最重要的贡献是什么?Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献二:数据库检索1、生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性2、生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快、数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置3、分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。4、序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。5、不连续基因:基因的编码序列在DNA分子上是不连续的,为不编码的区域所隔开。6、cDNA去除了“非编码区域”,因而很容易用来定位蛋白质编码区域。7、DNA测序不能从染色体进行,首先必须克隆化,构建基因组的物理图谱。8、根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,也称专门数据库、专业数据库、专用数据库。9、MyNCBI的功能:保存和管理检索保存检索结果过滤检索结果置设LinkOut10、GenBank序列提交规范:序列长度小于50bp没有内含子而只有多个外显子组成的染色体序列只有引物序列只有蛋白序列非生物学相邻序列包含有未测序区域序列包含有混合的染色体和mRNA序列的混合体而被当作单条序列EST提交(要通过dbEST)GSS提交(通过dbGSS)11、ReqSeq的特性:无冗余核酸和蛋白质序列之间有明确的联接更新序列数据和生物学之间的对应关系数据有效性和格式一致性清楚明确的访问号由NCBI和其合作者维护三:PCR引物设计1、聚合酶链反应(PolymeraseChainReaction,PCR)是80年代中期发展起来的体外核酸扩增技术。它具有特异、敏感、产率高、快速、简便、重复性好、易自动化等突出优点。2、引物设计是PCR技术中至关重要的一环。使用不合适的PCR引物容易导致实验失败:表现为扩增出目的带之外的多条带(如形成引物二聚体带),不出带或出带很弱,等等。3、引物设计的原则:引物与模板的序列要紧密互补引物与引物之间避免形成稳定的二聚体或发夹结构引物不能在模板的非目的位点引发DNA聚合反应(即错配)。4、一般原则引物的长度一般为15-30bp,常用的是18-24bp,但不应大于38。引物过短又同时会引起错配现象,一般来说引物长度大于16bp是必要的(不容易引起错配)。5、Tm=4(G+C)+2(A+T)6、PrimerPremier5.0的使用:引物设计限制性内切酶位点分析DNA基元(motif)查找同源性分析7、用Oligo设计引物时的3个标准Tm值曲线以选取5’到3’的下降形状有利于引物引发聚合反应。Frq曲线宜选用3’端Frq值相对较低的片段。ΔG值在5’端和中间值比较高,而在3’端相对低。四:核酸序列分析1、DNA序列分析可大体分为两类:(1)测序DNA序列分析;(2)特定DNA序列分析。后者内容一般包括:DNA碱基组成、密码子偏向性、内部重复序列、酶切位点、编码区分析、二级结构预测等,但不局限于这些内容。2、大多数分子生物学软件都具有限制性酶切分析功能,完全可以轻松地实现限制性酶切分析功能,这方面的软件如:DNAMAN、Bioedit、DNAStar软件包等。3、电子克隆也称为虚拟克隆(virtualcloning)原理:根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列。电子克隆以部分cDNA为起始,和GenBank的EST数据库进行BLAST搜索,得到与5’或3’端相似序列的EST,然后以该EST为模板,进一步搜索EST数据库,一直往前延伸,直到找到终止密码子,得到全长cDNA。4、电子克隆a将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。b将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(ContigAnalysis)。(如果种子序列不是核酸,则不必拼装新序列)。c以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。d对延伸产物进行ORF分析,确定cDNA的完整性。5、mRNA序列需要翻译为蛋白质才能发挥其生物学作用,因此核酸序列的可读框架(OpenReadingFrame,ORF)分析也是核酸序列分析一个重要方面。对真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框。非全长cDNA序列如ESTs,通过所有位相搜索也可很快获得结果。GenBank的ORFFinder是一个较好的ORF分析网络资源。6、对延伸产物进行ORF分析,确定cDNA的完整性。7、所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。Kozak规则可以帮助确定ORF的起始密码子。加尾信号须自行搜索。若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。8、CpG岛:是一些富含GC的小区域,大小范围为0.5~5kb,基因中平均每100kb即可出现。因这些区域未发生甲基化,故富含CpG(60~70%),目前认为,基因表达与CpG岛甲基化程度呈负相关。9、启动子是一段位于结构基因5’端上游区的DNA序列。真核基因启动子在-25~-35区含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110区含有GCCACACCC或GGGCGGG序列。10、Sanger双脱氧终止法:单链DNA模板与寡核苷酸引物杂交,新的DNA链在DNA聚合酶催化下从引物末端进行合成。在反应混合物中除了有模板DNA、引物、DNA聚合酶和4种底物dNTPs之外,还加入一定比例的四种2',3'-双脱氧核苷酸三磷酸ddNTPs(终止核甘)之一。11、序列比较的任务:发现序列之间的相似性;辨别序列之间的差异。目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系五:蛋白序列分析1、α螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成亲水残基往往出现在疏水残基之间,对功能有重要的作用。2、信号肽预测:指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。3、信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域,信号肽切割位点的-3和-1位为小而中性氨基酸。4、同源建模模型评估:步骤一:上传文件步骤二:加氢原子步骤三:开始检测模型步骤四:选择要分析的参数,一般采用默认值第五步:查看结果,这里有图形分析和具体表格分析。5、同源建模:模版的搜寻(FASTA与BLAST)。6、结构生物学:是以生物大分子特定空间结构、结构的特定运动与生物学功能的关系
本文标题:复习一生物信息学
链接地址:https://www.777doc.com/doc-2541155 .html