您好,欢迎访问三七文档
1.Bioinformatics:生物信息学是一门交叉学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据中包含的生物学意义。2.primer5:加拿大Premier公司开发的专业用于PCR、测序引物和杂交探针的设计和评估软件。特点:强大的自动搜索能力;友好的操作界面。功能:引物设计、限制性内切酶位点分析、DNAmotif查找、同源性分析功能3.HGP:人类基因组计划:规模模宏大的科学计划,其旨在测定组成人类染色体(指单倍体)中所包含的30亿个核苷酸序列的碱基组成,从而绘制下人类基因组图谱,并且辨识并呈现其上的所有基因及其序列,进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。4.MEGA6:该软件是由Kumar等编写的进行分子进化遗传分析的免费软件包,能对DNA、mRNA、氨基酸序列及遗传距离进行系统发生分析。在建树方法上,提供了目前最常用的UPGMA,ML,NJ及MP法,对所获得树也可进自举值检验及标准误估计可靠性检验。优点为:简单易用5.ClustalW:渐进方法序列比对软件。用成对对位获得相似矩阵,从矩阵得到导引树,根据导引树进行渐进排列。ClustalX(序列比对软件)Modeltest&MrModeltest(碱基替换模型筛选软件)Figtree(树形显示软件)TreeView(树形显示软件)6.PyMOL:分子三维结构查看及分析软件7.DatabaseManagementSystem,DBMS:数据库管理系统。对数据库进行管理的系统软件,提供DB的建立、查询、更新以及各种数据控制功能。8.Phylogenetictree:系统发育进化树。用一种类似树状分支的图形来概括各种生物之间的亲缘关系。结点(node):每个结点表示一个分类单元(属、种群)。进化分枝(Clade):是指由同一生物进化而来的单一系统群。实体抽象为节点,实体间的进化关系抽象为连接。分子系统发育的核心为构建系统发育进化树。9.Orthologygene10.BLAST:美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。是“局部相似性基本查询工具”的缩写。11.常用的分子三维结构查看及分析软件:(1)PyMOL(2)CATH是一个按等级分类PDB中蛋白质结构的数据库。只有分辨率在4埃以内的晶体结构以及NMR结构才被分类。蛋白质结构分类结合了自动与手动两个过程。(3)KEGG途径数据库是存储的是人工绘制的途径图谱,包括了目前已知的所有分子相互作用网络和生物反应网络:总途径图,代谢途径图,遗传信息加工图,环境信息加工图,细胞过程图,机体系统图,人类疾病相关途径图,药物开发图。12.旁系同源序列:由于基因重复事件产生的相似序列。(paraology)基因重复,染色体某个位置出现一个基因的两个拷贝。随后这两个基因拷贝分别进化。可以反映基因进化的历史如:γ一珠蛋白基因和β一珠蛋白基因13.直系同源序列:具有共同祖先和相同功能的同源基因称为直系同源。直系同源基因由于物种分化事件产生,因此可以反映物种之间的进化关系。直系同源基因是从共同祖先垂直继承,不同物种起的功能相同。反映物种进化的历史。如:人α一珠蛋白基因与小鼠α一珠蛋白基因14.异同源序列:由于物种间遗传物质的平行转移,但不包括细胞器和核基因之间(xenology)的转移。如细菌的转化、结合和转导都是屋中间遗传物质的平行转移。15.简述GBFF的格式包含的内容文本文件。GBFF是GenBank数据库的基本信息单位最为广泛使用的生物信息学序列格式之一三大数据库交换数据是采用的格式第一部分:描述符:包含了关于整个记录的信息第二部分:特征表:包含了注释这一记录的特性第三部分:核酸序列本身:在最后一行以“//”结尾。16.简述序列相似性和同源性的关系序列的相似性:将查询序列与数据库里的序列逐一进行两两比对分析,得出相似性高的序列。同源性是指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;17.序列比对的意义和作用序列比对也叫对位排列,序列联配、序列对齐。根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能的反映序列间的相似性,这个过程称为序列比对。作用:1.分子发育分析:通过序列比对,进行聚类分析,然后根据所得结果构建系统进化树,进而分析所研究分子序列的亲缘关系。2.获得共性序列:由序列比对获得的与所有参比序列距离最近的一条序列称为共性序列,进而利用共性序列进行芯片探针或检测引物的设计。3.突变分析:同一种系的不同个体的基因存在突变而产生差异,最常见的SNP分析。4.保守区段的分析:通过序列比对进行不同序列间相同区段的查找,这种不同序列间一致的区段称为保守区段。种类:成对对位排列和多重序列的对位排列、全局和局部对位排列对位排列:1.点阵分析法:快速的序列对位排列的可视化方法2.动态规划法:动态规划算法其基本思想的第一步采用分治思想将待求解问题分解成若干个子问题。动态规划经分解得到的子问题往往不是互相独立的,而是相互关联的。因此逐级求各小问题的最佳解,并保存每个子问题的最佳解的答案,从而避免重复计算。最后,通过追溯最佳解组合的路径,得出最初问题的解的集合。核心思想:分治思想和避免冗余3.词或K串方法局部比对与全局比对的比较:全局比对是从头到尾全程比较,考虑序列的整体相似性。全局多序列比对可以鉴别或证明新序列与已有序列家族的同源性;帮助预测新蛋白质序列的二级和三级结构;是进行分子进化分析的重要前提。局部比对考虑序列部分区域的相似性。局部比对的生物学基础是:蛋白质功能位点由较短的序列片断组成,尽管在序列的其它部位可能有插入、删除或突变,但是这些序列片断具有相当大的保守性。此时,局部比对往往比全局比对具有更高的灵敏度,其结果更具有生物意义。局部多序列比对可以用来刻画蛋白质家族和超家族20.试述蛋白质三维结构预测的三类方法(1)从头计算法:蛋白质的三维结构决定于自身的基酸序列,并且处于最低自由能状态。(2)同源建模法:相似的氨基酸序列对应着相似的蛋白质结构。如果目标序列与模板序列之间的一致度30%,那么同源建模法是不适用的。(3)穿线法:不相似的氨基酸序列也可能对应着相似的蛋白质结构。(4)综合法21.在BLAST中,score值、E值的概念及其意义分值(Score):是衡量查询序列同命中序列间相似性的测度。分值越高,命中序列与查询序列越相似。分值(Score):是衡量查询序列同命中序列间相似性的测度。分值越高,命中序列与查询序列越相似。E=K·m·n·e-λSK,一个与目标序列相关的经验常数;λ,与计分(分值)系统相关的经验常数;m,查询序列大小;n,所查询数据库大小;S,分值22.FASTA数据格式要点又称Pearson格式;特点:最常用、最简单的序列注释格式FASTA格式的要求是:第一行是描述行,第一个字符必须是“”,随后是提交蛋白的ID,下面一行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;单个的“-”代表不明长度的空位;在氨基酸序列里用允许出现“*”和“U”号;任何数字都应该被去掉或换成字母(如,不明核酸用N,不明氨基酸用“X)。此外,对于核算序列,除了A,C,G,T,U分别代表各种核苷酸外,R代表G或A(嘌呤),Y代表T或C(嘧啶),K代表G或T(带酮基),M代表A或C(带氨基),S代表G或C(强),W代表A或T(弱),B代表T,G或C,D代表G,A或T,H代表A,C或T,V代表G,C或A,N代表A,G,C,T中的任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标志之外,B代表Asp或Asn,U代表硒代半胱氨酸,Z代表Glu或Gln,X代表任意氨基酸,“*”代表翻译结束标志。命名规则:1、以大于号“起始2、标题行(asingle-linedescription)位于文件的第一行,(中英)标题行相关部分用“|”分隔3、序列行随后,序列行中不允许有空间,每行文字不超过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC核苷酸或氨基酸的符号5、核苷酸字符大小写均可,氨基酸字符应大写6、-单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示8、氨基酸序列中“*”表示终止9、常保存为.TXT文档23.数据库查询和数据库搜索24.基于距离的系统进化树构建方法一:UPGMA法(类平均法)二.NJ法(邻接法):关键步骤:1)计算发散系数2)生成一个速率校正距离矩阵25.碱基替换模型分子进化研究中,我们往往认定这样一个假设即序列是同源的,他们有单一的祖先序列这个祖先序列在进化过程中发生了一系列的核苷酸突变。碱基替换模型就是检测这些突变发生的类型。碱基模型在系统进化树的构建中非常重要,因为距离的计算过程必须在一定的遗传假设下才能进行。DNA突变的模式:替代,插入,缺失,倒位;核苷酸替代:转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代26.基于离散程度的系统进化树构建方法一.最大简约法(MP)根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。理论基础为奥卡姆剃刀(Ockham)原则:计算所需替换数最小的那个拓扑结构,作为最优树。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。二.最大似然法(ML):选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树;在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长;缺点:费时,每个步骤都要考虑内部节点的所有可能性改进:启发式算法,分枝交换搜索等27.几种基本的BLAST28.信息位点:能将所有可能的树区别出来的位点。信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。29.颠换和置换置换:转换。嘌呤被嘌呤替代,或者嘧啶被嘧啶替代颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代30.几种常见的数据库一、主要核酸序列数据库:GenBank、EMBL、DDBJGenBank数据库的数据来源有三种:直接来源于测序工作者提交的序列、与其它数据机构协作交换的数据、美国专利局提供的专利数据EMBL数据库的数据来源有三种:直接来源于测序工作者提交的序列(Sanger测序中心)、与其它数据机构协作交换的数据
本文标题:生物信息复习资料
链接地址:https://www.777doc.com/doc-2199559 .html