您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学B复习要点
1知识点:1.生物信息学:生物信息学是一门(交叉)学科,它包含了生物信息的获取、处理、存储、分发、分析和解释在内的所有方面。他综合的应用(数学)、(计算机科学)和(生物学)的各种工具,来阐明和理解大量数据中包含的生物学意义。2.人类基因组计划:(humangenomeproject,HGP)是一个国际合作项目,由美国/德国/法国/英国/日本和中国科学家共同参与。其旨在测定组成人类染色体(指单倍体)中所包含的30亿个核苷酸序列的碱基组成,从而绘制人类基因组图谱,辨识并呈现其上的所有基因及其序列,进而破译人类遗传信息。人类基因组计划是人类为了解自身的奥秘所迈出的重要一步,是继曼哈顿原子弹计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。3.一级数据库数据库:直接来源于实验获得的原始数据,只经过简单的归类整理和注释。包括:基因组数据库,序列数据库(核酸和蛋白质)以及结构数据库。4.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。5.公共序列数据库:1988年3个数据库达成协议,组成合作联合体。它们每天交换信息,并对数据库DNA序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布的数据(EMBL负责欧洲,GenBank负责美洲,DDBJ负责亚洲等),将所有信息汇总在一起,共同享有并向世界开放,故这3个数据库又被称为公共序列数据库。6.主要核酸序列数据库:GenBank、EMBL、DDBJ7.主要蛋白质序列数据库:Swissprot,PIR8.蛋白质结构分类数据库包括:SCOP和CATH。9.FASTA格式,又称Pearson格式。特点:最常用、最简单的序列注释格式命名规则:(理解即可)1、以大于号“起始2、标题行(asingle-linedescription)位于文件的第一行,(中英均可)3、序列行随后,序列行中不允许有空间,每行文字不超过80个字符4、组成序列信息字符串的符号应为IUB/IUPAC(InternationalUnionOfPureAndAppliedChemistry)核苷酸或氨基酸的符号25、核苷酸字符大小写均可,氨基酸字符应大写6、-单个连字符表示一个空位“gap”7、序列中不允许有数字、不明确的核苷酸用N表示,氨基酸用X表示8、氨基酸序列中“*”表示终止9、常保存为.txt文档10.GBFF序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为3个部分:第一部分包含整个记录的信息(描述符);第二部分包含特征表,包含了注释这一记录的特性;第三部分是核苷酸序列本身,以“//”结尾。11.信息检索(informalretrieval):是将无序的数据有序化,形成信息集合,并根据需要从信息集合中提取特定信息的过程。12.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。13.PUBMUD:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接.14.同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。15.相似性(similarity):是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较。16.BLAST:“局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的缩写。BLAST是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。17.E值:是随机产生一个比所得分值高的对位排列的概率,即分值可靠性的测度。E值越(小),所命中序列越可靠,越能反映序列之间真实的生物学意义。18.低复杂度序列:指序列中包含的重复度高的区域,如poly(A)。BLAST搜索首先将低复杂度序列过滤,然后再进行搜索。19.主要的BLAST程序:基因组BLAST,基本BLAST,特殊类型数据库的BLAST.20.基本BALST:321.GenBank中序列提交的工具为:BankIt、Sequin。其中BankIt为在线提交工具,Sequin为本地机生成要提交的序列,以邮件的形式发送至GenBank。22.生物进化又称有机体进化(organismevolution):指生物从共同祖先由低级到高级,由简单到复杂逐步分化演变的过程。23.现代生物进化理论的主要思想:生物进化的单位是种群;生物进化过程的三个环节⒈突变和基因重组产生进化的原材料;2.自然选择决定生物进化方向;⒊隔离导致物种的形成生物进化实质:种群基因频率的改变.24.基因频率:在一个种群里,某一等位基因的数量就是这基因在这个种群里的频率。25.基因型频率:在一个种群里,某一等位基因的基因型的数量就是这个基因型在这个种群里的频率。26.基因库(genepool):一个种群全部个体所带的全部基因(包括所有等位基因)的总合.27.有根树:以外群作为参照,可以显示出树根的系统树,称为有根树。可以显示出共同祖先的树。探明生物(序列)之间的进化顺序28.无根树:没有外类群作为参照的树根的树。无法分辨出共同的祖先,研究目的为探明生物(序列)之间的亲缘距离。29.点阵分析法(dotmatrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。30.动态规划:是一种将问题实例分解为更小的、相似的子问题,并存储子问题的解而避免计4算重复的子问题,以解决最优化问题的算法策略。核心思想:分治思想和避免冗余31.Needlman-Wunsch算法,动态规划算法的全局比对;Smith-Waterman算法动态规划算法的局部比对.32.分子系统进化分析应用:物种进化历史重建;病原生物传染源头和传播路径的追溯;物种亲缘关系的确认。举例一个例子说明。33.分子进化分析流程:1.获取或选择合适的目标序列;2。序列比对;3.选择合适的建树模型和碱基替换模型;4.树的评估34.直系同源:具有共同祖先和相同功能的同源基因称为直系同源。(orthology)直系同源基因由于物种分化事件产生,因此可以反映物种之间的进化关系。直系同源基因是从共同祖先垂直继承,不同物种起的功能相同。反映物种进化的历史。如:人α一珠蛋白基因与小鼠α一珠蛋白基因旁系同源:由于基因重复事件产生的相似序列。(paraology)基因重复,染色体某个位置出现一个基因的两个拷贝。随后,这两个基因拷贝分别进化。可以反映基因进化的历史如:γ一珠蛋白基因和β一珠蛋白基因异同源:由于物种间遗传物质的平行转移,但不包括细胞器和核基因之间(xenology)的转移。如细菌的转化、结合和转导都是屋中间遗传物质的平行转移。35.序列比对(sequencealignment)序列比对也叫对位排列,序列联配、序列对齐。36.全局比对(globalalignment):待研究序列的全部符号进行比较,最后也是序列的全部符号进行排列和计分,比对的结果中各序列的长度相同。采用Needleman-Wunsch算法主要优点是适合较短序列或结构预测。37.序列对位排列方法:点阵分析法,动态规划法,词或K串方法.38.动态规划法:是一种将问题实例分解为更小的、相似的子问题,并存储子问题的解而避免计算重复的子问题,以解决最优化问题的算法策略。核心思想:分治思想和避免冗余.39.Needlman-Wunsch算法:动态规划算法的全局比对.全局比对待研究序列的全部符号进行比较,最后也是序列的全部符号进行排列和计分,比对的结果中各序列的长度相同。主要优点是适合较短序列或结构预测40.Smith-Waterman算法:动态规划算法的局部比对.待研究序列的全部符号进行比较,最后只将序列中得分高的片段中的符号进行排列和计分,即只对序列的局部区域进行5对位排列.主要优点是适合数据库查询或寻找结构域.41.利用Needleman对两条DNA序列进行全局比对。X:ATTCCY:TTCGA得分系统:匹配+4,错配-3,空位-4。(具体算法见课件,重点)42.ClustalW软件原理渐进方法:用成对对位获得相似矩阵从矩阵得到导引树根据导引树进行渐进排列43.Jukes-Cantor单参数模型,:最简单的DNA序列进化模型.假设任一位点的核苷酸置换概率相同,仅有一个参数,即一个核苷酸变为另一个核苷酸的概率为;44.转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代.45.系统发育树重建的基本方法:距离法,最大简约法,最大似然法.贝叶思法(了解)46.距离矩阵法包括:UPGMA和NJ法.47.最大简约法(MP):根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。48.信息位点:能将所有可能的树区别出来的位点。49.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点。50.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。51)列举5种常用的系统发育分析软件:PHYLIP、PAUP、MEGA、PAML、BEAST。37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoringmatrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。39.PDB(ProteinDataBank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。43.MMDB(MolecularModelingDatabase):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。6
本文标题:生物信息学B复习要点
链接地址:https://www.777doc.com/doc-6282913 .html