您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学资料整理简约版
1.生物信息学(Bioinformatics):是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的学科。新兴的交叉学科。PS:生物分子至少携带着三种信息–遗传信息–与功能相关的结构信息–进化信息2.生物信息学主要研究两种信息载体:DNA和蛋白质(1)遗传信息的载体——DNADNA通过自我复制,在生物体的繁衍过程中传递遗传信息;基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构蛋白质结构决定于蛋白质的序列(这是目前基本公认的假设),蛋白质结构的信息隐含在蛋白质序列之中。3.序列数据库有哪些?特点?如何检索?(1)基因组序列数据库:GenomeDatabase(GDB)数据库:包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL-EBI和Sanger研究所联合开发。UCSCGenomeBrowser:加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据。(2)核酸序列数据库:EMBLDDBJGenBank三个数据库每天互相交换数据,GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息。(3)蛋白质序列数据库:UniProtIPINr4序列标签位点STS序列标签位点(sequence-taggedsite),是已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100~500bp之间。任何DNA序列,只要知道它在基因组中的位置,都能被用作STS标签。5.CDS和ORF的区别(1)开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。(2)CDS,是编码一段蛋白产物的序列。(3)CDS可能是一个ORF,但也可能包括多个ORF。(4)反之,每个ORF不一定都是CDS。开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。6什么是序列比对?(同源性,一致性,直系和旁系)序列比对:为评价相似性(similarity)的程度或同源性(homology)的可能,将两个或更多的序列排列起来以得到最大一致性(identity)(即相同或相似性)的过程。同源性(homolog):序列源于共同的祖先而产生的相似性直系(直向)同源(orthology):同祖同功不同种旁系(共生)同源(paralogy):同祖同种不同功7.全局比对和局部比对全局比对方法是DynAmicprogrAmming(动态规划)方法对生物序列比对的最早运用,该算法保证能找到较好的比对结果,是将两个序列从头到尾比较。局部比对则找到优化匹配的子序列(subsequence),然后进行比对。数据库搜索几乎都是使用局部比对。局部比对比全局比对快,但是牺牲了准确性。全局比对-混乱的比对结果局部比对-找出保守区域的效果更好8.BLAST和FASTA区别FASTA是一个DNA、蛋白质序列比对软件包,最早由DAvidJ.LipmAn&WilliAmR.PeArson(1985)创建,有很多变种,理论上可以对任何字母表产生的序列起作用,可以在线搜索,也可以下载到本地使用,EBI提供在线搜索版本fAstA33。BLAST,提供在线版本(NCBI)和不同的软件实现(implement),BLAST也是一种近似Smith-WAtermAn算法的启发式算法,稍微不太精确,但要快50倍以上。9.功能位点和基序功能位点(functionAlsite):DNA序列中,除基因外,还包含其它信息,如调控因子等,存放这些信息的DNA片段称为功能位点。基序(motif):DNA,蛋白质等生物大分子中的保守序列,在反式作用因子的结构中,基序一般指构成任何一种特征序列的基本结构(既指此具功能的基本结构,也指编码此结构的蛋白质/DNA序列),作为结构域中的亚单元,其功能是体现结构域的多种生物学作用。10.CPG岛CpG岛是一类长度在几百bp的DNA序列,其中CG核苷酸出现的频率非常高。若CpG岛长度已知,位置未知,则无法确定某个碱基是在岛内还是岛外,这时需要用隐马尔科夫模型。11.进化树系统发生树也叫系统树,进化树(evolutionarytree)或生命树(treeoflife),是对物种之间的进化关系的一种描述,这些物种被认为有共同祖先。涉及的特性:距离描述序列之间的差别(遗传距离)一般用距离矩阵(distAncemAtrix)表示距离往往由序列比对产生(如错配的比例)离散特征二态特征(如:DNA序列上的某个位点是否剪切位点)多态特征(如:某一位点可能的碱基有A、T、G、C)12构建进化树遗传信息计算方法非加权分组平均法UPGMA,UPGMA是最早的距离矩阵法,是基于统计的,要求数据能够精简为所有被研究的物种两两之间遗传距离的度量。Fitch-Margoliash法步骤:1、找出关系最近的序列对,如A和B2、将剩余的序列作为一个简单的复合序列,分别计算A和B到其他序列的距离的平均值3、用这些值计算A和B之间的距离4、将A和B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵5、确定下一对关系最近的序列,重复前面的步骤,计算距离6、从每个序列对开始,重复整个过程7、对每个树计算没对序列间的预测距离,发现与原始数据最负荷的树近邻比邻法是由UPGMA法演变出的另一种常用的方法,强调配对物种,由此构造一棵分支长度总和最小的树。最大简约法MaximumParsimony(MP)最好的树应该用最少的进化上的变化来解释数据,即突变最少的进化关系就越有可能是物种之间真实的进化关系。13密码子的简并氨基酸都对应2种以上密码子(M,W除外),最多有6种对应的密码子。14密码子使用偏好不同生物常常偏好使用编码同一个氨基酸的多个密码子中的一个;偏好的产生是一个分子进化的争论热点,一般认为密码子偏好反映了变异偏好和自然选择的平衡,在生长快的微生物中,如大肠杆菌和酵母,偏好反映了该物种tRNA的组成;偏好的密码子往往翻译更快更精确,研究tRNA进化较少。15外显子和内含子外显子:结构基因中编码蛋白质的序列称为外显子。内含子:结构基因中不编码蛋白质的序列称为内含子。剪接连接点(splicingjunctions)是指在切断和重接位点处的两旁的顺序。在内含子左侧的连接点称为供体(donor)。在内含子右侧的称为受体(acceptor).16简约信息位点(parsimony-informativesite):若在某个位点上至少有两个等位基因,而每个等位基因至少存在于两条序列,该位点称为信息位点。17不变位点(invariantsite):属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵描述所有序列间进化关系的树都有相同的突变数目(0)。18最简约树考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。所有简约信息位点最小核苷酸替换数的总和最小的树记为最简约树。19增强子(enhancer)指增加同它连锁的基因转录频率的DNA序列.20顺式作用元件(cis-actingelement)存在于基因旁侧序列中能影响基因表达的序列。顺式作用元件包括启动子、增强子、调控序列和可诱导元件等,它们的作用是参与基因表达的调控。顺式作用元件本身不编码任何蛋白质,仅仅提供一个作用位点,要与反式作用因子相互作用而起作用。21RNA聚合酶特异性识别和结合的DNA序列。启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。22基因组(Genome):一个细胞、细胞器或病毒中的所有DNA或RNA.23基因芯片也叫DNAchip或microarray(微阵列),是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列。24转录终止信号由反向重复序列以及特定的序列5’-AATAAA-3’组成。
本文标题:生物信息学资料整理简约版
链接地址:https://www.777doc.com/doc-2199625 .html