您好,欢迎访问三七文档
生物信息学蛋白质结构分析与预测1、说出至少一种蛋白质结构数据库和一种可视化工具。蛋白质结构数据的获取--PDB库。蛋白质三维结构显示比较出名的有:RASMOL,Swiss-PDBViewer和VMD等,Rasmol:是最著名的大分子结构可视化工具之一(Rasmol-3EBJ)。2、蛋白质结构的分析包括哪些?①结构品质的分析;②蛋白质内部相互作用分析;③溶剂可接近表面的计算及分析;④功能位点的分析。3、蛋白质结构联配的概念。蛋白质结构联配(比对):将两个相似的三维结构尽可能重叠在一起,这样使得结构上对应残基的主链原子在空间尽可能的靠近。利用重叠反过来定义序列的联配,通常认为序列上匹配的残基在空间距离上是相近的。通过结构联配找到同源关系更远的蛋白质,因为结构要比序列更加保守。4、说出一种结构相似性搜索工具。NCBI—VASTsearch使用举例。5、说出两个蛋白质结构分类数据,说出几种结构类。结构分类主要依据:序列比对和结构比对。分类方法:分层分类方法(树状结构)。折叠子tim桶,超家族,同源体,相似体。结构分类数据库CATH和SCOP(半自动和专家经验结合和完全依赖专家经验)。6、蛋白质结构预测的常见方法有哪些?蛋白质结构预测:结构预测是指仅依据蛋白序列信息来预测蛋白质中每个原子在三维空间中的相对位置,也有些方法仅预测结构中部分的信息。常见的预测方法:比较建模法、折叠识别法、二级结构预测法和从头预测法。7、蛋白质预测的策略?(大题)在得到一条未知结构蛋白质的序列时,我们可以采取如下的步骤进行结构预测:第一步:应该是判断目标序列中是否包含关键性的特征,如应该检查序列的潜在的跨膜片段;是否含有那些单氨基酸重复的区域,有则要作特殊处理。通过用Interpro之类的工具分析序列可以查寻这个蛋白质中可能存在的已知结构域,揭示出蛋白质中所有的结构域组成。另外,可以用PSI-BLAST寻找和它相关的其它序列或者部分序列(结构域)。第二步:如果查询序列与已知结构的序列有较高的相似度,则可以采用比较建模法,由SWISS-MODEL提供的网络服务可以完成这个任务,如果SWISS-MODEL上的搜索是成功的,则可以直接通过它进一步建立完整的结构模型。第三步:当不能用比较建模时,下一步则应该是二级结构预测。二级结构预测可以用于任何蛋白质序列,(球蛋白的结构域的预测要比膜蛋白更加准确)。将每个残基安排到α螺旋、β折叠或无规卷曲中去。二级结构预测完成之后则是进行折叠识别,该方法能确定二级结构是如何包裹成三级折叠的,这类方法的预测精度通常也要比标准比较建模法低得多。蛋白质序列分析1、名词解释:同源蛋白、蛋白质同源分析。同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来的蛋白质通常称为同源蛋白。蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的同源分析。常有的软件有:BLAST等PSI-BLAS迭代搜索)T和隐马尔可夫模型(HMMs。2、名词解释:蛋白质二级数据库并说出几个蛋白质二级数据库(至少3个)。同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此,将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库称为蛋白质二级数据库。Prosite数据库:基于多序列比较得到的单一保守序列片段,或称序列模体。Prints(蛋白质序列指纹图谱数据库)Blocks(蛋白质序列模块数据库)Profiles(序列概貌数据库)Pfam(蛋白质序列家族数据库)采用了隐马尔可夫模型Identify(蛋白质序列识别数据库)3、蛋白质结构域的概念及结构域的特点。蛋白质结构域(proteindomain):必须是一个独立单元。是蛋白质中结构紧密(compact)的、半独立的单元(semi-independent)在三维结构上呈现几何独立的部分;是蛋白质三维结构中可自折叠的稳定单元(stableunit),是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列;是可重现的功能和进化模块,是可定义单一明确功能的部分蛋白质序列。保守性。4、蛋白质序列的理化性质分析包括哪一些?并举出一种软件。蛋白质理化性质的分析通常包括:蛋白质的分子量、等电点(pI)、氨基酸组成、疏水性和亲水性分析等。ComputepI/Mw、ScansitePI/mw、ANTHEPROT。5、蛋白质序列的基本性质包括哪一些?并举出两种软件。蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋、卷曲螺旋、二硫键位置、翻译后修饰、信号肽与亚细胞定位、磷酸化位点分析等。PSORTTargetpDASHMMTOPSOSUITMAPTMHMMPredicprotein6、说明蛋白质功能的三个层次(可能简答)。分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能。molecularfunction:蛋白质的特殊绑定位点、催化活性和构象变化等。cellularfunction:一定细胞环境下代谢途径、信号级联的参与情况的。phonotypicfunction:生物体内的表型,如是否患有疾病及其疾病病理等。7、蛋白质功能注释的根本目标是什么?前蛋白质序列的功能注释方法基本上是经过同源比对进行已知的蛋白质功能注释信息的传递,目前大规模蛋白质功能注释工作主要集中为将单个基因产物划分到一个已知的蛋白质类别中。蛋白质鉴定与蛋白质相互作用数据分析1、蛋白质组及蛋白质组学?蛋白质组(proteome):是指一个基因、一个细胞或组织所表达的全部蛋白质成分。蛋白质组学首先利用双向电泳技术分离蛋白质组分,然后利用计算机软件对所得图像进行处理,从胶上回收蛋白质并采用氨基酸成份分析、微量蛋白质序列分析、质谱分析等技术进行鉴定,从而获得蛋白质组分的物理、化学及生物学参数,如分子量等。将获得的数据与已知蛋白质数据库中的数据进行比较,获得相关信息。2、蛋白组学的核心技术是什么?双向电泳作为核心技术。3、双向电泳的两向分别是什么电泳?第一向是等电聚焦(isoelectricfocusing,IEF),第二向是SDS-聚丙烯酰胺凝胶电泳(SDS-PAGE)。4、利用裂解肽段的分子量可产生肽阶梯序列、肽序列标签、肽质指纹等蛋白质属性数据,用于鉴定蛋白质。5、末端序列标签(Terminalsequencetags)。末端序列标签(Terminalsequencetags):可以用来鉴定蛋白质的N端、C端氨基酸序列。常用的软件是TagIdent。6、蛋白质相互作用的形式有哪些?蛋白质分子的聚合,分子杂交,分子自我装配,酶复合体,分子识别。7、说出三种研究蛋白相互作用的实验方法。噬菌体展示技术,酵母双杂交方法,串联吸附质谱分析TAP/MS,蛋白质芯片为基础的研究方法。8蛋白质相互作用组研究以及遇到的问题。剪不断理还乱的“怪圈”,没有标尺的度量,四维尺度下的研究,永不孤独,技术的烦恼。基因预测与基因组注释(1)1、什么是寡核苷酸,简并寡核苷酸?寡核苷酸(oligonucleotide):是一类只有20个以上碱基对的短核苷酸片段的总称(包括DNA和RNA)寡核苷酸可以很容易与它们的互补链链接,所以常用来作为探针(probe)确定DNA和RNA的结构,用作引物来进行聚合酶链式反应。简并寡核苷酸:是代表编码单个氨基酸的所有可能组成的不同序列的混合物作为识别、鉴定及扩增序列用的寡核苷酸序列,应该用保守序列来设计如果知道的是氨基酸序列还可能要设计其简并寡核酸算序列。2、引物设计常用的工具举例、PCR用的引物约多个碱基?软件举例:primer3,引物长度一般在15~30碱基之间。PCR引物的设计原则:①引物应用核酸系列保守区内设计并具有特异性。②产物不能形成二级结构,否则引物自身会折叠成发夹状结构。③引物长度一般在15~30碱基之间。④G+C含量在40%~60%之间。⑤碱基要随机分布,不要有聚嘌呤或者有聚嘧啶存在。⑥引物自身不能有连续4个碱基的互补。⑦引物之间不能有连续4个碱基的互补。⑧引物5′端可以修饰。⑨引物3′端不可修饰。⑩引物3′端要避开密码子的第3位,因为第三位易发生简并会影响扩增的特异性与效率。3、基因的概念、简单介绍真核基因的结构?基因(gene):具有遗传效应的DNA片段。真核基因的结构:4、DNA序列污染的主要来源?主要的污染源:a)载体b)接头和PCR引物c)转座子和插入序列d)DNA/RNA纯度不好。5、ORFS的概念说出一种常用查找软件。ORF(openreadingframe):一个起始密码子和终止密码子之间的序列称为一个开放读框,当一个DNA序列被测定以后,它编码的蛋白质未知时通常使用这一术语。工具:ORFFinder(NCBI)。6、CpG岛的概念及其常用查找软件。CpG岛(CGisland):也称为HTF岛,是一些富含GC的小区域,定义为Y值(观测到的CpG双碱基数与预期的数目之比)并且含量大于50%的序列区域,它可以有几百bp到几千bp长。通常出现在管家基因(housekeepinggene)或频繁表达基因的启动子周围。EMBL提供的工具:CpGPlot、CpGReport、Isochore。7、promoter、spliceosome、terminationsignal。启动子(promoter):DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点,是一个十分有层次的结构,通常所说的启动子包括:转录因子结合位点、核心启动序列和上下游相关的调控元件。剪切体(spliceosome):在真核RNA的转录过程中,首先转录整个基因,然后切除掉其中的内含子,外显子拼接成RNA这个过程有许多相关因子作用,如:SnRNP和hnRNP,这些因子所构成的复合体称为spliceosome。转录终止信号(terminationsignal):由反向重复序列以及特定5’-AATAAA-3’组成,反向重复序列的转录产物可形成发卡结构,特异性的被RNA聚合酶转录复合体识别,而是转录终止,AATAAA同时是polyA加尾信号。多腺苷酸化信号的分析可以帮助划定基因的范围。基因预测与基因组注释(2)1、什么叫基因注释?基因注释(annotation):指从原始序列工程数据中获得有用的生物学信息。基因组注释(genomeannotation):主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。2、基因预测的方法有哪些?基因预测方法的三种类型:序列相似性分析方法,从头预测(统计分析)方法,多信息融合的方法。3、名词解释EST。EST(expressedsequencetags):是从实际选择的cDNA克隆中进行5’端或者3’端一次性测序获得的cDNA序列片段,长度一般为400-600bp代表了一个完整基因的一部分。4、特征级建模常用的信息有哪些?功能位点信号(起始点、终止点、启动子、终止子、拼接位点……),同义密码子,最优密码子,反密码子,碱基组成偏好性,密码子偏好性。5、密码子的碱基组成偏好性及密码子的偏好性。碱基组成偏好性(basecompositionbias):由于不同氨基酸及其不同的同义密码子使用频率的不同,导致了在编码序列中密码子的三个位置上4种碱基的概率有明显的差别,密码子的三个位置上碱基概率分布特征称为碱基组成偏好性。密码子偏好性(condonbias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高校表达的基因使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子的偏好性(某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,此现象被称为密码子偏好性(CodonUsagebias)。6、基因预测的策略。DNA序列分的总结(基因预测的策略)当我们拿到一个DNA序列后,我们要对其进行分析,其过程如下:一、序列相似性分析。在DNA序列中查找是否有序列污染,若有把污染序列去除。在序列中搜索重复元件,重复元件会对序列分析造成
本文标题:生物信息学复习题
链接地址:https://www.777doc.com/doc-2163621 .html