您好,欢迎访问三七文档
1.生物分子至少携带着三种信息遗传信息功能相关的结构信息进化信息2.生物信息学的目标和任务收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件3.生物信息学研究意义认识生物本质改变生物学的研究方式在医学上的重要意义4.生物信息学与实验生物学的关系实验生物学(传统生物学or现代生物学):是实验性的;为生物信息学提供相应的数据生物信息学:生物信息的搜集、整理、注释、管理;建立并利用生物信息学数据库;开发生物信息学软件;研究生物信息学算法生物信息学对实验数据分析与利用的结果,为进一步合理、有效地设计实验方案,研究方向等提供有力的指导和合理的建议。使得新的生物学研究的出发点是理论的生物信息学分析的结果必须通过生物实验科学来进一步验证5.生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构与功能预测6、代谢途径分析与解析6.生物分子数据库应满足:(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性(6)非冗余性7.一个数据库记录(entry)一般由两部分组成:1.原始序列数据2.描述这些数据生物学信息的注释8.FASTA格式序列分析软件最常用的格式,包括三部分:在注释行的第一列用字符“”标识,后面是序列的名字和来源;标准的单字符标记的序列;序列中没有数字或其他非字符。可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。9.SWISS-PROT的三个特点:注释、非冗余、交叉索引(1)注释SWISS-PROT数据分为核心数据和注释两大类。(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接:对于每一个登录项,有指向其它数据库的指针10.SWISS-PROT数据的来源:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据11.导致的结果:冗余数据可能导致的潜在错误如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大;序列间不同部分的显著相关,在数据样本抽样时可能是有偏的和不正确的;如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离12.消除误差合理利用数据库:严格、合理地构建数据库去除污染的序列,合理地把握数据库的非冗余和冗余的标准合理、恰当地使用数据库结合实验研究,合理有效利用数据库坚持实验第一原则,实践是检验真理的唯一标准13.Entrez系统的使用进入NCBI主页(),即可看到位于页面上部的数据库检索栏,其缺省检索选项为核酸序列数据库AllDatabases,应该先选择适当的数据库,然后在检索栏中输入需要查询的内容。14.如何设计科研计划资料查询资料汇总分析优劣寻找出路制定方案斗胆创新15.序列比较的根本任务是:寻找序列之间的相似性辨别序列之间的差异16.目的:1.相似序列:相似的结构,相似的功能2.判别序列之间的同源性3.推测序列之间的进化关系17.序列比对的基本思想,是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位(一般用”-”来表示),以表示插入或删除(图2)来比较两个(双序列比对)或多个序列(多序列比对),使得这些序列获得最大匹配。18.蛋白质打分矩阵等价矩阵氨基酸突变代价矩阵GCM疏水矩阵PAM矩阵BLOSUM矩阵PAM矩阵19.BLAST程序结果解读程序名称、版本号以及文献引用出处检索序列的名称、数据库名称;图示主要比对结果列出相似性值较高的序列条目,以及它们在数据库中的编号和简要说明,每个条目后面给出相似性分数值Score和期望频率值E,以相似性分数值大小为序排列,相似性分数越高,相似性越大;E值则表示随机击中(匹配)其他序列的可能性,E值越大,随机匹配的可能性也越大。最后给出检测序列和目标序列的比对结果。20.核酸序列分析的主要任务预测基因的编码区分析基因表达的调控特点21.分析的步骤(1)找出序列中的非编码区序列中载体污染的剔除重复元件的发现CpG岛启动子位点Poly-A位点间质缔合区(Matrixassociationregion,MAR)转录因子结合位点(2)找到和鉴定基因序列的编码区(外显子)构建基因的外显子模型数据库相似性搜索与模式生物基因组的同源区比对22.核酸序列分析应注意的问题对真核生物序列,首先遮蔽重复序列程序的特定生物物种适用性程序的序列特定性(DNA或cDNA)序列的长度多方面的证据与验证23.序列污染的来源载体序列接头和引物序列转座子和插入序列DNA和RNA样品污染24.序列污染的后果导致无意义的分析对序列的生物显著性作出错误的判断导致错误的叠连群拼接和ESTs分群导致数据库的污染25.密码子偏好性编码区特有的序列组成特征编码区碱基频率的周期性模式碱基在密码子不同位置的倾向性分布密码子的使用频率26.编码区特有的序列组成特征编码区碱基频率的周期性模式碱基在密码子不同位置的倾向性分布密码子的使用频率27.常用的方法(1)碱基组成偏好性(basecompositionalbias)①编码序列中密码子的3个位置上,4种碱基出现的概率有明显差别②密码子的3个位置各有其特征碱基概率分布。(2)密码子使用频率(codonusage)(3)密码子偏好性(codonbias)①氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致②大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子28.密码子偏好性的分析作用⑴密码子偏好性分析可预测编码区⑵检测DNA测序错误导致的移码突变29.为什么预测剪接位点和编码区尚不足以揭示基因结构?⑴编码区预测会错过短的外显子,难以可靠预测外显子内含子边界⑵剪接位点预测可能会产生大量假阳性位点⑶必须综合考虑功能性位点和编码区及非编码区的全局特征30.核酸序列的物理性质分析:基本理化性质、统计信息限制性内切酶位点碱基组成、GC含量稳定性、解链温度31.蛋白质数据库都具备三种功能⑴数据的注释(annotation)所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;⑵数据的检索(search)数据经注释之后,访问者可以通过数据库网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;⑶数据的生物信息分析(analysis)访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质,预测蛋白质的二级结构,多重序列比对等等。32.蛋白质序列分析及结构预测策略⑴实验数据——蛋白质序列⑵理化特性分析——跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等⑶数据库搜索——多序列比对、结构域搜索⑷二级结构预测——如有PDB中同源体——蛋白质折叠识别——折叠家族分析——序列与结构比对——比较建模⑸三级结构预测⑹三维蛋白模型33.序列特征的初步分析理化特性的预测修饰位点的预测是否为跨膜蛋白或片段是否包含螺旋卷曲结构是否还有低复杂度序列等等34.折叠子分析和二级结构组分比对分析的几个方面①存在极多相似序列时,看其是否具有相似功能②弱相似时,只有结构相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。③如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域35.蛋白质的结构预测理化特性分析蛋白质的鉴定二级结构预测几种重要结构分析36.根据序列预测功能的一般过程①根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。②比较未知蛋白序列与已知蛋白质序列的相似性;③查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。37.结构簇分类(1)全α型:三级结构主要是由α螺旋束组成(2)全β型:这里指的是蛋白质中所有的链全是β折叠。折叠可以是反向平行,或者是平行的(3)α+β型:其α螺旋区与β折叠区相对分离(4)α/β型:大量β-α-β结构单元组成,β折叠之间相互平行,而α螺旋和β折叠之间呈一种连续的状态38.三级结构预测的方法1)同源建模:先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。2)折叠识别3)从头预测:是一种理想方法、是蛋白质预测的终极目标39.SCOP蛋白质结构分类折叠子(fold)——主要是结构相似超家族(superfamily)——可能具有相同的进化起源家族(Family)——进化关系清楚的蛋白质类群40.基因突变1、核苷酸替代、插入/缺失、重组2、基因转换41.DNA序列突变对氨基酸序列的影响同义(沉默)替代:仍然为同义密码子的核苷酸替代非同义替代:导致产生非同义密码子的核苷酸替代无义突变:导致产生终止密码子的核苷酸突变42.构造系统发育树的主要方法距离法根据每对物种之间的距离直接计算得到。所生成的树的质量取决于距离尺度的质量简约法通过寻求物种间最小的变更数来完成的似然法通过标准的统计推断建立系统发育的概率模型其它方法:神经网络方法、Hadamard结合法……43.构建系统发育树的主要过程数据收集,多序列比对建树评估系统发育信号和进化树的健壮性
本文标题:生物信息学简答题
链接地址:https://www.777doc.com/doc-5803942 .html