您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 人工智能技术在生物信息学人工智能技术在生物信息学人...
人工智能技术在生物信息学人工智能技术在生物信息学人工智能技术在生物信息学人工智能技术在生物信息学中的应用研究中的应用研究中的应用研究中的应用研究刘滨内容内容内容内容生物信息学概述生物知识DNA介绍蛋白质介绍人工智能和自然语言处理技术在生物信息学中的应用蛋白质序列和自然语言的相似性蛋白质相互作用位点预测远程同源性和折叠检测资源数据库工具定义定义定义定义Bioinformatics由来生物信息学之父HwaA.Lim博士CompBiobioinformatiquebio-informatics(bio/informatics)bioinformatics意义意义意义意义意义意义意义意义198519901995200020052010010k20k30k40k50kNumberofentriesinPDB蛋白质序列蛋白质结构数据指数级增长增长的不平衡性研究方向研究方向研究方向研究方向DNA序列分析基因识别系统发生行为分析(进化树)蛋白质结构和功能预测基因芯片数据挖掘和基因表达调控信息分析基因组功能预测支撑蛋白质组学和各种“组学”研究利用生物分子的结构信息参与创新药物的设计生物学虚拟实验模型的构件数据源数据源数据源数据源数据量数据量数据量数据量生物信息学任务生物信息学任务生物信息学任务生物信息学任务DNA序列3000万条序列400.0亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列100万条序列序列比较多重序列比对识别保守的序列模式进化分析大分子结构2.5万个结构二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟基因组1300个基因组(其中大量是病毒和微生物基因组)标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析基因表达海量基因表达模式相关分析基因调控网络分析表达调控信息分析DNA介绍介绍介绍介绍碱碱碱碱基基基基DNARNA碱基腺嘌呤(adennine,A)鸟嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鸟嘌呤胞嘧啶尿嘧啶(Uracil,U)戊糖脱氧核糖核糖磷酸磷酸磷酸碱基配对DNA的空间结构的空间结构的空间结构的空间结构蛋白质介绍蛋白质介绍蛋白质介绍蛋白质介绍20种标准氨基酸的英文简写氨基酸名氨基酸名氨基酸名氨基酸名称称称称英文缩写英文缩写英文缩写英文缩写简简简简写写写写氨基酸名称氨基酸名称氨基酸名称氨基酸名称英文缩英文缩英文缩英文缩写写写写简简简简写写写写甘氨酸GlyG丝氨酸SerS丙氨酸AlaA苏氨酸ThrT缬氨酸ValV天冬酰胺AsnN异亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半胱氨酸CysC精氨酸ArgR肽键肽键肽键肽键本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用处理技术在生物信息学中的应用处理技术在生物信息学中的应用处理技术在生物信息学中的应用采用Ngram寻找蛋白白质序列和自然语言的相似性采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。采用N-gram,binaryprofile和N-naryprofile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。采用潜在语义分析(LSA)提高远程同源性检测效果。蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性Dongetal.N-gramStatisticsandLinguisticFeatruesAnalysisofWholeGenomeProteinSequences.JournalofHarbinInstituteofTechnology.2004在此论文中,探索了蛋白质和自然语言之间的关系。N-gram例子:SVYDA其中包含的3-gram为:SVYVYDYDAN-gram比较分析比较分析比较分析比较分析((((人人人人))))N-gram比较分析比较分析比较分析比较分析((((褐家鼠褐家鼠褐家鼠褐家鼠))))蛋白质组的蛋白质组的蛋白质组的蛋白质组的Zipf定律分析定律分析定律分析定律分析Zipf定律:对数形式的Zipf定律为:αrCxr=)log(logrcxrα−=Zipf定律分析定律分析定律分析定律分析((((人人人人))))蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系语言生物原始文本文档主题语义基因组序列生物系统的复杂相互作用蛋白质的结构和功能映射提取总结蛋白质相互作用位点预测蛋白质相互作用位点预测蛋白质相互作用位点预测蛋白质相互作用位点预测基于CRF的蛋白质相互作用位点预测蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测的意义为什么采用CRF进行相互作用位点预测CRF模型实验结果分析蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测研究内容相互作用位点预测的任务相互作用位点预测的任务相互作用位点预测的任务相互作用位点预测的任务ARNDCQEGHILKMFPSTWYV...01001000000100000000…蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。为什么采用为什么采用为什么采用为什么采用CRF进行相互作用位点预测进行相互作用位点预测进行相互作用位点预测进行相互作用位点预测蛋白质一级结构是一个序列传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。CRF模型模型模型模型yi-1yiyi+1X(x1,x2,…,xi-1,xi,xi+1,…xn)链状条件随机域模型()11111(|)exp(,,,)()1exp(,,,)(,,)()nkkiiiknkkiikkiikpYXfyyXiZXtyyXisyXiZXλμς−=−===+∑∑∑∑11()exp(,,,)nkkiiikZXfyyXiλ−==∑∑1(,,,)kiityyXi−转移特征(,,)kisyXi状态特征特征定义特征定义特征定义特征定义转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征1,'11ifand'(,,,)0otherwiseiiyyiiyyyytyyXi−−===,((,))if(,,)0otherwisekiproyaaikscalePSSMxaayysyxi==()if(,,)0otherwisekiASAyikASAxyysyxi==()/10if(,,)0otherwisekiconyikgradexyysyxi==实验结果分析实验结果分析实验结果分析实验结果分析::::预测示例预测示例预测示例预测示例SMC1HD:SCC1-C复合体CRF预测结果支持向量机预测结果正确位点实验结果分析实验结果分析实验结果分析实验结果分析::::预测示例预测示例预测示例预测示例Ribosomalsubunit30S复合体CRF预测结果支持向量机预测结果正确位点实验结果分析实验结果分析实验结果分析实验结果分析::::预测示例预测示例预测示例预测示例SreptococcalpyrogenicenterotoxinC(SpeC)复合体CRF预测结果支持向量机预测结果正确位点远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。依靠蛋白质一级结构将其按照结构和进化关系进行分类。意义意义意义意义在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。蛋白质同源性检测方法示意图蛋白质向量化方法蛋白质向量化方法蛋白质向量化方法蛋白质向量化方法N-gramsBinaryprofilesN-naryprofilesBinaryprofilesQTSVSPSKVILPRGGSVLVTCSTSCDQPKLLGIETPLPKKELLLPGNN……EI.IH.P.A.I.....LR...P..I...RKTTF.L..V.N.E.VS-R.P.W..FL...D...EIN.L..................V.IH.TEAF.......Q.P..S..EDEN...L..NWM.D..S-S.H.W.LFK..DIG.R.L.FE..GTT……………………………………………………………………………………PSI-BLASTD:0.26A:0.03C:0.002Y:0.03W:0.02V:0.02T:0.03S:0.03R:0.11Q:0.02P:0.18N:0.01M:0.02L:0.05K:0.01I:0.01H:0.07G:0.01F:0.01E:0.06DPILVAminoacidsequenceMultiplesequencealignmentFrequencyprofileBinaryprofileAminoacidcombination………………………………………………D:0.04A:0.06C:0.004Y:0.002W:0.002V:0.17T:0.05S:0.002R:0.06Q:0.02P:0.02N:0.05M:0.01L:0.18K:0.03I:0.2H:0.02G:0.02F:0.03E:0.03D:1A:0C:0Y:0W:0V:0T:0S:0R:0Q:0P:1N:0M:0L:0K:0I:0H:0G:0F:0E:0D:0A:0C:0Y:0W:0V:1T:0S:0R:0Q:0P:0N:0M:0L:1K:0I:1H:0G:0F:0E:0Frequencythreshold0.17N-naryprofilesQTSVSPSKVILPRGGSVLVTCSTSCDQPKLLGIETPLPKKELLLPGNN……EI.IH.P.A.I.....LR...P..I...RKTTF.L..V.N.E.VS-R.P.W..FL...D...EIN.L..................V.IH.TEAF.......Q.P..S..EDEN...L..NWM.D..S-S.H.W.LFK..DIG.R.L.FE..GTT……………………………………………………………………………………PSI-BLASTD:0.26A:0.03C:0.002Y:0.03W:0.02V:0.02T:0.03S:0.03R:0.11Q:0.02P:0.18N:0.01M:0.02L:0.05K:0.01I:0.01H:0.07G:0.01F:0.01E:0.06AminoacidsequenceMultiplesequencealignmentProteinsequenc
本文标题:人工智能技术在生物信息学人工智能技术在生物信息学人...
链接地址:https://www.777doc.com/doc-27492 .html