您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 基因表达数据分析-生物信息学与智能信息处理2018年学术会议
生物信息学中的不确定性和分类问题邹权(博士、副教授)厦门大学数据挖掘实验室~zq提纲生物信息学和机器学习的关系一些生物信息学中的分类问题microRNA识别蛋白质功能预测基因表达数据分析全基因组关联分析总结生物信息学人类基因组计划数据存储---数据库数据分析---数据挖掘OlsonMV.Humangenetics:DrWatson'sbasepairs[J].Nature,2008,452(7189):819-820.HapMap计划/1000Genome计划大数据生物信息学中的我国计算机学者算法阶段(1990-2000)朱大铭、姜涛、卜东波标注阶段(2000-2008)王晓龙、朱小燕等系统分析阶段(2008-2013)李衍达、张学工等大规模数据处理阶段(2010-now)华大基因一些生物信息学中的分类问题microRNA识别蛋白质功能预测基因表达数据分析全基因组关联分析microRNA识别2006年诺贝尔奖---RNA干扰机制CCCCUCUAUUCACAAUUGUUUGGAACUCAGUUUUGUGAUUAUUCUAUCAUUGCCAGGGAGUUUGUGUGGUUGCAUCAGGGGDNA···microRNA前体(precursor)出核细胞核细胞质······mRNAmicroRNA成熟体靶标研究1:从长的DNA序列中找出前体研究2:根据成熟体寻找靶标CUUUCUACACAGGUUGGGAUCGGUUGCAAUGCUGUGUUUCUGUAUGGUAUUGCACUUGUCCCGGCCUGUUGAGUUUGG..(((...((((((((((((.(((.(((((((((((......)))))))))))))).)))))))))))).))).....UUCGU32个三元组——32维特征向量.(((((((.((..(((U(((,U((.,U(.(,U(..,U.((,U.(.,U..(,U...,G(((,G((.,...)(12,4,3,1,2,0,0,0,10,1,...)归一化三元组(0.1846,0.0615,0.0462,0.0154,0.0308,0,0,0,0.1538,0.0154,…)一级序列二级结构说明:”(”和”)”意义相同,均表示发生了配对。“.”表示没有发生配对每一位核苷酸和它及其相邻的两个核苷酸的配对情况出现的次数microRNA分类相关论文ChenghaiXue,FeiLi,TaoHe,Guo-PingLiu,YandaLi,XuegongZhang.ClassificationofrealandpseudomicroRNAprecursorsusinglocalstructure-sequencefeaturesandsupportvectormachine.BMCBioinformatics.2005.6:310(googlescholar引用271次,截至2014.8.2)PengJiang,HaonanWu,WenkaiWang,WeiMa,XiaoSun,ZuhongLu.MiPred:classificationofrealandpseudomicroRNAprecursorsusingrandomforestpredictionmodelwithcombinedfeatures.NucleicAcidsResearch.2007,35:W339-W344(googlescholar引用239次,截至2014.8.2)LeyiWei,MinghongLiao,YueGao,RongrongJi,ZengyouHe,QuanZou.ImprovedandpromisingidentificationofhumanmicroRNAsbyincorporatingahigh-qualitynegativeSet.IEEE/ACMTransactionsonComputationalBiologyandBioinformatics.2014,11(1):192-201microRNA与疾病的关系图挖掘相似度度量、不确定性参考文献JiangQ,HaoY,WangG,etal.PrioritizationofdiseasemicroRNAsthroughahumanphenome-microRNAomenetwork[J].BMCSystemsBiology,2010,4(Suppl1):S2.XuanP,HanK,GuoM,etal.PredictionofmicroRNAsassociatedwithhumandiseasesbasedonweightedkmostsimilarneighbors[J].PloSone,2013,8(8):e70204.一些生物信息学中的分类问题microRNA识别蛋白质功能预测基因表达数据分析全基因组关联分析蛋白质功能预测问题输入:蛋白质序列,进行聚类、分类特殊蛋白识别---不平衡分类亚细胞定位-----多类分类酶和多功能酶---多类,少量多标记功能预测------多示例、多标记二级结构、结构域-----标注、HMM难点特征提取分类器一些生物信息学中的分类问题microRNA识别蛋白质功能预测基因表达数据分析全基因组关联分析基因表达数据分析14/57一些生物信息学中的分类问题microRNA识别蛋白质功能预测基因表达数据分析全基因组关联分析全基因组关联分析(GWAS)GWAS难点高维小样本SNP-SNP相互作用结果的可解释性前景疾病的遗传机理遗传育种(作物、养殖)总结机器学习在寻找生物信息学应用---分类、聚类、降维、不确定性结果的解释和验证生物实验验证文献验证生物信息学在寻找机器学习数据量在增大统计学无法满足精度需要邹权,Email:zouquan@xmu.edu.cn
本文标题:基因表达数据分析-生物信息学与智能信息处理2018年学术会议
链接地址:https://www.777doc.com/doc-3922398 .html