您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 异构大数据的机器学习挑战
TianjinUniversity异构大数据的机器学习挑战胡清华huqinghua@tju.edu.cn天津大学计算机学院2014-12-12TianjinUniversity异构大数据的机器学习报告会2014.12.14,天津大学25楼C412•白栓虎,社交媒体挖掘方法与技术•周明,微博的文本挖掘和情感分析•董军宇,海洋大数据挖掘初探•陈松灿,复杂高维多视图数据的相关分析•杨猛,SparseLearningforImageclassification•左旺孟,面向非凸稀疏和低秩模型的优化算法•孟德宇,EasySamplesFirst:Self-pacedRerankingforZero-ExampleMultimediaSearch•纪荣嵘,Structured,Discriminative,3DSceneParsing•吴飞,跨媒体深度学习及知识网络构建TianjinUniversity提纲•大数据的异构特性•异构数据的挑战性问题•人脑的多通道感知整合•面向异构数据的机器学习方法•典型应用TianjinUniversity提纲•大数据的异构特性•异构数据的挑战性问题•人脑的多通道感知整合•面向异构数据的机器学习方法•典型应用TianjinUniversity大数据研究和发展计划(2012年3月)召开了以大数据为主题的香山科学会议(2012年5月);科技部、基金委将大数据分别列入973计划和基金申请指南。大数据和节能计算技术方案(2013年1月)开放数据战略(2011年11月)美国英国欧盟中国新ICT战略研究计划(2012年7月)日本大数据引起各国政府高度重视大数据蕴含的巨大价值引起了科技界、企业界和各国政府的高度重视,诸多国家和国际组织已将大数据研究提升到国家重大战略层面。TianjinUniversity6图像视频文本非结构化多模态信息爆炸性增长言语多模态异构数据正在成为信息的主要形式TianjinUniversity社交媒体数据链接关系图片网址文本视频行为日平均活跃用户数(DAU)为6660万,月平均活跃用户数(MAU)为1.438亿月平均产生信息30多亿条•海量动态微博内容的深层语义理解;多粒度用户兴趣建模与用户关系发现•构建基于多模态内容深度语义分析与多粒度用户关系挖掘的精准社会化推荐系统。TianjinUniversity•多模态异构信息8多模态异构数据正在成为信息的主要形式TianjinUniversity太阳活动对深空探测、载人航天、卫星运行、电力网络的安全有重要影响。SDO每秒以10个波段拍摄太阳4096*4096分辨率的图像,每天数据量为1.5T。天文大数据:太阳观测数据挖掘TianjinUniversity疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶大规模性疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶多模态性疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶增长性用户交互性强传播速度快传播行为复杂……大数据往往呈现出大规模、多模态与快速增长等特征,使得传统的数据分析理论、方法与技术面临可计算性、有效性与时效性等严峻挑战。文本音频视频图片用户多总量庞大分布广……数据分析的可计算性数据分析的有效性数据分析的时效性数据源多样数据类型多样交互方式多样……多模态异构数据正在成为信息的主要形式112010,《Nature》:文本、图像、语音、视频等多模态数据混合在一起,将成为未来信息表示的主要形式2011,《Science》组织“DealingwithData”专辑:数据的组织和使用体现多模态特征多源异构大数据不仅在互联网环境涌现,而且广泛出现在医疗、金融,科研,工业监控等领域2014年973指南“大数据计算的基础研究”:研究多源异构大数据的表示、度量和语义理解方法2014年863指南“媒体大数据内容理解与智能服务”:实现异构媒体的结构化描述和语义协同多模态异构数据正在成为信息的主要形式提纲大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用TianjinUniversity传统学习算法应对多模态数据的挑战KNN决策树LinearSVMnonlinearSVM数值数据异构数据的挑战性问题图像数据视频数据时间序列文本数据符号数据太阳物理14如何提取和统一表示不同模态数据中的有用信息是多模态数据知识发现面临的重要科学挑战TianjinUniversity多源信息融合迁移互补异构信息表达建模协同不确定信息模型推理决策15不同型号机组数据的共用相似型号机组信息的复用声/光/电等多模态信息的全息利用不确定感知的近似推理混合数据挖掘异构大数据异构数据的挑战性问题TianjinUniversity提纲•大数据的异构特性•异构数据的挑战性问题•人脑的多通道感知整合•面向异构数据的机器学习方法•典型应用TianjinUniversity研究人脑的多通道感知、学习、推理的机理,构建新型的信息处理方法是应对大数据挑战的有效途径认知计算:人脑的信息处理机制TianjinUniversity认知是为人类认识客观事物、获得知识的活动,包括知觉、记忆、学习、语言、思维和问题解决等过程;认知科学是研究人类感知和思维对信息处理过程的科学,包括从感觉的输入到复杂问题的求解,从人类个体到人类社会的智能活动,以及人类智能和机器智能的性质;如何从复杂的信息碎片中提取知识,实现类似人脑的认知与判断,发现新的关联和模式,从而做出正确的决策。认知计算的研究包括:自然的人机接口;学习能力;探索式问题求解能力。研究认知的机理,建立认知的模型,然后用计算机模拟人类认知的过程来处理实际问题是人工智能领域的重要课题,受到很多研究者的关注。认知计算:人脑的信息处理机制TianjinUniversity视觉方面的研究已取得了大量成果视觉信息包括:亮度、形状、颜色、运动和立体视觉等信息;六类神经元(光感受器细胞、双极细胞、神经节细胞、水平细胞、无足细胞和网间细胞)处理着最初的视觉信息初级视皮层内神经元分为两大类:简单细胞/复杂细胞;简单细胞的感受野窄,复杂细胞的感受野大;形状、颜色、运动和深度视觉信息在视觉系统内的平行、分级处理域。皮层中某个特别区域主管整个图像综合在听觉认知方面:听觉认知处理的早期阶段决定大脑半球优势的因素是声学特性,而不是听觉信号的功能;大脑如何整合视听觉信息尚不清楚?已知具有相互启动效应认知计算:人脑的信息处理机制TianjinUniversityBizleyandCohen.Thewhat,whereandhowofauditory-objectperception.NATURE,2013认知计算:人脑的信息处理机制超音段语音信号手势表情听觉通道内容识别话者识别互补启动启动视觉通道多通道感知如何通过融合多通道感知机理提升言语识别系统的能力?提纲•大数据的异构特性•异构数据的挑战性问题•人脑的多通道感知整合•面向异构数据的机器学习方法•典型应用TianjinUniversity多模态异构数据的向量表示TianjinUniversity多线索融合的描述符学习图像/视频动作识别多模态异构数据的向量表示TianjinUniversity多媒体数据的结构化表示多模态异构数据的向量表示TianjinUniversity面对图像中异构多模态的局部特征属性,如几何属性、颜色/纹理分布和方向梯度等,如何进行有效利用和融合以提升图像识别性能DiscriminativeGraphlets(判别式Graphlets)Zhang,Han,Yang,etal.IEEETIP,2013多模态异构数据的结构化向量表示TianjinUniversityJ.Chen,Y.Han,X.Cao,Q.Tian,ObjectCodingontheSemanticGraphforSceneClassification,ACMInternationalConferenceonMultimedia(ACMMultimedia2013)(CCFA)Y.Han,Y.Yang,X.Zhou.Co-RegularizedEnsembleforFeatureSelection,IJCAI,2013(CCFA)图像场景中的语义上下文通过语义有向无环图(SemanticDAG)进行表达;构建正则化回归模型,通过路径编码(PathCoding)正则化项将图像场景间的语义关联约束加入回归过程。多模态异构数据的表示TianjinUniversityTao,Li,Hu,Maybank,andWu.SupervisedTensorLearning.ICDM05,201410-YearICDMHighest-ImpactPaperAwardHao,He,Chen,andYang.ALinearSupportHigher-OrderTensorMachineforClassification.IEEETIP2013Signoretto,etal.Learningwithtensors:aframeworkbasedonconvexoptimizationandspectralregularization.MachineLearning,2014多模态异构数据的张量表示多模态数据建模的关键问题29符号数据数值数据时间序列文本数据图像数据视频数据多模态数据科学问题----跨模态信息的集成如何定义多模态数据的距离TianjinUniversityBellet,Habrard,Sebban.ASurveyonMetricLearningforFeatureVectorsandStructuredData.Report,2014异构数据的距离学习TianjinUniversityMcFee,Lanckriet.JMLR12(2011)491-523LearningMulti-modalSimilarityTianjinUniversityMultipleKernelLearningforDimensionalityReduction32TianjinUniversityZhang,Wang,Zhou,Yuan,Shen.NeuroImage55(2011)856–867TianjinUniversitySparseRepresentationforclassificationTianjinUniversityShekhar,Patel,Nasrabadi,Chellappa.IEEETPAMI,2014JointSparseRepresentationforRobustMultimodalBiometricsRecognitionTianjinUniversity•多模态深度学习36Nigiam,Kholsa,Kim,Nam,Ng.MultimodalDeepLearning,ICML,2011Srivastava,Salakhutdinov.MultimodalLearningwithDeepBoltzmannMachines.NIPS2012多模态异构数据的表示和建模TianjinUniversityOnlineMultimodalDeepSimilarityLearningwithApplicationtoImageRetrievalWu,Hoi,Xia,Zhao,Wang,Miao.ACMMM,2014TianjinUniversityZhou,Hu,Liu,Jia.CombiningMulti-modalDeepNeuralNetworkswithConditionalRandomFieldsforChineseDialogueActRecognition.Interspeech,2014•序贯决策的多模态深度学习智能大数据分析:多模态异构数据的表示和建模TianjinUniversity提纲•大数据的异构特性•异构数据的挑战性问题•人脑的多通道感知整合
本文标题:异构大数据的机器学习挑战
链接地址:https://www.777doc.com/doc-3831095 .html