您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 天文中的数据挖掘技术
各个领域在近二十年来取得突破性的研究进展计算机技术,网络技术和传感技术的飞速发展来自各个巡天计划和天文台的“数据雪崩”科学家,工程师和领域专家的缺乏更大,更便宜的存储器--磁盘密度以Moore’slaw增长“每次18个月增长一倍”--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术特征:--以Tebyte甚至Pebyte计量--不均匀性--动力学性--高维性(加上时间维可达13维甚至更高维)数据:原始的,未解释的信号或者符号,如:1信息:有一定解释或意义的数据,如:S.O.S知识:综合信息形成的观点和普适性的理论智慧:能够综合知识和经验用以生存计划的人类思维的结晶定义:半自动或自动地从海量数据中发现模式,相关性,变化,反常规律性,统计上的重要结构和事件.在天文上,就是从海量数据中发现稀有的天体或现象,或者发现以前未知种类的天体或新天文现象.特点:半自动或自动提取预测大数据库前者:发现驱动(数据驱动)数据研究后者:假设驱动(人为驱动)研究数据统计学机器学习数据库高效率的计算Gauss,Fisher,和--最小二乘法,最大似然法--一些基本原理的发展数学时代--1950`s:Neyman等数学家独领风骚计算时代--自从1960`s平稳增长--1970`s:EDA,Bayesianestimation,flexiblemodels,EM,etc--逐渐意识到计算机在数据分析中的能力和作用模式识别和人工智能(AI)--集中于感官问题,如:语言识别,图像识别--1960`s:统计方法与非统计方法的分流--应用统计学与工程学的交叉如:统计图像分析机器学习和神经网络--1980`s非统计学习方法的失败--flexiblemodels的出现,如:树,网络--应用统计学与学习方法的交叉直接演化的结果:--AI和机器学习*1989KDD工作组2000ACMSIGKDD工作组*集中于自动发现--数据库研究*大型数据组*SIGMMODassociationrules,scalablealgorithms--数据管理者*如何处理数据*面向客户*工业占主导的,面向应用描述性模型:描述数据中的模式,用以创建有意义的群或子群预测性模型:在从已知条件中确定的模式基础上,预测一些现象或数值事件驱动性数据挖掘相关驱动性数据挖掘已知事件/已知算法:用已有的物理模型去确定数据中存在的人们感兴趣的已知现象,无论空间上或时间上已知事件/未知算法:用模式识别或数据的聚类特性来发现在已知现象中存在新的观测相关性未知事件/已知算法:以天文现象的观测参数中存在着预期的相关性来预测数据中存在着以前未知的事件未知事件/未知算法:用临界值确定瞬时事件或独特事件,从而发现新现象空间相关:在天空中的同一位置证认天体时间相关:证认发生在相同时间或相关时间的事件或现象一致相关:用聚类方法证认存在于同一多维参数空间的现象天体的交叉证认天体的交叉相关最近邻规则证认系统的数据探索原理:以源的位置为参量,将存在于不同数据库中的源联系起来,用以加深对证认源的新的天文理解例子:gamma-ray暴的对应体问题:多波段数据库的交叉证认会产生一对一,一对多,多对一,多对多,甚至多对无,对于除一对一的情况,有时需要用概率方法处理原理:用假定分析方法处理数据中的所有参数例子:在HDF巡天中,通过双色图中作为U波段的“dropouts”证认远距离星系在DPOSS和SDSS巡天中,通过双色图中远离正常恒星区的特性发现高红移类星体原理:在多维空间中运用聚类算法证认天体或现象例子:在TW长蛇座中过通过天体具有相似的运动学特征,X射线发射,Hα和Li丰度,发现了人们最熟悉的年轻恒星族原理:在数据库中广泛地应用事件驱动性和相关驱动性数据挖掘技术以偶然发现一种新天体或新类型天体例子:新类型变星的发现,如:在MACHO数据中发现的“bumpers”主分量分析方法人工神经网络EM算法决策树&…(一)应用举例:利用光谱将K矮星从K巨星中区分出来恒星,星系和类星体的光谱分类星系的形态分类自动的红移确定通过将发射线分解为几个独立量来研究发射区的发射线的变化及其结构和动力学特征在观测基平面,即p维参数空间的一个子空间中,依据星系的形态,测光和动力学分类来研究低红移星系和高红移星系(二)特点和优点:非监督性线性分析PCA通过寻找变量最大投影轴,判断有多少独立变量,并将相关量组合成新量,这大大可以减少计算的复杂性,同时保证尽可能小地丢失信息,即降维可以用以分解变量为几个独立分量相比于反射映射或交叉相关方法,PCA对样品要求不高对数据预处理,去掉一些不重要或无关量(一)应用举例:未分辩双星的光谱分类恒星光谱分类APM星系的形态分类区分恒星和星系将恒星光谱物理参数化区别不同活动星系核的光谱(二)特点和优点:监督性训练性非线性难理解性受训练样本限制输入量一般要先用PCA预处理若采用傅里叶变换,不需知红移就可以对光谱分类但在信噪比低时,提高分类的效率,红移可以确定与传统方法相比,其具有的优点:不需预先对试验样本的统计分布做假设,对各类不需要直观判断,该方法可用于处理各种问题(一)应用举例:两种情形密度估计:星系在红移空间的聚类恒星在色空间的聚类EM算法提供了星系在红移空间的平滑分布,准确地描述了数据库中数据的大小范围特征,同时,提供了一种证认多维色空间中的远离正常恒星的天体的方法,例如:高红移类星体的证认(二)特点和优点:利用AIC&BIC变坏的概率评价符合程度优于最好的带核的密度估计方法对分布的估计,同时,对输入参数的要求并不严格优于标准的色选择技巧,在于其证认天体是建立在概率理论基础上概率密度分布要受到维数的限制,而EM算法的维数可具方便而定其描述了数据的正常分布,从而可以在高维空间中证认出远离者(一):应用举例:分析有关大尺度结构和微波背景辐射的大尺度巡天分析巡天的径向速度,如:MarkIIISFI&ENEAR巡天(二):特点和优点:基础:最大概率分析方法估计参数维纳滤波器重建基底场蒙特卡罗方法对基底场取样辅助方法:拟合良好性分析方法将重建速度场分解成局部量和外延量的方法约束N-body和氢动力学的模拟提供优化工具,可以分析有噪声的,不完备的,不均匀的高斯分布的随机场巡天,如:密度场和速度场混合模型/LatentVariablemodels--主要思想是基于数据的提取或分类--概率模型考虑系统方法*许多模型可以用图表格式表示*参数可由EM算法获得*模型结构可自动选择--在机器学习/神经网络学习中,对这些模型进行了许多特大的调整--隐含变量的学习发现结构(一):分类问题(1):天体分类:恒星/星系分类,类星体等方法类型:监督分类和非监督分类常用方法:主分量分析(PCA)最小距离方法(MDM)高斯概率模型(GPM)神经网(NN)决策树(一):分类问题(2):图像分类:数字底片巡天中恒星/星系区别常用方法:聚类算法最近邻规则模糊集合理论自组织映射神经网络决策树流行软件包:DAOPhot,FOCAS,Sextractor(二):数据压缩与分类:光谱压缩与分类:大红移巡天的星系光谱大型光谱巡天常用方法:主分量分析(PCA)独立分量分析(ICA)信息瓶颈(IB)FisherMatrix(FM)小波变换KL变换方法对比:PCA&FM线性分析ICA&IB非线性分析异于FM,PCA&IB模型独立IB监督的波长群在概念上接近FMICA在计算上比PCA复杂,数据压缩效率弱于PCA,但可以较好地分离混合变量,相反于PCA,ICA对位置,方向,带通选择的特征量敏感(三):大尺度结构分析:例子:分析有关大尺度结构和微波背景辐射的大尺度巡天方法:贝叶斯分析(BayesianAnalysis)(四):重建方法:例子:大尺度巡天中的速度场重建在all-skymaps中,从输入的maps重建独立分量及其频率大小方法:维纳滤波器最大熵方法主分量分析方法FastICA神经网络小波扩充数据挖掘算法将数据挖掘方法应用到新的数据类型发展分布的数据挖掘算法提高数据挖掘方法的容易度观测记录或观测次数的增长每次观测参量的增长用以分析一组观测的预测模型数的增长对交互式反应和真实反应时间减少的要求的加强需要多种算法的组合或新的算法时间序列数据未组织数据,如文本半组织数据,如HTML和XML文件多媒体的合作数据多层次的,多度量单位的数据集合数据数据的分布特性计算环境越来越普及必须发展与之匹配的数据挖掘系统和算法数据挖掘自动化程度的提高提高用户界面,支持随机用户的浏览提高大型分布数据的可视化程度发展用以管理数据挖掘的元数据的技术和系统发展恰当的语言和协议支持随机提取数据提高数据挖掘和知识发现的环境收集加工挖掘可视化以及必要的合作报告支持单个研究数据挖掘者的研究支持数据挖掘的基础学科的研究支持多学科和交叉学科研究组研究重要的,基础的实用数据挖掘问题提供对大的,大型的,分布的数据组挖掘的恰当的实验场所发展好的非监督分类技巧发展强而有效的数据可视化技术各种算法的交叉和重复使用设计和应用聚类分析方法需要天文学家,计算机科学家和统计学家的真诚合作
本文标题:天文中的数据挖掘技术
链接地址:https://www.777doc.com/doc-3399615 .html