您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 汇报1-大数据研究现状探讨42
1/42基于云平台(云数据)?大数据描述理论、处理与分析架构、应用领域?大数据研究现状探讨沈来信2013年12月20日2/42大数据是数据库的自然延伸?忘不掉ACID,舍不得Relation,忽视实际应用潜意识地奉行“一招鲜”(OneSizeFitsAll)结构化+半结构化/非结构化数据(二八原则)管理和处理需求--落实“OneSizeFitsaBunch”--查询/检索/统计/挖掘--离线/在线/即时/连续--本地/远程/“云”?可回溯的可视化分析--事务型与分析型--多领域应用(教育、医疗、交通……)大数据常用的处理框架流处理(直接处理)和批处理(先存储后处理)流处理:数据持续到达,速度快,规模巨大,不永久存储,数据不断变化--》难以掌握全貌;代表的开源系统:Twitter的storm、Yahoo的S4、Linkedin的kafka批处理:MapReduce1)将问题分而治之2)把计算推到数据而不是把数据推到计算,避免数据传输过程中产生的大量通信开销3/425/420-大数据与云计算、云平台Hadoop(数据密集型分布式应用,Apache)--分布式数据处理MapReduce(并行计算框架)--分布式文件系统HDFS(google的DFS基础上)--分布式数据库Hbase(Nosql,列,BigTable)--数据仓库工具Hive(Facebook)--分布式锁Zookeeper(Facebook)--大数据分析平台Pig(提供多种接口)--管理工具Ambari(监控、部署、管理)--Sqoop:在集群与传统数据库间的数据传递00分布式集群Hadoop6/4201并行计算框架Mapreduce7/4202分布式文件系统HDFS8/4203分布式NoSql列数据库Hbase04数据仓库Hive05脚本语言PigGoogle后Hadoop时代的新三驾马车Dremel:web数据级别的交互式数据分析系统列存储、多层次查询树,毫秒级海量数据分析Caffeine:为Google网络搜索引擎提供支持,能够更迅速的添加新的链接到自身大规模的网站索引系统中,丢弃MapReduce转而将索引放置在分布式数据库BigTable上Pregel:主要绘制大量网上信息之间关系的“图形数据库”13/421-Brighthouse:AnAnalyticDataWarehouseforad-hocQueriesPVLDB’08DominikSlezak,Infobright,inc.,PolandAnAnalyticDataWarehouseforAd-hocQueriesColumn-orienteddatawarehousewithautomaticallytuned(基于列的自调整数据仓库)Datamanagement:DP、DPN、KN粗集Roughset+粒度计算GranularComputing知识网格KnowledgeGrid优化与执行OptimizationandExecution14/42DP(DataPack)、DPN(DataPackNode)、KN(KnowledgeNode)15/42行存储、列存储比较数据块(DataPacks)知识网格(KonwledgeGrid)18/42知识网格(KonwledgeGrid)19/422-Starfish:ASelf-tuningSystemforbigdataanalyticsCIDR’11-HerodotosHerodotou,DukeUniversityTimelyandcost-effectiveanalytics(及时,效益)ASelf-tuningsystem(自调整)BasedonHadoop(基于Hadoop)ExtensibleMapReduceexecutionengine(可扩展)Pluggabledistributedstorageengines(插拔式)MAD(吸引力Magnetism\灵活Agility\深度Depth)20/423希尔伯特技术HilberttechnologyHilberttechnologyOrganizing&Analyzing;Large&Media;Patented;Costeffective;Search;Clustering&Categorization;DataConsolidation;DataQualityUltraHigh-Speed;SmartProcesses;Ad-hocFlexibility;Scale&ConsolidateSpeed;Flexibility;Smartness;Scalability25/4227/424-Extreme-PointSymmetricModeDecompositionMethodforDataAnalysis极点对称模态分解方法;在HHT基础上四点创新:-使用更多个内插值曲线去实现筛选过程(1,2,3…)-最后的剩余作为最优曲线,拥有一定数目的极值点,而不是带有自多一个极值点的一般趋势-使用极值点对称取代包络线对称-使用基于数据的直接插值方法去计算瞬时频率和振幅-确定一个优化全局平均曲线时,使用的自适应方法,比一般的最小二乘法和平均运行方法要好;-确定瞬时频率和振幅,用的是直接的方法,比希尔伯特谱更好-这些将提高自适应的数据分析,可用在大气和海洋科学、信息学、经济学、生态学、医药、地震等领域4.1-经验模态分解EMD(EmpiricalModeDecomposition):EMD方法在理论上可以应用于任何类型的时间序列(信号)的分解该方法的关键是它能使复杂信号分解为有限个本征模函数(IntrinsicModeFunction,简称IMF),所分解出来的各IMF分量包含了原信号的不同时间尺度的局部特征信号。EMD分解方法是基于以下假设条件:(1)数据至少有两个极值,一个最大值和一个最小值;(2)数据的局部时域特性是由极值点间的时间尺度唯一确定;(3)如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后再通过积分来获得分解结果。经验模态分解的基本思想:将一个频率不规则的波化为多个单一频率的波+残波的形式。原波形=∑IMFs+余波。4.2-筛选过程(Sifting)这种方法的本质是通过数据的特征时间尺度来获得本征波动模式,然后分解数据。这种分解过程可以形象地称之为“筛选(sifting)”过程。分解过程是:-找出原数据序列X(t)所有的极大值点并用三次样条插值函数拟合形成原数据的上包络线;-同样,找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线-上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,得到一个新的数据序列hl:X(t)-ml=hl由原数据减去包络平均后的新数据,若还存在负的局部极大值和正的局部极小值,说明这还不是一个本征模函数,需要继续进行“筛选”。4.3-EMD实例—金融1例如沪指的IMF如下图所仅仅示意的最后4个低频IMF函数序列:上图中的IMF1---IMF3叠合起来,就基本可以重构出沪指的走势:基本与股指一致,类似与一根均线。4.4-EMD实例—金融2从上面的分解到重构的过程看:其实就是个减法到加法的过程,减法求异,剥离出频率(周期)大致相同的IMF,而加法求同,回到原波形。余波其实是个趋势线,即频率极低(周期很长)的波,可以看成是个基底,其它IMF都建筑在它之上。4.4-EMD实例—金融3有意思的是,筛选出的本征模函数IMF(包括余波)可以代表实在的物理意义,即其震动模式必然地对应有物理成因。而在股指分解出的IMF则应该对应宏观经济成因。比如第一幅图中的IMF2就与CPI或PPI走势几乎一致,且周期也一致;而IMF1则与平滑后季度GDP增长率基本一致,也与发电量或工业增加值的大趋势大体一致。也就是说,这种新颖的技术分析也得出:股指是反映宏观基本面的。我国的CPI这10几年来一直遵循大概42个月的循环规律,可以用一个正弦波形象之。而IMF则是几个正弦波的复合结果。浮动频率法仅是找出信号序列中的实际频率,而IMF是既找出浮动频率也找出包括不同振幅的复杂信号序列中的震动模态序列。IMF更接近实际的时间序列。尝试把二者结合起来是个可能的路径。PerformanceofESMD_IPerformanceofESMD_varianceratiov一些想法与困惑Hadoop+Brighthouse?Dremel+Caffeine?云计算与大数据如何结合?网格计算与大数据?大数据OLAP方案?大数据OLTP方案?大数据到底是什么?如何表述与建模?大数据的理论基础?大数据可计算的基础理论?重要扩展与证明“大数据的正确性”与应用的“出错根源”能量、绿色计算、安全?领域应用与大数据的计算理论希尔伯特空间--勒贝格测度--优美图--标号--大数据WSN测量+大数据+领域应用?国家基金面上项目/国家基金重点项目/国家基金重大项目国家基金超级大项目国家基金委主任杨卫半年来的足迹:-3月12日卸任浙大校长任基金委主任;-5月21日调研国家天文台观测基地,雾霾检测和环境气象业务、青藏高原大气科学试验-10月份相应调研中科院化学所、理化所、北大,人大;会见美国驻华大使骆家辉到12月19日到同济谈到国家要立项有关雾霾检测、环境气象的国家基金超级大项目系列课题祝贺王老师国家文物局项目立项“ADSN的大数据古民居实时探测与分析系统研究”交流!谢谢!42/42
本文标题:汇报1-大数据研究现状探讨42
链接地址:https://www.777doc.com/doc-29655 .html