您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 模块1电子政务的基础概念
计算机科学的挑战与方法-大数据处理技术主讲教师:怀进鹏合作教师:邓婷沃天宇孙海龙胡春明张日崇马帅李建欣李博计算机学院计算机新技术研究所2013年11月16日1内容提要大数据的分析现状数据的处理流程及处理技术数据挖掘算法图数据分析处理技术2Gartner关于业界对BigData兴趣的分析3Gartner关于BigData处理技术的分析4Gartner关于BigData处理技术的分析5内容提要大数据的分析现状数据的处理流程及处理技术数据挖掘算法图数据分析处理技术6数据的处理流程7ChallengesandOpportunitieswithBigData-AcommunitywhitepaperdevelopedbyleadingresearchersacrossUSDivyakantAgrawal,UCSantaBarbaraPhilipBernstein,MicrosoftElisaBertino,PurdueUniv.SusanDavidson,Univ.ofPennsylvaniaUmeshwarDayal,HPMichaelFranklin,UCBerkeleyJohannesGehrke,CornellUniv.LauraHaas,IBMAlonHalevy,GoogleJiaweiHan,UIUCAlexandrosLabrinidis,Univ.ofPittsburghSamMadden,MITYannisPapakonstantinou,UCSanDiegoJigneshM.Patel,Univ.ofWisconsinRaghuRamakrishnan,Yahoo!KennethRoss,ColumbiaUniv.CyrusShahabi,Univ.ofSouthernCaliforniaDanSuciu,Univ.ofWashingtonShivVaithyanathan,IBMJenniferWidom,StanfordUnivAresultofremoteconversationlastedabout3months(Nov.2011~Feb.2012)8Challenges数据采集ETL工具、爬虫、传感器数据存储文件系统、关系数据库、图数据库;NoSQL(hadoop);数据分析NLP、统计、数据挖掘、机器学习、数据库数据展现数据类别类型(结构、)行业(医疗、社交)9大数据处理技术分析数据采集-ETLExtract,TransformandLoad(ETL)ETL按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程。10图片来源:网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。11图片来源:数据采集是指从传感器和其它待测设备等模拟和数字被测单元中自动采非电量或者电量信号,送到上位机中进行分析,处理。12图片来源文件系统文件数据库又叫嵌入式数据库,将整个数据库的内容保存在单个索引文件中,以便于数据库的发布。关系数据库关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据图数据库图数据库的基本含义是以“图”这种数据结构存储和查询数据.NoSQL(hadoop)非关系型数据库以键值对存储(key-value),它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。13数据处理与分析数据处理:自然语言处理技术数据降维技术数据清理技术14将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示实现人与计算机之间用自然语言进行有效通信的各种理论和方法发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等数据仓库与联机分析处理1988年IBM两位研究人员(BarryDevlin和PaulMurphy)创造性地提出了一个新的术语:数据仓库(DataWarehouse)1992年比尔.恩门出版专著《BuildingtheDataWarehouse》,真正拉开了数据仓库走向大规模应用的序幕,被誉为“数据仓库之父”“数据仓库是一个面向主题的、集成的、相对稳定、反映历史变化的数据集合,用于支持管理中的决策制定”数据仓库与数据库的主要区别:数据仓库以数据分析、决策支持为目的来组织存储数据数据库的主要目的是为系统保存、查询数据数据挖掘数据挖掘算法按挖掘目的分为:关联规则分析分类与预测•信息自动分类,信息过滤,图像识别等聚类分析异常分析•入侵检测,金融安全等趋势、演化分析•回归,序列模式挖掘大数据的应用—决策支持1947年,赫伯特.西蒙在著作《行政组织的决策过程》中指出“人类的理性是有限的,因此所有的决策都是基于有限理论(boundedrationality)的结果”,并指出“如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将会扩大,决策的质量就能提高”预测“在后工业时代,也就是信息时代,人类社会面临的中心问题将从如何提高生产庇转变为如何更好地利用信息来辅助决策”1975年图灵奖1978年诺贝尔经济学奖1993年美国心理协会终身成就奖MapReduce/HadoopandBeyond由Google提出的一个用于大数据处理的系统JeffreyDeanandSanjayGhemawat,MapReduce:SimplifiedDataProcessingonLargeClusters,OSDI2004.Apache开源社会项目:Hadoop主要的思想来自于functionalprogramming18MapReduce/HadoopandBeyond19Map阶段Reduce阶段MapReduce/HadoopandBeyond20MapReduce/Hadoop的局限性比较底层的编程模型对实时处理和递归处理支持不够适合处理具有“局部性”的数理BeyondMapReduce高层编程语言:Hive(Facebook),Pig(Yahoo!)等…流式计算:S4(Yahoo!),Storm(Twitter),Spark(UCBerkeleyAMPlab)支持递归的系统:GooglePregel其他技术。。。大数据可视化数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。美学形式与功能齐头并进;通过直观地传达关键的方面与特征,实现对于相当稀疏而又复杂的数据集的深入洞察。数据可视化的分类(FritsH.Post,GregoryM.NielsonandGeorges-PierreBonneau(2002).DataVisualization:TheStateoftheArt.)可视化算法与技术方法立体可视化信息可视化多分辨率方法建模技术方法交互技术方法与体系架构21核医学成像螺旋星云可见光图像大数据类别数据类型结构化数据:关系数据等:数据的查询、统计、更新等操作效率低。半结构化数据:XML、图数据等:转换为结构化存储或者按照非结构化存储。非结构化数据:图片、视频、word、pdf、ppt等:不利于检索、查询和存储行业数据大规模的电子商务数据社会数据(社会网络,互联网等),是一类重要的图数据移动数据(呼叫详细记录、RFID、传感器网络)医疗数据天文学,大气科学,基因组学,生物地球化学,生物和其他复杂和/或跨学科的科研数据22内容提要大数据的分析现状数据的处理流程及处理技术数据挖掘算法图数据分析处理技术23数据挖掘的定义数据挖掘是从大量数据中提取或“挖掘”知识。技术上的定义:数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业角度定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘是多学科的产物统计分析和数据挖掘的区别-孙悟空跟二郎神打仗统计分析:两人斗争4567次,其中孙悟空赢3456次。另外,孙悟空斗牛魔王,胜率是89%,二郎神斗牛魔王胜率是71%关联分析:计算死自动找到出身、教育、经验、单身四个因素。得出结论是孙悟空赢。贫苦出身的孩子一般比皇亲国戚功夫练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。数据挖掘与统计学统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。数据挖掘被关注的原因数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是信息技术自然进化的结果数据库、数据仓库和Intenet等信息技术的发展。计算机性能的提高和先进的体系结构的发展。统计学和人工智能等方法在数据分析中的研究和应用。四个概念的不同数据:原始的,未解释的信号或者符号,如:1信息:有一定解释或意义的数据,如:S.O.S知识:综合信息形成的观点和普适性的理论智慧:能够综合知识和经验用以生存计划的人类思维的结晶数据挖掘视为数据库中知识发现过程基本步骤的主要环节知识发现过程由以下步骤组成:数据清理(消除噪音或不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库中提取与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)数据挖掘(基本步骤,使用智能方法提取数据模式)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式;)数据挖掘的应用电信:流失银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健顾客形象数据挖掘可以告诉你什麽样的顾客会买什麽样的产品(聚类或分类)识别顾客需求保证为不同的顾客提供了最好的产品使用预测手段去发现什麽因素会吸引新的顾客。提供汇总信息各种各样的多方位汇总信息统计的汇总信息(数据中心的趋势和变化)数据挖掘应用实例:市场分析和管理数据挖掘应用实例:欺骗性检测和管理应用广泛应用于医疗系统,零售系统,信用卡服务,电信(电话卡欺骗行为),等等.实现途径利用历史性数据建立欺骗性行为模型并使用数据挖掘帮助识别同类例子具体事例汽车保险:检测出那些故意制造车祸而索取保险金的人
本文标题:模块1电子政务的基础概念
链接地址:https://www.777doc.com/doc-26767 .html