您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 工业大数据技术与数据治理
工业大数据的发展,应用与挑战刘英博清华大学软件学院主要内容关于清华大数据中心大数据技术发展脉络大数据应用案例分享数据质量与大数据技术大数据应用思路清华大学软件学院与大数据中心清华大学软件学院专职教师在校学生高级讲师合计本科生研究生合计281038248556804•2001年12月14日成立,推动软件工程成为一级一类学科•2012年全国软件工程学科评估第一名•专注软件理论及软件技术在工业界应用研究,在过去20年中,研发和孵化了一批国产工业软件(CAD,PDM,MRO)•依托软件学院的国家中心:•国家企业信息化应用支撑软件工程技术研究中心•信息技术国家实验室物联网技术中心•信息系统安全教育部重点实验室4软件学院创始人-孙家广院士◦曾任国家自然科学基金委副主任。◦现任清华大学信息学院院长、◦信息科学与技术国家实验室主任、◦清华大学学术委员会副主任、◦国家企业信息化应用支撑软件工程技术研究中心主任、◦国务院学位委员会委员、学科评议组成员、◦国家教育部软件工程教指委主任、◦中国云体系产业创新战略联盟理事长、◦国家发改委大数据专项评审组组长、◦全军信息化专家委专家。5产品全生命周期管理(PLM)系统完成300余家企业的应用支持动气灾后重建支持最大功率机车设计PostgreSQL内核分析2006年获得教育部科技进步二等奖2001年复杂装备运维(MRO)支持平台建立中国MRO技术社区共同组建中国最大工程机械物联网2012年获得教育部科技进步一等奖2013年获得中国电子学会科技进步一等奖2007年非结构化数据管理系统(LaUDMS)承担“核高基”课题开发任务基于Hadoop/Cassandra研制云数据管理平台开始在信息服务、工业领域进行应用2009年大数据管理平台成立清华大学(软件学院)-英泰伟业大数据技术联合研究中心2014年获国家科技进步二等奖2013年软件学院大数据领域的工作软件学院大数据中心管委会•2013年10月软件学院联合企业成立大数据中心•中心管委会主任孙家广院士•中心主任王建民,副主任陆薇、黎彤•目标定位:一个大数据平台,两个应用领域(工业和健康)JiaguangSunMemberofCAEPhilipS.YuACM/IEEE/IBMFellowWilvanderAalstEuropeanAcademiaWeiLuJianminWangTongLi7•研发世界领先的技术和产品•机器大数据平台及其行业分析应用•支撑国家战略发展规划,承担国家相关重大项目•工信部:中国制造2025重大专项-工业大数据基础软件•在国计民生重大领域做出切实的贡献•帮助相关政府部门和企业大数据落地实施•已有部分合作单位:三一重工,国家气象局,万达集团,海关总署数据中心,空间应用与技术中心,总装,南车,公安中心定位中心牵头中国制造2025-工业软件领域操作系统与工业软件9所获国家项目支持和奖项获得多项国家项目支持•国家“核高基”科技重大专项•国家重点基础研究计划(国家973计划)•国家863计划•国家自然科学基金获2012年教育部科技进步一等奖获2013年中国电子协会科学技术奖获2014年国家科技进步二等奖大数据成果得到国内外认可•国际ISO/IECJTC1大数据研究组成员•美国国家标准化局NIST大数据工作组成员•国家“核高基”重点科技专项课题牵头单位•国家工信部非结构化数据标准化工作组副组长单位•国家工信部大数据标准化工作组发起单位•中国计算机学会大数据专家委员会成员11与大数据领域国际知名学者和研究团体建立了密切的合作广泛的国际合作关于大数据放高利贷的改叫P2P乞讨改叫众筹统计改叫大数据分析忽悠改叫互联网思维做耳机的叫穿戴设备看场子收保护费的叫平台战略搅局的叫颠覆性创新大数据概念下的众生相哈哈!,大数据产品都是开源的,可以不要钱了,欧耶!奇怪?Oracle跑得好好的,怎么一下蹦出来这么多幺蛾子了。不就是原来的数据仓库换了一身马甲嘛。老师,我们的OA跑得好慢啊,能帮我们换大数据吗?快快快,趁着别人还不知道,把大数据的大旗插在咱的山头上…我会装Hadoop,我为大数据代言…大数据技术还在路上大数据物联网云计算Gartner2014-走出“泡沫期”进入“幻灭期”大数据问题的提出大数据,用传统数据系统难以处理的、大且复杂的数据集Bigdataisanall-encompassingtermforanycollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingtraditionaldataprocessingapplications.-计算机诞生的时候就有的问题,数据集越来越大,要长期面对的问题1960年1990年1980年1970年2000年2010年2020年关系理论和SQL语言事务处理(OLTP)面向对象数据库分析/挖掘(DW/OLAP/DM)Web/XML数据库文本与多媒体数据库NOSQL/NewSQL现代数据管理的历程关系数据库互联网应用业务驱动网状数据库From“Onesizefitsall”To“Onesizefitsnone”层次数据库数据仓库18GFS-Google文件系统保存网页快照数据“小机器”拼成“大机器”为“并行计算”分布“数据”119GFSMasterChunkserverC0C1C2ChunkserverC0C1ChunkserverC0C2ChunkserverC1C2C3C3C3GFS客户端写入本地硬盘心跳,负载均衡,副本,etc…FileC0C1C2C3PC机PC机PC机BigTable–Google大表网页特征数据(属性少则几个,多则数十万个)−URL,元数据,链接,锚点,…保存网页特征数据海量的半结构化数据Bigtable:ADistributedStorageSystemforStructuredData.FayChang,JeffreyDean,etc,Google,Inc.OSDI2006.2美国CNN首页JobTrackerTaskTrackerGoogleMapReduce计算框架让“程序”找“数据”使“分而治之”更加容易程序数据数据数据数据数据3Chubby-Google同步服务分布式锁服务GFS-选择主节点(master)BigTable-选择主节点、为表加锁、用户链接MapReduce–同步访问共享资源4早期Google低成本DIY硬件平台来源:MassDataProcessingTechnologyonLargeScaleClusters每个查询的成本5美分23Hadoop-Google的翻版GoogleHadoopGFSHDFSBigtableHBaseMapReduceHadoopChubbyZookeeper3421大数据技术发展脉络Hadoop生态系统34212005年开源,大数据典型生态系统,2008年,Yahoo!基于Hadoop管理了1万个CPU核的服务器集群Spark生态系统集群资源管理器基于内存的文件系统快速的分布式计算执行引擎数据流分析图运算机器学习引擎SQL查询引擎SQL近似查询已完成项目正在开发中相关的外部项目学术界的创新,成为工业界追捧的大数据分析平台2015年6月15日,IBM宣布每年资助“hundredsofmillionsofdollars”这尼玛是让人崩溃的节奏啊…一弄数据深似海,从此软件不好买…如何辨别大数据系统呢?◦数据库排名网站◦◦DB-Engines排名依据◦网页上给出的搜索量◦Google和Bing◦公众的感兴趣的程度◦GoogleTrends◦在技术论坛上的热度◦StackOverflow◦DBAStackExchange◦技术职位的数量◦Indeed和SimplyHired◦在专业社交网络上的人气◦Linkedin◦在一般社交网络上的人气◦Twitter开源大数据解决的商用系统没有解决的问题数据来源:当今大数据技术的玩家商用数据库系统大数据公司解决方案开源社区DIY为什么我们玩不转Hadoop?为什么开源的东西不是免费的?为什么大数据不是数据仓库?21世纪什么最贵?工业大数据应用沃尔玛“啤酒加尿布”经典案例,1993年塔吉特百货孕妇营销分析,2002年谷歌预测流感,2009年奥巴马成功连任,2012年微软成功预测奥斯卡21项大奖,2013年林彪也玩大数据,1948年孙膑增兵减灶,公元前341年大数据引爆数据思维://://咱们今天看看点儿别的大数据的格局方兴未艾前景广阔的工业大数据–时序、时空、多维矩阵数据–查询统计和复杂数值算法分析–有少量新兴公司,目前无行业统治者客户结构化非结构化客户信息社交媒体网络日志位置各种设备产生机器设备运行监控数据交易数据物理世界数据天气,交通,地情,道路情况,卫星等DATA蓬勃发展的互联网应用数据–文本、图片、影像等–搜索、用户行为分析、舆情分析等复杂分析–代表厂商:Google,BAT传统的企业信息系统数据◦关系型数据◦查询和统计分析◦代表厂商:Oracle,IBM,SAP工业大数据的主体—机器数据定义1来源多样2密集采样3时间序列位置轨迹实时安全存储和分析4工业大数据特点及其应用行业机器大数据在多个行业广泛存在◦工业:电力,石油,化工,冶金,制造,建筑◦农业◦公用事业:铁路,航空,路桥◦军事◦科学:基因,遥感,气象,地震,海洋,地理海量高速机器24*7产生,产生速度快,数据量大独特数据类型机器产生的时间序列,时空序列,或者数组阵列数据,非常结构化,多种类型实时深度分析基于复杂数值算法的实时和历史分析一个典型的大规模机器大数据应用系统(如工程机械物联网、油气生产物联网、智能电网、车联网、地质勘探等),每天产生的数据量是淘宝交易的100倍,且要在这些数据上实时做复杂的领域相关分析资料来源:Bigdata:Thenextfrontierforinnovation,competition,andproductivity(麦肯锡)工业大数据是不容忽视的社会资产工业大数据分析面临的挑战分析目标领域知识•产品原理•液压、机械、•电控、底盘、转塔•故障原理•泄漏、断裂分析方法•海量数据处理•分类聚类•关联规则•统计分析基础数据•工况数据•服务数据•质保数据•设计工艺数据量超领域专家分析能力的极限工况数据容量大,变化快,质量仍需改进常规挖掘技术缺乏领域特征,效率亟待提高管网风险预测管理平台通过历史爆管及相关因素的挖掘,定量预测爆管风险,保证城市管网预防性维修的科学计划效果◦按照2%的年维修率(建设部标准),通过数学预测模型,可以降低20%的爆管事件。◦相对与专家经验,数学模型的准确率提高了5~12倍世界城市水泄漏率是15%~25%.通过预防性维修减少爆管事件是IWA推荐的四个建议措施之一(Source:香港水务署2008年年鉴)基于海量数据分析的爆管风险预测–综合考虑管网拓扑、历史爆管信息、环境(道路、天气、土壤)、工作状态(水压、pH值)等信息–分析爆管的时空模式,以及与环境、工作状态的关联关系-利用聚类、生存分析等技术,建立爆管预测模型FailurepatternanalysisFurtherfailurepredictionHotspotoffailures40偷水检测与预防41单用户时间序列分析:•抽取其正常的用水模式.•实时检测用水量的异常.多用户的聚类分析•根据用水模式、时空关系进行客户细分.•分析客户群体的用水量的分布,进行异常值检测(outlierdetec
本文标题:工业大数据技术与数据治理
链接地址:https://www.777doc.com/doc-512122 .html