您好,欢迎访问三七文档
大数据技术和标准化科学、公正、诚信、服务2内容•大数据发展背景•标准化工作现状•下一步工作重点3一、大数据催生了信息化3.0(智慧化阶段)信息化1.0--1995以单机应用为特征的数字化阶段--2015以联网应用为特征的网络化阶段2015-以数据的深度挖掘与融合应用为特征的智慧化阶段经历基础性变革后的未来信息技术支撑的信息化信息化2.0信息化3.0?金税工程数据规模更大,来源更丰富,类型更复杂,变化更快4一、大数据催生了信息化3.0(智慧化阶段)技术廉价化、互联网发展、信息化建设长期积累,形成了规模巨大的数据资源,且仍将加速增长大数据应用的成功案例,激发了基于数据,萃取知识、指导实践的巨大需求大数据现象出现数据应用需求激增以数据的深度挖掘与融合应用为特征的智慧化阶段信息化3.05二、大数据的战略意义大数据正在改变人类的思维方式随机样本精确求解因果关系全体数据近似求解关联关系传统思维大数据思维6二、大数据的战略意义GDP改善民生:优化资源配置,健康医疗、就业、社保、教育、公共交通产业转型,创新业态:颠覆传统产业,提高运行效率和决策能力,催生智能制造、互联网金融等新业态大数据时代,信息技术不仅是行业发展的“倍增器”、“催化器”,甚至会成为行业的颠覆者7二、大数据的战略意义美国棱镜计划:电邮、即时消息、视频、照片、语音、文件传输、视频会议、社交网络等数据的收集与综合分析自主可控的大数据技术体系是不可或缺的基础!8三、大数据产业生态链(技术)大数据采集大数据存储、管理和处理大数据呈现和应用大数据分析和挖掘9三、大数据产业生态链(商业)互联网企业运营商金融企业大数据拥有者专业技术服务商综合技术服务商大数据云存储和云服务商大数据技术提供者应用服务提供商咨询服务提供商大数据服务提供者数据中间商10四、我国大数据产业发展现状基础设施和分析方法方面:•主要依赖国外技术和产品,核心技术方面仍是学习者和追随者应用方面:•BAT在网络大数据具有优势:网站、微博、微信、搜索、交易数据等,互联网企业的技术优势难以顺畅地扩散到各行业•部门、地方和一些行业开始关注大数据资源建设•初级发展阶段,缺少典型性、共识性强的大数据应用;数据资源开放方面:•我国数据资源主要来源于互联网,业务、政务数据共享开放程度低急需标准化,保证有序发展、开放共享11内容•大数据发展背景•标准化工作现状•下一步工作重点12一、大数据工作组概况(一)组织架构组长:梅宏上海交通大学副校长(院士)副组长:车品觉阿里巴巴集团副总裁吴建明华为IT技术开发部部长杜小勇中国人民大学信息学院院长秘书长:高林工业和信息化部信软司副司长联络员:刘大山国家标准化管理委员会工业二部处长孙文龙工业和信息化部信软司处长侯建仁工业和信息化部电子信息司处长进一步扩大工作组规模申请报名的成员单位170+家成员单位管理统一邮箱:bigdata@cesi.cn微信公众平台建立联络关系贵州省贵阳市政府、中关村大数据产业联盟建立大数据专家团队一、工作组概况13一、工作组概况(二)组织管理2014年12月2日,工作组成立大会2015年7月14日,工作组第二次全会,正式成立7个专题组2015年12月17日,工作组第三次全会(2015年年终总结)工作组开展了一系列调研活动,组织线下活动5次,召开专题组会议18次工作组总体专题组组长:电子四院张群国际专题组组长:华为杨莉莉技术专题组组长:北大王亚沙联合组长:中兴董振江产品和平台专题组组长:浪潮电子张东联合组长:亚信陈利仓安全专题组组长:阿里云陈雪秀联合组长:信安标委叶润国工业大数据专题组组长:数码大方齐建军电子商务大数据专题组组长:京东葛胜利联合组长:阿里姜蕾秘书处二、标准体系框架大数据标准体系框架基础技术产品和平台安全应用和服务工具级产品系统级产品通用要求隐私保护开放数据集领域应用数据林业数据元素集电子商务数据元素集金融数据元素集电子政务数据元素集交通数据元素集教育数据元素集数据交易平台数据开放共享平台工业大数据电子商务大数据...处理生命周期技术收集预处理分析大数据集描述与评估质量模型分类方法描述模型术语参考架构元数据总则...............可视化...互操作技术......访问平台基础设施预处理类产品存储类产品分布式计算工具数据库产品应用分析智能工具平台管理工具类产品...评估数据溯源1516基础标准为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。技术标准该类标准主要针对大数据相关技术进行规范。包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。二、标准体系框架17产品和平台标准该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。二、标准体系框架18大数据安全标准数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。应用和服务标准应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准,包括工业、电子商务等领域。二、标准体系框架二、大数据参考模型19二、大数据标准化白皮书V2.0局势(产业、技术等)•基本概念和内涵•特征•重要作用生态链•大数据产业链(商业)•大数据产业链(技术)规划•技术发展规划•国内外政策、趋势大数据标准化•参考架构•标准体系成功案例•十一大领域的应用案例20二、研究报告4、加强研究《(英国)开放数据白皮书》NIST在大数据领域的相关研究报告:《大数据互操作性框架:第一卷:定义》、《大数据互操作性框架:第二卷:大数据分类》、《大数据互操作性框架:第四卷:安全与隐私》、《大数据互操作性框架:第六卷:参考架构》、《NIST大数据互操作性框架:第七卷:大数据标准路线图》。为了更好的开展政府大数据开放共享和数据资产管理方面的标准化工作,工作组正在开展《政府大数据分类分级》和《数据资产管理》的相关研究工作,目前已经形成两份研究报告的初稿。21(二)标准化工作进展已立项标准三、标准研制序号计划号标准名称状态120141191-T-469信息技术大数据术语审定会220141190-T-469信息技术大数据技术参考模型完成草案320141184-T-469数据能力成熟度评价模型完成草案420141172-T-469多媒体数据语义描述要求完成草案520141194-T-469信息技术科学数据引用完成草案620141200-T-469信息技术数据交易服务平台交易数据描述完成草案720141201-T-469信息技术数据交易服务平台通用功能要求完成草案820141202-T-469信息技术数据溯源描述模型完成草案920141203-T-469信息技术数据质量评价指标草案大纲1020141204-T-469信息技术通用数据导入接口规范草案大纲23•共定义了28个术语,该标准目前处于征求意见阶段。•重点介绍:–大数据–大数据参考体系结构–大数据生命周期模型–大数据工程化–读时模式–数据科学家三、标准研制Volume24•大数据bigdata具有数量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:数量VolumeVolume多样性Variety多变性variabilityVolume构成大数据的数据集的规模。速度Velocity数据可能来自多个数据仓库、数据领域或多种数据类型。Volume单位时间的数据流量。大数据其他特征,即数量、速度和多样性等特征都处于多变状态。三、《信息技术大数据术语》25三、《信息技术大数据术语》•大数据参考体系结构bigdatareferencearchitecture一种用作工具的、便于对大数据内在要求、设计结构和运行进行开放性探讨的高层概念模型。注:比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者等5个逻辑功能构件。26•大数据生命周期模型lifecyclemodelforbigdata用于描述大数据的“数据–信息–知识–价值”生命周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。注:几个阶段的主要活动如下:a.收集阶段——采集原始数据并按原始数据形式存储;b.准备阶段——将原始数据转化为干净的、有组织的信息;c.分析阶段——利用有组织的信息产生合成的知识;d.行动阶段——运用合成的知识为企业生成价值。三、《信息技术大数据术语》27•大数据工程化bigdataengineering为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据系统的过程。•读时模式schema-on-read一种数据模式应用;按此应用,在从数据库读取数据时,先经过诸如转换、净化、整合之类准备步骤。•数据科学家datascientist数据科学专业人员;他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能、以及用于管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。三、《信息技术大数据术语》28该技术参考模型展示了一个通用的、由逻辑功能构件组成的大数据系统,该模型独立于供应商、实现技术和基础设施。三、《信息技术大数据技术参考模型》29大数据价值链的两个维度组织:•大数据作为一种数据科学方法对从数据到知识的处理过程中所实现的信息流价值•大数据价值通过数据的收集、预处理、分析、可视化和访问等活动实现。信息价值链(水平轴)•大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值•大数据价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务实现IT价值链(垂直轴)三、《信息技术大数据技术参考模型》30五个角色+两个重要的逻辑构件:数据消费者大数据框架提供者大数据应用提供者数据提供者系统协调者安全和隐私管理代表大数据系统中存在的不同技术角色能够为大数据系统的其他五个主要构件提供服务和功能三、《信息技术大数据技术参考模型》已上报申请立项标准序号已申请国家标准名称牵头单位1《信息技术大数据基于参考架构下的接口框架》华为2《信息技术大数据分类指南》中科院信工所3《信息技术大数据系统通用规范》电子四院4《信息技术
本文标题:大数据技术和标准化
链接地址:https://www.777doc.com/doc-1880832 .html