您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 大数据安全培训_v1.0_20180419
大数据安全培训2018.04目录24、应用举例2、大数据应用介绍1、大数据基本概念3、大数据安全现状大数据基本概念大数据基本概念47:00,你被手机闹钟叫醒。昨晚你带着一款小型可穿戴设备睡觉的。这个设备连接着你手机里的一款大数据的APP,你打开它就可以看到你昨晚睡觉时翻身次数、心跳和血压状况。根据测量结果,它建议你今天出门之前多喝点橙汁类的饮品来补充维生素。9:00,今天你要带朋友到上海的南京路步行街逛逛,你打开某互联网公司的大数据产品“XX预测”,看看步行街今天预计会有多少人,再看看上海今天的交通预测。“XX预测”根据以往用户定位请求信息建议你乘地铁前往步行街。12:00,逛了一圈,你和朋友都累了,想找个地方吃饭。你打开大数据软件,寻找附近的餐馆。通过该软件,你可以提前看到餐馆的视频环境,看看是否人多。大数据还可以把你脸的部分打成马赛克,你不用担心个人信息泄露。大数据基本概念514:00,吃过午饭,你想去附近的公园玩玩,但你不知道应该去世纪公园还是去中山公园。你又打开“XX预测”,希望它帮你分析一下,哪个公园相对不太拥挤。根据结果,你去了中山公园。16:00,你正在公园里休息,收到了催缴电话费的短信。你很好奇自己过去三年每个月的消费记录。但过去运营商只能让你查到六个月以内的消费信息。因为中国电信至少有5亿用户,每天至少能产生10次计费记录。每天50亿的计费记录,一年下来就是1800亿条记录。这是一个大数据的存储和归纳技术难题。但在大数据时代,过去几年的电话通讯信息都可以查到了。22:00,晚上睡觉的时候,你家的孩子哭闹起来。你把孩子的哭声录入一个大数据软件中。软件能告诉你孩子为什么哭。是饿了,还是哪里不舒服,还是说只是想撒撒娇……18:00,你回到了家,你的可穿戴设备告诉你,今天你在室内和室外的时间分别都是多少,你一天内吸入了多少雾霾。大数据基本概念6大数据基本概念7“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”——维基百科大数据基本概念8仅仅是“大”?比“大”更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值大数据基本概念9海量异构劣质高维大数据基本概念10体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大杂低快大数据基本概念海量沙漠充满杂质只为粒金争分夺秒大杂低快11大数据基本概念大数据的数据够“大”,数据不再是稀缺资源,不能像小数据时代那样,用最小的数据获得最多的信息;而应该要拿到与领域相关的全数据大数据的数据够“杂”,来源广泛,格式五花八门,用户需从海量数据中提炼有价值信息,个体数据(或严格因果模型)的精确性不再重要,重要的是大多数数据群共同指出的结论(相关性关系);大数据的数据够“快”,数据产生得快,数据增加得快,数据随时间的折旧也快,数据的时效性成为关键。大数据新思维12大数据基本概念对比传统方法大数据方法数据采集手段采样数据全局数据数据源单数据源多数据源整合判断方法基于主观因果假设机械穷举相关关系演绎方法孤立的推算方法大数据+小算法+上下文+知识积累分析方法描述性分析预测性和处方性分析对产出的预期绝对的精确性更重要更注重实时性(具体根据需求而定)13大数据基本概念14大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体大数据价值15行业数据处理方式价值银行/金融•贷款、保险、发卡等多业务线数据集成分析、市场评估•新产品风险评估•股票等投资组合趋势分析•增加市场份额•提升客户忠诚度•提高整体收入•降低金融风险医疗•共享电子病历及医疗记录,帮助快速诊断•穿戴式设备远程医疗•改善诊疗质量•加快诊疗速度制造/高科技•产品故障、失效综合分析•专利记录检索•智能设备全球定位,位置服务•优化产品设计、制造•降低保修成本•加快问题解决能源•勘探、钻井等传感器阵列数据集中分析•降低工程事故风险•优化勘探过程互联网/Web2.0•在线广告投放•商品评分、排名•社交网络自动匹配•搜索结果优化•提升网络用户忠诚度•改善社交网络体验•向目标用户提供有针对性的商品与服务政府/公用事业•智能城市信息网络集成•天气、地理、水电煤等公共数据收集、研究•公共安全信息集中处理、智能分析•更好地对外提供公共服务•舆情分析•准确预判安全威胁媒体/娱乐•收视率统计、热点信息统计、分析•创造更多联合、交叉销售商机•准确评估广告效用零售•基于用户位置信息的精确促销•社交网络购买行为分析•促进客户购买热情•顺应客户购买行为习惯13大数据应用要解决的问题16大体量大非结构化数据的超大规模和增长杂多样性数据多形态:音频、视频、文本、图片、文件等低价值密度大量不相关信息快追求时效性时效性要求高,长的时效性一般T+n(离线),实时计算的化,则要求秒级价值ROI(投资回报率)传统技术手段的ROI已经达到无法接收水平大数据应用要解决的问题17大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据产品RDBMSAnalyticalDBNoSQLDBERP/CRMSaaSSocialMediaWebAnalyticsLogFilesRFIDCallDataRecordsSensorsMachine-Generated大数据管理存储处理过滤大数据终端使用挖掘分析搜索扩充软件是大数据的引擎18•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!大数据涉及的关键技术19需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术数据分析技术技术Hadoop,x86/MPPMapReduceStreamingDataInfiniBandEnterpriseSearch描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型大数据涉及的关键技术20大数据(Hadoop)NoSQL数据库数据仓库部署架构水平扩展水平扩展大部分垂直扩展,少数水平扩展大部分水平扩展数据类型文件存储,没有数据类型简单数据类型丰富的数据类型丰富的数据类型数据模型非常简陋的数据模型简单灵活数据模型丰富的数据模型完善丰富的数据模型数据关系没有数据关系描述非常简单的数据关系描述数据关系完善数据关系完善数据一致无一致性弱一致性强一致性强一致性数据安全安全性很弱安全性很弱安全性很高安全性很高计算类型离线批量处理,只读,低并发实时CRUD操作,海量并发实时CRUD操作,高并发离线批量处理,只读,低并发适用场景低密度数据海量存储,数据预处理,预计算高并发实时在线交易,查询,报表高价值数据统一存储和计算平台常见用例日志处理,用户行为分析,搜索引擎用户资料,微博,金融反欺诈金融账户,电信计费,税务等企业数据仓库11大数据使用的关键技术—数据采集21数据采集数据储存与管理数据分析与挖掘计算结果展示•ETL•用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程大数据使用的关键技术—数据采集22SplunkForwarderScribeChukwaLogstashFluentdFlume采集•Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。Fluentd•Logstash用JRuby开发,所有运行时依赖JVM。支持丰富的输入、过滤和输出.Logstash•Chukwa基于Hadoop的HDFS和MapReduce来构建,提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。Chukwa•Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。Flume使用JRuby来构建,所以依赖Java运行环境。.Flume•在商业化的大数据平台产品中,Splunk提供完整的数据采集,数据存储,数据分析和处理,以及数据展现的能力。.SplunkForwarder•Scribe是Facebook开发的数据(日志)收集系统.Scribe大数据使用的关键技术—数据存储与管理23数据采集数据储存与管理数据分析与挖掘计算结果展示•ETL•用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理大数据使用的关键技术—分布式文件系统24分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。大数据使用的关键技术—分布式文件系统25Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。GFS(GoogleFileSystem)Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFSHDFSLustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的LustreMogileFS是一套高效的文件自动备份组件,由SixApart开发,广泛应用在包括LiveJournal等web2.0站点上.MogileFS相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差.mooseFS一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。FastDFSTFS(Taobao!FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统.TFSMongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个内置功能,它提供一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两个Collection中.GridFS大数据使用的关键技术—非关系型数据库NoSQL26大数据使用的关键技术—云计算与云存储27如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。大数据使用的关键技术—数据分析与挖掘28数据采集数据储存与管理数据分析与挖掘计算结果展示•ETL•用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程•结构化、非结构化和半结构化数据•分布式文件系统•关系数据库•非关系数据库(NoSQL)•数据仓库•云计算和云存储•实时流处理•关联规则分析•分类、聚类•遗传算法•神经网络•时间序列分析•回归分析•系统仿真•机器
本文标题:大数据安全培训_v1.0_20180419
链接地址:https://www.777doc.com/doc-3298047 .html