您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据技术与经验分享
BIGDATA大数据技术与经验分享2017.2.15目录05大数据计算与分析研判04大数据存储与管理06大数据项目建设经验02大数据概述01现状与问题03大数据采集与处理PPT模板:素材:背景:图表:下载:教程:资料下载:范文下载:试卷下载:教案下载:论坛:课件:语文课件:数学课件:英语课件:美术课件:科学课件:物理课件:化学课件:生物课件:地理课件:历史课件:当前信息化现状与问题BIGDATA1.1用户使用方面010203缺少一个简便、高效、准确的在线检索工具!1.2应用建设方面交管警综户政出入境……数据源基础设施部级系统省级系统市级系统区级系统业务系统系统多了资源分散点对点交互重复建设共享困难重复建设现象突出!信息如何有效共享?1.3数据的管理与应用方面结构化数据……图像音频视频非结构化信息的飞速增长为存储带来巨大压力对非结构化信息的利用缺乏有效手段矛盾巨大的复杂的数据资源怎么用起来?02大数据技术概述BIGDATA2.1大数据发展的萌芽期大数据发展的突破期大数据发展的孕育期发展历程大数据不是最近才有的,数据一直存在,只是分析数据的技术近几年有了革命性的突破!所以,大数据也可以称为一种技术“大数据技术”90年代2003年-2006年2006年-2009年2010年-至今大数据发展的爆发期2.2概述大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务。1、大量2、多样3、快速4、价值大数据存储量大TB-PB计算量大数据增长快处理速度要求快数据来源多数据类型多商业价值如:行为分析、信息挖掘广告定投、信息预测结构化数据、非结构化文档、视频、照片等大数据不仅仅是“大”2.3大数据的发展方向01020304这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的DataStage)大数据采集与预处理方向在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的RHadoop版、基于MapReduce开发的数据挖掘算法等等大数据分析与挖掘方向这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统、分布式数据库、NoSQL数据库相关技术的发展正在有效的解决这些方面的问题。大数据存储与管理方向由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询计算(如Hive)、批处理计算(如HadoopMapReduce)、流式计算(如Storm)、和内存计算(如Hana),而这些计算模式的组合使用将成为满足多样性大数据处理和应用需求的有效手段。大数据计算方向03大数据采集与处理BigData3.1大数据采集的方式大数据采集就是使用多种技术或手段“组合出击”,将数据收集起来并存储在大数据存储系统中。根据数据的类型常见的采集方式包括一下四种:01数据库采集通过ETL工具将分布的、异构数据源中的结构化数据经过清洗、转化、整合操作后抽取到大数据存储系统02文本数据采集通过各类接口从电子文件中获取数据的过程。可以将txt\xml\word\excel\pdf等文件内的数据提取出来,并以结构化的方式存储大数据存储系统03实时流式数据采集实时采集物联网内RFID标签、GPS定位设备、北斗定位设备、温度传感器等各类传感器的实时状态信息、位置信息,并以结构化的方式存储在大数据存储系统04多媒体数据采集通过视频分析技术、图形分析技术将视频、图片文件内的要素信息提取出来,并以结构化数据存储到大数据存储系统3.2大数据采集工具(ETL采集工具)ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL负责将分散的、异构数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。Kettle开源工具纯java编写,绿色无需安装支持Window、Linux、Unix运行环境依赖JDK可视化图形界面InformaticaPowerCenter软件一次性购买,但技术支持按项目收费支持Window、Linux、Unix客户端与服务端分离可视化图形界面广泛支持各类结构化、非结构化的数据源3.3大数据采集工具(文件数据采集)零散文件(非结构化)快递、饮食店等员工名单截获黑客犯罪人员电脑资料小区住户、租户登记信息旧犯罪记录等文字卷宗文件筛选文件分类Excel文件Word文件文本文件PDF文件内容抓取人员和单位数据(结构化)审核入库大数据存储系统由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定制开发采集器,通过插件的方式扩展支持的文件类型。3.4大数据采集工具(实时流式数据采集)基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件的方式扩展接入类型。车载终端手持终端固定设备各个业务系统北斗GPSWIFIRFID基站网络智能终端04大数据存储与管理BigData4.1大数据存储方案大数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限于1种产品或技术。一般大数据存储是由多种数据存储方案或技术组合使用。12345存储方案高增长、海量关系型数据存储方案(Hbase)海量大个文件存储方案(HadoopHDFS)海量小文件存储方案(FastDFS)高速缓存方案(Redis)传统关系型数据存储方案(Oracle集群、MySQL集群)4.2传统关系型数据存储方案应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密的事物性数据技术选型:OracleRAC或MySQL集群特点:MPP架构、数据结构固定、数据量相对较小、安全性及稳定性较高MySQL集群4.3高增长、海量关系型数据存储方案应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等)技术选型:HBase集群特点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列-大量降低系统IO4.4海量大个文件存储方案应用场景:适合存储、访问、下载大个文件(通常是指百MB、GB、甚至GB大小的文件),如视频网站类应用。技术选型:HDFS分布式文件系统特点:运行于廉价的商用机器集群上、多副本、采用了切分存储的方式4.5海量小文件存储方案应用场景:对海量小文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百度文库、相册网站等应用场景技术选型:FastDFS分布式文件系统特点:不对文件进行切分存储、适合小文件存储、支持线性扩容05大数据计算与分析研判BigData5.1大数据计算大数据计算的核心思想是:分而治之,把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。离线计算静态数据的离线计算和处理,应用于非实时数据计算场景,如数据统计、模型分析。如:MapRequce、Hive实时计算应用在数据的计算实时性要求比较高的场景,能够实时的响应结果,一般在秒级。如:Storm、内存数据库的查询5.1大数据计算-海量数据检索张林搜索输入条件的智能化分析人名判定地名判定通过人名和地名进行搜索搜索场景的智能化选择搜索人员的角色为治安人员旅客娱乐场所涉毒人员嫖娼人员搜索结果张林,420921……信息自动关联结构化信息最终结果张林,420921……,常住人口,男,22岁,职业,地址地址判定。。。非结构化信息输入内容的智能化分析搜索场景的智能化选择搜索结果的智能化筛选信息的自动关联智能检索检索结果以“档案”形式展示5.2大数据离线计算文本分析和数据分类、聚类对人力情报信息通过文本分析工具进行处理,实现关键词提取,包括地名、敏感词语(如6.4事件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。同时基于关键词库,关联分析技术、聚类分析技术,实现热点情报、相似情报等宏观分析。文本分析工具文本分析是文本挖掘、信息检索的一项基本技术,是指对文本中表示其特征项的“关键词”自动识别与提取,可以实现word文档内情报信息的解析和标签属性创建。标签库建设热点情报分析相似情报分析5.3大数据分析研判-人员活动分析人员活动分析:根据关注人员动态管控的需求,基于系统内整合的外部信息(如:公安网实名制登记信息、出行记录信息)和内部信息(如:情报线索信息、重点人等信息),通过定制化分析模型工具,定义相关的分析模型,通过分析模型的计算和运行,支持研判的开展和应用,相关的分析模型包括但不限于如下:重点人流入预警重点人流出预警异常出行记录分析人员轨迹分析人员关系分析(社会关系、同行、同住、同乡)5.4大数据分析研判模型-案例1旅业数据人员入住登记信息“跳房”记录分析较短时间段内有多条开房记录年轻女性旅馆位置集中深夜凌晨入住入住时间短主要条件辅助条件涉黄可疑人员名单定时生成推送500万记录案件库有关涉黄人员准确率高达87.8%涉“黄”人员分析5.4大数据分析研判模型-案例2密切度分析张三李四籍贯相同------乘坐K1234列车从南宁至广州2014-08-16登记入住同一出租屋2015-02-04出境前往澳门2015-05-18密切度406大数据项目建设经验BigData6.1思考一从精确性到相似(相关)性起步阶段我们追求精确制导;单一查询不是大数据的主要应用;用大数据去揭示规律,反映客观事实;从大数据中发现隐含的知识。6.2思考二因材施用、用其所长、相辅相成关系型:结构化程度高,数据量不大等;分布式:结构化程度一般,巨量检索等;大内存:数据量适中,多变量求解等;不能忽视异构数据交换工作6.3思考三以业务需求为导向去设计与建设,回到用户需求,分析日常工作真正所需。技术是为业务服务的,技术选型和架构决策依赖业务规划,离开业务发展的支撑和驱动,技术走不远,甚至还会迷路!前沿技术总是出现在前沿业务领域。6.4思考四非结构化数据一直是单位业务运营的一部分,但既然现在我们已经有了更好的技术来探索,分析和这些非结构化的内容,进而帮助改善业务流程和工业务洞察,所以我们最终将其正式纳入我们的数据管理是非常重要的!图片、word、excel、ppt、pdf等文件数据谢谢观看2017.2.27
本文标题:大数据技术与经验分享
链接地址:https://www.777doc.com/doc-5475053 .html