您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 开源力量公开课第二十六期-大数据的实时分析与应用案例
开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课来自麦肯锡的报告,未来的10年里,数据和内容将增长44倍,并且这些数据有无法估量的价值;出现很多以数据为资产的行业,数据本身和数据相关的分析能力决定了整个公司的核心竞争力。比如互联网广告,金融机构,大数据实时分析工具对他们而言,就等同于竞争武器,快或慢一秒钟,往往就意味着财富的得与失;关于各种数据的创新想法层出不穷,Google,关联关系等;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课MoreFindings(更多的发现),比如说,一家快消公司现在不仅可以获得具体销售数据来判断产品的走势,而且可以抓取网页来进行舆情方面的分析,来帮助他们进行决策,比如,一个男性护肤品公司在通过分析网页,从而产生的舆情信息来判断在亚洲杯投广告比在世界杯投广告更合适。DeepInsights(更深入的挖掘),比如说,另一家快消公司,现在不仅能获知那些人是他们的顾客,而且能获取更多关于这些顾客的信息,比如,年龄,性别,工资和所在地等,从而能对客户进行画像,从而能发展更多同类型的客户或者其他相关类似的客户;PricelessResults(无价的结果),我们有一个客户,他们是做车联网,他们有几十万台终端,这些终端每隔一段时间会发具体位置的消息给后端的数据集群,之后这些集群会分析一下这些海量的位置信息,最终分析出那些路段在什么时候比较堵,之后将这些非常有价值信息推送给客户,帮助用户减少在路上的受消耗的时间,假如北京所有司机都能使用这种服务,我觉得天下第一堵将不再是帝都的专利;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课:从两周到一天大例如智能电网:一个业务系统每天20亿条记录快阿里巴巴:从商品销售到保险信贷转型大快社交网络电商实时数据挖掘,广告跟踪部署简单服务质量提升终端数量激增竞争格局改变数据分析决定竞争力开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课第一个阶段:自身业务需求产生大量数据,利用这些数据,通过深入证析,优化相关业务;第二个阶段:搜集与目标业务直接或间接关联的大量异质数据,建立复杂的分析和预测模型,产生针对目标业务的输出;第三个阶段:随着整体数据相关的法律不断补充,以及技术不断成熟,形成一个完善的数据生态,包括数据市场,数据运营商和数据商店等。开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课第一个阶段:先将大量数据先存下来,并做初步和简单的处理和分析;第二个阶段:对大数据,实时处理和分析的趋势非常明显,用户越快越好,越实时越好;第三个阶段:用户会有更多全面数据分析需求,包括SQL、挖掘算法,以及以DeepLearning为代表机器学习技术。开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课?就是在几秒或者一秒内完成对亿万级数据的处理和分析;快:10秒以内,100毫秒为佳;大:数据应该是10亿/TB以上级别;分析操作多样:可以是简单的查询,也可以是逻辑复杂的算法和数据分析;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课实时决策能力;提高业务效率;快速智能发现新观点和商业机会;提供业务产出;提升IT效率;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课高频交易量化交易互联网与电商用户行为分析商品模型分析信用分析电信业务支撑系统统一营帐商业智能能源电厂电网监控用电信息采集分析其他行业智慧城市物联网大数据资产开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课大数据秒级,甚至毫秒级的处理;上千人的并发访问;支持SQL标准,特别是OLAP相关的语句;数据的安全和集群的稳定型;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课Hadoop系列:Hive,Impala;NoSQL类别:MongoDB,HBase;传统关系型数据库:Oracle,DB2,MySQL;传统列式数据库:Infobright,SybaseIQ;新一代基于内存计算的数据库?开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课????开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课YunTable是在从分布式MPP数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代用于大数据实时分析的分布式数据库,并且支持内存计算,比较接近SAPHANA,也可以认为是新一代的数据仓库;YunTable开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课大数据,秒级内存计算;采用廉价的x86硬件;自动线性动态扩展至数百台集群;每秒GB级别吞吐量,PB级别存储量;SQL92特性覆盖,并提供多平台的SQL驱动,还支持R;开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课:数据复制分布存储在不同的节点上并行处理内存本地化:把大数据量和计算量分散到不同处理器高可用性:任何节点宕机将不影响数据完整和业务连续性核心技术(一):并行处理数据源C1C2C3C4C1‘压缩C2‘压缩C3‘压缩C4‘压缩C1‘复制C2‘复制C3‘复制C4‘复制节点1节点2节点3开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课行分区保留数据关联列式数据组织高效的数据压缩快速的数据聚合独特的索引结构赵25男钱25男孙24男李30男周31女赵钱孙李周2525243031男男男男女内存地址行式的数据组织列式的数据组织赵25男钱25男孙24男李30男周31女数据源原始结构映射到内存核心技术(二):行列混合存储开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课(三):高效压缩多种无损压缩算法;加上前面的列式数据组织,整体压缩率高达7~20倍以上开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课(四):内存计算硬件性能的提升64位地址空间—单台服务器内存容量可达2TB100GB/秒数据吞吐量价格迅速下降,性能迅速提升多核架构(每块CPU8Core)X86服务器成本较低可采用多服务器或多刀片大规模并行扩展行列混合存储极高的压缩效率YunTable的软件技术创新数据分片高效索引增量插入硬件性能提升结合YunTable软件技术创新,使原来通过大量磁盘读写处理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析结果!开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课,使的数据规模小很多,大都会在内存中。开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课:互联网主要业务应用:电商交易分析,社交网络,位置信息服务,广告交易、跟踪分析等典型用户:互联网广告投放效果实时监测场景:广告投放效果实时分析数据规模:100亿条记录投放网站投放平台监测平台广告源,投放代码购买广告位嵌入代码Python(Cookie)logcsvYunTable分析引擎,模型和算法统计报表广告业主开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课(秒)频次分析9.492重合度分析16.625多维度分析11.408具体的性能测试结果测试环境:YunTable3台4核64G内存Dell服务器数据场景:2.3亿条互联网用户访问记录数据开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课:物联网与智能电网主要业务应用:海量数据终端信息采集与用户行为分析典型应用场景:智能电网用电信息采集(子系统)InternetInternet数据采集服务器集群传感网络YunTable实时分析数据库实时数据RTDBETL工具SQL(ODBC/JDBC)SG168ERP计费系统采集业务无线采集器数据集中器开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课,我们团队参与了国家电网海盐大数据实验基地的建设,并且建设过程中,我们在性能方面与Oracle数据库进行了正面的PK。在本次PK中,我们无论在导入和分析等性能方面,都远胜Oracle。开源力量|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起向最牛的IT技术专家们学习!开源力量公开课|每周二线上线下同时开课|让我们一起
本文标题:开源力量公开课第二十六期-大数据的实时分析与应用案例
链接地址:https://www.777doc.com/doc-29289 .html