您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 12信息部-大数据释放大能量31
2大数据就在我们身边3老婆……各类八卦第六感异常举动信用卡通讯记录微博微信老公我来检查一下老公,嘿嘿!老婆,今天我要通宵加班!4老婆……各类八卦第六感异常举动信用卡通讯记录微博微信女人的大数据能力1.多样的信息收集2.丰富的历史记忆3.高效的演绎推理“哼,竟敢有想法,看回家怎么收拾你!”5什么是大数据?6“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。“——Gartner速度快(Velocity)种类多(Variety)体量大(Volume)价值密度低(Value)7速度快(Velocity)种类多(Variety)体量大(Volume)价值密度低(Value)多种数据收集手段:账单、微博、微信、图片、视频等信息。8速度快(Velocity)种类多(Variety)体量大(Volume)价值密度低(Value)结绳记事文字记录电子计算机互联网时代大数据时代印刷术人类文明到2003年,总计产生数据约5EB,2014年,全球每天大约产生5EB的数据,预计数据量每40个月就翻一倍。大数据时代,泛互联网每秒钟产生的数据量,比20年前整个互联网储存的数据还要多。约3000年前在龟甲或兽骨刻文字远古结绳记事公元618年隋朝出现雕版印刷1946年世界世界第一台计算埃尼亚克机诞生1969年底美国四所大学的四台主要计算机联机2010年物联网、车联网等海量数据生成设施相继发展数据量时间9速度快(Velocity)种类多(Variety)体量大(Volume)价值密度低(Value)更新速度快:1.淘宝每分钟新增9万交易2.百度日更新10TB链接处理速度快:1.淘宝日处理4PB数据2.百度日处理100PB数据10速度快(Velocity)种类多(Variety)体量大(Volume)价值密度低(Value)单条信息价值低,综合海量信息后,往往可直击要害。老公同事发状态最近工作好清闲,请假去旅游!陌生美眉发消息@老公“今天的烛光晚餐真浪漫”老婆拨打老公电话“老婆,我在加班,工作很多!”老公信用卡消费记录今晚多出一笔高档餐条消费行为不端概率99.3%11大数据为思维模式带来怎样的改变?12样本数据—全量数据因果关系—相关关系建立在相关性分析基础上的海量数据挖掘和预测是大数据的核心价值之一13大数据创新金融服务模式:阿里征信是否授信授信额度贷款利率授信时长是否提前收回商户资金流动数据商户财务数据财务健康程度商户交易数据用户浏览、收藏、评价海关、税务相关验证数据……在线信用测评综合信用等级商户交易历史数据……融资需求额度商户生产运营数据未来成长能力审批时间:3分钟VS1个月授信成本:2.3元VS数百元不良贷款率:0.84%VS1%阿里VS银行授信决策传统银行大数据时代阿里收集传统银行以外的海量多样的数据,在线分析企业信用,经营健康情况,成长前景,精准投放金融信贷产品。多渠道信息获取相关性分析截至2014年09月数据细分行业交易数据14风图谱风功率湍流影响运算能力更强150万亿次/秒网格密度更细网格密度增加100倍气象……地理空间风资源传感器数据电网交通地形地貌森林砍伐地图卫星图像潮汐相位……分析变量更多从178个至424个采集规模更大20PB联网条件施工条件……风机效能提高提升15%模拟风场布局,测算总体发电量和单机发电量风机位置风机型号风机高度叶片角度决策时间更短从3周缩短至15分钟~1小时大数据提升电力行业经营效率:Vestas风机选址维斯塔斯利用大数据处理更大范围和规模的基础数据,支持更复杂的模型计算,风机选址的精确性和决策效率得到巨大提升。注:20PB相当于72万张100分钟的蓝光电影15EnerNoc获取经济收益大数据创新电力业务模式:EnerNoc数据中间商电网企业优化负荷曲线用户减少能耗和成本EnerNoc利用电力大数据实现“三方共赢”的创新商业模式。16调度侧需求侧EnerNoc数据分析实时电价数据上网电量数据线损电量数据削峰填谷指令……设备能耗数据生产计划数据可控负载数据……外部数据气温、日照特殊事件……海量实时数据获取温度光照度电价敏感度实时负载限电损失需求响应用户信用参与额度湿度最低负载……可替代电量需求预测可控负载响应效益精细需求管理每秒完成超过80万条各类数据采集与实时处理,日处理数据超过1PB,超过3000个复杂并行计算模型大数据创新电力业务模式:EnerNoc数据中间商1750001000015000200002500030000350004000012:00am2:00am4:00am6:00am8:00am10:00am12:00pm2:00pm4:00pm6:00pm8:00pm10:00pm12:00amkW05010015020025030035040012:00am2:00am4:00am6:00am8:00am10:00am12:00pm2:00pm4:00pm6:00pm8:00pm10:00pm12:00amkW30kW来自于1/3的照明20kW来自于空调或空气净化器20kW来自于备用发电机夜间开制冰机制冰20kW来自于备用发电机——高峰期间用自备发电更经济PJM向EnerNoc发出削峰填谷指令,要求实现某区域准确削锋填谷EnerNoc依据指令,针对个用户即时计算精准需求引导方案某超市24小时需求响应PJM的需求响应指令精确落实到每个用户大数据创新电力业务模式:EnerNoc数据中间商18如何成为大数据时代的赢家?19数据、技术、思维是大数据价值链的三大构成要素,我们需要发挥优势,引进最新技术,培养大数据思维,发挥企业数据资产价值,成为大数据时代的赢家。数据掌控型公司技术掌控型公司思维掌控型公司20“两票”数据产生速度Velocity数据产生规模VolumePB级GB级TB级实时年度日月主/配网遥测、遥信数据智能表计数据故障录波数据结构化数据非结构化数据生产计划数据电网规划数据输变电设备遥视数据输变电设备状态监测数据缺陷记录设备故障记录电力市场交易数据现场照片资料客服电话录音PMU数据气象数据发电机组运行数据各类业务报表专题研究报告会议记录值班日志业务系统日志仓储库存记录用户账单/缴费记录调度电话录音用户信息员工人事信息会计数据公司现有电力大数据项目管理数据数据产生类型Variety公司拥有庞大的数据资产,数据类型众多,总容量超过4PB。这些数据的价值仍需进一步挖掘和应用。我们是具备数据掌控型基因的公司拥有庞大的数据资产注:4PB能为南方五省全部人口每人存储一张高清图片(每张20MB)21努力成为数据掌控型公司经营管理类数据业务价值高,已在数据中心进行集中管理和应用建设外部数据经营管理类数据生产运行类数据南方电网数据中心实现营销、资产、财务、人资等核心业务数据(共计350亿条,约合38TB核心业务数据)集中存储,并建设完成110个主题分析应用。营销财务资产人资22努力成为数据掌控型公司生产运行管类数据暂未接入数据中心,未来将在数据中心集中管理和应用外部数据经营管理类数据生产运行类数据数据资产量大生成速度快利用率低监控设备约1.1亿计量自动化系统采集频率为15分钟可用于分析的数据高达90%数据量高达4PBSCADA/EMS系统数据采集频率为5秒已用于分析的数据仅占8%数据来源:南方电网生产运行类数据管理及应用测算23努力成为数据掌控型公司外部数据暂未接入数据中心,未来将在数据中心集中管理和应用外部数据经营管理类数据生产运行类数据外部数据对分析公司的内外部经营环境至关重要。未来数据中心将接入包括宏观经济数据、气象数据、舆情数据等,为决策支持和运营管控提供更广泛的数据支持。24大数据分析和应用技术大数据分析和应用技术大数据可视化技术大数据采集技术大数据存储与计算技术大数据可视化技术努力成为技术掌控型公司将开展技术自主创新,支撑未来各类数据管理及应用需求大数据采集技术大数据存储与计算技术资产财务人资综合财务营销协同经营管理系统AGCSAEDCSCADA生产运行系统其他外部数据气象数据舆情数据经济数据其他其他分布式并行计算与存储架构传统数据集市分布式文件存储(HDFS)分布式关系数据库(Redis)分布式计算与数据挖掘(MR、Spark、Hive、Mahout)结构化数据源采集技术半结构化数据源采集技术非结构化数据源采集技术非实时采集技术准实时采集技术实时采集技术关系型数据仓库DMDMDMDM并行敏捷数据集市(实时)DMDMDMDM大数据传统采集ODS列式数据库(Hbase、MongoDB)信息展示监控大屏触控一体机PC移动设备DMDM数据应用决策支持运营监控25对大数据技术进行研究和实践掌握核心技术,摸清核心技术应用价值公司在大数据前沿技术方面进行了初步探索和尝试,并在数据中心基础上进行实验性平台验证。硬件成本降低50%:完成数据中心架构升级设计,经技术验证,使用X86服务器集群代替小型机,降低硬件成本50%。性能提高300倍:采用大数据存储和计算技术,实时统计全佛山10kv馈线线损,原10分钟计算任务缩短至2秒以内。分布式流式处理架构消息队列流式计算和处理配置/监控工作节点…调度工作节点1工作节点2工作节点3工作节点4存储服务RedisHBaseMongoZookeeper实时数据采集26对配网物资实现自动化预测,涉及物资金额超过18亿,配网预测准确率由84.7%上升至92.3%,物资需求预测处理周期由过去数周缩短至数分钟。对大数据应用进行探索资源配置——物资需求预测提升预测精度和效率地市级供电局区县级供电局公司分子公司需求填报需求审核需求汇总需求部门项目部门物资部门需求需求计划需求计划手工处理花费数周物资低压电线架空绝缘导线…预测数量260…预测金额8592410……………………词法分析句法分析语义主题分析非结构化数据分析量化属性离散化物资用量标准化主成分分析结构化数据分析避免人工干预的自动化预测400万领料记录5337项物资40万项目描述结构化/非结构化数据神经网络极限学习机27针对2800万客户进行细分管理,识别14万高风险的客户并进行差异化管理,2014年上半年,客户平均停电时间同比减少1.3小时,本年累计电费回收率同比提高0.01%对大数据应用进行探索客户洞察——准确刻画客户特征,提供差异化服务,防范电费回收风险合同账户客户综合类型营销系统数据实收信息应收信息欠费信息用电负荷用电量计量自动化数据经济指标(GDP等)行业趋势外部数据财务状况数据采集非居民客户电费回收风险细分模型电费回收风险细分结果选取关键字段识别与电费回收相关的字段数据加工处理二次计算、数据合并及异常值处理逻辑回归建模计算回归函数系数和客户的风险概率客户细分验证和优化模型,并对客户进行细分1.2.3.4.潜在低回收风险群95.0%潜在中间回收风险群3.95%潜在高回收风险群1.89%模型计算与分析管理提升通过综合筛选、查找高风险的客户,提前进行温馨提醒、催缴,防范电费回收的风险通过对停电管理优化,减少平均停电时间,提升用户体验28努力成为思维掌控型公司借助大数据推动业务创新,实现由电力提供商向服务提供商转变用电企业基本信息企业用电详细信息企业大数据资产居民用电信息设备/电器能耗信息实时电价信息实时负荷情况欠费信息基于大数据的产品及服务高能耗企业居民用户大数据分析挖掘企业节能优化服务家庭节能助手家电能耗信息、家电寿命信息电器厂商/销售商客户政府/银行/社会地区/行业/企业电力指数气候信息地区/行业用电情况分析同行业能耗领先企业分析同行业能耗典型水平分析企业能耗薄弱环节分析错峰用电推荐家电品牌能耗分析家电寿命分析居民每日能耗曲线实时电价信息未来3日用电模式推荐宏观经济数据内部数据外部数据2948%50%52%58%73%73%77%77%77%81%85%92%96%分布式电源监控表计安装窃电监测差异化客户服务用户运行需求响应智能表计网架优化通信网络运行控制无功电压控制智能停电管理资产绩效综合最优电网经济运行生产运行经营管理提高供
本文标题:12信息部-大数据释放大能量31
链接地址:https://www.777doc.com/doc-24016 .html