您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 大数据厂商联盟--为您的客户在30天内部署大数据应用
怎样在三十天内为您的客户部署大数据应用总体规划分步实施一、怎样快速部署大数据分析系统1、怎样部署web数据的抽取监控2、非结构化动态数据的抽取整合和联网数据3、怎样部署适合您的融合三类数据的数据库4、怎样部署高速政务情报与舆情分析展现二、方案与产品的行业机会三、联盟能帮助您什么?合作模式(推广—交流方案—实施—服务)联盟能帮助您什么?(厂商+CIO+渠道方案=推广)数据的相关性-------因果关系实时动态预警跟踪防范、社会治理成本将会低70%罗湖宝安中山珠海数据的混杂性-----精准性抵御犯罪,保卫和平《少年派报告》“预警人”2、现在:装配一个数采设备,通过网络连接到中央处理中心牛产的奶中收集数据。每一个乳头里挤出的奶都需要查验颜色、脂肪、蛋白质含量、温度、传导率(用于判断是否存在感染的指标)每头牛身上收集数据汇总,检测结果直接发给奶农的手机上,以判断分析牛奶质量;预测发情、疾病总体数据-----样本数据不再担心喝的是三聚氢胺了模式的改变:1、传统:奶农送样板检测动态的车位收费价格被逼迫的大数据决策定性分析—定量分析(经验决策—数据决策)(世界是由数据组成的,你我都在被大数据化)大数据改变着人们的生活工作和思维方式老公呀!市中心停车好贵哟,我下午去吧?我赶时间,我不得不走快车收费道!1、HOV(高使用率车辆)专用车道,鼓励拼车,只允许乘坐人数为3人或3人以上的车子行驶,否则将被处以100美元以上罚款2、按市场规则,停车场高额收费8.99-20美元,路边收费便宜1美元1小时,咪表限定15分钟-2个小时,不得不来回投硬币3、开始征收8美元,不征收拥堵费:1、造成对非市中心居民不公平,2、只改善5%,3,居民已经缴纳了道路城建费4、抗拥塞项目:收费快速通道,动态定价政府通过大数据引导驾驶人员在该通道上行驶,保证交通畅通车道用于高占用率的车辆紐約市政府還設立了HOV(高使用率車輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為3人或3人以上的車子行駛。車內乘客不到3人且使用這一專用車道行駛的車輛將被處以100美元以上的罰款。紐約市政府還設立了HOV(高使用率車輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為3人或3人以上的車子行駛。車內乘客不到3人且使用這一專用車道行駛的車輛將被處以100美元以上的罰款。紐約市政市場規則限制私家車动态高占用率通道数据公开、信息对称、数据决策人类社会从“全景监狱”到“共景监狱”社会的变革都是因为资源拥有的不对称----而对资源的争夺(煤炭---石油---黄金---数据—信息)现在是收集情报数据的黄金时代因为所有人都在自觉自愿地表达他们是谁现在是收集情报数据的黄金时代因为所有人都在自觉自愿地表达他们是谁数据的实时动态交互和互动性依据数据决策、分析的核心是预测上帝从此不用掷骰子“人类行为的93%是可以预测的”静态历史交易数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP实时动态数据、感应器、机器监控、摄像头、交易、位置通信通话、短信、交通实时动态数据WEB数据三类数据的融合和互动第一步:重建新式数据库:2008年奥巴马的团队抛弃了众多分散的孤岛式数据库第二步:增加了大量来自Web追踪和社交媒体网站的新数据第三步:整合各类实时动态数据和WEB数据第四步:建立数据分类分析1、募捐大数据分析2、演讲拉选票大数据分析当“大数据”遇到“小数据”,大数据每次都会赢。大数据加上大量的资金呢?这将是无敌的奥巴马竞选获胜的核心:数据驱动--的竞选决策“核武器”(Theyareournuclearcodes)数据决策的障碍:数据公开、信息对称总体规划分步实施(怎样部署政务情报与舆情分析系统)1、怎样部署web数据的抽取监控2、非结构化动态数据的抽取整合和联网数据3、怎样部署适合您的融合三类数据的数据库4、怎样部署高速政务情报与舆情分析展现NOSQL大数据非结构化数据======Hadoop怎样把静态历史交易数据与WEB数据融合WEB数据WEB数据、微博微信、电子邮件Cookies、点击行为、情感情绪发帖投诉、动态的IP转化为结构化数据与政府企业相关的网站微博媒体舆情评论投诉申诉其他历史静态交易状态数据地理气象、环保卫生、交通通信社会数据、国家数据、商业数据提供分析服务(云服务)分类文件分类报道分类情报分类推送报表OLAPAdhoc分析Dashboard预警监控融合交互互动怎样解决WEB数据抽取监控发布的问题监控与自己相关的网上信息把网上数据转化成自己的数据库Web数据抽取监控神器(Connotate+Paraccel+Datameer)16方式一17方式二•HTMLTAG、BTE算法、、、、、1819方式三WebAgent(数据抽取的工具)可自动自主的运行根据您的要求输出结构化数据集(通常是CSV格式或则是XML格式)WEB数据抽取的工作流程•WebAgent可自动自主的运行。•根据您的要求输出结构化数据集(通常是CSV格式或则是XML格式-DB)2122实施和运行23效果传统数据抽取方式(人工方式or爬虫软件)Web数据自动抽取神器:Connotate监测范围100个网站500,000时效间隔一天6mins信息有效率35%90%辅助研判人工研判通过机器学习后的agent自动化进行工作时间2-8h7*24工作方式网站访问→人工筛选→报告机器学习→研判结果→报告为什么要用WEB抽取工具WEB抽取与其他方式的比较CoreProductFeaturesOn-PremiseHostedWeb-Harvest开源爬虫(WebSpider)侦查监控网站的变化用亮色突出变化部分过滤精准的作业安排常态化智能导航、机器学习深度挖掘、全文搜索通过下拉菜单和搜索框进行输入、查询和登录工作流模版数据库agents(SQL/MYSQL/ORACLE)抽取PDF内容Web服务应用程序界面点击型图形用户见面全天候运作模块增加PartnersPartners26采用自动化web数据抽取监控软件:该政府部门的IT团队采用了新技术,其中包括Connotate用于精准的Web数据抽取,在八周的时间里,Connotate监控了1000多个网站并根据需求每天地为该部门抽取数据Connotate为该部门推送符合其格式要求的数据,并传送到预设好的网站上该部门还把Connotate抽取的数据导入数据仓库,用其他应用程序进行分析某政府监控1000多个网站,进行政府管理的大数据决策手工下载:政府部门开展公共资源数据抽取,在选择自动化抽取之前,组织部门内部大量的研究调查人员,从成千上网个公共资源网站上手动的下载公共数据,并手动地进行统计,然后为短期计划和长期计划做准备。但是,这种方法不能保证数据的准确度、速度和时效性。爬虫软件搜索:接着,该政府部门的IT团队选择了Web爬虫软件进行数据抽取,但是随着项目的不断进行,Web爬虫的维护费用也不断增加,而且不稳定,经常会由于Web数据源的改变而瘫痪政府公共事业智慧城市方面的应用政务WEB数据抽取监控发布分析举例一、日常管理决策中遇到的问题:a、传统方式收集信息情报信息内容少、内容陈旧,更新不及时,更多的是已经发生的事件数据和信息。对于现在正在发生和即将发生的事件无法获取数据信息。b、效率低,信息需要时间长,导致信息滞后,对战略决策毫无意义。c、提取的信息精准度不高,手工的方式往往会出错却难以发现。e、人工成本太高,如需要聘请专业的技术人员去编纂历史数据并进行季度报表。f、后期维护费用太高g、对接其他数据仓库时出现无法兼容的情况二、实现有关政府部门相关信息的全网监测,重点监测:新闻、门户、论坛、微博(新浪、腾讯)、提及过政府的微博大账号监测内容涵盖政府官方新闻、媒体自发报道、政府其他新闻。a、解决及时预警如:网站,论坛、微博等迅速扩大的关于政府信息第一时间反馈,实现重大负面系统自动预警。b、实现海量数据清晰分类,按照不同条件或多维度要求整理归类。可按照舆情的性质,及重要程度等进行分类。如:政府的重大新闻传播,政府重大负面扩散、论坛、微博相关诉求等。c、针对突发事件,负面事件。对政府造成影响重大的负面事件,需要专业技术舆情分析师给予建议,为其分析整个事件起因,传播度,媒体关注度,影响力,后期危机公关效果评估,提供针对“事件性”深度分析报告。d、解决区辖范围重点企业相关信息监测,投资环境、人文环境、治安环境等信息监测;信息传播的速度和广度,成就了“意见领袖”巨大的舆论能量。及时发现、收集、监控和分析舆情信息,调整管理,从“维稳”到“促和”成为政府部门新的课题。三、监控范围:a、网络媒体:各新闻网站、门户网站、搜索引擎、论坛、SNS、地方性站点等。b、微博(新浪、腾讯)c、海外媒体d、各种少数民族的文字信息四、监控要求:一、全面性a、所有监控范围都要监控到,不留死角。b、在系统交付运行后,系统需要7*24小时不间断的进行监控,不遗漏任何一个时间点。c、语言不受限制二、及时性对于监控的及时性要求非常高,一般要求从舆情信息发现起,不超过2小时。影响重大的舆情信息要求更高,从舆情信息出现起到系统预警处理完毕,中间需要经过及时发现、分析确认、上报、预警通知等许多过程,需要能够尽早发现、及时发现,高效准确的分析判断处理三、准确性需要系统能够提供尽可能准确地定位和判断,能够提供准确的舆情信息源、源地址、信息内容、事件发生时间、事件证据等。四、潜在负面舆情媒介和舆情发送人群收集在系统交付前和运行期间,系统能够不断自动收集潜在的负面发生媒介和发送人群,作为后续的重点监控源。五、去重同一负面舆情信息只需要监控和报告一次,避免重复报告,过滤广告。人人拿着麦克风,人人都可被关注,随时随地可发布社会围观结构是众人对个体展开的凝视和控制人们在“交头接耳”中沟通着彼此的信息六、分类对监控的结果分类a、舆情信息来源:网站、微博、博客、SNS、论坛b、舆情产生类型:机构、名人、普通个人等c、影响程度:包括转载数、评论数、网站影响力等综合指数评定。七、实时预警对于影响重大的负面舆情信息等,一旦发现,系统需要立即发出预警,以便监控人员能够及时采取措施。八、定时报告系统按照指定的时间报告最新监控结果,上报内容包括:媒介、地址、内容、发生时间、原始信息等九、监控结果分析系统可以随时对监控结果进行各种统计分析和总结报告,以为后续的监控提供指导。a、传播媒体分析b、传播趋势分析c、传播路径分析d、传播影响力分析e、传播人群分析十、数据格式转换系统收集的数据往往是非结构化数据,如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等,而要把这些数据转换为结构化数据加以分析是非常关键的。十一、兼容性a、支持把SOAP与RESTWebServicesAPIs集成到工作流中,也可以快速创建任何兼容开放数据库连接(ODBC)的数据库,包括SQL服务器、MySQL、Oracle等。b、当网站格式发生变化时,很多传统的爬虫软件都会罢工!因此需要一种适用性更好的数据挖掘工具。十二、成本a、人工成本,配备专业的技术人员进行编写代码的成本要低。b、物理成本,不需要高昂的硬件设备支持,订阅新闻信息服务和后期维护成本。(3)一、为政府节省资源,舆情信息采集效率提高独有的技术可以有效的利用海量数据,从中挖掘出对企业增长有价值的信息,并可以进行高度可扩展性的数据监控和数据收集。二、及时监测政府部门相关舆情信息通过Connotate的自动化Web数据抽取工具,自动化抽取数据和监控数据,实现对政府相关领导和相关部门对目标数据的精准抽取。全面监测,及时发现问题,做出应对措施。三、准确正负面判断呈现政府关注的负面舆情信息政府可以第一时间了解到最新舆情信息。四、政府相关行业信息监测对Connotate抽取的信息进行舆情趋势分析,及时掌握本区最新及热点信息。五、舆情传播路径、趋势分析对抽取的信息进行媒介分析、关键字分析、传播度分析及舆情信息传播趋势分析,预判所
本文标题:大数据厂商联盟--为您的客户在30天内部署大数据应用
链接地址:https://www.777doc.com/doc-1530812 .html