您好,欢迎访问三七文档
目录1234航空业务背景分析思路数据质量提升解决方案数据采集解决方案随着产业互联网时代的到来,各行业开始认真思考大数据带来的商业价值。所有的企业都希望能提高信息系统的数据分析能力、获取隐含在数据中的额外商业价值。大数据已经在为企业提高运营质量、指导高层决策中发挥着重要贡献。目前航空公司的信息系统不断发展,使运行数据大量堆集,由于设计和管理不规范导致数据质量问题越来越突出。根据“garbagein,garbageout”的原理,错误的数据最终会误导决策,降低企业运营质量。因此数据质量的高低成为信息系统建设成败的关键因素,直接关系到信息系统的有效应用。亚信基于电信行业多年数据分析经验,指导航空公司在数据质量提升、数据采集等方向布局,提出基于数据稽核+清洗的常态化质量提升方案,以及通过亚马逊云计算和分布式爬虫的数据采集方案,以此为智慧航运奠定基础。大数据形势业务背景数据质量提升数据采集数据质量是信息变现的基石据IDC公司一份质量报告所述,全球范围内的98.7%的BI系统受数据质量所困不能充分发挥其价值,在这其中80%全球以上的系统正因数据质量问题二遭受投资者的质疑,如何对系统数据进行有效的质量管理,已成为IT界的一项世界性难题信息是企业重要的战略资源,使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘,谬以千里。数据质量问题分类模型重复时效管理完整•过期数据信息仓库目录1234业务背景分析思路数据质量提升解决方案数据采集解决方案数据质量的问题原因分解模型时效管理完整信息仓库重复人员业务流程培训应用系统缺陷修复新数据规范信息模型存量数据数据稽核清洗解决思路数据质量的提升是一项系统工程,任何一方面的缺失都会导致数据质量的降低,因此,数据质量提升应该综合考虑数据处理、业务应用和使用人员三大方面的因素目录3214数据质量提升解决方案分析思路业务背景数据采集解决方案稽核作业稽核作业稽核作业稽核作业数据清洗解决方案CRMEDW行业信息库客服系统电子商务more统计报告人工审核离线FTP稽查审核清洗审核ETL抽取规则配置流程配置清洗作业清洗作业清洗作业清洗作业数据源管理数据源管理知识总结实时消息机器学习目录1234业务背景分析思路数据质量提升解决方案数据采集解决方案数据采集解决方案走势预测机票报表价格监控业务层应用展现舆情分析消息总线MoreREST+WEBSERVICEMR+Hive+StormOTA航空公司国外网站分布式爬虫分布式爬虫分布式爬虫大数据中心亚太节点内部数据库欧洲节点北美节点RDBMS采集调度处理层采集站点采集层大数据之上,丰富的应用场景AWS部署方案动态Web服务EC2、AutoScalingRPC服务EC2、AutoScalingMySQL数据库RDS负载均衡服务ELBDNS服务Route53爬虫服务弹性存储S3弹性存储S3Region3(亚太)Region2(欧洲)Region1(北美)爬虫服务爬虫服务爬虫服务爬虫服务AWS内网传输Hadoop集群EMRAWS上设多个Regions,欧洲、北美作为采集节点,亚太Region作为采集和运算节点,并提供动态Web服务访问。Thankyou
本文标题:数据采集解决方案
链接地址:https://www.777doc.com/doc-5662059 .html