您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代亟需强化数据清洗环节的规范和标准
日期:2015-10-10文章来源:国研网文章录入:李金金[关闭]海量数据的不断剧增形成大数据时代的显著特征。而大数据的生产和交易的重要前提之一是数据的清洗。目前,我国已经形成了基本的数据清洗产业格局,但因各自利益的追求,导致仍存在不少问题。因此,我国未来应重点强化数据清洗环节的规范和标准,推动大数据产业的健康发展。海量数据不断剧增是未来的发展趋势在席卷全球的信息化浪潮中,互联网、移动互联网、云计算、物联网等技术迅猛发展、加速创新,其中积淀的数据爆炸式增长,成为重要的生产要素和社会财富,堪称信息时代的矿产和石油。据预测,中国2015年可能突破10EB数据保有量,且每两年会翻一番。针对这种史无前例的数据洪流,如何挖掘信息时代的“数字石油”,将大数据转换为大智慧、大市场和大生态,是我们这个时代的历史机遇。2015年6月24日,国务院常务会议通过的《互联网+”行动指南意见》明确提出,要加强新一代信息基础设施建设和云计算、大数据的应用。此外,根据中国信息通信研究院(原工信部电信研究院)6月21日发布的《中国大数据发展调查报告》,2014年我国大数据市场规模达到84亿元人民币,预计2015年将达到115.9亿元人民币,增速为38%。大数据交易显现出对数据清洗的迫切需求大数据已经渗透到各个行业和业务职能领域,成为重要的生产因素。数据的来源主要有政府数据、行业数据、企业数据和从数据交易所交换的数据。在数据交易方面,2014年2月20日,国内首个面向数据交易的产业组织——中关村大数据交易产业联盟成立。同时成立的中关村数海大数据交易平台是国内首个重点面向大数据的数据交易服务平台,目前有1203家数据提供商。2015年4月14日,全国首家以大数据命名的交易所,即贵阳大数据交易所正式挂牌成立,并在当日成功完成了首笔数据交易。值得注意的是,贵阳大数据交易所交易的并不是底层数据,而是基于底层数据,通过数据的清洗、分析、建模、可视化出来的结果。而采取这一过程的目的,就是为了解决数据交易和使用过程中保护隐私及数据所有权的问题。以传统方式构建的基本架构对数据进行清洗大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而,由于网民数量的增加、业务应用的多样化和社交网络的繁荣,单个文件(比如日志文件、音视频文件等)变得越来越大,硬盘的读取速度和文件的存储成本越来越显得捉襟见肘。与此同时,政府、银行和保险公司等内部存在海量的非结构化、不规则的数据;而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。因此,目前的数据清洗主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。其总体架构如图1所示。图1大数据清洗总体架构具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用sqoop等工具,先将关系型数据库(mysql、postgresql等)的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。对不同质量的原数据进行分类以适应清洗工作数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,分清和掌握数据的质量至关重要。常见的数据质量问题可以根据数据源的多少和所属层次(定义Scheme层和实例sample层)分为四类。第一类,单数据源定义层:违背字段约束条件(比如日期出现1月0日)、字段属性依赖冲突(比如两条记录描述同一个人的某一个属性,但数值不一致)、违反唯一性(同一个主键ID出现了多次)。第二类,单数据源实例层:单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等。第三类,多数据源的定义层:同一个实体的不同称呼(比如冰心和谢婉莹,用笔名还是用真名)、同一种属性的不同定义(比如字段长度定义不一致、字段类型不一致等)。第四类,多数据源的实例层:数据的维度、粒度不一致(比如有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计)、数据重复、拼写错误。除此之外,还有在数据处理过程中产生的“二次数据”,其中也会有噪声、重复或错误的情况。数据的调整和清洗也会涉及到格式、测量单位和数据标准化与归一化的相关事情,以致对实验结果产生比较大的影响。通常这类问题可以归结为不确定性。不确定性有两方面内涵,包括各数据点自身存在的不确定性,以及数据点属性值的不确定性。前者可用概率描述,后者有多重描述方式,如描述属性值的概率密度函数,以方差为代表的统计值等。对不同质量类型的数据采用不同的清洗方法针对以上数据质量中普遍存在的空缺值、噪音值和不一致数据的情况,可以采用人工检测、统计学方法、聚类、分类、基于距离的方法、关联规则等方法来实现数据清洗。以往的人工检测方法不但要花费大量的人力、物力和时间,也会在数据清洗过程中产生很多衍生错误。最近,可视化作为一种有效的展示手段和交互手段,可以用来提高数据错误识别和清理的效率,如图2所示。图2可视化方法直接影响数据质量的探究图2中,a为社交网络图,无法显示任何数据异常;b为关联矩阵图,可以显示源数据的内部结构,但不利于寻找错误;c将源数据按照矩阵视图重排,比较容易发现矩阵右下角的数据缺失。其他方法的优劣对比如表1所示。表1数据清洗方法的对比方法主要思想优点缺点统计学方法将属性当做随机变量,通过置信区间来判断值的正误。可以随机选取。参数模型复杂时需要多次迭代。基于聚类的方法根据数据相似度将数据分组,发现不能归并到分组的孤立点。对多种类型的数据有效,具有普适性。有效性高度依赖于使用的聚类方法,对于大型数据集开销较大。基于距离的方法使用距离度量来量化数据对象之间的相似性。比较简单易算。如果距离都较近或平均分布,无法区分。基于分类的方法训练一个可以区分正常数据和异常数据的分类模型。结合了数据的偏好性。得到的分类器可能过拟合。基于关联规则的方法定义数据之间的关联规则,不符合规则的数据被认为是异常数据。可以发现数据值的关联性。强规则不一定是正确的规则。根据缺陷数据类型分类,可以将数据清洗分为异常记录检测和重复记录检测两个核心问题。异常记录检测。包括解决空值、错误值和不一致数据的方法。对于空值的处理,一般采用估算方法,例如采用均值、众数、最大值、最小值、中位数填充。但估值方法会引入误差,如果空值较多,会使结果偏离较大。对于错误值的处理,通常采用统计方法来处理,例如偏差分析、回归方程、正态分布等,也可以通过简单规则库检查数值范围或基于属性的约束关系来识别错误。对于不一致数据的处理,主要体现为数据不满足完整性约束。可以通过分析数据字典、元数据等,还可梳理数据之间的关系,并进行修正。不一致数据往往是因为缺乏一套数据标准而产生的,也与有关部门不贯彻落实相关标准有一定关系。重复数据的检测。其算法可以细分为基于字段匹配的算法、递归的字段匹配算法、SmithWaterman算法、基于编辑距离的字段匹配算法和改进余弦相似度函数。这些细分算法的对比如表2所示。表2重复数据的检测算法对比算法优点缺点基本的字段匹配算法直接的按位比较。不能处理子字段排序的情况。递归的字段匹配算法可以处理子串顺序颠倒及缩写的匹配情况。时间复杂度高,与具体领域关系密切,效率较低。Smith-Waterman算法性能好:不依赖领域知识,允许不匹配字符的缺失,可以识别字符串缩写的情况。不能处理子串顺序颠倒的情形。基于编辑距离的字段匹配算法可以捕获拼写错误、短单词的插入和删除错误。对单词的位置交换、长单词的插入和删除错误,匹配效果差。Cosine相似度函数可以解决经常性使用单词插入和删除导致的字符串匹配问题。不能识别拼写错误。通过内容限制和方法改进应对数据清洗面临的挑战随着信息量的飞速增长和智慧工具的不断涌现,无关、重复、错误,甚至拟人的信息也将随之增长,给大数据的清洗带来极大的挑战。例如,由于人工智能技术,尤其是深度学习技术的迅速发展,机器人发帖、聊天、发微博、抢票等现象司空见惯,如微软“小冰”和聊天机器人“wbot”在微博上频繁互动等。目前,判断社交对象是否是人类已经成为图灵测试的范畴。而如何区分数据是否是人类产生的,如何将机器人产生的数据清洗出去,将对用户轨迹跟踪、网络舆情分析、生成用户画像等方面产生重大影响。针对以上问题,目前可以从两个方面对数据进行处理。第一,限制内容产生。例如,可通过微博的实名制、论坛签到制、发帖验证码、网络爬虫的Robots协议等来完成。然而,随着模式识别技术的快速发展,普通的验证码已经难以屏蔽机器人自动识别验证码并进行填写的情况。因此,验证码也朝着日趋复杂的方向发展。例如12306使用一组近似图片,需要用户选出多个正确答案才能进行购票。第二,改进数据清洗方法。依托行业规则和技术特征对机器人产生的数据进行清洗。例如,基于主流搜索引擎会在用户代理中留下其特定关键字、网络爬虫一般会用HEAD发起请求等特征,可通过识别相应关键字、只保留GET请求等方法,过滤掉机器人产生的数据。此外,也可以根据用户发帖时间、频率、IP地址等进行数据建模,利用机器学习和数据挖掘的方法过滤掉机器人产生的内容。我国数据清洗已形成基本产业格局在大数据时代,数据正在成为一种生产资料,成为一种稀有资产和新兴产业。大数据产业已提升到国家战略的高度,随着创新驱动发展战略的实施,逐步带动产业链上下游,形成万众创新的大数据产业生态环境。数据清洗属于大数据产业链中关键的一环,可以从文本、语音、视频和地理信息对数据清洗产业进行细分。文本清洗领域。主要基于自然语言处理技术,通过分词、语料标注、字典构建等技术,从结构化、非结构化数据中提取有效信息,提高数据加工的效率。除去国内传统的搜索引擎公司,例如百度、搜狗、360等,该领域代表公司有:拓尔思、中科点击、任子行、海量等。语音数据加工领域。主要是基于语音信号的特征提取,利用隐马尔可夫模型等算法进行模式匹配,对音频进行加工处理。该领域国内的代表公司有:科大讯飞、中科信利、云知声、捷通华声等。视频图像处理领域。主要是基于图像获取、边缘识别、图像分割、特征提取等环节,实现人脸识别、车牌标注、医学分析等实际应用。该领域国内的代表公司有:Face++、五谷图像、亮风台等。地理信息处理领域。主要是基于栅格图像和矢量图像,对地理信息数据进行加工,实现可视化展现、区域识别、地点标注等应用。该领域国内的代表公司有:高德、四维图新、天下图等。强化数据清洗环节的规范和标准推动产业发展据统计,数据清洗在大数据开发过程占用的时间比例高达60%以上。加快数据的标准化建设,减少数据清洗过程中的成本开销,已经成为我国大数据产业必须跨越的一道障碍。第一,加快跨行业的数据标准统筹制定。行业的垂直建设,形成了多个行业之间、甚至一个行业的多个部门之间条块分割的数据资源。海量数据以各种形式分散于各行业、各部门,存在同类数据反复采集、数据标准和统计口径不统一等问题,给大数据开发带来了极大的挑战。因此,目前亟需制定跨行业的数据标准,规范数据的采集、录入、传输、处理等过程,加快海量数据的融合创新。第二,贯彻数据方面的国家和行业标准。在一些行业,已经建立了数据录入、统计等国家和行业标准,对数据字典进行了规范。然而,很多企业为了维护自己的市场额度,开发自定义的程序应用和数据传输接口,在后期系统维护费用高企的同时,也给数据清洗带来了额外的负担。对此,有关管理部门应加强数据方面国标和行标的落实力度。第三,切实保证数据清洗过程中的数据安全。2015年6月,
本文标题:大数据时代亟需强化数据清洗环节的规范和标准
链接地址:https://www.777doc.com/doc-6224216 .html