您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 大数据安全与隐私保护----冯登国-张敏-李昊《计算机学报》2013-10
第36卷计算机学报Vol.362013年论文在线发布号No.10CHINESEJOURNALOFCOMPUTERS2013ArticleOnlineNo.10———————————————本课题得到国家自然科学基金项目(No.91118006)资助.冯登国,男,1965年生,博士,研究员,主要研究领域为信息安全与密码学、可信计算与信息保障.张敏,女,1975年生,博士,副研究员,主要研究领域为数据隐私保护与可信计算.李昊,男,1983年生,博士,助理研究员,主要研究领域为数据隐私保护与可信计算.大数据安全与隐私保护冯登国,张敏,李昊(中国科学院软件研究所可信计算与信息保障实验室,北京中国100190)摘要大数据(BigData)已成为学术界和产业界的研究热点,正影响着人们日常生活、工作习惯及思考方式。但是目前大数据在收集、存储和使用过程中面临着诸多安全风险,大数据所导致的隐私泄露为用户带来严重困扰,而虚假大数据将导致错误或无效的分析结果。本文分析了实现大数据安全与隐私保护所面临的技术挑战,整理出解决问题的若干关键技术及其最新进展。通过分析指出大数据在引入安全问题的同时,也是解决信息安全问题的有效手段。它为信息安全领域的发展带来了新的契机。关键词大数据;大数据安全;隐私保护中图法分类号TP309BigDataSecurityandPrivacyProtectionFENGDeng-Guo,ZHANGMin,LIHao(DepartmentofTCA,InstituteofSoftware,ChineseAcademyofSciences,Beijing100191,China)AbstractNowadaysbigdatahasbecomeahottopicinacademicandindustrialresearch.Itisregardedasarevolutionthatwilltransformhowwelive,workandthink.However,therearemanysecurityrisksinthefieldofdatasecurityandprivacyprotectionwhencollecting,storingandutilizingbigdata.Privacyissuesrelatedwithbigdataanalysisspelltroubleforindividuals.Anddeceptiveorfakeinformationwithinbigdatamayleadtoincorrectanalysisresults.Thispapersummarizesandanalyzesthesecuritychallengesbroughtbybigdata,andthendescribesthekeytechnologieswhichcanbeexploitedtodealwiththesechallenges.Finally,thispaperarguesthatbigdatabringsnotonlychallenges,butalsotechnicalrevolutioninthefieldofinformationsecurity.Keywordsbigdata;bigdatasecurity;privacyprotection1引言当今,由于社会信息化和网络化的发展导致产生的数据爆炸式增长。据统计,平均每一秒都有200万用户在使用谷歌搜索,Facebook用户每天共享的东西超过40亿,Twitter每天处理的推特数量超过3.4亿。同时,各种监测、感应设备也在源源不断的产生数据,科学计算、医疗卫生、金融、零售业等各行业也有大量数据不断产生。2012年全球信息总量已经达到2.7ZB,而2015年这一数值预计会达到8ZB。显然,大数据时代已经到来。这一现象引发了人们的广泛关注。在学术界,图灵奖获得者JimGray提出了科学研究的第四范式即以大数据为基础的数据密集型科学研究;2008年《Nature》推出了大数据专刊对其展开探讨;2011年《Science》也推出类似的数据处理专刊。IT产业界行动更为积极,持续关注数据再利用,挖掘大数据的潜在价值。其中一个典型的案例是Google公司的GoogleFluTrends网站。它通过统计人们对流感2计算机学报2013年信息的搜索,并查询Google服务器日志的IP地址判定搜索来源,从而发布世界各地流感情况的预测。目前,大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner预测,2013年大数据将带动全球IT支出340亿美元,到2016年全球在大数据方面的总花费将达到2320亿美元。Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一。此外,作为国家和社会的主要管理者,各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data.gov网站,旨在向公众开放政府所拥有的公共数据。随后,英国、澳大利亚等政府也开始了大数据开放的进程,截止目前,全世界已经正式有35个国家和地区构建了自己的数据开放门户网站1当前大数据的发展仍然面临着许多问题,安全与隐私问题是人们公认的关键问题之一[1][2]。人们在互联网上的一言一行都掌握在互联网商家手中,例如淘宝知道我们的购物习惯,腾讯知道我们的好友联络情况,Amazon、当当网知道我们的阅读习惯,Google、百度知道我们的检索习惯,等等。多项实际案例说明,即使无害的数据被大量收集后,也会暴露个人隐私[1]。事实上,大数据安全含义更为广泛,人们面临的威胁并不仅限于个人隐私泄漏。保护对象不仅包括大数据自身,也包含通过大数据分析得到的知识。。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。在我国,2012年中国通信学会、计算机学会等重要学术组织先后成立了大数据专家委员会,为我国大数据应用和发展提供学术咨询。与当前的其他信息一样,大数据在存储、处理、传输等过程中面临安全风险,具有数据安全与隐私保护需求。而实现大数据安全与隐私保护,较以往其他安全问题(如云计算中的数据安全等)更为棘手。这是因为在云计算中,虽然服务提供商控制了数据的存储与运行环境,但是用户仍然有些办法保护自己的数据,例如通过密码学的技术手段实现数据安全存储与安全计算,或者通过可信计算方式实现运行环境安全等。而在大数据的背景下,Facebook等商家既是数据的生产者,又是数据的存储、管理者和使用者,因此,单纯通过技术手段限制商家对用户信息的使用,实现用户隐私保护是极其困难的1事[1]。当前很多组织都认识到大数据的安全问题,并积极行动起来关注大数据安全问题。2012年云安全联盟CSA组建了大数据工作组,旨在寻找针对数据中心安全和隐私问题的解决方案。本文在梳理大数据研究现状的基础上,重点分析了当前大数据所带来的安全挑战,详细阐述了当前大数据安全与隐私保护关键技术。需要指出的是,大数据在引入新的安全问题和挑战的同时,也为信息安全领域带来了新的发展契机,即:基于大数据的信息安全相关技术可以反过来用于大数据的安全和隐私保护。本文在第5节对其进行了初步分析与探讨。2大数据研究概述2.1大数据来源与特征普遍的观点认为,大数据是指规模大且复杂以至于很难用现有的数据库管理工具或传统的数据处理应用来处理的数据集2当前,根据来源的不同,大数据大致可分为如下几种类型[3]:。大数据的常见特点包括:大规模(volume)、高速性(velocity)和多样性(variety)。1)来自于人:人们在互联网活动以及使用移动互联网过程中所产生的各类数据,包括文字、图片、视频等信息;2)来自于机:各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息;3)来自于物:各类数字设备所采集的数据。如摄像头所不断产生的数字信号;医疗物联网中不断产生的人的各项特征值;天文望远镜所产生的大量数据等。2.2大数据分析目标目前大数据分析应用于科学、医药、商业等各个领域,差异巨大。但归纳起来,大数据分析目标可归为以下几个:(1)通过大量分析获得知识人们进行数据分析由来已久,最初与最重要的目的就是获得知识、利用知识。由于大数据包含大量未经处理的、真实样本信息,它能够有效地摒弃2维基百科论文在线发布号No.10冯登国等:大数据安全与隐私保护3个体差异,帮助人们透过现象、更准确的把握事物背后的共性规律。基于发掘出来的知识,人们可以更准确地对将要发生的自然或社会现象进行预测。典型的例子包括,通过Google检索信息挖掘可以得到流感的传播情况3;根据Twitter信息可以预测股票行情4(2)通过长期分析掌握个体规律等。个体活动在满足某些共性特征的同时,也具有鲜明的个性化特征。正如“长尾理论”中那条细长的尾巴那样,这些特征可能千差万别。企业通过长时间、多维度的数据积累,可以对用户行为分析得出规律,更准确的描绘其个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐。例如Google通过其大数据产品对用户的习惯和爱好进行分析,帮助广告商评估广告活动效率,预估在未来可能存在高达到数千亿美元的市场规模5(3)通过分析辨识真相。错误信息不如没有信息。由于网络中信息的传播更加便利,所以网络虚假信息造成的危害也更大。例如,2013年4月24日,美联社Twitter帐号被盗,发布虚假消息称总统奥巴马遭受恐怖袭击受伤。虽然虚假消息在几分钟内被禁止,但是仍然引发了美国股市短暂跳水。目前,大数据分析被用于信息去伪存真。例如,社交点评类网站Yelp利用大数据对虚假评论进行过滤,为用户提供更为真实的评论信息6;Yahoo7和Thinkmail82.3大数据技术框架等利用大数据分析技术来过滤垃圾邮件。大数据处理涉及数据的采集、管理、分析与展示等。图1是相关技术示意图,包括四个阶段。3://tech2ipo.com/6322/5://adage.com/article/digital/fake-reviews-rise-yelp-crack-fraudsters/237486/7=~obIr1Wwi9X9dMN8结构化数据半结构化数据非结构化数据数据源数据采集与预处理数据分析数据解释数据存储数据集成数据清洗MapReduce及其他并发处理架构查询与索引语义分析和数据挖掘可视化人机交互数据传输、虚拟集群等其他支撑技术理论上的处理阶段关键技术图1大数据技术架构1)数据采集与预处理(DataAcquisition&Preparation)大数据的数据源多样化,包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据。因此,大数据处理的第一步是从数据源采集数据并进行预处理操作,为后继流程提供统一的高质量的数据集。由于大数据的来源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在数据集成过程中对数据进行清洗,以消除相似、重复或不一致数据是非常必要的。文献[4-7]中数据清洗和集成技术针对大数据的特点,提出非结构化或半结构化数据的清洗以及超大规模数据的集成。数据存储与大数据应用密切相关。某些实时性要求较高的应用,如状态监控,更适合采用流处理模式,直接在清洗和集成后的数据源上进行分析。而大多数其他应用则需要存储,以支持后继更深度的数据分析流程。为了提高数据吞吐量
本文标题:大数据安全与隐私保护----冯登国-张敏-李昊《计算机学报》2013-10
链接地址:https://www.777doc.com/doc-2106378 .html