您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 数据发布中匿名技术研究
分类号:密级:UDC:编号:工学硕士学位论文数据发布中匿名技术研究硕士研究生:商宗民指导教师:刘杰教授学科、专业:数据库与知识工程论文主审人:张沛键教授哈尔滨工程大学2012年1月分类号:密级:UDC:编号:工学硕士学位论文数据发布中匿名技术研究硕士研究生:商宗民指导教师:刘杰教授学位级别:工学硕士学科、专业:计算机应用技术所在单位:计算机科学与技术学院论文提交日期:2013年1月论文答辩日期:2013年3月学位授予单位:哈尔滨工程大学ClassifiedIndex:U.D.C:ADissertationfortheDegreeofM.EngAnonymoustechnologyresearchInDataPublishingCandidate:ShangZongMinSupervisor:Prof.LiuJieAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerAppliedTechnologyDateofSubmission:Jan,2013DateofOralExamination:Mar,2013University:HarbinEngineeringUniversity哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):导师(签字):日期:年月日年月日I摘要数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘与知识发现在各式各样的数据应用领域中都扮演着非常重要的角色。数据挖掘的目的在于从大量的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是将数据库中的数据直接地展现给用户,促进数据的交流和共享,而在数据的各种应用中,直接发布数据表中的数据会暴露数据所有者的隐私信息,给个人造成不必要的精神伤害或是财产的损失,因此我们在数据发布前有必要对相关数据进行匿名化处理。匿名化方法是一种安全有效的数据隐私保护方法,它是数据发布隐私保护方法里基于限制发布的一种,它能有效的平衡数据的有效性和隐私保护之间的关系,是近年来数据发布隐私保护的一个研究热点。匿名化的基本思想是把原始数据表进行某种变换,使攻击者不能从变换后的数据表中轻易分析出某个元组的敏感属性值,从而不能识别敏感信息所属的具体个体,达到隐藏个体隐私信息的目的。本文首先分析了数据发布隐私保护中现有的主要技术和匿名化方法,并归纳、总结了现有匿名模型的优缺点。为了解决目前存在的多维敏感属性信息泄露问题我们结合了现有多敏感属性隐私泄露保护的多维桶分组技术,提出了一种敏感性分级的基于有损链接的(g,k)-匿名模型,并给出了此模型的形式化描述和相应的实现算法。本文的具体工作有:(1)现有的隐私保护模型在匿名处理时主要是采用泛化和隐匿的技术,该技术首先需要为每一维准标识符属性预定义一颗泛化树,在准标识符维数较多的情况下信息损失很大,容易出现过度泛化的情况,本文基于有损链接的思想,在Anatomy分解发布的基础上引入了组内属性值交换的概念,通过把组内每一维属性值随机交换,可以有效抵制现有模型因为泛化和隐匿造成的较大信息损失,同时克服了所有模型都存在的背景知识攻击和存在性攻击问题。(2)针对多维敏感属性隐私数据发布的多维桶分组技术存在的近似猜测攻击问题,本文在多维桶分组技术基础上提出了一种基于多维桶技术并综合考虑多维敏感属性值敏感级别分布的(g,k)-匿名模型。该模型因为控制了分组中同一敏感度属性值的分布数量,从而能有效抵制近似猜测攻击。(3)通过大量数据集的实验,对实验结果的分析比较表明本文所提方法的正确性和有效性,测试了数据的发布质量和执行效率,并通过与最大多维桶分组方法的比较,表明基于有损链接的组内属性值交换(g,k)-算法在信息损失准许范围内能更好的保护多维敏感属性数据的安全。关键词:隐私保护,敏感度分级,多维桶,组内属性值交换,Anatomy发布IIIAbstractDatamininganddatapublishingisthetwoimportantfieldsindatabaseapplication.Oneside,Dataminingandknowledgediscoveryplaysaveryimportantroleineverykindofdatabaseapplicationfield,Dataminingaimedisfoundalargenumberofpotentialvaluableknowledge,model,rulesfromlargeamountofdata;ontheotherhand,Datepublishingisdirectlydisplayedthedatatotheuser,Tofacilitatedateexchangeandshare,Butinavarietyofapplicationsofthedate,Directreleasethedatawillexposeprivacyinformationofdataownerinthedatatable,Causeunnecessarypersonalmentalinjuryorpropertyloss,Therefore,Itisnecessaryanonymousprocessingfortherelevantdatabeforewepublishthedate.Anonymousmethodisasafeandeffectivedataprivacyprotectionmethod,Itisoneofthedatapublishingprivacyprotectionmethodbasedonlimitedrelease.Itcaneffectivelybalancetherelationshipbetweenthevalidityofdataandprivacyprotection,Datapublishingprivacyprotectionisaresearchhotspotinrecentyears.Thebasicideaofanonymousistakeakindoftransformationfortheoriginaldatatable,thattheattackercannoteasyanalysisthesensitiveattributevaluesfromthetransformeddatatable,andthuscannotidentifythesensitiveinformationofspecificindividuals,Achievethegoalofhidingtheindividualprivacyinformation.Thispaperfirstlyanalyzestheexistingmaintechnologyandanonymousmethodofdatapublishingprivacyprotection,AndInduction、summarizeadvantagesanddisadvantagesoftheexistinganonymousmodel,Inordertosolvetheinformationleakageproblemofthemultiplesensitiveattributes,wecombinetheexistingmultiplesensitiveattributesprivacyprotectedmultidimensionalbucketpackettechnology,PutakindofsensitivityattributesclassificationbasedonLosslink(g,K)anonymousmodel,andgivestheformaldescriptionofthemodelandcorrespondingalgorithm.Inthispaper,thespecificwork:(1)theexistingprivacyprotectingmodelinanonymousprocessingisusedmainlyforgeneralizationandocculttechniques,thetechniquefirstrequiredpredefinedageneralizationtreeforeachonedimensionalquasiidentifierattribute,OnthecasesoflargequasiidentifierdimensionwillCauseagreatdealofinformationloss,pronetoexcessivegeneralizationtothecase,Inthispaper,basedonthelosslinkideas,introducedtheconceptofgroupinternaltransferbasedonAnatomydecomposition,Byeachdimensionattributevaluerandompermutationwithinthegroup,caneffectivelyresisttheexistingmodelcausegreatlossofinformationthroughgeneralizationandoccult,Atthesametime,overcometheproblemsofallthemodelshavingthebackgroundknowledgeattackandexistenceattack.(2)forthemultidimensionalbucketpackettechnologyofmultiplesensitiveattributesdataprivacypublishedexistingapproximateguessingattackproblems,Inthispaperbasedonmultidimensionalbucketpackettechnologyandconsideringthemultiplesensitiveattributesvaluesensitiveleveldistribution(g,K)anonymousmodel,becausethismodelcontrolthenumberofthesamesensitivityattributevaluesdistributioninagroup,whichcaneffectivelyresisttheapproximateguessingattack.(3)throughalargedatasetofexperiments,theanalysisofexperimentalresultsshowsthatthemethodprop
本文标题:数据发布中匿名技术研究
链接地址:https://www.777doc.com/doc-2332290 .html