您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代下的身份识别技术
上海海事大学SHANGHAIMARITIMEUNIVERSITY计算机安全与密码学课程论文题目:大数据时代下的身份识别技术专业:计算机技术年级:2014学号:201430310030姓名:袁逸涛信息工程学院2015年5月18日大数据时代下的身份识别技术袁逸涛(上海海事大学信息工程学院上海201306)摘要:随着计算机技术和互联网技术的发展,数据正以指数速度迅速膨胀,这些海量的数据包括敏感数据、隐私数据等。但目前大数据在收集、存储和使用过程中面临着诸多安全风险。大数据所导致的网络安全问题为用户带来严重困扰。作为网络安全的重要构成元素,身份识别技术是一种有效保护重要信息的手段。本文介绍了传统的身份识别技术,分析了身份识别技术的现状,并讨论了了身份识别技术的发展方向,最后介绍了一种基于数据挖掘技术的个人身份信息自动识别模型。关键词:网络安全,数据挖掘,身份识别TheidentificationtechnologyofbigdataYuanYi-tao(InformationEngineeringCollege,ShanghaiMaritimeUniversity,Shanghai201306,China)Abstract:WiththedevelopmentofcomputertechnologyandInternettechnology,thedataisrapidlyexpandingexponentially,thevastamountsofdataincludingthesensitivedata,privacydata,etc.Butwefacemanysecurityrisksduringthecollection,storageanduseofthebigdata.SecurityproblemscausedbyBigdatanetworktroubletheuserverymuch.Asanimportantformofnetworksecurityelements,identityrecognitiontechnologyisakindofeffectivemeanstoprotecttheimportantinformation.Traditionalidentityrecognitiontechnologyhasbeenintroducedinthispaper,thepaperanalyzesthecurrentsituationofidentityrecognitiontechnology,anddiscussedthedevelopmentdirectioninofidentityrecognitiontechnology,andfinallyintroduceamodelforidentificationofpersonalidentityinformationbasedondatamining..Keywords:identificationtechnology,Internetsecurity,Datamining引言:当今社会信息化和网络化的发展导致数据爆炸式增长。据统计,平均每秒有200万用户在使用谷歌搜索,Facebook用户每天共享的东西超过40亿,Twitter每天处理的推特数量超过3.4亿.同时,科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2012年全球信息总量已经达到2.7ZB,而到2015年这一数值预计会达到8ZB。这一现象引发了人们的广泛关注。目前,大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。随着大数据的迅猛发展,随之而来的则是大数据时代的网络安全问题。每天,我们都有各种各样的数据源源不断的在网络上产生和传播,而这些数据很容易被人获取到,黑客们利益这些获取到的数据可以轻易的得到自己想要的信息。比如银行卡,支付账户等等。所以大数据时代的来临也对信息安全领域引入了新的问题和挑战。当我们在网上进行金融交易、办理货币支付或转存等业务时,遇到的关键问题之一是要确保个人与个人之间(或企业法人之间)、个人与商店或金融系统之间信用的建立,这就得涉及到网上身份的识别问题。身份识别是指系统的用户在进入系统或访问不同保护级别的系统资源时,系统确认该用户的身份是否真实、合法和唯一。身份识别是识别和证实主体(一般指用户)身份的过程。它往往是许多应用系统(特别是安全系统)中安全保护的第一道防线,也是保证应用系统安全的关键。识别认证方案主要用于实现以下目的:识别认证用户的身份,防止非法用户假冒合法用户身份占用系统资源、删除或窜改用户存储的数据。1主要的身份识别技术前国内外的身份识别技术的研究有如下几方面:1.1使用口令式身份识别这是一种较多使用的识别方法,如果有攻击者有意攻击,则可能被破解和泄漏。口令认证是一种古老的进行身份认证的方式,也是被最广泛研究和使用的一种身份认证方式。防止口令泄露是基于口令的认证系统设计和运行的关键。对于申请者而言,口令一般按容易记亿、难以被猜中的原则来选择,实际使用中可根据不同的情况进行适当选取。但事实上,在许多应用中,用户往往做不到这一点。在一般非保密的应用系统中,多个用户可共用一个口令。这种情况在需要保密但用户数量较大的情况下也存在,如不同的信用卡用户可能有相同的口令。为了防止口令在传输信道泄露,可以采用随时间变化的口令,这能较好地防止攻击者通过窃听口令来进行欺诈,但这对口令的存储提出了更高的要求。为了防止口令在认证者端泄露,可以采取加密存储的方式,在系统内存放口令的密文或数字摘要。口令是最简单也是最常用的一种身份认证方法。一个好的口令对于保证用户数据的完整性、可靠性以及安全性十分重要,特别是当涉及目前越来越成为一种时尚需求的电子商务时,它显得尤为重要。但通常使用的静态的口令有许多固有的弱点:易于猜测或窃听;不能进行共享控制等。而且也存在实现上的弱点:在分布式网络系统中,若不加密,可以被清晰地看见明文;即使加密,也易受重放攻击、差分密码分析等其它攻击手段的影响,从而给系统的安全性蒙上阴影。而使用一次性口令则可以显著地增加系统的安全性。一般认为,在较为重要的应用系统中仅使用口令进行身份认证是不安全的,但是口令认证到目前为止仍是最为方便、成本最低的认证方式。1.2智能卡识别智能卡是一种集成电路的智能芯片,芯片中存有能反映用户身份特征的相关数据,某些更高级的智能卡还带有用户的指纹数据以更安全地授权用户的合法身份。这些数据通过加密系统事先由用户存储在芯片中。智能卡由被授权用户随身携带,当用户要进行某种操作如登录系统时,只要将它插入相应的读卡器,通过读取其中的信息是否正确,就能验证用户的身份是否合法。和动态令牌硬件类似,因为智能卡的硬件的唯一性,所以保证了用户身份不易被冒充。然而又如用户名密码组合验证方式一样,从智能卡中读取数据后,数据也是可能被篡改的,如通过内存扫描或网络监听等技术还是很容易截取到用户的身份验证信息,因而它还是不安全的。不过相比口令式识别技术,它的使用更方便,维护也更简单。1.3第三方认证第三方认证是相对于两方认证而言的,需要有可信的第三方存在。第三方认证提供了两个事先毫无关系的实体相互信任的依据,只要双方都能提供由第三方提供合法的身份信息。第三方认证的最为典型的例子就是CA认证。CA认证建立在PKI的基础之上,用于实现网络环境下的数字身份认证。一般情况下,用户向CA提供相应的身份信息并申请用户证书,CA审核后,颁发给用户带有CA签名的数字证书和用户的私钥。用户在该CA的认证范围内使用该证书作为身份认证的标志,同时使用他的私钥对敏感数据进行签名。用户的证书是公开的,任何实体都可以通过验证CA的签名来验证该证书的合法性,并使用证书中的公钥对用户签名的数据进行验证。目前在电子商务领域广泛地使用这样的认证体系2身份识别技术的发展趋势目前随着电子商务和电子政务的发展,以及GSM,CPRS,CDMA,WLAN等无线移动通信技术与相应业务的发展,身份认证的理论和技术已经在不断成熟完善的基础上,出现了几个研究热点。2.1图像口令技术传统的口令认证技术主要是基于文本口令,大部分安全系统为了保证口令的安全性都会要求用户选择较长的复杂口令,这种文本口令提高了安全性但是由于难以记忆,输入不便,使得很多用户仍然使用弱口令。图像口令技术是用一组图像组成的集合代替文本字符集合,用户通过从图像集合中选择P个图像合成自己的口令。认证系统系统在认证时给出T个图像,用户从中选出自己生成口令时的P个图像。由于图像包括的信息远大于文本,很难实现自动字典攻击。而且这种口令很难记录也不易与人共享,增加了安全性。该系统的安全性在于从T个图像中选取P个图像口令的组合数大小,为了提高安全性应使组合数T!/[(T-P)!P!]尽量增加。2.2生物特征识别技术以上传统的身份验证方式,都是基于。whatyouknow。或者。whatyouhave。的验证手段,它只能说明用户具有登录权限,并不能说明用户为非冒充者,直到生物识别技术的出现和越来越多的普及。比尔盖茨曾断言,生物识别技术将成为未来几年IT产业的重要革新。越来越多个人、企业乃至政府都承认,现有身份加密码或基于智能卡的身份识别系统远远不够,生物特征识别技术在未来的身份识别方面将占据不可或缺地位。生物识别技术是通过提取人体的生物特征数据或行为的特征属性来进行身份认证的一种技术。生物特征是指人体独一无二的可通过测量得到,又能被用来利用的身体或者行为特征,它分为身体特征和行为特征两类。身体特征有:DNA结构、指纹、虹膜、视网膜、脸型、头发硬度等;行为特征有:音调、签名、行走步态等。生物识别技术的出现,为解决真正意义上的身份验证提供了可能,江林升教授提出的在网络化考试中运用实时人脸识别技术对身份的验证,效果显著,但实现此类技术所需的硬件、网络带宽等要求较高,因而实现难度较大,普及也相对困难。2.3基于数据挖掘的身份识别由于数据挖掘技术的出现,一种基于数据挖掘技术的身份识别技术应运而生了。它不必像生物识别技术那样需要个体的生物特征,而只需个体的行为特征,又克服了传统身份识别的单一性缺点。它通过挖掘人们的历史行为,得到人们的行为模式,再根据相应的预测算法,来鉴别身份的真实性。目前较为火热的Web挖掘,不但可以为网站挖掘出具有价值的信息,也能为网站的安全提供安全参考。基于数据挖掘技术的对异常数据的捕获、用户可信行为的分析等应用也不断成熟,已为验证用户身份真实性提供了可能。3一种基于数据挖掘的个人身份信息自动识别模型本文提出的基于数据挖掘技术的个人身份信息自动识别模型,如图1所示。该模型主要由基于正则表达式的信息匹配、文本预处理、权重计算和特征词降维以及机器学习四部分组成。其中基于正则表达式的信息匹配主要是便于快速地从电子邮件中匹配出包含有个人身份信息的电子邮件的模块;文本预处理则是将非结构化的基于人类自然语言的文本转换为机器可识别的文本;权重计算和特征降维是对分出来的词进行一定的处理,以便进行机器学习;机器学习则是对特征向量进行训练,最终形成个人身份信息识别模型。3.1正则表达式目前已经有很多用来匹配个人身份识别信息的算法,文献[2]提出了一种基于正则表达式的邮件类协议识别与跟踪的协议识别方法,通过提取协议应用的特征以及关键词,撰写相对应的正则表达式。正则表达式是一种用来查找一个串中是否含有某个子串,替换或者取出匹配的子串,是一种用于模式匹配和替换的工具,在Linux中应用广泛。Vi编辑器,Awk,Sendshell等程序都是基于正则表达式。而且正则表达式已经超出语言和系统的局限,在计算机程序中应用广泛,用户通过编写基于正则表达式的匹配模式,然后把这些匹配模式和一些数据,例如web数据输入进行比较,根据比较的结果执行相应的操作。正则表达式可用于字符串模式匹配和替换,最简单的模式就是一个所要查找的字符串。模式在处理文档工作中是非常普遍的,语句SELECT*FROMTABLE1WHERENAME=”TOMSMITH”中的字符串”TOMS
本文标题:大数据时代下的身份识别技术
链接地址:https://www.777doc.com/doc-2512011 .html