您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 7石晓虹-QVM:云计算环境下的海量恶意软件智能识别技术
QVM:云计算环境下的海量恶意软件智能识别技术奇虎3602011年11月灰色产业链导致恶意软件爆炸式的增长11木马程序恶意网页移动介质软件下载安装IM消息垃圾邮件侵入系统利用系统及第三方软件漏洞聊天软件网游客户端网银客户端炒股软件浏览器侵入特定目标程序实施盗号局域网ARP攻击…………木马已经形成了造马、改马、卖马、买马、发马、挂马、盗号、销赃等分工明确的灰色产业链,从业人数以十万计。互联网为木马提供了多样化的传播途径,使之无需像病毒那样依靠感染即可大规模传播恶意软件的“摩尔定律”2恶意软件的“摩尔定律”:新增恶意程序文件数每年增加十倍3333传统反病毒技术面临的问题卡慢效果差庞大的资源占用造成卡机病毒库更新远远滞后于木马变化速度轻松被免杀,无法防范最新的安全威胁444云安全:基于云计算模式的网络安全技术云安全的基本原理:云计算中心对从用户电脑采集到的可疑程序样本依据其代码特征、行为特征、生存周期、传播趋势进行数据挖掘和智能分析,进而判定恶意程序及其传播规律,在恶意软件传播初期予以查杀。采集:从上亿用户终端电脑中采集可疑行为程序样本及其行为特征服务端云计算集群分析:经过服务端集群自动分析处理,形成对恶意程序处置的指导规则处置:恶意程序判定指导规则反馈回客户端进行处置云安全技术体系示意55海量终端用户覆盖云安全查询引擎终端文件/网页云安全查询云端恶意软件/网页自动化鉴定分析系统360云安全体系示意图6云安全的核心问题云安全核心:对海量未知恶意文件/网页的实时处理能力–多家安全公司已采用云安全模式,核心竞争力已经发生了转移。目前,云端未知文件/网页的自动分析技术纷繁复杂–文件特征、行为特征、智能启发、概率统计、分类……奇虎360在云端主打人工智能引擎——QVM7QVM简介QVM是奇虎360自主研发的人工智能引擎。此引擎基于海量数据挖掘、引入机器智能学习算法,能够有效准确识别未知恶意软件,是人工智能技术在恶意程序自动分析领域中的首次大规模商业应用。基于机器学习的恶意软件识别,学者、研究机构和厂商都在关注,但大多都停留在实验室阶段,没有实际应用。奇虎360经过技术攻关,解决了机器学习的几个关键技术问题。8机器学习的关键技术难点关键技术难点一:机器学习算法的选型机器学习算法很多,如RIPPER、贝叶斯、决策树、SVM、神经网络等奇虎360将SVM作为基本学习算法。此算法的优点如下:–1、维数限制少,适用于高维数据–2、速度较快–3、算法适用性较强9机器学习的关键技术难点关键技术难点二:误报控制由于安全领域用户对误报的敏感性和特殊性,导致长期以来机器学习算法在本领域一直作为不大。多数研究者尝试后,可能检出率能做到很高,但无法达到预期的精度而放弃。因此误报控制是引擎能否上线运营的关键。误报控制的方法:–1、合适的机器学习算法——SVM–2、快速的参数选择和快速训练方法–3、找到合适的、精准的、分散度足够的白训练集,并不断补充。10机器学习的关键技术难点关键技术难点三:样本特征的选取由于海量样本的类型、大小各不相同,而一个机器学习算法不可能面面俱到,为了达到快速、高效、并能有效寻找的建模特征,需要研究样本的敏感区域。敏感区域的探测方法:–1、对PE结构分块–2、采用N-gram算法统计特征,计算特征的信息增益,选择TopN11机器学习的关键技术难点关键技术难点四:样本的信息还原由于近年来,对软件加壳或者保护日益盛行,获取基本的PE内部信息日益困难,但是这个难点也要突破。样本信息还原的方法:–1、对常见的壳采用静态脱壳技术–2、非常见的壳采用虚拟机脱壳,尽可能还原原始PE的信息12机器学习的关键技术难点关键技术难点五:训练集合的准备对数据挖掘项目来说,特别是具有推广至包含数十亿样本的安全领域的数据挖掘项目,对训练数据的要求也是非常严格的。一是要数目巨大,二是要求非常的纯净,这需要耗费很多人力去收集和分析。样本集的选择会直接影响项目的成败。QVM训练样本集采集:–1、上亿统计样本,上千万学习样本,上百亿推演样本–2、样本集必须纯净–3、样本要有足够的分散度和代表性–4、样本要持续更新1313QVM引擎的核心学习流程样本特征精度达标?是正常样本恶意样本样本管理平台特征向量识别模型精度检查提交模型漏报样本误报样本否否数据挖掘特征选取机器学习模型测试加入恶意样本加入正常样本QVM引擎线上运行环境样本云存储中心学习样本存储服务器机器学习服务器样本筛选特征向量集云端QVM运算服务器模型未知样本特征向量鉴定结果2小时一轮训练1秒云鉴定客户端1客户端N15QVM引擎恶意软件识别技术指标指标一:未知恶意软件检出率=90%解决方案:数据挖掘与机器学习–1、数据挖掘:上亿统计样本,上千万学习样本,上百亿推演样本–2、机器学习:基本学习了国内外的流行病毒、木马的规律,甚至,掌握了绝大部分病毒、木马作者编写程序的规律。实际效果:–实际应用中,病毒木马的检出率=93%。–QVM一个月不更新,检出率降幅不会超过10%,半衰期为6个月。16QVM引擎恶意软件识别技术指标指标二:与恶意软件作者较量,引擎要有较强的免杀能力研发方案:QVM特征函数及计算–1、特征向量由数千特征点构成,选取由统计得出,难以定位。–2、QVM进行运算,决策出文件的黑白,而非简单匹配。–3、无强特征,局部改动,不会影响对文件的全局判断与传统特征码和微特征比较:–1、传统特征码:–(1)简单匹配;(2)免杀方法:定位到特征码,做改动即可,有成熟工具–2、微特征及匹配:–(1)文件分块抽特征,并进行匹配。–(2)本身不具有样本识别能力,是一个匹配方法,和md5无本质区别。–(3)免杀方法:定位到对应的块,做简单改动,就能免杀。–。17QVM引擎恶意软件识别技术指标指标三:误报率=0.05%–由于安全领域用户对误报的敏感性和特殊性,导致长期以来机器学习算法在本领域一直作为不大,多数研究者尝试后,无法达到预期的精度而放弃。因此误报控制是引擎能否上线运营的关键目标。研发方案:算法与样本–1、合适的机器学习算法——SVM–2、快速的参数选择和快速训练方法–3、找到合适的、精准的、分散度足够的白训练集,并不断补充。实际效果:–实际应用中,误报率=0.05%。–目前已经实现误报控制完全有训练样本集来控制,而不是通过参数选择来调整。从而保证QVM的能力不会大起大落。18QVM引擎恶意软件识别技术指标指标四:每秒分析文件数量=100/线程,可用于客户端研发方案:文件预判、样本归一化–1、在进行文件分析前进行PE判断和损坏判断,大量样本会跳过;–2、海量样本的类型、大小各不相同。提高效率的关键是将样本按照类型归一化,并在此基础上建模。实际效果:–每秒分析文件数量=100/线程–QVM的model体积可以控制在20M左右,非常轻量,轻松放到本地。与其他引擎比较:–1、传统特征引擎:–传统特征码随木马、病毒变种,特征库越来越大,部分杀软体积过百兆,扫描极慢–2、微特征引擎:–广谱性弱,因此库更大。百亿级的样本,就有10亿级的特征库。无法下到本地。19QVM引擎恶意软件识别技术指标指标五:系统能够自我学习研发方案:–1、模型一旦确定后,就不再更改,效果主要由学习样本来驱动;–2、如果模型有不足,不改线上模型,建新模型来补足。实际效果:–1、2个小时可以学习一轮。–2、人工只干预样本(添加、删除、修改黑白属性),学习过程,完全自动。与其他引擎比较:–1、传统特征引擎:–(1)人力提特征+自动提特征,成本高,效率低。–2、微特征引擎:–本身没有识别能力,需要其他手段来形成特征库。入库能力,取决于外部因素QVM引擎技术创新点在安全领域成功引入机器学习算法用于二进制文件识别在人工少量干预样本(添加、删除、修改黑白属性)指导的情况下,系统能够自我学习,达到理想的效果半衰期长,模型的鲁棒性较强算法单特征贡献微弱,简单免杀很难奏效对分析人员的要求相对较低,不需要人工分析恶意软件实现方法和识别方法,降低了人员参与门槛,大大节约了人力成本ThankYou
本文标题:7石晓虹-QVM:云计算环境下的海量恶意软件智能识别技术
链接地址:https://www.777doc.com/doc-4071844 .html