您好,欢迎访问三七文档
不良图片分析系统方案第1页共14页北京雄智伟业科技有限公司章附录:新浪应用案例...............................................................................9第5章附录:公司简介.....................................................................................10不良图片分析系统方案第2页共14页北京雄智伟业科技有限公司月底,我国网民数量已达3.38亿人,网站数达306.1万个,博客用户数也达1.81亿人。(来源:CNNIC。)互联网内容的迅猛增长,给内容监管提出了严峻的挑战。互联网有别于传统媒体,互动性、实时性强,传播速度快,覆盖性广,数据类型多种多样,其中滋生了大量的色情低俗内容,严重危害了青少年的身心健康。前一段时间,谷歌网络搜索含有低俗信息的争议一直是网络上热议的话题,然而谷歌“消毒”并非一件容易的事情,尽管谷歌工程师做了“机器学习”系统作辅助,但也只是对低俗文字网页有用,而对那些社会影响更恶劣的色情图片仍显得无能为力,只能通过网民举报等非技术手段在事发之后做出响应,非常被动。国际网络搜索巨擎尚且不能很好解决的问题,对于其他网络内容、服务提供商来说其难度不言而喻。自2009年1月全国开展整治互联网低俗之风专项行动以来,一批批违规网站被曝光、整治和关闭,网上淫秽色情和低俗内容明显减少,行动取得了巨大的成果,网络文化环境明显改善。然而,近期新公布的一批违规网站名单中,我们仍能发现一些知名ICP内容提供商上榜,有识之士频频呼吁全社会参与,长期坚持,与网络色情低俗内容打一场持久战。网络色情低俗问题,受到广大社会以及媒体的广泛关注,CCTV焦点访谈也频频进行跟踪及讨论。1.2ICP面对的挑战网络色情低俗问题,涉及的范围很广,涉及到网络及网络传输的各个环节,包括:运营商、内容提供商、各类网站、以及手机业务。不良图片分析系统方案第3页共14页北京雄智伟业科技有限公司,具有自己的特点:集中运营,有固定的运营地点,具有大规模的业务及大规模的设备,设备集中、内容集中存放、内容更新一般采用用户上传的方式。ICP内容控制,最大的挑战是:数据量极大,采用人工的方式,不可能做到全面检查与控制,并且相应开销巨大。审视目前的监管和防治体系,我们能发现一个发布-审核-举报-整治的基本链条。以博客应用为例,用户注册后发表文章、上传图像或视频文件,服务提供商采用各种事前事后的内容审核手段防堵可能的色情低俗内容,对于大中型网站而言,即便配备了人数众多的内容审核人员,在海量信息的上传和发布面前,也常常是有心无力,做不到全面、实时和准确的内容监管,以致于主要依赖于最终用户的举报和事后查处。前谷歌中国负责人李开复在接受记者采访时坦承没有好的技术手段进行自动化检测,只能推出用户举报机制来发现不良内容。具有讽刺意味的是,在这种模式下,是潜在的受害者来举报侵犯自己的内容,在被人工封杀之前,可能还会有更多人受到不良的伤害。究其原因,还是内容和应用提供商没有好的技术手段来防患于未然,御敌于城门之外。纵观全世界,针对色情图像和视频的自动化检测,是一个相当前沿的技术领域。在规定范式的图像模式识别领域,如针对文字的OCR,针对指纹、视网膜、人工审核用户举报整治屏蔽用户上传不良图片分析系统方案第4页共14页北京雄智伟业科技有限公司号牌、工业零件等特定物件的识别已经相当成熟。但色情内容千差万别,难以提取统一和规范化的特征,所以成为一个具有高度挑战性的研究课题。第2章不良图片分析系统解决方案雄智伟业的研发团队潜心耕耘于内容监控领域,早在2007年就意识到了色情图像检测的技术挑战,开始进行这方面的研究,经过近2年的反复摸索,终于研制成功了集准确度、智能化和高性能于一身的“网清”色情图像自动化检测技术,在多家电信运营商和信息提供商用户成功运用,取得了巨大的社会和经济效益。针对ICP的业务特点,推出:不良图片分析系统不良图片分析系统具有两项重要功能:1.不良图片分析:用来分析淫秽色情图片2.相似图片分析:用来进行图片比对,分析敏感图片特点:部署简便快捷。产品具有自主知识产权,提供标准TCP接口(提供API和命令行)。面向ICP,系统非常适合ICP对图片文件进行检查(ICP文件及图片存储非常集中,并且有统一的上传接口,这就为不良图片分析系统的部署提供了方便)。2.1技术原理色情图像检测色情图像的识别,有别于传统特定范式的图像识别,具有模糊性、特征点数量多而且样式多样的特点。因此,网清采用了二级分离器的识别体系,在通过海量样本采样分析的基础上,形成了一个高度智能化的检测架构,如下图所示:不良图片分析系统方案第5页共14页北京雄智伟业科技有限公司通过一级神经网络分离器,首先分离出正常图像,其他图像进入二级向量机分离器,再分出色情、疑似色情和正常图像(可以调整评分机制)。采用二级分离器的优势是既可以提高分离速度,又能给出多层级结果,符合人类模糊判断的特点。神经网络分离器的特点是分类较粗,但速度快,在这一步就可以将大部分明显是正常的图像排除在外,减低了第二级算法密集型的向量机分离器的负担,在这一级,我们在海量色情图像样本采样、建模和综合分析的基础上,进一步将图像分类成色情、疑似色情和正常内容。针对在不同应用场景下对精确度要求的不同,第二级分离器不但给出了图像分级,而且给出了具体判据分值,用户能够根据判据分值排序,甚至调整图像分级的上下限分值,达到精确与模糊的完美结合。针对色情图像样式多变的特点,该算法还能通过样本训练,智能化提升对新种类的色情图像的识别能力,真正做到魔高一尺、道高一丈。敏感图像检测在ICP内容提供商的应用实践中,除了要防治淫秽色情内容,还要对一些敏感图像,如暴力、政治敏感、侵权、突发事件等特殊图像进行检测和判断。为此,网清解决方案中还具备图像相似度(相似度可调整)判断功能,能够有效应对水印、截取、缩放、色变等多种图像变形,检出与样本图像相似的图像,在对敏感图片的处理方面我们采用了另一套分析系统,我们在系统中加入了样本预处理一级神经网络分离器二级向量机分离器无效正常色情疑似色情正常*不良图片分析系统方案第6页共14页北京雄智伟业科技有限公司库,通过与样本库图片进行DNA检索来完成敏感图片的分析,这样不管是经过拉伸等任何处理都可以进行判别。2.2技术指标网清色情图像检测达到了业界领先水平,色情图像识别准确率大于90%,正常图像误判率小于2%。针对图像相似度的准确率更高达95%以上。对于ICP内容提供商,每天新增的数以万计的图像内容,数据量上T非常普遍。因此,检测算法的效率也非常重要,网清独特的二级分离体系在性能上比单级分离更高。在较低服务器配置下,色情图像检测的速率至少不低于1Mbyte/s,按通常图片大小,每秒检测图像数量可达50-500张;图像相似度检测速率不低于6Mbyte/s,每秒检测图像数量可达300-2000张。不良图片分析系统方案第7页共14页北京雄智伟业科技有限公司部署方案由于色情内容判断仍具有模糊的特点,不同的图像在不同的判断标准下,仍可能判断为不同的结果。因此,最佳实践是将机器判断和人工判断有效结合,形成综合防治方案。首先,通过机器判断,排除正常和明显色情的内容,将疑似色情的内容交由人工分拣。这种多层级的解决方案,能有效权衡防范和用户易用度的平衡。机器判断可将人工分拣的工作量降低10到20倍,从而大量节省监管成本。在更严格的应用场景下,也可完全采用机器自动化判断的机制,将色情和疑似色情全部自动屏蔽。网清开发的解决方案提供了一个实时图像检测引擎服务,可运行于Linux或Windows平台,提供API和命令行,ICP可将这套系统集成到现有的内容发布审核平台中,根据自身的情况,灵活定义内容通过和阻拦策略,根据实际情况,自行调整检测敏感度,自行管理敏感图像样本库,从而完美解决低俗内容监管的难题。不良图片分析系统方案第8页共14页北京雄智伟业科技有限公司系统投资图片分析系统建设,相关费用(包括两部分):1.图片分析服务器:根据数据量(图片量)采用不同配置的服务器、2.图片分析系统软件:软件费用,按照CPU数量计算服务器配置参考数据:软件环境后台:操作系统----centos5硬件环境后台:硬盘:800GCPU:1.83HZ(2)内存:2G下面数据代表了一台该配置服务器可以处理的新增图片能力:160GB/天/每CPU测试时间文件总数量总大小(KB)用时(秒)返回结果数2010-1-49,397.00299,400.00264.009,397.002010-1-418,465.00512,708.00300.0018,465.002010-1-492,225.002,899,968.001,036.0092,225.002010-1-5112,736.003,616,712.001,507.00112,736.00每秒扫描文件数系统负载线程数带宽mbps带宽mBps36118.8600852271.107510653612.26213.3517
本文标题:多媒体内容识别
链接地址:https://www.777doc.com/doc-5134667 .html