您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > WEB信息个性化采集与管理关键技术研究
WEB信息个性化采集与管理关键技术研究CollegeofComputerandCommunicationEngineering主要内容介绍背景介绍1关键技术及存在问题2采用的技术路线及解决方法3个性化信息采集与管理系统设计4总结5CollegeofComputerandCommunicationEngineering主要内容介绍背景介绍1本课题是在郑州市科技攻关项目“网络定制搜索与舆情分析系统”(项目编号:0910SGYG23259-3)的基础上对WEB信息个性化的采集与管理的相关技术进行的研究。CollegeofComputerandCommunicationEngineering1选题背景及研究意义虽然Internet信息量庞大,但是不能满足不同背景、不同目的和不同时期的用户需求Web静态信息2000年,25亿的Web页面,大约25~50TB的信息量(其中有10~20TB的文本信息)Internet网络信息Web动态信息2000年,5500亿的Web相关文档,超过750TB的信息量以每天730万网页、0.1TB信息量的速度增长目前Internet上有将近241亿的Web静态信息页面,而Web动态信息页面因为数量庞大和特殊性,将无法估计目前Internet上有将近241亿的Web静态信息页面,而Web动态信息页面因为数量庞大和特殊性,将无法估计每个人由于职业、目的等因素的不同,要在Internet这个信息宇宙中搜索兴趣相关信息是一件非常困难的事情CollegeofComputerandCommunicationEngineering1选题背景及研究意义目前的通用搜索引擎在使用中存在着诸多问题,很难满足不同用户的兴趣需求。WEB信息质量良莠不齐表达的单一性,用户很难用简单的关键字来表达他所要的真正内容通用搜索引擎为用户提供的是无差别的、“千人一面”的服务模式“丰度问题”,即:“99%的Web信息对于99%的Web用户是没有用处的”,产生所谓的信息源多种特征性,新闻网、论坛、博客等都具有不同的网页结构动态页面无法检索,由用户在网站上填写表单动态生成,搜索引擎所用的爬虫无法自动填写表单CollegeofComputerandCommunicationEngineering主要内容介绍关键技术与存在问题2CollegeofComputerandCommunicationEngineering2关键技术与存在问题使用效果可利用扫描枪、二代证读卡器采集车辆信息和购车人身份信息,杜绝发票开具错误的情况节约了人力成本、交通成本和燃油成本,初步统计一个年销售量在1500台的销售企业,车购税代办业务一年所节约的费用约为3-5万元自助机每笔业务用时在2-3分钟左右,节省了纳税人在窗口排队等候的时间节约成本降低开票差错率高效服务延伸车辆服务,提升企业形象在汽车生产或销售企业就可进行“一站式”服务使用效果CollegeofComputerandCommunicationEngineering主要内容介绍采用的技术路线及解决方法3CollegeofComputerandCommunicationEngineering31.个性化定制WEB信息采集与提取综合采取网络爬虫、元搜索引擎、深网搜索三种搜索策略进行WEB信息采集(右图),能够达到召回率和精确率双重高效的标准。基于双重净化的网页主题内容提取方法,与“基于DOM树”的方法进行比较,能够更好地达到精确提取兴趣相关信息。…特定领域及时全面监控特定领域网站采集信息的URL、主题词、时间信息量大脏信息多调用多个搜索引擎接口通过兴趣库过滤进行汇集、筛选、删并采集信息的URL、主题词、时间本地数据库不是新信息不是新信息新信息新信息二次去重后展示二次去重后展示通过兴趣库过滤进行汇集、筛选、删并CollegeofComputerandCommunicationEngineering3、采用的技术路线及解决方法2、个性化WEB信息去重提出一种根据用户偏好进行网页去重算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度,同“基于网页内容结构”的去重方法进行比较,能达到更好的的去除重复的效果。开始把初始已知事实送入DBDB中包含该主题要素成功去重把用户提供的新事实加入DB中KB中有可适应的知识?把KB中的所有课适应知识都选出来送入KSKS为空?用户可补充新事实?推出的是新事实?把冲突消解策略从KS中选出一条知识进行推理将新事实加入到DB中失败,退出YNYYYNNNYNCollegeofComputerandCommunicationEngineering3、采用的技术路线及解决方法3、个性化分析WEB信息提出一种基于网络评论语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用网络评论的语言学结构思想构造基于固定情感词元的三种特定搭配模式来构造识别算法,采用RBF核的SVM分类器进行分类,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合,与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。CollegeofComputerandCommunicationEngineering3、采用的技术路线及解决方法基于这种思想,提出一种固定语义词元的识别算法。算法描述如下:(text)//在算法中,参数text表示输入的一篇文档,m表示文档中的特征词元数量,tag为条件标志beginforj=1tom;if{不是最后一个词}tag=1;if{符合E-T固定搭配}tag=100;//在E-T模式中,选择1~100中任意一个整数代表子模式的固定搭配endif{符合T-T固定搭配}tag=200;//在T-T模式中,选择100~200中任意一个整数代表子模式的固定搭配endif{符合A-S固定搭配}tag=300;//在A-S模式中,选择200~300中任意一个整数代表子模式的固定搭配endswich(tag){case1://在第j+1个词后增加特征“E-T固定搭配and第j+2个词”;j=j+2;break;case2://在第j+1个词后增加特征“T-T固定搭配and第j+2个词”;j=j+2;break;case3://在第j+1个词后增加特征“A-S固定搭配and第j+2个词”;j=j+2;break;default://在第j+1个词后增加一个特征“第j个词and第j+1个词”;j=j+1;break;}endfor//返回增加了语义特征的text;主算法描述如下:begin//在本算法中,n表示文档的数目,text表示一篇当前评论文档。{输入经过停用词过滤后的文档集;}fori=1ton;if{(text)中含有E-T固定搭配andT-T固定搭配andA-S固定搭配;}{(text);}else{增加用户的反馈信息;}{直接保存(text);}endendfor{输出经过(FSTIdentificationAlgorithm)处理过后的文档集;}CollegeofComputerandCommunicationEngineering3、采用的技术路线及解决方法4、个性化预测用户的搜索行为提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。CollegeofComputerandCommunicationEngineering主要内容介绍个性化信息采集与管理系统设计4CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计。4.1利用E-R图建模和UML用例图建模相结合的方法设计数据库:4.2系统架构设计如下图:CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计4.3本系统的编程思路将采用MVC框架的解耦合的设计思路如图右图所示:4.4搜索模块①WangYi.cs。利用正则表达式。②baidu.cs。利用正则表达式。③BingAPIWrapper.cs。通过在微软搜索引擎Bing注册API。④spider.cs。通过启动网络爬虫抓取工作中的requestCrawlStart()方法,来抓取信息。CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计4.6MD5去重算法。编码如下:MD5CryptoServiceProvidermd5=newMD5CryptoServiceProvider();byte[]encryptedBytes=md5.ComputeHash(Encoding.ASCII.GetBytes(inputString));StringBuildersb=newStringBuilder();for(inti=0;iencryptedBytes.Length;i++){sb.AppendFormat({0:x2},encryptedBytes[i]);}returnsb.ToString();4.7管理模块CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计4.8分析模块如下图所示,首先抽取搜索模块和管理模块处理过的页面主要内容形成文本,然后利用中科院开发的“ICTCLAS2009版系统”进行文本切词和分句处理,通过聚类算法处理形成文本句集合,接着通过语义类集合进行判断重要度,最终生成主题文本,并以分析图表的形式展示给用户。4.9系统展示CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计CollegeofComputerandCommunicationEngineering4、个性化信息采集与管理系统设计CollegeofComputerandCommunicationEngineering主要内容介绍总结5CollegeofComputerandCommunicationEngineering1、综合采取网络爬虫、元搜索引擎、深网搜索三种搜索策略进行WEB信息采集,能够达到召回率和精确率双重高效的个性化搜索标准。2、基于双重净化的网页主题内容提取方法,与“基于DOM树”的方法进行比较,能较为精确地提取兴趣相关信息。5、总结本研究解决的问题:3、用户偏好进行网页去重算法,同“基于网页内容结构”的去重方法进行比较,能达到更好的的去除重复的效果。4、基于网络评论语言学结构的情感倾向识别模型,与传统的情感识别方法相比较,可以得到较为明显地提高信息分类的效率和准确率,明确展示信息情感倾向。5、一种用户搜索行为预测模型:ARIMA-SVM模型,实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。CollegeofComputerandCommunicationEngineering5、总结从整体上看,系统能够顺利运行,也能够满足用户基本的个性化搜索服务,但是系统自身还存在一些不足之处,总结如下:(1)三种搜索策略同时进行信息采集后,从信息抽取和去除到信息展示,没有设计相应的优化算法,从而导致系统时间
本文标题:WEB信息个性化采集与管理关键技术研究
链接地址:https://www.777doc.com/doc-3391189 .html