您好,欢迎访问三七文档
1第六章文本和Web挖掘主讲教师:魏宏喜(博士,副教授)E-mail:cswhx@imu.edu.cn2第六章文本和Web挖掘6.1引例6.2文本挖掘6.3Web挖掘3第六章文本和Web挖掘6.1引例6.2文本挖掘6.3Web挖掘46.1引例乒乓球女团中国夺冠第33金超越雅典奥运创造历史[文本1]神舟六号轨道舱正常运行60天取得大量科学数据[文本2]乒乓男单决赛颁奖中国三虎将包揽金银铜牌[文本3]这三段文本中哪两段文本在内容上更接近?如果前两个文本各代表一类,那么第三个文本应该归为其中的哪一类?5第六章文本和Web挖掘6.1引例6.2文本挖掘6.3Web挖掘66.2文本挖掘6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要76.2文本挖掘6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要86.2.1文本信息检索信息检索:泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程。1.信息检索模型2.信息检索的性能评价3.基于相似性的检索4.文档间相似性计算举例91.信息检索模型布尔模型:将用户查询表示成由关键词及and、or、not组成的布尔表达式,检索过程是在一个倒排索引中实现的。向量空间模型:有一特征表示集,特征通常为字或词。用户的查询与文本都表示成特征向量,其中每一维为一个特征,每个特征用权值表示。概率模型:最简单的概率模型是二值独立检索模型(BIR)。BIR模型可根据用户的查询,将所有文档集中的每个文档分为两类,一类与查询相关,另一类与查询不相关。102.信息检索的性能评价查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性。查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性。113.基于相似性的检索给定一个文档集合D和一个项集合T,可以将每个文档表示为T维空间中的一个特征向量V。向量V中第j个数值就是相应文档中第j个项的权值(如:tf或者tf*idf)。计算两个文档相似性可以如下公式:212121),(vvvvvvsim124.文档间相似性计算举例词典:北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币v1={1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0}v2={0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0}v3={1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0}05110),(212121vvvvvvsim75.038.978117),(313131vvvvvvsim0850),(323232vvvvvvsim136.2文本挖掘6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要146.2.2文本分类文本分类是指利用计算机将一篇文档自动地分派到一个或多个预定义的类别中。文本分类的关键问题是获得一个分类模型,利用此分类模型可以用于其他文档的分类。典型的文本分类模型:SVM有了一个模型之后,需要进行人工标记和训练,以确定这个模型的参数,然后才能对文本进行自动分类。156.2文本挖掘6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要166.2.3自动摘要自动摘要就是利用计算机对文档进行处理,从中挑选出最能代表文档中心思想的句子或段落,经过修饰重组形成一段最能反映文档内容的文字;或者通过对文档的理解,重新生成一段能够表达文档主要内容的文字。1、自动摘要的分类2、自动摘要的步骤171、自动摘要的分类主题摘要摘录型摘要评论型摘要182、自动摘要的步骤对文档的预处理过滤分词(针对汉语)统计分析提取摘要输出摘要对摘要的评估196.2文本挖掘6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要20第六章文本和Web挖掘6.1引例6.2文本挖掘6.3Web挖掘21Web挖掘的概念和分类Web数据挖掘是用数据挖掘技术在Web文本和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息。Web挖掘Web结构挖掘Web内容挖掘Web使用挖掘文本挖掘多媒体挖掘超链接挖掘页面结构挖掘用户访问模式挖掘分析定制Web站点226.3Web挖掘6.3.1Web内容挖掘6.3.2Web结构挖掘6.3.3Web使用挖掘236.3Web挖掘6.3.1Web内容挖掘6.3.2Web结构挖掘6.3.3Web使用挖掘246.3.1Web内容挖掘1、Web内容挖掘的主要内容2、主流的Web搜索引擎251、Web内容挖掘的主要内容对搜索引擎的查询结果作进一步的处理,得到更为精确和有用的信息,以增强搜索引擎的内容查询功能。对HTML页面内容进行挖掘:对页面中的文本进行文本挖掘;对页面中的多媒体信息进行多媒体信息挖掘。262、主流Web搜索引擎Google(谷歌)Bing(必应)Baidu(百度)Sogou(搜狗)276.3Web挖掘6.3.1Web内容挖掘6.3.2Web结构挖掘6.3.3Web使用挖掘286.3.2Web结构挖掘1、什么是Web结构挖掘2、Page-rank算法3、Web链接结构的局限性291、什么是Web结构挖掘Web结构挖掘:挖掘Web潜在的链接结构模式,它是从的组织结构和链接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式,这种模式可以用于进行网页分类、总结网站和网页的结构,由此获得有关不同网页间相似度及关联度的信息。302、Page-rank算法一个页面被多次引用,即:很多页面有指向它的链接,则这个页面很重要。一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面也可能很重要。一个页面的重要性被均匀分布并传递到它所引用的页面。该算法由Google公司提出。313、Web链接结构的局限性(1)不是每个超链接都具有认可的性质。有些是为了其他目的而创建的,如为了导航或付费广告等,这些不具有认可性质的超链接,不应用于结构挖掘。(2)在当今激烈的商业竞争下,很少有Web页面指向其竞争领域的权威页面。326.3Web挖掘6.3.1Web内容挖掘6.3.2Web结构挖掘6.3.3Web使用挖掘336.3.3Web使用挖掘1、什么是Web使用挖掘2、Web使用挖掘采用的手段3、Web使用挖掘的三阶段341、什么是Web使用挖掘用户在Web站点上的商业活动和浏览访问信息都记录在log(日志)文件中。Web日志挖掘就是从服务器的log文件或其他数据(如:Cookie)中分析用户的访问模式。352、Web使用挖掘采用的手段关联规则挖掘聚类分析......363、Web使用挖掘的三阶段数据预处理阶段将原始的日志文件经过一系列的数据处理转化成便于处理的数据格式,以供数据挖掘阶段使用;数据挖掘阶段对数据预处理所形成的数据,利用数据挖掘的相关算法来发现隐藏的模式、规则;结果分析阶段主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式。376.3Web挖掘6.3.1Web内容挖掘6.3.2Web结构挖掘6.3.3Web使用挖掘38第六章文本和Web挖掘6.1引例6.2文本挖掘6.3Web挖掘
本文标题:文本和Web挖掘
链接地址:https://www.777doc.com/doc-5323010 .html