文本挖掘与Web挖掘

第11章文本挖掘与Web挖掘目录11.1文本挖掘概述11.2文本挖掘11.3Web挖掘11.1文本挖掘概述11.1.1文本挖掘的基本概念11.1.2文本特征的表示11.1.3文本特征的提取11.1.1文本挖掘的基本概念文本挖掘一词出现于1998年第十届欧洲机器学习会议上。Kodratoff认为文本挖掘的目的是从文本集合中，试图在一定的理解水平上尽可能多地提取知识。1.概念文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括：技术报告、文本集、新闻、电子邮件、网页、用户手册等。2.主要任务（1）短语提取提取文本集中所有相关的短语。（2）概念提取（聚类）对这些短语之间的关系，建立一个该文本集中的主要概念。（3）可视化显示和导航从多个视角出发进行分析.3.文本挖掘与数据挖掘数据挖掘文本挖掘研究对象用数字表示的、结构化的数据无结构或者半结构化的文本对象结构关系数据库自由开放的文本目标获取知识，预测以后的状态提取概念和知识方法归纳学习、决策树、神经网络、粗糙集、遗传算法等提取短语、形成概念、关联分析、聚类、分类成熟度从1994年开始得到广泛应用从2000年开始得到广泛应用11.1.2文本特征的表示文本特征指的是关于文本的元数据：（1）描述性特征，例如文本的名称、日期、大小、类型等；（2）语义性特征，例如文本的作者、机构、标题、内容等。11.1.2文本特征的表示矢量空间模型（VSM）是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量：V(d)=(t1，w1(d)；…；ti，wi(d)；…；tn，wn(d))d中出现的所有单词作为ti，或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。函数wi(d)=Ψ(tfi(d))，常用的Ψ有：（1）平方根函数（2）对数函数)d(tfi)1)d(tflog(i11.1.3文本特征的提取特征提取主要是识别文本中代表其特征的词项。文本特征分为一般特征和数字特征，其中一般特征主要包括动词和名词短语，如人名、组织名等；数字特征主要包括日期、时间、货币以及单纯数字信息。特征项抽取的判断算法（1）该特征项集合包含所有该类中出现的词。（2）对于每个词，计算词Wi和类别Cj的互信息量I(W,C)（3)对于该类中所有的词，依据上面计算的互信息量排序。（4）抽取互信息量大的词作为特征项。（5）根据抽取的特征项进行向量压缩，精简向量表示。11.2文本挖掘11.2.1文本挖掘功能层次11.2.2关联分析11.2.3文本聚类11.2.4文本分类11.2.1文本挖掘功能层次关键词相似检索词语关联分析自然语言处理文本聚类文本分类文本挖掘功能层次（1）关键词检索关键词建立倒排文件索引，与传统的信息检索使用的技术类似。（2）相似检索找到相似内容的文本。（3）词语关联分析聚焦在词语（包括关键词）之间的关联信息分析上。（4）文本聚类和文本分类实现文本的聚类和分类。（5）自然语言处理揭示自然语言处理技术的语义，进行文本语义挖掘。11.2.2关联分析在文本数据库中，每一文本被视为一个事务，文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为：{文本编号，关键词集}文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。关联分析挖掘可以用于找出词或关键词间的关联。11.2.3文本聚类1．层次聚类法对于给定的文本集合D={d1，…，di，…，dn}:（1）将D中的每个文本di看作是一个具有单成员的类ci={di}，这些类构成了D的一个聚类:C={c1，…，ci，…，cn}；（2）计算C中每对类(ci，cj)之间的相似度sim(ci，cj)；（3）选取具有最大相似度的类对，并将ci和cj合并为一个新的类ck=ci∪cj，从而构成了D的一个新的聚类C={c1，…，cn-1}；（4）重复上述步骤，直至C中剩下一个类为止。该过程构造出一棵生成树，其中包含了类的层次信息，以及所有类内和类间的相似度。11.2.4文本分类首先，把一组预先聚类过的文本作为训练集。然后对训练集进行分析以便得出各类的分类模式。对文本分类的有效方法是基于关联的分类:（1）提出关键词和词组。（2）生成关键词和词组的概念层次，或类层次结构。（3）词关联挖掘方法用于发现关联词，它可以最大化区分一类文本与另一类文本。这导致了对每一类文本，有一组关联规则。11．3Web挖掘11．3．1Web挖掘概述11．3．2Web内容挖掘11．3．3Web结构挖掘11．3．4Web应用挖掘11．3．1Web挖掘概述1．Web信息特点（1）Web信息特别庞大（2）Web信息非常复杂（3）Web信息是动态的（4）Web信息使用者复杂（5）Web信息中的“垃圾”非常多2．Web挖掘分类Web挖掘Web内容挖掘Web结构挖掘Web应用挖掘页面内容挖掘搜索结果挖掘使用模式挖掘个性使用跟踪Web挖掘分类2．Web挖掘分类（1）Web内容挖掘提取文字、图片或其他组成网页内容成分的信息和知识。（2）Web结构挖掘提取网络的拓扑信息，即网页之间的链接信息。（3）Web应用挖掘提取关于客户如何运用浏览器浏览和使用页面链接的信息。（4）区别与联系结构挖掘的表达方式是链接图，提示了哪些页面通过当前页可以几步内到达。内容挖掘的表达方式是一个网络索引，提示了网页的主题。应用挖掘集中于挖掘客户的行为，特别是随着时间的变化。11．3．2Web内容挖掘Web内容挖掘的基本技术是文本挖掘。1．信息检索信息检索的目标是找到你想要找的，从两个方面来判断该查询的有效性：“召回（recall）”和“精度（precision）”。“精度”回答了“在返回的网页中，正确的标题的比例是多少”；“召回”回答了“返回了多少正确页面”。11．3．2Web内容挖掘2．基于内容的分类“k最近邻（简称k-NN）”，这种方法很好地适用于在网页中利用关键词进行聚类。在k-NN方法中，每个新的网页与在数据库中预先聚类的例子进行对比。新网页将出现和一些现有的网页非常类似，与另一些非常不同的情况。通过使用k-NN可以对相同的网页进行聚类。相似度越高，聚类的可信度也就越高。11．3．2Web内容挖掘3．从纯文本中提取信息通过将纯文本转化为结构化的数据，他们能够直接应用数据挖掘技术做出预测。这种从非结构化数据中创建结构化数据的过程叫做特征抽取。通过以XML标记的形式向网站中添加更结构化的内容，比通过提高从非结构化的文本中提取信息的技术来得更加迅速一些。11．3．3Web结构挖掘结构挖掘可以告诉我们一些站点的受欢迎程度和它同其他站点的距离（通过跳转次数来判定）。万维网（）是一个有向图G=(V，E)，V是页面的集合，E是页面之间的超链接集合。页面抽象为图中的顶点，而页面之间的超链接抽象为图中的有向边。顶点v的入边表示对v的引用，出边表示v引用了其它的页面。Web页面之间的超链接揭示了Web结构。11．3．3Web结构挖掘1.网页的引用一篇文章的有用与否在于这篇文章出现在其他文章的参考书目中的次数。特别是作者，会因为他的作品的重复引用而在某个学科出名。网页引用的Page-rank方法：（1）一个页面被多次引用，则这个页面很可能是重要的；（2）一个页面尽管没有被多次引用，但被一个重要页面引用，则这个页面很可能是重要的；（3）一个页面的重要性被传递到它所引用的页面。11．3．3Web结构挖掘3.导航页导航页使他们能够很容易地找到他们想要找的网页。4.目标页目标页给浏览者提供所有的内容。11．3．4Web应用挖掘应用挖掘从单个客户在一次对话中的一系列的单击到跨越了几个月或数年的客户群的购买模式中，收集信息组成一个特性文件，依次提供当前客户的快照。11．3．4Web应用挖掘1.点击流分析用于Web挖掘的有效的最简单的数据就是点击流——由一个站点的网络服务器来接受的网页请求。点击流的定义是一个网站浏览者通过点击链接所明确要求的一系列文件。在网络世界里记录了所有客户的浏览器所请求的文件。11．3．4Web应用挖掘2.网络日志点击流的分析始于网络日志。当客户单击单独的网页时，点击也将通过各种指标予以记录。11．3．4Web应用挖掘3.应用日志要求从应用服务器上得到的数据是完整的点击流数据。只有应用日志知道什么时候一些商品放在商店里，什么时候该拿走，什么时候客户进来，什么时候客户出去。4.日志挖掘的基本流程（1）对访问日志（WebLog）进行清洗、过滤和转换，从中抽取感兴趣的数据。（2）将资源的类型、大小、请求的时间、停留时间、请求者的域名、用户、服务器状态作为数据立方体的维变量。将对页面和文件请求次数、来自不同域请求次数、事件、会话、错误次数分别作为在这些维变量下的度量变量，建立数据立方体。通过切块、切片分析可以回答：哪些成分或特色被经常或偶尔使用，网络流量随时间的变化规律。（3）利用数据挖掘技术进行Web流量分析、典型的事件序列和用户行为模式分析。结束

文本挖掘与Web挖掘

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

湖南省中小学教师信息技术培训（高级）

国家电网公司12kV 柱上断路器-技术范本专用部分

微型机械加工技术发展现状及趋势分析(doc7)(1)

岩棉板外墙外保温施工方案

石油化工词汇大全

化药可仿制品种总目录(最新版本)

新旧qc七大手法

XXXX创新中国高峰论坛举行

4S店开业庆典策划方案

新浪微博粉丝增加推广宝典

相关文档

相关搜索