您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第七章-非结构化数据挖掘
数据仓库与数据挖掘2数据仓库与数据挖掘第一章数据仓库与数据挖掘概述第二章数据仓库的分析第三章数据仓库的设计与实施第四章信息分析的基本技术第五章数据挖掘过程第六章数据挖掘基本算法第七章非结构化数据挖掘第八章离群数据挖掘第九章数据挖掘语言与工具的选择第十章知识管理与知识管理系统3第七章非结构化数据挖掘7.1文本挖掘7.2Web数据挖掘7.3空间群数据挖掘*7.4多媒体数据挖掘*47.1文本挖掘文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息结构、模型、模式等各种隐含的新颖知识。文本挖掘的主要目标是获得文本的主要内容特征,如文本涉及的主题、文本主题的类属、文本内容的浓缩等。文本挖掘的具体实现技术主要有如下几种。57.1文本挖掘类别描述特征抽取文本特征包括:一般特征和数字特征一般特征主要包括:名词和名词短语数字特征主要包括:日期、时间、货币以及单纯数字信息主题标引利用主题词标引代替关键词标引。文本分类预先对文本进行特征抽取,它利用文本特征向量对文本进行分类。按照内容将自然语言文本自动分配给预定义的类别。文本聚类它要划分的类是未知的。文本聚类是对给定的文本集,根据文本相似度进行聚类的方法。自动摘要通过系统分析文章的结构,找出文章的主题语句,然后经过整理、组合、修饰,构成摘要的过程。表7.1文本挖掘的典型技术67.1文本挖掘7.1.1文本挖掘的一般过程与应用7.1.2文本表示与预处理7.1.3文本分类方法与文本聚类方法7.1.4自动摘要方法77.1.1文本挖掘的一般过程与应用(1)文本挖掘过程过程任务文本准备具体任务包括词性的标注、句子和段落的划分、文本过滤。特征标引一般通过计算机系统自动选择一组主题词或关键词可以作为文本的特征表示。词频矩阵降维自动从原始特征集中提取出部分特征的过程被称为词频矩阵降维。两种途径:一是根据对样本集的统计分析,删除不包含任何信息或只包含少量信息特征;二是将若干低级特征合成一个新特征。知识模式的提取发现文本中的不同实体、实体之间的概念关系、类型的隐含知识。知识模式评价从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式知识模式的输出用知识可视化;概念图软件套件等方式展现在用户的面前。表7.2文本挖掘的主要过程87.1.1文本挖掘的一般过程与应用(2)文本挖掘的主要应用目前文本挖掘处理主要集中于信息自动导航、可视化信息检索、信息提取、信息分类、文本聚类等。97.1.2文本表示与预处理(1)文本表示文本表示是指用文本的特征信息集合来代表原来的文本。文本的特征信息是关于文本的元数据,可以分为外部特征和内部特征两种类型。文本的外部特征包括文本的名称、日期、大小、类型、文本的作者、标题和机构等信息。文本的内部特征包括主题、分类、摘要等信息。文本的表示方法主要采用向量空间模型(VSM)。107.1.2文本表示与预处理向量空间模型主要用于文本内容特征的表示,一般使用词来代表文本的特征信息,我们称每个词为一个特征项。向量空间模型的基本思想是以向量(w1,w2,…,wn)来表示文本,其中wi为第i个特征项的权重。可以选择字、词或者词组作为特征项。采用向量空间表示文本,文本挖掘问题就被转化为数据挖掘问题。这种表示方法由于在用一个简单的向量表示一篇文本时会损失文本中的大量信息,这种信息的损失会影响到挖掘的效果。通常选择词作为特征项,并使用词频来表示特征项对应的分量。117.1.2文本表示与预处理词频分为绝对词频和相对词频两种。绝对词频是指词在文本中出现的频率;相对词频是规范化的词频,即要求所有向量分量的平方和为1。相对词频的计算方法主要运用TF-IDF公式。dtttnNdttfnNdttfdtW201.0log,01.0log,,其中:dttf,为词t在文本d中的词频dtW,为词t在文本d中的权重N为训练文本的总数nt为训练文体中出现t的文本数分母为规范化因子127.1.2文本表示与预处理(2)文本分词分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,它是中文自动标引的基础。汉语分词的难点主要表现在两个方面:歧义切分:汉语字与字之间组词灵活,给分词带来了很大困难。从上下文关系的角度看,其中只能有一种切分结果是正确的。另外,从标引角度讲,还存在交集型字符串。未登录词:主要是指分析系统的词典中未收录的词。不断出现的新词属于另外一类未登录词。137.1.2文本表示与预处理分词技术可以分为5类:词典分词法、切分标记分词法、基于统计的分词方法、基于语言规则的分词方法和智能分词法。1)词典分词法构造一个机内词典(主题词典、关键词词典和部件词词典)并将其与被标引的信息进行匹配,当从处理的信息中得到词典词汇时,好把它作为后备标引词记载下来,最后利用西文成熟的标引技术进行标引处理。词典法主要用于主题相对集中的信息库。词语匹配方法有:就扫描的顺序而言有正向扫描匹配,逆向扫描匹配和正逆向结合扫描匹配,其中正逆向结合扫描匹配可以解决交集型字符串的切分问题。147.1.2文本表示与预处理在进行词语匹配时,有最长匹配、最短匹配、长短匹配结合、词首匹配等多种策略。2)切分标记分词法利用切分字典指导分词。切分字典是由能够断开词和词组或表示汉字之间关系的汉字集合组成字典,包括的内容有词首字、词尾字等,也有的系统以非用字、条件用字等组成切分字典。切分标记分词法的典型代表是非用词后缀表示方法。该方法将汉字分为“非用字”、“条件用字”、“表内用字”、“表外用字”,但主要利用“非用字”和“条件非用字”进行词语的划分。157.1.2文本表示与预处理3)基于统计的分词方法用字与字相邻共现的频率来反映字符串确实是一个词的可信程度。在上下文中,相邻的词同时出现的次数越多,即越有可能构成一个词。4)基于语言规则的分词方法在分词的过程中加入词法、语法以及语义规则等来提高分词的质量。一般都是人工添加规则,或者在人工添加的基础上再从有限的训练语料库中得到分词规则。167.1.2文本表示与预处理5)智能分词法利用人工智能的方法进行分词。常用的有中心词驱动分析法、分词与句法语义分析同步处理法和分层理解分析法等。主要思想是建立分词知识库(包括词类词典、句法和语义规则知识库、专门领域知识库和背景知识库等),并以分词知识库为基础进行推理和语句判断,达到正确分词的目的。177.1.2文本表示与预处理(3)文本标引标引就是描述信息内容特征的全过程,一般选取的标引词多为名词,因此在选取标引词前需要进行文本进行词性标注。标引可分为人工标引和计算机自动标引。常见的自动词性标注方法有基于概率统计的标注方法和基于规则的标注方法两种类型。187.1.2文本表示与预处理(4)文本相似度计算一般认为相似的文本具有相似的关键词和相对词频,因此一般一组文本的相似度可以用基于关键词向量或相对词频向量来计算,利用文本的相似度可以对文本进行分类和聚类,或抽取重要的语句或重要段落。在文本与词的相关矩阵(tij|i=1,2,…,m;j=1,2,…,n)中,其中tij表示第i篇文本与第j个词的相关程度,tij的取值范围为[0,1]。利用文本与词的相关矩阵可以分析文本间的相关性。197.1.2文本表示与预处理相关性的大小可以用相关系数S来度量,第i篇文本与第j篇文本的相关系数可以表示为Sij。计算相关系数的方法有多种,其中,余弦系数法最为常用:nkjknkiknkjkikijttttS12121,207.1.2文本表示与预处理设d1和d2为两个文本特征向量,它们的余弦相似度定义也可以表示成如下形式:cos(d1,d2)=(d1·d2)/|d1||d2|其中d1·d2为标准向量积,分母中的|d1|是向量d1的长度,|d2|是向量d2的长度。217.1.2文本表示与预处理(5)词频矩阵降维词频矩阵降维就是对特征集进行缩减,降低词频矩阵的维度,以便提高程序效率和运行速度。为了解决这个问题,人们提出了概念标引降维、潜在语义标引降维等方法。概念标引降维就是用表示主题概念词对文本进行标引。概念标引一般需要构造一部好的层次概念词典。层次概念词典的主题概念方法包括通过聚类产生上位词作为主题概念和由两个或两个以上的主题词合成主题概念。潜在语义标引法降维是利用矩阵理论中的“奇异值分解”技术将词频矩阵转化为低维度的矩阵。它利用概念标引取代关键词标引,从语义相关的角度为文本选取标引词,而不考虑标引词是否在文本中出现。227.1.2文本表示与预处理(6)重复文本处理相关文章分析技术可用于处理重复文本。其主要的原理如下:第一步,对文档建立部分词索引(非全文索引),这些词被确认为表达文章主要概念的词,主要是名词、动词和形容词等实词,不包含连词和助词等虚词;第二步,在进行相关文章分析处理时,首先对输入的文档进行分析,找到有意义的索引词;第三步,逐词到索引库中查找与之相关的文档,并记录查询结果;第四步,根据每篇文档中包含索引词的多少、词频、文档的长度等信息来计算相似度;第五步,根据相似度的大小进行排序,最相似的文档往往就是重复的文档。237.1.2文本表示与预处理(7)文本过滤文本过滤就是从文本数据流中寻找满足用户特定需求的文本过程。这种过程一般通过文本过滤系统来动态进行处理。它一般需要解决用户需求的表达、合适阀值的确定、用户的兴趣与动态文本信息流的匹配等问题。用户需求的表达用于刻画用户特征与用户之间的关系。它可以分为基于兴趣和基于行为的两种类型。文本过滤技术可以分为基于内容的文本过滤和基于协作的过滤。247.1.3文本分类方法与文本聚类方法(1)文本分类根据文本内容或主题对文本进行分类称为文本分类。常见的文本分类方法如表7.3所示。类别描述向量空间模型法将文本内容转换为向量,利用相似度运算进行分类。基于关联的分类方法用信息检索技术等提取关键词,生成概念层次,利用关联分析对文档分类。简单向量距离分类法用算术平均为每类文本集生成中心向量,利用新文本向量与中心向量间相似度分类。表7.3文本分类方法257.1.3文本分类方法与文本聚类方法类别描述简单的贝叶斯分类法计算文本属于类别的概率方法:计算特征词属于每个类别的概率向量;对于新文本利用概率向量计算该文本属于某类的概率;比较新文本属于所有类的概率,将文本分到概率最大的那个类中。K最近邻居(KNN)算法根据特征项集合描述训练文本向量,将新文本表示为特征向量,在训练文本集中与该新文本距离最近的K篇文本,根据这最近的K篇文本所属的类别判断新文本的类别。支撑向量机(SupportVectorMachine,SVM)它不是通过减少特征的个数来控制模型的复杂性。在训练集上,作超平面的线性划分,先将分类问题转化为寻找空间最优平面问题,再转化为一个二次规划问题。词表法分类借助于主题词表进行分类,符合文献分类体系。表7.3文本分类方法-续267.1.3文本分类方法与文本聚类方法文本的分类测试可用语料库。语料库能够代表同类某一领域的语言现象的真实语言材料的集合。英文的文本分类研究已经存在一些可以免费获得的国际通用的测试语料集。语料分为测试语料和学习语料。277.1.3文本分类方法与文本聚类方法(2)文本聚类将数据挖掘中的聚类算法用于文本类别生成。常见方法包括划分聚类、层次聚类、基于统计分类、基于神经网络分类和基于遗传算法分类等多种算法。287.1.4自动摘要方法自动摘要方法如表7.4所示。类别描述自动摘录自动在文中抽取主题句,计算句子中每个词的权值;计算每个句子的权值;对原文中所有的句子按权值的高低进行降序排列,权值最高的若干句子被选为摘要句;将所有的摘要句按照在原文中的出现顺序输出。权值的计算主要依据:标题词、词或句子的位置、句法结构和线索词。基于理解的方法语法分析、语义分析、语用分析和信息提取、文本生成。信息抽取只对有用的文本片段进行有限深度的分析,其效率和灵活性较高。基于结构的方法利用用文章的篇章结构生成摘要。表7.4自动摘要方法29第七章非结构化数据挖掘7.1文本挖掘7.2Web数据挖掘7.3空间群数据挖掘7
本文标题:第七章-非结构化数据挖掘
链接地址:https://www.777doc.com/doc-4746858 .html