您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第1讲 文本挖掘概述
1什么是文本挖掘?2文本挖掘的基本思想3文本挖掘和数据挖掘的区别和联系4文本挖掘的一般过程5文本挖掘可以解决什么类型的问题?6文本挖掘应用7文本挖掘在医疗领域应用的案例展示关于文本挖掘名字TextMiningTextDataMiningKnowledgeDiscoveryinText文本知识发现KnowledgeDiscoveryinTextualData文本挖掘定义◦TextMiningismainlyaboutsomehowextractingtheinformationandknowledgefromtext◦文本挖掘是一个以半结构(如WEB网页)或者无结构(如纯文本)的自然语言文本为对象的数据挖掘,是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在的有用的规律的过程。(对KDD定义进行扩展)2文本挖掘的基本思想首先利用文本切分技术,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据,然后利用聚类、分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相应的关系。换个说法:把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。◦大规模的数据集◦高维◦过适应overfitting◦噪声数据◦挖掘出的模式的可理解性区别:◦文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;◦数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识;◦数据挖掘已不是什么方兴未艾的新兴技术,在业界远未普及,但是,理论技术已经高度发达,对于某些问题解决也几近成熟。文本挖掘面临好多问题。◦大多数情况,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。联系数据挖掘和文本挖掘不是两个完全不同概念。事实上,它们都基于对以前样例的抽样分析,虽然样例组成大不相同,但是许多学习方法是相似的。因此,在文本挖掘过程中,文本将转换为数字形式。数据粗分为两种类型:(a)有序数值类型可以比较大小,例如,“重量”和“收入”(b)分类类型。分类属性是在代码书中定义的无序数值代码。最常见分类类型数据是可以取值为“真”或者“假”的属性,用1表示真,0表示假。学习程序并不关心代码含义,而最终理解学习程序结果却要依赖代码含义。文本是以文字串形式表示的数据文件非结构化文本源(如文档、网页、企业管理日志等)文本的特点语言难点:文本不是给计算机阅读的复杂的语言结构:语法语义更困难的:歧义多语言这辆车没有锁;小张租小王两间房;三个学校的领导;这个人好说话;放弃美丽的女人让人心碎。经典的数据挖掘和文本挖掘的数据表示有很大不同。文本挖掘方法想要看到文档格式,而经典数据挖掘方法着重于处理电子表格格式的数据,而在文档领域描述数据的标准是称为XML格式的变体。很明显,我们期望文本和数字是完全不同的。我们将讨论的文本方法和数据挖掘中使用的方法是相似的。这些方法已经被证明是非常成功的,尽管它们没有考虑到特定的文本属性,例如语法的概念或者文字的意义。通过使用频率信息——例如一个词在文档中出现的次数——成熟的机器学习方法得以应用于文本挖掘。文本挖掘的一个重要支撑是---文本数据到数值数据的转换,所以虽然数据初始表示不同,但是通过中间阶段将数据转换成到经典的数据挖掘编码格式,无结构的数据将会被结构化。将数据从文本转换到标准数值形式。将文本转换为标准的电子表格格式,并且填写电子表格的单元格。可考虑将文档看作一个完整的样例。列是可以被衡量的属性。在文本的最基本模型中,可认为词的出现或不出现为每个文档中的可度量属性。因此,每行表示一个文档,每列表示一个词。如图,用1或者0填写单元格。在这个样例中,词“收入”出现在文档1和3,而不是文档2或4。公司收入工作海外0101101111100001图1.3文档中词的二进制电子表格词是属性,文档是样例将词转化为数字,然后应用已知的数据挖掘方法。急于在原始数据中应用学习方法是愚蠢的,特别是在没有考虑特定文本属性的情况下。电子表格只不过是概念模型,在实际应用中效率低下.考虑文档为一个集合。属性集将是集合中唯一词的总集合。我们称这个词集为字典。样例是个别的文档。一个应用程序可能有数千个或者甚至数以百万计的文档。这个字典将集中到比文档数目更小的词,但仍然可以编号到几十万。正常情况下的电子表格矩阵是稀疏的:任何单个文档仅仅使用字典中词的潜在集合的一个极小的子集。因为这一特殊性质,电子表格仍然是一个合理的概念模型数据。文本挖掘方法主要集中于正匹配,不担心其他词是否存在于文档。此观点也引起了处理时的极大简化,往往使得文本挖掘程序可以处理常规数据挖掘认为规模过于庞大的问题。尽管文本挖掘在高维度进行操作,但是在很多情况下,由于多数文档和多数实际应用程序的稀缺性,处理过程还是很高效的。文本采集文本预处理文本分析知识获取文本分词数据清洗可视化展示词频统计特征提取词共现相关分析语义网关联规则分类聚类检索过滤TDT可视化分析停用词同义词近义词标点符号?数字?日期?词典导入•专业字典•自定义字典文本矢量化文本采集文本预处理分词文本清洗文本矢量化原始的非结构化数据源结构化表示文本分析文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系知识获取挖掘结果可视化也就是文本挖掘系统的表示层,简称浏览图3鼻炎非药物治疗手段文本挖掘的一般处理过程1文本预处理原始的非结构化数据源结构化表示文本的预处理过程可能占据整个系统的80%的工作量。同义词近义词停用词2文本特征抽取抽取代表文本特征的特征项,这些特征可以用结构化的形式保存,作为文档的中间表示形式。文本特征表示:对从文本中抽取出的特征项进行量化,以结构化形式描述文档信息。这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫做目标表示。文本表示模型常用的有:布尔逻辑模型,向量空间模型、潜在语义索引和概率模型。VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出现的先后次序是无关紧要的,每个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。特征子集的提取:是通过构造一个特征评估函数,对特征集中的每个特征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排序,选取预定数目的最佳特征作为特征子集。特征集约减目的:1)为了提高程序效率,提高运行速度;2)数万维的特征对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特征,筛选出针对反映该类的特征集合。一个有效的特征集直观上说必须具备以下两个特点:1)完全性:确实体现目标文档的内容;2)区分性:能将目标文档同其他文档区分开来。3文本模式挖掘文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系4模式评价和可视化也就是文本挖掘系统的表示层,简称浏览文本挖掘的用武之地:文本摘要文本分类信息检索文档聚类与组织信息提取预测评估其他注:这里不强调语言学领域的分析,统计和关联关系是研究的基础。指从文档中抽取关键信息,用简洁的形式,对文档内容进行摘要和解释,这样用户不需阅读全文就可了解文档或文档集合的总体内容。如上海交通大学纳讯公司的自动摘要文本分类一个文档通常可以出现在多个文件夹里举个例子来说,根据以往的经验来预测股票的走势。搜集一些和某个公司的财务报告有关的新闻文章,然后建立起一个文档信息和那家公司股票涨跌之间的关联关系,这些文档的标签是二进制的,1表示上涨,0表示下跌。图1.4文本分类复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;3)用训练好的分类模型对其它待分类文本进行分类;4)根据分类结果评估分类模型。近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决策树基于向量空间模型的K-最近邻基于概率模型的方法,如朴素Bayes分类器,隐马尔可夫模型等。神经网络方法基于统计学习理论的支持向量机方法……文本挖掘文档匹配文档集合输入文档匹配的文档图1.5检索匹配的文档还有什么能比搜索引擎更基础呢?给出有关被检索文档的一些线索与线索匹配的文档用户提交的一系列的线索词有时文档匹配器可以对文档中的某些词进行替换代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎。召回率:Recall,又称“查全率”准确率:Precision,又称“精度”、“正确率”可以把搜索情况表示:A:检索到的,相关的(搜到的也想要的)B:检索到的,但是不相关的(搜到的但没用的)C:未检索到的,但却是相关的(没搜到,然而实际上想要的)D:未检索到的,也不相关的(没搜到也没用的)希望:被检索到的内容越多越好,这是追求“查全率”,即A/(A+C),越大越好。希望:检索到的文档中,真正想要的、也就是相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。“召回率”与“准确率”虽然没有必然的关系在实际应用中,是相互制约的。要根据实际需求,找到一个平衡点,F值。原理1、文本相似度计算的需求始于搜索引擎。搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。2、主要使用的算法是tf-idftf:termfrequency词频idf:inversedocumentfrequency倒文档频率主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。第一步:把每个网页文本分词,成为词包(bagofwords)。第三步:统计网页(文档)总数M。第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf为:n/N*1/(m/M)(还有其它的归一化公式,这里是最基本最直观的公式)第四步:重复第三步,计算出一个网页所有词的tf-idf值。第五步:重复第四步,计算出所有网页每个词的tf-idf值。3、处理用户查询第一步:对用户查询进行分词。第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf值。4、相似度的计算使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。官方主页:代码页:布尔模型是简单常用的严格匹配模型;概率模型利用词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。没有现成的文件夹,不了解文档集合的结构?例如,一个公司可能设有接受和记录用户投诉电话的服务台,公司想要了解用户投诉的类型以及将这些投
本文标题:第1讲 文本挖掘概述
链接地址:https://www.777doc.com/doc-5928672 .html