您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 计算机科学与技术学院
计算机科学与技术学院中文文本分类专题ChineseTextClassification苏州大学计算机科学与技术学院何为文本分类在给定的分类模型下,根据文本的内容让计算机自动判断文本类别的过程从数学的角度是一个映射的过程将一个未表明类别的文本映射到已有的类别中可以一对一,也可以一对多文本分类的类型根据需要的不同单类别分类每个文档必须归属一个类别多类别分类一篇文档可以属于多个类夜可以不属于任何类文本分类的方式以文档为中心的分类Document-PivotedTextCategorization给定一篇文档,遍历所有类别,判断它属于的类以类别为中心的分类Category-PivotedTextCategorization假定某个类别,在给定的文档集中找出属于该类的文档子集中文文本分类系统自动分词特征选择与抽取文本计算模型文本识别算法中文文本分类系统结构图被分类的文本形式化表示训练样本预处理特征提取分类器输出类型分类评估文本分类的发展可行性研究阶段1958-1964试验研究阶段1965-1974实用化阶段1975至今中文始于20世纪80年代文本特征的选择预处理去除格式标记去除停用词自动分词词性标注词频统计文本特征的选择目的提高分类效率、减少计算复杂度去除不带分类信息和信息量较少的词一个特征词条在一个文档中出现的次数越多,它与该文档对应的主题越相关一个特征词在越过的文档中出现,它对类别区分度的作用越小用权值来表示一个词的作用文本分类方法(一)Rocchio方法相似度方法为每类文本集生成中心向量确定文本向量计算文本向量与每类文本集中心向量的相似度取相似度的最大值文本分类方法(二)贝叶斯方法计算文本属于某个类别的概率具体步骤:计算特征词属于每个类别的概率向量新文本到达,根据切分出的特征词,计算该文本属于不同类的概率比较计算出的多个概率,并决定类型文本分类方法(三)KNN方法K近邻方法将每个文本看称平面上的一个点选择几个中心点,计算每个点和它们的距离小于指定的K值,则为它们的邻居这样可以把文档分成很多个类别不断矫正每个类别的中心点特点:开始效果差,后来越来越好文本分类方法(四)(五)SVM支持向量机DecisionTree决策树方法选择阈值文本分类的方法化分类为数学计算通常是计算出一个值该值小于指定的阈值则为该类如何确定阈值?平均法CSV阈值法均衡阈值法固定阈值法各种方法都有优缺点、根据不同需要选择使用评估方法查全率分类的正确文本数/应有的文本数准确率分类的正确文本数/实际分类的文本数F1测试值查全率×查准率×2/(查全率+查准率)
本文标题:计算机科学与技术学院
链接地址:https://www.777doc.com/doc-3610248 .html