您好,欢迎访问三七文档
Mallet:自然语言处理工具包发表于128天前⁄技术,科研⁄评论数6⁄被围观1006Views+MALLET是基于java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用,虽然是文本的应用,但是完全可以拿到多媒体方面来,例如机器视觉。MALLET包含了足够的文本分类的算法,还有特征提取的算法等。文本分类的算法像是NaïveBayes,MaximumEntropy,andDecisionTrees等,而且也对代码做了优化。MALLET也包含sequencetagging的工具和算法,例如信息抽取的应用等,算法有HiddenMarkovModels,MaximumEntropyMarkovModels,andConditionalRandomFields.MALLET也包含主题模型:topicmodelingtoolkitcontainsefficient,sampling-basedimplementationsofLatentDirichletAllocation,PachinkoAllocation,andHierarchicalLDA.MALLET当然还有其他功能,很强大。下面是api和一个pdf的链接:[API][教程]。==============关于MALLET的安装配置==================这里有一个安装配置的说明,我把它转载过来了:Mallet使用说明Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。下面是从如何配置mallet环境到如何使用mallet进行介绍。一.实验环境配置1.下载并安装JDK,并正确设置环境变量需设置三个环境变量:JAVA_HOME:该环境变量的值就是Java所在的目录,例如C:\ProgramFiles\Java\jdk1.6.0_10PATH:指定一个路径列表,用于搜索可执行文件。该环境变量值为:%JAVA_HOME%\binCLASSPATH:指定一个路径列表,是用于搜索Java编译或者运行时需要用到的类。该环境变量的值为:%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar运行cmd分别输入javac和java,没有出错则表示配置成功。2.下载apache-ant,不需安装,只需正确设置环境变量。apache-ant是一个基于Java的编译工具。下载,解压放到你要的目录配置ANT_HOME:设置为apache-ant的解压目录,例如:C:\server\apache-ant-1.8.0classpath:%ANT_HOME%\libPath:%ANT_HOME%\bin测试运行cmd输入ant结果如下则表示配置成功Buildfile:build.xmldoesnotexist!Buildfailed3.下载mallet最新版本mallet-2.0.5,地址:配置环境变量:MALLET_HOME=MALLET的解压目录,例如C:\malletPath中添加%MALLET_HOME%\binclasspath:%mallet_home%\class;%mallet_home%\lib;%mallet_home%\lib\mallet-deps.jar运行cmd,进入到mallet的解压目录输入ant如果出现Buildsuccessful字样,则表示配置成功二.Mallet简要说明全称:MAchineLearningforLanguagEToolkitMallet是一java的软件包,专门用于统计自然语言处理,文本分类,主题建模,信息抽取,以及其它涉及文本的机器学习方面的应用。a)文本分类:它的基本思想是,用大量的训练样本训练分类器,再用些测试样本测试分类器的性能,然后保存训练好的分类器模型。当将未知类别的文本输入已训练好的分类模型时,可输出此未知类别样本所属各个类别的的概率。b)主题建模:主题建模用于分析大量的未标示(类别未知)的文本。通过分析这些文本,可以得出一些(个数可指定,也可默认)主题,每个主题由一些经常出现在一起的词组成。可以保存建模好的主体模型,以备推断一未知文本所属主题时所用。c)Mallet可以把文本转换为数学上的表达形式,从而更有效的对文本进行机器学习。这个过程是通过“管道(pipe)”系统实现的,它可以进行分词,移除停用词,把序列转换为向量等方面的操作。具体代码可见mallet\src\cc\mallet\pipe。三.Mallet使用步骤文本分类:1.C:\malletmalletimport-dir--inputsample-data\classify-input\*--outputclassify-input.mallet此命令等价于:C:\malletjavacc.mallet.classify.tui.Text2Vectors--inputsample-data\classify-input\*--outputclassify-input.vectors此命令是把classify-input(此名称可以根据自己的需要改,我在此命名此文件夹名为classify-input)目录下的文件夹中的所有数据转为特征向量的形式,mallet可用已转换好的数据格式进行训练、测试分类器等操作。注:在此,classify-input下有三个文件夹,分别为sport、science、food。执行此命令后,系统会自动将数据分为三类,类别名称为sport、science、food,三个文件夹下的数据类别分别于所属文件夹名称一一对应。2.C:\malletmallettrain-classifier--inputclassify-input.mallet--trainerNaiveBayes--training-portion0.8--output-classifierclassifier1.classifier此命令等价于:C:\malletjavacc.mallet.classify.tui.Vectors2Classify--inputclassify-input.vectors--trainerNaiveBayes--training-portion0.8--output-classifierclassifier1.classifier此命令是训练、测试分类器。--input参数的值classify-input.mallet是第一步中生成的特征向量,--trainer参数的值NaiveBayes是指训练分类器的算法,可以指定其他算法,例如MaxEnt等。--training-portion参数的值这里是0.8,可以根据需要设定,0.8的意思是随机抽取classify-input.mallet数据中的80%当训练数据,剩下的当测试数据,用于测试已训练好的分类器的准确性等等性能指标。--output-classifier参数的值classifier1.classifier是所存已训练好的分类器的名称。3.C:\malletjavacc.mallet.classify.tui.Text2Classify--inputsample-data\data\classify-test.txt--output---classifierclassifier1.classifier此命令是用已训练好的分类器来对一未知类别文本进行分类。--input参数值sample-data\data\classify-test.txt是要进行分类的未知类别文本的位置。--output后面参数值“-”意思是直接在命令行中输出所属各个类别的概率。--classifier参数的值是指使用的分类器名称(即,训练好的分类器)。注:对未知类别文本进行分类时不需进行数据预处理,直接输入文本即可,文本中一行代表一个分类实例。主题建模1.C:\malletmalletimport-dir--inputsample-data\topic-input--outputtopic-input.mallet--keep-sequence--remove-stopwords此命令是将topic-input目录下的所有文本转换为特征序列,--keep-sequence参数必须有,否则会出错,因为主题建模时所用数据源就是特征序列,而不是特征向量,所以必须用--keep-sequence此参数来限制转换数据的格式。--remove-stopwords的意思是移除停用词。2.C:\malletmallettrain-topics--inputtopic-input.mallet--num-topics2--output-doc-topicsdocstopics--inferencer-filenameinfer1.inferencer此命令是用第一步的数据进行主题建模,参数--num-topics的值2意思是限定主题个数为2,可以根据需要设置其他值,默认的主题数为10.。--output-doc-topics参数的意思是输出文档-主题矩阵,存到docstopics文件中。--inferencer-filename参数的意思是对将训练好的主题模型进行存储,以备后用,在此,此主题模型存到参数值infer1.inferencer中,可根据习惯自行命名。3.C:\malletmalletimport-dir--inputsample-data\data--outputtopic-test.mallet--keep-sequence--remove-stopwords同1说明。4.C:\malletmalletinfer-topics--inputtopic-test.mallet--inferencerinfer1.inferencer--output-doc-topicstestdocstopics用训练好的主题模型对未标示的文本topic-test进行主题推断。--inferencer参数的意思是用已经训练好的主题模型infer1.inferencer进行对未知文本的主题推断。--output-doc-topics参数的意思是输出文档-主题矩阵,存到docstopics文件中。注:文本分类时未知文本必须用一文档表示,文档中每行代表一分类实例。而主题建模时可以对单个文档主题建模,可以对一目录下的所有文档进行主题建模,例如主题建模第三步,可以用import-dir命令。C:\malletmalletimport-file--inputsample-data\data\topic-test.txt--outputtopic-test.mallet--keep-sequence--remove-stopwordsimport-file,import-dir,train-topics,infer-topics,train-classifier等等这些命令可以通过以下操作进行查询:C:\malletmallet查询每条命令的参数可以通过以下命令行操作进行:例如:C:\malletmalletimport-dir--help可以根据自己的需要选用参数。
本文标题:MALLET教程
链接地址:https://www.777doc.com/doc-2886678 .html