您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > RapidMiner图示中文教程
RapidMiner5简易教程简易教程简易教程简易教程广东外语外贸大学杜剑峰RapidMiner教程1.RapidMiner简介2.预测建模3.交叉验证4.文本分类5.中文网页分类6.中文网页聚类课程的总体目标和要求课程的总体目标和要求课程的总体目标和要求课程的总体目标和要求::::熟悉RapidMiner的基本操作和各项功能熟悉RapidMiner的框架,可以自学新部件掌握文本分类和文本聚类实验的流程准备数据选择算法和参数运行评估实验结果1、RapidMiner简介RapidMiner,以前叫YALE(YetAnotherLearningEnvironment)。RapidMinder提供的实验由大量的算子组成,使用图形化的用户接口可以将这些算子以积木块的方式搭建成系统。RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。——百度百科下载地址:注意使用UpdateRapidMiner功能添加TextPreprocessing构件,或者下载该构件的压缩包放置lib\plugins子目录中1、RapidMiner简介(续1)欢迎界面1、RapidMiner简介(续2)操作界面1、RapidMiner简介(续3)结果界面2、预测建模操作界面(建立分类模型并使用外部测试集评估模型)2、预测建模(续)结果界面3、交叉验证操作界面(主进程)3、交叉验证(续)操作界面(Validation内进程)3、交叉验证(续)结果界面4、文本分类操作界面(建立文本分类模型并使用外部数据集评估)4、文本分类(续)操作界面(类别目录配置)4、文本分类(续)操作界面(ProcessDocumentsfromFiles内进程)4、文本分类(续)结果界面5、中文网页分类操作界面(建立中文网页分类模型并用外部测试集评估)5、中文网页分类(续)以某个目录下的网页测试中文网页分类模型测试集使用ProcessDocumentsfromFiles部件读入,设置第一个参数为测试网页所在的路径,对应的classname可以任意填写。对于所有ProcessDocumentsfromFiles部件,设置encoding为GB18030,勾选extracttextonly和addmetainformation。注意添加的元信息字段都不不不不是regular角色的,不会被分类算法处理。使用GenerateAttributes部件增加一个cutname字段,使用正则表达式cut(metadata_file,0,4)生成该字段。设置正确的label角色的字段,注意数据集中只能有一个label角色的字段。先使用SelectAttributes部件,删除原来label角色的字段,即label。然后使用SetRole部件,将cutname字段改成label角色。修改提供训练集的ProcessDocumentsfromFiles部件,将classname改成与cut(metadata_file,0,4)对应的4个字母。增加ApplyModel部件。增加Performance部件。5、中文网页分类(续)如图设置读入训练集的ProcessDocumentsfromFiles部件的第一个参数设置encoding参数是GB18030(中文操作系统可保持SYSTEM)勾选extracttextonly参数勾选addmetainformation参数5、中文网页分类(续)操作界面(ProcessDocumentsfromFiles内进程)5、中文网页分类(续)结果界面(性能评估)5、中文网页分类(续)操作界面(建立中文网页分类模型并采用交叉验证评估)5、中文网页分类(续)操作界面(Validation内进程)5、中文网页分类(续)结果界面(性能评估)6、中文网页聚类操作界面(对中文网页聚类并进行外部指标评估)6、中文网页聚类(续)对某个目录下的中文网页聚类并进行外部指标评估使用ProcessDocumentsfromFiles部件,设置第一个参数为只能中文网页所在的路径,对应的classname可以任意填写,设置encoding为GB18030,勾选extracttextonly和addmetainformation。注意添加的元信息字段都不不不不是regular角色的,不会被聚类算法处理。使用GenerateAttributes部件增加一个cutname字段,使用正则表达式cut(metadata_file,0,4)生成该字段。设置正确的label角色的字段,注意数据集中只能有一个label角色的字段。先使用SelectAttributes部件,删除原来label角色的字段,即label。然后使用SetRole部件,将cutname字段改成label角色。使用K-Means部件,注意参数k的数值要与训练集的类数目一致。使用MapClusteringonLabels部件产生predicate(label)字段(这是一个predicate角色的字段)。使用Performance部件,对label角色的和predicate角色的字段值进行比较和统计,算出性能评估结果,比如准确率等。6、中文网页聚类(续)如图设置ProcessDocumentsfromFiles部件的第一个参数,classname任意填写设置encoding参数是GB18030(中文操作系统可保持SYSTEM)勾选extracttextonly参数勾选addmetainformation参数6、中文网页聚类(续)结果界面(聚类结果)6、中文网页聚类(续)结果界面(性能评估)6、中文网页聚类(续)操作界面(对中文网页聚类并进行内部指标评估)6、中文网页聚类(续)结果界面(聚类结果)6、中文网页聚类(续)结果界面(性能评估)
本文标题:RapidMiner图示中文教程
链接地址:https://www.777doc.com/doc-5873255 .html