您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 会议纪要 > R七种武器之文本挖掘包tm 01
R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区R七种武器之文本挖掘包tm第1课R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区人类语言的复杂性七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区自然语言处理与文本挖掘NLP=NaturalLanguageProcessing机器学习的一个分支。目标是使机器能学习,识别,理解人类使用的自然语言(语音,字符文字,图像文字等),具备使用自然语言与人类进行交流的能力是目前机器学习领域最困难的技术之一,里面的难点大部分成为各个应用领域(搜索引擎,情感识别,机器写作等等)的核心障碍,是实现高度智能机器人的关键技术NLP大部分方法适用于不同的语种,也有部分只适合特定语种文本挖掘可以视为NLP的一个子领域,目标是在大量非结构化文本中整理析取出有价值的内容,文本自动分类,判同,情感分析是比较常见的应用炼数成金计划在2015年内开设有关自然语言处理和文本挖掘的大课,本课程算是预热R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区经典参考书R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区NLP所包含的内容典型内容:词法,语法关于词法的典型问题:分词,拼写检查,语音识别关于语法的典型问题:词类识别,词义消岐,结构分析——词汇怎样组合在一起才是正确的?R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区语音识别语音输入语音指令电话监听语音生成R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区分词为什么要对文本进行分词?以搜索引擎为例全文检索索引分词算法分词软件R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区语种亲缘关系判别梵语匈奴人与匈牙利吐火罗语R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区OCROCR=OpticalCharacterRecognition印刷体识别与手写体识别字形析取其它应用:车牌识别,名片识别R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区文本分类应用背景:百度新闻,谷歌新闻,自动门户,根据用户专业倾向的文档推荐R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区文本判同应用背景:搜索引擎去重,论文抄袭判别系统R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区基于文本挖掘的情感分析应用背景:评论分析系统,舆情系统,价格预测系统R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区聊天机器人R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区机器翻译R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区常用算法NLP和文本挖掘涉及的算法非常多,学习者拥有统计学基础具有优势贝叶斯分类器(BayesClassifier)隐马尔科夫过程(HMM)有限状态自动机(FSA)R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区用于文本挖掘与NLP的软件商业数据分析软件大多有文本分析模块:SASTextMining,SPSSTextMining等R具有很多涉及文本挖掘的扩展包,例如tmKNIME(KonstanzInformationMiner)RapidMiner文本挖掘Weka文本挖掘NLP技术自然地渗透到各种应用平台和软件中,例如谷歌翻译,OCR软件,“微软小冰”聊天机器人等NLP方面探索性的小软件很多,比较著名的项目有ApacheOpenNLP(2013年4月最后更新):七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区文本挖掘处理流程R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区相应R包简介语音与语音处理:emu包词汇数据库:wordnet包关键字提取和通用字符串操作:R的基础包;RKEA包;gsubfn包;tau包自然语言处理:openNLP包;RWeka包;Snowball包;Rstem包;KoNLP包文本挖掘:tm包;lsa包;topicmodels包;RTextTools包;textact包;zipfR包;……R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区文本处理词干化stemming–Snowball包记号化Tokenization–RWeka包中文分词–Rwordseg包R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包下载tm包相关包介绍七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包常用操作介绍语料库Corpus–动态语料库–静态语料库R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包常用操作介绍DirSource:处理目录VectorSource:由文档构成的向量DataframeSource:数据框,就像CSV文件R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包常用操作介绍map操作——对文档内容应用转换函数tm_map(x,FUN,...,useMeta=FALSE,lazy=FALSE)R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包常用操作介绍xml转化为纯文本reuters-tm_map(reuters,as.PlainTextDocument)去除多余空白reuters-tm_map(reuters,stripWhitespace)停止词去除reuters-tm_map(reuters,removeWords,stopwords(english))填充tm_map(reuters,stemDocument)R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区tm包常用操作介绍reduce操作,将多个转换函数的输出合并成一个tm_reduce(x,tmFuns,...)R七种武器之文本挖掘包tm讲师黄志洪何翠仪DATAGURU专业数据分析社区低成本获取高端知识技术成就梦想炼数成金edu.dataguru.cnDATAGURU专业数据分析网站FAQ时间
本文标题:R七种武器之文本挖掘包tm 01
链接地址:https://www.777doc.com/doc-5475109 .html