您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 基于高频关键词的离群点监测与异类知识研究���从文献分析视(精)
收稿日期:2016-12-14摇摇摇摇摇修回日期:2017-01-09基金项目:国家自然科学基金项目“大数据情景的outlier分析与异类知识管理模式研究冶(编号:71571139);湖北省高等学校人文社会科学重点研究基地-企业决策支持研究中心重大项目支持。作者简介:夏火松(ORCID:0000-0002-9535-8464),男,1964年生,博士,教授,博士生导师,研究方向:知识管理、数据挖掘、物流信息管理和电子商务、DSS;龙摇瑾(ORCID:0000-0002-0351-9727),女,1992年生,硕士研究生,研究方向:数据分析、知识管理;李摇芳(ORCID:0000-0003-3582-8732),女,1992年生,硕士研究生,研究方向:数据分析、数据挖掘与信息管理;贺婷婷(ORCID:0000-0001-9546-9757),女,1991年生,硕士研究生,研究方向:风险识别、数据分析。通信作者:龙摇瑾基于高频关键词的离群点监测与异类知识研究*———从文献分析视角夏火松摇龙摇瑾摇李摇芳摇贺婷婷(武汉纺织大学管理学院摇武汉摇430073)摘摇要摇[目的/意义]为了从海量数据中发现不易被发现的有价值的异类知识,避免知识的流失,从系统视角来对异类知识和离群点进行了探索。[方法/过程]首先对异类知识和离群点检测研究进行梳理。其次采用SNA,数据源采用中国知网和EBSCO为基础收录相关文献信息,利用文献题录信息分析软件BIBEXCEL构建共词矩阵,使用UCINET绘制了共现图,对离群点的高频关键词共现性和高产作者合著情况进行分析。并提供了可视化的图形来揭示研究该领域的发展趋势和现状。[结果/结论]研究结果表明现阶段对于异类知识的研究主要聚焦于outlier的挖掘和算法的提出、改进方面,而对异类知识管理机理方面的相关研究很少,不仅缺乏足够重视而且没有进行深入研究的探索。关键词摇异类知识摇数据挖掘摇社会网络分析摇高频关键词中图分类号摇C93摇摇摇摇摇摇摇摇文献标识码摇A摇摇摇摇摇摇文章编号摇1002-1965(2017)05-0181-06引用格式摇夏火松,龙摇瑾,李摇芳,等.基于高频关键词的离群点监测与异类知识研究[J].情报杂志,2017,36(5):181-186.DOI摇10.3969/j.issn.1002-1965.2017.05.032OutlierDetectionandOutlierKnowledgeBasedonHighFrequencyKeywords:AStudyfromtheLiteratureAnalysisPerspectiveXiaHuosong摇LongJin摇LiFang摇HeTingting(SchoolofManagement,WuhanTextileUniversity,Wuhan摇430073)Abstract摇[Purpose/Significance]Inanefforttoavoidknowledgelosingandfindvaluableoutlierknowledgethatishardtodiscoverfrommassivedata,thispaperdiscussestheoutlierknowledgeandoutliersfromasystematicperspective.[Method/Process]Firstly,thispapersummarizestheliteratureofoutlierknowledgeandoutlierdetection.Then,takingthepapersfromCNKIandEBSCOasdatasource,usingBibliographicinformationanalysissoftware(BIBEXCEL)tobuildtheco-wordmatrixesandUCINETtodrawco-occurrencemaptoanalyzethehighfrequencykeywordsco-occurrencenetworkandthehighfrequencycollaborationnetworkinthisfield,thepaperprovidesavisualgraphtorevealthedevelopmenttrendsandthestatusquo.[Result/Conclusion]Theresultsshowthatthecurrentstudyonoutliersknowledgemainlyfocusesonoutlierminingandtheproposalandimprovementofalgorithms,whilethemechanismofoutlierknowledgemanagementstilllacksadequateattention,therelatedresearchislimitedandtheexplorationlacksdepth.Keywords摇outlierknowledge摇datamining摇socialnetworkanalysis摇highfrequencykeywords第36卷摇第5期2017年5月摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志JOURNALOFINTELLIGENCE摇摇摇摇摇摇摇摇摇摇摇摇摇Vol.36摇No.5May摇20170摇引摇言依据Gartner公司2016年报告显示大数据的发展在世界范围内盛行,而中国巨大的互联网用户群为大数据在中国的应用前景提供了发展机会。特别是在百度、阿里巴巴和腾讯这些以网络流量数据、交易数据和社交数据著称的大型互联网公司的引导之下[1],如果大数据在中国发展得当,那么必然将对全球的大数据发展起到重要作用。由于数据已经渗透到各行各业,从大数据分析异类数据与异类知识已经逐渐成为企业的关注点之一。同时人们接触到的知识越来越多,在接受知识的过程中,其总量也日益增多,知识呈现的状态也更加丰富[2]。新时期物联网和互联网技术的发展使得信息容量、质量以及处理的速度发生了深刻的变化。学术研究部分的开始从假设驱动形式转化为数据驱动的形式[3]。新型的商务智能模式依靠数据驱动正在经历着变革。随着技术的不断成熟,大数据不仅作为数据,并且需要学会分析研究这些数据,要从隐藏的海量数据中发现不易被发现的具有价值的异类知识。为了避免知识的流失,可以依靠outlier的检测和挖掘算法对异类知识进行管理,从而更好地利用知识,也为决策者提供重要的有价值的信息,产生不可估量的效益。为了弥补目前大数据环境下异类知识研究的不足,运用社会网络分析方法,通过对中英文文献高频词共现分析和高产作者进行合著网络分析,比较得出中英文高频词与作者间研究的热点,从而对离群点检测与异类知识深入研究提供参考。1摇异类知识相关理论摇1.1摇知识类别摇知识无法被精确的定义,基于不同的研究目的,知识区分的类别也有所不同。Thomas·H·Davenport从要素的视角认为知识是一种动态的混合体,它包含了结构化的经验、价值观、语境信息、专家见解和直觉等要素。该定义说明知识是在知者的头脑中,它为评估和利用新经验提供了环境和框架。而对于组织,知识不仅内嵌在文件和数据库中,也存在于日常活动、流程和规范中[4]。总之,知识是可用于行动的信息和关键资源,能对决策和分析过程作出相应的反馈。知识可以有很多种不同类别,依据它获取方式的不同分为共有知识和异类知识。对于共有知识来说,于洪颖认为共有知识是一种不同民族之间的共有常识[5]。因此,共有知识是话语理解的基石,它是跨文化的,语言文化的隔阂不会影响其受用性。在协作心理学领域,Thomas,KyleA.等人认为共有知识为协作提供了有效的和可靠的路径。共同知识对于在协作博弈中获取收益最大化是十分重要的,它可以通过自我意识和情感等非语言的形式传达[6]。在信息技术协作领域,RichardAlterman等人认为共同知识可以帮助协调并简化沟通和行动。在学生的博客案例研究中,他们发现共有知识产生于学生们在持续博客社区里的社会状况中参与的方式[7]。共有知识是一种常识,它的产生不是群体中单独行为的结果,而源自于参与分布式活动过程中的整体累积。后来,Nonaka在《TheKnowledge-CreatingCompany》一书中提出了SECI模型,将企业知识划分成显性知识和隐性知识,在企业进行创新活动中将个人的隐性知识转化成显性知识以系统规范化的语言在组织中进行传播最后汇集成共同知识[8]。学者们对于与共有知识相对的异类知识的研究还很少。Outlier———国内将其翻译成异类、局外人、与众不同之人,一般指离开主体或者相关本体的东西。或者一个在数值上能与其他样本显著区别开的可观察到的统计量。而这篇论文中的离群数据(Outlier)就是指明显偏离其他数据不满足于数据的一般模式和行为的数据,它蕴含着大量的不易被人发现的有价值的信息[9]。而这些outlier中有价值的部分即可称之为异类知识(outlierknowledge)。虽然异类是与众不同的,但究其根源也有一般的规律可循。MalcolmGladwell在《异类:不一样的成功启示录》中利用一系列特殊的异类现象的统计案例[10],阐明了成功人士的一般成功规律,即如果没有机遇和文化、环境因素,即便智商超过爱因斯坦,也只能做一份平庸的工作。这些特殊的案例中存在的有趣的、规律性的知识,可以定义为异类知识。所以,异类也能带领人们找到成功的根源,发现更加深了的成功契机,同时为社会变革带来新的启示。摇1.2摇异类知识的研究概况摇随着计算机技术的飞速发展,数据的产生、获取、储存和共享日益便捷。大数据具有Volume、Variety、Velocity和Value的4V属性[11],特别是大数据信息的边际价值未随着数据量的增加而提升的价值密度低这一属性十分有利于对大数据情境下异类知识展开研究。现有对于异类知识的研究大体上分为两方面,一方面是对离群点的挖掘,另一方面是算法的改进和提出。学者们对于outlier检测方法的研究大致上分为六大类,见表1。从outlier检测方法角度对异类知识进行研究,对于outlier的分析关键在于推断出outlier的离群属性为下一步数据的分析和处理提供参考,而不是仅仅在于发掘outlier[12]。基于统计学的检测方法是依据小概率事件的判别来鉴定异常数据的样本。该方法适用于属性相同的数据,需要明确数据的分布模型,通过检验假设辨别out鄄lier的存在[13]。典型的检测方法有1972年Tietjen提出的单样本k个outlier的统计量EK,1985年Maras鄄·281·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第36卷inghe改进的EK统计量方法FK,1991年Paul&Fung提出了线性回归方法。2007年徐雪松等人在分析传统的数据发掘算法的优缺点的基础之上[14],针对高维空间数据投影到子空间的问题,将基于核的pp主成分数据变换应用于离群聚类算法中,将处理所得的低维度向量与核函数有机结合,形成非线性数据替换,根据所得权值的大小最终发现数据样本中的outlier。基于统计学方法的应用层面,诸彤宇等人提出了一种outlier挖掘的交通时间监测方法[15]。他们首先使用FCD(浮动车)技术得到路况信息,然后提取交通事件特征建立特征向量。该算法提高了准确率,使常规拥堵和交通事故得到了有效的区分。表1摇离群点检测方法检测方法典型算法数据类型及适用维度特点代表学者统计FK;线性回归方法;基于核的pp主成分数据变换;离群点挖掘时间监测法同一属性的单变量数据,并且需要满足特定的分布模型。低维度统计学意义上的离群数据,将偏离分布模型的点为离群点,对挖掘结果的意义比较容易解释Marasinghe(1985),Paul&Fung(1991),徐雪松(2007),诸彤宇(2014)距离K最近邻(k-NN)离群检测算法;距离
本文标题:基于高频关键词的离群点监测与异类知识研究���从文献分析视(精)
链接地址:https://www.777doc.com/doc-4417753 .html