您好,欢迎访问三七文档
数据挖掘实习报告篇一:数据挖掘实习报告通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,认真完成领导交办的工作。在实习鉴定中,我参与了整个数据分析工作,从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我充分学习了数据分析岗位的实际操作。在实习初期,项目经理安排了我参与数据获取的相关工作,主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到几百兆甚至上GB级别的时候,所学的SQL根本解决不了问题。经向项目经理学习,这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。完成数据获取阶段之后,项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初,对数据清洗并没有太多的认识,以为很多都是按照《数据挖掘》教材中步骤进行就可以的。但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解,只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值,哪些数据又是不正常的,制定报告或者交给模型分析师时需要去除的等等。同时,在制定数据报表的同时学习了很多excel函数的使用,透视表的使用,PPT报告的书写等等。在实习的后三个月,开始接触了模型的分析与监控。在学习《机器学习》以及《数据挖掘》书本时,总会想到各种各样的分类模型,也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型,回归分析和时间序列模型是常用的预测模型,这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经络模型之时,项目经理说,由于模型结果都是要给市场部门的同事报告的,所以模型结果最好能够简单易懂的。在实际工作才知道,一般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单,并不是用R软件上的几个函数,几行代码就能解决的,选择什么参数、选择什么样的模型,当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最重要的,这才发现项目经理之前提到的业务知识是多么的重要。在模型建立之后就是模型监控了,由于是我负责的项目,所以项目经理也将监控这一任务交给了我。数据挖掘模型通常情况下都是要上线的,但模型的效果会随着数据的变化而变化,当模型的指标达到一定程度时就需要修改模型。在这一阶段,充分锻炼了我的程序编写能力。在整一个实习过程,非常感谢项目经理给予了我数据挖掘整一个流程学习的机会,让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了很多学校学习中学不到的实际操作能力,在此表示衷心的感谢。篇二:数据挖掘实验报告经贸学院市场营销专业数据挖掘管理实验报告实验名称:数据挖掘—聚类分析实验时间:XX年12月21日班级11252姓名潘宏学号1125219成绩指导老师王林一、数据建模过程1、启动SPSS双击窗口底部节点选项板中的“源”中的statistics文件建立文件,如图1。图12、右击statistics文件编辑,如图2。图23、点击省略号其中一个选择文件打开。单击应用并确定,如图3和图3图44、双击输出选项中的表节点,如图5所示,表节点出现在工作区中。图55、如图6所示,右击运行表节点。可以看到图中关于客户资产购平台价值的数据记录。该数据包含A1,A2等字段。图66、如图7,在字段选项中双击类型节点,则类型节点出现在工作表中。图77、如图8,右击类型节点选择编辑,则出现一张关于字段的表,将所有字段角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击应用、确定。图8篇三:《数据挖掘实训》weka实验报告论文(报告、案例分析)院系信息学院专业统计班级10级统计3班学生姓名李健学号XX210453任课教师刘洪伟XX年01月17日课程论文评分表《数据挖掘实训》课程论文选题要求:根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。写作要求:(1)数据准确、有时效性,必须是最新的数据。(2)文章必须有相应的统计方法,这些统计方法包括以前专业课中学到的任何统计方法,如参数估计、假设检验、相关与回归、多元统计等等。(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。(4)论文按照规定的格式化撰写;(5)字数不少于XX字。数据挖掘(WEKA软件)实验报告统计学专业学生李健学号XX210453关键词:数据挖掘;游玩;因素;WEKA本次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同时了解weka的基本用法。一、软件介绍1简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是由新西兰怀卡托(Waikato)大学开发的机器学习软件,纯Java技术实现的开源软件,遵循于GNUGeneralPublicLicense,跨平台运行,集合了大量能承担数据挖掘任务的机器学习算法,分类器实现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法,聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法,能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。2oo5年8月,在第11届ACMSIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖,WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(Attribute—RelationFileFormat)的数据文件结构。这种arff文件是普通的ASCII文本文件,内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个arf文件可以分为两个部分。第一部分给出了头信息(Headinformation),包括关系声明(RelationDeclaration)和属性声明(AttributeDeclarations)。第二部分给出了数据信息(Datainformation),即数据集中给出的数据。关系声明的定义格式为:@relation;属性声明的定义格式为:@attribute;数据信息的定义格式为独占一行的@data,后面跟着的就是数据信息。2.安装Weka的官方地址是http:///ml/weka/。点开左侧download栏,可以进入下载页面,里面有windows,macos,linux等平台下的版本,我们以windows系统作为示例。目前稳定的版本是。如果本机没有安装java,可以选择带有jre的版本。下载后是一个exe的可执行文件,双击进行安装即可。安装完毕,打开启动weka的快捷方式,如果可以看到下面的界面,那么恭喜,安装成功了。共有4个应用,分别是1)Explorer用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择,数据可视化的功能。(AnenvironmentforexploringdatawithWEKA)2)Experimentor用来进行实验,对不同学习方案进行数据测试的环境。(Anenvironmentforperformingexperimentsandconductingstatisticaltestsbetweenlearningschemes.)3)KnowledgeFlow功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另外,它支持增量学习。(ThisenvironmentsupportsessentiallythesamefunctionsastheExplorerbutwithadrag-and-dropinterface.Oneadvantageisthatitsupportsincrementallearning.)4)SimpleCLI篇四:实训报告移动络优化实训报告班级:通信141学生姓名:班级序号:一、设计背景内容包括:络优化应用背景介绍2G系统图、LTE系统图1、络优化应用背景介绍由于核心、传输的元少且环境稳定,移动通信优化实际上以无线优化为主,因此移动通信络优化也可称为无线络优化。无线络是通过改善手机和基站的空中接口信号性能来完成优化过程,提高通信质量的。由于移动络变是不固定的,其动态变化频率高,再加上庞大的用户群体、用户的移动性、话务密度的不均匀性、频率不均匀性等,导致无线络的信号接口稳定性能差,反映到用户方面即是通信质量的不稳定及弱势。比如,无法接通、通话无端中断、杂音干扰、单方通话等故障。移动通信络的建设耗费大量人力、财力,但是就目前此阶段现状而言,通信质量的不尽如意使得其投资与回报不成正比。而不间断的络硬件、数据调整,资源优化配置等途径可以优化通信络,可保持络处于最佳运行状态,由此改善通信服务质量,使得用户可以切身感觉到通畅淋漓的络速度。2、移动络优化的现状由于当前技术的限制,移动通信络优化的实现需要借助于一定的工具,并且要求相关工作人员要具备较高的技能素质。一般而言,优化队伍的组成需具有资深的络优化工程师,若干技术人员,以及大量的自动化、智能化软件工具。现有的络优化工具主要有以下三种类型:其一,各系统供应商提供的OMC系统;其二,无线络及交换络测试分析的仪器、第三方软件,如路测软件和信令分析软件;其三,无线频率规划软件。其中,路测软件等是用来提供数据的,供应商提供的OMC系统多用来维护系统的。但是二者之间的联系甚是不紧密,再加上络优化涉及到交换技术、无线技术、频率配置、切换和信令、话务统计分析等技术,形成海量的信息急需高技术处理的局面,最终致使优化工作比较粗放。络优化的具体操作大致分为数据采集、数据分析、实施、评估四个阶段。数据采集需要耗费大量的人力通过人工操作、整理、归类、汇总各类工具采集的海量数据。此阶段工作量大,但是难度较低。数据分析阶段工作量虽小但是很有难度。此阶段中,工程师需通过前阶段的数据来判断、分析、确定所反映的问题,并得出一个包含不同地点、层次元的优化方案。然后是实施阶段,实施调整方案中确定的络调整操作。最后是评估阶段,此阶段需再次进行数据采集工作,观察调整方案是否达到了效果,如果没有达到预期的效果,需再次重复整个过程;如果达到了效果,就再次设定新的、更高的优化目标,整个过程将再次在更高的层次重复。3、移动络发展的趋势智能优化是移动通信络优化发展的趋势。具体说来,可以分为下三个层面:一体化处理和简单分析正如前文多说,络优化涉及到众多技术及工具。但是不同类别的工具确只对特定的问题才能发挥效能,这就造成了优化工具虽然多,却各自分散难以整合,不能针对整个待整治的络组成优化方案。我们认为,系统供应商或者第三方软件提供商应该与运营商形成长期的战略合作络伙伴关系,通过持续努力,开发将环境数据和系统数据紧密绑定的软件系统,使该软件系统逐步具备对海量数据的一体化处理、简单分析、数据挖掘、辅助智能决策、自动络参数调整等功能,使运营商的优化和维护人员从工作量大但难度相对较低的简单、低层次的数据采集、实施阶段的工作中解放出来,从而
本文标题:数据挖掘实习报告
链接地址:https://www.777doc.com/doc-7182339 .html