您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > Clementine-第二讲
Clementine的数据读入和集成主要内容变量类型Clementine数据的读入操作Clementine数据的集成操作变量类型从数据挖掘角度看变量类型:数值型变量、分类型变量(定类型、定序型),Clementine中的变量类型:连续数值型(Range)二分类型(Flag)多分类型(Set)定序型(OrderedSets)无类型(Typeless)离散型(Discrete)缺省型(Default)•Clementine变量状态:•非实例化:变量的存储类型和取值均未知时•半实例化:仅知道变量的存储类型,但取值范围未知•实例化:变量的存储类型和取值均已确定变量类型从计算机存储角度看变量类型整数型(Interger):存储整型数实数型(Real):存储小数字符串型(String):存储字符串型数据时间型(Time):存储持续时间数据日期型(Date):存储日期数据时间戳型(TimeStamp):存储时间点数据不同角度的变量类型之间是相关联的读入数据Clementine支持的数据格式自由格式文本Excel电子表格数据库文件SPSS格式以读自由格式文本为例(Drgu.txt)(Var.File节点)File选项卡:指定所读入数据的基本格式Data选项卡:指定所读变量的存储类型和输入格式Filter选项卡:指定不读哪些变量或重命名变量名Types选项卡:指定变量的计量类型,对变量的缺失值和取值合理性等进行检查数据集成数据集成包括:第一,两份或多份数据的纵向合并第二,两份或多份数据的横向合并数据的纵向合并(Append节点):Student.xls数据集成数据的横向合并(Merge节点)以客户浏览网页数据(WebData.mdb)为例数据集成数据的横向合并的联接方式:内连接(innerjoin)、全外连接(fullouterjoin)、局部外连接(partialouterjoin)和反连接(anti-join)Clementine的数据理解主要内容变量说明数据质量评估和调整数据的有序浏览多维度汇总变量说明变量说明是确保高质量数据的有效途径变量说明包括:第一,对数据流中变量取值的有效性进行限定、检查和调整第二,对各个变量在未来数据建模中的角色进行说明变量说明(Type节点)以Students.xls为例,数据存在的问题:家庭人均年收入变量,有部分样本取值$null$,表示空缺;有一个样本取值为999999。是否无偿献血变量值,填写不规范。规范值应为Yes和No,但有些样本却取1(表示Yes)和0(表示No)重新实例化有效变量值和无效值调整有效变量值是变量正常取值范围内的值无效值,通常指缺失值。Clementine中的缺失值通常包括两类:一类是系统缺值,用$null$表示,还包括空串和空格等。另一类是用户缺失值变量说明(Type节点)Missing列:On(*):表示允许相应变量取用户缺失值和系统缺失值,且不进行调整Off:表示不允许相应变量取用户缺失值Specify:说明变量的有效取值范围等,并指定数据调整方法Coerce:表示调整为指定值Flag型变量调整为False类对应的值Set型变量调整为第一个变量值数值型变量,大于上限调整为上限值,小于下限调整为下限值,其余值调整为(最大值+最小值)/2变量说明(Type节点)变量说明(Type节点)变量角色In:作为输入变量Out:作为输出变量Both:即作为输入角色,也作为输出角色Partition:样本集分割角色,是数据挖掘中的特有角色None:不参与分析数据质量的评估和调整(DataAudit节点)以Telephone.sav为例Quality选项卡Missingvalue框Countofrecordswithvalidvalues,计算各变量的有效样本量;breakdowncountsofrecordswithinvalidvalues,计算各变量取各种无效值的样本个数Quality选项卡Outliers&Extremevalues框指定离群点和极端值的诊断标准数据质量的评估和调整(DataAudit节点)变量值的调整离群点和极端值的调整(Action列)Coerce:调整为距其最近的正常值缺失值的调整(ImputeMissing列)找出高质量的变量Generate下的FilterNode项筛掉无效样本(指定变量上取无效值的样本)Generate下的SelectNode项数据理解的其他数据的有序浏览(Sort节点)以Telephone.sav为例,目标:第一,按基本费用的降序排序数据;第二,根据客户最终是否流失,将数据按基本费用的降序排序数据理解的其他数据的分类汇总(Aggregate节点)以Telephone.sav为例,目标:第一,分别计算未流失客户和流失客户的基本费用的平均值和标准差第二,分别针对未流失客户和流失客户群,计算选用不同类套餐类型的客户,其基本费用的平均值和标准差Clementine的数据准备主要内容变量转换变量派生数据精简数据筛选变量转换变量转换是对变量的原有取值进行转换处理,覆盖变量的原来取值CLEM表达式:(ClementineLanguageforExpressionManipulation)专门用于表述运算操作,描述算术表达式和条件表达式CLEM的算术表达式是用于算术运算的式子,由常量、变量、算术运算符和函数等组成普通函数和专业函数(@)CLEM的条件表达式是用于表述条件是否满足的式子,由常量、变量、条件运算符和函数等组成,且条件表达式的计算结果只有真和假两个取值变量转换变量的重新计算(Filler节点)以Students.xls为例,目标:对在校综合评价指数进行标准化处理,使其能够直观反映学生在校综合的水平。变量类别值的重新调整(Reclassify节点)以Students.xls为例,目标:是否无偿献血取值不规范,将取值1和0应分别调整为Yes和No变量派生生成新变量(Derive节点)以ReportCard.xls为例,目标:第一,计算每个学生的总成绩第二,对每个学生的每门成绩进行两级评定计算,大于等于60分,则评定为合格,否则评定为不合格第三,对每个学生的每门成绩按A、B、C、D、E进行多级评定计算第四,根据思想品德课程的得分对每个学生的总成绩进行调整变量派生生成服从正态分布的新变量(Transform节点)以Telephone.sav为例,目标:分析客户的收入、开通月数以及各种费用,应做怎样的转换处理才接近正态分布派生哑变量(SetToFlag节点)以Telephone.sav为例,目标:将服务套餐类型转换成哑变量的形式数据精简数据精简包括以下方面:第一,从压缩样本入手,通过减少样本量,提高建模效率。主要有借助概率抽样随机抽取样本,或选取特定样本。(本章)第二,从压缩变量取值入手,通过减少变量取值个数,提高建模效率。主要指变量值的分箱处理;第三,从压缩变量个数入手,通过减少变量维度,提高建模效率。主要借助统计方法降维,或依据相关性进行特征选择数据精简随机抽样(Sample节点)以Telephone.sav为例,目标:第一,随机抽取70%的客户数据;第二,对流失和未流失客户,分别抽取70%的样本根据条件选取样本(Select节点)以ReportCard.xls为例,目标:筛选出总成绩大于500分的所有男生(性别为1)样本数据筛选:样本的平衡处理数据筛选,是指为服务于后续建模所进行的样本平衡处理和样本集划分样本平衡处理的意义:一般用于非平衡数据集(imbalanceddataset)的建模准备。非平衡数据集,是指数据集中某一类或者某些类的样本数量远远大于其它类的样本数。通常样本数量多的一类或几类样本成为多数类,也称正类。样本数量较少的类称为少数类或稀有类,也称负类。数据筛选:样本的平衡处理非平衡样本建模存在的问题传统的分类方法倾向于对多数类有较高的识别率,对少数类的识别率较低,有时的模型是没有实用性的10合计1(欺诈)19100(正常)98190预测值实际值•82%总的正确率意义不大!•TP和TN的占比都较高才好!101TPFN0FPTN预测值实际值数据筛选:样本的平衡处理非平衡样本的处理:再抽样(Re-sampleing)过抽样(Over-sampling):增加负类样本数量改变样本的分布欠抽样(Under-sampling):减少正类样本数量改变数据的分布样本的平衡处理(Balance节点),随机过抽样和随机欠抽样以Drug.txt为例,目标:对不同药物随机再抽样数据筛选:样本子集的划分样本子集划分的意义:便于得到相对准确的模型误差估计做法:将全部样本随机划分成两个或三个子集训练(Training)样本集:用于建立和训练模型测试(Testing)样本集:用于模型的误差估计数据筛选:样本子集的划分样本子集的常见划分方法:旁置(HoldOut)法和反复旁置法交叉验证(CrossValidation)法留一(Leave-one-out)交叉验证法N折交叉验证法(NCross-Validation)重抽样自举法(BootStrap)Clementine的基本分析主要内容数值型变量的基本分析两分类型变量相关性的研究两个总体的均值比较RFM分析计算基本描述统计量Statistics节点以Telephone.sav为例,目标:计算基本服务累计开通月数、上月基本费用的基本描述统计量分析上述变量与年龄、家庭月收入(百元)、家庭人口之间,以及开通月数与基本费用之间的相关性筛选出相关程度较高的变量绘制散点图Plot节点以Telephone.sav为例,目标:展示流失和保留客户,上月基本费用和开通月数情况Jitter选项:数据中存在大量重复值时,变量值修正为临近实际值的随机值Whennumberofrecordsgreaterthan:样本量大于指定值时的处理策略Clementine的图数交互、图数共享、图形编辑绘制线图以ExportApple.sav为例,目标:一般线图(Plot节点)鲜苹果出口量的时序线图、鲜苹果出口量的年度对比多线图(TimePlot节点)鲜苹果出口量和出口额的线图两分类变量相关性的研究以Telephone.sav为例,分析客户所选套餐类型与流失的关系,研究哪种套餐较为理想图形方法:条形图(Distribution节点)条形图分组的合并、平衡处理、图数交互和数据标记网状图(Web节点)数值分析方法:列联表(Matrix节点)两个总体的均值比较以Telephone.sav为例,分析保持客户与流失客户的基本费用是否存在显著差异;分析客户基本费用的均值与免费部分的均值是否存在显著差异图形方法直方图(Histogram节点)数值分析方法(Means节点)独立样本的均值检验:方差分析配对样本的均值检验RFM分析RFM:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)Clementine的RFM分析包括两个方面:第一,RFM汇总,即根据顾客消费的原始明细数据,汇总每个顾客的RFM值第二,对现有客户的RFM值进行分组,计算得到每个顾客的RMF得分R得分×R的权数+F得分×F的权数+M得分×M的权数
本文标题:Clementine-第二讲
链接地址:https://www.777doc.com/doc-3463229 .html