您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 六西格玛培训课件-500强外企内部培训课程(26)
回归绿带六西格玛DMAIC原理15014013012011010090807060260250240230广告销售额介绍回归的基本概念利用回归技术建立数学预测模型研究残差分析的概念讨论回归的使用和误用目的DMAIC过程改进•验证关键输入•优化关键输入过程分析•完成失效模式分析•进行多变量分析•明确潜在的关键输入•制定下一阶段的方案过程控制•实施控制方案•验证长期能力•持续改进过程定义•范围和界限•定义缺陷•小组任务书和小组领导人•估计经济影响•领导层批准过程测量•绘制过程图,确认输入和输出•因果关系矩阵•确定测量系统能力•确定过程能力基期状况流程从许多琐碎的变量X中“过滤”出少数重要的几个流程Y=f(x1,x2,x3,x4,...xn)Y在一段时间中的绩效Y的差异过程图初始能力评估FMEA减少“错误输入”引起的差异及其影响因果关系矩阵FMEA多变量多变量研究有助于确立Y和关键X之间的联系x1,x7,x18,x22,x31,x44,x57多变量分析确认噪声变量,减少实验设计中的XY=f(x7,x22,x57)实验设计确定关键X及其与Y的关系3020100555045ObservationNumberIndividualValueIChartforChart11X=50.353.0SL=54.21-3.0SL=46.50对关键X进行适当控制实际差异测量差异再现性(员工/方法)重复性(设备)我们从“Y”开始:}相关•这张图告诉我们什么?•这些变量相关吗?15014013012011010090807060260250240230广告销售额相关——对我们来说意味着什么?•谈到相关时我们想到了什么?研发与客户实验室分析是否匹配?项目领导人的经验和项目周期是否相关?如果我们的销售代表花在客户身上的时间更长,销售额会增加吗?•相关是两个连续型变量之间的线性关系的强度15014013012011010090807060260250240230广告销售额回归•我们通常用一条直线来描述相关直线的方程式是什么?这条直线对关系的描述如何?回归定义•回归分析是用于研究变量间的关系并建立模型的统计工具单线性回归表示一个连续型变量X和一个连续型变量Y的关系多重线性回归表示多个连续型变量X和一个连续型变量Y的关系•模型参数(例如对斜率和截矩的估计)通过最小二乘法获得•模型的准确性通过拟合度和残差进行检验分析方法框架单个变量X——单个变量YX数据离散型连续型Y数据离散型连续型X2检验方差分析t检验回归评估X、Y关系的工具Y1Y2YTargetCBAABCR51025S805075xy回归H0:斜率=0连续型X;连续型Y方差分析H0:m1=…=mk3个以上水平的离散型X,连续型Y双样本t检验H0:m1=m22个水平的离散型X,连续型Y单样本t检验H0:m=目标相对于目标的连续型YX2检验H0:因子相互独立离散型X离散型Y检验假设描述数据回归分析方法框架制定研究方案收集数据在Minitab中创建拟合线图评估R2和p值的显著性评估残差得出结论回归——图形•使用拟合线图来直观表示X(自变量)和Y(因变量)之间的关系。打开GBRegression.mpj工作表Adsvs.Sales777=76.8%=75.8%销售额=213.674+0.319184回归图回归——拟合线图从图中我们可以看到随着广告投入的增加,销售额相应上升这是直接(正)相关的一个例子我们可以看到一个线性方程和一个R2值。让我们进行进一步的研究!15014013012011010090807060260250240230广告销售额S=3.76777=76.8%R2(调整值)=75.8%=213.674+0.319184广告R2估计直线——最小二乘法•通过数据确定“最佳拟合”线的方法•如果无相关关系,最佳拟合度为=•旋转直线可提高拟合度•实线能使加粗竖线部分的平方和最小2.92.82.72.62.52.42.35.55.04.54.0xyyy最小二乘结果•计算方法——模型方程b1为斜率bo为截距Y=213.7+.32XY=bo+b1Xxy15014013012011010090807060260250240230广告销售额Minitab中的回归使用StatRegressionRegression而不是拟合线图,可得出相同的结果和P值回归分析:销售额与广告相比较回归方程为:销售额=214+0.319广告自变量系数SE系数TP稳定213.6743.88155.050.000广告0.319180.037378.540.000S=3.768R2=76.8%R2(调整值)=75.8%方差分析来源DFSSMSFP回归11035.41035.472.940.000残差误差22312.314.2总计231347.8Ho:斜率=0Ha:斜率≠0P值0.05回归线的斜率不为零我们得出什么结果?回归——Minitab阶段输出回归——差异来源2.92.82.72.62.52.42.35.55.04.54.0xyy()=()+()222SS总=SS回归+SS误差SS总=对y的总差异=SS回归=模型能解释的差异=SS误差=模型不能解释的差异=222回归-R2•R2计算方法•上例中R2值为76.8%,表明:销售额差异的76.8%可以由广告费用解释剩余23.2%归因于其它变量X,包括测量差异,经济状况,不同销售代表等等…R2=76.8%判定系数R2总回归2SSSSR=回归-R2•R2是可由回归模型解释的差异性的比例•Minitab以百分比形式给出R2值•是评估拟合度的有效指标(越大越好)•R2值大并不保证拟合度高!•R2值小并不代表变量不重要!•决定R2实际上是确定模型是否充分描述了由所研究的过程和产品决定的差异回归分析:销售额与广告的关系回归方程为:销售额=214+0.319广告自变量系数SE系数TP稳定213.6743.88155.050.000广告0.319180.037378.540.000S=3.768R2=76.8%R2(调整值)=75.8%方差分析来源DFSSMSFP回归11035.41035.472.940.000残差误差22312.314.2总计231347.8回归-Minitab阶段输出残差误差MSS=总回归2SSSSR=dfSSMS=残差•残差=实际值–预测值=iiyyˆ2.92.82.72.62.52.42.35.55.04.54.0xy残差回归——残差分析•残差是实际值减去预测值的差。残差可为负值或正值•残差被用来检验模型的充分性,因为它告诉我们模型是否满足主要假设•残差应该…有恒定的方差呈正态分布受控•Minitab让我们可以以图表输出审核上述残差测量标准•残差评估是回归分析中的关键步骤如果拟合模型不适当,它会给你一个警告信号。残差分析——Minitab•StatRegressionRegression我们必须要求Minitab存储标准化残差和拟合值通过Minitab,我们现在可以找出模型残差的正态分布、稳定性和方差的问题残差评估——残差图回归–Minitab中的残差评估2.01.51.00.5-0.0-0.5-1.0-1.5-2.00残差频率210-1残差的正态分布图正态分布点残差数据呈正态分布吗?252015105043210-1-2-3-4残差残差的单值控制图均值=0.01231上控制限=3.249下控制限=-3.225数据受控吗?260250240230210-1-2拟合度残差残差和拟合度图显示出模式吗?残差的直方图54321-2观测数目210-1-2残差必须受控在控制范围外的残差应进行进一步的研究可能的失控情况包括测量系统误差,数据输入错误或过程只有当数据按时间顺序输入时,该图才有相关性存在稳定性问题吗?回归——残差分析——稳定性2.0252015105043210-1-2-3-4观测数目残差残差的单值控制图均值=0.01231上控制限=3.249下控制限=-3.225Fit残差和拟合度图残差拟合度0残差分布在一条线性带中,从图上看不出明显的模式模型是恰当的回归——残差评估——图形残差呈现出抛物线或二次方程的形状;可能需要更高阶模型模型不恰当残差和拟合度图残差拟合度0回归——残差评估——图形0残差残差和拟合度图拟合度残差呈漏斗形,误差的方差不是恒定的——随着Y的增长而增长模型不恰当如果残差出现问题,可咨询你的黑带或教员示例——高阶模型2022012001991981971961951941931920.040.030.020.01温度溶剂残差S=0.0050427R2=76.7%R2(调整度)=75.4%溶剂残差=0.575110-0.0028174温度回归图残差分析——高阶模型2.01.51.00.50.0-0.5-1.0-1.543210残差频率残差直方图20100210-1-2观测值数残差残差的单值控制图1155均值=0.01584上控制限=1.751下控制限=-1.7190.0350.0250.0150.005210-1-2拟合度残差残差和拟合度图210-1-2210-1-2残差的正态分布图正态分布点残差•如果残差与拟合度图呈抛物线形状,可能我们需要更高阶模型添加二次方条件•残差显示可能的二次趋势•Minitab的拟合线图允许二次方条件*•StatRegressionFittedLinePlot*拟合线图还允许三次方条件,但它通常会造成数据“过度拟合”。若没有咨询黑带或教员,请不要使用此功能。二次拟合线图2022012001991981971961951941931920.040.030.020.01温度溶济残差S=0.0037826R2=87.6%R2(调整值)=86.2%+0.0004131温度**2溶剂残差=16.6248-0.165696温度回归图二次曲线表现出更高的拟合度。R2(调整值)=86.2%,而一次曲线仅为75%二次拟合线图0.00750.00500.00250.0000-0.0025-0.00506543210回归频率残差的直方图201000.010.00-0.01观测值数残差残差的单值控制图166均值=-6.5E-18上控制限=0.007416下控制限=-7.4E-030.040.030.020.010.0100.0050.000拟合度残差残差和拟合度图210-1-20.0100.0050.000残差的正态分布图正态分布点残差残差模型分析多个变量X•使用矩阵图来直观评估可能的关系•相关矩阵可分析哪些X和Y具有统计上的相关性•示例:土地定价•目标:注意4个变量和土地价格之间的关系数据组研究输入变量和价格(以$K为单位)之间的关系分析20块土地示例——土地定价•目的:在工作表LandPricing中研究4个变量和土地价格的关系•数据组研究输入变量和价格(以$K为单位)之间的关系代表20块土地矩阵图•从数据的图表分析开始•矩阵图显示了所有变量和变量之间的散点图矩阵图20.27514.825192.5147.513.1754.525733.3251.575区域海拔等级风景价格相关•相关矩阵给出了初步统计分析应注意,涉及属性输入变量的相关是没有意义的,因此土地不包括在内。多个变量X——相关我们发现区域、海拔和风景看上去与价格有关•相关系数的范围为从–1到+1•相关系数是(单变量)回归R2的平方根区域海拔等级风景提升0.0700.768等级0.5510.2410.0120.306风景0.4470.5120.7800.0480.0210.000价格-0.492-0.270-0.755-0.7540.0270.2500.0000.000相关P值拟合线图——土地和每个输入2217124321区域价格S=0.910598R2=24.2%R2(调整值)=20.0%价格=4.49667-0.158855区域回归图1816141210864204321等级价格S=0.68
本文标题:六西格玛培训课件-500强外企内部培训课程(26)
链接地址:https://www.777doc.com/doc-420435 .html