您好,欢迎访问三七文档
当前位置:首页 > 财经/贸易 > 资产评估/会计 > 商业分析第6章--商业数据分析方法
--商业数据的分析、挖掘和应用华东师范大学出版社回归分析Logistic回归时间序列分析交叉影响分析回归分析回归分析介绍回归分析是处理变量之间关系的一种统计方法和技术,其基本思想、方法以及“回归(Regression)”名称的由来都要归功于英国统计学家F·Galton(1822~1911)。回归分析模型是否线性线性回归模型非线性回归模型自变量个数一元回归多元回归回归分析主要解决以下几方面的问题:⑴通过分析大量的样本数据,确定变量之间的数学关系式。⑵对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。⑶利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。一元线性回归分析一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。一元线性回归模型的确定散点图•以便进行简单的观测建立线性方程•y=β0+β1x+ε散点图•以便进行简单的观测建立其他方程模式并比较R2•R2越大,方程的拟合优度越高利用t检验和F检验分别检验回归系数和一元线性回归方程是否显著。如两者均显著,说明该数据可以用一元线性回归模型来拟合,否则要考虑其他模型呈线性关系不呈线性分布回归模型的显著性检验问题通过样本数据建立一个回归方程后,不能立即用于对某个实际问题的预测。因为,将应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理必须通过各种统计检验。一般经常使用以下的统计检验。回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验,也就是检验斜率。回归系数显著性检验的基本步骤作出判断根据给定的显著水平α确定临界值,或者计算t值所对应的p值计算回归系数的t统计量值提出假设Eg.一元线性回归回归模型:y=β0+β1x+ε(x为自变量,y为因变量,β0为截距,β1为斜率(回归系数),ε为误差变量。)指定H0:β1=0;备择假设为H1:β1≠0检验统计量为:其中,Sb1是b1的标准偏差(标准误差),21sb1xsns2nSSEs(为标准误差)如果误差变量服从正态分布,那么检验统计量服从自由度为n-2的t分布。拒绝域为。当原假设为真,就说明两个变量间没有线性关系;当备选假设为真,则两个变量存在某种线性关系。SPSS的实际操作中,我们只要关注t检验的显著性(Significance)值(sig值)。我们一般将这个sig值与0.05比较,当sig值小于0.05,我们认为差别显著;当sig值大于0.05,我们认为差别不显著;sig值越小,说明差别越显著,回归系数越显著。2,2/ntt拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的拟合程度。回归方程的拟合优度检验一般用判定系数(CoefficientofDetermination)实现,用R2表示。该指标建立在对总离差平方和进行分解的基础之上。测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用调整后的判定系数。拟合优度检验yi和的离差可以进一步分解为两部分yyyyyyiiiiˆˆ如果对等式两边各项求平方,并把所有样本点加起来,进行一些代数运算可得22ˆˆyyyyyyiiii方程的左边衡量了因变量y的差异。方程右边的第一项用SSE表示,第二项用SSR表示,为回归平方和(SumofSquaresforRegression,SSR)Y的差异=SSE+SSR因此将差异分解为两个部分:SSE度量y中不可解释的差异部分;SSR度量y中可以被自变量x的差异解释的差异部分。把这个分析过程整合到R2的定义中去:因此,R2衡量了y的差异中能够被x的差异解释的部分在总差异中所占的比例。一般来说,R2的值越大,模型拟合数据的效果就越好。回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。检验统计量为:拒绝域为:12knSSEkyyFi1,,FknkF因变量的总差异可以分解为可解释的差异和不可解释的差异两个部分:而F=MSR/MSE,因此,若F值较大,表明因变量的总差异中可被回归方程解释的部分所占的比例较大,回归模型有效在SPSS软件的实际操作中,我们也主要观察它的sig值,只要sig小于0.05,我们就认为回归模型是显著的SSESSRyyi2多元线性回归分析一元线性回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。在线性相关条件下,研究两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。多元线性回归模型的确定时常用逐步回归方法(Stepwise)。逐步回归法是对全部的自变量(X1,X2,···,Xp)对Y贡献的大小进行比较,并通过F检验法选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和如果由于引入一个新变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除从未选入方程的自变量中,挑选对Y有显著影响的新的变量进入方程在引入了两个自变量以后,便开始考虑是否有需要剔除的变量当回归方程中的所有自变量对Y都有显著影响而不需要剔除时不论引入还是剔除一个变量都被称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量,逐步回归过程结束多元线性回归中还需要注意多元共线性问题。多重共线性指自变量间存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。多元共线性会有两个不利影响:1.估计回归系数时会产生较大的抽样误差2.会影响系数的t检验,使依据t检验做出的是否线性相关的推断发生错误。为了避免或者修正多元共线性,我们采用两种方法:1.在建立模型时要尽可能确保自变量之间的相互独立性2.另一个是逐步回归只有当某个自变量能够改变模型的拟合效果时,才把它放在模型中。如果两个自变量强烈相关,那么要对自变量进行合并或将重复的自变量删除,才可以最小化多元共线性的影响。实际运用中多重共线性主要有以下几种类型表现:1.整个模型的方差分析检验结果为P<α(α为显著性水平),但各自变量的偏回归系数的统计学检验结果却是P>α;2.专业上认为应该有统计学意义的自变量检验结果,却无统计学意义;3.自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释;4.增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。对于多重共线性的识别,可以通过SPSS中Statistics(统计量)子对话框中的CollinearityDiagnostics(共线性诊断)复选框予以实现。复选框CollinearityDiagnostics提供以下统计量:1.容忍度(Tolerance)2.方差膨胀因子(VarianceInflationFactor,VIF)3.特征根(Eigenvalue)4.条件指数(ConditionIndex)含虚拟自变量的回归分析数量变量、定量变量或数量因素:可以直接用数字计量的因变量和自变量,即可以获得实际观测值(如收入、支出、产量、国内生产总值等)非数量型的变量:性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量定性变量作数量化处理:引进只取“0”和“1”两个值的虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型没有常数项,则需引入k个0−1型虚拟变量D;如果有常数项,则只需引入k−1个0−1型虚拟变量D。当k=2时,只需要引入一个0−1型虚拟变量D。含调节变量的回归分析如果变量Y与变量X有关系,并且这个关系受到第三个变量M的影响,那么变量M就是调节变量。调节变量影响自变量和因变量之间的关系,既可以是定性的(比如性别、受教育程度等),也可以是定量的(比如年龄、工资收入),它影响自变量和因变量之间关系的方向(正负)和程度(强弱)。简要模型:Y=aX+bM+cXM+eY与X的关系由回归系数a+bM来刻画,它是M的线性函数,c衡量了调节效应(ModeratingEffect)的大小。如果c显著,说明M的调节效应显著。讨论调节变量的调节效应,可分为以下情况:1.当自变量是类别变量,调节变量也是类别变量时,用两因素交互效应的方差分析,交互效应即调节效应;2.当调节变量是连续变量时,自变量使用伪变量,将自变量和调节变量中心化,使用上述公式做层次回归分析:①做Y对X和M的回归,得测定系数R21;②做Y对X、M和XM的回归得R22,若R22显著高于R21,则调节效应显著。或者,作XM的回归系数检验,若显著,则调节效应显著;3.当自变量是连续变量,调节变量是类别变量时,分组回归应按M的取值分组,做Y对X的回归。若回归系数的差异显著,则调节效应显著,调节变量是连续变量时,同上述公式的层次回归分析。多元线性回归分析在的商业应用案例商业数据的采集变量的确定回归方程模型构建和假设形成自变量:评论深度(字数)、评论极性(正面或负面)、产品类型因变量:评论有用性H1:商品类型会为评论极性对评论有用性的影响起到显著的调节作用。对于体验型商品,中立评价的作用比极端评价更显著。H2a:负面评论的在线评论有用性大于正面评论。H2b:较体验型商品,正面评论对搜索型商品的有用性更高。H2c:较体验型商品,负面评论对搜索型商品的有用性更高。H2d:较搜索型商品,体验型商品的正面评论与负面评论的有用性差异更大。H3:评论深度对评论有用性具有显著的正向影响作用。H4:商品类型会为评论深度对评论有用性的影响起到显著的调节作用,与体验型商品相比,评论深度对有用性的正向影响在搜索型商品中更为明显。数据来源:卓越亚马逊()研究样本:体验型和搜索型两种商品类型中的6个大类下的12种商品。搜索型商品选择U盘、手机和路由器,体验型商品选择了音乐CD、书籍和化妆品。对商品的基本信息和在线评论进行抓取,主要通过火车头采集器进行每条评论包括以下数据:①评论星级;②评论总投票数;③评论有用票数;④评论者;⑤评论时间;⑥评论文本内容根据研究需求对采集到的在线评论进行筛选共得到2157条较高质量的在线评论商业数据的采集变量的确定回归方程模型构建和假设形成自变量:①评论星级Start_Rating;②评论深度Review_Depth调节变量:①商品类型Product_Type;②评论极性Review_Extremity因变量:评论有用性Helpfulness%控制变量:投票总数Total_Votes商业数据的采集变量的确定回归方程模型构建和假设形成①检验H1、H3、H4采用的回归方程:Helpfulness%=β0+β1Star_Rating+β2Review_Depth+β3Product_Type+β4Total_Votes+β5Star_Rating×Product_Type+β6Review_Depth×Product_Type+ε②检验H2a、H2b、H2c、H2d采用的
本文标题:商业分析第6章--商业数据分析方法
链接地址:https://www.777doc.com/doc-4868369 .html