您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 7市场调查与预测 庄贵军
数据分析数据数据分析技巧概述单变量数据分析双变量数据分析多变量数据分析市场调查与预测第七章ZHGJ数据•什么是数据?•数据的变异及其意义1关于数据的几个基本概念•观察值(observation)•样本(sample)•样本容量(samplesize)•变量(variable)在这一例子中•观察值(observation)是什么?•样本(sample)是什么?•样本容量(samplesize)是什么?•变量(variable)是什么?•这是什么数据?•有什么问题吗?•你可以做什么分析?在使用统计工具进行的分析研究中,所有相关关系的推断以及大部分因果关系的推断都是建立在共变异的基础上数据的变异及其意义•variance•青海电力公司的例子中–数据有变异吗?–数据的变异是什么?–你能够观察到变异吗?–你能够根据变异做分析吗?为什么?检查数据的变异及其特点DATA3表7-92000年深圳A股股价与持股集中度:PRICEPRICEStem-and-LeafPlotFrequencyStem&Leaf3.000.45526.000.6666666677777777777777777748.000.88888888888888888899999999999999999999999999999956.001.0000000000000000000000000000001111111111111111111111111185.001.222222222222222222222222222222222222222222223333333333333333333333333333333333333333378.001.44444444444444444444444444444444444444444444444445555555555555555555555555555556.001.6666666666666666666666666667777777777777777777777777777736.001.88888888888888888888888999999999999926.002.0000000011111111111111111115.002.22222223333333321.002.44444445555555555555514.002.666666677777778.002.8888889928.00Extremes(=30)Stemwidth:10.00Eachleaf:1case(s)PRICEStem-and-LeafPlot框图DATA3表7-92000年深圳A股股价与持股集中度:lnPRICE数据之间的共变异•Covariance•“满足顾客需求的企业,有更好的盈利前景”–对企业满足顾客需求的测量:顾客满意度–对企业盈利的测量:总利润或利润率–样本2000家企业•我们期望什么?数据分析技巧概述•为了选用适当的分析技巧,研究或分析人员需要考虑以下几个方面的问题–一次要分析几个变量?–是进行描述性分析还是推断性分析?–分析涉及的变量都是用什么性质的量表测量的?2变量数目与分析工具选择分析工具一次分析涉及的变量数目单变量分析双变量分析多变量分析第二节第三节第四节一个两个两个以上345描述性分析与推断性分析•描述性分析:利用统计值对样本有关特性或变量之间关系的描述•推断性分析:根据数理统计的有关原理,利用样本统计值推断总体统计值,或对于变量之间关系显著性的推断量表的性质•量表的性质不同,使用的统计工具有别•用类别量表测量某一变量获得的结果,被称为非参数(nonparametric)变量–这种变量的中心趋势和离散程度不能用平均值和方差来描述,只能用众数和频率来描述;也不适合于进行区间估计和Z检验和t检验,而只适用于做卡方检验•用等差量表和等比量表测量获得的结果被称为参数(parameter)或参数(parametric)变量–已有的大部分统计分析工具都适用于这种变量的分析单变量数据分析数据的量表性质描述性分析推断性分析中心趋势离散程度单样本多样本等差和比量表数据平均值标准差全距区间估计Z检验t检验独立样本t检验非独立样本t检验顺序量表数据中位数四分位差K-S检验Mann-WhitneyU检验Wilcoxon方差分析类别量表数据众数频率卡方检验卡方检验McNemarCochranQ3描述性分析•中心趋势–平均值:等差与等比资料–中位数:顺序资料–众数(可用百分比来描述):类别资料•可以回答下述问题,如购物中心调查–被调查者的平均年龄是多大?–在购物中心的平均花费是多少?–哪个时间段来惠顾的人最多?–他们进入购物中心的主要目的是什么?描述性分析(二)•离散程度–标准差:等差与等比资料–百分比(成数):类别资料、顺序资料•可以回答下述问题,如购物中心调查–被调查者的年龄差别大吗?平均而言,有多大?–他们在购物中心的花费差别有多大?–他们进入购物中心的时间段集中吗?–他们进入购物中心的目的一致吗?描述性分析(三)•同一个变量,多个样本之间的比较•比如,广州的顾客与西安的顾客有差别吗?西安的顾客在2003年与2014年相同吗?–在被调查者的年龄上?–在花费上?–在时间段上?–在目的上?推断性分析•估计–点估计:用样本值代替总体值–区间估计:在一定的把握程度下,根据样本统计值和抽样平均误差,对总体落入的区间范围作出估计•显著性检验–Z检验与t检验–卡方检验与K-S检验区间估计•把握程度:置信概率=1-–为置信度•区间:置信区间•统计值:平均值和成数(百分比)•抽样平均误差:标准误•两种情况–已知允许误差,求总体统计值落入置信区间的置信概率–已知置信概率,求总体统计值落入的置信区间检验的意义•一个批发企业定向供给一些工厂某种原料。原来每个工厂每月的平均购买量为950吨,该批发企业为了鼓励各厂增加购买量,采用批量作价的价格策略推销原料,即每次购买的批量越大,享受越高的数量折扣。半年以后,这个批发企业测量这一价格策略的效果如何。企业的市场部随机抽出64家工厂作为样本进行调查,结果发现64家工厂平均购买量增加到了1000吨,标准差为200吨。现在这个批发企业想知道:平均购买量的增加是由价格策略的改变引起的,还是一种随机现象?建立假设•在本例中,考虑到批量作价的价格策略对销售主要是有利的影响,所以我们建立如下假设:H0(虚无假设):μ≤950吨Ha(对立假设):μ950吨•这个检验的意义是:样本平均值为1000吨时,我们能否得出总体均值小于等于950吨的结论–若能,则接受H0–若不能,则接受Ha–单尾检验:只有在样本平均值显著大于950吨时,我们才接受Ha检验方法•选择适当的检验方法•确定显著性水平•查表求=0.025的临界值Z•比较Z和Z,得出检验结果Z检验与t检验•Z检验–样本容量任意,但总体的标准差已知–总体标准差未知,但样本容量n≥30•t检验–样本容量n<30,且总体标准差未知的情况下–当n≥30时,t检验等同于Z检验•Z检验实际上是t检验的一个部分,专门用于抽样分布为正态分布的情况卡方检验与K-S检验•卡方检验(检验)适合于对类别量表数据进行假设检验•K-S检验是Kolmogorov-Smirov检验的简称–它与卡方检验相似,都是通过比较观察值(频率)与期望值(频率)之间的差异来确定观察值(频率)是否与虚无假设一致–不同的是,K-S检验适用于顺序量表数据双变量数据分析依赖分析中因变量和互依分析中变量的量表性质描述性分析推断性分析依赖分析中自变量的量表性质互依分析等差和等比量表数据顺序量表数据类别量表数据等差和等比量表数据简单回归分析n.a.以哑变量为自变量的简单回归分析简单相关分析回归系数的t检验双样本t检验方差分析(ANOVA)顺序量表数据n.a.Spearman排序相关分析n.a.排序Kendall系数U检验K-S检验Mann-WhitneyU检验Wilcoxon方差分析类别量表数据判别分析简单logistic回归分析n.a.权变系数n.a.卡方检验McNemarCochranQ4简单相关分析•描述两个变量之间的相关程度–有一种产品的价格为X,销量为Y,企业常常对Y和X之间的相关程度和方向感兴趣–企业的商品销售与国家的经济发展真的有正向的相关关系吗?若有,两者的相关程度如何?企业的产品价格与利润之间有怎样的关系?是正,还是负?简单相关分析的结果X1X2X3X4X5X6X11.150.397.483-.294.533X2.1501.624*.102.518.810**X3.397.624*1.195-.148.641*X4.483.102.1951.058.600*X5-.294.518-.148.0581.435X6.533.810**.641*.600*.4351注:*表示p0.05(双尾检验);**表示p0.01(双尾检验)简单回归分析•简单回归分析的目的与相关分析相近,即要找出两个变量之间的相关关系•不同之处在于,在进行简单回归分析时,变量之间暗含着因果关系简单回归分析的结果方差分析•方差分析一般用于检验两组或两组以上调查对象在某一变量均值的差异•虚无假设为各组均值相等方差分析的结果:ANOVA平方和df均方F显著性在中心的时间组间7049.90117049.9014.577.033组内460536.8772991540.257总数467586.777300陪伴的人数组间8.16318.1633.976.047组内632.2763082.053总数640.439309惠顾店铺的数量组间103.3511103.351.557.456组内54533.078294185.487总数54636.429295多变量数据分析5依赖分析中因变量和互依分析中变量的量表性质描述性分析推断性分析依赖分析中自变量的量表性质互依分析等差和等比量表数据顺序量表数据类别量表数据等差和等比量表数据多元回归分析等式建模(SEM)n.a.以哑变量为自变量的多元回归分析或等式建模多元相关分析因子分析聚类分析回归系数的t检验双样本t检验方差分析(ANOVA)顺序量表数据n.a.Spearman排序相关分析n.a.排序Kendall系数U检验K-S检验Mann-WhitneyU检验Wilcoxon方差分析类别量表数据判别分析多元logistic回归分析n.a.权变系数带哑变量的因子分析聚类分析卡方检验McNemarCochranQ多元相关分析与偏相关系数•多元相关分析:描述两个以上变量之间的相关程度–有一个企业认为它的某一种产品的销售额与该产品的价格、广告支出和推销人员的数量有关–为了确定这些变量之间是否两两相关以及它们之间两两相关的程度,就需要使用多元相关分析,并计算偏相关系数•偏相关系数是在控制其他变量的条件下,得出的两个变量之间的相关性指标多元相关分析的结果:偏相关系数控制变量X2X6X3X2相关性1.000.684显著性(双侧)..020df09X6相关性.6841.000显著性(双侧).020.df90多元回归分析•多元回归分析的应用范围十分广泛,很多预测模型都以多元回归分析的结果为基础–比如对销售量进行预测,相关的解释变量就有广告费用、销售代理人的数量、产品价格和季节等因素•多元回归分析可分为多元线性回归分析和多元非线性回归分析多元回归分析•LnPRICE=β0+β1LnHOLDER+β2LnSHARE+β3ASSET+β4RETURN99+β5RETURN00+ε•预测模型•LnPRICE=8.758+0.152LnHOLDER-0.368LnSHARE+0.054ASSET+0.286RETURN99+0.148RETURN00多元回归分析的结果因变量:LnPRICE模型非标准化系数标准系数tSig.B标准误1(常量)8.785.30728.600.000LnHOLDER.152.012.34112.339.000LnSHARE-.368.017-.603-21.778.000ASSET.054.010.1795.
本文标题:7市场调查与预测 庄贵军
链接地址:https://www.777doc.com/doc-3441695 .html