您好,欢迎访问三七文档
长沙理工大学经济与管理学院2010年9月MarketingResearch第11章数据分析方法§11.1统计分析方法Ⅰ—描述统计§11.2统计分析方法Ⅱ—推断统计§11.3统计分析方法Ⅲ—多元统计分析§11.1统计分析方法Ⅰ—描述统计一、频数分布表和统计图法三、多变量描述统计二、单变量描述统计一、频数分布和统计图表1.频数分布指把总体按某一标志分组,并按一定顺序列出每个组的单位数,所形成的总体单位在各组间的分布;也称为次数分布或分布数列。2.频数分布表把总体中各个类别及其相应的频数、频率及累计频率等指标用汇总表格的形式展示出来所形成表格。3.编制频数分布表的一般步骤找出数据的变动范围;确定组数和组距;确定组限(上限、下限)和组中值;计算调查数据落入各组的频数和频率。4.统计图是一种以点、线条、面积等方法描述和显示数据的形式,具有直观、醒目、易于理解等特点,一般由坐标系、图形和图例三部分组成。5.常用的统计图有:条形图、直方图、饼图、折线图、趋势图、态度对比图、轮廓形象图等。一、频数分布和统计图表已知大连市某街道634栋居民楼(或连排平房)建筑年份的调查数据(见所附数据集E11-1SPSS格式/EXCEL格式),试编制该街道现有房屋建筑年份的组距式频数分布表。应用实例11-1分析思路:将该街道全部房屋按建筑年份的不同分成“1979年及以前”、“1980~1989年”、“1990~1999年”和“2000年及以后”4组;汇总各组的频数、频率及累计频率等指标;将频数分布结果绘制成直方图;利用SPSS软件中的Frequencies和Bar菜单实现。操作步骤:打开数据集E11-1,其中,变量jiedao和shequ分别表示街道名称和社区名称,变量jznf和jznf2分别表示房屋建筑年份和分组后的房屋建筑年份。依次选择Analyze→DescriptiveStatistics→Frequencies,展开Frequencies对话框;将变量jznf2送入Variable(s)框,单击OK按钮,得到频数分布表输出结果。再依次选择Graphs→Bar,展开Bar对话框;选中Simple和Summariesforgroupsofcases复选框;单击Define按钮,展开DefineSimpleBar对话框;将变量jznf2送入“CategoryAxis”栏,并在BarsRepresent框中选中Nofcases复选项。单击OK按钮,得到直方图输出结果。房屋建筑年份的频数分布表房屋建筑年份的直方图输出结果编制频数分布表及绘制统计图时应注意的问题编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段;编制频数分布表时,需要注意组数、组距及组限的确定问题;不同的统计图一般都有其特定的适用范围,在实际应用时,应根据数据性质及所反映问题的需要选择适宜的统计图。1.集中趋势二、单变量描述统计指调查数据的频数分布从两边向中间集中的趋势,也称作趋中性。2.离散趋势指调查数据远离其分布中心值的程度。集中趋势指标反映调查数据的共性和集中性,离散趋势指标反映调查数据的个性和分散性。调查数据的离散程度越高,用于描述数据集中趋势指标的代表性越差,使用这些代表性指标进行统计分析的效果越差。简单算术平均数——根据原始数据计算3.集中趋势的常用测度指标平均数又称均值,主要有算术平均数、调和平均数和几何平均数等计算方法,其中以算术平均数最为常用。nxnxxxxniin121加权算术平均数——根据分组数据计算11221121kiikkikkiixfxfxfxfxfffk二、单变量描述统计3.集中趋势的常用测度指标中位数指把一组数据按照从小到大的顺序排列后,位置居中的变量值,记为。eM计算原始数据的中位数:iLM2110计算分组数据的众数:众数指数据中出现次数最多的变量值,记为。0M21nexM2122nnexxM当为奇数时:当为偶数时:nn为众数所在组的下限,为众数所在组组距,和分别为众数所在组变量值的次数与下一组和上一组变量值的次数之差。Li12二、单变量描述统计标准差指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根,记为。4.离散趋势的常用测度指标s方差指标准差的平方,记为。2s对方差进行开方,即可得到标准差。11122kiikiiiffxxs依据原始数据计算方差:依据分组数据计算方差:1122nxxsnii二、单变量描述统计4.离散趋势的常用测度指标四分位差把调查数据按照从小到大的顺序排列后,用三个四分位数点()将其分为四个相等部分,高四分位数点与低四分位数点之间的距离即为四分位差。321,,QQQ3Q1Q变异系数指调查数据的标准差与其算术平均数的比值,也称为离散系数,主要用于比较不同类别数据的离散程度。%100xsCV13QQQD二、单变量描述统计已知333名卷烟消费者最近三个月购买卷烟的消费支出数据(见所附数据集E11-2SPSS格式/EXCEL格式),试分别对城镇和农村卷烟消费者的卷烟消费支出情况进行描述性分析。应用实例11-2分析思路:按户籍变量分组;分别计算各组卷烟消费者最近三个月卷烟消费支出的平均数、中位数、众数、标准差、方差等统计指标;利用SPSS软件中的Explore菜单实现。操作步骤:打开数据集E11-2,其中,变量hjlx和jyxf分别表示户籍类型和最近三个月卷烟消费的支出额。依次选择Analyze→DescriptiveStatistics→Explore,展开Explore对话框;将变量jyxf作为分析变量送入“Dependentlist”框;将变量hjlx送入“FactorList”框,用以指定按不同户籍类型进行分组分析。单击OK按钮,得到不同户籍类型卷烟消费者卷烟消费支出的描述统计结果。输出结果卷烟消费者卷烟消费支出的描述统计结果对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选用恰当的指标形式,以克服不同形式的测度指标在使用范围上的局限性。比较不同类别数据的离散程度时,应使用变异系数指标,而不宜使用标准差、方差等反映数据离散程度的绝对量指标。应用单变量描述统计方法时应注意的问题1.列联表三、多变量描述统计是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分布表。2.二维列联表的一般形式在数据集E11-1(SPSS格式/EXCEL格式)中,同时还给出了大连市该街道现有房屋总楼层数的调查数据,试进一步分析该街道现有房屋的总楼层数与建筑年份之间的交叉频数分布情况。应用实例11-3分析思路:按总楼层数的多少把房屋分为平房(1层、多层(2~8层)、小高层(9~12层)和高层(13层及以上)4种类型;按建筑年份的不同把房屋划分成“1979年及以前”、“1980~1989年”、“1990~1999年”和“2000年及以后”4组;对分组后的两个变量进行交叉分组形成列联表,并利用统计量对变量的独立性进行检验;利用SPSS软件中的Crosstabs菜单实现。2操作步骤:打开数据集E11-1,其中,变量jznf2和zcs2分别表示分组后的建筑年份和总楼层数。依次选择Analyze→DescriptiveStatistics→Crosstabs,展开编制列联表对话框;将变量jznf2作为行变量送入Row(s)框中,将变量zcs2作为列变量送入Column(s)框中。单击Cells项,打开Crosstabs:CellDisplay对话框,在Percentages框中选择Row、Column、Total复选框;单击Continue按钮返回到主对话框。单击Statistics项,打开Crosstabs:Statistics对话框,选择Chi-Square复选框;单击Continue按钮返回。单击OK按钮,得到列联表输出结果。房屋总楼层数与建筑年份的列联表及检验结果输出结果编制列联表时应注意的问题编制列联表时,如果两个变量之间不存在因果关系,行变量和列变量可以随意指定。在对三个及以上变量进行列联分析时,一般来说,每个单元格至少要有5个观测值才能有说服力。列联表只是检验变量之间是否有关系,而并非检验变量之间是否具有因果关系。进行列联分析的变量必须是取值个数有限的离散变量。使用分布进行独立性检验时,一般要求样本量必须足够大(n50),每个单元格中的期望频次也不能过少。23.相关分析是研究变量之间相关关系密切程度的统计方法。按表现形式不同,可以分为线性相关和非线性相关;按相关的方向不同,可以分为正相关和负相关。散点图以直角坐标系的横轴代表自变量x,以纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘在坐标平面上所形成的图形。相关系数在直线相关的条件下,衡量两变量之间线性相关程度的统计指标。niniiiniiiyxyyxxyyxxSSxyr11221)()())(()cov(三、多变量描述统计4.回归分析是研究因变量对自变量依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。一元线性回归xy10多元线性回归innixxxy22110绘出散点图→建立一般模型→估计方程参数→检验回归方程的拟合优度→检验参数的显著性→检验回归方程的显著性→分析回归方程的残差→预测一般实现步骤非线性回归三、多变量描述统计应用实例11-4分析思路:绘制散点图,对两个变量之间相关关系的形式、方向做出大致判断;计算相关系数;若二者之间存在显著性线性相关,则建立回归方程;利用SPSS软件中的Scatter、Correlate及Regression菜单实现。已知某市10家百货商店职工的人均月销售额和利润率的数据(见所附数据集E11-4SPSS格式/EXCEL格式),试分析人均月销售额和利润率之间的关系,并建立利润率对人均月销售额的回归方程。操作步骤:打开数据集E11-4,依次选择Graphs→Scatter/Dot,展开对话框。选中SimpleScatter选项,单击Define按钮,进入SimpleScatterplot对话框。将变量rjxse送入“XAxis”框中,将变量lrl送入YAxis框中。单击OK按钮,得到人均月销售额与利润率的散点图。依次选择Analyze→Correlate→Bivariate,展开对话框;将变量rjxse和lrl同时送入Variables框中;单击OK按钮,得到人均月销售额与利润率的相关系数。依次选择Analyze→Regression→Linear,展开对话框;将变量rjxse送入Independent(s)框中,将变量lrl送入Dependent(s)框;单击OK按钮,得到回归过程运行结果。输出结果Ⅰ回归方程:rjxse2.1180.089lrl输出结果Ⅱ应用相关与回归分析方法时应注意的问题相关分析的目的是测定变量之间相关关系的方向和程度,回归分析的目的是利用回归模型进行预测和控制。进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程度,否则有可能会得出不切实际的结论。在实际操作中,建立回归模型的过程非常复杂,应用时必须结合具体情况进行探讨和分析。三、多变量描述统计长沙理工大学经济与管理学院2010年9月MarketingResearch§11.2统计分析方法Ⅱ——推断统计一、参数估计三、方差分析二、假设检验一、参数估计参数估计指在满足一定精度和把握程度的条件下,利用样本信息来估计总体特征的统计分析方法。1.基本原理2.基本形式点估计指直接用样本估计量作为总体未知参数的估计量;该方法简便、直观,但无法提供误差程度的准确信息。区间估计指以区间的形式给出总体参数的取值范围和推断的把握程度;该方法弥补了点估计不能给出推断把握程度的不足。3.常用的置信区间的形式(1)对于正
本文标题:市场调研:第11章
链接地址:https://www.777doc.com/doc-3600587 .html