您好,欢迎访问三七文档
第三章描述统计徐长江浙江师范大学教师教育学院心理系E-mail:xucj@zjnu.cn内容纲要•频数分布表与图–统计表与统计图–Frequencies过程•常用统计量的计算–描述数据特征的基本概念–集中量数–差异量数–偏态量与峰态量–Descriptives过程•相关系数–相关与相关系数–常见的相关系数及计算–bivariate过程统计图与统计表的基本概念•分布:一个概念或一个变量的各种情况或取值出现的次数或频数,所以又叫频数分布。•统计表:表述数据分布的表格。•统计图:用图形来表述变量分布,又称分布图。统计表的构成表号及标题标目数字表注线条2统计表的构成•表号与标题:在表上方,一般以在文章出现的先后顺序排列。标题要言简意赅。•标目•线条:两边纵线可省去,上下横线要粗些。•数字•表注:不是必要的部分。图1—1某校历年毕业生数线条(指导线)图目线条(尺度线)图号及图题图形注:1966年为预计数字图注统计图的构成线条(基线)统计图的构成•图号及图题:在图下方,一般以在文章出现的先后顺序排列。标题要言简意赅。•图目•图形•图注:不是必要部分•线条:图形基线(横坐标)、尺度线(纵坐标)、指导线、边框线图1—1某校历年毕业生数条形图(bar)注:1966年为预计数字饼形图(pie)图1—2北京市四街道782例智力落后病人病类情况注:引自《心理学报》1979年第1期104页SHIYING25.022.520.017.515.012.510.07.55.03002001000Std.Dev=3.41Mean=13.0N=750.00直方图(histogram)图1-3大学生适应因素总分分布情况图1—4一个三类反应的提留实验结果注:此图转引自《实验心理学》第二版207页曲线图(line)图注图号及图题EducationalLevel(years)2220181614121086CurrentSalary140000120000100000800006000040000200000散点图(scatter)图1-5教育水平与年薪之间的关系图Frequencies过程(P199)•Analyze=Descriptivestatistic=Frequencies练习•根据strscore.sav统计样本构成情况(gender、school),并画出条形图。内容纲要•频数分布表与图–统计表与统计图–Frequencies过程•常用统计量的计算–描述数据特征的基本概念–集中量数–差异量数–偏态量与峰态量–Descriptives过程•相关系数–相关与相关系数–常见的相关系数及计算–bivariate过程描述数据特征的基本概念1、中心位置:中心位置的度量能够指出数据的分布等特征,所以又叫位置度量。描述数据特征的基本概念2.离散性:离散性是指数据的分散程度,即观察值的散布范围。描述数据特征的基本概念3、偏度:描述一组数据的曲线的偏斜大小的度量,曲线可以是对称的,也可以是偏斜的。描述数据特征的基本概念4.峰态:一条频率分布曲线的尖削度称为峰态。本章纲要•描述数据特征的基本概念•集中量数•差异量数•偏态量与峰态量•Descriptives过程集中量数•是描述数据集中情况的综合指标。主要有平均数、中位数、众数。•平均数(mean)是集中趋势度量中最重要的一个指标。其中X为观测值,N为样本容量NXXi•算术平均数的优点和缺点:–优点:反应灵敏、严密确定、简明易懂,计算简便,适合代数运算。–缺点:易受极端数值的影响。集中量数集中量数•中位数用符号Md(Median)表示。它表示位于数据数列中心位置的那一项的大小。这一项位于数据数列的正中心,有一半观测值在其下,有一半观测值在其上。•众数(Mode)是数据中重复出现最多的那个数值。本章纲要•描述数据特征的基本概念•集中量数•差异量数•偏态量与峰态量•Descriptives过程差异量数•极差(又称全距,ProbableDeviation,range):是观测值中最大值与最小值之差。•四分差(又称四分位距,QuartileDeviation):第一和第三个四分位点内距的一半,即QD=(Q3-Q1)/2最小值最大值¼数据¼数据第一个四分位点↑Q1第二个四分位点↑Q2第三个四分位点↑Q3差异量数•平均差:是观测值与算术平均数之差(又叫离差)绝对值的算术平均数。NXxAD•方差(Variance):是离差平方的算术平均数。•标准差(standarddeviation)NXXX22)(NXXX2)(差异量数例•A组:60,70,80,90,10080•B组:70,75,80,85,9080•A组离散性(标准差)••B组离散性(标准差):15.8580)-(10080)-(9080)-(8080)-(7080)-(60)(222222NXXX7.9580)-(9080)-(8580)-(8080)-(7580)-(70)(222222NXXX本章纲要•描述数据特征的基本概念•集中量数•差异量数•偏态量与峰态量•Descriptives过程偏态量(Skewness)•当频数分布呈正态时三者合为一点,即,当频数分布呈偏态时,平均数与中位数Md距离校近,而与众数距离较远,分布呈正偏态时,MMdMo,分布呈负偏态时,MMdMo。偏态量(Skewness)•皮尔逊根据他所发现的这一关系,提出了用来描述分析形态的偏态量。XoMXSK峰态量(Kurtosis)当Ku=0.263,分布呈正态峰;Ku<0.263,分布呈高狭峰,Ku>0.263,分布是低阔峰。)(210902575PPPPKu峰态量(Kurtosis)3/)(444xNXXa根据四级动差计算:当a4=0时,分布呈正态峰;a4>0,分布呈高狭峰;a4<0时,分布呈低阔峰。本章纲要•描述数据特征的基本概念•集中量数•差异量数•偏态量与峰态量•Descriptives过程Descriptives过程(P203)•Analyze=Descriptivestatistic=descriptives练习•根据strscore.sav统计各因素的平均分,并排序。内容纲要•频数分布表与图–统计表与统计图–Frequencies过程•常用统计量的计算–描述数据特征的基本概念–集中量数–差异量数–偏态量与峰态量–Descriptives过程•相关系数–相关与相关系数–常见的相关系数及计算–bivariate过程函数与相关•函数关系:确定。例如圆周长与半径:y=2πr。•相关关系:不确定。例如血压和年龄的关系。相关种类•正相关(positive):两个变量的变化方向一致,即一个变量值变大时,另一个变量值也随之变大,一个变量值变小时,另一个变量值也随之变小。•负相关(negative):两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小,一个变量值变小时,另一个变量值随之变大。•零相关(zero):两个变量值变化方向无一定规律,即一个变量值变大时局一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等。相关散点图相关散点图相关散点图相关散点图相关散点图相关散点图相关散点图相关系数(correlationcoefficient)•用来描述两个变量相互之间变化方向及密切程度的数字特征量。一般用r表示。–-1≤r≤1。–“+”、“-”号表示变化方向。“+”号表示变化方向一致,即正相关;“-”号表示变化方向相反,即负相关。–r的绝对值表示两个变量之间的密切程度。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切。本章纲要•相关与相关系数•常见的相关系数及计算•bivariate过程常见相关系数及其计算•积差相关系数(Pearson相关)•条件:–测量获得的连续性数据。–两个总体呈正态分布,或接近正态分布。–线性关系。–N30。YXnYYXXr))((常见相关系数及其计算•Spearman等级相关)1(6122nnDrR适用资料:⑴不服从双变量正态分布⑵小样本⑶原始数据用等级表示本章纲要•相关与相关系数•常见的相关系数及计算•bivariate过程相关分析(P272)•Analyse=correlate=bivariate练习•对学习策略各因素与分数进行相关分析。
本文标题:03 描述统计
链接地址:https://www.777doc.com/doc-3862008 .html