您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 心理学统计-第一部分-描述性统计
第一章心理统计概论A基本概念•什么是统计?•统计与研究•变量与常量•测量量尺•心理量尺与变量•参数统计与非参数统计•自变量和因变量•总体和样本什么是统计•统计是以数字形式来表达的观察结果我们班有几名同学,平均年龄是多少?•统计是一个数学分支,是一些理解和概括数字集合的方法心理统计较少的涉及数学推导,属于应用统计,描述性统计是对数据进行总结,推断性统计是将结果推广到更大的群体。•统计的第三层意思是统计量,即从样本而非总体中获得的数值。统计与研究•心理科学研究必须要用统计吗?心理学的研究方法:观察、问卷、访谈、实验•对于个案的观察与访谈往往不需要使用统计方法比如巴普洛夫的狗•但其他研究统计似乎不可缺比如探讨高智商者是否会有好的学习成绩变量与常量•在上个例子中,同学的智商是不同的,学习成绩也是不同,也就是说智商和成绩都是变化,因此称之为变量。•有些量是不变化的,称之为常量,比如光速•人的心理指标往往都是变量,比如你聪明他笨,你高他矮,大千世界人与人各不相同•变量的各个水平是连续的称为连续变量,如身高、体重,不连续的称为离散变量,比如考试分数•我们对心理变量进行描述,就需要对其进行测量测量量尺•测量是对观测到的现象用一种一致的、可重复的方式进行赋值。•常见的物理测量,身高、体重,都可以精确测量。•但有些测量不需要用到数字同学们今天的心情,性别及身体状况等等称名量尺•如果一个变量的各个水平可以被命名,但是不能被排序,那么这个变量是用称名量尺来测量的。•又称为类别量尺,是质性测量水平,代表着不同性质的东西。•一个称名量尺的各个类别可以被赋值,但是不能进行数学运算1男2女顺序量尺•如果一个量尺的各个水平可以排序,但各相邻水平之间的间隔又不一定相等时,这种量尺就是顺序量尺。某个人的相貌:很差、差、一般、好、很好•当被试或项目沿着某一维度被排序时,各水平可以赋数字,但不能做数学运算。1很差,2差,3一般,4好,很好•实际的研究中研究者经常会对类似手段(5点评分)的分数进行数学运算,此时他们把这些分数看做是等距数据了等距量尺•如果一个变量个相邻水平之间的间隔是总是相等的,这是等距量尺的特征。那些具有相等间距但没有绝对零点的量尺被称为等距量尺。摄氏温度、电压、智商20度是10度的2倍?我智商150是阿甘的两倍?双重弱智?等比量尺•如果一个等距量尺同时也具有一个绝对零点,那么两个测量值之比是有意义的。同时具有等距和等比特征的量尺称为等比量尺。身高、体重、年收入量尺与变量•不要混淆变量和用来测量变量的量尺。•同一种变量可以用不同的量尺来测量温度:冷热(称名)、摄氏温度(等距)、开尔文(等比)参数统计和非参数统计•我们把量尺分为这些类对我们有什么用?•等距和等比量尺获得的数据可以用光滑的分布来表示,所用到的统计方法为参数统计,参数统计只适用于处理等距等比数据。•如果所有数据都是基于称名或者顺序量尺,或者等距等比数据不满足参数统计的分布假设,这是就要用非参数统计。自变量与因变量•实验法是心理学研究的一种重要方法。•问题:课前预习是否有助于学习成绩的提高?•实验:随机选两组人,一组课前预习,一组不预习,课后对其进行测验,给出分数•预习与否是我们操控的变量,称为自变量;测验分数会受到预习与否的影响,称为因变量。自变量与因变量之间有因果关系。•在这个例子中,因变量用等比量尺测量,自变量是用称名量尺来测量,那么其统计方法是用参数统计还是非参数统计呢?•某人要研究失眠是否会引起焦虑,他选取了两组被试,一组为失眠者,另一组为睡眠正常者,测量其焦虑水平,并进行比较。这个研究中自变量是什么?因变量是什么?•上例中我们确定是失眠引起焦虑还是焦虑引发失眠,因此并非实验研究,没有自变量和因变量。•这样的研究应该采用相关法,及计算两个变量的相关性。总体和样本•人们所关心的某一群体的集合称为总体。总体可以是一个人,一个家庭或一个城市。总体的子集被称为样本。调查华师学生的男女比例:华师所有的学生就是总体,要得到总体的特征,我们可以蹲在一个路口,数100个学生,记录其性别。这100个学生就是样本。通过计算100个学生的男女比例来推测总的比例。•从样本中获得的、对样本特征进行总结的数值被称为统计量,而用来描述总体特征的数值被称为参数。练习•哪种心理量尺类型适合于解决下列问题:1.回答正确的算数题目2.心率3.恐惧症类型4.通过自评问卷测量自尊•下列哪些研究是实验研究,哪些是相关研究1.比较养宠物者与不养宠物者的同情心2.比较男性和女性在极品飞车游戏中的成绩3.比较被试在男性主试和女性主试的研究中1小时完成的任务情况B基本统计过程•下标变量•求和符号•求和符号的特征•四舍五入下表变量•班内同学的年龄:张三20,李四21,王五23,。。。这样的表示方式非常繁琐,我们可以采用一种简单的表示方法,下表变量:Xi,其中i可以定义为学号,这样Xi就表示学号为i的同学的年龄。•下标变量用于公式计算,简单明了。双下标变量•1个班级学生的年龄可以用Xi表示,那么10个班级学生的年龄呢?•可以用Xki,k代表班级号,i代表学号,这样Xki表示的就是第k个班级的学号为i的同学的年龄。如X1,12求和符号•计算1个班级内30名同学平均年龄,我们可以写成(X1+X2+X3+X4+….+X30)/30•这样的表达比较繁琐,因此需要引入求和符号∑•上边的表达式就变成了求和符号下方i=1表示从第一个开始叠加,上方的30表示叠加到第30个数据为止。问:求学号为5-21的同学的平均年龄怎样表达30/301iiX•对于双下标变量Xki•表示第k个班级的学生的年龄总和,其中n随着不同班级同学数目的不同而变化•所有同学年龄的总和表示为nikiX1nikimkX11求和符号的特征iiiiYXYX)(nCCiiXCCX))(()(iiiiYXYX四舍五入•中国的四舍五入:见四舍,见五进3.4441~3.443.4450~3.453.4550~3.463.4551~3.46•美国的四舍五入:3.4441~3.443.4450~3.443.4550~3.463.4551~3.46第二章频数表、图和分布A基本概念•频数分布•众数•累积频数分布•相对频数和累积相对频数分布•累积百分比分布•百分位数•图•实际分布和理论分布频数分布•我们班22名同学的平时成绩:88,87,89,90,90,92,85,85,88,89,87,90,88,87,89,83,95,88,85,88,91,84•如何描述?•排序:95,92,91,90,90,90,89,89,89,88,88,88,88,88,87,87,87,85,85,85,84,83•简单频数分布:•注意:即使某一特定数值没有出现也要列出,如93,94的频数为0•众数:在一个分布中发生频率最高的那个分数,88;在某些分布中众数可能不止一个。X95949392919089888786858483f1001133530311•累积频数分布:(1)该数值的频数与所有比其低的分数的总频数之和(多少学生分数没比我高)(2)该数值的频数与所有比其高的分数的总频数之和(不比我分低的学生有多少)X95949392919089888786858483f222121212019161385521X95949392919089888786858483f1112369141717202122•更多的情况下,我们不关心具体有多少人分数比我高,而在乎一个比例•相对频数和累积相对频数,即频数和累积频数与总数之比•累积百分比分布,也就是把累积相对频数用百分数来表示•百分位数,某一给定的百分位所对应的分数,常见的25%,50%,75%图•频数分布表中的有关信息可以用图的形式表现出来更直观•条状图:离散变量•直方图:连续变量•频数折线图:注意最末端和最始端分别要通过一条直线连到X轴•累积频数折线图:单调变化•实际分布和理论分布:较少的测量次数和不精确的测量导致实际测得的分布不光滑B基本统计过程•分组频数分布•表观极限和真实极限•建构组距•选择组距宽度•选择最低组距的极限•绘制频数分布图的指导原则•61-70,71-80,81-90,91-100•其间距有表观极限来定义:71下极限,80上极限•如果变量为连续的,那么表观极限就不是组距的真实极限。70.5为真实下极限,80.5为真实上极限。•真实极限比表观极限低出或高出半个单位,组距由真实极限算出。建构组距的原则:•一个数据不可能同时出现在两个组距中;•两个组距之间没有间隔。表观极限80-84,85-89,真实极限79.5-84.5,84.5-89.5选择组距宽度:•有外在标准:考试成绩61-70,71-80,81-90,91-100,可以分为ABCD等级;•无外在标准:最好至少能有10个组距才能保证得到一个关于分布的详细描述;最好不要超过20个组距;•如果可能尽量用5的倍数;•间距最好是等距的。求与某一组距宽度对应的组数:•求全距:最大数值的真实上限减去最小数值的真实下限;•把全局与一个方便的组距宽度相除;•如果全局小于20,可以使用简单频数分布;•为了避免太多组的频数为0或者很小的情况,组的个数最好不要超过样本大小的平方根。•选择最低组距的极限:一个指导原则是确保最低组距的下表观极限或上表观极限是组距的倍数。•绘制频数分布图的指导原则:1、图的高度为宽度的三分之二;2、数值或测量值分布在X轴上,频数在Y轴上;3、数据单位在X轴和Y轴上均必须是等距的;4、X轴和Y轴的交点为0,且向上或向右数值增大;5、选择合适的测量单位和标尺;6、XY轴必须清楚地标定出来。4、5不能同时满足的情况:100个考试成绩均在90以上第三章集中趋势和变异的测量A基本概念•集中趋势量算数平均数、众数、中数•变异测量全距、半四分位距、平均离差、方差、标准差、样本方差、自由度•偏态分布•用一个点来描述一个群体分布,往往是寻找该分布的中心,也就是求分布的集中趋势。•最常见的集中趋势量是算数平均数:测量值的总和除以总体个数或者样本数。•除此之外,还有调和平均数(倒数的平均再取倒数)和几何平均数(连乘开方)。•总体平均值μ,样本平均数X•众数:频率最高的数•缺点:测量集中趋势时有时不稳定。•众数为50和80,这使得众数对集中趋势的描述不够准确了。X102030405060708090f112065461•优点:•当处理等距/等比数据时,用众数来描述一个分布的集中趋势的最大优势就是能够区分出多峰或单峰分布;•当处理称名数据时,其他集中趋势指标无法测量,众数就成了表示集中趋势的唯一指标。花园中花的颜色:红100,蓝10,黄15,粉20,紫25•中数:第50百分位数•若数值个数为奇数,中数则为排序数列的中间那个数字;•如数值个数为偶数,中数则为排序数列中间两个数字的平均(等距/等比数列)。•中数无法描述称名数据•顺序量尺测量的数据,中间的数为两个时不能做平均;太多相同的数值会降低运用顺序量尺来测量数据的意义。•当一个数列存在过大或过小值的时候,中数不受其影响,要好于平均数。已知一个频数折线图,•众数:折线图的最高点对应的数值•中数:向X轴做垂线,将折线图面积平分的点变异测量全距:最大数值减去最小数值•缺点:极端值会使其不大可靠•优点:变异的最简单测量方法,囊括整个分布•解决全距受极端值影响的方法:半四分位距•若分布的集中趋势用中数来测量,那么半四分位距是表示某个分数到中数的典型距离。•在高级统计中,集中趋势往往用平均数来测量。变异可用某个分数到平均数的距离来测量,即离差分数。iX•描述分布的变异,用平均离差分数:•但是,平均离差分数等于0.因此用平均绝对离差来测量变异。•平均绝对离差很有意义,且好理解,但是却无法很好的应用于很多高级统计方法之中。因此,我们采用一种与之很接近的测量指标——方差。NXi/)(NXi/•平均离差分数为0,我们可以对离差分数取绝对值再平均,同样我们也可以将离差分数平方在求平均。•离差的平方和•离差平方和的均数被称为
本文标题:心理学统计-第一部分-描述性统计
链接地址:https://www.777doc.com/doc-5588391 .html