您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 数据分析基础课程-第一章--数据分析概述
数据分析基础以分析大数据时代对大学生就业能力基本要求出发,以数据的处理与数据的分析为重点,采用案例教学模式组织内容,将理论融入案例。目录/Contents1.1什么是数据分析1.2统计学的几个基本概念第一章数据分析概述1.3统计指标的分类1.1什么是数据分析数据分析是指对大量数据进行整理后,利用适当的统计分析方法,把隐藏在数据背后的信息提炼出来,并加以概括总结的过程。数据分析包括如下几个主要内容。现状分析:分析已经发生了什么。原因分析:分析为什么发生某一现状。预测分析:分析将来可能发生什么。1.1数字通信系统的基本概念1.1.1数据分析的过程数据分析的过程主要包括6个既相对独立又相互联系的阶段,下面分别进行介绍。1.确定分析目的2.收集数据3.数据处理4.数据分析5.数据展现6.撰写报告1.1.2数据分析的工具数据分析的相关工具可以分成以下3种。(1)存放数据的工具。(2)分析数据的工具。(3)做分析报告的工具。1.2统计学的几个基本概念1.2.1现象总体和现象个体现象总体(以下简称总体)是由客观存在的、具有某种共同性质又有差别的许多个别单位所构成的整体。构成总体的每一个事物或基本单位,叫现象个体(以下简称个体)。原始资料最初就是从每个个体中取得的,所以个体是各项统计数字最原始的承担者。根据表1-1的数据,进一步理解什么是总体,什么是个体。姓名性别身高(cm)体重(kg)爱好张三男17568篮球李四男17270唱歌王二女16350舞蹈…………………………表1-1某学校全体学生资料一览表总体必须具备3个特性:大量性、同质性和变异性。(1)大量性:是总体的量的规定性,即指总体的形成要有一个相对规模的量,仅仅由个别单位或极少量的单位不足以构成总体。(2)同质性:是指构成总体的各个单位至少有一种性质是共同的,同质性是将总体各单位结合起来构成总体的基础,也是总体的质的规定性。(3)变异性:是指总体各个单位除了具有某种或某些共同性质以外,在其他方面则各不相同,具有质的差异和量的差别,这种差别叫变异。例如:在研究江西省所有工业企业的工业总产值时(见表1-2),每个企业的工业总产值都是个体,但在研究其中某一个企业的工业总产值时,则该企业又成了总体。企业名称工业总产值(万元)企业14000企业26000企业39000…………表1-2江西省工业企业总产值一览表1.2.2标志和标志表现通常,每个个体具有许多属性和特征。这些属性或特征叫标志。标志的属性或数量在每个个体的具体表现,叫标志表现。标志按其性质可以分为数量标志和品质标志。数量标志:以数量的多少来表示的标志,表示事物量的特性。品质标志:不能用数量而只能以性质属性上的差别即文字来表示的标志,表示事物质的特征。1.2.3统计指标假如通过对表1-1的统计计算,可能得出以下统计结果:学校总人数5000人男生人数2600人女生人数2400人男女性别比1.08:1平均身高172cm平均体重62kg这些数据在统计学上都称为统计指标。统计指标就是反映总体的数量特征的概念和具体数值。通常,一个完整的统计指标包含指标名称和指标数值两部分。1.3统计指标的分类1.按反映的内容或数值表现形式划分按照其反映的内容或其数值表现形式,可划分为总量指标、相对指标和平均指标。(1)总量指标:反映总体规模的统计指标,通常以绝对数的形式来表现,因此又称为绝对数。总量指标是人们认识总体的起点,是计算其他统计指标的基础。(2)相对指标:是两个总量指标之比,因此又称相对数。(3)平均指标:平均指标又称平均数,是总体在某一空间或时间上的平均数量状况。2.按所反映的数量特点与内容划分按照其所反映的数量特点和内容,可划分为数量指标和质量指标。(1)数量指标:反映总体的范围广度、规模大小和数量多少的指标。它表示事物外延量的大小,通常有计量单位,用绝对数表示。其指标数值大小随总体范围的大小而增减变动。(2)质量指标:反映总体的质量、强度、经济效果等的统计指标。它表示事物内涵量的状况,通常用相对数或平均数表示。其指标的数值大小与总体范围大小没有直接的关系。1.3.1总量指标总量指标是指统计汇总后得到的具有计量单位的统计指标,反映研究总体在一定时期或时点的总规模、总水平或性质相同的总体规模的数量差异。按总量指标所反映的时间状况来划分,总量指标可以分为时期指标和时点指标。(1)时期指标:是反映总体在一段时间内的累计总和。(2)时点指标:是反映总体在某一时点上的状态总数。1.时期指标与时点指标的区别(1)性质相同的时期指标的数值可以相加,而时点指标相加则无意义。(2)同类时期指标数值的大小与时期长短有直接关系,而时点指标则没有这种关系。(3)时期指标数值是经常登记取得,而时点指标则不是。2.指标与标志的区别(1)标志是用于描述个体的,指标是用于描述总体的。(2)标志只是一个名称,不含数值(标志表现);指标既含名称又含数值。3.指标与标志的联系(1)具有对应关系。标志与指标名称往往是同一概念。(2)具有汇总关系。统计指标的数值由标志表现汇总得来。(3)具有变换关系。随着研究目的的变换,原有的总体转变为个体,相应的统计指标名称也就成为标志;反之亦然。1.3.2相对指标相对指标分为结构相对指标、对比相对指标、完成程度相对指标等。1.结构相对指标结构相对指标又称结构相对数或比重指标,是在统计分组的基础上,总体中某一组的数值与总体指标数值的比值,以说明总体内部组成情况,一般用百分数表示。例如,表1-3为我国第二次农业普查农业生产经营户数量及构成表,其中的第3列数据就是结构相对指标。表1-3我国第二次农业普查农业生产经营户数量及构成结构相对指标具有如下特点。(1)分子分母不能互换。(2)指标值<1。(3)指标值之和=1。常用的合格率、恩格尔系数都属于结构相对指标。2.对比相对指标任何事物都是既有共性特征,又有个性特征的,只有通过对比,才能分辨出事物的性质、变化、发展的规律。数据分析亦如此,对庞大的数据做单独分析,通常很难发现其意义,只有将不同数据进行对比,才能发现更多本质现象。这种分析数据的方法就叫对比分析法。通常情况下,数据对比可以分成静态对比和动态对比。(1)静态相对指标静态相对指标是指同一总体在相同时间下不同组(部门、单位、地区)的数据对比,通常用比值、倍数、系数或百分数表示。静态相对指标有如下特点。①同一总体、同一指标、同一时间、不同组的数值对比。②分子、分母可以互换。(2)动态相对指标动态相对指标是指同一总体在不同时间下的数据对比,以说明总体在不同时间上的发展变化情况,所以也叫发展速度,通常用百分数表示。例如同比发展速度和环比发展速度。动态相对指标有如下特点。①同一总体、同一指标、不同时间的数值对比。②分子、分母不可以互换。3.完成程度相对指标完成程度相对指标是实际完成值与目标计划值进行对比,通常用百分数表示。其计算公式为:1.3.3平均指标平均指标又叫平均数,是指反映总体各单位某一数量标志值在具体时间、地点、条件下达到的一般水平的综合指标。平均指标按计算和确定方法的不同,分为算术平均数和几何平均数。1.算术平均数算术平均数是指总体的总量指标与单位总数的比值。算术平均数是一种应用最为广泛的平均数,其计算公式为:12nxxxxn2.几何平均数几何平均数是n个数连乘积开n次方根,其计算公式为:对于同一组数据来说,几何平均数≤算术平均数。几何平均数适用于计算平均合格率、平均本利率、平均发展速度、平均增长速度等。12nGnxxxx
本文标题:数据分析基础课程-第一章--数据分析概述
链接地址:https://www.777doc.com/doc-1391157 .html