您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 第1章-R与多元统计分析简介.
主编:费宇中国人民大学出版社•1.1R简介•1.2多元统计分析简介第1章R与多元统计分析简介2主编:费宇2019/12/20•1.R的特点•免费和开放•统计和分析功能完善•作图功能强大•可移植性强•使用灵活1.1R简介2019/12/203主编:费宇•2.R的安装与运行R软件的程序包的安装方式:(1)菜单方式:程序包安装程序包选择CRANMirror服务器选择要安装的程序包(2)命令方式:install.package(Rcmdr)(3)本地安装:程序包从本地zip文件安装程序包新装程序包载入方式:(1)菜单方式:程序包加载程序包选择要加载的程序包(2)命令方式:library(Rcmdr)1.1R简介2019/12/204主编:费宇•3.R的基本原理•数值型向量的建立1.1R简介2019/12/205主编:费宇x1-seq(2,6,by=1)#生成序列x1=(2,3,4,5,6),这里赋值符号“-”也可以用等号“=”x2-c(8,10,12,16,21)#生成一个5维向量x2=(8,10,12,16,21)x3-rep(2:4,2)#生成序列x3=(2,3,4,2,3,4)z.dat-data.frame(x=x1,y=x2)#生成数据框(数据文件)z.dat,具体形式如下xy1282310341245165621cbind(x1,x2)#将x1和x2按列合并得如下数据x1x2[1,]28[2,]310[3,]412[4,]516[5,]621rbind(x1,x2)#将x1和x2按行合并得如下数据[,1][,2][,3][,4][,5]x123456x28101216211.1R简介2019/12/206主编:费宇•矩阵的建立1.1R简介2019/12/207主编:费宇A-matrix(1,nr=2,nc=2)#建立一个所有元素都为1的2阶方阵B-diag(3)#生成一个3阶单位阵x-c(2,3,4)D-diag(x)#生成一个对角元素是(2,3,4)的3阶方阵X-matrix(0,nr=2,nc=3)#建立一个所有元素都为0的2×3阶矩阵x1-c(2,3,4)x2-c(1,2,5)X-rbind(x1,x2)#将X的第1行赋值为x1,第2行赋值为x2,得到如下矩阵[,1][,2][,3]x1234x2125•例1.1(数据文件为eg1.1)表1.1城镇居民年人均可支配收入和年人均消费性支出数据1.1R简介2019/12/208主编:费宇地区可支配收入消费性支出地区可支配收入消费性支出北京21988.7115330.44湖北11485.808701.18天津16357.3512028.88湖南12293.548990.72河北11690.478234.97广东17699.3014336.87山西11564.958101.84广西12200.448151.26内蒙古12377.849281.46海南10996.878292.89辽宁12300.399429.73重庆12590.789890.31吉林11285.528560.30四川11098.288691.99黑龙江10245.287519.28贵州10678.407758.69上海23622.7317255.38云南11496.117921.83江苏16378.0110715.15西藏11130.937532.07浙江20573.8214091.19陕西10763.348427.06安徽11473.588531.90甘肃10012.347875.78福建15506.0511055.13青海10276.067512.39江西11451.697810.73宁夏10859.337817.28山东14264.709666.61新疆10313.447874.27河南11477.057826.72•假定数据文件为eg1.1.txt保存在“C:\data”子目录下,我们先读入数据,计算x与y的相关系数并绘制散点图。setwd(“C:/data”)#设定工作路径,R中路径的斜线符号为“/”,与Windows中的相应符号“\”不一样dat=read.table(eg1.1.txt,header=T)#从eg1.1.txt中读入数据,记为dat,#header=T表示将eg1.1.txt文件的第1行作为表头行,也可以写为header=TRUE;#header=F或header=FALSE则表示文件的第1行不作为表头行cor(dat)#计算x和y的相关系数plot(y~x,data=dat)#绘制x和y的散点图例1.1(数据文件为eg1.1)2019/12/209主编:费宇运行结果为:xyx1.00000000.9760254y0.97602541.0000000•人均消费性支出y与年人均可支配收入x之间的线性关系非常明显,二者的相关系数为0.976,例1.1(数据文件为eg1.1)2019/12/2010主编:费宇图1.1年人均可支配收入x和年人均消费性支出y的散点图2019/12/2011主编:费宇10000140001800022000800010000120001400016000xyfitlm-lm(y~x,data=dat)#使用数据文件dat中的数据,建立y关于x的回归方程,并将回归结果保存在fitlm中,这里赋值符号“-”也可以用等号“=”summary(fitlm)#显示fitlm的内容,即输出回归分析的结果建立y关于x的线性回归模型2019/12/2012主编:费宇Call:lm(formula=y~x,data=dat)Residuals:Min1QMedian3QMax-1068.3-417.3-20.5301.91639.1Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)450.33408388.905591.1580.256x0.691970.0286524.1482e-16***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:559.3on29degreesoffreedomMultipleR-squared:0.9526,AdjustedR-squared:0.951F-statistic:583.1on1and29DF,p-value:2.2e-16运行结果为:2019/12/2013主编:费宇•4.R的帮助R的基本知识:在RGui的窗口中选择“帮助”菜单中的“RFAQ”(R的常见问题)获得R的特点、安装、使用、界面和编程规则等基本知识.“帮助”菜单中的“手册”提供的8本帮助手册:AnIntroductiontoR,RReferenceManual,RDataImport/Export,RLanguageDefinition,WritingRExtensions,RInternals,RInstallationandAdministration,SweaveUser,其中第一本“AnIntroductiontoR”是最基本的手册.通过命令“help.start()”也可以获得类似的帮助.1.1R简介2019/12/2014主编:费宇有关函数的含义和使用方法help(lm)#获得名为“lm”的函数的帮助页面?lm#此命令与上面的命令效果一样4.R的帮助2019/12/2015主编:费宇•1.多元统计分析的用途(1)多变量的相关性分析:简单相关分析、偏相关分析、复相关分析、典型相关分析(2)预测分析:多元回归分析(3)分类和组合:聚类分析和判别分析(4)数据简化:主成分分析和因子分析1.2多元统计分析简介2019/12/2016主编:费宇•2.多元统计分析的内容(1)多元回归分析:研究一个因变量随多个自变量的变化而变化的情况,通过建立多元回归模型(线性模型和广义线性模型等)来分析二者之间的依赖关系第2章,第3章(2)聚类分析:根据聚类对象的多个变量(指标)的测量值,按照某个标准把这写个体分成若干类第4章(3)判别分析:在已知分类的前提下,将给定的新样品,按照某种分类规则判入某个类中第5章1.2多元统计分析简介2019/12/2017主编:费宇(4)主成分分析:一种降维分析方法,即将多个存在相关关系的变量化为少数几个综合变量第6章(5)因子分析:用少数几个随机变量(称为因子)去描述多个随机变量之间的协方差关系第7章(6)对应分析:把R型因子分析和Q型因子分析有机的结合起来,同时把变量和样品反映到相同的坐标轴(因子轴)的一张图上,来说明变量与样品之间的对应关系第8章2.多元统计分析的内容2019/12/2018主编:费宇(7)典型相关性分析:研究两组随机变量之间的相互依赖关系的一种统计分析方法第9章(8)多维标度法:以空间分布的形式表现对象之间相似性或亲疏关系的一种多元分析方法第10章2.多元统计分析的内容2019/12/2019主编:费宇2019/12/20主编:费宇
本文标题:第1章-R与多元统计分析简介.
链接地址:https://www.777doc.com/doc-2153905 .html