您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 数据挖掘大作业中国内地旅游业分析
数据挖掘大作业:关于中国内地旅游业分析1/23数据挖掘大作业---------------中国内地旅游业分析组员:黄英亮、刘佳、王逸鸣、姚壮潘、钟健数据挖掘大作业:关于中国内地旅游业分析2/23摘要:本文通过可取得的权威数据和文献,通过R结合多种多元统计的方法对原始数据进行了定量分析和处理,辨别出了中国旅游业发展的核心区和边缘区,并结合分析结果科学地对现阶段中国省区的旅游业发展水平进行了分类和综合评判。本文的相关结果可以为政府决策层制定促进区域旅游业发展水平的协调和中国旅游的发展水平的相关政策提供积极的指导意见,也可作为旅游业研究者进行定性研究时的参考。关键词:收入分析;聚类分析;判别分析;主成分分析;回归分析一、研究背景:“和平和发展”是21世纪的时代主题,在此阶段内技术进步和社会经济的发展使人们的闲暇时间增多,同时人均可支配收入也日益增长。在人们的基本需求得到满足以后,旅游需求就得到了空前释放。现代旅游业在其发展过程中显示了其“资源消耗低,带动系数大,就业机会多,综合效益好”的产业特性,因此被全球主流国家支柱产业、重要产业来发展,使得现代旅游业成为社会经济发展的重要支撑,同时旅游业作为一项出口贸易,其所带来的经济收入仅次于燃料、化学用品和自动化产品,在全球出口贸易中排第四位,很多发展中国家都把旅游业作为外汇收入的主要来源。最新数据显示旅游业对全球经济的贡献率为5%,直接或间接提供了大约占比6~7%的就业岗位。改革开放以来伴随着中国经济的腾飞,中国的旅游业也取得了瞩目的成就,初步形成了以国内旅游为基础,入境旅游为主导,出境旅游为补充的发展格局。但我们必须看到国内的旅游业无论从数量和质量上都与世界发达国家之间存在着巨大的差距,存在着辐射范围不过广、基础设置相对落后及区域旅游业发展不均衡等诸多问题二、研究意义数据挖掘大作业:关于中国内地旅游业分析3/23近年来中国经济转型成了所有媒体最关注的话题,中国经济在这个十年能否继写新的辉煌取决于中国经济过渡的平稳程度,而旅游业对于带动产业结构的优化升级以及促进经济发展有着重要的作用。笔者之一的家乡原是资源型发展模式,近些年自然资源日趋枯竭,发展旅游业就成了一个新的思路。再者2014来又将是高校毕业生人数刷新新纪录的一年,如何解决这700万应届毕业生和待业者的就业问题旅游业的发展也给出了好的出路。2009年,国务院便提出“把旅游业培育成国民经济的战略性支柱产业和人民群众更加满意的现代服务业”,这就赋予了旅游业国计民生的地位。在中国旅游业的发展新阶段的伊始,对省区旅游发展水平的差异研究显得特别重要。对省区之间的旅游发展水平进行科学评估和分类,对省区旅游业发展差异进行中和评判。对于我们全面地认识各省区的旅游业的发展水平,从而找出影响各地区的旅游业发展水平的因素角度出发,优化资源配置,为推进中国区域旅游化进程,促进区域旅游业发展水平的协调,提高中国省区旅游业发展水平,从而总体加快中国现在旅游业国际化的进程提出对策和建议。三、分析方法1.通过聚类分析,根据旅游业的一些指标给内地各省份分类,进而对旅游大省成功的因素进行分析,同时关注旅游资源丰富,但是收入不高的省份。2.通主成分或因子分析,以及回归分析建立旅游总收入与一些旅游指标之间的模型,近似预测某些省份年度旅游收入目标的可行性。四、数据展示tourism-read.table(C:\\Users\\Administrator\\desktop\\tourism.txt,header=T,skip=1,row.names=1)tourismX1到x8,以及y1和y2依次表示的是:大中型星级饭店营业收入(万元),大中型星级饭店数(家),星级饭店入境旅游人数(万人),星级饭店营业收入(万数据挖掘大作业:关于中国内地旅游业分析4/23元),旅游企业固定资产,旅游企业营业收入,旅游业从业人数,接待入境者人数,GDP(亿元),旅游收入(亿元)。x1x2x3x4x5x6x7广东880254.28176517.971487181.0914744095.27205404.41491829江苏490402.6490169.031034417.053840998.82239200.61125148浙江470310.94101115.891103654.713511926.82037014.11227577山东326015.647198.73788370.122945406.81251931.02144666北京1295721.00174362.921660571.007679166.04011544.74158680上海1375986.40107372.991708361.385043463.63145363.33104010河南129239.635329.50345848.521168496.6613177.7167358四川185833.945281.22425297.443285601.01204983.16145635湖北111204.593022.66366184.701616705.2672684.9181020安徽60811.212239.40222888.54654596.8448936.1248013湖南137902.574651.75290074.47909671.9613443.8149485广西119073.714975.75238201.531360542.0638068.9875388贵州31150.621015.54108051.47354300.9702676.1727941山西47352.33147.77256465.38759634.8500438.2953823福建88419.034224.04303179.46903334.0676774.6668109陕西91391.973749.23171663.00916161.6443959.3745107云南100022.7041101.29398559.651133608.6812268.5776831河北82578.253319.24322825.011449901.4695815.29101009辽宁212890.005159.00532323.852812200.8951991.21111295江西50917.462236.14163762.75607960.3365378.7635323重庆122970.662544.47245552.40798739.4496702.0838839吉林70629.871314.62167543.72814732.1232489.0628798内蒙古33594.361322.1892102.08443771.6164815.44106963黑龙江55409.142017.60159063.401005275.7323884.3033797新疆98163.552730.47265888.83972190.6443184.1337477甘肃34429.801816.81113415.57421634.5179876.9226087海南157654.715034.49216187.951267655.1385172.6240891天津95431.231825.14184878.52525475.5346386.2725494西藏8309.1349.5225335.68151558.138122.5511754青海7198.0043.4727590.12105964.240404.936526宁夏6547.1520.6441460.42125916.081581.809358x8y1y2广东1896985062163.978305.00江苏378302359162.007195.00浙江348046937568.505536.00山东155105654684.305000.00北京362917719500.603963.20上海444542821602.123900.00数据挖掘大作业:关于中国内地旅游业分析5/23河南60052932155.863875.50四川106275926260.773800.00湖北82570024668.493206.00安徽63289537568.502880.00湖南71982924501.702681.86广西147709914378.002500.00贵州2761948006.792370.00山西42145812602.202305.00福建197389421759.642286.00陕西92835116045.212135.00云南150278711720.912111.20河北62648428301.402000.00辽宁130195527100.002000.00江西37251314338.501896.06重庆52387212656.691768.00吉林37324912981.461477.08内蒙古100163517000.001403.00黑龙江82153214800.001384.00新疆3311458510.00673.00甘肃2884846300.00620.00海南4319073146.46428.00天津74007114370.16332.90西藏121308802.00165.00青海351872103.00158.54宁夏81622600.00127.00先看看各省GDP(黑)和旅游收入(红)的情况:stars(tourism[c(y1,y2)],full=T,draw.segment=T)数据挖掘大作业:关于中国内地旅游业分析6/23从上图中可以看出有半数以上的省份旅游收入占据总的GDP的相当大部分;GDP较高的省份其旅游收入一般也较高;这反映了旅游业已经成为我国国民经济的重要产业。用脸谱图形象描述:数据挖掘大作业:关于中国内地旅游业分析7/23五、聚类分析对源数据做标准化和中心化:tour=scale(tourism,center=T,scale=T)d-dist(tour)hc1-hclust(d,average)hc2-hclust(d,centroid)hc3-hclust(d,ward)plot(hc1,hang=-1)plot(hc2,hang=-1)plot(hc3,hang=-1)画出谱系图如下:数据挖掘大作业:关于中国内地旅游业分析8/23数据挖掘大作业:关于中国内地旅游业分析9/23从三幅图的效果看来,用离差平方和的算法得出的结果比较符合经验知识。根据结果分成三类为佳。分别为第一类:{广东、北京、上海、浙江、江苏、山东};第二类:{湖南、福建、湖北、河北、河南、安徽、广西、云南、四川、辽宁};第三类:{西藏、青海、宁夏、海南、天津、新疆、甘肃、内蒙古、贵州、山西、吉林、黑龙江、陕西、江西、重庆}六、判别分析这里对上叙最优分类做距离和bayes判别,来测试一下以下分类器的分类效果:代码:tourism-read.table(C:\\Users\\ming\\desktop\\1.txt,header=T)tourismx1x2x3x4x5x6x7x8y1y2z1880254.28176517.971487181.0914744095.27205404.414918291896985062163.978305.0012490402.6490169.031034417.053840998.82239200.61125148378302359162.007195.001数据挖掘大作业:关于中国内地旅游业分析10/233470310.94101115.891103654.713511926.82037014.11227577348046937568.505536.0014326015.647198.73788370.122945406.81251931.02144666155105654684.305000.00151
本文标题:数据挖掘大作业中国内地旅游业分析
链接地址:https://www.777doc.com/doc-6406049 .html