您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 基于回归分析的房价模型及预测
毕业论文题目基于回归分析的房价模型及预测学生姓名王赛学号0809014046所在院(系)数学与计算机科学学院专业班级数学与应用数学(师范类)专业081班指导教师李晓康论文完成地点陕西理工学院2012年5月27日陕西理工学院毕业论文第1页共15页基于回归分析的房价模型及预测王赛(陕西理工学院数学与计算机科学学院数学与应用数学08级1班,陕西汉中723000)指导老师:李晓康【摘要】选取全国几个代表性城市,确定影响房价的主要因素,建立房价的数学模型—多元线性回归模型.首先用信息增益法找出影响房价的主要因素,确定模型,利用最小二乘法求解模型中的参数,用回归分析确定模型精度及检验,从而得出一个完整的数学模型;接着利用往年数据建立拟合曲线,预测未来四年影响北京市房价的主要因素及房价走势,并进行定量分析;最后根据模型进行预测,分析模型的优缺点并提出改进方向,并给出抑制房价的建议.【关键词】房价问题;回归模型;拟合曲线;预测;经济发展1引言房价问题事关国计民生,对国家经济发展和社会稳定有重大影响,一直是各国政府大力关注的问题.我国自从取消福利分房制度以来,随着房价的不断飙升,房价问题已经成为全民关注的焦点议题之一,从国家领导人、地方政府官员,到开发商、专家学者、普通百姓通过各种媒体表达各种观点,但对于房价是否合理、未来房价的走势等关键问题,至今尚未形成统一的认识.房地产行业作为中国经济的支柱产业,它的一举一动都影响着国民经济的发展以及吸引着媒体和大众的目光.近几年来房地产业已经成为一个社会关注度很高、情绪化影响很大、学术研究水平很低、政策手段很矛盾、调控效果很不确定的产业.而这几年,房价问题越来越受到人们的关注.所以,认清当今的房价现状,对我国相关政策法规的制定、企业发展规划以及普通家庭的置业理财等都大有裨益.影响房价的因素有很多,如人口增长率、工薪收入、城乡人均储蓄余额、房屋造价、人均全年住房支出、城镇房地产开发投资等.回归分析是确定变量间相关关系的有效方法.本文拟采用信息增益法确定影响房价的主要因素,采用回归分析法建立模型,对未来房价进行分析和预测.2基本假设及定义符号说明2.1基本假设假设一所选的城市物价和其他情况相对比较稳定,全局内没有大起大落的现象;假设二未来几年不会发生特大自然灾害、战争动乱以及人为伤害;假设三房屋建造成本用竣工房屋造价来代替;假设四房屋价格通过商品房平均销售价(元/平方米)来表示;假设五房价购买能力用人均储蓄存款、人均可支配收入来表示,银行利率每年保持稳定;假设六忽略消费成本如交通费用、物业费用、停车费用等对房价的影响;假设七供需平衡指:供应量=需求量.2.2定义符号说明1x:表示工薪收入(元);2x:表示城乡人均储蓄余额(元/人);3x:表示造价(元/平方米);陕西理工学院毕业论文第2页共15页4x:人均全年住房支出(元);5x:竣工面积;6x:人口增长率;7x:开发商投资;Y:商品房平均销售价(元/平方米);t:为随机变量;2б:序列的方差;4321,,,,xxxxY分别表示4321,,,,xxxxY序列的均值;4321,,,,xxxxY分别表示44332211,,,,xxxxxxxxYY,即中心化序列;4321,,,xxxx:模型参数;)(aS:为残差的平方和;n:统计城市数(样本数);t:年份序号;:中心化序列的协方差.3模型的建立下表为我国13个城市商品房平均销售价及其相关因素统计表.依照此表可以求得各因素对商品房平均售价的影响程度,采用信息增益计算法.表3.113个城市商品房平均销售价及其相关因素统计表注:上表数据来源为《中华人民共和国国家统计局—年度数据》.3.1信息增益计算法信息增益基于信息论中熵的概念.熵是对事件的属性的不确定性的度量.一个属性的熵越大,它蕴含的不确定信息越大.因此,ID3总是选择具有最高信息增益的属性作为当前结点的测试属性.设S是s个数据样本的集合.假定类标号属性具有m个不同的值,定义m个不同的类iCm3,2,1i.设is是类iC中的样本数.对于给定的样本分类所需要的期望信息由下式给出城市竣工面积(万平方米)人口增长率(‰)工薪收入(元)城乡人均储蓄余额(元/人)造价(元/平方米)人均全年住房支出(元)城镇房地产开发投资(亿元)房价(元/平方米)北京5225.53.5021105.6183601.712219.07551.992337.713799天津2240.12.6014389.1039781.952642.37450.48735.26886石家庄7751.06.509830.5719263.991851.67187.241520.03263上海5719.92.7023172.3671355.132923.56991.081462.112840南京43307.52.5613480.7225994.342147.98512.113338.54983杭州40239.74.6316701.0434427.492049.83652.202254.37826福州7435.16.2014211.4919516.981509.06469.241136.35427武汉10280.73.4810331.5114271.781881.15289.001200.43532长沙10073.86.119854.0912191.341667.34315.101084.62680成都11393.52.7210132.4314141.951403.38314.461588.43509昆明3771.26.089641.6810213.561564.40432.74737.52931拉萨177.510.2413326.407805.05999.54105.2715.72452西安3128.24.0010775.3717878.611865.76243.32941.63223平均11595.74.713611.728495.71901.9424.21411.75642.4陕西理工学院毕业论文第3页共15页miiimppsssI1221log,,其中ip是任意样本属于iC的概率,一般可以用ssi来估计.设属性1x有v个不同的值vaaa,,21.可以用属性1x将S划分为v个自给vSSS,,21,其中jS包含S中这样一些样本,他们在1x上具有值ja.设ijS是子集jS中类iC的样本数.根据1x划分子集的熵由下式给出mjjjvjmjjjsssIssssxE211211,.上式中ssssmjjj21充当第j个子集的权,并且等于子集(即1x值为ja)中的样本个数除以s中的样本总数.根据上面给出的期望信息计算公式,对于给定的子集jS,其期望信息由下式计算miijijmjjjppsssI1221log,,其中jijijssp是jS中样本属于类iC的概率.由期望信息和熵可以得到对应的信息增益.对于在1x上分支将获得的信息增益可以由下面的公式得到1211,GainxEsssIxm.3.2确定主要因素ID3计算每个属性的信息增益,并选取具有最高增益的属性作为测试属性.由上式可以看出,熵值越小时,其信息增益越大,表明相应的信息量越有效.在此采用ID3算法计算出每个属性关于房价的信息增益,而为了测试准确,选取半数以上信息增益较大的属性作为测试属性,即为影响1x的属性.利用下述公式将原始数据(见表3.1数据)化为0,1两数值(计算结果见表3.2)njmimaaaamaaaabmjjjijmjjjijij2,1;2,1012121这样统计方便计算其影响房价的因子由房价划分时每个因子的熵,进而求出信息增益,判断出影响房价的主要因子.表3.2城市编号竣工面积人口增长率工薪收入储蓄余额造价人均每年住房支出开发商投资房价陕西理工学院毕业论文第4页共15页1001111112001111013010000104001111115100011106101111117000000008010000009000000101000000000110100010012010000001301100100最终是根据房价来求其他因子的信息增益,所以统计房价中0,1的样本数为:11s有4个样本,02s有9个样本.为了计算各因子的信息增益,先给定房价所需的信息期望8905.0139log139134log1349,4,2221IssI接下来计算每个属性的的熵,从竣工面积开始.观察竣工面积的每个样本值的分布,对于竣工面积=1,有1个房价=1,1个房价=0;对于竣工面积=0,有3个房价=1,有8个房价=0(见表3.3).所以8,3;1,122122111ssss.表3.3房价=1房价=0竣工面积=111竣工面积=038121log2121log21,222111ssI8454.0118log118113log113,222212ssI因此该属性对应的熵为8691.0,1311,132221221115ssIssIxE信息增益为0451.0,5215xEssIxGain同理可得,各个属性等于1或等于0时,房价等于1和房价等于0时的样本数如表3.4所示表3.4房价=1房价=0人口增长率=105人口增长率=044储蓄余额=140储蓄余额=009造价=141造价=008年人均住房支出=143陕西理工学院毕业论文第5页共15页年人均住房支出=006开发商投资=133开发商投资=016同理,计算各个属性的信息增益为2850.0,6216xEssIxGain6128.0,1211xEssIxGain8905.0,2212xEssIxGain6128.0,3213xEssIxGain3600.0,4214xEssIxGain1104.0,7217xEssIxGain由以上数据比较可得)(5764312xGainxGainxGainxGainxGainxGainxGain因此,选择其半数以上的属性作为预测属性,即影响房价的因子为储蓄余额、工薪收入、造价以及年人均住房支出.3.3主要因素和商品房平均销售价的关系图利用Matlab程序,依次做出主要因素和商品房平均销售价的关系图图3.1图3.2图3.3图3.4由商品房平均销售价分别与工薪收入、城乡人均储蓄余额、造价、人均全年住房支出的关系图(图陕西理工学院毕业论文第6页共15页3.1-图3.4)可以看出,商品房平均销售价和工薪收入、城乡人均储蓄余额、造价、人均全年住房支出存在相依关系.一般地,当影响结果Y的因素不只是一个时,要通过作图来确定它们的关系是困难的,可以假设它们之间有线性相关关系,即得到回归模型txaxaxaxaY44332211ˆ.4模型的求解模型为txaxaxaxaY44332211ˆ上式表示因变量Yˆ对自变量4321,,,xxxx的相依性,其中1a,2a,3a,4a为未知参数.模型特点如下1、4321,,,xxxx为一般变量,t为随机变量;2、Yˆ为一般变量和随机变量的线形组合,Yˆ的值既取决于4321,,,xxxx,又受制于t.t一般假定为白噪声,假定其服从均值为0,方差为2б的正态分布,如表4.1所示表4.1城市Y1x2x3x4x北京1379921105.6183601.712219.07551.99天津688614389.1039781.952642.37450.48石家庄32639830.5719263.991851.67187.24上海1284023172.3671355.132923.56991.08南京498313480.7225994.342147.98512.11杭
本文标题:基于回归分析的房价模型及预测
链接地址:https://www.777doc.com/doc-3592203 .html