您好,欢迎访问三七文档
1软件开发人员的薪金摘要本文所要解决的是研究软件开发人员的薪金与他们的资历、管理责任、教育程度等之间的关系,建立一个模型,以便分析公司人事策略的合理性,并作为新聘人员薪金的考虑。根据题设条件,结合实际情况,建立线性回归模型,方程表达式:011223344=+++++yaaxaxaxax其中0a,1a,2a,3a,4a是回归系数,ε为随机误差,1x,2x,3x,4x分别为资历、管理水平和教育程度。结合题目所给的数据,运用matlab软件的命令rearess,求出了软件开发人员的薪金与资历、管理水平、教育水平之间的线性回归方程:1234=11300+546+6883-2994+148+yxxxx分析后同时运用残差分析法发现模型的缺陷,改进影响软件开发人员薪金的因素,改变模型,使得管理责任因素和教育程度因素对薪金是交互作用的,这样合理化模型后,得出了影响软件开发人员薪金因素的最佳多元回归模型。建立回归方程:011223344523632=+++++++yaaxaxaxaxaxxaxx并用运用matlab软件得出了该模型的较准确的解:12342342=11204+497+7048-1727-348-3071+1836+yxxxxxxxx并对回归方程和各个因素运用残差分析法进行了显著性检验,去掉异常数据后,在运用matlab软件求解,得出更为准确的解:4232432199713056-356-1737-704149811200xxxxxxxxy再次运用残差分析法对模型进行检验,说明模型可用。综上所述,本文对数据进行深入分析,运用MATLAB软件画图,制作表格,更形象地反映数据,简单明了,运用残差分析法对模型进行检验,说明模型可用。关键字:线性回归模型ressess残差分析法2一.问题重述一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等之间的关系,要建立一个模型,以便分析公司人事策略的合理性,并作为新聘用人员薪金的参考。他们认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是调查了46名软件开发人员的档案资料,如表,其中资历一列指从事专业工作的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1表示中学程度,2表示大学程度,3表示更高程度(研究生)。表一软件开发人员的薪金与他们的资历、管理责任、教育程度之间的关系编号薪金资历管理教育编号薪金资历管理教育1138761112422884612211608103251697871131870111326148038024112831022717404811511767103282218481362087221229135488017117722023014467100181053520131159421002912195203322317410131012313302332378010121114975311342541011121221371312351486111011319800313361688212021411417401372417012131520263413381599013011613231403392633013121712884402401794914021813245502412568515131913677503422783716122015965511431883816022112366601441748316012221351613451920717022313839602461934620013二.模型假设(1)薪金自然随着资历(年)的增长而增加;(2)管理人员的薪金应高于非管理人员;(3)教育程度越高薪金也越高;(4)管理责任、教育程度、资历诸因素之间没有交互作用;(5)资历(年)、管理水平、教育程度分别对薪金的影响是线性的;(6)目前公司软件开发人员的薪金是合理的;(7)在模型改进中我们假设资历(年)、管理水平、教育程度之间存在交互作用。三.问题的分析对于问题,在符合题意并且与实际情况较吻合的情况下,薪金记作y,资历(年)记作1x,为了表示是否非管理人员,定义为了表示3种教育程度,定义,这样,中学用3x=1,4x=0来表示,大学用3x=0,4x=1表示,研究生则用3x=0,4x=0表示。对于影响变量的这些定性因素(管理,教育),在模型求解过程中我们采用“0-1”变量来处理,并运用数学软件matlab来求解,最后对所得的解进行讨论和分析。四.模型的建立及求解1.符号的说明:y软件开发人员的薪金1x资历2x管理责任3x,4x教育程度ia带估计的回归系数(i=1,2,3,4,5,6)4随机误差b随机误差,回归系数的样本估计值intb回归系数的估计值的置信区间r残差向量-yxintrR的置信区间stats回归模型的检验统计量2R回归方程的决定系数F统计量值pF对应的概率值2s剩余方差置信水平0.052.模型的建立薪金y与资历1x,管理责任2x,教育程度3x,4x之间的多元线性回归方程为:011223344=+++++yaaxaxaxax3.模型的求解直接利用matlab统计工具箱中的命令regress求解,使用格式为:[b,bint,r,rint,stats]=regress(y,x,slpha)其中输入y为模型(1)中的y的数据(n维向量,n=30),x为对应于回归系数ia的数据矩阵,alpha为置信区间;输出b为ia的估计值,bint为b的置信区间,r为残差向量,rint为r的置信区间,stats为回归模型的检验统计量,有四个值,第1个是回归方程的决定系数2R(R是相关系数),第2个是F统计量值,第3个是与F统计量值对应的概率值p,第4个是剩余方差2s。根据上述方程式,我们用数学软件matlab对模型进行求解可以得到回归系数及其置信区间(置信水平=0.05),检验统计量2R,F,p,2s的结果,见表二。表二模型(1)的计算结果参数参数估计值参数置信区间0a11032[10258,11807]1a546[484,608]2a6883[6248,7517]3a-2994[-3826,-2162]4a148[-636,931]2R=0.579F=226p0.00012s=1.057x1065五.结果分析和检验一.结果分析从表二知2R=0.975,即因变量(薪金)的95.7%可由模型确定,F值远远超过F的检验的临界值,p远小于,因而模型(1)从整体来看是可用的。比如,利用模型可以估计(或预测)一个大学毕业,有2年资历,费管理人员的薪金为:0112233441=+++++yaaxaxaxax=12272模型中各个回归系数的含义可初步解释如下:1x的系数为546,说明资历增加1年薪金增长546;2x的系数为6883,说明管理人员薪金多6883;3x的系数为-2994,说明中学程度薪金比更高的少2994;4x的系数为148,说明大学程度薪金比更高的多148,但是注意到4a置信区间包含零点,说明这个系数的解释不可靠。需要指出,以上解释是就平均值来说,并且,一个因素改变引起的因变量的变化量,都是在其他因素不变的条件下成立的。二.结果检验4a的置信区间包含零点,说明基本模型(1)存在缺点。为了寻找改进的方向,常用残差分析方法(残差指薪金的实际值y与用模型估计的薪金y1之差,是模型(1)中随机误差的估计值,这里用了一个符号)。我们将影响因素分成资历与管理-教育组合两类,管理-教育组合的定义如表三:表三管理——教育组合123456管理010101教育112233为了对残差进行分析,图1给出了与资历x1的关系,图2给出与管理x2-教育x3,x4组合间的关系。6图1模型(1)与1x的关系图2模型(1)与2x—3x,4x组合的关系从图一看,残差大概分成3个水平,这是由于6种管理—教育组合混合在一起,在模型中未被正确反映的结果,、;从图2看,对于前4个管理—教育组合,残差或者全为正,或者全为负,也表明管理—教育组合在模型中处理不当。在模型(1)中国管理责任和教育程度是分别起作用的,事实上,二者可能起着交互作用,如大学程度的管理人员的薪金会比二者分别的薪金制和高一点。以上分析提醒我们,应在基本模型(1)中增加管理2x与教育3x,4x的交互项,建立新的回归模型。六.优化方向通过以上分析,我们在模型一中增加管理2x与教育3x,4x的交互项,建立新的回归模型。模型记作:011223344523632=+++++++yaaxaxaxaxaxxaxx利用matlab的统计工具得到的结果如表四:表四模型(2)的计算结果参数参数估计值参数置信区间0a11204[11044,11363]1a497[486,508]2a7048[6841,7255]3a-1727[-1939,7255]4a-348[-545,-152]5a-3071[-3372,-2769]6a1836[1571,2101]2R=0.9988F=5545p0.00012s=3.0047x1047由表四可知,模型(2)的2R和F值都比模型(1)有所改进,并且所有回归系数的置信区间都不含零点,表明模型(2)是完全可用的。与模型(1)类似,作模型(2)的两个残差分析图(图3,图4),可以看出,已经消除了图1,图2中的不正常现象,这也说明了模型(2)的适用性。图3模型(2)与1x的关系图4模型(2)与2x—3x,4x组合的关系从图3,图4还可以发现一个异常点:具有10年资历、大学程度的管理人员(从表1可以查出是33号),他的实际薪金明显地低与模型的估计值,也明显低于与他有类似经历的其他人的薪金。这可能是由我们未知的原因造成的,为了使个别的数据不致影响整个模型,应该讲这个异常数据去掉,对模型(2)重新估计回归系数,得到的结果如表五,残差分析图见图5,图6.可以看出,去掉异常数据后结果又有改善。表五模型(2)去掉异常数据后的计算结果参数参数估计值参数置信区间0a11200[11139,11261]1a498[494,503]2a7041[6962,7120]3a-1737[-1818,,-1656]4a-356[-431,-281]5a-3056[-3171,-2942]6a1997[1894,2100]2R=0.9998F=36701p0.00012s=4.347x1038图5模型(2)去掉异常数据后图6模型(2)去掉异常数据后与与1x的关系与2x—3x,4x组合的关系对于回归模型(2),用去掉模型异常数据(33号)后估计出的系数,得到的结果是满意的。作为这个模型的应用之一,不妨用它来制订”6种管理—教育组合人员的“基础”薪金(即资历为零的薪金,当然,这也是平均意义上的)。利用模型(2)和表五容易得到表六:表六6种管理—教育组合人员的“基础”薪金组合管理教育系数“基础”薪金1010a+3a94632110a+2a+5a+3a134483020a+4a108444120a+2a+4a+6a198825030a112006130a+2a182417从表六可以看出,大学程度的管理人员的薪金比研究生程度的管理人员的薪金高,而大学程度的非管理人员的薪金比研究生程度的管理人员的薪金高,而大学程度的非管理人员的薪金比研究生的非管理人员的薪金略低。当然,这是根据这家公司实际数据建立的模型得到的结果,并不具普遍性。七.模型评价本文在模型建立时结合实际情况,对问题进行了适当的假设。对于影响因变量的定性变量因素(管理,教育),可以引入0—1变量来处理,0—1变量的个数可比定性因素的水平少1(如教育程度有3个水平,引入2个0—1变量)。9运用到MATLAB软件进行计算还有制图,得到较准确的数据和图表。为求结果的精确,还运用了残差分析方法,发现模型的缺陷,引入交互作用项使模型更加完善和具可行性。因有异常数据的存在,我们予以剔除,有助于结果的合理性。对于本文所得的模型也可以用于不同单位,不同行业某类人才的预测。当然,本文也存在许多不足。但是对于对模型
本文标题:软件开发人员的薪金
链接地址:https://www.777doc.com/doc-6041432 .html