您好,欢迎访问三七文档
2012深圳杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写):B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):日期:2012年5月27日赛区评阅编号(由赛区组委会评阅前进行编号):2012深圳杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1手机用户精准度识别模型摘要随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。为了便于针对不同用户推出合适的产品和服务,我们需要精准地识别用户类型。本文主要是通过数据筛选处理统计的方法,以某营运商提供的用户资料、通话清单、短信清单等数据为基础,仿照霍兰德职业兴趣理论以及类电子云作图和朗途的分析方法运用编程、数据库等将数据筛选统计,分析得出结果。对于问题一,结合用户年龄,分别对通话时长、通话频率、通话时间段、通话属性(市话/长途/漫游)、主被叫用户的个数以及范围、短信收发回复长短以及时间建立坐标轴转化模型。根据所得数据进一步分析出用户的空余时间段和对电话的依赖程度等,对比资料编程筛选得出职场新人。对于问题二,通过对用户手机套餐档次、话费使用、资费变更次数、增值费、流量使用情况,装载软件类型多少和变更次数,浏览频率较高网页的统计结合是否为3G用户等分别量化分成ABCD四个等级建立模型,最后根据每个用户得分情况判断出用户终端价格范围。对于问题三,对各个职业空余时间和通讯情况找出第二通讯高峰期进行整理统计成曲线函数,编写程序需要被精准识别的用户对比辨别筛选得出用户职业类型。对于问题四,运用统计学处理中等级分类的原理将与研究对象有联系的用户按亲密程度进行等级划分,对亲密用户的地域进行类电子云作图结合职业类型和终端价格范围对用户的教育背景精准识别。关键词:手机精准识别职场新人亲密用户等级2一问题重述为了便于针对不同的用户推出合适的产品和服务,我们需要精准地识别用户类型。而处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上)工作不到1年的年轻群体—职场新人。他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。职场新人正处于人生的十字路口,在各方面即将进入全面转型。根据以上数据,请建立数据模型并解决以下问题:1、根据附表中的数据,识别该城市的职场新人;2、对于手机信息不详的职场新人,请估算其终端大致的价格范围;3、对于职业类型不详的职场新人,请预测其职业类型;4、请识别职场新人的教育背景,如重点院校、非重点院校、专科本科、硕博等;二背景介绍职场新人处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上)工作不到1年的年轻群体。他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。职场新人正处于人生的十字路口,在各方面即将进入全面转型。职场新人,承受能力不强,处理事情能力欠缺,由于刚接触社会,对工作持有不满的态度。以致于他们大多时候表现出迷茫,浮躁的状态。而手机将成为他们的一种重要工具,无聊时,追逐时,他们会建立自己的一种比较特别的交际群体,往往会呈现一定的规律和倾向。研究刚毕业不久,踏入职场的职场新人,掌握他们的信息,就如掌握着一定的市场。运营商若能很好的对这群职场新人进行分析及定位,将为运营商带来很好的竞争力与创造力。本文基于此,提出了一定的算法,来统计我们需求的群体,并对其进行分类研究。三问题分析鉴于职场新人一方面喜欢幻想,瞧不起上司,承受能力不强,对于社会现实的骨干踌躇满志却遭当头一棒,迫切想要与人倾诉,这让手机成为他们工作空余的精神支柱,开始频繁的给同自己一样处境的同学打电话发短信,且短信回复情3况良好,与亲人朋友联系。另一方面,现在的职业大都只是作为一个暂时的解决吃住的工作,对于自己的事业还努力追逐着,对此会出现频繁的打往不同公司的电话的现象,漫游,长途会增多,整个被叫用户的地域范围会加大。所以对用户的通话记录短信情况进行统计量化,通过查询资料得知职场新人的套餐档次情况为:套餐档次多为159元/月,129元/月,19元/月。职场新人因为刚踏入职场,面临压力不会太大,而此时他们还比较依赖过去的人际关系,往往对自己的未来也不是很清楚。所以他们一般用手机上网聊QQ,上人人,看小说,和大学生没有多大的区别,他们的上网流量大概在70M~1300M之间。上网时长一般为2~4个小时。所以正对以上信息对用户信息分类整理即可得到我们所精准识别的职场新人。但也有很多干扰项的存在,所以只有加大数据筛选力度做到统计的数据更具有普遍性才能更好的运行这项程序。人都是活在社会中的,我们进一步通过对用户的亲密用户进行同样的分类分析,这样我们将得到一个强大的网络系统,以环环相扣的节节相连的方式存在,这样可以提高我们的精准识别度。四符号说明L:平均通话时长=总的通话时长/总的通话次数f:通话频率=通话时长/总的时间V1:市话频率=市话次数/总的通话次数V2:长途频率=长途次数/总的通话次数V3:漫游频率=漫游次数/总的通话次数五基本假设5.1:假设在一定范围内的数据,可以用一个适中的点表示,以致方便图形的绘画。5.2:编程统计的数据,可能存在一定遗漏,我们可以对数据分段处理。5.3:精准度建立在一定的统计数据上,量化精准。5.4:本科毕业生职场新人的年龄在22——25岁,专科毕业生职场新人的年龄在22——24岁,硕博职场新人年龄在28——35岁,假设不存在大龄职场新人和年轻有为的天才型职业新人。5.5:六大职业类型(技能型,研究型,艺术型,经管型,社交型,事务型)都具有本职业类型的显著特征。5.6:职场新人对手机的依赖程度比其他群体高,即不存在比职场新人对手机依赖程度还高的群体。5.7:查找的相关资料具有真实性和强的可靠性,职场新人的电话高峰期为19:400过后,峰点处于23:00—24:00六模型的建立与求解6.1模型的准备为了后面建模与程序设计的方便,在建立此模型前,我们有必要做一些准备工作。6.1.1数据的存储由于所给的数据格式不是很规范,我们需要将其处理成我们需要的数据存储格式。从所给文件中读出并输入数据库中。6.1.2数据的初步处理1.将用户资料输入数据库根据假设4筛选出符合年龄要求的用户,整理成一个子用户群体A.具体处理步骤为:a.在Oracle数据库中按照给定的字段属性创建三个表tb_user_info_201202、tb_call_201202、tb_sms_201202;b.用PL/SQLDeveloper软件将对应的txt文件的数据导入到对应的表中;c.用SQL语句进行数据的筛选(具体程序见6.2.1模型一的建立);d.用java程序将筛选出来的程序保存到Excell表里处理结果见附录。2.在由1得出Excell表里算出每个用户的平均通话时长,计算公式为:平均通话时长=总的通话时长/总的通话次数用L分别表示出来;3.将A群体中的每个用户的通话记录输入Oracle数据库中按照给定的字段属性筛选出有用数据,用PL/SQLDeveloper软件将对应的txt文件的数据导入到对应的表中;再用SQL语句进行数据的筛选;最后用java程序将筛选出来的程序保存到Excell表里,然后在Excell表里算出每个用户的通话频率,计算公式为:通话频率=通话时长/总的时间用f分别表示出来;4.将A中每个用户的通话记录进行如上1、2、3进行处理,在得出的Excell表里算出每个用户的通话属性频率所占比,计算公式为:市话频率=市话次数/总的通话次数用V1表示长途频率=长途次数/总的通话次数用V2表示漫游频率=漫游次数/总的通话次数用V3表示;5.将A中每个用户的主被叫用户的个数还是用上述方法进行统计,并整理成条形统计图单个用户整理如图6.1.2.156.根据假设1将A中每个用户的主叫用户的地域范围描点成类电子云图单个用户整理如图6.1.2.27.将A中每个用户的短信清单输入数据库,并进行上述相同处理,并在得出的Excell表里算出每个用户的回复情况,计算公式为:回复率=回复短信条数/总的发送短信条数用V4表示6.1.3相关数据的收集a.本科毕业生职场新人的年龄在22——25岁,专科毕业生职场新人的年龄在22——24岁,硕博职场新人年龄在28——35岁b.职场新人的电话高峰期为19:00过后,峰点处于23:00—24:00c.通过查询资料得知职场新人的套餐档次情况为:套餐档次多为159元/月,129元/月,19元/月。d.职场新人上网流量大概在70M~1300M之间。上网时长一般为2~4个小时。e.行政人员,上午10点到中午,或下午5点到5点半建筑施工人员,上午9点前或下午5点后医药商,下午4~5点之间银行经理,上午10点前或下午3点后内科医师,上午9~11点之间或下午4点后教授或老师,上午8点前或下午4点后会计师,1~4月以外的任何时间出版商或印刷商,下午3点之后零售商,上午8~10点之间股票经纪人,上午10点前或下午3点后承包商,上午9点前或下午5点后牙医,上午9点半以前食品商,下午1~3点之间主妇,上午10点到中午之前律师,上午11点到下午2点之间药剂师,下午1~3点之间6.2模型的建立6.2.1模型一的建立与求解结合用户年龄,分别对通话时长、通话频率、通话时间段、通话属性(市话/长途/漫游)、主被叫用户的个数以及范围、短信收发回复长短以及时间建立坐标轴转化模型。根据所得数据进一步分析出用户的空余时间段和对电话的依赖程度等。具体步骤如下:a.在Oracle数据库中按照给定的字段属性创建三个表6tb_user_info_201202、tb_call_201202、tb_sms_201202;b.用PL/SQLDeveloper软件将对应的txt文件的数据导入到对应的表中;c.用SQL语句进行数据的筛选SQL筛选条件为年龄23-35用户等级3:中;4:低;-1:未知上网流量70-1300上网时长120-240具体筛选语言为select*fromtb_user_info_201202whereage=23andage=35and(CUST_LEVEL!='1'orCUST_LEVEL!='2')andINNET_FLOAT_AMT=70andINNET_FLOAT_AMT=1300andINNET_DUR=120andINNET_DUR240;(具体程序见附录)得到如下数据:(由于用户量大,所以仅截取前面小部分)本网手机号码城乡标识身份证归属地性别年龄用户等级用户的行业手机操作系统类型手机价格5674100551F23456007553800556F26456android032530620557F24-15600213302-10556M24356android033968900551F31-156android2.1036751100551M29-156347316-10556M28-1560031881900794M28312android2.1083269010551M34-156android0109260500
本文标题:职场新人2
链接地址:https://www.777doc.com/doc-3285769 .html