您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 学生一卡通消费大数据贫困生挖掘.docx
学生一卡通消费大数据贫困生挖掘随着高等教育规模的迅速扩大,各个高校的贫困生数量也在不断攀升。教育部的一项调查显示,目前高校中存在经济困难的学生占在校学生的15%-30%[1]。因此,越来越多的研究关注如何解决贫困生问题[2]。有的研究关注能否为贫困生争取有益的条件,例如国家层面的助学贷款;学校层面的校级奖学金和提供助学岗位等[3];有的研究则借助信息技术的手段,建立贫困生信息管理系统,实现信息的登记、查询、计算和分析[4]。这些研究虽然提高了贫困生管理工作的效率,但如何通过分析这些数据得到一些知识或规律,从而帮助有关贫困生工作人员完善目前的贫困生资助体系,制定合理科学的资助政策是一项有重要意义的工作[5]。在这种驱动下,现在越来越多的研究把数据挖掘方法引入到高校贫困生资格认证分析中。例如,采用改进的K-Means聚类算法对高校学生的校园卡消费数据进行分析,基于聚类结果计算每个学生的贫困程度,用来辅助高校资助决策工作[6];还有研究采用支持向量机(SupportVectorMachine,SVM)对学生校园一卡通的消费数据进行分析,将学生按贫困与非贫困分类,在高校资助决策工作中给予一定辅助[7]。这些方法大多是在一个数据集上运用数据挖掘算法得出规则,挖掘的结果在一定程度上可以为贫困生认定工作提供辅助和决策。但没有系统的搭建全方位、统一的数据主题,以提升数据质量和共享程度,运算出更精确的结果进而更好地支持数据挖掘和决策。2015年召开的党的十八届五中全会明确提出了实施“国家大数据战略”[8]。在《2018年度国家自然科学基金项目指南》[9]专门开辟教育研究通道研究教育的难题,旨在推动以自然科学范式和手段,特别是让传统教育科学与信息科学、神经科学、认知科学相交叉,研究教育的基本理论和基础问题,支撑新时代的教育。电子科技大学大数据研究中心-教育大数据研究所在贫困生精准资助、图书推荐、成绩预测领域做了很多开创前沿性的工作[10]。文章正是在这种“数据驱动学校,分析变革教育”的大数据时代背景下[11],结合我校正在构建的数据资产管理平台,对主题数据进行全面梳理,搭建统一的学生数据主题,以提高数据分析结果。具体做法是采集一卡通系统736名学生近三个月的255822条就餐数据和与学生主题相关的其他六大应用系统中的信息经过清洗并建模。通过对这些数据规模化的分析后运算出结果以支持贫困生决策。1学生主题数据建模早在2010年我校就引入了数据交换平台和共享库,在一定程度上解决了业务系统之间数据互联互通问题。但在实际建设过程中,它只是充当了数据交换中转站的角色。为了满足学校对数据挖掘和决策支持需求,需要构建校级数据仓库(DataWare原house)。通过数据仓库的建立,职能部门可对现有系统的数据进行有效的清洗和整合并加以重组,进而在此基础上做应用场景的分析。如以学生主题为例,我们把与学生主题有关的业务系统接入数据中心。如图1所示,通过数据整合及分层设计构建了学生主题域的数据仓库。其中操作型数据存储层(OperationalDataStore)解决源系统快速接入的问题,避免从源系统做频繁和重复数据抽取;数据仓库层(EnterpriseDataWarehouse)按照业务驱动,面向主题整合,保留明细和历史数据并且模型相对稳定,但是会随着源系统和数据业务标准的变化,ETL(ExtractionTransformationLoading)会随之变化。应用数据层是面向应用的个性化定制。构建好了一个主题模型框架后,需要在适当的时候逐步实现物理化。贫困生挖掘分析的ETL工作流功能结构如图2所示。图中选取了与学生信息相关的六大核心业务系统,经过ETL处理后以学号为主关键字把学生的信息整合成一张表信息。以保证基于学生的消费数据模型进行贫困生挖掘分析的有效性。2学生消费数据建模经过学生主题数据仓库建模后,采集了学生一张表信息集,我们把涉及到学生消费数据建模所需要的数据集输入大数据分析专家软件Datist,并对敏感信息如身份证号脱敏处理以及对学生基本信息和就餐交易数据进行了从身份证中解析性别和籍贯信息和对交易记录中的日期进行数据预处理后,再添加就餐饭点信息和就餐星期信息以及设置条件“设在饭堂吃饭”得到学生消费数据模型如图3所示。模型分析了长期不在饭堂吃饭、大额消费(即单餐消费超30元)和贫困生单月消费总额三种情况。Datist是服务于大数据时代场景式(Context)数据整合与融合的功能强大的软件产品。该软件根据用户场景需求组织数据与编制业务流程,通过可视化的节点组合来完成数据的获取、组织、整合、提纯及有形化表达。图3是根据学生一卡通消费数据设计的业务流程。图中有输入节点即数据源:学生基本信息表和学生消费交易数据表等。输入节点后进入数据处理阶段,通过数据处理如汇总节点、过滤节点、大额消费数据即单餐消费超30元等节点处理后再经过各种输出节点输出结果。如有贫困学生单月消费总额、长期不在食堂吃饭等异常结果信息。部分处理的样例数据如表1所示。3学生就餐消费信息分析数据模型确立后,通过软件运算,对736名学生2016年9月9日-12月28日(共111天)的就餐数据进行分析,从中获取到学生的就餐习惯信息。4.1学生消费异常分析以下分析是针对广州大学2016年9月-12月其中736名学生的三个月中就餐数据异常情况进行分析,由于数据量还没有足够大,异常分析结果可能存在一些偏差。3.1.1连续7日无就餐消费记录学生分析三个月份有连续7天没有消费记录学生共计435人,由于篇幅有限,无法列出所有学生详细信息,表2只列出前20名学生信息,对于这一部分长期不在食堂吃饭的学生建议需要关注。3.1.2大额就餐消费记录对于单笔消费超过30元的消费记录可能是校园内部其他消费,如超市消费,网费缴费或者医院缴费等,这些记录如果判别为医院消费,那将要对这些学生进行重点关注。分析的结果展示30~50元之间的占大部分,50~100元次之,其他100~200元之间的建议需要多关注。3.1.3消费指数分析通过对736名学生2016年9月-12月份,3个月份校园消费记录255822条数据进行综合分析,根据就餐频次、消费额度、每餐消费额、消费均值等给每名学生计算消费指数。消费指数具有相对意义,值越小消费水平越低。通过消费指数进行排序可以很快了解到学生的相关信息,由于篇幅限制,表3仅展示前10名学生信息。表中贫困生贫困程度的认定就是根据消费指数为依据的,如可以设置一个阈值,小于等于该阈值的认定为特别贫困,大于该阈值的认定为一般贫困。4结论分析的数据集只采用了2016年9月-12月份三个月的736名学生255822条就餐消费数据进行分析,获得了学生就餐习惯及消费指数。就餐消费数据分析可以达到两项目的,一是对学生生活现状进行分析;二是可系统地实现校园大数据,精准资助,即是在贫困生中分析发现“潜藏”的非贫困生;在非贫困生中发现那些确实很贫穷,但又不愿意说的学生。从以上分析结果来看,通过“一卡通”交易数据来对贫困生的贫困程度进行排名有比较好的区分度,可以作为发放贫困生资助的一个依据。为了准确的对学生进行画像,下面对今后分析提几点建议:1.本次大数据分析,只是学校做一个掀起实验性研究。只用了736多名学生3个多月的“一卡通”的消费数据是远远不够的,未来用全校所有学生一个学年的数据进行综合分析,这样分析出来的结果更准确。2.通过获取全校所有学生的“一卡通”交易数据,这样可以对贫困生和非贫困生的基本情况进行对比分析,可以更好的了解贫困生的生活状况,也可以发现未申报贫困生的潜在贫困生的学生名单。3.通过获取更详细的“一卡通”其他交易数据,比如“一卡通”加款数据、“一卡通”消费刷卡终端信息,这样就可以更好的识别交易类型,剔除那些非就餐交易。后续的分析可以利用学生的消费行为进行改进的RFM建模,利用贫困生名单进行机器学习分类建模,利用学生就餐顺序进行网络关系建模。4.获取教务系统数据,结合贫困生的学习状况进行综合分析,可以用有限的资金尽可能资助贫困而学习成绩优秀的学生。5.学生心理行为分析和学情分析。如获取学生政治面貌数据,比如党员、预备党员、入党积极分子等信息,可以更好了解贫困生的思想进步情况。6.动态学情分析与贫困生筛选。贫困生的数据分析应该每月定期进行,动态跟踪贫困生的生活状况,把分析后得到的结果及时通过邮件或微信通知相关管理部门的不同岗位的相关人员,比如主管校长、学工部部长、资助中心管理人员、各学院分管学生的书记、主管班级学生的辅导员等。特别是对前一年资助的贫困生追踪动态分析,对原来不是贫困生,因家庭变故和疾病等成为贫困生的遴选。
本文标题:学生一卡通消费大数据贫困生挖掘.docx
链接地址:https://www.777doc.com/doc-8289430 .html