您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 大数据时代的校园网用户行为分析与研究
福建电脑F福建电脑UJIANCOMPUTER2014年第10期近年来,随着国家大力发展职业教育,信息化建设已成为职业学校建设的重中之重,中职学生通过网络获取资源和学习已使教学模式发生重大改变。大数据时代的校园网愈来愈受欢迎,但网络的开放也带来了很多相关问题,如发布信息的安全审查,学生的绿色上网控制和监控等。如何充分利用网络平台为我们中职学生服务,监控和阻止有害信息的发布和浏览已成为学校信息化建设的重要课题。一、建立校园网用户行为分析系统的意义经过多年的积累,人类的数据量、数据处理技术和能力都得到了质的飞跃,大数据时代给人类社会带来了诸多具有革命性的变化,而校园网的出现则是传统“言传身教”教育的一次革命。中职学生思想尚不成熟,自律力和识别能力不强,对于开放式的网络有些迷茫。校园网学生用户行为分析的研究是通过对校园网络的测量和分析,挖掘和发现网络中呈现出来的各种行为规律,同时识别一些异常网络行为,最后将用户行为分析展示。这样以便学校采取对应的策略及措施引导中职学生健康上网,从而使校园网真正成为学生获取知识的平台,提高学生的整体综合素质。二、系统架构设计本系统从网站浏览信息、网站发帖留言、搜索关键词、网络购物等四个维度来描述基于校园网的学生用户行为。通过对网络内容的分析,可以进一步细化到学生用户在网络中具体网络行为、发表的言论和帖子、对网络资源的兴趣偏好是什么等等,从而有效掌握学生的上网行为动态。基本流程:(1)数据报文采集模块接收交换机镜像或分光报文,提取访问日志上报给数据预处理系统,采用用户访问分析算法获取用户访问行为。(2)数据预处理模块接收用户访问日志,根据需要去掉少量异常行为和“噪声”数据,然后存储到大数据存储分析系统。(3)大数据存储分析模块可以采用Hadoop大数据存储系统,建立数据分析算法,生成学生用户访问行为。(4)用户行为分析展示模块的输出进行可视化展示。三、系统各功能模块的设计1.数据采集模块数据采集模块结构见下图2所示:OS:采用linux,充分利用业界开源资源。软件:分为系统管理模块和数据处理模块,系统管理模块完成配置管理、告警日志、与网管平台对接和集群管理功能;数据处理模块完成应用识别、过滤、解析和点击流识别;最终生成自由知识产权的访问日志。2.数据预处理模块数据处理基本流程见下图3所示:大数据时代的校园网用户行为分析与研究罗萍(广东省电子职业技术学校广东广州510515)【摘要】本文主要阐述如何监控学生上网内容、分析上网行为,设计一个基于大数据的校园网学生用户行为分析系统,以便学校采取对应的策略及措施引导中职学生健康上网,从而使校园网真正成为学生获取知识的平台。【关键词】校园网;学生上网;用户行为分析图1系统整体架构图图2数据采集模块结构147··福建电脑F福建电脑UJIANCOMPUTER2014年第10期采用二级过滤技术,分拣出用户真正的点击流,并对其进行深入分析,还原用户真实的网络行为。(1)应用识别,通过DPI技术识别协议信息①分析IP包的层4以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型。②基于特征字的识别技术,通过识别数据报文中的指纹信息来确定业务所承载的应用。根据具体检测方式的不同,基于特征字的识别技术又可细分为固定特征位置匹配、变动特征位置匹配和状态特征字匹配三种分支技术。(2)应用过滤,由于这里主要分析HTTP相关应用的行为,对于其他应用在流量统计之后即可被过滤。(3)应用解析,为了分析用户,通过AC算法匹配HTTP协议中的关键字,解析出HOST、URL、Con-tent-Type、User-Agent、Referer、Centent-Length、Cook-ies字段。(4)点击流识别和过滤,由于用户一次访问会触发很多HTTP请求,因此,需要过滤请求过程中无效的HTTP请求。通过解析到的字段信息和HTTP请求的时间轨迹可以过滤非用户访问的请求,以下为过滤方法:①如果为HTTP请求报文且为流的首个GET报文且存在Referer字段,则关联Referer所在的流,如果两条流直接的间隔小于1秒,则可能非点击行为。②如果为HTTP请求报文且为非流的首个GET报文,则如果这条当前GET请求和上一个GET报文的间隔小于1秒,则可能非点击行为。③如果为HTTP请求报文且通过UserAgent字段判断非IE等用户可操作的行为,则可能为非点击行为。④如果为HTTP响应报文且响应报文为非htm/html等文本内容,则可能非点击行为。⑤如果为HTTP响应报文且响应报文长度小于100字节,则可能非点击行为。3.大数据存储和分析模块大数据时代下的网络,数据以爆炸式的方式增长。在大数据解决方案方面,Hadoop是一个解决大数据存储和计算的髙效工具,它是一个可以更容易开发和运行处理大规模数据的开源的软件平台,能够处理TB乃至PB级别的海量数据。它由HDFS(分布式文件系统)、MapReduce(并行计算框架)、Zookeeper(分布式协作服务)、Pig(数据流处理语言)、Hive(数据仓库)等等组件组成,每个组件只解决某一个特定的问题域。现在使用Hadoop的团队越来越多,大家取于开源,贡献于开源,不断地对Hadoop提出改进意见,并对Hadoop进行进一步开发,使其组件越来越多,功能越来越完善。本系统主要采用了Hadoop的HDFS(分布式文件系统)、MapReduce(并行计算框架)、Hive(数据仓库)三个组件。分布式文件系统HDFS解决了分布式计算的存储问题,并行计算框架MapReduce能够并行高效地处理大数据集,数据仓库Hive在HDFS上来构建数据仓库存储自己的数据,并且提供了类似于Sql的查询语言HiveSqL,可以执行查找、删除等数据操作。系统主要工作流程为:在MapReduce框架下编写程序,分为常规网站浏览信息统计业务、网站发帖留言业务、搜索引擎业务和网络购物业务。首先从分布式文件系统HDFS中读取日志文本,然后分四个流程分别对四个业务进行HTTP行为解析。然后在Hive中按时间-天为分区建立分区,把当天的解析日志按照对应的日期存储到数据仓库Hive的具体业务分区中。通过网站浏览信息、网站发帖留言、搜索引擎、网络购物这四个方面来定位学生网络中的行为,只要这四个方面中任意一个方面有异常,就标记为异常网络行为。例如,在分析学生的搜索关键词中,将解析出的搜索关键词与黑名单词库的词进行匹配,统计出异常行为。4.可视化展示模块为了更直观地了解网络中的用(下转第184页)图3数据处理基本流程图4Hadoop大数据处理流程图148··福建电脑F福建电脑UJIANCOMPUTER2014年第10期户行为信息,系统釆用可视化工具R和Excel进行可视化展示。R是属于GNU系统的一个自由、免费、源代码开发放的软件,它是一个用于统计计算和统计制图的优秀工具。R主要对购物趋向、用户搜索词、网站留言进行可视化展示。因为这三者都具有共同的特点:用户的行为信息多是一些句子。而对于网站浏览行为信息进行可视化展示,则主要利用Excel工具,因为这些数据一般比较简单,常常是大量的键值对。四、结束语随着计算机技术的迅速发展,大数据时代的网络行为已经成为当前学生校园生活中的一项重要活动内容,正在悄然的改变着学生的学习和生活。因此,深入研究学生网络行为,理性分析学生网络行为特点、动机和需求,以及如何引导学生合理运用网络资源,树立健康的上网理念,构建有益的校园网络环境,已经成为目前学校研究的重要课题。参考文献:[1]郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京:北京交通大学,2014[2]高天山.中职学生上网行为管理分析[J].科技资讯,2012,(32)[3]杜杰.基于校园网海量访问日志的用户行为分析[D].大连:大连海事大学,2012[4]潘峰楠.校园网用户行为的分析与研究[J].长江大学学报,2013,(28)琐的教学准备中解放出来,有更多的时间进行教学研究提升自己业务水平。另一方面,由于云计算辅助教学是使用云计算平台进行的教学,师生通常情况下是时空分离的,教师的教学设计能力直接影响着教师教学活动的可控性和有效性、学生学习的效率。因此,教师要实现自己新角色的转化,提升教学设计能力和云计算辅助教学的应用能力,以适应教育现代化的需要。在云服务的教学课堂上,教学内容可以从云端获得。教师的教学过程和学生的学习过程中具有显著的交互特点。在整个教学过程中,学生是处于与计算机和网络的“人机对话”的状态。可以充分体现学生出主体性,教师真正起到引导者的作用,将问题置于学生喜爱的云计算平台上,随时观察学生的学习进展情况,随时随地地指导学生,有效了激发学生的学习兴趣,培养了学生的创造性思维和批判性思维,促进了师生、生生间的交流和互动,教学过程由传统课堂转变为交流协作式教学,更好地实现了教学目标。三、云计算技术在辅助教学中应用中遇到的问题1、云计算平台是否能真实反映学生的学习情况。由于云计算辅助教学是利用云计算平台进行教学的,通常情况下师生是时空分离的。如何真实地反映学生的学习情况?如教师在异地运用云服务平台,实时讲解教学内容,学生在登陆平台后,因为脱离了教师面对面管理,就忙于其他的事情,游戏、聊天,或浏览网页,记录在平台上的学生登录时长并不能保证是学生真正学习时长。出现这种情况应该怎么办?建议教师充分利用云服务平台具有良好互动性,用精心设计的精彩的教学内容和互动性的学习过程来吸引学生注意力,避免学生的“分心”。2、云计算平台如何对学生学习情况进行有效评价。学习过程中需要依据制定的评价标准和评价量规对学生的学习情况进行评价,这些评价标准和评价量规是从教师角度进行设计的。对云计算学习环境下的学生行为,如何作出适当的评价?对于学生之间的互动与协作等具体的学习行为,如何给出合理评价?怎样让学生愉悦地接受评价,这些都是要思考的的问题。建议在设计各种评价标准时,根据云计算学习环境的特征设计评价尺度。例如,研究性学习环境,可以以研究结果作为最终评判,研究过程中所采用的方法、团体协作情况等作为过程性评价。另外,评价要依据学科的实际情况,不同学科的评价标准和评价量规确保具有相当的差异性还应该保持一定关联度。参考文献:[1]张健.云计算概念和影响力解析[J].电信网技术,2009(1).[2]黄鑫檑.云计算对信息化教学的影响[J].新课程研究,2009(10):160—162.[3]黎加厚.低碳型教育与云计算辅助教学[J].中国信息技术教育,2010(11)[4]杨滨.论云计算辅助教学(CCAI)中协作学习产生的设计机制[J].现代教育技术,2009(11)!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(上接第148页)184··
本文标题:大数据时代的校园网用户行为分析与研究
链接地址:https://www.777doc.com/doc-5057470 .html