您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 51CTO下载-《微博特征与行为的大数据挖掘分析》
微博用户特征与行为的大数据挖掘张华平博士副教授@ICTCLAS张华平博士大数据全球技术峰会2013/4/270200004000060000800001000002009年5月2009年7月2009年9月2009年11月2010年1月2010年3月2010年5月2010年7月2010年9月2010年11月2011年1月2011年3月2011年5月2011年7月2011年9月2011年11月2012年1月2012年3月2012年5月Facebook上线不足8年,已拥有超过9亿的用户,是第三大“人口国”Facebook:9亿Twitter:5亿腾讯微博:3.3亿新浪微博:3亿在线社交网络应用的迅猛发展社交网络应用的迅猛发展大数据vs.小数据微观个性与行为建模宏观特征大数据挖掘话题与情感内容分析纲要影响是非观政治竞选:奥巴马通过社交网络进行助选、民意调查在线社交网络对生活方式的影响政治对生活方式的影响-影响是非观谣言:我国民众受微博谣言蛊惑而抢盐,影响社会稳定影响认识观教育公开课:超过50所美国大学在社交网络上发布公开课在线社交网络对生活方式的影响教育对生活方式的影响-影响认识观政治影响价值观购物促销:70%的社交网络成人活跃用户选择网上购物在线社交网络对生活方式的影响购物对生活方式的影响-影响价值观教育政治欺诈:不法分子通过聊天工具发布虚假信息、利用在线购物平台欺诈顾客。影响人生观生活宅生活:网民利用社交网络可以不出家门进行交友、游戏、互动、协作在线社交网络对生活方式的影响生活对生活方式的影响-影响人生观购物教育政治微观个性与行为建模宏观特征大数据挖掘社交网络与商业应用宏观决策:为我们提供了难得的人口显式特征与潜在特征的普查,样本=总体,实时,相对真实,最低代价;微观精准:个人偏好调研,推荐与精准营销;内容理解:从语义理解真实意图,为我们提供了新的认识手段。话题与情感内容分析宏观特征大数据挖掘说明微观个性与行为建模话题与情感内容分析宏观特征大数据挖掘抓取技术:模拟浏览器;持续两年,数据存在一定滞后性,但不影响宏观规律抓取策略:给定一批种子,只抓取其关注对象,确保微博用户数据的质量;字段包括:性别/地址/粉丝数/关注数/教育信息/工作经历/生日/简述清洗后的数据规模为1700万(摒除大量机器自动生成的僵尸用户及休眠用户)。样本=总体部分数据进行隐私处理后发布在上。微博用户数据样本性别比例分布性别人数男7715062女9491054合计17206116男,7715062,45%女,9491054,55%男女比例图表男女43%5%52%0%认证比例1级认证2级认证3级认证4级认证不同类型用户的分布认证级别人数备注无认证1674649397.26%1级认证201423认证个人2级认证23150政府机构3级认证246228企业等机构4级认证931焦点人物不同地区的微博用户总数05000001000000150000020000002500000300000035000004000000广东北京上海浙江江苏福建山东四川湖北河南辽宁湖南河北陕西重庆天津安徽广西黑龙江江西云南山西吉林香港贵州内蒙古海南新疆台湾甘肃宁夏青海西藏澳门海外用户数地区总用户数总用户数不同地区的微博用户密度北京澳门上海广东香港天津浙江福建西藏海南江苏重庆宁夏辽宁青海陕西湖北四川吉林黑龙江山东新疆内蒙古湖南广西山西江西河南台湾河北云南安徽贵州甘肃平均用户密度7971563321191615141411108.98.88.67.97.86.55.85.65.55.45.35.14.94.74.44.44.44.24.24.143.9110102030405060708090用户密度(个每千人)地区用户密度用户密度性别/区域比例联合分布0200000400000600000800000100000012000001400000160000018000002000000广东北京上海浙江江苏福建山东四川湖北河南辽宁湖南河北陕西重庆天津安徽广西黑龙江江西云南山西吉林香港贵州内蒙海南新疆台湾甘肃宁夏青海西藏澳门海外人数地区地区——性别比例联合分布男女北京区划绝对人数占总体比列朝阳52552739.91%海淀35390126.88%东城1081128.21%西城1052007.99%顺义664175.04%丰台368452.80%昌平256941.95%通州247241.88%石景山218161.66%大兴218161.66%房山77560.59%密云77560.59%平谷63020.48%怀柔24240.18%门头沟14540.11%延庆9690.07%总计1316713100.00%20102009增长速度(%)全市14113.612153.010.3朝阳区2804.21122.49.0海淀区2771.61815.613.3西城区2057.72380.417.8东城区1223.6627.417.1顺义区867.9248.718.8丰台区734.82446.913.3昌平区399.9293.526.6房山区371.5278.923.6通州区344.8690.225.7大兴区311.9342.416.8石景山区295.5271.215.0怀柔区148.074.815.6密云县141.5131.412.6平谷区117.9107.010.2门头沟区86.4119.518.3延庆县67.761.510.1北京经济技术开发区698.6592.517.9区县地区生产总值省市区划内微博用户数与GDP正相关教育/年龄挖掘662,565登记了教育信息,占总人数的3.8%;其中551286大学毕业或在读,83.20%。微博发布数规律微博粉丝数规律关注数规律不同类型用户的影响力分析数值加V非V男女男V女V平均粉丝512.236965.11337.23600.75440.427887.365833.1平均微博774.921435.41704.89685.26854.061202.991524.11平均关注176.66342.19171.08181.32172.41362.67313.81影响力0.4330384.6139570.2357110.6120740.3138076.254993.62132影响力计算算法:Influence=(#fans-#following)/#tweets自我介绍文本挖掘词语词频生活65518自己59370爱57317喜欢38479关注30909世界29169人生29126快乐27656我们27482幸福23417微博用户特征大数据挖掘小结微博数/粉丝数/关注数为两段不同参数的幂律分布组合关于男女的挖掘规律男女人数比例为45%:55%;认证比例为56%:44%;无论是所有人员还是加V用户,男性博主的影响力是女性的两倍在全国范围内,地域分布密度和经济水平基本相关;在省市范围内的二级单位基本上与GDP正相关。从已经登记的教育程度看,80%以上大学文化;从自我介绍研判,微博以自我的生活化内容为主。宏观特征大数据挖掘微观个性与行为建模话题与情感内容分析出发点:博主的一举一动一言一行,看似偶然,偶然背后有必然的行为模式与个性特征。已经发布新浪微博应用“微博个性热词云”:计算主体的个性,并计算不同主体个性的相关度;并研究个体兴趣的迁移变化规律。微观个性与行为建模微博个性分析数据来源:博主发布的所有微博内容;分析方法汉语分词与词性标注:采用博主研制的NLPIR(ICTCLAS2013);利用交叉信息熵计算有代表性的关键词w,权重𝑓𝑤=−𝑝𝑙ln𝑝𝑙+𝑙−𝑝𝑟ln𝑝𝑟𝑟;所有关键词及权重组成的向量成为博主的微观个性输出个性化词云十八大报告的关键语义分析微博个性分析的交叉熵原理word=科学发展观词频=17交叉熵=10.43出现的位置(10316,11266,11683,12141,12144,12217,12247,12281,12302,12334,12388,12442,12513,12585,12688,13534,24612)上文种类=9(符合(1),。(3),、(2),是(1),了(1),把(1),贯彻(1),实践(2),落实(5),)下文种类=12(,(2),的(4),为(1),。(1),要求(1),等(1),最(1),是(2),贯彻(1),同(1),活动(1),在内(1),)博主个性化建模:沈阳教授张华平的个性化特征演化2011年9月20日张华平的个性化特征演化2012年2月25日张华平的个性化特征演化2013年4月23日日期时段1时段2……时段s日期1t11t12……t1s日期2t22t22……t2s…………………………日期dtd1td2……tds33微博博主微观行为建模焦点定位微博博主微观行为建模依据对应公式计算该数据各维度间相关系数矩阵R输入行为矩阵数据1、计算矩阵R的特征向量及其特征值2、依据特征值大小降序排列3、计算各特征值占比与累计占比结合公式Pi=Xei计算各主成分向量Pi程序开始输出相应结果并结束程序数据质量合格NY行为矩阵分析系统流程34第一主成分(原始数据)第一主成分(归一化)35用户微观行为分析v1v2v3v4v5v6v7周10.3332-0.06020.84000.32200.1813-0.14120.1523周20.3853-0.3946-0.14430.3955-0.53420.48100.0427周30.3970-0.3143-0.0935-0.22020.61580.3023-0.4644周40.3925-0.3908-0.2958-0.0487-0.0689-0.76840.0910周50.40540.1831-0.0203-0.55320.01690.23390.6638周60.38400.44980.1764-0.2979-0.4626-0.1055-0.5525周70.34210.5945-0.38180.54240.2888-0.03240.0717特征值5.06490.62250.55620.29500.22550.12420.1117占比72.36%8.89%7.95%4.21%3.22%1.77%1.60%累计占比72.36%81.25%89.19%93.41%96.63%98.40%100.00%特征向量-40-20020406080100第一主成分第二主成分1.00000.60560.62910.54630.62310.65880.44170.60561.00000.77550.84290.69850.63680.57910.62910.77551.00000.84110.79310.65480.59130.54630.84290.84111.00000.75690.64090.58970.62310.69850.79310.75691.0000R0.84060.69140.65880.63680.65480.64090.84061.00000.71250.44170.57910.59130.58970.69140.71251.000036用户微观行为分析121212121(,)(,)(,)1(,)(,)(,)1nnnnCorrXXCorrXXCorrXXCorrXXCorrXXCorrXX仅从作息规律而言,周一、周日为特殊日71||16ijijaAM761||jijiGMa■加权求和?■AHP?■向量空间的欧氏距离?■……微博博主行为模式挖掘微博行为模式比较1.044208490.4464997yx0.853656234.7182641yx0.876060283.091302yx39微博用户行为转换的建模
本文标题:51CTO下载-《微博特征与行为的大数据挖掘分析》
链接地址:https://www.777doc.com/doc-4350987 .html