您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 创业/孵化 > Web挖掘我们关心什么如何能帮助社会科学家们做研究
Web挖掘:我们关心什么--如何能帮助社会科学家们做研究?李晓明,北京大学网络实验室2019年7月21日,SEWM’06InstituteofNetworkandInformationSystems在2019年的SEWM会议上,我报告了关于SEWM的进一步思考--不要低估我们现在能做的事情其中的观点人类所有的活动都正在被数字化、网络化计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来以北京大学网络实验室建设的“中国网络信息博物馆”为例,展现了利用其中的数据和SEWM技术得到多方面有社会(科学)意义成果的可能InstituteofNetworkandInformationSystems“WebInfoMall”自从2019,目前超过20亿中国网页,每天以上百万新网页的速度不断增加保存网络信息历史,提供跨时空挖掘素材(还可以用来打官司)InstituteofNetworkandInformationSystems我们将讨论从事计算机专业的为什么应该关心社会科学家的事情?社会科学家们关心五要素:时间、地点、人物、事件、状态(when,where,who,what,how)网站行政属地的自动判别问题人物信息的发现问题网页出生与更新的时间估计问题WebDigest:一个既有意义也有可能的目标?InstituteofNetworkandInformationSystems“学科”的划分随“年龄”的变化幼儿园,小学,初中:没有学科划分,所有人都学一样的东西高中:文科,理科大学:人文,社科,理科,工科当然还有农科,医科,军事科学等等研究生:“按二级学科招生”博士生:“各自钻到一个更窄的领域中”博士之后的研究:跨学科,交叉学科InstituteofNetworkandInformationSystems信息技术,自然科学,社会科学自然科学研究的三种基本方法:理论研究,实验研究,计算机模拟普适性,应用性,成本社会科学研究的方法:理论研究,实证研究,?计算机模拟?理论研究:马克思主义,凯恩斯主义,等实证研究:基于系统的数据收集与分析,形成概念,得出结论,追求定量的刻画定性的认识人们现在开始谈“经济运行模拟”,“政策执行模拟”InstituteofNetworkandInformationSystems信息技术对社会科学研究的帮助SPSS(SoftwarePackageforSocialScience)搜索引擎技术(应用举例)法律意识与经济意识的对比电子政务实施情况饮用水安全问题重大新闻事件的追踪基本假设:网络信息反映社会运动状态“让社会科学插上信息技术的翅膀”,《计算机学会通讯》,2019.3InstituteofNetworkandInformationSystems从网络信息研究社会的基本假设SEWM’04上看过这个图InstituteofNetworkandInformationSystems社会科学家关心的五个基本要素时间事件发生的时间,消息发布的时间地点事件发生的地点,消息发布者的属地人物(对象)不仅是人物,还包括机构等对象事件预定事件,突发事件状态好坏,褒贬从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战InstituteofNetworkandInformationSystems网站行政属地的判别问题区别:行政属地≠服务器托管所在地定义:网页,网站,机构page:由一个url所代表的内容host:一个空目录路径url所代表的所有网页的集合•net.pku.eduorganization:在注册机构获得的一个域名属下所有网站的集合,例如,*.pku.edu目标:给定一个网站集合,确定其每一个网站的行政属地InstituteofNetworkandInformationSystems技术路线通过对网站内容的分析获得其行政属地的判据,综合各种判据,形成判断独立考察每一个网站中出现的地名、电话号码,邮编等提示信息根据“多数指向原则”推断网站行政属地“多数指向原则”链接关系分析:从整个Web看每一个网站,通过网站之间的链接关系推断某些网站的行政属地通过迭代,逐步形成对未知网站的认识InstituteofNetworkandInformationSystems网站的互联(链接)趋向分析基于CWT100g,一个包含500多万网页的数据集以省为单位将1.7万个网站分组,考察网页之间的1.27亿链接,发现:当我们讲“互联网完全打破了地域观念”的时候需要小心网站的69%出向链接是指向本网站网页的在那些指向非本网站的出向链接中,有81%是指向本省网站的InstituteofNetworkandInformationSystems测试集CWT100G从China-Web数据中抽取的100GB网页约17000个站点网页数量在站点中的分布差别很大Edu-Web2019年1月份搜集的教育网内的网页,60GB约3400个站点网页数量分布比较平衡InstituteofNetworkandInformationSystems运行结果(网站内容分析)程序可以给出判断的(置信度较高的):64%在给出判断的结果中,人工抽查正确率:90%于是总的判断正确率,57%不算高,但已经不错InstituteofNetworkandInformationSystems人物信息的发现问题问题一:给定一个“人物”集合,分别找到关于他们所有的信息(网页)容易:上搜索引擎,尽管不一定完整,但差不多不容易:如何区别重名的人物?问题二:确定网上人物的“topN”不容易:连哪些人都不知道呀!问题三:网上一共提到了哪些人?不容易:不是大海捞针,也是沙里淘金问题四:网上人物构成的社会网络?容易与否:取决于这里“社会网络”的定义我们希望能效率很高地做这些事情InstituteofNetworkandInformationSystems确定网上人物的“topN”不假思索的方法得到一个海量网页集合(自己从网上抓取,或者获得某些流行公开的测试网页集,例如北大的CWT200g,或者2019年初得到的8亿网页)利用自然语言处理的经典算法,扫描每一篇网页内容,将人名提取出来做好统计,声明得到了在给定集合上的“topN”问题(毛病)“给定集合”与“网上”差的很远经典算法的速度大约是5秒钟处理一篇网页,(于是处理CWT200g需要1.5亿秒=1700天),还不一定准。InstituteofNetworkandInformationSystems认识与观察“topN”涉及的一定是比较有名的人(名人),如果N不是太大的话许多网页包含有名人的信息,除了姓名,还有其他属性例如年龄、职位、代表作、身高、体重、出生地名人信息在网页中出现常有一定的模式例如“冯巩,出生于天津”,模式即:[姓名]“,出生于”[地名]还有“冯巩,天津人”,模式即:[姓名]“,”[地名]“人”当然,我们事先既不知道有哪些模式,也不知道有哪些属性InstituteofNetworkandInformationSystems扩展DIPRE(SergeyBrin,2019)DualIterativePatternRelationExpansion利用两类不确定信息相互之间的“印证”,通过迭代逐步完成信息的提取从已知的一些种子名人信息(关系)出发,利用搜索引擎,获得相关网页,从那些网页中发现表述名人信息的模式的集合[例如,用“冯巩天津”到搜索引擎中查到所有相关网页,分析这些网页中出现“冯巩”和“天津”周围文字的情况,形成一个模式集合。这是从关系到模式的过程]InstituteofNetworkandInformationSystemsDIPRE按照这些模式(再次上搜索引擎),从网页发现其他的名人信息例如,[姓名]“,出生于”[地名],发现了“易建联,出生于广东鹤山”,得到新的关系易建联,广东鹤山〉。这是从“模式”到“关系”的过程。下一轮,我们用新得到的关系“易建联广东鹤山”获取网页集合,考察那些网页,可能发现新的模式,例如,[人名]“,祖籍”[地名],这些新的模式又能引导我们发现新的关系如此往复…InstituteofNetworkandInformationSystems在所发现的4万多名人中的top100Top100人物类别比例图00.10.20.30.40.50.6娱乐人物体育明星政治人物历史人物文学人物商界明星虚拟人物其他Top100人物相关网页数曲线图网上人物top1000.00E+002.00E+064.00E+066.00E+068.00E+061.00E+071.20E+071.40E+071.60E+07020406080100120他们在不同类型中的分布InstituteofNetworkandInformationSystems1金庸1.52E+0726鲁迅5.60E+0651周迅3.66E+0676赵本山2.77E+062郭敬明1.21E+0727巩俐5.34E+0652王治郅3.65E+0677邓肯2.77E+063周杰伦1.20E+0728莫文蔚5.28E+0653何洁3.59E+0678郑秀文2.72E+064布什1.20E+0729张靓颖4.99E+0654张艺谋3.55E+0679麦蒂2.71E+065李叔同1.11E+0730孙燕姿4.93E+0655林俊杰3.54E+0680曾繁胜2.70E+066姚明1.05E+0731谢霆锋4.86E+0656窦唯3.54E+0681木兰2.70E+067胡锦涛1.04E+0732盖茨4.86E+0657梁朝伟3.46E+0682徐静蕾2.65E+068刘德华1.00E+0733陈凯歌4.79E+0658林青霞3.39E+0683任贤齐2.65E+069毛泽东9.78E+0634张韶涵4.53E+0659舒畅3.37E+0684张曼玉2.65E+0610章子怡9.71E+0635容祖儿4.50E+0660陈慧琳3.31E+0685孙悟空2.65E+0611戴尔9.15E+0636诺贝尔4.39E+0661曹操3.27E+0686范甘迪2.64E+0612李宇春9.00E+0637张学友4.37E+0662安妮3.26E+0687邓丽君2.63E+0613华盛顿8.91E+0638乔丹4.32E+0663刘若英3.23E+0688阿里2.59E+0614王菲8.47E+0639张国荣4.27E+0664周恩来3.23E+0689张含韵2.57E+0615温家宝7.56E+0640梁咏琪4.24E+0665柯南3.17E+0690梁静茹2.57E+0616蔡依林7.37E+0641周星驰4.18E+0666贝利3.16E+0691刘嘉2.56E+0617张柏芝7.30E+0642赵薇4.17E+0667乾隆2.97E+0692雷诺2.54E+0618孔子7.12E+0643詹姆斯4.12E+0668布兰妮2.96E+0693周润发2.50E+0619邓小平6.89E+0644范冰冰4.11E+0669高强2.93E+0694李敖2.47E+0620刘亦菲6.71E+0645康熙3.96E+0670陈奕迅2.91E+0695林黛玉2.46E+0621林志玲6.68E+0646周笔畅3.95E+0671舒淇2.90E+0696周华健2.45E+0622成龙6.01E+0647王力宏3.80E+0672余秋雨2.88E+0697唐僧2.44E+0623陈水扁5.89E+0648贝尔3.80E+0673李小龙2.87E+0698安娜2.40E+0624马克思5.89E+0649江泽民3.72E+0674李连杰2.84E+0699李冰冰2.38E+0625刘翔5.63E+0650普京3.71E+0675布朗2.77E+06100冯小刚2.38E+06Insti
本文标题:Web挖掘我们关心什么如何能帮助社会科学家们做研究
链接地址:https://www.777doc.com/doc-4957972 .html