您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > web新闻人物追踪系统的设计与实现
Web新闻人物追踪系统的设计与实现提纲引言动机难点相关研究指代消解实体关系抽取具体工作文本中关键词的提取人物指代消解时间指代消解简历型网页/段落的判定人物踪迹追踪系统的实现总结引言-动机广泛的需求还没有搜索引擎正式提供关于人物的搜索服务展示Webdigest小组长期工作成果的展示平台作为天网的一部分引言-难点胡锦涛主席将于5月6日至10日对日本进行5天的国事访问。除东京外,他还将访问横滨和奈良,并从大阪启程回国时间指代消解,人物指代消解吴仪中共中央政治局委员,国务院副总理。女,汉族,1938年11月生,湖北武汉人,1962年4月加入中国共产党,1962年8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。1956年至1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。1962年至1965年兰州炼油厂车间技术员、政治部办公室干事。1965年至1967年石油工业部生产技术司生产处技术员。简历型网页的判断相关研究-指代消解-人物指代消解Borrow的STUDENT系统:利用有限的启发式规则Winograd的SHRDLU系统:基于语法位置Wilks的Preferencesemantics系统:利用简单的语义知识的四级指代消解系统Hobbs算法:基于句法分析,通过搜索句法树,寻找先行词IdoDagan和AlonItai:利用共现模式从大规模语料库中自动获取约束Mitkov:有限知识方法,应用一系列规则Soon:利用机器学习,构造一个分类器判断是否是指代关系相关研究-指代消解-时间指代消解InderjeetMani,George:一个时间消解的框架。处理中文需要解决更多问题借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想相关研究-实体关系抽取Brin1998,Agichtein2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。Etzioni2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。TakaakiHasegawa2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。YutakaMatsuo2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系具体工作-文本中关键词的提取JianguoXiao2007:一个词W的重要程度由两部分因素组成,一个是其他词Ai(Ai!=W)的重要程度以及W和Ai的关系紧密程度,另外一个是W所在句子的重要程度以及W和这个句子的关系紧密程度。同样,一句话S的重要程度也有两部分组成,一个是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一个是S所包含的词的重要程度以及他们同这句话的关系。具体工作-文本中关键词的提取词语与词语之间的关系互信息(472978篇网页,1308327个词语,64312933对无序词对)句子与句子之间的关系cosin值词语与句子之间的关系一个迭代的过程计算每个句子和每个词语的关键程度jjitttttstfisftfisf具体工作-人名指代消解-人名性别判定人名性别判定获得一个人名性别列表,总共包含5901个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字N的人的性别的一个表。问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。具体工作-人名指代消解-姓名缩写消解3月22日凌晨,巴勒斯坦哈马斯(伊斯兰抵抗运动)精神领袖艾哈迈德·亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。解决方法:简单的替换具体工作-人名指代消解-评测随机选取了20篇网页,其中包含“他”和“她”共36个,是共消解36个,正确消解29个,精度是81%,召回度是100%。错误分析3个,人名识别接识别问题,如果接口能够正确识别,精度应该是89%2个,寻找先行人名错误2个,先行词并没有以人物姓名的形式出现在网页中,而是以一些名词或者“姓+名词”的形式出现,比如“司机”,“张医生”,具体工作-时间指代消解-难点哪些需要消解?对海量网页中词频排名前1000的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语“今天”,“今日”,“当天”,“当日”,“当晚”,“今天上午”,“今晚”,“今天下午”,“当天下午”,“当天晚上”,“同一天”,“今夜”,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季”,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“当月”,“本月底”,“去年”,“上一年”,“上年”,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜”,“明日”,“次日”,“明天”,“前天”,“明年”,“次年”,“前年”,“下月”,“上月”,“上个月”,“年底”,“今年年底”,“年终”,“年末”,“今年底”,“年初”,“今年年初”,“今年初”,“去年底”,“去年年底”,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一个阿拉伯数字)具体工作-时间指代消解-难点“九八年”,“2000年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字“1946年1月到8月”,“4月1日、7日、8日”时间段、并列时间的处理引用中的时间不处理基准时间的确定一套规则是否是未来时间考虑时间间隔“今天的中国”是否需要消解具体工作-时间指代消解-评测随机选取了50篇网页,包含在消解范围内的时间词248个,消解了242个,正确消解了223个,精度是92%,漏掉了6个,召回度是97%。错误的原因消解了不应该消解的时间,有4个基准时间判断错误,有6个其余错误包括时间间隔处理的问题、接口识别的问题等还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。漏掉的原因4个因为接口没有将这个时间识别出来,2个被简单的认为不应该消解。具体工作-简历型网页/段落的判定判断简历型网页判断简历型段落均根据调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断具体工作-简历型网页/段落的判定-评测使用了409篇网页,共有67个简历网页判断简历型网页精度:得到58篇简历的网页,正确56篇,精度为97%。错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准召回度:83%错误分析:2篇,人名识别接口没有识别出人名;2篇,简历中人名出现过多;5篇是在处理特殊网页(每句一段),没有正确找打句子开始的时间;1篇是将非特殊网页判断成了特殊网页;1篇是因为简历过长,没有考虑。具体工作-简历型网页/段落的判定-评测判断简历型段落,数据集同上精度:识别出26个简历型段落,20个正确,精度是77%错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落具体工作-人物踪迹系统的实现-数据集网页来源:2007年Webdigest小组所抓取的网页。选取的新闻网页作为种子,并且按4层抓取。从10月1日开始持续了30天,总计20,000,000篇网页。处理过程:使用Parasize项目的工具进行消重、去噪使用本文的模块对网页处理。句子为单位,进行提取踪迹现在得到的数据:总共得到403456条人物踪迹,23415条同时包含地点信息,作为现在系统可以查询的数据。具体工作-人物踪迹系统的实现-模块和功能模块:查询模块,和地图展示模块功能:输入:一个人名输出:他/她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示总结意义研究价值创新收获新的知识科研经验今后工作各模块的改进奥运会信息处理系统
本文标题:web新闻人物追踪系统的设计与实现
链接地址:https://www.777doc.com/doc-1468972 .html