搜索引擎爬虫数据抓取

简单搜索引擎模型ASimpleScratchofSearchEngine作者史春奇，搜索工程师，中科院计算所毕业，chunqi.shi@hotmail.com计划：1，需求迫切07/06完成2，搜索引擎简单模型07/08完成3，信息导航模型07/16完成1/3数据抓取07/30预处理4，商家推广模型5，未来本文是学习搜索引擎的涂鸦草稿，高深读者请拐弯到：（北大搜索引擎小组--信息检索指南）简单搜索引擎模型..................................................................................................................................1ASimpleScratchofSearchEngine....................................................................................................1第一章需求迫切.................................................................................................................................2一）泛信息化..................................................................................................................................2二）泛商品化..................................................................................................................................2第二章导航模型--草根需求信息.......................................................................................................3第一节最直观简单模型.............................................................................................................3第二节互联网简单模型.............................................................................................................51．发展历史............................................................................................................................62．大陆互联网现状................................................................................................................73．草根需求..........................................................................................................................10第三节网页抓取简单模型..........................................................................................................101.最简单Spider抓取模型...............................................................................................112.最简单Spider调度模型...............................................................................................123.最简单Spider调度质量模型.......................................................................................154.最简单Spider调度策略模型.......................................................................................185.Spider的常见问题........................................................................................................23第四节网页预处理简单模型......................................................................................................231.质量筛选（QualitySelection）....................................................................................242.相似滤重（De-duplicate）...........................................................................................353.反垃圾（Anti-spam）..................................................................................................43第五节索引存储简单模型..........................................................................................................48第六节检索框架简单模型.......................................................................................................48信息检索评价指标................................................................................................................48第三章推广模型--商家需求客户........................................................................................................49第四章未来..........................................................................................................................................49第一章需求迫切之前说过，搜索引擎是互联网大爆炸后的新生事物，他的成功来源于两个方面高度发展，一个是泛信息化，一个是泛商品化。一）泛信息化分为两个方面，一方面是信息的类型呈百花齐放，另一方面是信息的数量呈海量增长。1,信息种类繁多。大家切身感受到的是多媒体娱乐和社交联系在互联网上变得明显的丰富起来。信息种类繁多不可避免会导致搜索引擎的种类繁多起来。而搜索引擎种类繁多这一点，你可以看一下Google，Baidu提供的服务是多么繁多，你就知道了。参考百度更多（），Google更多（），这些还不包括实验室（Lab）的产品。我们换个角度看这个问题，看看现在已经有多少种搜索引擎来满足信息繁多的各种需求了，Wiki的搜索引擎列表（）有一个分类，显示了10种类型，分别是，1）论坛，2）博客，3）多媒体（音乐，视频，电视），4）源代码，5）P2P资源，6）Email，7）地图，8）价格，9）问答信息，10）自然语言。我们知道信息爆发都是由需求带动的，那么目前有多少需求已经有搜索引擎在满足了呢？下面列出了14种类型，分别是，1）普通[知识]，2）地理信息，3）会计信息，4）商业信息，5）企业信息，6）手机和移动信息，7）工作信息，8）法律信息，9）医疗信息，10）新闻信息，11）社交信息，12）不动产信息，13）电视信息，14）视频游戏信息。2，信息海量增长。类似，我们从搜索引擎的发展，反向来看信息增长。搜索引擎的索引量是选择收录入库的网页数，肯定小于或者远小于互联网的信息量。最早Yahoo是人工编辑的目录索引，就几万和几十万的级别。到Infoseek，Google早期等的几百万的索引量。到Baidu早期的千万、上亿的索引量。到现在Google等上千亿的索引量。如果你看一个网页要1秒钟，1000亿网页要看3171年，而且不吃不喝，一秒不停地看。如果你是愚公世家，你的祖辈在大禹治水的时候就开始看网页，到现在你还没看完。因此草根（Grassroots）用户需要搜索引擎来满足它们的信息的导航，草根用户追求免费，快捷和有效的服务。二）泛商品化也分为两个问题，一方面，满足新需求的商品种类繁多。另一方面，满足老需求的新商品的种类繁多。现在有很多新产品，你如果不推广，很多有需求的人都找不到你，或者找到的不是你。举例啊，如果你不看新闻广告，你都不知道有人在给狗狗举行隆重的葬礼，那么你知道去那里找个满意的祭司么？有人告诉你说网上。那么你知道哪家的服务好么？又有人告诉你说找论坛看评论。同样，你了解商家怎么推销自己的产品么？他们可以选择在网上打广告，可以找搜索引擎帮助推广。现在产品的确太多了，商家太多了，让你都不知道何去何从。就说最古老的饮食，现在遍地是餐饮，选哪个好了？如果某商家嫌客户少，想打折推广。古老的方式是挂大旗，发传单。而今你要想让更多的人看到，可以去互联网花钱推广，可能花同样的钱，被推广的对象还是有迫切需求的潜在用户。这样你的广告费用花的会更有效果。而搜求引擎广告，满足信息查询需求的同时，只要搜索的用户足够多，就会有很多提供服务的商家想请你帮忙做推广，满足他们脱颖而出的广告需求。因此商家需要搜索引擎来满足它们的广告的推广，商家追求用户和利润是愿意付费的。第二章导航模型--草根需求信息信息爆炸给搜索带来人气，商品爆炸迫使商家追逐人气，两者的结合使得搜索引擎成为互联网的宠儿。第一节最直观简单模型在谈及基础前，还有些基础，插曲一下：1.什么是顺序文件(SequentialFile)

搜索引擎爬虫数据抓取

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

compiere_erp_application_dictionary培训

电子商务的环境影响报告

包装物料库管理规定

【附件】中国南方电网有限责任公司电力安全工作规程(印

GB8910-1-88凿岩机械与气动工具振动测量方法总

临建室外排水系统工程施工方案

典型施工方案-doc页

第四章楼面和地面装饰工程

马鞍山站站房指导性施工组织设计

硕士论文-基于canlin总线的车载网络通信的应用研究

相关文档

相关搜索