您好,欢迎访问三七文档
WorldWideWeb–现状和特点现状•HTTP服务器的个数(全球,中国,北大)•网页数(全球,中国,北大),20亿,2亿,70万静态,动态(?)•上网的人数(全球,中国)•每人每天平均在网上的时间•网页的大小(10KB–15KB)•网页的更新(生命)周期(50天,分类型)2网页:定义浏览者通过提交一个“显式的”HTTP请求,在浏览器中可以看到的全部内容•“显式的”请求:在地址栏提交一个url;点击网页上的某一个超链(都应该是HTTP协议的)•“全部内容”:包括浏览器在执行用户请求时隐含发出的HTTP请求获得的内容,例如图片等,SRC=…。•不一定只是“看”,还可能“听”。在这个意义上(用户的意义),“网页”不等于“以HTML或HTM作为扩展名的文件”。但我们后面的讨论中,将“网页”的概念简化,就指能够支持HTML技术(超链)的文件。•不一定就是以html或htm为扩展名,还可能有别的,例如txt,asp等。3特点“知识的网络”(hypertext:text+links)•并不是一种“新的”形式(例如,论文+引文,词典,百科全书)•但是一种前所未有的效率(指点之间)“创作”和“发表”的便利“读者:作者”,在数量级上接近1,前所未有的一种媒体内容的“随意性”,没有严格的编辑和审定,鱼龙混杂内容的“流逝性”,过往不认(公证?)4Hypertext系统的历史“非线性表达”知识的做法早在Talmud(犹太史简编)就实践了(大量注释和嵌套评述)Memex[VannevarBush,1945]•“memoryextension”的缩写•光-电-机械存贮和计算系统,一种帮助人们在文档之间创建和跟踪超链的设备Hypertext•TedNelson,1960年开始xanadu超文本系统的研究,1963年创造这个单词(1965年发表)“TheWorldWideWebtrivializesouroriginalhypertextmodelwithone-wayever-breakinglinksandnomanagementofversionorcontents”(摘自xanadu网站首页).5:HTML,HTTP,CGI,MIME将stand-alonehypertext浏览系统推广到互联网上InitiatedatCERN(theEuropeanOrganizationforNuclearResearch)GUIs•TimBerners-Lee(1990)•ErwiseandViola(1992),Midas(1993)1993•Mosaic:ahypertextGUIfortheX-windowsystem•HTML:markuplanguageforrenderinghypertext•HTTP:hypertexttransportprotocolforsendingHTMLandotherdataovertheInternet•CERNHTTPD:serverofhypertextdocuments6按天纪录,压缩表现,形成趋势“云图”TheearlydaysoftheWeb:CERNHTTPtrafficgrowsby1000between1991-1994(imagecourtesyW3C)7成长纪录TheearlydaysoftheWeb:Thenumberofserversgrowsfromafewhundredtoamillionbetween1991and1997(imagecourtesyNielsen)81994:标志性的一年“MosaicCommunicationsCorporation”公司成立第一次WorldWideWeb会议(2003年开了第12次)MIT和CERN共同发起成立WorldWideWebConsortium(W3C).•在那之后,theInternetgoescommercial!,雨后春笋般的技术创新(Java等),大家都兴高采烈,泡沫吹起,破灭,然后开始理性思考。9Web:一个老百姓普遍参与创作的媒体作者数和读者数相当meme(读作,meem,RichardDawkins发明这个词,社会生物学),弥母•通过交流得到传播(复制,变异)的观念、感受等•例子:歌曲的主旋律,图标,时髦用语,…•文化形成和进化的基本因素(文化基因,就像gene是生物遗传进化的基本因素那样)•Memetics,弥母学,Web,一个群众性媒体,meme进化的新环境,其上各种各样的memes也构成了一种新的文化。•“Freespeechonline,chainletters,andemailviruses10富足和权威性缺乏带来的危机内容产生和传播的自由化和非正式化。世界各国还没有形成什么统一的民法(civilcode)对内容的真实性等进行管理冗余、非标准的形式和内容。对一般性知识和问题可能有上百万网页能给予相关的回答•例如:伊拉克战争,java网站的非权威性和不可靠性11由普适的访问性带来的问题Web提供的服务(包括搜索引擎)基本上不考虑不同用户的背景。商业需要对搜索引擎的影响•网站:针对搜索引擎的优化设计技术!•搜索引擎:竞价排名12Crawling和索引Crawling和索引的目的•迅速抓取大量的网页,放到本地存储中•基于词的索引•将响应用户查询的结果排序,争取让头几个结果满足用户的需要。最早的搜索引擎:Lycos(Jan1994)然后是•AltaVista(1995),HotBotandInktomi,Excite13专题目录(topicdirectories)Yahoo!directory•很快定位有用的网站将知识组织成ontology的努力•集中式:Yahoo!•分布式:About.COMandtheOpenDirectory14超链分析1996年,人们认识到传统的IR技术(基于tf*idf的相关性评测等)已经不能满足Web搜索的需要了,开始出现“第二代”搜索引擎。利用Web图结构信息•一篇网页声望的指标(例如,入向链接数)•HITS&PageRankBibliometry•学术论文的参考引用图(无环)Topic提炼(distillation)•相关算法用于分析网页的著作权和链接风格15结构数据的挖掘和Web数据的挖掘传统的数据挖掘•数据是结构化的,满足关系代数的•定义良好的表、列、行、键字,限制条件Web数据•可用性强,丰富的特征和模式•自发的形成和演化topic-inducedgraphclustershyperlink-inducedcommunities一个很有意义的研究新方向:发现Web上在语义自发关联下形成的模式
本文标题:现状和特点
链接地址:https://www.777doc.com/doc-3445738 .html