现状和特点

WorldWideWeb–现状和特点现状•HTTP服务器的个数（全球，中国，北大）•网页数（全球，中国，北大），20亿，2亿，70万静态，动态（?）•上网的人数（全球，中国）•每人每天平均在网上的时间•网页的大小（10KB–15KB）•网页的更新（生命）周期（50天，分类型）2网页：定义浏览者通过提交一个“显式的”HTTP请求，在浏览器中可以看到的全部内容•“显式的”请求：在地址栏提交一个url；点击网页上的某一个超链（都应该是HTTP协议的）•“全部内容”：包括浏览器在执行用户请求时隐含发出的HTTP请求获得的内容，例如图片等，SRC=…。•不一定只是“看”，还可能“听”。在这个意义上（用户的意义），“网页”不等于“以HTML或HTM作为扩展名的文件”。但我们后面的讨论中，将“网页”的概念简化，就指能够支持HTML技术(超链)的文件。•不一定就是以html或htm为扩展名，还可能有别的，例如txt,asp等。3特点“知识的网络”（hypertext:text+links）•并不是一种“新的”形式（例如，论文+引文，词典，百科全书）•但是一种前所未有的效率（指点之间）“创作”和“发表”的便利“读者：作者”，在数量级上接近1，前所未有的一种媒体内容的“随意性”，没有严格的编辑和审定，鱼龙混杂内容的“流逝性”，过往不认（公证？）4Hypertext系统的历史“非线性表达”知识的做法早在Talmud（犹太史简编）就实践了（大量注释和嵌套评述）Memex[VannevarBush，1945]•“memoryextension”的缩写•光-电-机械存贮和计算系统，一种帮助人们在文档之间创建和跟踪超链的设备Hypertext•TedNelson，1960年开始xanadu超文本系统的研究，1963年创造这个单词（1965年发表）“TheWorldWideWebtrivializesouroriginalhypertextmodelwithone-wayever-breakinglinksandnomanagementofversionorcontents”（摘自xanadu网站首页）.5：HTML,HTTP,CGI,MIME将stand-alonehypertext浏览系统推广到互联网上InitiatedatCERN(theEuropeanOrganizationforNuclearResearch)GUIs•TimBerners-Lee(1990)•ErwiseandViola(1992),Midas(1993)1993•Mosaic:ahypertextGUIfortheX-windowsystem•HTML:markuplanguageforrenderinghypertext•HTTP:hypertexttransportprotocolforsendingHTMLandotherdataovertheInternet•CERNHTTPD:serverofhypertextdocuments6按天纪录，压缩表现，形成趋势“云图”TheearlydaysoftheWeb:CERNHTTPtrafficgrowsby1000between1991-1994(imagecourtesyW3C)7成长纪录TheearlydaysoftheWeb:Thenumberofserversgrowsfromafewhundredtoamillionbetween1991and1997(imagecourtesyNielsen)81994:标志性的一年“MosaicCommunicationsCorporation”公司成立第一次WorldWideWeb会议（2003年开了第12次）MIT和CERN共同发起成立WorldWideWebConsortium(W3C).•在那之后，theInternetgoescommercial！，雨后春笋般的技术创新（Java等），大家都兴高采烈，泡沫吹起，破灭，然后开始理性思考。9Web:一个老百姓普遍参与创作的媒体作者数和读者数相当meme（读作，meem，RichardDawkins发明这个词，社会生物学），弥母•通过交流得到传播（复制，变异）的观念、感受等•例子：歌曲的主旋律，图标，时髦用语，…•文化形成和进化的基本因素（文化基因，就像gene是生物遗传进化的基本因素那样）•Memetics，弥母学，Web，一个群众性媒体，meme进化的新环境，其上各种各样的memes也构成了一种新的文化。•“Freespeechonline,chainletters,andemailviruses10富足和权威性缺乏带来的危机内容产生和传播的自由化和非正式化。世界各国还没有形成什么统一的民法（civilcode）对内容的真实性等进行管理冗余、非标准的形式和内容。对一般性知识和问题可能有上百万网页能给予相关的回答•例如：伊拉克战争，java网站的非权威性和不可靠性11由普适的访问性带来的问题Web提供的服务（包括搜索引擎）基本上不考虑不同用户的背景。商业需要对搜索引擎的影响•网站：针对搜索引擎的优化设计技术！•搜索引擎：竞价排名12Crawling和索引Crawling和索引的目的•迅速抓取大量的网页，放到本地存储中•基于词的索引•将响应用户查询的结果排序，争取让头几个结果满足用户的需要。最早的搜索引擎：Lycos(Jan1994)然后是•AltaVista(1995),HotBotandInktomi,Excite13专题目录（topicdirectories）Yahoo!directory•很快定位有用的网站将知识组织成ontology的努力•集中式：Yahoo!•分布式：About.COMandtheOpenDirectory14超链分析1996年，人们认识到传统的IR技术（基于tf*idf的相关性评测等）已经不能满足Web搜索的需要了，开始出现“第二代”搜索引擎。利用Web图结构信息•一篇网页声望的指标（例如，入向链接数）•HITS&PageRankBibliometry•学术论文的参考引用图（无环）Topic提炼（distillation）•相关算法用于分析网页的著作权和链接风格15结构数据的挖掘和Web数据的挖掘传统的数据挖掘•数据是结构化的，满足关系代数的•定义良好的表、列、行、键字，限制条件Web数据•可用性强，丰富的特征和模式•自发的形成和演化topic-inducedgraphclustershyperlink-inducedcommunities一个很有意义的研究新方向：发现Web上在语义自发关联下形成的模式

现状和特点

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

ERP系统实施-用友-房地产行业培训-用信息化手段打造地产企业管理新模式(PPT66页)(1)

学习情境典型零件的数控铣削加工

基于某一产品的经济使用寿命的决策研究

业务流程管理BPM(剪辑)

深圳市住建局-施工招标文件范本

aae09-192008年企业所得税汇缴培训之税前扣除（PPT 35页）

刘晓彬涂装检验基础知识培训

教师绩效考核系统

10年会计证考试：会计基础考前八套密卷(1-8)

7收入费用及利润的核算

相关文档

相关搜索