您好,欢迎访问三七文档
第6讲网络链接分析信息管理学院网络链接分析(LinkAnalysis),也称链接分析,或称链接分析法、超链分析。可广义理解为以Web中页面间的超链接为研究对象的分析活动。从网络信息计量学的角度,可将其定义如下:链接分析是以链接解析软件、统计分析软件等为工具,用统计学、拓扑学、情报学的方法对链接数量、类型、链接集中与离散规律、共链现象等进行分析,以用于Web中的信息挖掘及质量评价的一种方法。信息管理学院链接分析先于网络信息计量学诞生。1996年,Larson依照引文分析中共被引分析(Co-citationAnalysis)做了共链分析(Co-linkAnalysis)。但在网络信息计量学诞生后,链接分析便被纳入了其研究范围。至今,链接分析已成为网络信息计量学备受关注的研究方向。链接分析理论包括以下几个方面:链接理论、链接分析的研究视角、链接分析与引文分析之间的关系、链接分类与统计理论、链接分析指标。信息管理学院1.网络链接概述1.1链接感性认识1.2链接与超文本1.3链接术语信息管理学院1.1链接感性认识Wood等人将Web的结构绘制成可视化图:白色的大球表示网站主页,小球代表网站的二级及二级以下页面;绿线代表链接,将不同的网站、网页连结在一起形成网络。信息管理学院1.2链接与超文本1965年,TedNelson提出术语超文本(Hypertext)。1978年,在《DreamMachines》中他提到了“链接”,并指出“链接”将带来文件的连通性。1981年,使用术语“超文本”描述了这一想法:创建一个全球化的大文档,文档的各个部分分布在不同的服务器中,通过激活其中的“链接”,就可以跳转到所引用的论文。信息管理学院1.2链接与超文本超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。当前,超文本普遍以电子文档方式存在,其中的文字包含有可以链结到其他位置或者文档的链接,允许从当前阅读位置直接切换到超文本链接所指向的位置。信息管理学院1.3链接术语链接,超链接(Link,hyperlink):两者都指网络链接。在没必要区分入链与出链时,通常会用到这两个词,偶尔也会用到这些词指代入链和出链。入链(Inlink):指向某页面的链接。一般而言,这个链接应该来自某个特定集合以外的页面。“入链”与“反向链接”同义;“接受入链”与“被链接”同义。出链(Outlink):从某页面指出的链接。一般而言,这个链接应该指向某个特定集合以外的页面。信息管理学院1.3链接术语自链(Selflink):从某页面指向该页面自身的链接,可能是同一页面的不同部分。一般而言,这个链接应该指向某个特定集合内部的页面。互链(Interlink,reciprocallink):通常指两个不同网站之间的链接,也指站间链接。这个词通常以-ing的形式出现,例如“网站互链(interlinking)”表示网站之间的链接。信息管理学院1.3链接术语共入链(Co-linked):如果两个页面都含有来自第三个页面的入链,则这两个页面共入链。共出链(Co-linking):如果两个页面都含有指向第三个页面的出链,则这两个页面共出链。有时也可描述为耦合或文献计量中的耦合。共链(Co-link):共入链与共出链统称为共链。信息管理学院1.3链接术语链接术语的图解ABCFGDEHB有一个来自A的入链,A与B之间,A是链接来源,B是链接目标B与E共出链C与D共入链E与F互链B有一个指向C的出链,B是链接来源,C是链接目标B有一个自链信息管理学院2.网络链接的分析视角M.Thelwall根据不同学科的侧重点将链接分析研究划分为:情报学视角的链接分析(Informationsciencelinkanalysisapproach,ISLAA)计算机科学视角的链接分析(Computersciencelinkanalysisapproach,CSLAA)社会科学视角的链接分析等(Socialsciencelinkanalysisapproach,SSLAA)除此此外,还有统计物理学家、数学家等从其他视角研究链接分析。信息管理学院2.网络链接的分析视角不同的研究视角之间虽没有绝对的界线,但研究目标不同,理论基础也不同。CSLAA主要研究网络动力学(WebDynamics)、链接与内容的关系、链接和信息检索、网络挖掘(WebMining)、网络建模(WebModeling)等。SSLAA主要研究网络空间分析(WebSphereAnalysis)、虚拟民族志(VirtualEthnography)、超链接网络分析(HyperlinkNetworkAnalysis)等ISLAA则以文献计量学中的引文分析为理论基础,核心观点为“链接代表引用”信息管理学院2.网络链接的分析视角按照M.Thelwall的定义,链接分析就是采用并改进现有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析。根据链接分析的定义和情报学相关理论,我们将“情报学视角的链接分析”定义为:以引文分析为基础,采用并改进现有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析。信息管理学院2.网络链接的分析视角从概念上看,链接分析以文档为研究对象,这里所说的文档包括四个层面:页面、目录、域名、站点。从本质上看,情报学视角的链接分析是一种新兴的研究方法,在情报学、计算机科学、社会科学等领域有广泛应用。信息管理学院2.网络链接的分析视角情报学视角的链接分析不同于网络中流传的“链接分析”。前者内容包括链接数量分析、链接类型分析、链接的集中与离散规律分析、共链分析等,主要用于提高网络信息检索效率、评价网络信息质量、发现网络社区等;网络中流传的“链接分析”主要指“链接流行度分析(LinkPopularityAnalysis)”,其内容包括链接数量和质量的评估及分析,主要用于提高网站、网页在Google检索结果中的排名等。下面提到的链接分析均指情报学视角的链接分析。信息管理学院2.网络链接的分析视角用共词分析的方法,借助Pajek可视化工具,绘制了链接分析的研究主题图。图中节点代表主题词,连线粗细代表主题词之间的共词强度,与“LinkAnalysis”这一节点的连线越粗,代表与该主题关联越紧密。信息管理学院2.网络链接的分析视角链接分析领域关注的主题包括:WorldWideWeb(万维网)InformationRetrieval(信息检索)Ranking(评价/排名)SearchEngine(搜索引擎)WebMining(网络挖掘)PageRank算法信息管理学院3.链接分析与引文分析的关系链接分析以引文分析理论为基础,但在动态、多变的网络环境中形成了引文分析理论所不具有的特性。二者各自的特征及相互关联便成了链接分析研究中的一个热点。引文分析主要对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律。信息管理学院3.链接分析与引文分析的关系引文分析工具包括:美国《科学引文索引》(SCI)美国《基本科学指标》(ESI)美国《期刊引证报告》(JCR)《中国科学引文数据库》(CSCD)《中国科技论文与引文分析数据库》《中文社会科学引文索引》(CSSCI)《中国人文社会科学引文数据库》《中国引文数据库》。信息管理学院3.链接分析与引文分析的关系常用的引文分析指标包括:引文数量与分布规律测度指标:引文数、平均引用数、自引数与自引率、被引用数与引用数的比值;期刊质量测度指标:被引用数、影响因子、即年指标;论文质量与著者学术水平测度指标:被引用数;文献老化规律测度指标:衰减系数。信息管理学院3.链接分析与引文分析的关系引文分析大半个世纪以来的发展轨迹可以用如下的“链”来表示:Grace等人的核心期刊表(1927年)→E.Garfield的“CitationIndexes”论文(1955年)→Brown对引文分析领域的拓展(1956年)→M.M.Kessler的“文献耦合(BibliographicCoupling)”(1963年)→E.Garfield的SCI印刷版(1964年)→Small提出“同被引技术(Co-citation)”(1973年)→SCI网络版(1997年)→……。信息管理学院3.链接分析与引文分析的关系当前的研究主要集中在:方法适用性研究(引文分析的弊端等);网络引文分析(WebCitationAnalysis);应用研究(引文应用于各类质量评价,专利引文分析,同引、耦合用于聚类分析,大学评价等)。信息管理学院3.链接分析与引文分析的关系链接分析的发展只有10余年的时间,用“链”表示为:McKiernan提出sitation(1996年)→Larson的共链分析(1996年)→Almind和Ingwersen的“Webmetrics”(1997年)→PeterIngwersen的“网络影响因子”(1998年)→SergeyBrin和LawrencePage提出“Pagerank算法”、J.Kleinberg提出“HITS算法”(1998年)→……。信息管理学院3.链接分析与引文分析的关系当前的研究主要集中在:链接分布规律研究(包含链接类型分布、链接数量分布等);网络影响因子研究;网络链接分析工具研究;沿用引文分析和方法的可靠性研究;链接分析应用研究(包括在网络信息检索中的应用、在网络社区发现在的应用、在Web拓扑结构建模中的应用、在信息挖掘中的应用——资源发现、竞争情报获取等)。信息管理学院3.链接分析与引文分析的关系事实上,从“citation”到“sitation”,从“期刊影响因子”到“网络影响因子”,从“文献的同引与耦合”到“共入链/共出链”,都表明链接分析带上了引文分析的烙印。引文分析理论虽被广泛应用,但仍有不足之处,被引次数、期刊影响因子等引文指标都视不同的引文的贡献为等值,然后简单的累加。不同引文的贡献通常是不等值的。对于贡献不等值的引文,应区分看待,链接分析中的PageRank算法则解决了这一问题。我们认为可根据PageRank的原理设计新的算法用于引文分析,取代被引次数、期刊影响因子等引文分析指标。信息管理学院4.链接分类与统计理论4.1链接分类理论4.2链接统计理论信息管理学院4.1链接分类理论A.G.Smith将链接分为两类:实质性链接(substantivelinks)和非实质性链接(non-substantivelinks):实质性链接即符合第一条假设前提的链接,而非实质性链接则不符合。A.G.Smith通过统计分析得出:所有链接中,实质性链接的比例约20%,链接到大学网站的链接中,实质性链接的比例约27%。李江以图书情报学的学术型博客为对象,统计出实质性链接的比例约17%,因研究对象为学术型网页,所以理论上可认为网络中实质性链接的比例的平均值应在17%以下。信息管理学院4.1链接分类理论HetingChu将学术机构网站的入链分为4类(taxonomy):服务(Service)主页(HomePage)研究(Research)教学(Teaching/Learning)其中前两类共占73%,后两类占27%,并且仅有教学类的入链才可用作学术机构的评估,这样看来,可用作评价的入链(即实质性链接)不足27%。信息管理学院4.1链接分类理论不同的实验证明:可用于链接分析的有效链接仅占20%左右。链接分类研究的意义在于:从链接总体中剔除不符合“推荐、认可”的链接,以提高入链接、网络影响因子、PageRank算法等链接指标用于网页/网络重要性评价的效率。信息管理学院4.1链接分类理论目前学者们在理论方法和实证分析过程中得出了很多有意义的结论,但是也存在如下几个问题:不同的学者根据不同的标准
本文标题:网络链接分析理论
链接地址:https://www.777doc.com/doc-2072889 .html