您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > LinkedData网络演变为全球数据空间
关联数据云图是网络上发布的关联数据集的一个图形化显示。为了发现更多的关联数据源,曼海姆大学使用了LDSpider来爬去关联数据,爬取了大约90万个文档约800多万个资源,(通过使用关联数据技术可以在传统的不同领域共享数据,下表给出了发现的1014个数据集在不同领域的分布情况。主题数据集个数所占百分比(%)政府18318.05%出版物969.47%生命科学838.19%用户生成的内容484.73%交叉领域414.04%媒体222.17%地理212.07%社交网站52051.28%总计10144关联数据的核心思想是数据发布者发布数据时遵循在连接、使用词汇集、提供元数据等一系列规则,使得应用程序可以更容易的发现数据集和聚合数据集,更简单的重用数据集。4.1通过rdf链接,数据发布者把他们的数据集加入一个全球性的数据图中,可以被应用程序导航、通过RDF链接发现更多的相关数据集。通过查询发现56.11%的数据集都至少链接到另外的一个数据集,剩余的数据集是rdf链接的目标。下表是通过比较链接其他数据源数目进行分类。链接其它数据源的数目数据集个数1079(7.79%)6—1081(7.99%)531(3.06%)442(4.14%)354(5.33%)2106(10.45%)1176(17.36%)0445(43.89%)关联数据为网络上发布文档和数据提供了一个范例,1.1海量数据,通过使用互联网的海量数据可以提供新兴服务,促进科技创新,加快民主进程。例如:1.亚马逊通过WebAPI提供它的产品数据信息,通过利用这些数据已经构建成一个非常成功的中小企业交易生态系统。2.搜索引擎如谷歌和雅虎使用各种网站商店的结构化数据,这样不仅可以使用户和在线零售商通过增强用户体验和提高交易速度获得利益,而且可以减少搜索引擎从普通HTML页面提取数据时所消耗的人力、物力。3、在科学研究方面,如生命科学,科学家通过在全球范围内共享研究数据,共同合作研究促进了科学的进步,如在人类基因组计划取得了良好的进展。4、通过开放共享政府数据,使得政府的工作更加透明、促进了不同部门的合作。然而数据的发布和共享是多样性的,怎样使得那些共享了数据的组织和个人获益,更轻松的准确的获取数据并重用。提出问题:1、如何提供数据的访问方法,使得数据更容易重用。2、如何在多个获取的数据集中发现相关联的数据?3、如何使得应用程序可以从大量开始不知道的数据源中集成数据(开放世界假设)正如万维网已经彻底改变了我们连接和使用文档的方式,关联数据也将彻底改变我们发现、访问、集成和重用数据的方式。关联数据是W3C提出的一套原则和技术,通过利用网络基础和网络思想实现数据最大层度的共享和重用。1.2关联数据基本原理考虑现在共享和重用数据的机制1.2.1结构化有利于更复杂的加工数据重用数据的一个关键因素是数据是否有一个良好的结构,有规范和定义明确的数据,程序员可以通过编写程序更容易的获得数据重用数据。大多数的网站都包含一定的结构,然而HTML更侧重构造文本文档而不是直接构造数据。数据本身被包含到文本文档中,这样使得应用程序很难从HTML页面中提取结构化数据的片段。为了解决这些问题提出了微格式和开放WebAPI等方法。微格式可以用来描述特定类型的实体,如人与组织,事件,评论和评级,通过数据的HTML页面中嵌入公布的结构化数据。微格式仅仅指定如何嵌入数据,应用程序可以明确的从页面提取数据。微格式的弱点是仅仅可以代表一小部分实体,而且只提供一小部分可能用来描述这些实体的属性,它也不能很好地表达实体间的联系。因此,微格式不适合在网络上分享数据。现在更普遍的做法是网站提供API,用户通过HTTP协议简单的查询和访问结构化数据。虽然提供编程访问结构化数据的优势是显而易见的,但每个API都是围绕创建者想要提供的特定服务而设定的,把不同来源的数据整合在一个应用程序中需要浪费大量的人力物力。1.2.2通过超链接连接分布式数据XML、JSON等结构化数据是WebAPI提供的数据格式,而且大多数编程语言为处理数据格式提供了支持。然而从网络角度来看,它们有一些局限性,(通过HTML对比解释),HTML定义anchor元素和href属性,当一起使用时表示当前文档向外的一个链接。网络用户代理如浏览器、搜索引擎可以识别这种组合的,为用户提供可点击的链接,或者直接跳转到所需的文档。正是这种有标准语法的链接方法使得网络上的文档相互关联。相反目前大多数WebAPI返回的数据并没有类似HTML的这种链接机制,也就不支持发现相关联的数据。许多WebAPI只使用了本地作用域标识符(即某一标识符只在特定的API范围内有意义)。通常WebAPI返回的数据只是孤立的片段,具有相关关系的数据缺乏可靠的链接。尽管WebAPI使得数据在网络上是可被访问的,但不是真正意义上的把数据发布在网络上,使数据相互关联并容易被获取。1.3由数据孤岛到全局数据空间RDF提供了灵活的方式来描述任何事物,如人、地理位置或抽象的概念。在本质上,任何事物都是有联系的,例如我们想把在亚马逊API提供的一本书的信息,在另一个API中提供的销售这本书的书店信息,以及另一个网站提供的这个书店所在城市的信息,如果我们把这些信息以RDF格式发布到网络上,可以使得其他用户更容易发现和重用这些信息。与HTML,WebAPI形式提供的数据相比较,RDF具有的优点:1RDF可以链接任何事物,不仅仅是文档,RDF链接不仅是简单的从API中连接数据片段,还可以通过实体间的描述进行推理。2RDF链接是结构化的,HTML链接只能表示两个文档是相关的,实体之间的联系属性需要人工用户参与。而RDF链接可以使发布的数据有明确的联系。尽管由WebAPI返回的XML或JSON格式的数据隐含着事物之间的联系,但RDF可以显式的表示这些链接,这样当网络上所有的数据都通过RDF发布和链接,我们就更容易发现和使用数据。正如传统的互联网通过超链接把网络组成一个全球性的信息空间,关联数据通过把不同的数据源链接起来,进而把网络转变成一个全球性单一的数据空间。通过使用网络开放标准和公共的数据模型使得在整个数据空间使用通用程序成为可能。通过实现数据集间的无缝链接,我们可以探索药品新的发现方式,通过各种学习资源创建一个丰富的学习方式,发现以前道路交通事故中没有发现的因素,以及更有效的监督我们民主制度的运行。二:关联数据原则关联数据是网络上发布和互联结构化数据的一种最佳实践。关联数据原则:1、使用URI来命名资源,即网络上任何事物或资源的标识名称(如HTML文档、政府机构、某一个人以及某一个抽象概念),都由URI进行标识和定位,用于帮助用户发现资源;2、使用HTTPURI来标识资源,在全球网络环境下,数据能够通过HTTP协议访问,真正实现基于Web的访问与互联;3、用结构化和规范化方式来描述资源对象,使用RDF链接及Sparql提供与当前资源密切相关的其它有用信息,为用户提供更多有价值的关联资源,显著提高资源的利用率;4、主动提供相关资源的HTTPURI语义链接,有助于用户提高发现和利用潜在的网络信息资源的能力。关联数据的核心思想是在现有的Web体系结构和技术(HTTP、URI和HTML)基础上,遵循上述四个基本原则,在全球网络上共享结构化数据。2.1关联规则的概述关联数据第一个原则提倡使用URI命名网络资源,不仅仅是文档和数据,还包括现实世界的实体对象和抽象概念,比如人、地名、汽车等现实世界存在的以及更抽象的概念(如某人拥有汽车,汽车是绿色概念系列,甚至绿色本身)。这一原则把网络在线资源扩展到包含任意对象和抽象概念。通过HTTPURI标识资源,资源之间通过RDF链接以支持从某一资源对象出发对相关资源进行跨数据源导航和关联检索。关联数据仅仅使用HTTPURI,不使用其它URI方案如U三、数据网络越来越多的组织机构和个人采用关联数据方式在网络上发布数据,这些数据不仅仅是显示到网络上,更重要的是通过RDF链接把以前没有关联的相关数据链接起来,最终构建计算机能理解、高度结构化和富含语义关系的数据网络(WebofData)。目前全球数据图包含了数十亿条RDF描述覆盖了各种各样的领域,如地理位置、人、公司、书籍、科学出版物、电影、音乐、电视和广播节目、基因蛋白质、药物和临床试验、统计数据、普查结果、在线社区和评论。数据网络可以看作是与传统文档网络紧密交织在一起的附加层,它们之间有许多共同的属性。1、数据网络是通用的,它包含任意格式的数据2、每一个人都可以发布数据3、数据网络能够表示一个实体的不一致的信息4、实体之间通过RDF链接成为一个全球数据网络,支持用户跨数据源发现更多的相关数据。这就意味着应用程序不需要针对一组固定的数据源实现特定的功能,而是可以通过RDF链接实时的发现新的相关数据源。5、数据发布者不需要使用特定的词汇集来发布数据。6、数据是自我描述的,当应用程序使用关联数据时遇到一个陌生词汇描述的数据,应用程序可以解析URI得到数据的含义。7、相对于依赖异构数据模型和特定接口的WebAPI数据访问方式,关联数据通过使用HTTP作为访问数据的机制和RDF数据模型简化了数据获取方式。如图所示,由关联开放数据项目组织(LOD)发布的数据云图,发现网络上发布的关联数据集在飞速发展。关联数据云图中的节点表示发布的数据集,节点的面积越大表示数据集中包含的三元组个数越多。图中的节点间的弧表示两个数据集之间存在至少50个RDF链接,弧线越粗表示数据集间的链接越多,双向弧表示两个数据集相互使用标识符。政府数据,政府部门和公共组织
本文标题:LinkedData网络演变为全球数据空间
链接地址:https://www.777doc.com/doc-2884602 .html