您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 大规模知识图谱数据存储-Final
链接数据洞察价值LINKEDDATA&SMARTDATAPlantData知识图谱实战分享会第1期大规模知识图谱数据存储胡芳槐博士上海海翼知信息科技有限公司CTO2▍语义大数据背景下的知识图谱技术▍数据存储的发展历史▍知识图谱数据存储▍知识图谱时态信息存储上半场《人民的名义》知识图谱大数据时代大数据时代,强调的是对大规模数据综合处理的能力。从数据库到大数据(1)大数据的出现,必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。从数据库(DB)到大数据(BD),不只是一个简单的技术演进,两者有着本质上的差别。DBBD来源:开源技术社区Nock(洛神)从数据库到大数据(2)池塘捕鱼大海捕鱼从数据库到大数据(2)数据规模MBGB/TB/PB池塘捕鱼大海捕鱼从数据库到大数据(2)数据类型•数据种类单一(少数几种)•以结构化数据为主•数据种类繁多•包含着结构化、半结构化以及非结构化的数据•半结构化和非结构化数据所占份额越来越大池塘捕鱼大海捕鱼从数据库到大数据(2)数据模式先有模式然后产生数据难以预先确定模式模式在数据出现之后才能确定且模式随着数据量的增长处于不断的演变之中池塘捕鱼大海捕鱼从数据库到大数据(2)处理对象数据仅作为处理对象数据能作为一种资源来辅助解决其他诸多领域的问题池塘捕鱼大海捕鱼从数据库到大数据(2)处理方法OneSizeFitsAllNoSizeFitsAll池塘捕鱼大海捕鱼从数据库到大数据(3)以计算为中心转变到以数据处理为中心。数据思维大数据应用挑战1:多源异构数据难以融合涉密部门企业内部数据顾军.生于1963年.江苏南通人.中国核工业公司内部数据、新闻网站、论坛帖子、微博…多源异构数据难以融合信息聚合、数据融合需求迫切!大数据应用挑战2:数据模式动态变迁困难当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况。我们需要:可自由扩展的数据模式!响应速度慢人员投入大数据结构难改动扩展性差维护成本高大数据应用挑战3:非结构化数据计算机难以理解计算机无法理解非结构化数据的语义企业迫切需要将非结构化数据结构化WebofDocument大数据应用挑战4:数据使用专业程度过高行业智能问答大幅降低数据使用门槛KnowledgeGraph:Thekeyfor‘SmartData’Things,notstrings!什么是知识图谱?知识图谱旨在描述真实世界中存在的各种实体或概念,以及它们之间的关联关系。其中:•每个实体或概念用一个全局唯一确定的ID来标识,称为标识符;•每个属性—值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。现实世界中有多种类型的事物事物之间有多种类型的链接知识图谱与本体知识图谱并不是本体的替代品,它是在本体的基础上进行了丰富和扩充,这种扩充主要体现在实体(Entity)层面。本体中突出和强调的是概念以及概念之间的关联关系,而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。本体描述了知识图谱的数据模式(schema),即为知识图谱构建数据模式相当于为其建立本体。知识图谱助力人工智能语义搜索私人助理聊天机器人穿戴设备GoogleBing百度SiriGoogleNow微软小娜百度度秘微软小冰小黄鸡公子小白AppleWatchTicwatch计算知识引擎临床决策支持出行助手IBMWatsonHealth出门问问百度知识图谱业务需求技术方案数据挑战4.数据使用专业程度过高3.数据模式动态变迁困难语义理解数据关联探索业务动态扩展智能数据检索1.非结构化数据计算机难以理解2.多源异构数据难以融合知识图谱助力商业智能数据结构化数据结构化数据结构化数据融合数据结构化自由扩展数据模式数据结构化行业智能问答知识图谱的适用场景数据场景多源异构数据需要融合统一使用数据中存在一定数量不同类别的实体业务上更加关注数据中实体的关联,而不仅仅是数据本身知识图谱为数据赋能图结构特性数据语义特性消费场景图数据探索路径分析关联分析图谱可视化图结构消费场景自然语言检索智能BI语义标注知识推理数据语义消费场景知识图谱适用于处理:关系复杂的数据、类型繁多的数据、结构多变的数据。作为数据融合与链接的纽带,整合结构化、半结构化和非结构化数据有半结构或非结构化数据需要结构化知识图谱的不适用场景不适用数据场景不适用消费场景存储通常的二进制数据日志数据流式数据需借助其它工具存储和处理并与知识图谱进行数据链接数据统计数据计算需要结合其它工具和方法使用不要为了用知识图谱也用知识图谱!TIPS知识图谱不是银弹!依据问题寻找方法。数据存储的发展历史在IDS横行的年代,(硅谷的所在地)加利福尼亚州,数据库一词最早流行于系统研发公司的技术备忘录中伴随阿波罗登月计划,商业数据库雏形诞生。IBM的IMS,Mainframe,以及navigational数据库技术浮现。埃德加·弗兰克·科德,IBM公司研究员,发表题为“大型共享数据库的关系模型”的论文,被誉为“关系数据库之父”IBM的校企联合计划中,与加利佛尼亚柏克莱分校Ingres数据库研究项目携手创建了RDMBS的原型R系统因IBM战略主导分级结构数据业务并将萌芽期的关系型数据结构业务剥离;柏克莱Ingres数据库研究项目联合Oracle创建了第一个商业RDBMS.IBM发布DB2(一套自主开发的关系型数据库管理系统)TerodataCorporation发布第一个大规模并行处理数据库专用平台,或者说是“无共享架构”数据库。由于无需共享数据库,文件架构中不存在单一瓶颈而降低系统运行速度的特性,所以google称之为sharding。PC机数据库应用浮现,比如:Ashton-Tole公司的DBaselll,微软公司的Access等等。19621979196819701974198319841985“数据库”诞生第一个商业RDBMS出现数据存储的发展历史GemStone/S-首个面向对象型商业数据库浮现。这一年,加利福尼亚柏克莱分校MichaelStonebraker发表了关于sharednothingarchitecture(SN)的研究论文Kognitio公司发布第一款内存数据库,相比传统的基于磁盘的数据库管理系统,内存栅障以及高速缓存冲刷指令为内存数据库提供简单高效的原子性,保证了与中央处理器本身原子操作的一致性服务。Arbor公司发布第一款多维数据库Essbase。多维数据库允许用户以更为口语化的英语来询问问题,使用一种在线分析处理(OLAP)的软件。关系型数据库管理系统扩展添加关系型多维数据模型。第一款商用多值数据库KDB发布。KDB封装了丰富的命令实现运行控制、内存操纵、寄存器操纵、断点设置、堆栈跟踪等许多功能。这一年9月,两个斯坦福大学博士生发明了谷歌搜索引擎。。瑞典MySQLAB公司发布推广第一款开源数据库MySQL英国Endeca公司发布第一款商用数据库搜索产品。该公司为波音公司、美国人口普查局、福特、国际商用机器公司、东芝等大型公司和机构提供搜索服务。这一年google公司成立。1986199219881989199119941995199619981999IBM研究员率先提出并解释了数据仓库一词的行业标准第一款开源的文件数据库发布,BerkeleyDB介于关系数据库与内存数据库之间,使用方式与内存数据库类似,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL解析等步骤。第一款对象关系数据库管理系统Illustra发布,它支持对复杂数据类型的面向对象管理,同时又提供高效的查询语言。随后跟风的有notably,PostgreSQL等等。数据仓库行业标准提出第一款多维数据库发布数据存储的发展历史Netezza公司将存储、处理、数据库和分析融入到一个高性能数据仓库设备中,资料仓储软硬体整合数据仓库数据库浮现。复杂事件处理技术解决方案提供商Streambase发布第一款time-seriesDBBMS第一款商用NOSQL图形数据库管理系统NEO4j发布,它是一个嵌入式的、基于磁盘的、具备完全的事物特性的Java持久化引擎,但是它将结构化数据存储在网络上而不是在表中。Facebook基于静态批处理的Hadoop智商封装并发布了一个开源项目——数据仓库Hive,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hbase发行,在Hadoop之上提供了类似于Bigtable的能力,是一个适合于非结构化数据存储的数据库,采用基于列的而不是基于行的模式。在Hadoop生态系统中,规模最大、知名度最高的Cloudera公司由来自Facebook、谷歌和雅虎的前工程师杰夫店哈默巴切、克里斯托弗·比塞格利亚、埃姆·阿瓦达拉以及现任CEO、甲骨文前高管迈克·奥尔森合作发布了第一款商用Hadoop基于资源描述框架(资源-属性-属性值)的高性能图形数据库管理系统或称为三元组法数据管理系统浮现2002200720032005200720082009200920102011NoSQL数据库解决方案提供商MarkLogic发布第一款XML数据库。第一款内容管理数据库ModeShape发布。(其前身是“JBossDNA”)实现了JCR2.0(JSR-283)规范,用以提供在不同系统上的内容存储。由分布式文档存储数据库MongoDB引发了一场去SQL化的浪潮商用Hadoop首次发布去SQL化浪潮数据仓储一体机推出数据存储的发展历史内存数据库管理系统演化为SAPHANA第一款事务存储型开源数据库发布FoundationDB引发业内新兴热词“multi-modelDBMS”的浮现。Hadoop框架集成新功能组件:+ApacheSpark;+ApacheDrill(schemalessSQL);+presto(federatedmulti-DBMSSQL)市场需求程序应用可以自行判断数据流的激活状态并快速集成数据进行实时分析处理,Translyticaldatabase与Transactionandanalyticaldatabase进入人们的关注视野,比如VoltDB(version5.6)201220142012201220132014201520152015作为基于云数据仓库的服务,亚马逊Redshift发布Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。相比已有的Hive系统虽然也提供了SQL语义,眼但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。大数据处理作为云服务体系接入到企业应用值得注意的是UC柏克莱为加州大学系统中历史最悠久的学校,Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于HadoopMapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala可以像操作本地集合对象一样轻松地操作分布式数据集。亚马逊Redshift发布Impala查询系统数据存储的发展历史网状数据库层次数据库关系数据库面向对象数据库NoSQL大数据存储
本文标题:大规模知识图谱数据存储-Final
链接地址:https://www.777doc.com/doc-6131722 .html