您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第5章 数据抽象、设计与挖掘
《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院大学计算机__计算思维导论南京航空航天大学2014版《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院第五章数据抽象、设计与挖掘关于数据管理与分析的思维《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院关注一些信息•2014年09月09日,据陕西测绘地理信息局透露,近日抓获了一名从事非法测绘的日本人,该人从中国租了一辆车,并从甘肃沿秦岭一带进行非法测绘,非法获得中国境内大量地理信息数据,直到甘肃宝鸡境内因闯入某要地而被抓获。•斯诺登与棱镜计划•GDP•。。。•都是为了获得数据现代社会,有了数据就有了话语权,数据说了算!然而,计算机是数据处的理工具。《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院数据处理的一般性思维•数据→管理数据→分析利用数据,数据抽象是计算思维重要内容,也是实用性最大的计算技术和方法之一,有着非常广泛的应用!《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院数据处理的一般性思维•问题1:什么是数据?•问题2:如何管理数据?•问题3:如何分析利用数据?•问题4:有无数据处理的一般性思维方式,进一步引出研究数据处理的利用和技术?《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院数据处理的一般性思维•问题1:什么是数据?《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院5.1数据与大数据•数据–数据(Data):载荷或记录信息的按一定规则排列组合的物理符号(怎么理解?)。可以是数字、文字、图像,也可以是计算机代码。(计算机世界里,什么都是数据,对不对?)–数据之所以成为重要的生产因素,是因为其可以精确地描述事实,以量化的方式反映逻辑和理性,决策将日益基于数据和分析而作出,而并非基于经验和直觉。InGodwetrust;everyoneelsemustbringdata.除了上帝,任何人都必须用数据说话非上帝不信,非数据不认!只信数据不信人,除非你是万能神!《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•大数据(一个当前时髦的概念!)–21世纪随着互联网技术的发展,促进了互联网数据的膨胀式发展,网络世界中面向人-人互动、人-机互动等声音、图像/视频、文档大规模数据的聚集与交换,形成了所谓的“大数据(BigData)”。–物联网技术进一步使实物商品、实物资源等被感知、被联网,形成大规模的物联网数据。大数据(bigdata),(巨量资料、海量数据)实在是太大,无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理出真正有意义的信息。《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院VisualizationofalleditingactivitybyuserPearleonWikipedia(Pearleisarobot)全球信息存储容量成长(注意数字存储)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•大数据的价值发现–大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。–体现“数据价值”的示例:华尔街金融家利用电脑程序分析全球3.4亿微博账户的留言,根据民众情绪抛售股票:银行根据求职网站的岗位数量,推断就业率;投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好,基于数据对竞选议题的把握,成功赢得总统大选。中国网民发动的“人肉搜索”,已成功地使若干“表哥”“表叔”“房叔”“房妹”等腐败官员落入法网。……5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–数据被视为知识的来源、被认为是一种财富,数据收集、数据管理、数据分析的能力常常被视为核心的竞争力,和企业利益息息相关。5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•问题2:如何管理数据?5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•问题2-1:日常生活中,你如何管理你的“数据”?5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•整理、找地方存放、记在脑子里、放在文件夹里、放在柜子里•目标是:容易找到•区分、归类、命名、统一表达、存储、查找、分析5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院1980.10区分、归类、命名、统一表达。。。什么是统一表达了?5.1数据与大数据《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院5.2数据聚集的核心:数据管理与数据库•5.2.1数据聚集成“库”——数据库及数据库管理•5.2.2数据库的基本结构形式——数据表(关系)•5.2.3数据表的操作——关系操作•5.2.4用数学定义数据表及其操作——关系模型•5.2.5数据库语言——用计算机语言表达数据库及其操作•5.2.6DBMS——数据库语言的执行或者数据表操作的自动实现《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–数据是怎样被管理的呢?–通常将各类数据组织成一张张表格(如下图)来进行管理。–随着计算机技术的发展,这种数据管理工作被发展成一种技术,即“数据库”技术。–所谓数据库(DataBase,DB),即可看作是以“表”形式组织起来的相互有关联关系的数据的集合。而管理数据库的一种计算系统被称为数据库管理系统(DataBaseManagementSystem,DBMS)。5.2.1数据聚集成“库”—数据库及数据库管理《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•问:有无一般性的数据表达和处理方式?5.2.1数据聚集成“库”—数据库及数据库管理《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–数据库管理系统(DBMS)管理数据库的基本思路/步骤5.2.1数据聚集成“库”—数据库及数据库管理《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–数据库管理系统(DBMS)管理数据库的基本思路/步骤–(1)定义表的格式:DBMS提供数据定义语言(DataDefinitionLanguage,DDL)来让用户表达他要定义什么样的表,然后DBMS会按照用户的需求在系统里面建立相应的表。–(2)按格式操纵表中数据:DBMS提供数据操纵语言(DataManipulationLanguage,DML)来供用户表达他想对数据库所进行的操作,并获取相应结果。–(3)对表的使用进行控制:DBMS也是通过提供一种数据控制语言(DataControlLanguage,DCL)给数据库管理者,以方便其表达对数据库的安全性控制需求。然后DBMS按照管理者定义的安全性,对访问数据库的用户和程序进行控制。5.2.1数据聚集成“库”—数据库及数据库管理《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–定义数据表5.2.2数据库的基本结构形式—数据表(关系)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–定义数据表–列(Column):也称字段(Field)、属性(Attribute)。表的每列都包含同一类型的信息,列由列名和列值两部分构成。–行(Row):也称元组(Tuple)或记录(Record)。表中每一行由若干个字段值组成,描述一个对象的信息。–表(Table):也称关系(Relation),由表名、列名及若干行数据组成。在数据库领域,这种简单结构的二维表又被称为“关系”,以表这种形式反映数据组织结构的模型被称为“关系模型”。–关系模式:在表中,表的结构(或格式)被称为关系模式,主要由表名和列名构成。5.2.2数据库的基本结构形式—数据表(关系)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–定义数据表–码:在表的各种属性中,有一个属性或属性组很重要,那就是码。(Key)也称为键,或者关键字,它是表中的某个属性或某些属性的组合,它们的值能唯一地将该表中的每一行区分开来。–数据库:一个表用于描述客观世界中的一件事情,对不同事情的描述则用不同结构的表,如此若干数据表的集合便形成了一个“数据库”。–数据表的性质:1)列是同质的;2)列的顺序可以任意交换;行的顺序可以任意交换;3)任意两个元组不能完全相同;4)表中每一数据项必须是不可再分割的数据项,即都应是按行按列管理的简单的二维表,满足此性质的表称为规范化的表或规范化的关系。5.2.2数据库的基本结构形式—数据表(关系)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院•至此,我们得到了初步的模型•为了得到一般性的理论,需要对模型的性质进行研究5.2.2数据库的基本结构形式—数据表(关系)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–数据表的性质:规范化的表或规范化的关系。5.2.2数据库的基本结构形式—数据表(关系)《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–我们说:–(1)关系/表之间是可以相互操作的,而对关系/表的操作结果仍然是关系/表。–(2)有5种基本的关系操作是必须的,即数据库管理系统至少应支持:“并”、“差”、“笛卡儿积”、“选择”和“投影”等操作。–(3)数据库管理系统还应支持用户通过这5种基本操作的组合来表达更为复杂的表操作。例如“交”操作和“连接”操作便可由这5种基本操作组合来实现。5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–(1)“并”操作:关系A和关系B的“并”操作的结果是由或者属于A或者属于B的元组组成的新关系。–(2)“差”操作:关系A和关系B的“差”操作的结果是由属于A而不属于B的元组组成的新关系。–(3)“交”操作:关系A和关系B的“交”操作的结果是由既属于A又属于B的元组组成的新关系。交操作可通过差操作的组合来实现,我们在后面介绍。5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–(4)“选择”操作:从某个给定的关系中筛选出满足一定限制条件的元组。–(5)“投影”操作:从给定的关系中保留指定的属性子集而删去其余属性。–“选择”操作是从某个关系中选取出满足某些条件的一个“行”的子集,而“投影”操作实际上是生成一个关系的“列”的子集。5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院5.2.3数据表的操作—关系操作《大学计算机——计算思维导论》第5章数据抽象、设计与挖掘计算机科学与技术学院–(6)“笛卡儿积”操作是对两个关系的操作。两个关系的“笛卡儿积”操作是将两个关系拼接起来的一种操作,它由一个关系的元组和另一个关系的每一个元组拼接成一个新元组,由所有这样的新元组构成的关系便是“笛卡儿积”
本文标题:第5章 数据抽象、设计与挖掘
链接地址:https://www.777doc.com/doc-3787695 .html