您好,欢迎访问三七文档
大学计算机-计算思维导论南京理工大学计算机学院冯元第五章数据抽象、设计与挖掘内容提要:数据与大数据数据管理与数据库数据分析5.1数据与大数据现代社会数据的重要性用数据说话、用数据决策、用数据创新已形成社会的一种常态和共识,数据已被视为知识的来源、被认为是一种财富。数据之所以成为重要的生产要素,是因为它可以精确地描述事实,以量化的方式反应逻辑和理性。决策将日益基于数据和分析做出,而非经验和直觉。5.1数据与大数据大数据由于网络的出现,人类社会产生的数据量激增。2008年全球产生的数据量为0.49ZB(250MB)2009年的数据量为0.8ZB2010年增长为1.2ZB2011年的数量更是高达1.82ZB2012年为止,人类所有印刷材料的数据量是200PB预计到2020年,全世界的数据规模将达今天的44倍。5.1数据与大数据大数据的价值发现《大数据时代》一书的作者前瞻性地指出:大数据开启了一次重大的转型,大数据时代最大的转变就是“放弃对因果关系的追求,取而代之关注相关关系”。即只要知道“是什么”,而不需要知道“为什么”。颠覆了千百年来人类的思维习惯。例子:机票价格预测工具Farecast5.1数据与大数据大数据的价值发现Farecast:飞机票价格预测购票时机与机票价格的关系?怎样预测机票价格?只求关系,不求因果不要相信经验,一切以数据说话5.1数据与大数据数据管理与数据分析数据被视为知识的来源,被认为是一种财富,数据收集、数据管理、数据分析的能力已被视为核心竞争力。数据聚集的核心手段是数据管理和数据库,数据分析与利用的核心手段是数据仓库和数据挖掘。5.2数据管理与数据库1、数据库及数据库管理数据库(DataBase):以“表”形式组织起来的相互有关联关系的数据的集合。数据库管理系统(DBMS):用来管理数据库的软件。数据表的定义:用户可以自己定义数据表格式(DDL)数据表的操纵:插入、删除、更新,查询与计算(DML)数据库控制:数据安全性和正确性控制(DCL)数据库存储、备份、恢复、并发控制及性能监视与分析。5.2数据管理与数据库谁能访问数据更新数据有什么要求……用户DBMS检查用户合法性检查数据合法性按用户要求的操作执行并返回结果②用户通过DML操纵数据进出库①用户通过DDL定义数据表的格式③用户通过DCL定义数据安全性(依据用户表达的各种“需求”,对数据库进行操作、管理和控制)5.2数据管理与数据库2、数据库的基本结构形式---数据表数据表的构成:数据表是由简单的行列关系约束的一种二维表格结构。列:也称为“字段”,或“属性”。表的每一列都包含同一类型的信息。列由列名和列值构成,或属性名和属性值。表中列次序不重要,或是无序的。5.2数据管理与数据库数据表的构成要素及概念示意图学号姓名专业选修课程任课教师9003105900321290032239003214…张鹏吴俊武廖凯李娜…计算机应用计算机软件计算机软件计算机软件…计算机系统结构数据结构程序设计语言形式语言…唐飞王小栋陆非蒋涛…学生选课登记表表/关系:由关系模式和元组构成表名:学生选课登记表关系模式:由表名和属性名构成如学生选课登记表(学号、姓名、专业…)列/字段/属性:列名,有若干值或称数据如列名为“专业”,数据:计算机应用…值域:列数据的取值范围如10个汉字以内的文字串行/元组/记录:由相互关联的数据构成。5.2数据管理与数据库行:也称为“元组”,或“记录”。表的每一行由若干字段值组成,描述一个对象的信息。表中行次序不重要,一般可以互换。一张表中一般不能出现完全相同的两行。5.2数据管理与数据库表:也称为“关系”。由表名、列名及若干行数据组成。表中的一行反映的是某个对象的相关数据。表中的一列反映的是所有对象的某种性质或属性数据。在数据库领域,这种简单结构的二维表被称为“关系”,以表这种形式反映数据组织结构的模型被称为“关系模型”。5.2数据管理与数据库关系模式:表的结构称为关系模式,由表名、列名构成。定义“关系”指定义关系的模式,“操纵”关系指操纵的关系的值即表中数据。码(键):在表中各种属性中有一个属性或属性组很重要,就是“码”(Key),也称为键或关键字。它或它们的值能唯一地将该表中的每一行区分开。若一个关系中有若干个码,可选择其中的一个作为“主码”,也称“主键”。5.2数据管理与数据库数据库:表用于描述客观世界中的一件事,对不同事情的描述使用不同结构的表,如此若干数据表的集合便形成了一个数据库。数据表的性质列是同质的,即同一列中的数据的数据类型必须相同。表名在数据库中唯一,列名在表中唯一。行、列顺序可以任意交换。表中任意两个元组不能完全相同。表中每个数据项必须是不可再分的数据项。5.2数据管理与数据库非规范化的关系:家庭关系表丈夫妻子孩子第一个第二个李基王芳李健张鹏刘玉张睿张峰√5.2数据管理与数据库3、数据表的操作---关系操作关系/表之间是可以相互操作的,对关系/表的操作结果仍是关系/表。关系操作是指关系模型能够提供哪些运算和操作,以便用户可以构造新关系。数据库管理系统必须支持5种基本操作,对数据表的任何复杂操作都可以通过这5种基本操作的组合获得。“并”、“差”、“笛卡尔积”、“选择”、“投影”5.2数据管理与数据库“并”、“差”、“交”操作,假设关系A和关系B具有相同的属性数目,且相应的属性取自同一数据类型“并”操作:关系A和关系B的“并”操作结果是由或者属于A或者属于B的元组组成的新关系。“差”操作:关系A和关系B的“差”操作结果是由属于A而不属于B的元组组成的新关系。“交”操作:关系A和关系B的交”操作结果是由既属于A又属于B的元组组成的新关系。5.2数据管理与数据库学号姓名年龄981101981102981103李勇王军刘柳222123学号姓名年龄981201981202981203张平付强何红212422学号姓名年龄981101981202王军何红2122学号姓名年龄981101981102981103981201981202981203李勇王军刘柳张平付强何红222123212422学号姓名年龄981101981103李勇刘柳2223学号姓名年龄981102王军21R(9811班学生)S(9812班学生)T(校运动队学生)R与S的“并”操作R与T的“差”操作R与T的“交”操作5.2数据管理与数据库“选择”、“投影”、“笛卡尔积”、“连接”操作,假设关系A和关系B具有相同的属性数目,且相应的属性取自同一数据类型。“选择”操作:从某个给定的关系中筛选出满足一定限制条件的元组。“投影”操作:从给定的关系中保留指定的属性子集而删去其余的属性。“选择”操作是从某个关系中选取满足条件的“行”的子集,“投影”操作是选择“列”的子集。只对一个关系操作5.2数据管理与数据库系别姓名年龄计算机化学外语数学唐飞王小栋陆非蒋涛39524342教师表授课表学分开课教师总学时443342王成王成王小栋陆非蒋涛蒋涛808060608040程序设计汇编语言应用化学英文阅读高等数学线性代数课名姓名年龄唐飞王小栋陆非蒋涛39524342对教师表执行“投影”操作得到的新关系对授课表执行“选择”操作得到的新关系学分开课教师总学时44王成王成8080程序设计汇编语言课名选择条件:“开课教师”=“王成”5.2数据管理与数据库“笛卡尔积”操作:对两个关系的操作。两个关系的“笛卡尔积”操作是将两个关系拼接起来,由一个关系的元组和另一个关系的每一个元组拼接成一个新元组,这些新元组构成一个新关系。“连接”操作:对两个关系的操作。“连接”操作是将两个关系中满足一定条件的元组拼接成一个新元组,连接条件。5.2数据管理与数据库计算机计算机计算机计算机计算机计算机化学化学化学化学化学化学外语外语外语外语外语外语数学数学数学数学数学数学唐飞唐飞唐飞唐飞唐飞唐飞王小栋王小栋王小栋王小栋王小栋王小栋陆非陆非陆非陆非陆非陆非蒋涛蒋涛蒋涛蒋涛蒋涛蒋涛393939393939525252525252434343434343424242424242443342443342443342443342王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛王成王成王小栋陆非蒋涛蒋涛808060608040808060608040808060608040808060608040程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数程序设计汇编语言应用化学英文阅读高等数学线性代数“教师”和“授课”关系的“笛卡尔积”操作结果系别姓名年龄学分开课教师总学时课名5.2数据管理与数据库系别姓名年龄计算机化学外语数学唐飞王小栋陆非蒋涛39524342教师表授课表学分开课教师总学时443342王成王成王小栋陆非蒋涛蒋涛808060608040程序设计汇编语言应用化学英文阅读高等数学线性代数课名“教师”和“授课”关系的“连接”操作结果系别姓名年龄化学外语数学数学王小栋陆非蒋涛蒋涛52434242学分开课教师总学时3342王小栋陆非蒋涛蒋涛60608040应用化学英文阅读高等数学线性代数课名连接条件:“教师”表的“姓名”等于“授课”表的“开课教师”5.3数据分析数据库和数据库管理系统可以实现数据的有效聚集和管理,其目的是更好地利用数据。如何利用数据?如何挖掘蕴含在数据中的知识?数据分析:二维数据分析、多维数据分析。数据挖掘:从数据库中知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。简单地讲就是从大量数据中挖掘或抽取出知识。
本文标题:计算思维导论5
链接地址:https://www.777doc.com/doc-3803246 .html