您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第4章 数据处理与数据库技术(4h)
第4章数据处理与数据库技术本章主要内容:•4.1数据处理(理解)•4.2数据库概述(理解)•4.3概念模型(掌握)•4.4关系模型(掌握)•4.5概念模型向关系数据模型的转换(掌握)•4.6关系数据模型的规范化(理解)•4.7数据仓库和数据挖掘(了解)4.1.1数据处理1.数据处理的概念:数据处理是指从某些已知的数据出发,推导加工成为另一种形式的新数据,这些新的数据又表示了新的信息。在具体操作中,涉及到数据的收集、管理、加工利用乃至信息输出的演变与推导全过程。举例:1.统计局公布第一季度CPI数据。2.腾讯公司公布第一季度财务数据。4.1.1数据处理2.数据处理的基本内容:(p47)•数据收集:根据系统需求和用户需求收集数据•数据转换:数据的代码化•数据筛选、分组和排序•数据组织:数据的逻辑化•数据运算:算术运算和逻辑运算(与或非)•数据存储:•数据检索:•数据输出:4.1.2数据结构•数据结构包括:数据的存储结构和结构上的运算或操作。•数据结构分为逻辑结构和物理结构逻辑结构:数据间的逻辑关系线性结构(包括:线性表、栈、队列、串)非线性结构(包括:树、图)物理结构(存储结构):顺序存储、链接存储、索引存储和散列存储。4.1.2数据结构•数据结构中的几个重要概念(p48)1.指针:结点的地址2.链表3.线性表4.树L左指针I信息R右指针数据域指针域结点的结构指针域4.2.1数据库相关概念•1.数据库(DataBase)•数据库:是在一段时期内保存在计算机存储设备上并相互关联的数据信息集合。•举例:•1.学生信息数据库:将描述学生的姓名、年龄、性别、家庭住址、E-mail地址等相关信息存储在一个数据库中。•2.图书信息数据库:图书馆为了加强对图书的管理,对每一本图书进行分类编号,然后将描述图书的编号、书名、作者、出版社、价格等相关信息存储在一个数据库中。4.2.1数据库相关概念•2.数据库管理系统(DataBaseManagementSystem,简称DBMS)•人们对信息的需要增加,信息量急剧上升,信息数据的形式多样化,对数据的处理必须使用一套操纵和管理数据的系统软件,这种软件就称为数据库管理系统。••DBMS的主要功能包括以下几个方面:•(1)数据库定义功能•(2)数据库操纵功能•(3)数据库运行控制功能•(4)数据库的建立和维护功能•(5)数据字典(在MIS系统分析中详细讲)4.2.2数据管理技术的发展•1.人工管理阶段•20世纪50年代中期以前,计算机主要用于科学计算。从硬件看,外存只有磁带、卡片、纸带,没有磁盘、光盘等直接存取的存储设备;从软件看,没有操作系统,没有管理数据的软件,数据处理方式是批处理。这一时期,计算机数据管理的特点是:•(1)数据不保存•(2)没有软件系统对数据进行管理•(3)这一时期基本上没有文件概念,数据的组织方式必须由程序员自行设计。•(4)一组数据对应一个程序。4.2.2数据管理技术的发展•1.人工管理阶段应用程序1应用程序2应用程序3应用程序n数据集合1数据集合2数据集合3数据集合4......4.2.2数据管理技术的发展•2.文件系统阶段•20世纪50年代到60年代中期,计算机的应用范围逐渐扩大,大量用于管理。这时由于计算机大容量存储设备的出现,推动了软件技术的发展,而操作系统的出现标志着数据管理步入了一个新的阶段。•这一阶段的数据管理形成了如下几个特点:•(1)数据需要长期保留在外存上反复处理•(2)程序和数据之间有软件提供存取方法进行转换•(3)文件已经多样化•(4)数据的存取基本上以记录为单位4.2.2数据管理技术的发展•2.文件系统阶段应用程序1应用程序2应用程序3应用程序n文件1文件2文件3文件4......存取方法4.2.2数据管理技术的发展•3.数据库系统阶段•计算机用于管理的规模更为庞大,数据量急剧增长,而且数据的共享要求越来越强;有了大容量的磁盘,联机实时处理要求更多,并开始提出和考虑分布处理;软件价格上升,硬件价格下降,为编制和维护系统软件及应用程序所需的成本相对增加。其特点如下•(1)面向全组织的复杂的数据结构。•(2)数据冗余度小,易扩充。•(3)具有较高的数据和程序的独立性。•(4)统一的数据控制功能。•(5)数据的最小存取单元是数据项。4.2.2数据管理技术的发展•3.数据库系统阶段应用程序1应用程序2应用程序3应用程序n...DBMSDB4.2.2数据管理技术的发展•4.高级数据库技术阶段•(1)分布式数据库系统•(2)面向对象数据库系统•(3)网络数据库系统4.2.3数据库系统结构•美国国家标准委员会所属标准计划和要求委员会在1975年公布了一个关于数据库标准报告,提出了数据库的三级结构组织,将数据库从内到外分三个层次描述,分别称为内模式、模式和外模式。•1.内模式•内模式是数据库结构中最低一级的逻辑表达,它由若干内部记录类型组成。内模式要定义所有的内部记录类型,定义一些索引、数据在存储器的安排以及安全性、恢复和其他管理方面的细节。所以内模式是数据在物理存储结构方面的描述。4.2.3数据库系统结构•2.模式•模式是所有概念记录类型的定义,因此它是数据库中全部数据逻辑结构的描述,即数据库中所有记录类型的整体描述。4.2.3数据库系统结构•3.外模式•外模式是用户与数据库系统的接口。单个用户的视图称为外部视图。外部视图由若干外部记录类型组成,这些外部记录类型和概念记录类型、内部记录类型可能不一样。用户使用数据操作语言的语句(如:结构化查询语言SQL)对数据库进行操作,实际上是对外部视图的外部记录进行操作。4.2.3数据库系统结构•4.模式间的映像数据库系统提供了三级模式之间的二级映像。•外模式/模式映像定义了各外模式和模式之间的对应关系。•模式/内模式映像定义了数据全局逻辑结构与存储结构之间的对应关系。模式间的映像就像是桥梁连接了三级模式。应用程序1应用程序2应用程序1应用程序2应用程序n应用程序1应用程序2应用程序n应用程序n外模式1外模式2外模式n……外模式/模式映像模式模式/内模式映像内模式4.2.4概念模型和数据模型•1.概念模型•概念数据模型又称信息模型,它以用户可以理解的方式描述一个系统,如显示主要对象类型及其关系的图表等。其表示方法最常用的是实体-联系(Entity-Relationship,E-R)模型。E-R模型独立于计算机系统,按用户的观点在信息世界对数据建模,强调语义表达能力。在数据库设计中完全不涉及数据在计算机系统中的表示方法。•p148物资入库管理E-R图物资入库库存订货付款购进验收合同供应单位结算ILMMINNNNMN4.2.4概念模型和数据模型•2.数据模型•(1)层次模型学校院系1院系2院系N-1院系N…班级2…班级N-1班级N班级14.2.4概念模型和数据模型•2.数据模型•(2)网状模型赵老师王老师李老师班级1班级4班级3班级24.2.4概念模型和数据模型•2.数据模型•(3)关系模型湖北1986.2.5女刘东计算机系200769123河南1985.7.2男李晓计算机系200769110河北1987.6.3女陈维管理系200759102河南1986.5.2男王卫东管理系200759101籍贯出生年月性别姓名系别学号4.3概念模型•1.实体的描述•(1)实体•客观存在并且可以相互区别的事物称为实体。实体可以是实际事物,例如,一个职工、一个部门,也可以是抽象事件,例如:一次定货、一场比赛。4.3概念模型•(2)属性•描述实体的特性称为属性。如在职工实体中用若干个属性(职工号,姓名,性别,出生日期)来描述。属性的具体值称为属性值,用以刻画一个具体的实体。如属性值组合(001,王伟东,男,03/12/80)表示职工中一个具体的人。4.3概念模型•(3)主码或主键•唯一标识实体的属性集称为主码或主键。例如,产品代号ID或产品的名称可以是产品实体的码或键。•(4)域或有效性规则•某个(些)属性的取值范围。例如,产品代号ID为2位,而且其域为文本集合,中止的域为(True,False)4.3概念模型•(5)实体型和实体集•属性的集合称为实体型,属性值的集合称为实体,同类型实体的集合称为实体集。4.3概念模型•2.实体之间的联系•现实世界中任何一个实体都不是孤立存在的。也就是说,实体与实体之间是存在一定联系的,实体与实体之间的联系必然要在信息世界中加以反映,而且是比较复杂的,但抽象化后,可将实体与实体之间的联系分为三类。4.3概念模型(1)一对一联系(1:1)•如果有两个实体的集合A和B,A中每一个实体最多与B中的一个实体有联系,反过来,B中每一个实体最多与A中的一个实体有联系,则称实体集A和B之间是“一对一关系”。•例如:•实体集“学生班”和“学习委员”之间•“课题项目”和“项目主持人”之间就是“一对一关系”。4.3概念模型•(2)一对多联系(1:N)•如果有两个实体的集合A和B,A中每一个实体与B中的一个或多个实体有联系,反过来,B中每一个实体最多与A中的一个实体有联系,则称实体集A和B之间是“一对多关系”。•例如:•实体集“课题项目”和“课题组成员”之间•“学生班”和“学生”之间就是“一对多关系”。4.3概念模型•(3)多对多联系(M:N)•如果有两个实体的集合A和B,A中每一个实体与B中的一个或多个实体有联系,反过来,B中每一个实体与A中的一个或多个实体有联系,则称实体集A和B之间是“多对多关系”。•例如:•实体集“图书”和“借书人”之间•“学生”和“教师”之间就是“多对多关系”。4.3概念模型•3.实体-联系表示方法•实体-联系的表示方法:E-R模型•实体-联系是一种高层次的概念模型,它通过E-R图直观地表示实体及其联系,在概念上表示数据库的信息组成,这种图能够使设计、开发人员和用户理解设计的数据库将做什么和怎么做,便于使设计者与开发者进行交流。E-R图有三个基本成分。4.3概念模型(1)实体集:用矩形框表示,框内标有实体名。(2)联系:用菱形框表示实体之间的联系,框内标有联系名。(3)属性:用椭圆形框表示属性,框内标有属性名,如果该属性是主键,则在属性名下划一横线。联系3属性2实体1图形名称序号4.3概念模型•3.实体-联系表示方法•每个实体集、联系和属性的命名填写在各个框中,再用线段连接起来,并在实体和联系之间连线的两端注明联系方式。4.3概念模型•例题:按以下要求绘制学生选课的E-R模型•1.每位学生可以选择多门课程;•2.每门课程可以由多位学生来选;•3.实体:“学生”与“课程”•4.属性:学号、姓名、性别、年龄、课程名、课程号、学分、学时、分数。•3.实体-联系表示方法学生课程选课学号姓名性别年龄分数课程号课程名课时学分mn4.4关系数据模型•本节主要内容:•4.4.1关系模型•4.4.2关系模型的完整性约束•4.4.3关系数据语言4.4.1关系模型•1.关系模型的基本概念•(1)关系:一个关系在逻辑上对应一个按行、列排列的二维表。•(2)属性:表中的一列称为一个属性,每列的名字即为属性名。表示所描述的对象的一个具体特征。•(3)域:域是属性的取值范围。•(4)元组:表中的每一行称为元组,又称记录。•(5)主键(PrimaryKey):在关系模型中,不允许一个表中有两个完全相同的元组,表中能够唯一标识元组的一个属性或属性集合称为主键。•(6)外键:如果一个属性或属性集合不是某个关系的主键,而是另外一个关系的主键,则这个属性或属性集合称为该关系的外键。4.4.1关系模型•例题:成绩表的主键与外键•有学生表和成绩表两个关系。•学生表的主键是“学号”;成绩表的主键是“学号”、“课程号”(共同构成)。•在成绩表中,“学号”不是主键(注意:“学号”只是构成主键的属性之一),但是“学号”是学生表的主键。因此,“学号”是成绩表的外键。•(7)关系模式:关系名及关系中的属性集合构成关系模式(Schema)。一个关系通过属性来描述,对关系的描述称为关系模式,可以用下面的简单形式表示:•关系名(属性名1,属性名2,属性名3
本文标题:第4章 数据处理与数据库技术(4h)
链接地址:https://www.777doc.com/doc-3799802 .html