您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 管理信息系统-第3章
教学内容数据管理的发展数据库系统的产生与构成数据库管理系统的五个软件组成部分数据仓库的主要特征第3章数据库与数据仓库3.1数据管理的发展文件系统阶段数据1数据2数据n存取方式程序1程序2程序n补贴系别姓名学号劳资科住址系别性别姓名学号房产科学位学分系别姓名学号学籍科学位学分年龄系别性别姓名学号人事科籍贯存在问题:1、数据冗余与数据不一致性2、数据联系弱3、缺少数据字典,缺乏灵活性传统文件处理系统数据库系统阶段数据1统一存取数据2数据n程序2程序1程序n学号姓名性别系别年龄住址籍贯学位学分补贴学籍科房产科人事科劳资科对比方面文件系统数据库系统特点数据的管理者文件系统数据库管理系统数据面向的对象某一应用程序整个应用系统数据的共享程度共享性差,冗余度大共享性高,冗余度小数据的独立性独立性差高度的物理独立性和逻辑独立性数据的结构化记录内有结构整体结构化,用数据模型描述数据控制能力应用程序自己控制由数据库管理系统提供数据安全性、完整性、并发控制和恢复能力两种数据管理方式的对比数据库是统一管理的相关数据的集合。3.2数据库系统的产生与构成数据库不仅存放数据,而且还要存放数据和数据之间的联系。表示数据和数据之间的联系的方法称为数据模型。数据库系统的诞生(20世纪60年代末和70年代初)1)层次数据模型IMS(InformationManagementSystem)1968年研制成功、1969年形成产品的。3.2数据库系统的产生与构成层次模型用树形结构表示客观事物之间联系的模型。ABCDEF2)网状数据模型DBTG美国数据系统语言协会(ConferenceOnDataSystemLanguage)下属的数据库任务组(DatabaseTaskGroup)发表了若干个报告,奠定了数据库的很多概念、方法和技术。网状模型(NetworkModel)用网络结构表示客观事物之间联系的数据模型。3)关系数据模型1970年,IBM公司的研究员E.F.Codd发表了论文“大型共享数据库的关系模型”,为关系数据库的发展奠定了理论基础。关系模型(RelationalModel)用二维表表示实体与实体之间联系的模型。仓库号城市面积WH1北京370WH2上海500WH3广州200仓库器件号器件名称P1显示卡P2声卡P3解压卡P4散热风扇器件器件仓库库存仓库号城市面积WH1北京370WH2上海500WH3广州200仓库器件号器件名称P1显示卡P2声卡P3解压卡P4散热风扇仓库号器件号数量WH1P2675WH1P3250WH1P4340WH2P1280WH2P2200WH2P4270WH3P2500WH3P1330器件库存器件仓库库存仓库号城市面积仓库仓库号器件号数量库存仓库号职工号工资职工职工号供应商号订购单号订购日期订购单关系数据结构1)候选码是表中一列或多列的组合,其值惟一标识了表中的一个元组。2)主码若一个关系有多个候选码,选定其中一个为主码。主码的诸属性称为主属性。3)非码属性不包含在任何候选码中的属性。4)全码关系模式的所有属性组是这个关系模式的候选码。关系数据结构5)外部关键字(外部码)设F是基本关系R的一个或一组属性,但不是关系R的码,如果F与基本关系S的主码Ks相对应,则称F是基本关系R的外部码,简称外码。并称基本关系R为参照关系(Referencingrelation),或从表,基本关系S为被参照关系(Referencedrelation)、目标关系(Targetrelation)或主表。关系R和S不一定是不同的关系,但是Ks与F是定义在同一域中的。学号饭卡号姓名性别学院01200502000025685234王俊F管理学院01200502000125685236李伟M管理学院01200502385235862578陈文M软件学院01200502458356987435张钰F环境学院列、属性行、元组主码(PRIMARYKEY)学生基本信息表关系数据结构域(DOMAIN)关系名3.3数据库设计现实世界观念世界数据世界人们头脑之外的客观世界,它包含客观事物及其相互联系信息世界,是现实世界在人们头脑中的反映现实世界中的事物及其联系,在数据世界中用数据模型描1)数据库设计的步骤现实世界观念世界数据世界用户需求分析概念结构设计逻辑结构设计物理结构设计E-R图数据模型概念结构设计逻辑结构设计2)信息的转换客观事物类:事物相关性质集合人实体实体集合及实体联系相关属性集合加工、转换数文件据记录库相关数据项集合加工转换存储二进制数据集合结构计算机世界DBMS数据世界DBMS的数据模型信息世界认识选择描述现实世界E-R模型3)实体联系模型(E-R模型)实体联系模型反映的是现实世界中的事物及其相互联系。图书作者写作出版社类别页数ISBN*书名姓名出生地身份证号*定稿时间价格(1)实体(Entity)描述客观事物的概念实体名称表示方法:(2)属性指实体具有的某种特性。表示方法:属性实体名称属性1属性2属性n(3)联系现实世界的事物总是存在着这样或那样的联系联系表示方法:实体1实体2联系联系的类型设A,B为两个包含若干个体的总体•一对一联系如果对于A中的一个实体,B中至多有一个实体与其发生联系,反之,B中的每一实体至多对应A中一个实体,则称A与B是一对一联系。系系主任任职11病区科室主任任职11•一对多联系如果对于A中的每一实体,实体B中有一个以上实体与之发生联系,反之,B中的每一实体至多只能对应于A中的一个实体,则称A与B是一对多联系。AB联系1n教研室教师联系1n•多对多联系如果A中至少有一实体对应于B中一个以上实体,反之,B中也至少有一个实体对应于A中一个以上实体,则称A与B为多对多联系。AB联系mn教师学生教学mnE—R图绘制图书作者写作出版社类别页数ISBN*书名姓名出生地身份证号*定稿时间价格1、利用分类、聚集、概括等方法抽象出实体,并一一命名。2、描述实体之间的联系3、实体属性和联系属性的说明构造E-R图应注意的问题:1、注意标识实体属性中的关键字;2、如果所处理的对象是一个比较大的系统,则应该先画出各个部门的子E-R图,然后再合并同类实体,消除冗余。3、对于一个特定的应用处理对象,所构造的E-R模型可能不是唯一的。mn1m关系数据库概念模型的设计—ER模型4)关系数据库的数据模型设计—ER模型转化为关系模型E-R模型向关系模型的转换,实际上就是要将实体、属性和联系转化为关系模式,转换规则如下:(1)一个实体型转换为一个同名的关系模式。实体的属性就是关系的属性,实体的码就是关系的码。(2)一个1:1联系可以转换为一个独立的关系模式,也可以与任意一端对应的关系模式合并,该联系的码可以是任一端的实体的码。(3)一个1:n联系可以转换为一个独立的关系模式,也可以与n端对应的关系模式合并,则n端实体的码就是该联系的码。(4)一个m:n联系转换为一个关系模式,与该联系相连的各实体的码的集合就是该联系的码。(5)3个或3个以上实体间的一个多元联系转换为一个关系模式。(6)同一实体集的实体间的联系,即自联系,也可按上述1:1,1:n和m:n三种情况分别处理。(7)具有相同码的关系模式可以合并。4)关系数据库的数据模型设计—ER模型转化为关系模型实例S(SNO,SNAME,DEPT)学生姓名学号系别实例厂长号姓名年龄厂号厂名地点管理11厂长(厂长号,厂号,姓名,年龄)工厂(厂号,厂名,地点)工厂厂长仓库(仓库号,地点,面积)产品(货号,品名,价格,仓库号,数量)仓库号地点面积仓库货号品名价格产品存放1n数量实例学生(学号,姓名,年龄)课程(课程号,课程名,学时数)学习(学号,课程号,成绩)实例学号姓名年龄课程号课程名学时数nm成绩学生课程学习实例数据库设计在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。3.4数据仓库与商务智能一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在”尿布与啤酒“背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。3.4数据仓库与商务智能当前数据仓库和数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。结合武汉市房贷案例,说明房产、银行、民政等数据孤岛数据怎样实现整合。结合移动套餐、保险精算案例,说明数据分析挖掘的作用。3.4数据仓库与商务智能1)数据仓库与数据库何为数据仓库?前面提到的企业/单位投资信息化,他们不停上信息化系统,比如ERP、CRM、CallCenter、OA或者计费等。但上了这些系统后,会产生大量数据,客户首先的需求是查询和报表。但很多报表和查询是需要跨系统,而且复杂查询和报表很耗资源,可能影响各个系统的正常运行。于是上世纪80年代人们专门建设一个数据库系统,把各个系统的数据拿到那里进行准确的查询和报表制作,这样既方便又准备,而且不会影响业务系统。那么从这点说,数据仓库是全数据的集合。1)数据仓库与数据库何为数据仓库?数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。1)数据仓库与数据库数据库与数据仓库的区别数据库解决数据存储、查询以及自动记录;面向基本数据,实现数据的放进去、查出来;银行的基本业务,账目进出,报表,线性统计等;面向相对静止的数据,分析查询,面向应用方向使用目标不同了,宏观技术性强银行的储蓄、结算、分析2)数据中心何为数据中心?如果是针对具体的企业或者单位,其实就是业务系统数据存储技术+数据仓库数据中心要求不同来源、类型的数据集成在一起,综合分析,屏蔽掉多个接口的复杂性,实现公共信息平台的作用。2)数据中心何为数据中心?当然有的单位干脆只有数据仓库,比如科研单位,他们不作业务处理,只有分析需求。如果是互联网公司,就和普通企业和单位的数据中心不同,因为互联网的信息实在庞大,不可能包罗所有信息到数据库,也处理不了那么多信息,所以他们的数据中心的其中作用就是加强互联网数据的处理速度和效果;另一个作用也是数据仓库,但他们的数据仓库就不会包含所有互联网信息,而是企业本身关心的信息,当然数据量也非常大,一般十TB以上。3)数据迁移与清洗数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,成为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门
本文标题:管理信息系统-第3章
链接地址:https://www.777doc.com/doc-4929365 .html