第十七课--数据仓库和数据集市

  • 格式:ppt
  • 大小:2.11 MB
  • 文档页数:35

下载文档原格式

  / 35
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四个维表Customer_Dim、Product_Dim、Employee_Dim及 Shipper_Dim的确定。 Orders及OrderDetails两个表中的外部键有CustomerID、 ProductID、EmployeeID及ShipperID。
25
任务一:设计Northwind数据库的星型模型
17
星型模式
定货表 定单号 定货日期
事实表
定单号 . . . 日期标识 . .
日期表
日期标识 日 月
18
雪花模式
维表进一步层次化,改善查询性能,增加表数量,增
加查询复杂性。
定货表
事实表
定单号 定货日期
定单号 . .
. 日期标识
.
.
日期表
日期标识 日 月



19
事实表
每一个事实表通常包含了处理所关心的一系列的度量 值。
经常发生变化 现实世界中新事件的发生-〉事实表中增加一条记录。 典型情况下,仅仅是数据的追加。
事实表的使用
各类度量值的聚类计算
21Байду номын сангаас
维表
每一张维表对应现实世界中的一个对象或者概念。
例如:客户、产品、日期、地区、商场
维表的特征
包含了众多描述性的列 维表的范围很宽(具有多个属性)
通常情况下,跟事实表相比,行数相对较少 通常<10万条
第十七课--数据仓库和数 据集市
2020年7月17日星期五
数据仓库和数据集市
目标
什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市
2
数据仓库的定义
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(NonVolation)、反映历史变化(Time Variant)的集合数据, 用于支持管理决策和信息的全局共享。
11
维度建模的相关概念
分析空间
数据仓库中一定量的数据,用于进行数据挖掘以发现新信息 同时支持管理决策。
切片
一种用来在数据仓库中将多个维度中的分析空间限制为数据 子集的技术。
星型模型
一种使用关系数据库实现多维分析空间的模型。
雪花模型
不管什么原因,当星型模型的维度需要进行规范化时,星型 模型就演化为雪花模型。
23
任务一:设计Northwind数据库的星型模型
设计分析
OLAP数据来源:Northwind数据库共有8个表,分别是Orders 、OrderDetails、Customers、Products、Categories、Employe es、Shippers及Suppliers。
Time_Dim时间维 Northwind销售系统的日期以Orders的出货日为事实的时 间,因此产生一个Time_Dim。
内容相对固定 几乎就是一类查找表
22
任务一:设计Northwind数据库的星型模型
解题步骤
定义OLAP的数据集市:包括使用星型模型或雪花模型。 事实的选择:通过事实表的共有特性及四种常见样式来选择
适当的事实种类。四种常见的事实样式为:事务事实、快照 事实、线性项目事实、事件/状态事实。 维的创建。 聚合体的设计。
设计分析
Product_Dim具有一个分层结构:产品类别,并且采用的是合 并维分层结构。 Northwind数据库Categories的CategoriesID与Products的Cate goriesID是一对多的关系,因此可以通过连接将Categories 的CategoriesName合并到Product_Dim中。 Northwind数据库Suppliers的SupplierID与Products的Supplier ID是一对多的关系,因此可以通过连接将Suppliers的Comp anyName合并到Product_Dim的供应商中。
24
任务一:设计Northwind数据库的星型模型
设计分析
事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及 Discount。可以推算出事实所需要的度量值:运费、销售 金额、销售数量和折扣。
每一个事实表的行包括:
具有可加性的数值型的度量值。 文本事实通常具有不可预见的内容,很难进行分析。
与维表相连接的外键。 通常具有两个和两个以外的外键。 外键之间表示维表之间多对多的关系。
20
事实表
事实表的特征
非常大 包含几百几千条甚至几万、几十万的记录。
内容相对的窄 列数较少
5
相对稳定的
数据仓库中一般有大量的查询操作,但修改和删除操 作很少,通常只需要定期的加载、刷新。
6
反映历史变化的
数据仓库中的数据通常包含历史信息,系统记录了企 业从过去某一时点(如开始应用数据仓库的时点)到 目前的各个阶段的信息,通过这些信息,可以对企业 的发展历程和未来趋势做出定量分析和预测。
--W.H.Inmon
3
面向主题的
数据仓库是面向不同的主题域进行组织。一个主题通 常与多个操作型信息系统相关。
4
集成的
数据仓库中的数据是在对原有分散的数据库数据抽取 、清理的基础上经过系统加工、汇总和整理得到的, 必须消除源数据中的不一致性,以保证数据仓库内的 信息是关于整个企业的一致的全局信息。
7
数据仓库系统体系结构
8
数据仓库系统体系结构
数据源 数据存储及管理 OLAP引擎 前端工具
9
操作数据库与数据仓库的区别
操作数据库系统的主要任务是联机事务处理OLTP。 数据仓库在数据分析和决策方面为用户提供服务,这
种系统称为联机分析处理OLAP。
10
维度建模的相关概念
数据仓库 数据集市 事实 维度 数据挖掘
12
多维数据模型
一种非规范化的关系模型。
由一组属性构成的表所组成。 表跟表之间的关系通过关键字和外键来定义。
以良好的可理解性和方便的产生报表来进行数据组织 ,很少考虑修改的性能。
通过SQL或者相关的工具实现数据的查询和维护。
13
多维数据模型
数据仓库和OLAP工具基于多维数据模型,该模型将数 据看作数据立方体形式。
数据立方体允许以多维对数据建模和观察。
一个具有 x、y、z 维度的方块
14
多维数据模型的组成
维 事实 数据立方体
15
多维数据模型举例
关系表与多维Cube
16
多维建模技术
星型和雪花模式是主要的存在形式。
星型模式包含一个大的包含大批数据的事实表和一系列维表。 雪花模式是星型模式的变种,不同的是将某些维表规范化。