- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
并行数据服务器(2)
• 多处理机结构
– 通过高速通信介质连接多个可独立处理的单 元
– 通过分配,查询 操作和子操作到不同的处理 单元, 以并行执行方式完成互连查询, 内部查 询, 及各种内部操作
11
并行数据服务器(3)
• 类型
– 完全共享资源结构
• 对每个数据项的存取都要经过公共通信线路,引 起通信瓶颈
第十章 分布式数据库发展趋势
1
概述
• DDBS环境
– 站点:网络中每个站点是即运行应用程序又 运行DDBMS的通用计算机
– 网络:WAN与LAN – 数据模型:RDBMS
• 新应用需求
– 高性能工作站(专用工作站) – 并行计算机 – CAD/CAM, OIS, AI
2
数据服务器(1)
• 70年代的数据库机, 现代的数据服务器
– 数据管理功能从主机的CPU任务中剥离
• 数据服务器的优势
– 功能专一
– 专用OS, DBMS与OS紧耦合, 提高DBMS的总体性能
– 适于现实世界的分布环境
– 充分利用先进的硬件体系结构
• 缺点
– 额外的通信开销
因此要求服务器提供较高层次的接口, 关系模型操作是
面向集合的操作, 所以成为服务器模型的首选
• 站点间高速网互连, 传输代价小, 可以调节站点间 工作负载
– 各站点地位不同
• 不存在全局应用和局部应用 • 各站点完全不独立, 处理时只能发挥协同作用, 无
局部应用
16
并行数据服务器(6)
• 数据定位方法
– 全分簇
片段分布到系统中所有有磁盘的站点
• 散列算法分片
查询时, 与选择属性精确匹配的子查询得以在一个站 点上处理, 所有其它子查询在其他站点处理, 适于大 范围多用户工作负载
– 第二级索引进一步映射值E5到站点j
19
关于关系名的索引
……
……
P
Biblioteka Baidu
E
站点1 (E1至E2)
……
关系E中 关于ENO的索引
……
站点j (E3至E6)
全局索引例子
G
站点n (E7至E8)
20
并行数据服务器(9)
• 本地索引(次簇索引)
– 映射一个关系到站点的一组磁盘块上 – 类似于全局索引 – 第一级关于关系名 – 第二级关于属性索引(映射簇值E5到91磁盘块)
• 实验结果
– 短事务负载下, 分簇数量增加, 事务吞吐量增加 – 多连接复杂事务负载下, 太细分簇降低吞吐量
21
关于关系名的索引
……
……
P
E
G
磁盘块24 (E3至E4)
关系E中 关于ENO的索引
……
磁盘块91 (E5至E6)
在站点j上的本地索引例子
18
并行数据服务器(8)
• 例: 工程数据库
E(ENO, ENAME, DEPT, TITLE) S(TITLE, SAL) J(JNO, JNAME, BUDGET) G(ENO, JNO, RESP, DUR)
• 全局索引(查询ENO=‘E5’)
– 第一级关于关系名索引映射到E关系的ENO 属性索引
• 综合查询或减少系统总体运行代价
– 程序应在数据存储的站点上运行 – DDBS中DBA根据对片段的使用情况检测, 进
行调整, 包括移动片段和重组
15
并行数据服务器(5)
• 并行数据服务与DDBS的不同
– 应用目标不同
• 并行中用户不专门使用某个站点, 所以不要求最 大化本地性处理
– 实现方式不同
3
用户
用户
用户接口
应用服务器
查询处理
与数据库服务器接口
网络通信信道 与应用服务器接口 数据服务器 数据库功能
DB
DB
数据服务器方案
4
数据服务器(2)
• 集中式服务器结构
– 明确分工, 减少工作站与服务器之间的通信 – 工作站对语言预处理(完整性检查, 安全控制) – 工作站能访问数据目录 – 服务器管理和更新目录, 工作站只读目录 – 优化DBMS和OS(软方法), 或者使用多处
7
数据服务器(4)
– 数据服务器专门用于分布式和集中式 数据库管理
• 在传统机器结构上,在分布式OS之上执 行DBMS和分布式DBMS
• 基于特定计算机系统结构实现分布式数据 库操作系统
8
工作站 ……
逻辑通信网络
数据服务器1 接口
分布式DBMS 局部管理功能
数据服务器n 接口
…… 分布式DBMS 局部管理功能
…
内存1 内存n
13
高速互联总线 处理机1 …… 处理机n 内存1 …… 内存n
磁盘1
……
磁盘n
完全不共享资源系统结构 14
并行数据服务器(4)
• 并行数据服务器数据定位
– 类似于分布式数据库中的数据片段定位 – 分簇(Declustering) 数据的水平分片
• 提高响应速度和内存查询并行度
– 聚簇(Clustering) 聚集关系的片段
复杂查询(多个连接)时, 聚簇方法较好
– 可变分簇
依据“分簇度”对关系分片, 分簇度是关系数
据分片的站点数量, 是关系大小和存取频率的
函数
17
并行数据服务器(7)
• 关联查询
– 传统关联存取是由查询处理器在编译时利用 数据目录完成
– 并行系统中, 采用“全局索引”复制到每一个 站点
• 全局索引
– 能确定关系在各站点分布的二级索引 – 主聚簇 关于关系名 – 次聚簇 关于关系中的某些属性 – 基于散列法或B树实现
DB … DB
DB … DB
分布式服务器结构
9
并行数据服务器(1)
• 冯.诺依曼型计算机结构的局限
– 应用中存在内在的可并行处理特性
关系操作本身的可并行性, JOIN中的多个子 查询, 单个查询中的多步操作
– 数据库管理性能受到I/O瓶颈的影响
• 内存速度比硬盘速度快1000倍 • 增加带宽提高磁盘存取的并行性 • 使用并行可存取的多个小磁盘
• 类似于集中式DBMS,差别是数据库操作可以并行 处理
– 完全不共享资源结构
• 高功能计算机系统可以由多个较小的系统替代 • 每个站点都要实现全局数据目录,分布数据定义
和控制,分布查询处理和分布式事务管理 • 站点不能运行应用程序
12
处理机1 …… 处理机n 高速互联总线
磁盘1
……
磁盘n
完全共享资源系统结构
理机(硬方法)解决服务器瓶颈问题
5
工作站 ……
数据服务器
逻辑通信网络 接口 数据库功能
DB … DB
集中式服务器结构
6
数据服务器(3)
• 分布式服务器结构
– 两种查询处理方式
• 数据查询先提交到本地服务器,由其 负责所有的分布查询处理
• 每个应用服务器上也都可以有分布式 查询处理器和数据目录操作器,直接 访问远程数据服务器