- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 使用低成本存储和服务器构建 • 存放PB级别的海量数据 • 高可扩展性,实际生产环境扩展至4000个节点 • 高可靠性和容错性,数据自动复制 ,可自我修 复
• 高带宽,高并发访问 • 高级均衡算法,提高系统扩展性,适合不同配置 服务器组成的集群(只在intel版本中)
数据分布与复制 HDFS架构和读写操作
生成查询计划并派发
...
...
汇总执行结果
Network Interconnect
Segment节点 ...
...
执行查询计划及数据 存储管理
外部数据源
并行装载或导出
Intel Information Technology
分布式流式数据处理架构
Intel Information Technology
实时商务智能
内存数据库:SAP HANA、MonetDB
Oracle Exadata
一体机
IBM Netezza
Teradata …
核心业务 系统搬迁
大数据:Hadoop MPP DB …
Intel Information Technology
Scale-Up和scale-out应用
Advanced Analytics In-Memory DBMS CRM OLTP ERP Data Warehousing
workloads
Scale-Up
Single system High Performance,
Large Memory, individual Server
Scalability, Ease of Management &
High Availability
&
Hadoop/MapReduce Data Serving (NoSQL data stores) HPC Media Streaming Web Frontend Web Search
支持多维度分析的结构化详单存储
• MPP DB
− Vertica − Greenplum − Gbase − Infobright − PG-XD/XL
• 基于Scale out Storage的传统BI工具
− Exadata − Sybase IQ+Ceph − DB+HuaWei FusionStorage −…
Intel Information Technology
分析系统中典型架构配置
Intel Information Technology
结构化详单数据存储
• 分布式文件系统(HDFS)
− 群集内完整的名字空间 − 3个备份:数据自冗余
• 基于KV的NoSQL数据库HBase
− 基于HDFS存储的查询系统 − 系统的横向扩展能力好 − 适合于单键查询系统
Scale-out storage
Interconnect
DBE
DBE
DBE
DBE
Clustered Block Device Software
storage node
storage node
storage node
storage node
Intel Information Technology
Intel Information Technology
HDFS - 分布式文件系统
设计目标
• 错误检测和快速自动恢复 • 硬件故障是常态而非异常 • 为流式数据访问优化 • 支持大数据集 • 单个文件大小有数GB或者TB • 可提供高聚合带宽访问 • 可能够扩展至数千个节点 • 简化“一致性”模型 • 一次写入、多次读 • 移动“计算”比移动“数据”更便宜 主要特点
DU
CE
Intel Information Technology
MPP DB-
Greenplum/Vertica/Gbase
大规模并行处理 MPP (Massively Parallel Processing)
SQL MapReduce
无共享架构 Shared-Nothing
ArchitecMtuarsteer节点
e
e
Hadoop*
存储/计算
导出/导入
数据挖掘 数据仓库
数据访问 层
企业应用工具
数据集市
集成开发工具
Kafka Flume Goldengat e Shareplex ..
实时数据处理通道(Spark,Storm)
内存数百度文库库
NO SQL
非关系型数据 库
INSIGHTS
视觉化工 具
电子表格
应用
Web Apps MashUps
Virtualized Consolidation RISC Migration
Decision Support Large-Scale, Virtualized
Applications Enterprise-Critical Middleware Large memory, consolidation
Intel Information Technology
大数据分布式处理-批处理
• 为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇 总结果的计算框架
• 分析问题能够被并行化,且输入数据集可以被切分 • 一个Map函数,在第一阶段计算<Key,Value>对 • 一个Reduce函数,在第二阶段用于汇总Map函数的结果
纵向扩展架构适合于实时/高级的分析和数据驱动的负载类型
5
Intel Information Technology
当前典型的企业大数据配置架构
结构化 遗留系 统
日志 传感器
非结构化 社交 & 网络
传感器 传统文件 音视频
数据交换平台
消费
Create Map
数据存储计算平台
数据应用
Nod
Nod
Nod
e
Partitioned Input
D
A
T
A 10
Map(k,v) (k’,v’)
MAP MAP MAP MAP
Group (k’,v’) by k’
Grouped Intermediate Results (k’, v’[])
Reduce(k’, v’[]) v’’
RE
Aggregated Output
议程
大数据市场现状 未来大数据发展的一些趋势
1
Intel Information Technology
全球大数据市场
大数据未来3-5年还会有比较大的空间,服务为王
2
Intel Information Technology
3
Intel Information Technology
数据分析/大数据的几个方向