大数据技术介绍

  • 格式:pdf
  • 大小:3.94 MB
  • 文档页数:56

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Wordpress User
347 用户发表
篇文章
217名移动网络新
用户诞生
Website
571个新网站建立
1.1 大数据发展的背景
(1)数据爆炸
• 伴随着互联网、物联网、电子商务、社交媒体、现代物流、网络金融等行业的发展,全球数 据总量正呈几何级数增长,过去几年时间产生的数据总量超过了人类历史上的数据总和,预 计2020年全球数据总量将达到35.2ZB,人类将进入“泽它”(ZB)时代(1ZB=十万亿亿字节)
• 智能化:指的是数据使用方式的变化。“没有 解释就没有价值”。感知和互联并不是最终的 目的,数据只有经处理、分析和计算,从中提 取出有价值的东西,才能实现真正的价值。
1.1 大数据发展的背景
(3)大数据在各领域应用中逐渐崭露头角
传统的面向应用的开发模
大数据驱动业务发展
式逐渐被数据驱动 (DDD)的模式。大数 据引发了商业、科研、政
• Gartner公司:大数据是需要新护理模式才 能具有更强的决策力、洞察发现力和流程 优化的海量、高增长率和多样化的信息资 产。
• 美国国家标准技术研究院(NIST):数据 量大、获取速度快或形态多样的数据,难 以用传统关系型数据分析方法进行有效分 析,或者需要大规模的水平扩展才能高效 处理。
• 国际数据公司(IDC):从大数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快 速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),即所谓的4V特性。IBM 认为大数据还应该具有其真实性(Veracity)。
(高价值、低价值密度)Value
数据体量不断增大,单位数据的价 值密度不断降低,而数据的整体价
值在提高
1.4 大数据面临的问题
大数据问题分类 速度方面的问题
种类及架构问题 体量及灵活性问题
成本问题 价值挖掘问题 存储及安全问题
互联互通与数据共享问题
大数据问题描述 导入导出问题 统计分析问题 检索查询问题 实时响应问题
1.1 大数据发展的背景
(4)大数据成为各界争相鼓吹的概念
联合国
发布白皮书《大数据促发展:挑战与机遇》
2012.03
达沃斯论坛
发布报告《大数据,大影响》
Natuபைடு நூலகம்e
发布BigData专刊,请研究人员和企 业家预测大数据所带来的革新
2011.05
2012.07
奥巴马政府
投资两亿美元启动“大数据研究和发 展计划”
多源问题 异构问题 原系统的底层架构问题 线性扩展问题 动态调度问题 大机与小型服务器的成本对比 原有系统改造的成本把控 数据分析与挖掘问题 数据挖掘后的实际增效问题 结构与非结构 数据安全 隐私安全 数据标准与接口 共享协议 访问权限
PART TWO
大数据领域的关键技术
• 传统数据处理到大数据处理 • 数据采集、处理与存储 • 数据理解 • 数据分析与挖掘技术 • 总结
• 感知化:指数据源的变化。传感器、RFID标 签、芯片、摄像头遍布世界的各个角落,物理 世界中原本不能被感知的事物现在可以被感知, 它们通过各种技术被接入了互联网世界。
• 物联化:指的是数据传送方式的变化。继人与 人、人与机器的互联后,机器与机器之间的互 联成为当下的发展趋势。未来数据可能来自于 自行车、电器、道路、自来水管,甚至是食物 的包装盒。
用户分享3600张
照片
使用者寄送
204166667封
邮件
AppStore
APP被下载47000次
Flickr
用户新增3125张照片
Google
接受超过2000000次查询
Facebook
使用者上传700000条内

1分钟
Customer
在网络上消费272070美
元(双十一呵呵一笑)
YouTube
使用者上传48小时影片
Netflix精心打造纸牌屋 (Cinematch,AWS)
务、社会服务等领域的深
刻变革
大数据支持政务活动
奥巴马竞选中的民意预测 (存储和分析选民资料、
筹集资金、投放广告)
大数据增强社会服务能力
洛杉矶智能交通 (ATSAC,用感应器收集车 速、流量等信息,实时处理)
大数据提高商业决策水平
US Xpress的物流运输 (用大数据分析车辆状况, 对车辆人员进行合理调度)
纽约证券交易所 每天产生1TB的交易数据
Twitter 每天产生7TB的数据
欧洲物理实验室大 型例子对撞机
每年产生15PB的数据
淘宝 每天产生的数据超过 50TB
百度 拥有的数据总量超过 100PB
Facebook 每天产生的数据超过 100TB
1.1 大数据发展的背景
(2)感知化、物联化、智能化
大数据技术介绍
01 大数据概述 02 大数据领域的关键技术 03 大数据行业状况与典型应用 04 大数据产业的未来发展趋势
目录 CONTENT
PART ONE
大数据概述
• 大数据发展的背景 • 大数据的定义 • 大数据的特点 • 大数据面临的问题
Twitter
使用者发出超过100000
条内容
Instagram Email
2012.01 2008.09
麦肯锡
发布《大数据:创新、竞争力和生产 力的下一个前沿》,对大数据的影响 关键技术和应用领域进行了详细分析
1.2 大数据的定义
• 麦肯锡:大数据是指大小超出常规的数据库工 具获取、存储、管理和分析能力的数据集。 (并不是说一定要超过特定TB的数据集才能算 大数据)
• 维基百科:大数据指的是所涉及的资料量规模 巨大到无法透过目前主流软件工具,在合理时 间达到获取、管理、处理,并整理成帮助企业 经营决策更积极目的的资讯。
• 大数据处理框架 • Hadoop • Spark
2.1 传统数据处理到大数据处理
传统数据分析(数据挖掘、利用)的流程






*

0.1:4
279* 1:47FC?BA8 )* 0.0;&')* %&7/- ( $509 '( #&0,+* :<=@><D(7FC?BA+*8 '* &! 66 '("&7FC?BA(/ ( 8(3<E<'(&9-9(9799(5<C@<= '*
1.3 大数据的特点
Volume(巨量性)
数据体量巨大,数据规模已从GB到 TB到PB,甚至开始以EB和ZB计数。
(即时性)Velocity
数据产生、处理和分析速度在持续加 快,数据流量大,处理能力从批处理
转向流处理
Variety(多样性)
大数据类型复杂。大量异构数据, 多源数据,半结构化数据、非结构 化数据大量涌现