文档之家
首页
教学研究
幼儿教育
高等教育
外语考试
建筑/土木
经管营销
自然科学
当前位置:
文档之家
›
大数据及相关技术介绍
大数据及相关技术介绍
格式:ppt
大小:1.13 MB
文档页数:43
下载文档原格式
下载原文件
/ 43
下载本文档
合集下载
下载提示
文本预览
1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据应用场景
• 大数据的很多应用场景之前就有,未必是因为大数据才兴起的,而是随着 大数据技术而逐步完善的
• 过去是有心无力(有想法,无技术),现在是既有心又有力(有想法,有 技术)
大数据应用场景
多角度分析买家、 卖家和商品
大数据应用场景
商品推荐
大数据应用场景
实时分析交易额
大数据应用场景
• 饿了么通过分析晚上的外卖,得出某某地方加班最多 • farecast通过分析常年历史数据,得出某某日期机票最便宜(可惜微软将其
小数据时代,精心设计的算法模型在大数据时代已经没有必要了,好的算法模型和 不好的算法模型在大数据面前已经没有明显差距了
•不是精确性,而是混杂性ቤተ መጻሕፍቲ ባይዱ
因为数据量巨大,不准确的数据并不会对最终结果产生重大影响,相反在小数据时 代,一个不准确的数字可能带来灾难性结果
•不是因果关系,而是相关关系
事件万物都相互关联,但是没有必要苛求为什么关联,只要知道能关联就可以了 例子:1)沃尔玛在飓风之前将手电筒和蛋挞放到一起销售
mesos:只是做资源调度,不做任务调度
• 多个mesos master通过zookeeper选举出leader • leader下发任务到mesos slave • 一个mesos slave可以执行多个任务
marathon:基于mesos的任务调度平台
• 基于mesos的任务调度 • marathon适合启动会长期的、始终运行的任务,如果任务终止说明任务出现问题,
• 为了防止master单点故障,可以配置多个master,如图中有三个master • 多个master中只有一个对外提供功能,该master称为leader • 除leader外的其他master,作为备份,同步leader的数据,当leader失效
后接管leader工作,并变为leader
zookeeper
marathon会重新启动任务,即marathon会确保任务始终得到执行(类比下p003中的 sigcuggio.bin) • marathon根据资源使用情况动态安排任务到某个mesos slave,每个任务在执行之前是不 知道它将来在哪一台服务器上执行
chronos:基于Mesos的任务调度平台
Docker解决的问题
• 可以简化部署多种应用实例工作,比如Web应用、后台应用、数据库 应用、大数据应用比如Hadoop集群、消息队列等等都可以打包成一 个Image部署
组成docker后,后续 的部署再也不需要繁 琐的步骤,直接运行 docker就可以了,否 则每个服务器都需要 按照手操一步一步执 行
• zookeeper是分布式应用程序协调服务,为分布式应用提供一致性的 服务,提供的功能包括:配置维护、名字服务、分布式同步、组服 务
• zookeeper通常用来进行选举leader。想想前面多个master之间选举 leader
• 实际上zookeeper能做的事情很多, 选举leader只是其中之一
关闭) • 交管局通过分析实时交通数据,有效疏导客流,安排车辆
大数据应用场景
• 凡是数据量非常大的地方, 都是大数据的应用场景 • 通过大数据分析,能够获取很多结论和预测
大数据相关技术
• 分布式基本框架 • zookeeper(竞争选举) • mesos(资源管理) • marathon(调度管理) • chronos(调度管理) • docker(虚拟化,进程管理,应用发布) • hadoop(分布式计算系统,文件系统) • HBase(数据库) • Spark(更快的集群计算系统) • 还有很多,不再举例
分布式基本框架
1)多台服务器和PC主机通过网络相连 2)多台服务器协同完成工作,管理员通过主机访问、控制服务器集群 3)多个服务器必然有主服务器(master)和从服务器(slave) 4)主服务器收集各个从服务器的工作状态,下发工作命令 5)管理员通过PC主机将命令下发到主服务器
分布式基本框架
大数据及相关技术介绍
大数据与相关技术简介
云•安全事业部
李鹏 2016-01
目录
• 什么是大数据 • 大数据应用场景 • 大数据的相关技术
什么是大数据
• 大数据就是数据量大,很大,非常大 • 因为数据量大,所以可以用来做很多事情,或者是用来将很多事情
做得更好一些
什么是大数据
•不是随机样本,而是全体数据
Docker解决的问题
• 虚拟化手段的变化: 云时代采用标配硬件来降低成本,采用虚拟化 手段来满足用户按需分配的资源需求以及保证可用性和隔离性
可以类比下VM
docker vs VM
• docker更轻量级 • docker启动速度快 • docker部署更容易
hadoop
• 开源的、可靠的、可扩展的、分布式的计算系统 • hadoop包含下述模块
和marathon区别:
1)chronos适合执行短期的任务,即任务在执行完毕后会主动退出 2)chronos可以定时执行某个任务
以上两点可以和定时器做下类比
3)支持通过某个完成的任务来触发新任务
docker:Build,Ship,and Run Any App,Anywhere
•Docker提供了一种在安全、可重复的环境中自动部署软件的 方式,它的出现拉开了基于云计算平台发布产品方式的变革 序幕 •Docker Containers as a Service (CaaS) •Docker使得软件开发、运维变得更容易,通过建立docker镜 像,发布docker,可以方便的在任何地方运行基于docker的 分布式应用程序
1)Utilities:基础工具模块,比如hadoop的基本命令程序 2)HDFS:Hadoop Distribted File System,分布式文件系统,具有 高容错性,和高吞吐性的特点 3)YARN:Yet Another Resource Negotiator,任务调度和集群资源 管理框架 4)MapReduce:基于YARN的,并行处理大数据的系统
hadoop-HDFS
这里看下简化模型
我要存东西
命令响应者:
1)负责响应命令 2)负责管理文件存在哪 里
相关主题
大数据技术基础介绍
大数据技术基础
大数据技术及应用
大数据技术与应用
大数据应用技术介绍
大数据技术介绍
文档推荐
行业大数据技术架构介绍
页数:25
大数据应用技术课程介绍
页数:6
大数据技术介绍
页数:56
大数据技术介绍PPT
页数:8
大数据技术介绍
页数:56
大数据技术介绍和应用方案
页数:18
大数据技术简介(入门)
页数:18
大数据基础技术概述
页数:42
大数据产品技术介绍(二)
页数:37
新技术基础知识介绍大数据
页数:18
最新文档
明德小学学校与班主任安全责任书
吴征宇关于转介绍答疑
九年级英语中考试题四
一个焦头烂额的律所主任的自白
广东省2016年下半年中西医结合执业医师儿科学:婴儿护养2014-08-06考试题
少先队活动课程指导 纲要 总则
最新-深入推进一法三卡工作 着力提高工会劳动保护水平 精品
爸,我为您画张像
初中七年级语文下册第6课《最后一课》教学设计新人教版
十二章 第5课时 物质的比热容及应用