- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在Hadoop大数据平台不同环节采 用不同的安全保障技术,保证整
体系统的安全性
数据科学
Institute of Software,Chinese Academy of Sciences
数据经济
Institute of Software,Chinese Academy of Sciences
Institute of Software,Chinese Academy of Sciences
包括5名研究员/博导,14名副研究员,17人具有博士学位
学科方向:网络分布计算与软件工程
网络分布式计算(面向云计算、移动互联网、服务计算等
大数据计算
软件工程(面向云计算、移动互联网、服务计算等)
移动和普适计算
网驰中间件平台
Institute of Software,Chinese Academy of Sciences
数据密集 应用
文件密集 应用
流式处理 应用
移动 应用
虚拟化共享的分布式软硬件设施 + 海量信息数据
网驰2.0的主要工作
Institute of Software,Chinese Academy of Sciences
大数据关键技术
大数据存储
如何存取与管理大数据
大数据处理
如何高效地在数据上进行计算
大数据分析
如何从大数据上获取到有用知识
Institute of Software,Chinese Academy of Sciences
大数据存储方式
Institute of Software,Chinese Academy of Sciences
价值 等
大数据潜在的业务应用领域
Institute of Software,Chinese Academy of Sciences
2013-2015,医疗相关的大数据应用规模年度复合增长率将达到111.3%
医疗大数据案例-疾病预防
Institute of Software,Chinese Academy of Sciences
数据类型决定存储方案
普通文件(分布式文件系统) 关系型数据(数据库或数据仓库) 非结构化(KeyValue数据库,分布式文件系统) 图(图数据库,分布式文件系统)
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库 NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,
网驰(ONCE)2.0
Institute of Software,Chinese Academy of Sciences
ONCE2.0—面向移动互联网、大数据、云计算等新技术趋势,融合虚拟
化、并行计算、内存计算技术,具有云端融合、应用感知等特点
事务密集 应用
开放环境下、丌可预估的用户规模 + 异构多终端
6
大数据应用:互联网与电子商务
Institute of Software,Chinese Academy of Sciences
2014/1/14
7
大数据应用:金融
来自银行的数据
Institute of Software,Chinese Academy of Sciences
来自网络的数据
某位信用卡客户月均刷卡6次,平均 每次刷卡金额500元,平均每年打3 次客服电话,从未有过投诉,按照 传统的数据分析,该客户是一位满 意度较高、流失风险较低的客户。
2014/1/14
4
数据呈爆炸式的增长
EB ZB
PB
TB
GB
Institute of Software,Chinese Academy of Sciences
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量
三. 我们的工作及案例
中心历叱
Institute of Software,Chinese Academy of Sciences
中国科学院软件研究所,软件工程技术研究中心 创建于1997年,初始名称为“对象技术中心”,
2002年更名为“软件工程技术研究中心”
人员规模:110余人,其中职工40人,流动人员70人
通过交互式视觉表现的方式帮助人们探索和解释复杂
数据
可视化是一个交互与循环往复的过程
2014/1/14
24
大数据可视化
Institute of Software,Chinese Academy of Sciences
数据安全与隐私保护
Institute of Softห้องสมุดไป่ตู้are,Chinese Academy of Sciences
如何便捷、尽早地诊断早期疾病是医学界的一大课题,Seton医
疗机构目前已经能借助大数据做到这一点。
例如充血性心脏衰竭的治疗费用非常高昂,通过数据分析,
Seton的一个团队发现颈静脉曲张是导致充血性心脏衰竭的高危 因素,而颈静脉曲张的诊断几乎没有什么成本
http://www.199it.com/archives/59439.html
中到云端,医生可通过语义搜索查找任何病历中的相关信息。
http://www.199it.com/arc hives/59439.html
医疗大数据案例-患者互助
Institute of Software,Chinese Academy of Sciences
社交网站PatientsLikeMe允许用户分享他们的治疗信息,用户
• 检验结果,、费用数据、影像、设备产生的感应数据、基因数据等
数据量
• 结构化数据
类型 • 非结构化数据,,如口述、手写、影像、病理等
速度
• 数据分析往往不是传统的批量处理分析,对于实时运行中的每个时间节点都 会产生影响
• 数据以流的方式进入系统,进行抽取和分析
• 通过对数据进行分析,获取新的知识,拓展新的业务:如实时临床决策支持
通过查看该客户的微博,得到的真 实情况是:工资卡和信用卡不在同 一家银行,还款不方便,好几次打 客服电话没接通,客户多次在微博 上抱怨,该客户流失风险较高。
2014/1/14
8
Institute of Software,Chinese Academy of Sciences
医疗行业的数据具有典型的大数据特征
• 在2006 年,全球一共新产生了约180EB的数据 • 在2011 年,这个数字达到了1.8ZB • 到2020 年,数据总量将会增长44 倍,达到35.2ZB,也就是350亿TB
5
大数据的4V特征
大量化 Volume
快速化 Velocity
多样化 Variety
价值密度低 Value
Institute of Software,Chinese Academy of Sciences
MongoDB
大数据处理技术
Institute of Software,Chinese Academy of Sciences
批处理
主要使用MapReduce或者DAG数据流方法
流处理
数据实时流入进行处理并更新状态
时间窗口数据累积后进行批处理
迭代处理
将迭代处理转换为批处理,利用内存进行加速
Institute of Software,Chinese Academy of Sciences
大数据分析关键技术及 在医疗领域的应用
汇报人:钟华 中国科学院软件研究所
2014年1月11日
提纲 一.大数据行业应用 二.大数据分析关键技术 三.我们的工作及案例
Institute of Software,Chinese Academy of Sciences
MongoDB
大数据存储-数据库
SQL NoSQL、 NewSQL、 面向不同需 求,选择不 同的数据库
2014/1/14
Institute of Software,Chinese Academy of Sciences
19
大数据存储技术
扩展性
Master-Slave架构,无中心架构
存储方案
数据分析 数据处理
日志分析,数据挖掘,机器学习,关系图分析,实时数据分析 传统统计方法,机器学习算法分布式化,Deep Learning
批处理,流处理,增量处理,迭代处理,图处理 MapReduce范型,BSP模型,DAG数据流
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库
基础设施 传统集群技术,云计算与虚拟化技术,异构集群技术(CPU+GPU)
数据分块,数据库分库分表
数据一致性
强一致性,最终一致性
错误容忍
复制多份,日志回滚
Institute of Software,Chinese Academy of Sciences
数据存储
网络文件系统,关系数据库,分布式文件系统,NoSQL数据库 NFS,MySQL,GFS/HDFS,BigTable/HBase,Dynamo,
扩展性
大任务分解成多个小任务,任务可在不同机器上执行
数据模型
Key-Value,节点——边
任务调度
FIFO,公平调度
错误容忍
中间数据进行持久化
任务失败自动重新执行
数据处理
批处理,流处理,增量处理,迭代处理,图处理 Hadoop MapReduce, Spark, Dryad, Storm, GraphLab
大数据分析技术
Institute of Software,Chinese Academy of Sciences
小数据上的分析算法较成熟
回归,分类,聚类,神经网络,协同过滤等
大数据上分析算法主要来自上面方法
一些算法可以用MapReduce表达
迭代型算法可以用基于内存的框架如Spark,进行加速
图处理
将大图划分为子图处理:按节点划分或按边划分
使用MapReduce或BSP等范型进行处理
数据处理
批处理,流处理,增量处理,迭代处理,图处理 Hadoop MapReduce, Spark, Dryad, Storm, GraphLab
大数据处理技术
Institute of Software,Chinese Academy of Sciences
医疗大数据案例-语义搜索
Institute of Software,Chinese Academy of Sciences
医生需要了解一位新来的病人,或者想知道新治疗手段对哪些
病人有效。但是病人病历散布在医院的各个部门,格式各异, 更糟糕的是,各部门都用自己的术语创建病历。
一家创业公司Apixio正在试图解决这个问题,Apixio将病历集
Institute of Software,Chinese Academy of Sciences
一.大数据行业应用
Institute of Software,Chinese Academy of Sciences
互联网时代人们从信息的被动接受者变成了主动创造者
• 全球每秒钟发送 2.9 百万封电子邮件 • 每天会有 2.88 万个小时的视频上传到Youtube • 推特上每天发布 5 千万条消息 • 每天亚马逊上将产生 6.3 百万笔订单… • 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和 接收的数据高达1.3EB… • Google 上每天需要处理24PB 的数据…
二. 大数据分析关键技术
大数据技术体系
Institute of Software,Chinese Academy of Sciences
角色
15
[南京大学 黄宜华]
大数据关键技术
Institute of Software,Chinese Academy of Sciences
上层应用
互联网,电信,金融,医药,公安,科学研究等 网页检索与排名,社交网络分析,商品推荐,商业智能,自然语言处理
也能从相似的患者的信息中发现更加符合自身情况的治疗手段 。
PatientsLikeme还能基于用户自愿分享的数据进行观测性实验
,而传统方式的临床实验通常比较昂贵
http://www.199it.com/archives/59439.html
Institute of Software,Chinese Academy of Sciences
新算法新系统
Deep Learning技术可以从大数据中抽取有用特征
Google,百度等设计专门的分布式系统来处理
数据分析
日志分析,数据挖掘,机器学习,关系图分析,实时数据分析 统计方法,机器学习算法分布式化,Deep Learning
大数据可视化
Institute of Software,Chinese Academy of Sciences