大数据关键技术和在农业中的可能应用
- 格式:doc
- 大小:510.50 KB
- 文档页数:3
中国农业大学
课程论文(2014-2015学年秋季学期)
大数据关键技术和在农业上的可能应用大数据就是大交易数据、大交互数据和大数据处理的总称。大数据带来了信息技术的变化,表现在数据处理方法由原来的收集、精选变为生成、粗筛,数据模型因大量的数据变得简单,利用集群的计算模式和高效并发的存储方式。
大数据的基本处理流程如下,
(1)采集。利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,特点和挑战是并发系数高;
(2)导入/预处理。将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。特点和挑战是导入数据量大。
(3)统计/分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)挖掘。基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求,特点和挑战是算法复杂,并且计算涉及的数据量和计算量都大。
大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
一大数据关键技术
1.云计算
如果说云计算改变了IT,那么大数据则改变了业务。通过大数据的业务需求,为云计算的落地找到了实际应用。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
2.采集技术
与传统数据采集相比,大数据技术在数据采集方面采用了一些新的方法。1)系统日志采集方法。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。2)网络数据采集方法:对非结构化数据的采集。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。3)其他数据采集方法。对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
3.存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL 数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。不同类型的NoSQL数据库具有不同的数据存储模型,数据间的关联关系和索引方式各部相同,分别使用不同应用的需要。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。总体而言,非关系型数据库引擎关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。
4.数据挖掘
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。利用数据挖掘进行数据分析常用的方法主要有,1)分类。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。2)回归分析。回归分析方法反应的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。3)聚类。聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定
义好的类,不需要训练集。4)关联规则。关联规则是描述数据库数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。5)特征。特征分析是从一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。6)变化和偏差分析。目的是为了寻找观察结果与参照量之间有意义的差别。7)Web页挖掘。网页上的信息量无比丰富,通过对Web的挖掘,收集各种有关数据,分析这类数据以获得重要信息。
二大数据关键技术在农业上的可能应用
有了这些关键技术的支撑,大数据的应用涉及很多领域。农业大数据涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等各环节,多类型复杂数据采集、挖掘、处理、分析与应用等问题。下面简单介绍一下大数据关键技术在农业上可能的应用。
各种农产品生产基地都通过摄像头、传感器等采集设备采集了生产基地的各项数据指标,如温度、光照等,要求不仅能在手机上即时显示,还能查看以前的相关数据,这两种功能的实现技术已非常成熟,但是让手机客商通过这些数据做出农产品生产计划确是关乎数据挖掘与分析技术的,如果找出了其中的生产规律,那将会给生产带来很大的效益。一个比较典型的例子就是农场云端管理服务商Farmeron。农民可在其网站上利用这款软件,记录和跟踪自己饲养畜牧的情况(饲料库存、消耗和花费,畜牧的出生、死亡、产奶等信息,还有农场的收支信息)。其可贵之处在于:Farmeron帮着农场主将支离破碎的农业生产记录整理到一起,用先进的分析工具和报告有针对性地监测分析农场及生产状况,有利于农场主科学地制定农业生产计划。
大数据在农业生产中的应用和案例还不远如此。随着大数据与农业的深度融合发展,以前依靠传统方法不能解决的诸多问题也会迎刃而解。当大数据在IT行业风生水起之时,传统行业的应用也许才是大数据的落地所在。