大数据综述

  • 格式:pdf
  • 大小:491.61 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509

Published Online October 2018 in Hans. /journal/csa

https:///10.12677/csa.2018.810163

Overview on Big Data

Kaiyue Liu

China University of Mining & Technology (Beijing), Beijing

Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018

Abstract

As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data.

Keywords

Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application

大数据综述

刘凯悦

中国矿业大学(北京),北京

收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日

摘要

大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

刘凯悦

关键词

大数据,数据存储,数据挖掘,数据可视化,大数据应用

Copyright © 2018 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

/licenses/by/4.0/

1. 引言

近几年,由于移动互联网、物联网、云计算等技术的迅速发展,产生了海量的大规模数据。数据爆炸将人们带入了一个新的时代——大数据时代,如何存储、处理批量数据已经成为一个值得研究和讨论的问题。大数据技术的迅速发展推动了社会进步,国内外的许多甚至高校开展了新的一门学科即数据科学。大数据可以应用到诸多领域,人们通过大数据技术获取海量数据,并对数据进行处理和分析,得到许多对未来具有研究和改进意义的结果。大数据对现代社会的发展做出的贡献千千万万,本文主要针对大数据的概念、技术、应用等各方面进行综合性描述。

2. 大数据基础

2.1. 大数据和传统数据库

数据库是按照数据结构来组织、存储和管理数据的仓库,在大数据这个概念出现以前,人们一直是应用数据库来存储和管理一些相对简单小型的数据。随着信息技术的发展和数据量的迅速增长,传统数据库在有些方面已经不能满足人们的需求,由此衍生出大数据这一概念。

大数据又称为巨量数据、海量数据、大资料等,是指无法在一定时间范围内通过人工或计算机进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。

大数据和传统数据库有许多区别:首先,从数据规模和类型来看,传统数据库通常是以MB为单位且数据种类单一。但从大数据的数据单位很大,通常以GB、TB、PB甚至EB、ZB为单位,且数据种类繁多;其次,从模式和数据关系来看,传统数据库是先有模式再产生数据的。而大数据很难预先确定模式,甚至有些时候模式是会随着数据量的增加而改变的;最后,从处理对象上来看,传统数据库中的数据仅仅作为处理对象。但大数据中是要将数据作为一种资源来帮助分析其他领域的诸多问题的。

2.2. 大数据的特性

大数据具有5V特性,即大量(Volume)、高速(Velocity)、多样(Variety)、价值密度低(Value)、真实性(Veracity)。

Volume,主要体现在数据存储量大和数据增量大。数据规模庞大是大数据最主要的特性,而随着云计算等技术的发展,数据量也不断在增长,数据量已从GB、TB再到PB字节,甚至已经开始以EB和ZB字节来计量[2]。

Velocity,高速性指的是数据的产生和处理速度快。数据可以通过社交媒体、定位系统等应用快速大量地产生。同时数据的处理速度也应加快,只有快速适时处理才可以更加有效的利用得到的数据。

Variety,多样化主要体现在格式多和来源多两个方面。大数据产生的数据类型繁多,其中包括结构