基于时空数据挖掘的案事件时空分析研究开题报告
- 格式:doc
- 大小:324.50 KB
- 文档页数:18
如文档对您有帮助,欢迎下载支持,谢谢!
福州大学硕士研究生论文开题报告
一、论文选题依据(包括本课题国内外研究现状述评,研究的理论与实际意义,对科技、经济和社会发展的作用等)
1. 选题依据
1.1研究背景
上世纪90年代以来,为适应全球信息高速公路建设的潮流,我国先后启动了面向政府办公业务的十二个重点信息应用系统工程,简称“十二金工程”[1]。公安信息化工程(即“金盾工程”)就是其中重要的业务系统之一。经过十几年的发展,基本实现了以全国犯罪信息中心(CCIC)为核心,以各项公安业务应用为基础的信息共享和综合利用,为各项公安工作提供强有力的信息支持。与此同时,公安信息系统中也积累了海量的业务信息,其中案事件信息达数百万条,且以每年100至120万条的速度递增[2]。
然而,面对日益庞大的案事件信息和日趋复杂的犯罪形势,以传统的查询、统计等方法和技术很难发现其中隐藏的关联、规律和发展趋势,数据丰富而知识贫乏在相当程度上制约了打击预防犯罪工作的开展。近年来,大数据成为新的创新、竞争和生产力的前沿领域,基于案事件全量大数据的获取、组织、管理和利用为解决上述问题提供了机遇,提出了挑战。因此,利用案事件大数据,分析、挖掘犯罪在空间和时间上的分布规律和变化趋势,获得其隐含的知识和洞察力,为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据,从而增强公安部门打击预防犯罪的能力,提高警务决策水平,具有重要的意义。
1.2 研究意义
案事件的发生与所处的社会、经济、人口和环境之间构成一个复杂系统[3-4]。犯罪问题也是一个复杂的社会问题,受社会环境、经济、人口、文化、心理等多种因素的共同影响,所以可以认为案事件在微观上的技术、手段和宏观上的时空分布规律的变化存在着所处社会环境的表征。以边沁(Jeremy Bentham)为代表的古典犯罪学派和犯罪学之父龙勃罗梭(Cesare Lombroso)开创的实证学派都对犯罪成因做了相关研究。菲利(Enrico Ferri)还系统提出了犯罪原因三元论:人类学因素、自然因素和社会因素[5],李斯特(Frantz von Liszt)认为自然因素只是社会因素的一种,主张二元论,即社会因素和个人因素[6]。这些理论只能定性地说明和解释犯罪行为产生的原因,包括现代犯罪成因研究采用多元回归等统计方法建立的各种犯罪学模型也只能在一定意义上验证已有理论,定量解释和预测较大时间、空间跨度下犯罪行为的变化趋势[7],且具有一定的滞后性,而对于小范围、中短期警务决策所起的作用微乎其微。
以往对案事件的分布研究主要集中于对犯罪空间集聚情况的识别与探测,对时间信息没有充分利用和深度挖掘[8-9],越来越多的研究者发现,案事件从大时间尺度到小时间尺度都表现出一些季节性、周期性甚至是昼夜更替的时间分布特征,犯罪时空分布研究领域也越来越受到关注[10]。时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,揭示时空数据中的有价
值知识[11]。基于时空数据挖掘技术,从空间与时间视角观察犯罪问题,揭示其时空分布模式及内在关系,并探索案事件中短期分布预测方法,运用后期数据验证预测的准确性,使犯罪预防控制成为可能。本文的研究将为案事件大数据分析应用研究提供经验和和思路,具有一定的理论意义与较大的实用价值。
2. 文献综述
2.1 数据挖掘概述
数据挖掘(data mining)是数据库知识发现(knowledge discovery in database, KDD)不可缺少的一部分,融合了数据库技术、机器学习、统计学、信息科学、可视化技术等多领域的理论和技术。数据挖掘是从海量、高维和复杂的原始数据中自动的发现隐含规律和潜在的有用信息,抽取出模式并进行预测,以提供决策支持的过程[12-13]。
一般说来,数据挖掘可以分为四个步骤:(1)将与研究问题相关的数据库数据、数据仓库数据和事务数据进行预处理,实现数据的整合;(2)综合利用数据挖掘中的各种分类、关联、聚类、异常检测方法进行数据分析和模式提取,获得描述性(descriptive)和预测性(predictive)的知识;(3)利用可视化技术表达挖掘过程和结果,形象地解释研究对象的特征、关系以及演变规律;(4)对数据挖掘的结果进行分析与评估。
从1995年美国计算机年会(ACM)上正式提出“数据挖掘”这个概念以来,学术界对数据挖掘和知识发现理论与方法的研究已日臻成熟,相关学术会议不断推动着研究的交流与发展,具有代表性的如:ACM SIGKDD知识发现与数据挖掘国际会议(KDD)、IEEE数据挖掘国际会议(ICDM)、SIAM数据挖掘国际会议(SDM)等。随着大数据时代的来临,越来越多的商业应用成为推动数据挖掘技术发展的关键因素,涉及零售业、金融业、电信业、互联网、医疗等领域。近年来,数据挖掘技术研究得到迅猛发展,新的技术方法不断涌现,跨学科的综合应用使得数据挖掘扩展到很多新的研究领域。数据流挖掘技术、时空数据挖掘技术、移动对象挖掘技术、Web挖掘技术、社交网络分析和图挖掘研究等正逐渐成为数据挖掘领域的研究热点[14]。
2.2 时空数据挖掘研究现状
空间位置、属性特征和时域特征是地理空间分析的三大基本要素,同时也是时空数据的基本特征[15]。时空数据是对现实世界中时空特征和过程的抽象概括[16]。随着3S(GPS、GIS、RS)技术、传感器技术、移动通信和互联网技术的飞速发展,人类积累了海量的时空数据,这些数据呈现出复杂的时空关系。根据数据挖掘的定义,并结合时空数据的特征我们可以将时空数据挖掘可以定义为:从组织具有海量、不完全、高维、随机、有噪声和非线性等特征的时空数据出发,利用各种数据分析方法、技术和模型,提取出隐含的、潜在有用的隐式或显式知识的过程。
时空数据挖掘的研究融合了空间数据挖掘和时态数据挖掘的理论和方法,以传统的数据挖掘和空间分析理论为基础,它与空间数据挖掘的主要区别见表1-1。时空数据挖掘研究大都采用两种方式:在空间数据挖掘加入时间变量和在时态数据挖掘中结合空间分析,但是真正将两者结合进行数据挖掘的研究较少[17]。
表1-1时空数据挖掘和空间数据挖掘的比较
Roddick(1999)对时空数据挖掘的体系结构做了较为全面的归纳与综述,明确了时空模式发现、时空聚类、时空异常检测、时空预测和分类几大主要挖掘任务,这也是国内外学术界主要的几大研究方向[18]。在时空模式发现方面,研究人员主要从时空频繁模式、时空共现模式、时空关联模式入手,从时空数据中提取有价值的时空模式,既有探索将传统的Apriori算法在时空环境下加以改进,并提出新的算法[19-20],也有利用地理学的思想,通过定义空间支持度来探索时空模式[21-22];在时空聚类方面,时空轨迹聚类成为热点研究对象,研究人员从人类行为学的角度探究人口迁移习惯、犯罪行动轨迹等,为相关政策制定和犯罪预警等提供决策支持[23],也提出了用来衡量轨迹相似性的历史最近距离、Fréchet距离等指标[24];在时空异常检测方面,Cheng等人(2006)充分考虑了时空数据的尺度和分辨率对异常检测的影响,通过对时间尺度和空间尺度的变换对海岸线地貌的异常变化进行评估[25]。Li等人(2008)提出了在多层次特征空间上检测对象轨迹异常的方法[26];在时空预测方面,研究人员结合模糊集、决策树、遗传算法等理论,在对象位置、轨迹预测[27]和地形地貌变化预测[28]等方面做了探索,也取得了不少成果,但时空预测仍然存在不