数据采集与分析
- 格式:doc
- 大小:133.00 KB
- 文档页数:18
审计数据采集与分析技术
计算机审计的含义
•计算机审计有3层含义:
–面向数据的审计
–面向现行信息系统的审计
–对信息系统生命周期的审计
面向数据的计算机审计流程
•审前调查:电子数据的组织、处理和存储
•数据采集:审计接口、数据库访问技术、数据采集技术
•数据清理、转换、验证、建立中间表
•数据分析:数据分析技术、SQL、审计软件
•审计取证
一、审前调查及电子数据的组织、处理和存储
1.审前调查的内容和方法
•对组织结构调查
•对计算机信息系统的调查
•提出数据需求
2.电子数据的组织、处理和存储
电子数据处理的特点
•存储介质改变
•基于一定的数据处理平台,有一定的数据模型
•数据表示编码化(各种编码)
•带来系统控制和数据安全性的新问题
•审计线索改变
如何表示数据
•数据类型与数据取值
–数据类型决定了取值范围与运算范围
•数据模型
–数据模型是对现实世界数据特征的抽象
–它提供模型化数据和信息的工具
数据模型的2个层次
•
•概念模型
–E-R模型的要素
•实体:客观存在并可以相互区分的事物,用方框表示
•属性:实体的特征或性质,用椭圆表示
•联系:实体之间的联系,用菱形表示
•数据模型
–关系模型
–层次模型
–网状模型
数据模型的3个要素
•数据结构
–描述模型的静态特征
–是刻画数据模型最重要的方面
•数据操作
–描述模型的动态特性
•数据检索
•数据更新(增加、删除、修改)
•约束条件
–一组完整性规则的集合
•实体完整性
•引用(参照)完整性
•用户定义的完整性
关系模型
•关系模型是目前最常用的一种数据模型
•关系数据库采用关系模型作为数据的组织方式
•关系模型建立在严格的关系代数基础之上
•关系模型概念单一,用关系表示实体以及实体之间的联系•关系数据库的标准语言SQL是一种非过程化语言,使用方便关系模型的数据结构
•关系
–一张二维表,每一列都不可再分
–表中的行、列次序并不重要
•元组
–二维表中的每一行,相当于一条记录
•属性
–二维表中的每一列,属性有名称与类型。
–属性不可再分,不允许重复
•主键
–由表中的属性或属性组组成,用于唯一确定一条记录•域
–属性的取值范围
•关系模式
–记录结构的描述,对应关系表的表头
关系模型的数据运算
•传统的集合运算
–并(UNION)
–交(INTERSECTION)
–差(MINUS)
–笛卡儿积
•专门的关系运算
–选择(SELECTION)
–投影(PROJECT)
–连接(JOIN)
•连接的含义:相容属性之间的关系
•连接的类型(内连接、外连接、自然连接)
―数据文件‖的含义
•―数据文件‖泛指各种用来存储数据的文件。
–在数据库技术诞生之前,它指的是存放数据的文件本身。
–数据库技术诞生后,数据由DBMS管理,数据文件是存放物理数据库的载体。
•不同的DBMS存储数据的方式是不同的。
–FoxPro-一个逻辑上的表对应一个―库文件‖(.dbf)
–Access-所有的数据库对象放在一个数据库文件中(.mdb)
–IBM DB2-一张表的数据可能分别放在不同的数据文件中
•除了DBMS产生和维护的数据文件之外,还有很多应用程序管理的数据文件,如各种临时文件、数据交换文件等。
关系模型的完整性约束条件
•实体完整性(Entity Integrity)
——关键字属性的组成部分不能为空值
•参照完整性(Referential Integrity)
——参照表中的外关键字要么取空值,要么取被参照表中的某一主关键字的值
•用户定义完整性(User-Defined Integrity )
——具体应用环境的完整性约束,反映了某一具体应用所涉及的数据应满足的语义要求关系模型的特点
•关系模型的概念单一
–实体以及实体之间的联系都用关系来表示。
–关系之间的联系则是通过相容(来自同一个域)的属性来表示。
•关系必须是规范化的关系
–最基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还有表(满足第一范式,1NF)
•在关系模型中,用户对数据的检索操作不过是从原来的表中得到一张新的表
生命周期法的6个阶段
•需求分析
•概念结构设计
•逻辑结构设计
•物理数据库设计
•数据库实施
•运行维护
数据库设计方法
(1)面向数据的方法,以信息需求为主,兼顾处理需求;
(2)面向过程的方法,以处理需求为主, 兼顾信息需求
需求分析
需求分析的重点是获得两方面的需求:
(1)信息需求
定义未来信息系统使用的全部信息,了解各项数据间的本质联系,描述数据的内容和结构以及它们之间的联系等。
(2)处理需求
定义未来信息系统数据处理的功能及功能与数据之间的联系。同时考虑性能、安全性和完整性约束。
自顶向下的结构化分析方法
•自顶向下的结构化分析方法是需求分析阶段的一种常用方法。它的核心思想是:自顶向下逐层分解,直到每一项功能都可以被容易地实现为止。
•SA方法中要用到数据流程图(Data Flow Diagram, DFD)来描述数据的处理过程。数据流图是从―数据‖和―处理‖两方面来表达数据处理过程的一种图形化的表示方法。
数据字典
•数据字典是在系统设计过程中对各类基本要素进行描述的集合。它是描述系统逻辑模型的重要工具。数据字典的组成部分:
–数据项
–数据结构
–数据流
–数据存储
–处理过程
•其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的内容。
数据库表结构定义
概念结构设计的策略
•自顶向下:首先定义全局概念结构的框架,再做逐次细化。