地理数学方法——判别分析.ppt

  • 格式:ppt
  • 大小:542.01 KB
  • 文档页数:57

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

特征的变量;a1, a2 ,, an 为各变量的系数,即判别系数。 常用的判别法有距离判别法、Fisher (费歇尔)判别法和 Bayes(贝叶斯)判别法。
例1 人文发展指数是联合国开发计划署于1990年5月发表 的第一份《人类发展报告》中公布的。该报告建议,目前对人 文发展的衡量应当以人生的三大要素为重点,衡量人生三大要 素的指示分别采用出生时的预期寿命、成人识字率和实际人均 GDP,将以上三个指示指标的数值合成为一个复合指数,即为 人文发展指数。资料来源UNDP《人类发展报告》1995年。
▪ 一般采用线性判别函数 ▪ 基本方法:首先假定判别函数(线性函数),然
后根据已知信息对判别函数进行训练,得到函数 关系式中的关系值,从而最终确定判别函数
(1)建立判别函数 利用前例计算的结果,可得Fisher判别函数的系数
所以判别函数为 (2)计算判别临界值y0。
由于
所以
(3)判别准则 (4)对已知类别的样品判别归类
今从1995年世界各国人文发展指数的排序中,选取高发展 水平、中等发展水平的国家各五个作为两组样品,另选四个国 家作为待判样品作判别分析。
使用三种判别方法进行判别,并进行研究三者之间的关系。
本例中变量个数p=3,两类总体各有5个样品,即n1=n2=5 , 有4个待判样品,假定两总体协差阵相等。 两组线性判别的计算过程如下: (1)计算两类样本均值
选择“Analyze” →“Classify” →“Discriminate”命令, 打开“Discriminate Analysis”对话框,如图1.1所示
图1.1 “Discriminate Analysis”对话框,
Step2:选择分组变量和自变量 在变量列表中选择指定分组变量,单击右向箭头按钮,
其中
将上边计算结果代人统计量后可得:
故在 函数有效。
检验水平下,两总体间差异显著,即判别
(6)对待判样品判别归类结果如下表:
2、继续用前面距离判别法例1的人文发展指数 的数据作Bayes判别分析。
▪ 贝叶斯准则:
▪ 一种概率方法 ▪ 把已知的地理数据分成几类,计算出未知地理类
型或者区域归属于各已知类型的概率值,它归属 于哪一类的概率值最大,就把它划归为该类。
(2)计算样本协差阵,从而求出
类似地 经计算
(3)求线性判别函数W(X)
解线性方程组

(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判 别归类,结果如下表,全部判对。
(5)对判别效果作检验 判别分析是假设两组样品取自不同总体,如果两个总体的均值 向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果 的检验就是检验两个正态总体的均值向量是否相等,取检验的统计 量为:
将其移动至右侧的“Grouping Variable”(分组)文本框中, 并单击“Define Range”(定义范围)按钮,出现图1.2所示 的“Discriminant Analysis:Define Range”(判别分析定 义范围)对话框,在“Minimum”文本框中输入该分组变量 的最小值,在“Maximum”文本框中输入该分组变量的最大 值,单击“Continue”按钮,返回主对话框。
这里组数k=2,指标数p=3,n1=n2=5 代人判别函数:
得两组的判别函数分别为:
将原各组样品进行回判结果如下一灯片表: 待判样品判别结果如下:
3、利用距离判别法中例l的人文发展指数的数 据作Fisher判别分析:
▪ 费歇尔准则
▪ 较优的判别函数应该能根据待判断对的n个指标 最大限度地将它所属的类与其它类区分开来
上述回判结果表明:总的回代判对率为100%,这与统计资料 的结果相符,而且与前面用距离判别法的结果也一致。
(5)对判别效果作检验
由于 所以在
检验水平下判别有效。
(6)待判样品判别结果如下:判别结果与实际情况吻合。
§2. 基本操作
SPSS利百度文库“Discriminate”过程进行判别分析操作,下面 给出基本操作步骤。 Step1:打开主对话框。
▪ • 预测变量服从正态分布。
▪ • 预测变量之间没有显著的相关。
▪ • 预测变量的平均值和方差不相关。
▪ • 预测变量应是连续变量,因变量(类别 或组别)是间断变量。
▪ • 两个预测变量之间的相关性在不同类中 是一样的。
▪ 在分析的各个阶段应把握如下的原则:
▪ • 事前组别(类)的分类标准(作为判别 分析的因变量)要尽可能准确和可靠,否则 会影响判别函数的准确性,从而影响判别分 析的效果。
判别分析
判别分析
▪ §1. 基本原理 ▪ §2. 基本操作 ▪ §3. 选项设置 ▪ §4. 实例分析
§1. 基本原理
▪ 定义:判别分析是先根据已知类别的事物 的性质(自变量),建立函数式(自变量 的线性组合,即判别函数),然后对未知 类别的新事物进行判断以将之归入已知的 类别中。
▪ 判别分析有如下的假定:
▪ • 所分析的自变量应是因变量的重要影响 因素,应该挑选既有重要特性又有区别能力 的变量,达到以最少变量而有高辨别能力的 目标。
▪ • 初始分析的数目不能太少。
▪ 判别分析是一种有效的对个案进行分类分析 的方法,组别的特征已知。
▪ 如银行为了对贷款进行管理,需要预测哪些 类型的客户可能不会按时归还贷款。已知过 去几年中,900个客户的贷款归还信誉度, 据此可以将客户分成两组:可靠客户和不可 靠客户。
函数。基本思想是在已知观测对象的分类和特征变量值的前 提下,从中筛选出能提供较多信息的变量,并建立判别函数; 目标是使得到的判别函数在对观测量进行判别其所属类别时 的错判率最小。
判别函数的一般形式是: Y
a1 x1
a2 x2
an xn
其中,Y 为判别函数判别值;x1, x2 ,, xn 为反映研究对象
再通过收集客户的一些资料,如年龄、工资 收入、教育程度、存款等,将这些资料作 为自变量。通过判别分析,建立判别函数。 那么,如果有150个新的客户提交贷款请求, 就可以利用创建好的判别函数,对新的客 户进行分析,从而判断新的客户是属于可 靠客户类,还是不可靠客户类。
判别分析的目的是得到体现分类的函数关系式,即判别