- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
zij aij / j
其中, z ij 为第 j 个特征向量的第 i 个元素; aij 为因子载荷阵第 i 行第 j 列的元素;
j 为第 j 个因子对应的特征根。然后再利用计算出的特征向量来计算主成份。
4.模型的求解
4.1 主成份分析求解 4.1.1 主成份分析的适宜性检验
SPSS Байду номын сангаас有提供主成份分析的专用功能,只有因子分析的功能。但是因子分析和 主成份分析有着密切的联系。 因子分析的重要步骤—因子的提取最常用的方法就 是“主成份法”。利用因子分析的结果,可以很容易地实现主成份分析。具体来 讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量,即
Dij
X i Gi , X j G j
max
d ij
设类 G p 与 Gq 合并成一个新类记为 Gr ,则任一类与的距离为
Dkr
X i Gk , X j Gr
max
d ij
max max d ij , max d ij X i Gk , X j Gq X i Gk , X j G p maxDkp , Dkq
中位数距离 最短、 最长距离定义表示都是极端情况, 我们定义类间距离可以既不采用两类之 间最近的距离也不采用两类之间最远的距离,而是采用介于两者之间的距离 设类 G p 与 Gq 类合并为 Gr ,则任意的类和的距离公式为
2 Dkr
1 2 1 2 2 Dkp Dkq D pq , 2 2
0 1 1 (2) DF D F I m 即各个公共因子不相关且方差为 1; 0 12 0 2 2 (3) D D 即各个特殊因子不相关,方差不要求相等。 2 0 p
covYi , Yk cov Ti ' X , Tk' X Ti ' cov X , X Tk'' , Ti 'Tk i, k 1,2, m
DYi D Ti ' X Ti ' D X Ti '' Ti 'Ti , i 1,2, m,
2015 年江西省经济发展综合统计分析
1.问题的提出
社会发展是指整个人类社会的向前运动过程。包括两个方面:①纵向,指人 类社会由低级向高级的运动和发展过程;②横向, 指在特定的社会发展阶段中一 个社会各方面整体的运动和发展过程。一个地区社会发展水平的高低, 不仅说明 了该地区的经济发展水平, 更概括了人民生活中各方面领域的水平, 是衡量一个 地区综合能力的重要指标。 对地区的社会发展水平进行排序和综合评价, 有利于 展示各地社会经济发展中的优势和不足,能够明确引导各地财政资金投入方向, 推动各地社会经济有序、 均衡和健康发展; 有利于形成有效的社会发展竞争机制, 提高社会发展速度; 能够为社会监督提供监督标的, 促进政府更加努力地改善社 会发展中的不足。 江西省地处中国中部地区,北临安徽省,东、南各临经济发达的福建省、广 东省,西靠湖南省。改革开放以来,江西省经济增长并不明显,经济发展处于滞 后水平,GDP 位列中部第六位,中部蓝皮书指出,江西经济发展在全国乃至中部 仍处于滞后水平, 2005 年江西省 GDP 为 4070 亿元, 在中部位列第六位, 人均 GDP 为 9440 元(1180 美元),在中部位列第五位。 蓝皮书认为,在正确的发展战略 指导下,在“十五”时期,江西实现了持续、快速、稳定的发展,实现了在全国 和中部地区的位次前移。 所以从纵向看, 江西的发展是令人瞩目的, 但从横向看, 仍有较大差距,江西经济发展在全国乃至中部仍处于滞后水平。2005 年江西省 GDP 为 4070 亿元,在中部位列第六位;人均 GDP 为 9440 元(1180 美元),在中部 位列第五位; 财政收入 425 亿元, 列中部 6 省之末, 只有湖南的 57%, 山西的 56%, 湖北的 40%。那么,江西省地级市的社会发展状况排名如何呢?这都是本文要探 讨的问题,本文从实证角度利用主成份分析法、因子分析法、聚类分析法对江西 省各地级市的社会发展水平进行评价,并由此概括全省的社会发展水平。
1 0 4
离差平方和法 设将 n 个样品分成 k 类 G1,G2, ,Gk ,用 X it 表示 Gt 中的第 i 个样品, nt 表示 Gt 中样品的个数, X t 是 Gt 的重心,则 Gt 的样品离差平方和为
St X it X t X it X t
i 1 nt
2.建立评价指标体系
社会发展水平的高低体现了各地全面协调发展的程度,与居民的收入水平、 生活水平和生活环境密切相关,对社会发展水平进行综合评价涉及到收入层次、 居住条件、生活环境以及设施等各个方面。在遵循数据客观性、代表性和可得性 的原则下, 本文选取《中国区域经济统计年鉴 2015》、《中国城市(镇)生活与 价格年鉴 2015》以及《江西统计年鉴 2015》、《中国城市统计年鉴 2015》中收 录的 2015 年江西省的一些数据作为评价指标。选取的 13 项指标如下:
3.22 因子分析法的原理 因子分析通过对变量的相关系数矩阵内部结构的分析, 从中找出少数几个能控制 原始变量的随机变量 Fi i 1 m ,选取公共因子的原则是使其尽可能多地包含 原始变量中的信息,建立模型 X AF ,通过 F 再现原始变量 X 的众多分量
X i i 1 p 之间的相关关系,达到简化变量降低维数的目的。
'
'
如果 G p 与 Gq 类合并为新类 Gr ,,类内离差平方和为
S p X ip X t X ip X p
i 1 np
S q X iq X q X iq X q
i 1 nr
nq
'
'
S r X ir X r X ir X r
i 1
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 10 X 11 X 12 X 13
道路清扫面积(万平方米) 绿化覆盖面积(万平方米) 道路长度(公里) 运营车数(辆) 污水处理率(%) 建成区绿地率(%) 污水处理率(%)
X 1 用水普及率(%) X 1 本年完成投资(万元) X 1 公共服务用地(万平方米)
值得指出的是,为了消除指标间量纲的影响,防止大数吃小数,因子分析是基于 将数据标准化的基础上做的。本文利用 SPSS22.0 软件作为工具,软件中对于数 据的因子分析,已将变量(即指标)和各公共因子进行了标准化处理,不需先将 数据标准化。
3.3 聚类分析法的简介 3.31 聚类分析法数学模型 距离相近的样品 (或变量) 先聚成类, 距离相远的后聚成类, 过程一直进行下去, 每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有 n 个样 本(或变量),第一步将每个样品(或变量)独自聚为一类,共有 n 类;第二步
根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量) 聚合为一类,其他的样品(或)变量仍各自聚为一类,共聚成 n-1 类;第三步将 “距离”最近的两个类别进一步聚成一类,共聚成 n-2 类;……以上步骤一直进 行下去,最后将所有的样品(或变量)聚成一类。为了直观地反映以上的系统聚 类过程,可以把整个分类系统地画成一张谱系图。 本文利用系统聚类法,选取的距离为最长距离、中位数距离、离差平方和。因此 需要定义距离。 最长距离法 定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即为
可表示为 X i ai1 F1 ai 2 F2 aij F j aim Fm i
i 1, 2, , p
a11 a 因子载荷阵为 A 21 a p1
a12 a22 ap2
a1 m a2 m ( A , A , , A ) 1 2 m a pm
建成区面积(万平方米) 地区生产总值(万元) 公共财政收入(万元)
3.模型的建立
3.1 主成份分析法的简介 3.11 主成份分析法数学模型 设 X X 1 , , X P 为一个 p 维随机向量,并假定存在二阶矩, 其均值向量与协方
'
差记为
E X ,
D X
3.2 因子分析法的简介 3.21 因子分析数学模型 通常在作因子分析时,针对变量作因子分析,称为 R 型因子分析;针对样品作因 子分析,称为 Q 型因子分析。 R 型因子分析数学模型为:
X 1 a11 X 2 a21 X a p p1 a12 a22 a p2 a1m F1 1 a2 m F2 2 a pm Fm p
其中 X 为实测的 P 维随机向量, X 的每个分量代表一个指标或变量。
F F1 F2 Fm 为不可测的 mm p 维随机变量,它的各个分量将出现在
T
每个变量之中,所以称他们为公共因子。矩阵 A 称为因子载荷矩阵, aij 称为载 荷因子,表示第 i 个变量在第 j 个公共因子上的载荷,向量 成为特殊因子,其 中包括随机误差。他们满足: (1) cov F , 0 即公共因子与特殊因子是不相关的;
他们反映了各自类内样品的分散程度,如果 G p 与 Gq 这两类相距较近,则合并后 所增加的离散平方和 S r S p S q 应较小;否则,应较大。于是定义 G p 与 Gq 之间 的平方距离为
2 D pq Sr S p Sq
3.32 聚类分析法的原理 聚类分析是一种探索性的分析, 在分类的过程中, 人们不必事先给出一个分类的 标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不 同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到 的聚类数未必一致。
这样我们所要解决的问题就转化为,在新的变量 Y1 , , Ym 相互独立的条件下,求
Ti 使得 DYi Ti 'Ti , i 1,2, m, 达到最大。
3.12 主成份分析法的原理 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量 转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组 合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息, 且所含的信息互不重叠。 采用这种方法可以克服单一的指标不能真实反映情况的 缺点,引进多方面的指标,但又将复杂因素归结为几个主成分,使得复杂问题得 以简化,同时得到更为科学、准确的信息。 设的协差阵为,其特征根为,相应的单位化的特征向量为。那么,由此所确定的 主成份为,其方差分别为的特征分
考虑如下的先行变换
Y1 t11 X 1 t12 X 2 t1 p X p T1' X ' Y2 t 21 X 1 t 22 X 2 t 2 p X p T2 X Yp t p1 X 1 t p 2 X 2 t pp X p Tp' X
用矩阵表示为
Y T'X
其中, Y Y1 , Y2 ,, Yp ; T T1 , T2 ,, Tp 。
'
我们希望寻找一组新的变量 Y1 , , Ym m p ,这组新的变量要求充分地反映原变 量 X 1 , , X p 的信息,而且相互独立。 这里我们应该注意到,对于 Y1 , , Ym 有