- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
(xti xi)(xtj xj )
rij
t1 n
n
(xti xi)2
(xtj xj )2
t1
t1
7
第六章 聚类分析
n
(xti xi)(xtj
t1
n
xj) xtixtj
t1
nxixj
anabac nn
1[an(ab)(ac)]1[a(abcd)(ab)(ac)]
n
n
adbc n
n
(xti
1.10.250.85
23
第六章 聚类分析
当把A与{B,C}并为一类时,并类距离
D 20 .8 5 0 .92 1 2D 1
故重心法法不具有单调性。
A
并类过程如下:
B
C
D(1) 0
1.1 0
110..01C B AD(2) 0
0.8 0
5GAr
D(3) 0
24
第六章 聚类分析
6-7 试推导重心法的距离递推公式(6.3.2);
Dr2k
np nr
2
(X (k)
X
(
p)
)'(
)
nq nr
2
(X (k)
X (q))'( )
npnq nr2
(X
(k)
X
( p) )'( X
(k)
X
(q) )
npnq nr2
(X
(k)
X
(q) )'( X
(k)
X
( p) )
n2p nr2
Dp2k
nq2 nr2
Dq2k
npnq nr2
(X (k)
X (p))'(X (k)
X ( p)
X (p)
X (q))
npnq nr2
(X
(k)
X
(q) )'( X
(k)
X
(q)
X
(q)
X
( p) )
26
第六章 聚类分析
Dr2k
n
2 p
nr2
D
2 pk
nq2 nr2
Dq2k
n p nq nr2
D
2 pk
n p nq nr2
Dq2k
n p nq nr2
(X
1 1 c / dij
1
1 c /(dik
dkj)
dik d kj
d ik
dkj
dik d kj c dik d kj c dik d kj c
dik d kj dik c d kj c
(因dik 0, dkj 0)
d
* ik
d
* kj
对一切 i, k, j.
故d*是一个距离.
a dbc
n
n
(xtixi)2 (xtjxj)2
(ab)c(d) (ac)b(d)
t1
t1
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
n
xti xtj
cosij
t 1 n
n
其中
xt2i
xt2j
t 1
t 1
n
n
n
xti xtj a, xt2iab, xt2jac
t 1
D(3)
110306622
0 1654
0C CX(3LL34)
③ 合并{CL3,CL4}=CL2,并类距离 D3=(165/4)1/2.
D(4) 10221 0C X(3L2)
④ 所有样品合并为一类CL1,并类距离 D4=(121/2)1/2.
15
第六章 聚类分析
类平均法的谱系聚类图如下:
Name of Observation or Cluster
D(L) ij
Di(L j1)
DL
(i,jr,p,q)
故第L+1步的并类距离:
D L1miD n i(L j))(D L,
即最短距离法具有单调性.
类似地,可以证明最长距离法也具有单调性.
21
第六章 聚类分析
6-6 设A,B,C为平面上三个点,它们之间的距离为
dA 2B dA 2C 1 .1 , dB 2 C1 .0
④ 所有样品合并为一类CL1,并类距离 D4=10.
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
t1
xi)2
n
t1
xt2i
nxi2
abnab2 n
(ab)[n(ab)]1(ab)(cd)
n
n
8
第六章 聚类分析
n (xtj
t1
xj)2
n
t1
xt2j
nx2j
acnac2 n
(ac)[n(ac)]1(ac)(bd)
n
n
故二值变量的相关系数为:
n
Cij(7)
(xtixi)x(tjxj)
t1
D(0)
D(1)
0 4 6
0 9
0
16
7 3
10 5
0 8
0
① 合并{X(1),X(4)}=CL4,并类距离 D1=1.
0
D(2)
92 32
65
2
0 52 136
2
0 100
2
X(2) X(3) 0CX(L54)
14
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
这表明新的距离矩阵中类间的距离均≥ Dpq = DL ,
故有DL+1 ≥ DL ,即相应的聚类法有单调性.
17
第六章 聚类分析
对于类平均法,因
0,p
np nr
0,q
nq nr
0,
p
q
np nr
nq nr
011
故类平均法具有单调性。
对于可变类平均法,因
0,p(1)nnrp 0,q(1)n nq r 0,(1)
(k)
X ( p) )'(X
( p)
X
(q) )
n p nq nr2
(X
(k)
X
(q) )'(X
( p)
X
(q) )
np nr
D
2 pk
nq nr
Dq2k
n p nq nr2
D
2 pq
27
第六章 聚类分析
解二:因样品间的距离定义为欧氏距离,利用
X(r)
1 nr
npX(p)
nqX(q)
Dr2k ( X (k) X (r) )'( X (k) X (r) )
Байду номын сангаас
X
(k)
1 nr
(np X ( p) nq X (q) )
X (k) X (k) 2 np X (k) X ( p) 2 nq X (k) X (q)
nr
nr
1 nr2
n
2 p
X
( p) X
( p)
2npnq X
( p) X
(q)
nq2 X
(q) X
(q)
28
第六章 聚类分析
利用 X(k)X(k) n1r npX(k)X(k) nqX(k)X(k)
D r ( L )k m D p ( L 1 ) i , k D q ( L n 1 ) k ) D (p ( L 1 ) q D ( L )( k p ,q )
设第L+1步从类间距离矩阵 D(L) Di(L j) 出发,
20
第六章 聚类分析
因Dr(Lk) Dp (L q1) DL (kp,q)
证明:设第L次合并Gp和Gq为新类Gr后,并类距离DL = Dpq,且必有Dpq2≤Dij2 . 新类Gr与其它类Gk的距离平方的
递推公式 ,当γ=0,αp≥0,αq≥0, αp+αq+ β ≥1 时
D k 2 rp D p 2 k q D q 2 k D p 2 q (p q ) D p 2 q D p 2q
将三个点看成三个二维样品,试用此例说明中间距离法 和重心法不具有单调性.
解:按中间距离法,取β=-1/4,将B和C合并为 一类后,并类距离D1=1,而A与新类Gr={B,C}的 类间平方距离为
DA2r 12(DA2BDA2C)14DB2C 0.5(1.11.1)0.251 1.10.250.85
22
11
故离差平方和法具有单调性。
19
第六章 聚类分析
6-5 试从定义直接证明最长和最短距离法的单调性.
证明:先考虑最短距离法:
设第L步从类间距离矩阵
D D (L1)
(L1) ij
D(L1) pq
miD ni(L j1)
故合并Gp和Gq为一新类Gr,这时第L步的并类距离:
DL Dp(Lq1)
且新类Gr与其它类Gk的距离由递推公式可知
nq2 nr2
n1r2(nqnr
nqnp);nnr2p2
n1r2(npnr
npnq);
Dr2k
np nr
(X (k) X (k)
5
第六章 聚类分析
(4)设d(1)和d(2)是距离 ,令d* d(1) •d(2).
d*虽满足2前 个条件 ,但不一定满足三式 角. 不
下面用反例来d说 *不明 一定是距 . 离
设di(j1)
di(j2)
X(i)
X(j)
(m1),则di*j
X(i)
X(j)
2
.
当X(i) 0,X(j) 1,X(k) 0.5时,di*j 1,di*k14,dk*j14. 显然不d满 i*j d足 i*kdk*.j
t1
t1
故有 ci(j9)co ijs(ab a )a (c) (6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
0
D(0)
D(1)
4 6
0 9
0
16
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系
聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4,
并类距离 D1=1.
D(2)
0 9 3 7
0 5 10
0 8
X(2)
X
(3)
0
X (5) CL4
11
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
D(3) 100 9
0 8
0CCXL(L334)
③ 合并{CL3,CL4}=CL2,并类距离 D3=8.
D(4) 100 0CX(3L2)
应用多元统计分析
第六章部分习题解答
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数
仍是距离;
(3)设d为一个距离,c>0为常数,则 d * d
仍是一个距离;
d c
(4) 两个距离的乘积所组成的函数不一定是
距离;
证明 :(1)设d(1)和d(2)为距,离 令dd(1) d(2).
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
Average Distance Between Clusters
16
第六章 聚类分析
6-4 利用距离平方的递推公式
D k 2 r p D p 2 kq D q 2 kD p 2 q|D p 2 k D q 2|k
来证明当γ=0,αp≥0,αq≥0,αp+αq+β≥1时,系统聚类中的类 平均法、可变类平均法、可变法、Ward法的单调性.
以下来验 d满证足作为距离所 3个要条求 .件
2
第六章 聚类分析
① dij di(j1) di(j2) 0,且仅X当(i) X(j)时dij 0; ② dij di(j1) di(j2) d(j1i) d(j2i) dji,对一i切 , j; ③ dij di(j1) di(j2) di(k1) dk(1j) di(k2) dk(2j)
pq(1)nnrp
(1)nq
nr
11
故可变类平均法具有单调性。
18
第六章 聚类分析
对于可变法,因
p0,qp12120,1q21210,(11)
故可变法具有单调性。
对于离差平方和法,因
0,p
nk nr
np nk
0,q
nk nr
nq nk
0,
pqnnkr
np nk
nk nr
nq nk
nk nr nk
dik dkj,对一i切 ,k, j.
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
① di*jcd ij0,且仅 X(i)当 X(j)时 di*j0; ② di*jcd ijcdjid*ji,对一 i,j;切
3
第六章 聚类分析
③ di*jcdijc(dikdk)j cdikcdk j
6
第六章 聚类分析
6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余
弦为(6.2.3)式.
证明:设变量Xi和Xj是二值变量,它们的n次观测值记 为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变 量的列联表(表6.5)可知:变量Xi取值1的观测次数 为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的 观测次数为a,取值均为0的观测次数为d 等等。利用两 定量变量相关系数的公式:
Dr2kn nrpDp 2kn nq r Dq2knn pn r2qDp 2q
解一: 利用
X(r)
1 nr
npX(p)nqX(q)
如果样品间的距离定义为欧氏距离,则有
Dr2k(X(k) X(r))('X(k) X(r))
npnrnq
X(k)
np nr
X(p)
nq nr
X(q)'
25
第六章 聚类分析
di*kdk*,j对一i,切 k, j.
故d*=ad是一个距离. (3) 设d为一个距离,c>0为常数,显然有
①
di*j
dij dij c
0,且仅当 X(i)
X( j)时di*j
0;
②
di*j
dij dij c
dji dji c
d*ji,对一切 i, j;
4
第六章 聚类分析
③
d
* ij
d ij dij c
第六章 聚类分析
当把A与{B,C}并为一类时,并类距离
D 20 .8 5 0 .92 1 2D 1
故中间距离法不具有单调性。
按重心法,将B和C合并为一类后,并类距离
D1=1,而A与新类Gr={B,C}的类间平方距离为
DA2r
nB nr
DA2BnnCr
DA2CnnBr
nC nr
DB2C
0.51.10.51.10.251