多元统计分析期末试题
- 格式:doc
- 大小:189.13 KB
- 文档页数:3
⎛11、设X ~N 2(μ,∑),其中X =(x 1,x 2),μ=(μ1,μ2),∑=σ2⎝ρ则Cov(x 1+x 2,x 1-x 2)=____.ρ⎫1⎪⎭,2、设Xi~N 3(μ,∑),i =1,服从_________。
,10,则W=∑(X i-μ)(X i-μ)'i =110⎛4x 3)',且协方差矩阵∑= -43⎝-43⎫9-2⎪,⎪-216⎪⎭3、设随机向量X =(x1x2则它的相关矩阵R =___________________4、设X=(x1⎛1- 3 -11R = 3 2 0 ⎝31x2x3)的相关系数矩阵通过因子分析分解为,2⎫3⎪⎛0.9340⎫⎛0.128⎫⎪0.934-0.4170.835⎛⎫ ⎪ ⎪0⎪= -0.4170.894⎪ +0.027⎪⎪⎪00.8940.447⎭ ⎝ ⎪ 0.103⎪⎪⎝0.8350.447⎭⎝⎭⎪1⎪⎭X 1的共性方差h 12=__________ __________,X 1,的方差σ11=________________。
公因子f 1对X 的贡献g 12=5、设X i,i =1,,16是来自多元正态总体N p(μ,∑),X 和A 分别为正态总体N p(μ,∑)的样本均值和样本离差矩阵,则T 2=15[4(X -μ)]'A -1[4(X -μ)]~___________。
⎛16-42⎫1、设X =(x 1,x 2,x 3)~N 3(μ,∑),其中μ=(1,0,-2)',∑= -44-1⎪,⎪ 2-14⎪⎝⎭⎛x 2-x 3⎫试判断x 1+2x 3与 ⎪是否独立?x ⎝1⎭2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值μ0=(90,58,16)',现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
多元统计分析期末复习试题第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵:当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。
随机向量X 与Y 的相关系数矩阵:)',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立.(3).X 的协方差阵D(X)是对称非负定矩阵。
例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质(1).若 ,则E(X)= ,D(X)= .特别地,当为对角阵时,相互独立。
(2).若,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计(1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面.(2)多元分布样本的数字特征---常见多元统计量样本均值向量=样本离差阵S=样本协方差阵V= S ;样本相关阵R(3) ,V分别是和的最大似然估计;(4)估计的性质是的无偏估计; ,V分别是和的有效和一致估计;;S~,与S相互独立;第五章聚类分析:一、什么是聚类分析:聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
一、填空题(20分)1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。
3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距离,马氏距离2()ijd M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L=6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。
7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是:εββββ++++=p p x x x y 22110。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
二、计算题(60分)1、设三维随机向量),(~3∑μN X ,其中⎪⎪⎪⎭⎫⎝⎛=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否独立?为什么?解: 因为1),cov(21=X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独立是等价的,所以),(21'X X 和3X 是独立的。
2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。
一、(本大题共2小题,每题5分,共10分)1、设),(~3∑μN X ,其中⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑-==221231111,)'1,3,2(,)',,(321μX X X X ,试求32123X X X +-的分布。
2、设三个总体321,G G G 和的分布分别为:)1,3()2,0(),5.0,2(222N N N 和。
试按马氏距离判别准则判别x =2.5应判归哪一类?二、(本题10分)设'1233(,,)~(,)X X X X N μ=∑,其中)10(111,)',,(321<<⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑=ρρρρρρρμμμμ,1342A ⎛⎫= ⎪⎝⎭,14d ⎛⎫= ⎪⎝⎭ (1) 试求(1)AX d +的分布,(1)12()'X X X =(2) 试求3X 的分布。
三、(本题10分)已知5个样品的观测值为:1,4,5,7,11.试用按类平均法对5个样品进行分类。
四、(本题10分)设有两个正态总体21G G 和,已知(m=2)⎥⎦⎤⎢⎣⎡=∑=∑⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡=32121218,2520,151021)1()1(μμ ,先验概率21q q =,而,10)12(=L 75)21(=L 。
试问按贝叶斯判别准则样品⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡=2015,2020)2()1(X X 各应判归哪一类?五、(本题10分)假定人体尺寸有这样的一般规律:身高(1X ),胸围(2X )和上半臂围(3X )的平均尺寸比例是6:4:1。
假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本,并设),(~3∑μN X 。
试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。
(94.6)4,2(,05.005.0==F α)六、(本题10分)设随机变量)',,(321X X X X =的协方差阵为⎪⎪⎪⎭⎫⎝⎛--=∑200052021,试求X 的主成分及主成分对变量i X 的贡献率)3,2,1(=i i ν。
多元统计期末考试试题一、选择题(每题2分,共20分)1. 以下哪项不是多元统计分析中常用的数据预处理方法?- A. 标准化- B. 归一化- C. 特征选择- D. 数据清洗2. 多元回归分析中,当自变量之间存在高度相关性时,我们通常称之为:- A. 多重共线性- B. 正态性- C. 同方差性- D. 独立性3. 以下哪项不是主成分分析(PCA)的目的?- A. 降维- B. 特征选择- C. 变量解释- D. 增加数据的维度4. 聚类分析中,若要衡量聚类效果,常用的指标不包括:- A. 轮廓系数- B. 熵- C. 戴维斯-库尔丁指数- D. 距离方差5. 因子分析中,因子载荷矩阵的元素表示:- A. 观测变量的均值- B. 因子的方差- C. 观测变量与因子之间的关系- D. 因子之间的相关性二、简答题(每题10分,共30分)1. 请简述多元线性回归分析的基本假设,并说明违反这些假设可能带来的问题。
2. 描述主成分分析(PCA)的基本步骤,并说明其在数据降维中的应用。
3. 聚类分析与分类分析有何不同?请举例说明。
三、计算题(每题25分,共50分)1. 假设有一组数据,包含三个变量X1、X2和Y,数据如下:| X1 | X2 | Y ||-|-|-|| 1 | 2 | 3 || 2 | 4 | 6 || 3 | 6 | 9 || 4 | 8 | 12 |请计算多元线性回归模型的参数,并检验模型的显著性。
2. 给定以下数据集,进行K-means聚类分析,选择K=3,并计算聚类中心。
| 变量1 | 变量2 | 变量3 ||--|-|-|| 1.2 | 2.3 | 3.4 || 1.5 | 2.5 | 3.6 || 4.1 | 5.2 | 6.3 || 4.4 | 5.6 | 6.8 || 7.1 | 8.2 | 9.3 || 7.4 | 8.6 | 9.9 |四、论述题(每题30分,共30分)1. 论述因子分析与主成分分析的异同,并讨论它们在实际应用中可能遇到的问题及解决方案。
多元统计期末考试题及答案一、选择题(每题2分,共20分)1. 在多元线性回归中,如果一个变量的系数为0,这意味着什么?A. 该变量对因变量没有影响B. 该变量与因变量完全相关C. 该变量与因变量无关D. 该变量是多余的2. 主成分分析(PCA)的主要目的是什么?A. 减少数据的维度B. 增加数据的维度C. 找到数据的均值D. 找到数据的中位数3. 以下哪个不是聚类分析的优点?A. 可以揭示数据的内在结构B. 可以用于分类C. 可以减少数据的维度D. 可以找到数据的异常值4. 在因子分析中,如果一个因子的方差贡献率很低,这通常意味着什么?A. 该因子对数据的解释能力很强B. 该因子对数据的解释能力很弱C. 该因子是多余的D. 该因子是重要的5. 以下哪个是多元统计分析中常用的距离度量?A. 欧氏距离B. 曼哈顿距离C. 切比雪夫距离D. 所有以上选项二、简答题(每题10分,共30分)6. 解释什么是多元线性回归,并简述其在实际问题中的应用。
7. 描述主成分分析(PCA)的基本原理,并举例说明其在数据分析中的作用。
8. 简述聚类分析的过程,并讨论其在商业数据分析中的应用。
三、计算题(每题25分,共50分)9. 假设有以下数据集,包含两个变量X和Y,以及它们的观测值:| 观测 | X | Y |||||| 1 | 2 | 3 || 2 | 3 | 4 || 3 | 4 | 5 || 4 | 5 | 6 |请计算X和Y的协方差,并解释其意义。
10. 给定以下数据集,进行聚类分析,并解释聚类结果:| 观测 | 变量1 | 变量2 |||-|-|| 1 | 1.5 | 2.5 || 2 | 2.0 | 3.0 || 3 | 3.5 | 4.5 || 4 | 4.0 | 5.0 |多元统计期末考试题答案一、选择题1. A2. A3. C4. B5. D二、简答题6. 多元线性回归是一种统计方法,用于分析两个或两个以上的自变量(解释变量)与一个因变量之间的关系。
4、设 X=(X|X 2xj 的相关系数矩阵通过因子分析分解为_13 2<3(0.934 0、 ‘0.934 -0.417 0.835、<0.128 、 -0.417 0.89+ 0.027、0 0.894 0.447、0.835 0.44 Z、0.103X 的共性方差叶0.872(0.934八2) 的方差o H = 1_ (0.128+0.934*0.934)1、设X =(兀[宀心)~弘(“上),其中〃 =(1,0厂2)'工'16 -42、-44 -1 ,<2 -1 4丿试判断禹+2无3与是否独立?1、设X ~ “2(“◎),其中X =(“ 宀)=(“1,“2),工=, VP 1丿 贝l 」CoV (尢]+ x 2,x ( - x 2)二 •102、设 X j 〜N 、mn= 1,…,10,则 w 二工(X, -J = 1服从 。
‘4-4 3、 3、设随机向量X =(x, x 2兀3)‘,且协方差矩阵-49 -2U-2 16丿则它的相关矩阵R=_公W J'lj 对X 的贝献篦=_ (0.934人2+0.417人2+0.835人) ______ °5、设XJ = 1,…,16是来自多元正态总体竹(“上),乂和A 分别为正态总体Np (“Q )的样木均值和样木离差矩阵,则厂=15[4(乂-“)"“[4(乂-“)]〜 ________ o〔4]而其先验概率分别为彳=% =0.5,误判的代价C(2|l) = /33、设已知有两正态总体5与11“试用Bd)疚判别法确定样本X属于哪一个总体?4、W=(X,,X 2,X 3,X 4)r ((),£),协方差阵工二(1P P¥<1 1)J 9丿,C(1|2) yp p p 1丿2、对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量, 得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的 均值他= (90,58,1 6)',现欲在多元正态性的假定下检验该地区农村男婴是 否与城市男婴有相同的均值。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪ ⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
多元统计期末试题及答案一、选择题1. 在多元统计中,什么是协方差矩阵?A. 描述两个变量之间的线性关系的矩阵B. 描述两个变量之间的非线性关系的矩阵C. 描述多个变量之间的线性关系的矩阵D. 描述多个变量之间的非线性关系的矩阵答案:C2. 多元方差分析适用于以下哪种情况?A. 只有一个自变量和一个因变量B. 有一个自变量和多个因变量C. 有多个自变量和一个因变量D. 有多个自变量和多个因变量答案:C3. 多元线性回归分析中的残差是指什么?A. 因变量的观测值与估计值之间的差异B. 自变量的观测值与估计值之间的差异C. 因变量的观测值与真实值之间的差异D. 自变量的观测值与真实值之间的差异答案:A4. 主成分分析的目标是什么?A. 减少变量的数量B. 识别主要影响因素C. 降低模型复杂度D. 提高预测准确率答案:A5. 判别分析的目标是什么?A. 最小化类内方差B. 最大化类间方差C. 最小化类间方差D. 最大化类内方差答案:B二、填空题1. 多元正态分布的概率密度函数用符号____表示。
答案:f(x)2. 多元统计分析中的数据通常以矩阵的形式表示,其中每行代表____,每列代表____。
答案:样本,变量三、计算题假设有一组学生数据,包括他们的数学成绩(变量X1)、英语成绩(变量X2)和科学成绩(变量X3)。
1. 计算变量X1和X2之间的协方差。
答案:可使用协方差公式计算:Cov(X1,X2) = Σ[(X1-μ1)(X2-μ2)] / (n-1)其中,Σ表示求和符号,μ1和μ2分别为X1和X2的均值,n为样本数量。
2. 假设已经进行了主成分分析,计算数据的前两个主成分和对应的方差解释比例。
答案:主成分分析会得到一组主成分,可以通过对应的特征值来计算方差解释比例。
假设前两个特征值为λ1和λ2,总特征值和为Σλi。
则前两个主成分的方差解释比例为:(λ1 + λ2) / Σλi四、简答题1. 解释多元统计分析中的共线性问题。
1 、设 X ~ N2 ( ,), 其中 X( x1 , x 2 ),( 1 ,212 ),,1则 Cov( x1x 2 , x1x 2 )=____.102、设X i ~N 3 (,), i 1, L,10,则 W =( X i)( X i)i 1服从_________。
4433、设随机向量X x1x2x3, 且协方差矩阵 4 9 2 ,3 2 16则它的相关矩阵R___________________4、设 X= x1x2x3,的相关系数矩阵通过因子分析分解为112330.93400.1280.4171R100.4170.9340.83530.8940.8940.027 0.83500.4472010.4470.10332__________,__________,X1的共性方差 h1X1的方差11公因子 f 1对 X的贡献 g12________________。
5、设 X i , i 1,L ,16 是来自多元正态总体N p (, ), X 和 A分别为正态总体N p ( ,)的样本均值和样本离差矩阵 , 则T 215[4( X)] A 1[4( X)] ~ ___________。
1642、设( x1 , x2 , x3) ~ N3(, ),其中(1,0, 2) ,44 1 ,1X214试判断 x12 x3与x2x3是否独立?x12、对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下 , 根据以往资料 , 该地区城市 2周岁男婴的这三个指标的均值0(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
82.0 4.310714.62108.9464其中 X60.2 ,(5 S ) 1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 (0.01,F 0.01 (3, 2)99.2, F 0.01 (3,3)29.5,F0.01 (3, 4)16.7)、设已知有两正态总体G与 G,且12,24,1211,3126219而其先验概率分别为q1q20.5,误判的代价C (2 1)4;e ,C(1 2)e试用判别法确定样本X 3属于哪一个总体?Bayes514、设X( X1 , X2 , X3 , X4 )T,协方差阵1~ N (0, ),0111(1)试从Σ出发求 X 的第一总体主成分;(2)试问当取多大时才能使第一主成分的贡献率达95%以上。
、填空题(20分) 1、 若X (一)~ N p (・「J, C, =12…n )且相互独立,则样本均值向量 2、 变量的类型按尺度划分有 _间隔尺度__、_有序尺度_、名义尺度-。
3、判别分析是判别样品所属类型 的一种统计方法,常用的判别方法有—距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品X i 二以门区?,…X ip )',(i =1,2,…n ),总体X ~ N p^V ),对样品进行分类常用的距离有:p丄明氏距离d jj (q )=(送I d :(M ) = (X i —X j )—X j )IBs6、因子分析中 因子载荷系数 a ij 的统计意义是 第i 个变量与第i 个公因子的相关系数7、 一元回归的数学模型是:y関x 趣,多元回归的数学模型是y = + 咕 + 6x2+] PpXp +呂。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
、计算题(60分)'4 1 1、设三维随机向量X ~ N 3(卩正),其中瓦=13 e o0 ,问X 1与X 2是否独立? (X 1,X 2「和X 3是否2>独立?为什么?解: 因为cov (X 1,X 2) =1,所以X 1与X 2不独立。
C0V (( X 1 , X 2 ) , X 3)= " 12,而•- 12 = 0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独立是等价的,所以(X 「X 2) •和X 3是独立的。
d ij (L)| X^ - X K- |Xi 、; " xj :■把协差矩阵写成分块矩阵7二J^21(X 1,X 2),的协差矩阵为' 11因为X 服从的分布为2、设抽了五个样品,每个样品只测了一个指标,它们分别是试用最长距离法对其进行分类,要求给出聚类图。
一、填空题(20分)1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X2、变量得类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。
3、判别分析就是判别样品 所属类型 得一种统计方法,常用得判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类就是指对_样品_进行聚类,R 型聚类就是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用得距离有:明氏距离,马氏距离2()ijd M )()(1j i j i x x x x ,兰氏距离()ij d L6、因子分析中因子载荷系数ij a 得统计意义就是_第i 个变量与第j 个公因子得相关系数。
7、一元回归得数学模型就是: x y 10,多元回归得数学模型就是:p p x x x y 22110。
8、对应分析就是将 R 型因子分析与Q 型因子分析结合起来进行得统计分析方法。
9、典型相关分析就是研究两组变量之间相关关系得一种多元统计方法。
二、计算题(60分)1、设三维随机向量),(~3 N X ,其中200031014,问1X 与2X 就是否独立?),(21 X X 与3X 就是否独立?为什么?解: 因为1),cov(21 X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵22211211,),(21 X X 得协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 与3X 就是不相关得,而正态分布不相关与相互独立就是等价得,所以),(21 X X 与3X 就是独立得。
2、设抽了五个样品,每个样品只测了一个指标,它们分别就是1 ,2 ,4、5 ,6 ,8。
若样本间采用明氏距离,试用最长距离法对其进行分类,要求给出聚类图。
. z4、 __________, __________, ________________。
(1) 试从Σ出发求*的第一总体主成分;(2) 试问当 取多大时才能使第一主成分的奉献率达95%以上。
1、0 2、W 3〔10,∑〕 3、211342113611146R ⎛⎫-⎪ ⎪ ⎪=-- ⎪ ⎪ ⎪- ⎪⎝⎭4、0.872 1 1.7435、T 2〔15,p 〕或〔15p/(16-p)〕F 〔p ,n-p 〕一、填空题:1、多元统计分析是运用 数理统计 方法来研究解决 多指标 问题的理论和方法.2、回归参数显著性检验是检验 解释变量 对 被解释变量 的影响是否著.3、聚类分析就是分析如何对样品〔或变量〕进展量化分类的问题。
通常聚类分析分为 Q 型 聚类和 R 型 聚类。
4、相应分析的主要目的是寻求列联表 行因素A 和 列因素B 的根本分析特征和它们的最优联立表示。
5、因子分析把每个原始变量分解为两局部因素:一局部为 公共因子 ,另一局部为 特殊因子 。
6、假设()(,),P x N αμα∑=1,2,3….n 且相互独立,则样本均值向量x 服从的分布为_x ~N(μ,Σ/n)_。
二、简答1、简述典型变量与典型相关系数的概念,并说明典型相关分析的根本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。
被选ρ(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差. z出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的根本思想。
相应分析,是指对两个定性变量的多种水平进展分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个rc 的二维列联表,记为 。
1、设X 〜N 2(,),其中则 Cov( x 1 x 2, x 1 x 2)=_ 2、 设 X i ~ N 3(服从 ____________ 3、 设随机向量 X X !X (X1,X2), (1 , 2),),i 1,川,10,则 Wx 2 x 3 ,且协方差矩阵211 ,10(X ii 1)(X i)44 34 9 2 , 3 2 164、则它的相关矩阵设 X= x 1X 2 X 3 '的相关系数矩阵通过因子分析分解为0.9341 32 30.417 0.835 00.934 0.4170.8940 0.8940.4470.835 0.4470.1280.0270.103X 1的共性方差h ;0.872_( 0.934A2)_,的方差11 1 (0.128+0.934*0.934)公因子匚对X 的贡献 2g 1(0.934A 2+0.417A 2+0.835A ) 5、设X i ,i 1,|||,16是来自多元正态总体 的样本均值和样本离差矩阵,则 T 2N p ( 15[4( X ,),X 和A 分别为正态总体N p (,)X )] 1A [4( )]〜 16 1、设X (X 1,X 2,xJ 〜2(,),其中 (1,0, 2), 试判断%2x 3与 X 2 x 3是否独立?X 12、对某地区农村的 6名2周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的 均值 0(90,58,16),现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
而其先验概率分别为q q 2 0.5,误判的代价C(2|1) e 4,C(1|2) e; 3试用Bayes 判别法确定样本X 属于哪一个总体?111 「°1(1)试从》出发求 X 的第一总体主成分; ⑵试问当取多大时才能使第一主成分的贡献率达95 %以上。
X5、设X (X 1,X 2)T ,Y (Y,X 2)T 为标准化向量,令Z 丫 ,且其协方差阵求其第一对典型相关变量和它们的典型相关系数? 1、设随机向量X 的均值向量、协方差矩阵分别为 试证:E(XX )82.0 其中 X 60.2,(5 S)1( 115.6924)14.5(0.01 ,F 0.01 (3, 2)99.2 ,F 0.01 (3,3) 3、设已知有两正态总体 G 与G,且14.3107 14.6210 8.9464 114.6210 3.172 37. 37608.9464 37.376035.593629.5,F 0.01 (3, 4)16.7)241 12亠 ,1 2621 94、设X (X 1,X 2,X 3,X 4)T ~ N 4(0,),协方差阵V(Z)1000 0 111210.95 021 220 0.95 1 00 0 0 1002、设随机向量X~N P (,),又设Y=A p X+b r1, 试证:丫~ N r (A b,A A ')。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x xx 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
多元统计分析期末试题与答案22121212121~(,),(,),(,),,1X N X x x x x x x ρµµµµσρ∑==∑=+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X µµµ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -?? ?'==-- ?-=∑、设随机向量且协⽅差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X µµµµ-=∑∑'=--、设是来⾃多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x µµ-??'=∑=-∑=-- --??+、设其中试判断与是否独⽴?(),123设X=x x x 的相关系数矩阵通过因⼦分析分解为211X h =的共性⽅差111X σ=的⽅差21X g =1公因⼦f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ?--?? ? ?=-=-+11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S µ--'=-?? ?==-- ? 0、对某地区农村的名周岁男婴的⾝⾼、胸围、上半臂围进⾏测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
一、填空题(20分)
1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X
2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。
3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距
离,马氏距离2
()ij
d M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L
=
6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。
7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是:
εββββ++++=p p x x x y 22110。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
二、计算题(60分)
1、设三维随机向量),(~3∑μN X ,其中⎪⎪⎪
⎭
⎫
⎝⎛=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否
独立?为什么?
解: 因为1),cov(21=X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵⎪⎪⎭
⎫
⎝⎛∑∑
∑∑=∑22211211
,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独
立是等价的,所以),(21'X X 和3X 是独立的。
2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。
若样本间采用明氏距离,试用最长距离法对其进行分类,要求给出聚类图。
解:样品与样品之间的明氏距离为:⎪⎪⎪⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=02
5
.36
7
05.14505
.25.30
105
432154
321)
0(x x x x x x x x x x D 样品最短距离是1,故把21X X 与合并为一类,计算类与类之间距离(最长距离法)得距离阵
⎪⎪⎪⎪⎪⎪⎭
⎫
⎝⎛
=025.3705.1505.30}
,{},{54
32154321)
1(x x x x x x x x x x D 类与类的最短距离是 1.5,故把43X X 与合并为一类,计算类与类之间距离(最长距离法)得距离阵
⎪⎪⎪⎪⎪⎪⎭
⎫
⎝⎛
=05.3705),{0}
,{},{},{5
432154321)
2(x x x x x x x x x x D 类与类的最短距离是 3.5,故把543},{X X X 与合并为一类,计算类与类之间距离(最长距离法)得距离
阵⎪⎪⎪⎭
⎫ ⎝⎛
=07},,{0},{},,{},{5432154321)
3(x x x x x x x x x x D 分类与聚类图(略)
3、设变量123,,X X X 的相关阵为 1.000.630.450.63 1.000.35,0.450.35 1.00R R ⎛⎫
⎪
= ⎪ ⎪⎝⎭
的特征值和单位化特征向量分别为
()111.96,0.63,0.59,0.51;T
l λ==
20.68,λ=()20.22,0.49,0.84;T
l =-- 30.37,λ=()30.75,0.64,0.18T l =--
(1) 取公共因子个数为2,求因子载荷阵A 。
(2) 计算变量共同度2
i h 及公共因子j F 的方差贡献,并说明其统计意义。
解:因子载荷阵⎪⎪⎪⎪⎭
⎫
⎝⎛--=68.084.096.151.068
.049.096.159.068.022.096.163.0A 变量共同度:2
221)68.022.0()96.163.0(-+=h =
2222)68.049.0()96.159.0(-+=h =
2223)68.084.0()96.151.0(+=h =
公共因子j F 的方差贡献:
2221)96.151.0()96.159.0()96.163.0(++=S 2222)68.084.0()68.049.0()68.022.0(+-+-=S
统计意义(略)
4、设三元总体X 的协方差阵为⎪⎪⎪
⎭
⎫
⎝⎛=∑600030001,从∑出发,求总体主成分123,,F F F ,并求前两个主成
分的累积贡献率。
解:特征方程0||=∑-E λ,得特征根:1,3,6321===λλλ
61=λ的特征方程:0000030005321=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛x x x ,得特征向量⎪⎪⎪
⎭⎫
⎝⎛=1001u
31=λ的特征方程:0300000002321=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛-x x x ,得特征向量⎪⎪⎪
⎭⎫ ⎝⎛=0102u
11=λ的特征方程:0500020000321=⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛--x x x ,得特征向量⎪⎪⎪
⎭⎫ ⎝⎛=0013u
31x F = 22x F = 13x F =
前两个主成分的累积贡献率
9.010
9
=。