秋季多元统计分析考试答案
- 格式:doc
- 大小:731.50 KB
- 文档页数:12
应用多元统计分析试题及答案(1)多元统计分析是现代统计学中不可或缺的一部分,它是用于对不同数据进行相关分析的高级统计方法。
对于需要进行多因素分析的问题,多元统计分析是必须掌握的技能。
以下是一些应用多元统计分析的试题及答案。
试题1:假设你要进行一项研究,以评估学生在学期末考试成绩与他们的就业情况之间是否存在关联。
你将分析什么类型的多元统计分析?答案:此问题需要进行一种二元多元回归分析。
此方法可以用于探索学期末考试成绩和就业情况之间的相关性。
通过回归分析,我们可以计算出两个变量之间的相关系数以及建立一个数学模型来预测就业成功与否的可能性。
试题2:你是一家旅游公司的行销经理,你想了解你们的财务状况、品牌信誉和市场定位之间的关系。
采用哪种多元统计分析来解决这个问题?答案:这个问题需要进行一种因子分析。
因子分析是一种常用的多元统计技术,可用于探索大量变量之间的共性或相似性。
因此,行销经理可以使用因子分析来探究这三个因素之间的关系,以帮助公司更好地了解市场需求、推广策略和产品定位。
试题3:你是一名医学研究员,你需要研究新型药物的效果以及它是否与特定人群的特征相关。
哪种多元统计分析可用于研究?答案:这个问题需要使用一种路径分析方法。
路径分析是一种分层回归分析技术,可用于探索变量间的直接和间接影响关系。
因此,研究人员可以使用路径分析来研究新型药物的效果以及与特定人群特征的相关性,以便更好地理解治疗效果的影响因素。
试题4:你是一名市场分析师,你需要研究不同年龄、性别和教育水平的人群之间的消费习惯。
采用哪种多元统计分析来解决这个问题?答案:这个问题需要使用一种聚类分析方法。
聚类分析是一种将成为节点的相似对象分组的过程。
因此,市场分析师可以使用聚类分析来将相似的人群以及他们的共同消费习惯分成几个类别,以便更好地了解不同年龄、性别和教育水平背景下的人群之间的消费习惯和偏好。
结论:多元统计分析是一种有用的技术,可以用于探索大量不同变量之间的关系,对于需要分析多个变量之间关系的问题,多元统计分析是必须学习的基本技能。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.答案:010312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
答案:W 3(10,∑)()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵答案:211342113611146R ⎛⎫-⎪ ⎪ ⎪=-- ⎪ ⎪ ⎪- ⎪⎝⎭4、__________, __________,(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭________________。
答案:0.872 1 1.743215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
答案:T 2(15,p )或(15p/(16-p))F (p ,n-p )12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?答案:2312131231112213312121,2,10021021210001102231642100102x x y y x x x x x x y x x y x x x y E y y V y -⎛⎫==+ ⎪⎝⎭-⎛⎫⎛⎫⎛⎫⎛⎫ ⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪+⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫⎪⎪ ⎪== ⎪ ⎪⎪ ⎪⎝⎭ ⎪⎪ ⎪-⎝⎭⎝⎭⎝⎭-⎛⎫⎛⎫⎪=- ⎪ ⎪⎝⎭ ⎪⎝⎭、令则01-101-101-11234411002141021061661620162040210616(1,61620)3162040y y N ⎛⎫⎛⎫⎪⎪- ⎪⎪ ⎪⎪-⎝⎭⎝⎭--⎛⎫ ⎪=- ⎪⎪-⎝⎭--⎛⎫⎛⎫ ⎪ ⎪- ⎪ ⎪⎪ ⎪--⎝⎭⎝⎭1-1故,的联合分布为故不独立。
一、判断题( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。
( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。
( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。
( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则,SX n分别是,μ∑的无偏估计。
( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是无偏的、有效的、一致的。
( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。
( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等价。
(对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。
二、填空题1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单位正交化特征向量12(,,,)i i i im a a a α=L ,则第一主成分的表达式是11111221m m y a X a X a X =+++L ,方差为1λ。
3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别为:'112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- '221.024(0.9544,0.0984,0.2695,0.0824)U λ==-'330.049(0.2516,0.7733,0.5589,0.1624)U λ==--'440.007(0.0612,0.2519,0.5513,0.7930)U λ==--,则其第二个主成分的表达式是212340.95440.09840.26950.0824y X X X X =-++,方差为1.0244. 若),(~)(∑μαp N X ,(n ,,2,1Λ=α)且相互独立,则样本均值向量X 服从的分布是(,)p N nμ∑.5.设(,),1,2,,16i p X N i μ∑=:L ,X 和A 分别是正态总体的样本均值和样本离差阵,则2115[4()][4()]T X A X μμ-'=--服从 215(15,)(,)16pT p F p n p p--:或6设3(,),1,2,,10i X N i μ∑=:L ,则101()()ii i W XX μμ='=--∑服从3(10,)W ∑7.设随机向量123(,,)X X X X '=,且协差阵4434923216-⎛⎫ ⎪∑=-- ⎪ ⎪-⎝⎭,则其相关矩阵R =231382113631186⎛⎫-⎪ ⎪ ⎪-- ⎪ ⎪ ⎪- ⎪⎝⎭8. 设122(,)(,),X X X N μ=∑:,其中212(,),ρμμμσρ⎛⎫=∑=⎪⎝⎭11,则1212,)X X X X +-=Cov(09设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X ,Y 间的马氏平方距离2(,)d X Y =1()()X Y X Y -'-∑-10设X,Y 是来自均值向量为μ,协差阵为∑的总体G 的两个样品,则X 与总体G 的马氏平方距离2(,)d X G =1()()X X μμ-'-∑-11设随机向量123(,,)X X X X '=的相关系数矩阵通过因子分析分解为121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭则1X 的共性方差21h = 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
其基本思想和步骤均可归纳为: 答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:统计量 拒绝域均值向量的检验:在单一变量中当2σ已知 X z =/2||z z α>当2σ未知 X t =/2||(1)t t n α>-(2211()1n ii S X X n ==--∑作为2σ的估计量)一个正态总体00H =μμ:协差阵Σ已知 212000()()~()T n p χ-'=--X μΣX μ 220T αχ> 协差阵Σ未知 2(1)1~(,)(1)n p T F p n p n p --+-- 2(1)n p T F n pα->-(200(1))]T n -'=---X μS X μ)两个正态总体012H =μμ:有共同已知协差阵 2120()()~()n m T p n mχ-⋅'=--+X Y ΣX Y 220T αχ>有共同未知协差阵 2(2)1~(,1)(2)n m p F T F p n m p n m p+--+=+--+- F F α>(其中 21(2)))T n m -'⎤⎤=+---⎥⎥⎦⎦X Y S X Y )协差阵不等m n = -1()~(,)n p nF F p n p p-'=-Z S Z F F α> 协差阵不等m n ≠ 1()~(,)n p nF F p n p p-'=--Z S Z F F α>多个正态总体k H μμμ=== 210: 单因素方差 (1)~(1,)()SSA k F F k n k SSE n k -=--- F F α>多因素方差 ~(,,1)p n k k Λ==Λ--+E E TA E协差阵的检验 检验0=ΣΣ0p H =ΣI : /2/21exp 2np n e tr n λ⎧⎫⎛⎫=-⎨⎬ ⎪⎩⎭⎝⎭S S00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ⎧⎫⎛⎫=-⎨⎬ ⎪⎩⎭⎝⎭S S检验12k ===ΣΣΣ 012k H ===ΣΣΣ :统计量/2/2/2/211i i kkn n pn np k iii i nnλ===∏∏SS3.2 试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t 分布和F 分布的关系。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪ ⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
1 、设 X ~ N2 ( ,), 其中 X( x1 , x 2 ),( 1 ,212 ),,1则 Cov( x1x 2 , x1x 2 )=____.102、设X i ~N 3 (,), i 1, L,10,则 W =( X i)( X i)i 1服从_________。
4433、设随机向量X x1x2x3, 且协方差矩阵 4 9 2 ,3 2 16则它的相关矩阵R___________________4、设 X= x1x2x3,的相关系数矩阵通过因子分析分解为112330.93400.1280.4171R100.4170.9340.83530.8940.8940.027 0.83500.4472010.4470.10332__________,__________,X1的共性方差 h1X1的方差11公因子 f 1对 X的贡献 g12________________。
5、设 X i , i 1,L ,16 是来自多元正态总体N p (, ), X 和 A分别为正态总体N p ( ,)的样本均值和样本离差矩阵 , 则T 215[4( X)] A 1[4( X)] ~ ___________。
1642、设( x1 , x2 , x3) ~ N3(, ),其中(1,0, 2) ,44 1 ,1X214试判断 x12 x3与x2x3是否独立?x12、对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下 , 根据以往资料 , 该地区城市 2周岁男婴的这三个指标的均值0(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
82.0 4.310714.62108.9464其中 X60.2 ,(5 S ) 1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 (0.01,F 0.01 (3, 2)99.2, F 0.01 (3,3)29.5,F0.01 (3, 4)16.7)、设已知有两正态总体G与 G,且12,24,1211,3126219而其先验概率分别为q1q20.5,误判的代价C (2 1)4;e ,C(1 2)e试用判别法确定样本X 3属于哪一个总体?Bayes514、设X( X1 , X2 , X3 , X4 )T,协方差阵1~ N (0, ),0111(1)试从Σ出发求 X 的第一总体主成分;(2)试问当取多大时才能使第一主成分的贡献率达95%以上。
判断:1对2对3对4对5错6对应分析是否可降维(对)7 数据的计量尺度:定类尺度,定序尺度,定距尺度,定比尺度1.应用统计学中的数据可以不是数值。
(×)2.相关系数等于零,表明变量之间不存在任何关系。
(√ )3.双因素方差分析主要用于检验两个总体方差是否相等。
(√ )4.环比增长速度的连乘积等于相应时期的定基增长速度。
(×)5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。
(√ )6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。
(√ )7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。
(×)8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。
(×)9.若样本容量确定,则假设检验中的两类错误不能同时减少。
(√ )10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数小于0。
(√ )简答:一、数据的清洗技术:答案一:(1)解决缺失值:均值替换法、个案剔除法、多重替换法、热卡填充法、回归替换法。
(2)错误值:偏差分析,识别不遵守分布或回归方程的值。
(3)重复记录:合半、清除(4)不一致:可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,使数据保持一致。
答案二:主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的具体数据集。
期间主要内容包括:(1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据(2)相关变量缺失值的查补检查(3)分析前相关的校正和转换工作.(4)观测值的抽样筛选.(5)其他数据清洗工作二、如何处理数据缺失值:答案一:1剔除数据,即删除数据。
2替换方法,一般有三种:均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。
4设X=X i X 2 X 3,的相关系数矩阵通过因子分析分解为X i 的共性方差h i 2= ------------------------ i 的方差a 11 --------------------(1) 试从工出发求X 的第一总体主成分;P(2) 试问当 取多大时才能使第一主成分的贡献率达 95%以上 1、0 2、W (10,E)3、r d2 1、1 - —3 421 R =16111< 46 )4、 0.87211.7435、 T (15,卩)或(15p/(16-p) ) F (p , n-p )一、 填空题:1、 多元统计分析是运用 数理统计方法来研究解决多指标问题的理论和方法.2、 回归参数显着性检验是检验解释变量 对 被解释变量 的影响是否着.3、 聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分 析分为Q 型聚类和R 型聚类。
4、 相应分析的主要目的是寻求列联表 行因素A 和 列因素B 的基本分析特 征和它们的最优联立表示。
5、 因子分析把每个原始变量分解为两部分因素:一部分为 公共因子,另一 部分为特殊因子 。
&若x (:.)L Np ( =1,2,3….n 且相互独立,则样本均值向量x 服从的分布为_X ~N (卩,工/n )_。
二、 简答1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关 系数。
选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取 相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。
被选 出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、 简述相应分析的基本思想。
相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查, 得到一个rc 的二维列联表,记为。
1 、设 X ~ N2 ( ,), 其中 X( x1 , x 2 ),( 1 ,212 ),,1则 Cov( x1x 2 , x1x 2 )=____.102、设X i ~N 3 (,), i 1, L,10,则 W =( X i)( X i)i 1服从_________。
4433、设随机向量X x1x2x3, 且协方差矩阵 4 9 2 ,3 2 16则它的相关矩阵R___________________4、设 X= x1x2x3,的相关系数矩阵通过因子分析分解为112330.93400.1280.4171R100.4170.9340.83530.8940.8940.027 0.83500.4472010.4470.10332__________,__________,X1的共性方差 h1X1的方差11公因子 f 1对 X的贡献 g12________________。
5、设 X i , i 1,L ,16 是来自多元正态总体N p (, ), X 和 A分别为正态总体N p ( ,)的样本均值和样本离差矩阵 , 则T 215[4( X)] A 1[4( X)] ~ ___________。
1642、设( x1 , x2 , x3) ~ N3(, ),其中(1,0, 2) ,44 1 ,1X214试判断 x12 x3与x2x3是否独立?x12、对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下 , 根据以往资料 , 该地区城市 2周岁男婴的这三个指标的均值0(90,58,16), 现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
82.0 4.310714.62108.9464其中 X60.2 ,(5 S ) 1( 115.6924)114.6210 3.17237. 376014.58.946437.376035.5936 (0.01,F 0.01 (3, 2)99.2, F 0.01 (3,3)29.5,F0.01 (3, 4)16.7)、设已知有两正态总体G与 G,且12,24,1211,3126219而其先验概率分别为q1q20.5,误判的代价C (2 1)4;e ,C(1 2)e试用判别法确定样本X 3属于哪一个总体?Bayes514、设X( X1 , X2 , X3 , X4 )T,协方差阵1~ N (0, ),0111(1)试从Σ出发求 X 的第一总体主成分;(2)试问当取多大时才能使第一主成分的贡献率达95%以上。
(完整版)多元统计分析试题及答案试题:1. 试解释多元统计分析的含义及其与单变量和双变量统计分析的区别。
2. 简述卡方检验方法及适用场景。
3. 请解释回归分析中的回归系数及其p值的含义及作用,简单说明如何进行回归模型的选择和评估。
4. 试解释主成分分析的原理及目的,如何进行主成分分析及如何解释因子载荷矩阵。
5. 请列举和简要解释聚类分析和判别分析的适用场景,并说明两种方法的区别。
答案:1. 多元统计分析是一种将多个变量进行综合分析的方法。
与单变量和双变量统计分析不同的是,多元统计分析可以处理多个自变量和因变量的组合关系,从而探究它们之间的综合关系。
该方法通常适用于探究多种变量在某个问题中的关系、探究影响某一结果变量的因素、探究各个变量相互作用的影响等。
2. 卡方检验是根据样本数据与期望值的差异来判断观察值与理论预期是否相符,以此来验证假设是否成立的方法。
它通常用于对某个现象进行分类的相关度检验。
适用场景包括:样本的数量大于等于40,且至少有一个期望值小于5;变量为分类变量,且分类类别数不超过10个。
卡方检验的原理是将观察值和期望值进行比较,并计算卡方值,然后根据卡方值与自由度的乘积查找p值,从而得出结论。
3. 回归系数是回归方程中自变量与因变量之间的关系,在线性回归中,回归系数表示每一个自变量单位变化与因变量单位变化的关系。
p值是评估回归系数是否具有显著性的指标。
回归模型的选择有两种方法:一种是逐步回归分析,根据不同的准则进行多个回归模型的比较,选择最优的模型;另一种是正则化回归,通过加入惩罚项来保证回归模型具有良好的泛化性能。
回归模型的评估有多种方法,包括:残差分析、R方值、方差齐性检验、变量的共线性检验等。
4. 主成分分析是一种将多维数据降维处理的方法,它的目的是通过数据的变换,将多个变量转化为一些综合指标,这些指标是原始变量的线性组合。
主成分分析的步骤包括:数据标准化、计算协方差矩阵或相关系数矩阵、计算特征值和特征向量、选取主成分。
《多元统计分析》试卷1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X 服从的分布为2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_.3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距离,马氏距离2()ijd M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。
7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是:εββββ++++=p p x x x y 22110。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
一、填空题(每空2分,共40分)二、计算题(每小题10分,共40分)1、设三维随机向量),(~3∑μN X ,其中⎪⎪⎪⎭⎫ ⎝⎛=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否独立?为什么?解: 因为1),cov(21=X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独立是等价的,所以),(21'X X 和3X 是独立的。
多元统计分析期末试题与答案22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ∑==∑=+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -?? ?'==-- ?-?=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-??'=∑=-∑=-- ? ?-??-??+、设其中试判断与是否独立?(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.4 4730.8350.4470.1032013R ?--?? ? ?=-=-+ ? ? ? ??? ? ? ????? ?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-?? ?==-- ? 0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
《多元统计分析》课程试卷答案A 卷2009年秋季学期开课学院:理考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟班级 姓名 学号散卷作废。
一、(15分)设()∑⎪⎪⎪⎭⎫ ⎝⎛=,~3321μN x x x X ,其中⎪⎪⎪⎭⎫ ⎝⎛-=132μ,⎪⎪⎪⎭⎫ ⎝⎛=∑221231111,1.求32123x x x +-的分布;2. 求二维向量⎪⎪⎭⎫ ⎝⎛=21a a a ,使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立。
解:1.32123x x x +-()CX x x x ∆⎪⎪⎪⎭⎫⎝⎛-=321123,则()C C C N CX '∑,~μ。
(2分)其中:μC ()13132123=⎪⎪⎪⎭⎫ ⎝⎛--=,()9123221231111123=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫ ⎝⎛-='∑C C 。
(4分)所以32123x x x +-()9,13~N (1分)2. ⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛'-2133x x a x x =AX x x x a a ∆⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛--32121110,则()A A A N AX '∑,~2μ。
(1分)其中:订线装μA ⎪⎪⎭⎫⎝⎛++-=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛--=132113*********a a a a,(1分) ⎪⎪⎭⎫⎝⎛+--+++--+--='⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛--='∑2422322222110022123111111002121222121212121a a a a a a a a a a a a a a A A (2分)要使3x 与⎪⎪⎭⎫⎝⎛'-213x x a x 相互独立,必须02221=+--a a ,即2221=+a a 。
因为2221=+a a 时2422321212221+--++a a a a a a 0>。
所以使3x 与⎪⎪⎭⎫ ⎝⎛'-213x x a x 相互独立,只要⎪⎪⎭⎫ ⎝⎛=21a a a 中的21,a a 满足2221=+a a 。
(4分)二、(14分)设一个容量为n=3的随机样本取自二维正态总体,其数据矩阵为⎪⎪⎪⎭⎫⎝⎛=3861096X ,给定显著性水平05.0=α,1. 求均值向量μ和协方差矩阵∑的无偏估计2. 试检验,38:H 0⎪⎪⎭⎫ ⎝⎛=μ .38:H 1⎪⎪⎭⎫⎝⎛≠μ (已知F 分布的上α分位数为19)2,2(F ,5.199)1,2(F ,51.18)2,1(F 0.050.050.05===)解:1、⎪⎪⎭⎫ ⎝⎛==∑=68X n 1X n1i i (3分) ⎪⎪⎭⎫ ⎝⎛--='--=∑=9334)X X ()X X (1-n 1S i n1i i (3分) 2、,38:H 0⎪⎪⎭⎫ ⎝⎛=μ .38:H 1⎪⎪⎭⎫⎝⎛≠μ…(1分)在原假设成立的条件下,检验统计量为:)38X ()n /S ()38X (T 12⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫ ⎝⎛-=- (3分) 由⎪⎪⎭⎫ ⎝⎛==∑=68X n 1X n 1i i ,)9334()X X ()X X (1-n 1S i n1i i --='--=∑= 4)3868()3/93-34()3868(T 12=⎪⎪⎭⎫⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=-…………………………(2分) 5.199)1,2(F 1T p)1n (p n F 05.02=<=--=……………………………….(1分)所以接受原假设。
(1分)三、 (20分)据国家和地区的女子田径纪录数据,数据如下表:基于相关矩阵对上述数据进行因子分析,利用SPSS 软件所得部分运算结果如下:求:1. 写出正交因子模型;2. 给出表3.3中Bartlett's Test of Sphericity的原假设和备择假设,对此结果做出解释;3. 根据上述运算结果,试填写下表并对两个旋转因子的含义做出解释; 4. 解释共同度及累计贡献率的含义; 5. 写出两个旋转因子的因子得分表达式。
解:1.(5分)2.p p I H I H ≠=ρρ:,:10,由P 值05.0<,所以拒绝原假设,即相关矩阵不是单位矩阵。
(2分)3.(7分)εμ+Λ+=f X ()()()()⎪⎪⎩⎪⎪⎨⎧=ψ====⨯221,,,0)(E 0,CO 0p p k k diag f V If D f E ψψεεε 的协方差阵令: ⎪⎪⎪⎭⎫ ⎝⎛=p x x X 1⎪⎪⎪⎭⎫ ⎝⎛=p μμμ 1⎪⎪⎪⎭⎫ ⎝⎛=k f f f 1⎪⎪⎪⎭⎫ ⎝⎛=p εεε 1()k p ij ⨯=Λλ—特殊因子—因子载荷矩阵*1f 表示长跑耐力因子,*2f 表示短跑速度因子。
4. 共同度表示提取的前k 个公因子反映第i 个原始变量的信息程度。
累计贡献率表示提取的前k 个公因子对所有原始变量的解释程度。
(2分)5.42954.302533.173X 417.082434.04476.9X 406.033243.03255.4X 417.010822.00764.2X 247.067834.24058.53X 084.011106.16416.23X 328.045221.06185.11X 288.0f 7654321*1-+-+-+-+------=42954.302533.173X 240.082434.04476.9X 214.033243.03255.4X 226.010822.00764.2X 038.067834.24058.53X 333.011106.16416.23X 597.045221.06185.11X 555.0f 7654321*2---------+-+-=(4分)四、(20分)文件Poverty.sav 是美国1960-1970年随机选择的30个城市的人口调查结果,其中Y 表示该郡低于贫困线的家庭比例,X1表示1960-1970年间人口变化,X2表示从事农业人口数,X3表示居住与农场税率,X4表示住宅电话拥有率,X5表示农村人口比率,X6表示人口年龄中位数。
利用spss 进行多元线性回归分析,结果如下:求:1. 解释表4.2中“R ” ,“R Square ” 及“Adjusted R Square ”的含义; 2. 写出表4.3 Model 2所检验的原假设和备择假设,当显著性水平05.0=α时,给出检验的结论;3. 给定检验的显著性水平05.0=α,多元线性回归方程的回归系数t 检验是否显著,解释原因;4. 当X1=10.7,X2=1850,X3=0.93,X4=74,X5=70.6,X6=28.7时,写出y 的预 测值;5. 解释表4.4 中偏相关系数的含义,并对Model 2 中偏相关系数的结果进行解释。
解:1. R 的线性关系的大小。
与为一个整体的为复相关系数,衡量作Y X X X p ,,21 R Square 称为判定系数或决定系数,它反映了回归方程的拟合程度,其值越大,说明回归方程的拟合程度越高,反之,拟合程度越低。
总离差平方和回归平方和===SST SSR R Square R 2。
Adjusted R Square 为)1()1(12----=n SST p n SSE R a ,与R Square 一起反映回归方程的拟合程度,其值越大,说明回归方程的拟合程度越高,反之,拟合程度越低。
(4分) 2.令21ββ,分别表示自变量41,X X 对应的的回归系数的表4.3 Model 2所检验的原假设和备择假设为中至少有一个不为零,211210,:0:ββββH VS H ==。
由于检验的05.00=<=α值p ,因此,拒绝原假设0H ,即认为回归方程线性显著。
(4分)3. 1X 对Y 的线性影响显著,因为t 检验的05.0001.0=<=α值p ;4X 对Y 的线性影响显著,因为t 检验的05.0000.0=<=α值p 。
(4分)4. 多元线性回归方程为:41366.027.0496.52ˆX X Y --=,X1=10.7,X2=1850,X3=0.93,X4=74,X5=70.6,X6=28.7时523.2274366.07.1027.0496.52ˆ=⨯-⨯-=Y 。
(4分)5.偏相关系数指其它变量都在模型里时,所研究自变量对因变量的影响。
X1在模型时,X4与Y 的偏相关系数是-.693,对Y 的影响是负影响。
X4在模型时,X1与Y 的偏相关系数是-.591,对Y 的影响是负影响。
二者对Y 的影响程度大致相当。
(4分) 五、(15分)五个样品间的距离矩阵如下⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛0611141805812037040543215 43 2 1试用最短距离法对样品进行聚类。
画出聚类图,并给出聚为两类时的结果。
解:解:(1)距离矩阵为 (2)将2和3合并成6G ,重新计算4类之间的距离⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛0611141805812037040543215 43 2 1 (3分)(3分)(2分)(3分) 聚为两类时的结果}4,3,2,1{,}5{ (4分)六、(16分)对破产企业收集他们在破产前两年的年度数据,对财务良好企业也收集同一时期的数据。
数据涉及四个变量,=1x 现金流量/总债务,=2x 净收入/总资产,=3x 流动资产/流动债务,=4x 流动资产/净销售额。
数据列于表6.1 表6.1 企业财务数据(3)将1和6G 合并成7G ,计算3类之间的距离(4)将4和7G 合并成8G ,计算2类之间的距离 (5)画聚类图 6G 7G 9G 5G 4G 3G 2G 1G 8G表6.6 Standardized Canonical 表6.7 UnstandardizedDiscriminant Function Coefficients Canonical Discriminant FunctionCoefficients表6.8 Classification Function1. 指出表6.3的作用,并对表6.3的结果做评价;2. 写出Fisher 判别法的线性判别函数f 的表达式;3. 假定某企业的财务数据08.01=x ,02.02=x ,01.23=x ,53.04=x ,那么,该企业是否面临破产?(分别用Fisher 判别法和Bayes 判别法给出判别结果);4. 根据表6.9的输出结果,你对本题中的判别方法有何评价?解:1. 表6.3的作用是检验两组的均值是否相等。