统计学各章计算题公式及解题方法
- 格式:docx
- 大小:38.52 KB
- 文档页数:14
统计学公式总结期末一、概率论1. 加法法则:P(A ∪ B) = P(A) + P(B) - P(A ∩ B)加法法则用于计算两个事件同时发生或其中一个事件发生的概率。
2. 乘法法则:P(A ∩ B) = P(A) × P(B|A)乘法法则用于计算两个事件同时发生的概率。
3. 条件概率:P(A|B) = P(A ∩ B) / P(B)条件概率用于计算在已知某个事件发生的情况下,另一个事件发生的概率。
4. 贝叶斯定理:P(A|B) = P(B|A) × P(A) / P(B)贝叶斯定理用于计算在已知某个事件发生的条件下,另一个事件发生的概率。
5. 期望值:E(X) = ∑(x × P(X = x))期望值用于计算随机变量X的平均值。
6. 方差:Var(X) = E((X - μ)^2) = E(X^2) - (E(X))^2方差用于度量随机变量X的离散程度。
7. 协方差:Cov(X, Y) = E((X - μ_x)(Y - μ_y))协方差用于度量两个随机变量X和Y之间的线性关系。
二、描述统计学1. 样本均值:x̄= ∑(x) / n样本均值用于估计总体均值。
2. 样本方差:s^2 = ∑((x - x̄)^2) / (n - 1)样本方差用于估计总体方差。
3. 样本标准差:s = √s^2样本标准差用于度量样本数据的离散程度。
4. 权重平均:x̄_w = ∑(x × w) / ∑(w)权重平均用于估计带有不同权重的样本数据的平均值。
5. 百分位数:P_p = ((p/100) × (n + 1))th value百分位数是将数据按升序排列后,某个百分比处的数值。
三、推断统计学1. 样本标准误:SE = s / √n样本标准误用于估计样本均值与总体均值之间的误差。
2. 置信区间:CI = x̄± (Z × SE)置信区间用于估计总体均值的范围。
统计分组 1、组中值:组中值=(上限+下限)/2缺下限组的组中值=该组上限-邻组组距/2 缺上限组的组中值=该组下限+邻组组距/2 2、众数出现最多的数d ΔΔΔL M 211o ⨯++=3、中位数从小排到大,中间的那个数4、平均数5、几何平均数6、标准差例题:计算下题中的中位数、众数、平均值、标准差n πx nx n ...x 2x 1G =••=Σf f 2)x Σ(x σn 2)x Σ(x σ:标准差;(已分组资料)Σff2)x Σ(x 2σ:方差的加权式;(未分组资料)n 2)x Σ(x 2σ:方差的简单式-=-=-=-=1)△1=50-30=20 △2=50-40=10 △1+△2=30 众数=10+(20/30)*2=11.33 2)中位数∑f/2=144/2=72 S m-1=45 fm=50 ∑f/2 - Sm-1=72-45=27 Me= 10+27/50*2=11.083)平均数=∑xi*fi/∑fi=1580/144≈11 4)标准差=2.15第4章1、区间估计最后推断的公式:2、两个理论:大数定律、中心极限定理3、四种抽样组织形式:随机抽样、等距抽样、分类抽样、整群抽样第五章1、相关关系:完全正相关(值为1)、完全负相关(值为-1)、部分正相关(0,1),部分负相关(-1,0),不相关(值为0)2、相关系数:取值范围是在[-1,1]区间3、回归分析:x x p p x t X x t p t P p t μμμμ-≤≤+-≤≤+()()2222∑∑∑∑∑∑∑---=y y n x x n yx xy n γΣf f 2)x Σ(x σ-=144644=基本形式:y=a+bx4、估计标准误差的计算估计标准误差指标是用来说明回归方程代表性大小的统计分析指标,也简称为估计标准差或估计标准误差,其计算原理与标准差基本相同。
估计标准误差说明理论值(回归直线)的代表性。
若估计标准误差小,说明回归方程准确性高,代表性大;反之,估计不够准确,代表性小。
百度文库-让每个人平等地提升自我统计学各章计算题公式及解题方法第四章数据的概括性度量组距式数值型数据众数的计算:确定众数组后代入公式计算:,其中,L 为众数所在组次数与后一组次数之差,d 为众数所在组组距单变量数列的中位数:先计算各组的累积次数(或累积频率)一根据位置公式确定中位 数所在的组一对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在 该组内均匀分布)组距式数列的中位数计算公式:1. 2.3.4. 5.6. 7. 8.9. 10. 11.12. 13. 14.下限公式:Mo 土丄+ 爲;x 氐上限公式: 叫土 “下限,U 为众数所在组上限,A 1为众数所在组次数与前一组次数之差,为众数所在组未分组数据中位数计算公式:下限公式: 叭十毛2上限公式:M e = U-■W + L ■-x ci ,其中,在组的频数, 为中位数所在组前一组的累积频数,抵咛:||为中位数所在组后一组的累积频数四分位数位置的确定:未分组数据:下四分位数:<?! = —c 帥 * I ) I 上四分位数:Qv =XX| +JTj + ... + jf nIn加权均值:- * ,-I,几何均值 (用于计算平均发展速度).工二屮1 X 引其…X 為1 - 四分位差 (用于衡量中位数的代表性)异众比率 (用于衡量众数的代表性)极差:未分组数据:R = rnax (Xl ) - ;组距分组数据:R 土 :ft 高组上阴-最-低姐下眦 平均差(离散程度):未分组数据: ,-丄一组距分组数据: 叭-总体方差:未分组数据: ;分组数据:中位数位置的确定:未分组数据为;组距分组数据为T (甞卜仇为奇数.+巴+ J 八为喝数为中位数所;组距分组数据:简单均值: 值为各组组中:Q 。
= Qu - Q L其中叫%•松1. 的估计值: 置信水平aa 2Za290%95%99%2.不同情况下总体均值的区间估计:总体分布样本量b 已知b 未知正态分布大样本(n > 30)tJX +S工土 Za-^小样本(n<30)(TX + Za —S 工 土 f41—^1捕非正态分布 大样本(n > 30)(TX + Za —S工土 ?«--其中,•查p448,查找时需查n-1的数值3. 大样本总体比例的区间估计:4. 总体方差 在.,置信水平下的置信区间为:5. 估计总体均值的样本量:门二 駕竺,其中,第八章假设检验1.总体均值的检验(已知或卜T 未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]假设 双侧检验左侧检验右侧检验假设形式H Q : P =他1、阿:P 工颅\/ “1 : H旳:统计量。
第4章)(公式计划实际总2-4%100⨯=∑∑XX K计划任务数为平均数时)(公式计划实际平3-4%100⨯=X X K(ⅰ)当计划任务数表现为提高率时)(公式计划提高百分数实际提高百分数4-4%10011⨯++=Kⅱ)当计划任务数表现为降低率时时间进度=)(公式全期时间截止到本期的累计时间7-4%100⨯8)-4(%100公式数计划期间计划规定累计数计划期间实际完成累计计划完成程度相对指标⨯= )(公式水平计划规定末期应达到的平计划末期实际达到的水计划完成程度相对指标9-4%100⨯=(%100公总体的全部数值总体中某一部分数值结构相对指标⨯=)11-4(公式总体中另一部分数值总体中某一部分数值比例相对指标=)12-4(公式单位)的同一指标数值同时期乙地区(部门或的某一指标数值甲地区(部门或单位)比较相对指标=)13-4(公式联系的总量指标数值另一性质不同但有一定某一总量指标数值强度相对数=%100⨯=计划任务数实际完成数计划完成程度相对指标5)-4( %100-11公式计划降低百分数实际降低百分数⨯-=K %100⨯=全期的计划任务数本期内累计实际完成数计划执行进度14)-4(%100公式该指标基期数值某指标报告期数值动态相对数⨯=对于分组数据,众数的求解公式为:df f f f f f M m m m m m m ⨯-+---≈+-+)()(U 1110上限公式: df f f f f f M m m m m m m ⨯-+---≈+-+)()(U 1110上限公式:对于分组的数值型数据,中位数按照下述公式求解:对于分组的数值型数据,四分位数按照下述公式求解:LLL L L d f S n L Q ⨯-+≈-14 u U U U U d f S nL Q ⨯-+≈-143(1)简单算数平均数 (2)加权算数平均数nxx ni i∑==1∑∑∑∑====⋅==ki ki iii ki iki ii ff x f fx x 1111各变量值与算术平均数的离差之和为零。
统计学家基础计算题以下是一些统计学中常见的基础计算题:均值在统计学中,均值是一组数据的平均数。
计算均值的步骤如下:1. 将所有数据相加。
2. 将总和除以数据的个数。
数学公式如下:均值 = $\frac{X_1 + X_2 + ... + X_n}{n}$中位数中位数是一组数据中的中间值。
计算中位数的步骤如下:1. 将数据按升序排列。
2. 如果数据个数为奇数,中位数是排序后的中间值。
3. 如果数据个数为偶数,中位数是排序后中间两个数的平均值。
数学公式如下:中位数 = $\frac{X_{\frac{n}{2}} +X_{\frac{n}{2}+1}}{2}$ (当n为偶数时)众数众数是一组数据中出现次数最多的值。
计算众数的步骤如下:1. 统计每个数值的出现次数。
2. 找出出现次数最多的值。
方差方差是一组数据偏离均值的程度的度量。
计算方差的步骤如下:1. 计算每个数据与均值的差值。
2. 对每个差值求平方。
3. 将所有平方差值相加。
4. 将总和除以数据的个数。
数学公式如下:方差 = $\frac{(X_1 - \bar{X})^2 + (X_2 - \bar{X})^2 + ... + (X_n - \bar{X})^2}{n}$标准差标准差是方差的平方根,它衡量数据的离散程度。
计算标准差的步骤如下:1. 计算方差。
2. 将方差取平方根。
数学公式如下:标准差 = $\sqrt{方差}$希望这些基础计算题对您有所帮助!如果您有任何其他问题,请随时向我提问。
统计学计算公式大全统计学是数学中一个重要的分支,它利用分析数据,抽象出具有相似特征的概念,研究其变化规律、发展趋势,为决策提供重要的依据。
统计学涉及的范畴较广,涉及统计数据的收集、分析处理、描述抽象、模型建立、推理预测等数学计算技术,其中重要的组成部分就是计算公式,下面就是统计学计算公式大全。
一、抽样调查统计1、样本量的计算公式:n=N/ (1+N*e2/δ2)其中:n为样本量,N为总体量,e为期望的标准误差,δ为期望的置信度。
2、样本抽取a)取系统抽样公式:Pi=Di/n其中:Pi为抽取的概率,Di为分层抽样时的各层系统抽样量,n 为总体量。
b)层抽样公式:Di=ni/ni+N1+…+Nk其中:Di为分层抽样时的各层系统抽样量,ni为各层抽样量,N1+…+Nk为总体量。
3、数据分析a)差、方差、标准差极差X=Xmax-Xmin方差S2=G2S/(n-1)标准差S=根号[G2S/(n-1)]其中:Xmax,Xmin为所有样本数据的最大值和最小值,G1S和G2S分别为样本一阶矩和二阶矩,n为样本量。
b)值、中位数均值:X=G1S/n中位数:中位数=X((n+1)/2)其中:G1S为样本一阶矩,n为样本量。
c)分位数百分位数:Xp=(n+1)P/100其中:P为百分位数,n为样本量二、两个样本的比较1、大样本检验a) t检验t=X1-X2/S其中:X1,X2分别为样本1和样本2的均值,S为两个样本总体方差的平均值。
b) F检验F=S12/S22其中:S12,S22分别为样本1和样本2的方差。
2、小样本检验a) Z检验z=X1-X2/S其中:X1,X2分别为样本1和样本2的均值,S为样本1和样本2的总体标准差的平方根。
b)2检验χ2=∑[(Oi-Ei)2/Ei]其中:Oi,Ei分别为样本的实际频数和期望频数。
三、数据回归分析1、回归分析公式Y=a+bX其中:Y,X分别为回归变量,a,b分别为回归系数。
统计学各章计算题公式及解题方法第四章 数据的概括性度量1. 组距式数值型数据众数的计算:确定众数组后代入公式计算: 下限公式:M 0=L +?1?1+?2×d ;上限公式:M 0=U −?2?1+?2×d ,其中,L 为众数所在组下限,U 为众数所在组上限,?1为众数所在组次数与前一组次数之差,?2为众数所在组次数与后一组次数之差,d 为众数所在组组距 2. 中位数位置的确定:未分组数据为n+1 2;组距分组数据为n 23. 未分组数据中位数计算公式:M e ={x (n+12) ,n 为奇数12(x n 2+x n 2+1),n 为偶数4. 单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组—对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5. 组距式数列的中位数计算公式: 下限公式:M e =L +n2−S m−1f m×d ;上限公式:M e =U −n2+S m+1f m×d ,其中,f m 为中位数所在组的频数,s m−1为中位数所在组前一组的累积频数,s m+1为中位数所在组后一组的累积频数 6. 四分位数位置的确定:未分组数据:{下四分位数:Q L =n+14上四分位数:Q U =3(n+1)4;组距分组数据:{下四分位数:Q L =n4上四分位数:Q U =3n 4 7. 简单均值:x̅=x 1+x 2+⋯+x nn=∑x in i=1n8. 加权均值:x̅=M 1f 1+M 2f 2+⋯+M k f kf 1+f 2+⋯+f k=∑M i f ik i=1n=∑M i k i=1fin ,其中,M 1,M 2…M k 为各组组中值9. 几何均值(用于计算平均发展速度):x̅=√x 1×x 2×…×x n n =√∏x i n i=1n10. 四分位差(用于衡量中位数的代表性):Q D =Q U −Q L 11. 异众比率(用于衡量众数的代表性):V r =∑f i −f m ∑f i=1−fm ∑fi12. 极差:未分组数据:R =max (x i )−min (x i );组距分组数据:R =最高组上限−最低组下限13. 平均差(离散程度):未分组数据:M d =∑|x i −x̅|n i=1n;组距分组数据:M d =∑|M i −x̅|k i=1?f in14. 总体方差:未分组数据:σ2=∑(x i −μ)2N i=1N;分组数据:σ2=∑(M i −μ)2k i=1?f iN15. 总体标准差:未分组数据:σ=√∑(x i −μ)2N i=1N ;分组数据:σ=√∑(M i −μ)2k i=1?f iN16. 样本方差:未分组数据:s n−12=∑(x−x̅)2n i=1n−1;分组数据:s n−12=∑(M i −x̅)2?f ik i=1n−117. 样本标准差:未分组数据:s n−1=√∑(x−x̅)2n i=1n−1;分组数据:s n−1=√∑(M i−x̅)2?fiki=1n−118. 标准分数:z i =x i −x̅s19. 离散系数:v s = s x̅第七章 参数估计1. Z α2的估计值:2. 不同情况下总体均值的区间估计:其中,t α2查p448 ,查找时需查n-1的数值3. 大样本总体比例的区间估计:p ±z α2√p (1−p )n4. 总体方差σ2在1−α置信水平下的置信区间为:(n−1)s 2χα/22≤σ2≤(n−1)s 2χ1−α/225. 估计总体均值的样本量:n =(Z α/2)2σ2E 2,其中,E 为估计误差6. 重复抽样或无限总体抽样条件下的样本量:n =(Z α/2)2π(1−π)E 2,其中π为总体比例第八章 假设检验1. 总体均值的检验(σ2已知或σ2未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]2. 总体均值检验(σ2未知,小样本,总体正态分布)注:σ已知的拒绝域同大样本3. 一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中π0为假设的总体比例)4. 总体方差的检验(χ2检验)5. z 统计量的参考数值第九章 列联分析1. 期望频数的分布(假定行变量和列变量是独立的)一个实际频数 f ij 的期望频数 e ij ,是总频数的个数n 乘以该实际频数 f ij 落入第i 行 和第j 列的概率,即:e ij =n ·(ri n)?(e jn)=r i c j n2. χ2统计量(用于检验列联表中变量间拟合优度和独立性;用于测定两个分类变量之间的相关程度χ2=∑∑(f ij −e ij )2eijcj=1r i=1,自由度为(r −1)(c −1),f ij 为列联表中第i行 第j 列的实际频数,e ij 为列联表中第i 行 第j 列的期望频数 1) 检验多个比例是否相等检验的步骤提出假设H 0:?1 = ?2 = … = ?j ;H 1: ? 1 , ?2 , …,?j 不全相等;计算检验的统计量;进行决策:根据显着性水平?和自由度(r -1)(c -1)查出临界值??2,若?2>??2,拒绝H 0;若?2<??2,不拒绝H 02) 利用样本数据检验总体比例是否等于某个数值检验的步骤提出假设H0:?1= ,?2= ,… ;H1:原假设的等式中至少有一个不成立;计算检验的统计量;进行决:根据显着性水平?和自由度(r-1)(c-1)查出临界值??2;若?2>??2,拒绝H0;若?2<??2,不拒绝H03)检验列联表中的行变量与列变量之间是否独立检验的步骤提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显着性水平?和自由度(r-1)(c-1)查出临界值??2,若?2???2,拒绝H0;若?2<??2,不拒绝H03.?相关系数:测度2?2列联表中数据相关程度;对于2?2 列联表,?系数的值在0~1之间φ=√χ2n,其中,n为实际频数总个数,即样本容量4.列联相关系数(C系数)用于测度大于2?2列联表中数据的相关程度C=√χχ+n,其中,C的取值范围是 0≤C<1;C = 0表明列联表中的两个变量独立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较5.V相关系数V=√χ2n min[(r−1),(c−1)],其中,V 的取值范围是 0≤V≤1; V = 0表明列联表中的两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=φ第十章方差分析1.单因素方差分析的要点:1)建立假设的表述方法:H0:μ1=μ2=⋯=μk ,自变量对因变量没有显着影响H1:μ1,μ2,…,μk不全相等,自变量对因变量有显着影响2)决策:i.根据给定的显着性水平α,在F分布表中查找与第一自由度df1=k−1、第二自由df2=n−k相应的临界值 F αii.若F> F α,则拒绝原假设H0,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响iii.若F< F α,则不拒绝原假设H0,不能认为所检验的因素对观察值有显着影响3)单因素方差分析表的结构:2.方差分析中的多重比较(步骤):采用Fisher提出的最小显着差异方法,简写为LSD1)提出假设:H0:μi=μj(第i个总体的均值等于第j个总体的均值)H0:μi≠μj(第i个总体的均值不等于第j个总体的均值)2)计算检验统计量:x̅i−x̅j3)计算LSD:LSD=tα2√MSE(1n i+1n j)4)决策:若|x̅i−x̅j|>LSD,则拒绝H0;若|x̅i−x̅j|<LSD,则不拒绝H3.双因素方差分析:1)无交互作用的双因素方差分析表结构:2)有交互作用的双因素方差分析表结构:4. 关系强度测量:变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映,根据R 2平方根R 进行判断R 2=SSA (组间平方和)SST (总平方和)第十一章 一元线性回归1. 样本的相关系数:r =∑(x −x̅)(y −y ̅)√∑(x −x̅)2?∑(y −y ̅)2=n ∑xy −∑x ∑y√n ∑x 2−(∑x )2?√n ∑y 2−(∑y )22. 相关系数的显着性检验步骤: 1) 提出假设:H 0:ρ=0;H 1:ρ≠0 2) 计算检验统计量:t =|r |√n−2 1−r 2~t (n −2)3) 确定α并决策:|t |>t α2,拒绝H 0;|t |<t α2,不拒绝H 0 3. 一元回归模型:y =β0+β1x+?4. 一元线性回归方程形式:E (y )=β0+β1x ,其中β0是直线方程在y 轴上的截距,是当x =0时,y 的期望值;β1是直线的斜率,称为回归系数,表示当x 每变动一个单位时y 的平均变动值5. 一元线性回归中,估计的回归方程:y ̂=β̂0+β̂1x ,其中β̂0是估计的回归直线在y 轴上的截距,β̂1是直线的斜率,它表示对于一个给定的x 的值,y ̂是y 的估计值,表示当x 每变动一个单位时y 的平均变动值 6. 根据最小二乘法求β̂0以及β̂1的公式: {β̂1=n ∑x i y i −(∑x i n i=1)(∑y i n i=1)n i=1∑i 2n i=1(∑i n i=1)β̂0=y ̅−β1x̅7. 误差平方和之间的关系:∑(y i −y ̅)2=n i=1∑(y ̂i −y ̅)2+∑(y i −ŷi )2n i=1n i=1,即:SST(总平方和)=SSR(回归平方和)+SSE (残差平方和)8. 判定系数(回归平方和占离差平方和的比例):R 2=SSRSST =∑(y ̂i −y ̅)2n i=1∑(y i −y̅)2ni=1=1−∑(y i −y ̂i )2n i=1∑(ŷi −y ̅)2n i=19. 估计标准误差(实际观察值与回归估计值离差平方和的均方根):s y =√∑(y i −ŷi )2i=1n−2=√SSEn−2=√MSE10. 线性关系的显着性检验:1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:F =SSR 1⁄SSE n−2⁄=MSRMSE ~F (1,n −2)3) 确定显着性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α 4) 决策:若F >F α,拒绝H 0;F <F α,不拒绝H 0 11. 回归系数的显着性检验:1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:t =β̂1sβ̂1~t (n −2)3) 确定显着性水平α并决策:若|t |>t α2⁄,拒绝H 0;|t |<t α2⁄,不拒绝H 0 12. 置信区间估计:E (y 0)在1−α置信水平下的置信区间:y ̂0±t α2⁄(n −2)s y √1n +(x 0−x̅)2∑(x i −x̅)n i=1 其中,s y 为估计标准误差,(n −2)为t α2⁄的自由度13. 预测区间估计:y 0在1−α置信水平下的预测区间:y ̂0±t α2⁄(n −2)s y √1+1n +x 0−x̅∑(x i −x̅)2ni=114. 回归分析表的结构: 15. 几点说明:1) 判定系数R 2测度了回归直线对观测数据的拟合程度,若所有观测点都落在直线上,残差平方和SSE=0,R 2=1,拟合是完全的2)在一元线性回归中,相关系数r实际上是判定系数R2的平方根3)相关系数r与回归系数β̂1是同号的第十三章时间序列预测和分析1.环比增长率:报告期增长率与前一期水平之比减1:G i=Y ii−1−1 (i=1,2,Λ,n)2.定基增长率:报告期水平与某一固定时期水平之比减1G i=Y iY0−1 (i=1,2,Λ,n),其中, Y0表示用于对比的固定基期的观察值3.平均增长率:序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果(描述现象在整个观察期内平均增长变化的程度)G̅=√Y1Y0×Y2Y1×Λ×Y nY n−1n−1=√Y n Y0n−1,G̅表示平均增长率,n为环比值的个数1)当时间序列中的观察值出现0或负数时,不宜计算增长率2)在有些情况下,不宜单纯就增长率论增长率,要注意增长率与绝对水平的结合分析4.时间序列预测的步骤:1)确定时间序列所包含的成分,也就是确定时间序列的类型2)找出适合此类时间序列的预测方法3)对可能的预测方法进行评估,以确定最佳预测方案4)利用最佳预测方案进行预测5.均方误差:通过平方消去正负号后计算的平均误差,用MSE表示MSE=∑(Y i−F i)2ni=1n,其中Y i为观测值,F i为预测值6.简单平均法:根据过去已有的t期观察值来预测下一期数值。
1、组中值=(上限+下限)÷22、首组开口的下限=首组上限-邻组组距末组开口的上限=末组下限+邻组组距3、首组开口组的组中值=首组上限-末组开口组的组中值=末组下限+4、5、6、7、8、9、10、11、简单算术平均数=12、加权算术平均数==注:加权算术平均数是在总体经过分组行成变量数列(包括单项数列和组距数列),有变量值和次数的情况下,将各组变量值分别与其次数相乘后加总求得标志总量,再除以总体单位数(即次数总和)而求得的数值。
13、简单调和平均数H=适用于未分组资料或各组标志总量均相等的情况14、加权调和平均数H=适用于资料已分组,且各组变量值出现的次数不相等的情况15、平均差(A·D)=由未分组的变量资料直接计算,采用简单算术平均法16、平均差(A·D)=由已分组的变量数列计算,采用加权算术平均法17、标准差未分组资料18、标准差已分组19、标准差系数20、根据时期数列计算序时平均数21、根据连续时点数列计算序时平均数①、未分组资料的连续时点数列可采用简单算术平均法②、分组资料的连续时点数列22、根据间断时点数列计算序时平均数①、间隔相等的间断时点数列②、间隔不等的间断时点数列23、平均增长量=24、定基发展速度:环比发展速度:25、定基发展速度与环比发展速度之间的关系:定基发展速度了等于相应各个环比发展速度的连乘积26、年距增长速度=年距发展速度-127、===发展速度-128、定基增长速度=定基发展速度-1 环比增长速度=环比发展速度-129、平均发展速度平均增长速度=平均发展速度-130、销售量综合指数=q销售量p价格31、商品价格综合指数=32、全员劳动生产率指数=工人劳动生产率指数×工人占全员比重指数工业产值指数=产量指数×产品价格指数生产支出总额指数=成本指数×产品产量指数商品销售额指数=商品价格指数×商品销售量指数33、样本平均数的抽样平均误差:①、重复抽样计算公式:②、不重复抽样计算公式:34、样本成数的抽样平均误差:①、重复抽样:②、不重复抽样:35、极限误差范围同概率度计抽样平均误差之间的关系:36、样本平均数的极限误差的计算:重复抽样:37、生产法增加值=总产出-中间投入38、39、40、收入法增加值=固定资产折旧+劳动报酬+生产税净额+营业盈余41、增加值率=(增加值÷总产出)×100%42、工业产品销售率=(现价工业销售产值÷现价工业总产出)×100%43、资产=负债+所有者权益44、主营业务利润=主营业务收入-主营业务成本-主营业务税金及附加45、其他业务利润=其他业务收入-其他业务支出46、营业利润=主营业利润+其他业务利润-营业费用-管理费用-财务费用47、利润总额=营业利润+投资收益+补贴收入+营业外收入-营业外支出48、月平均人数=报告月每天实有人数之和÷报告月日历日数49、上期期末人数+本期增加人数-本期减少人数=本期期末人数50、51、52、53、54、。
精品文档《统计学原理》常用公式汇总及计算题目分析第一部分常用公式第三章统计整理a)组距=上限-下限b)组中值=(上限+下限)÷2c)缺下限开口组组中值=上限-1/2邻组组距d)缺上限开口组组中值=下限+1/2邻组组距第四章综合指标i.相对指标1.结构相对指标=各组(或部分)总量/总体总量2.比例相对指标=总体中某一部分数值/总体中另一部分数值3.比较相对指标=甲单位某指标值/乙单位同类指标值4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象总量指标5.计划完成程度相对指标=实际数/计划数=实际完成程度(%)/计划规定的完成程度(%)ii.平均指标精品文档.精品文档简单算术平均数:1.2.加权算术平均数或iii.变异指标1.全距=最大标志值-最小标志值 = : 简单σ加权= ;σ2.标准差 :3.标准差系数抽样估计第五章1.平均误差:重复抽样:不重复抽样:抽样极限误差2.3.重复抽样条件下:平均数抽样时必要的样本数目精品文档.精品文档成数抽样时必要的样本数目4.不重复抽样条件下:平均数抽样时必要的样本数目第七章相关分析相关系数1.y=a+bx配合回归方程2.3.估计标准误:第八章指数分数一、综合指数的计算与分析数量指标指数(1)精品文档.精品文档此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。
)(-此差额说明由于数量指标的变动对价值量指标影响的绝对额。
质量指标指数(2)此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。
-()此差额说明由于质量指标的变动对价值量指标影响的绝对额。
=加权算术平均数指数加权调和平均数指数=复杂现象总体总量指标变动的因素分析(3) 相对数变动分析:×= 绝对值变动分析:精品文档.精品文档)×(-)= (--第九章动态数列分析一、平均发展水平的计算方法:由总量指标动态数列计算序时平均数(1)①由时期数列计算②由时点数列计算在间断时点数列的条件下计算: a.若间断的间隔相等,则采用“首末折半法”计算。
位值平均数计算公式1、众数:是一组数据中出现次数最多的变量值组距式分组下限公式:2110m m d L M ⋅∆+∆∆+= 0m L :代表众数组下限; 1100--=∆m m f f :代表众数组频数-众数组前一组频数0m d :代表组距; 1200+-=∆m m f f :代表众数组频数—众数组后一组频数2、中位数:是一组数据按顺序排序后,处于中间位置上的变量值.中位数位置21+=n 分组向上累计公式:e ee em m m m e d f S fL M ⋅-∑+=-12e m L 代表中位数组下限;1-e m S :代表中位数所在组之前各组的累计频数;e mf 代表中位数组频数; em d 代表组距3、四分位数:也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含25%,处在25%和75%分位点上的数值就是四分位数。
其公式为:411+=n Q 212+=n Q (中位数) 4)1(33+=n Q实例数据总量: 7, 15, 36, 39, 40, 41 一共6项Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3。
5 Q3的位置=3(6+1)/4=5。
25Q1 = 7+(15-7)×(1.75-1)=13,Q2 = 36+(39-36)×(3。
5-3)=37。
5,Q3 = 40+(41-40)×(5。
25—5)=40.25数值平均数计算公式1、简单算术平均数:是将总体单位的某一数量标志值之和除以总体单位。
其公式为:n x n x x x X n ∑=⋯⋯++=212、加权算术平均数:受各组组中值及各组变量值出现的频数(即权数f)大小的影响,其公式为:fxf f f f f x f x f x X i i i ∑∑=⋯⋯++⋯⋯++=2122113、加权算术平均数的频率:其公式为:ffX f f X f f X f f X X n ∑⋅∑=∑∑⋯⋯+∑+∑=22114、调和平均数:由于只掌握每组某个标志的数值总和(M )而缺少总体单位数(f)的资料,不能直接采用加权算术平均数法计算平均数,则应采用加权调和平均数.其公式为:xm m H ∑∑=5、简单几何平均数:就是n 个变量值(Xn)连乘积的n 次方根:其公式为:n n nX X X X X G ∏=⋯⋯⋅⋅=3216、加权几何平均数:如果变量值较多,其出现的次数不同,则应采用加权几何平均数,其公式为:fff f f f nf f XX X X G nn∑⋯⋯++∏=⋯⋯⋅=212121标志变异绝对指标及成数计算公式一、标志变异绝对指标:1、异众比率(又称离异比率或变差比,它是指非众数组的频数占总频数的比率):公式即,imi m i r f f f f f V ∑-=∑-∑=12、极差(也称全距,它是一组数据的最大值与最小值这差公式即:min max X X R-=3、平均差(总体各单位标志值对算数平均数的绝对离差的算术平均数,平均差是反映各标志值对平均数的平均距离,平均差越大,说明总体各标志值越分散,平均差越小,说明各标志值越集中),公式即为:(未分组情况)nx x DA -∑=. (分组情况):ff x x DA ∑-∑=·.4、方差和标准差:方差(是各变量值与其均值离差平方的平均数),公式即为:(未分组情况)nx x 22)(-∑=σ (分组情况):ff x x ∑-∑=·)(22σ标准差(方差的平方根),公式即为:(未分组情况)n x x 2)(-∑=σ (分组情况):ffx x ∑-∑=·)(2σ方差的数学性质:变量的方差等于变量平方的平均数减去变量平均数的平方。
统计学期末考试必背公式 考点汇总相对指标的计算 计划完成相对指标%100实际水平⨯=计划水平 结构相对指标%100总体的一部分⨯=总体的全部 比例相对指标%100总体中的某一部分⨯=总体中的另一部分 比较相对指标%100某一总一总体某一⨯=另一总体同一现象强度相对指标=某一总体某一现象/同一总体另一现象×100% 动态相对指标%100⨯=基期当前期 算术平均数{∑∑∑==fxfX n X X 调和平均数{∑∑∑==x m m H x nH 1 几何平均数{f f n X G X G ∏=∏= 众数()()d f f f f f f L M m m m m m m o ⨯-+-+=+---111 中位数d f S fL M m m ⨯-+=-∑1e 2平均差{∑∑∑-=-=ffX X AD n X X AD 极差最小值最大值-=R方差{()()∑∑∑-=-=ff X X X X 222nσσ 标准差{ ()()∑∑∑-=-=f f X X n X X 22σσ 变异系数{标准差系数方差系数平均差系数极差系数算术平均数标志变动度平均数标志变动度XV X V X AD V XR V V σσ======2 相关系数ρ()()2222n ∑∑∑∑∑∑∑-⨯-⨯-=Y Y n X X n YX XY回归关系bx a y +=()xb y a X X n YX Y X n -=-*-*=∑∑∑∑∑22b指数分类个体指数{0101q p p K q K p q ==总指数{00110011pq p q p q q p q p K ∑∑∑∑-=综合指数 数量指标综合指数{00100010q qp q p q p qp K ∑∑∑∑-= 质量指标综合指数{∑∑∑∑-=10111011qp q p q p q p K p()()()∑∑∑∑∑∑∑∑∑∑∑∑-⨯-=-⨯=000101100011000100100011p q p q p q p q p q p q p qp qp q p q p q p q 平均发展水平(一)绝对数时间序列1.时期序列(1)等间隔na ∑=a (2)不等间隔∑∑=f af a2.时点序列连续时点(天)1、等间隔k ∑=aa2、不等间隔∑∑=f af a间断时点 1、等间隔1-a 时间项数期半项首末留半+= 2、不等间隔12111232121....2....22a ---+++++++++=n n n n f f f f a a f a a f a a 相对数(平均数)时间序数ba C = 增减量 逐期增减量1--=i i a a 累计增减量1a a i -= 总增减量1a a n -==∑∑逐期增减量 平均增减量1a 1--==∑n a n 增减的时期个数总增减量发展速度 环比发展速度1a -=i i a 定基发展速度1a a i = 总发展速度1a a n =∏=环比发展速度 平均发展速度20132018201320181-n 1a -===a a a R n 发展的次数总发展速度增长速度 增长速度⎪⎪⎭⎫ ⎝⎛-==⎪⎪⎭⎫ ⎝⎛-===-1a 1-1a 1-%)100(1-11a a i i i 定基增长速度定基发展速度环比增长速度环比发展速度发展速度平均增长速度%)100(11-1n 1-==-a a n 平均发展速度。
统计学计算公式范文统计学是一门研究数据收集、数据整理、数据分析和数据解释的科学。
它涵盖了许多数学和概率的知识,应用于各个领域,包括经济学、社会学、心理学等等。
在统计学中,有许多常用的计算公式,本文将会介绍一些常见的统计学计算公式。
一、描述统计学计算公式1.平均数平均数(Mean)是一组数据的算术平均值,计算公式为:Mean = (X1 + X2 + X3 + ... + Xn) / n2.中位数中位数(Median)是将数据按升序排列后,位于中间位置的值(如果数据个数为奇数),或位于中间两个位置的值的平均值(如果数据个数为偶数)。
计算公式为:Median = (X[(n+1)/2] + X[(n+1)/2+1]) / 2 (数据个数为偶数)Median = X[(n+1)/2] (数据个数为奇数)3.众数众数(Mode)是一组数据中出现次数最多的值。
计算公式为:找到出现次数最多的值即可。
4.方差方差(Variance)度量了一组数据的离散程度。
计算公式为:Variance = Σ((Xi - Mean)²) / (n-1)5.标准差标准差(Standard Deviation)是方差的平方根,用于衡量一组数据的离散程度。
计算公式为:Standard Deviation = √Variance二、概率论计算公式1.随机变量的期望随机变量的期望是衡量随机变量的平均值,计算公式为:E(X)=Σ(X*P(X))2.随机变量的方差随机变量的方差是衡量随机变量的离散程度,计算公式为:Var(X) = Σ(X² * P(X)) - [E(X)]²3.协方差协方差(Covariance)刻画了两个变量间的线性关系程度,计算公式为:Cov(X, Y) = Σ((Xi - Mean(X)) * (Yi - Mean(Y))) / (n-1)4.相关系数相关系数(Correlation Coefficient)度量了两个变量之间的线性关系强度和方向,计算公式为:Corr(X, Y) = Cov(X, Y) / (Standard Deviation(X) * Standard Deviation(Y))三、假设检验计算公式1.标准误差标准误差(Standard Error)衡量样本统计量与总体参数之间的差异。
以下是本人一点学习心得,仅供大家参考,帮大家梳理思路答题结构三段两句 (整体思路:因素分析法 不了解的就略过)每段都按 的顺序写● 再写各影响因数的变化,最后写总的和各因数之间的关系!(计算题和综合题答题差不多,综合题就是要加点论述,问题不大,能把计算过程和说明写出来就能得高分了!) 具体的文字说明要参照书上P182的计算题来答● 两句——前两段说明都要写出绝对数(下降或上升多少个百分比 ,绝对数增加或减少了多少。
)和相对数(使总的增加或减少了多少,和总的相比增加或减少了多少) ● 最后一段写各因素怎么影响整体以下是练习册上一个的例子,供大家了解答题步骤和方法!因素分析:某机器制造厂有下列统计资料:练习册P36-3(1)分析全员劳动生产率的变动及全部职工人数变动对总产值的影响;(2)分析生产工人劳动生产率的变动及生产工人占全员比重对全员劳动生产率的影响;(3)分析工人劳动生产率指数、时劳动生产率指数与工人平均每人工作小时数指数之间的关系; (4)分析由于工人劳动生产率提高可节约的劳动力数量。
解:(1)分析全员劳动生产率的变动及全部职工人数的变动对总产值的影响: 依题意,列关系式: 总产值 = 全员劳动生产率×全部职工人数 Q = q ×T∑∑∑∑∑∑⨯==001010********T q T q T q T q T q T q Q Q○1总产值指数%56.10680.69650.7420011==∑∑Tq Tq∑q 1T 1-∑q 0T 0 = 742.50-696.80 = 45.70 万元/人说明:总产值报告期比基期提高了6.59%,绝对数增加45.70万元。
② q 全员劳动生产率变动 对 总产值的影响 (因素变化)%61.10260.72350.742700,2268.050.7421011==⨯=∑∑Tq T q∑q 1T 1-∑q 0T 1 = 742.50-723.60 = 18.90 万元说明由于全员劳动生产率提高报告期比基期提高2.61%,使总产值增加18.90万元。
《统计学原理》计算题要点:一)分组后求x 的加权算术平均值,有两个公式:∑∑=fxf x 或 )(∑∑⋅=ffx xf为各组出现的次数;∑ff为各组的频率;x 为组中值;∑为连加号二)加权调和平均数 ∑∑=xm m x 三)标准差σ标准差的计算也有简单和加权两种形式,计算公式如下:(1)简单:σ=(适用于未分组资料)可简化为:(2)加权: σ= (适用于分组资料)可简化为:四)标准差系数x v σσ=如果题目里问到谁的平均水平更有代表性或谁更具有推广价值一类的问题,需计算标准差系数。
选标准差系数小的。
计划完成程度:公式一:实际完成数 / 计划数公式二: 实际完成的上期百分数 / 计划的上期百分数五)总体参数的两种区间估计方法 (以平均数X的估计为例。
若是估计成数P ,则只有σ的计算公式改为)1(p p -,其他公式和方法是相同的。
)(一)给定抽样误差范围(即极限误差)x ∆,求置信区间和置信度。
(1)计算样本均值x ;(2)计算样本标准差σ(3)求抽样平均误差:重复抽样: nx σμ=不重复抽样:)1(2--=N nN n x σμ当N很大时可近似为:)1(2N nn x -=σμ(4)置信区间为:),(x x x x ∆+∆-(5)概率度为:xxz μ∆=,查表得)(Z F 的值,置信度为)(Z F(二)给定置信度,求置信区间和抽样极限误差的可能范围。
(1)计算样本均值x ;(2)计算样本标准差σ(3)求抽样平均误差:重复抽样: nx σμ=不重复抽样:)1(2--=N nN n x σμ当N很大时可近似为:)1(2N n n x -=σμ(4)由已知的置信度)(Z F ,得对应的概率度Z抽样极限误差为x x Z μ⋅=∆ (5)置信区间为:),(x x x x ∆+∆-六)样本单位数的计算方法:抽样平均数 抽样成数重复抽样:七)相关系数r0.8 ~ 1, 高度相关; 0.5 ~ 0.8 显著相关八) 线性回归方程式为:yc =a+bx注: (1)(2)回归系数b 的涵义是:当自变量x每增加一个单位时,因变量y的平均增加值。
第三章 平均指标 题型1.计算平均指标(算术、调和、几何平均数)2.比较平均数代表性大小3、计算变异指标(主要是平均差、标准差, 变异系数的计算)ff iff nf f n n n i n x xx xG x x x x G ∑∑∏=⋅⋅⋅=∏=⋅⋅⋅= 212121::加权几何平均数简单几何平均数第四章 抽样估计1.区间估计(总体均值、总体成数区间估计以及总体总量指标的区间估计)2.样本容量的确定重复抽样的抽样平均误差 1.抽样平均数的平均误差 2.抽样成数的平均误差不重复抽样的平均误差 1.抽样平均数的平均误差:22xx -=σx AD n n x σσσ==2)(nP P p )1()(-=σ)1()(2Nnn x -=σσ2.抽样成数的平均误差:重复抽样 不重复抽样估计总体平均数估计总体成数或第七章相关和回归1.相关分析(相关系数的计算)2.一元线性回归模型的建立3.r 、b 含义及关系回归)1()1()(Nnn P P p --=σ)(2x Z x σα=∆p p x x p P p x X x ∆+≤≤∆-∆+≤≤∆-2220x t n ∆=σ22222σσt N Nt n x +∆=220)1(pp p t n ∆-=)1()1(222p p t N p p Nt n p -+∆-=N n n n 001+=2222)()(y y x x y x xy r -⋅--=⎪⎩⎪⎨⎧-=--=∑∑∑∑∑xb y a x x n y x xy n b 22)(xxxyL L x x n y x xy n b =--=∑∑∑∑∑22)(xyrb σσ=Np PN N p N x N X N x p p x x )()()()(∆+≤≤∆-∆+≤≤∆-)(2p Z p σα=∆第八章 时间数列 1.序时平均数的计算 2.长期趋势的测定3.水平指标和速度指标的结合(增长量、平均增长量、平均发展水平、发展速度、增长速度、平均发展速度、平均增长速度、增长1%的绝对值)间隔相等的时点数列 间隔不相等的时点数列相对数或平均数时间数列一般方法 N简捷法N第九章 指数1.综合指数计算和因素分析2.平均数指数计算和因素分析n a a ∑=→时期数列12111232121222---+++++++=n n n n f f f f a a f a f a ∑∑=1011qp q p K p ∑∑=01pq p q K q )(0010000001∑∑∑∑=⋅=q p q p q p q p q q K q )(101111111∑∑∑∑=⋅=qp q p pp q p qp K p。
回归方程统计指数参数估计示例详解一、组限和组中值1 当两组间的相邻组限重合时:组距=本组上限—本组下限 组中值=(上限+下限)/ 2或=下限+组距 / 2 或=上限—组距 / 22当两组间的相邻组限不重合时:组距=下组下限—本组下限或=本组上限—上组上限组中值=(本组下限+下组下限)/ 2或=本组下限+组距 / 2 或=下组下限—组距 / 23 组距式分组中的“开口”情况:组中值=上限—邻组组距 / 2或=下限+邻组组距 / 2一、相对指标的种类和计算方法(一)计划完成相对数1计划完成相对数的基本计算公式: 计划完成相对数=计划完成数实际完成数* 100%例:某公司计划20XX 年销售收入500万元,实际的销售收入552万元。
则:计划完成相对数=500552* 100% = 110.4%2计划完成相对数的派生公式:(1)对于产量、产值增长百分数: 计划完成相对数=%%100%%100计划增长实际增长++ * 100%(2)对于产品成本降低百分数: 计划完成相对数=%%100%%100计划增长实际增长—— * 100%例:某企业20XX 年规定产值计划比上年增长8%,计划生产成本比上年降低5%,产值实际比上年提高10%,生产成本实际比上年降低6%,试求该企业产值和成本计划完成相对数。
解:产值计划完成相对数=%8%100%10%100++ * 100% = 101.85%成本计划完成相对数=%5%100%6%100—— * 100% = 98.95%(3)计划执行进度相对数的计算方法: 计划执行进度=本期计划数成数计划期内某月止累计完 * 100%例:某公司20XX 年计划完成商品销售额1500万元,1—9月累计实际完成1125万元。
则:1—9月计划执行进度=15001125* 100% = 75%(二)结构相对数 结构相对数=总体数值总体某部分数值* 100%例:某地区20XX 年国内生产总值为1841.61亿元,其中第一产业增加值为88.88亿元,则: 第一产业增加值所占比重=1.618418.888 * 100% =4.83%(三)比例相对数 比例相对数=同一总体另一部分数值总体中某一部分数值* 100%例:某地区20XX 年国内生产总值为2106.96亿元,其中轻工业产值为1397.31亿元,重工业产值为709.65亿元,则:轻重工业比例=1397.31:709.65=1.97:1(四)比较相对数 比较相对数=标数值乙地区(单位)同一指数值甲地区(单位)某指标 * 100%(五)动态相对数 动态相对数=基期数值报告期数值* 100%例:某地区国内生产总值20XX 年为2097.77亿元,20XX 年为2383.07亿元。
集中趋势测定:一、众位数L为众数组的下限,U为上限;d为众数组的组距;△1=fm-fm-1,即众数组的次数与下一组(或前一组)次数之差;△2=fm -fm+1,即众数组的次数与上一组次数之差二、中位数式中:L为中位数所在组的下限,U为上限;d为中位数所在组的组距;Sm-1 为中位数所在组以下各组(或小于中位数的各组)次数之和;Sm+1为中位数所在组以上各组(或大于中位数的各组)次数之和;fm为中位数所在组的次数。
三、算术平均数1、简单算术平均数2、加权算术平均数A、绝对权数(次数)⇒ fB、相对权数(频率或比重)⇒ f/∑f⎪⎪⎩⎪⎪⎨⎧⇒⨯+-=⇒⨯++=上限公式dΔΔΔUM下限公式dΔΔΔLM212o211o⎪⎪⎪⎩⎪⎪⎪⎨⎧→⨯+--=→⨯--+=⇒=上限公式dm f1mS2ΣfUeM下限公式dm f1mS2ΣfLeM2Σf中位四、几何平均数离散程度的测定 极差全距是数列中的最大值与最小值之差。
全距(R)=最大值—最小值平均差平均差是各数据值与其算术平均数之差绝对值的算术平均数。
常用“M ·D ”表示(一)根据未分组资料计算(简单算术平均差)(二)根据分组资料计算(加权算术平均差)方差和标准差⎩⎨⎧⇔⇔⇔⇔=的代表性越大x 数据越集中R越小的代表性越小x 数据越分散R越大x x 当21nxx ΣD M -=⋅⎩⎨⎧→→→→→→=的代表性越大x 数据越整齐平均离差越小A.D越小的代表性越小x 数据越分散平均离差越大A.D越大x x 21Σff2)x Σ(x σn2)x Σ(x σ:标准差;(已分组资料)Σff2)x Σ(x 2σ:方差的加权式;(未分组资料)n2)x Σ(x 2σ:方差的简单式-=-=-=-=抽样平均误差计算总体平均数的抽样平均误差 (1)不重置抽样条件下(2)重置抽样条件下总体成数的抽样平均误差 (1) 不重置抽样条件下(2)重置抽样条件下抽样极限误差计算:1. 总体平均数的抽样极限误差2.总体成数的抽样极限误差100%xσV :标准差系数100%xM.DV :平均差系数σA.D ⨯=⨯=)1N n N (n σ2μx --=nσμx=)1N nN (n p)p(1μp ---=np)p(1μp -=μxxt=∆μppt=∆1、 总体平均数的区间估计:2、总体成数的区间估计:样本容量的确定总体平均数估计的样本容量的确定 重置抽样:不重置抽样 :总体成数估计的样本容量的确定 重置抽样:不重置抽样 :∆∆+-xx x x ,∆∆+-pp p p ,相关系数 判定标准:• 0.3以下,微弱线性相关 • 0.3~0.5,低度线性相关 • 0.5~0.8,显著线性相关 • 0.8以上,高度线性相关 计算公式:⎪⎩⎪⎨⎧→→→=y的标准差x,y σx σy的协方差x,xy σ为x与y的相关系数y σx σxyσ2r 2)y Σ(y 2)x Σ(x )y )(y x Σ(x n2)y Σ(y n2)x Σ(x n )y )(y x Σ(x r ----=----=yyxx xy L L L =2)y Σ(y 2)x Σ(x )y )(y x Σ(x yσx σxy σr ----==n2(Σy)2Σy n2(Σx)2Σx n ΣxΣy Σxy ---=2(Σy)2nΣy 2(Σx)2nΣx ΣxΣynΣxy ---=n2(Σy)2Σy n2(Σx)2Σxn )n ΣxΣy n(Σxy ---=2y 2y 2x 2x y x xy --⋅-=yσx σy x xy ⋅-=回归分析的方法 一元线性回归分析 方程式: 线性回归模型参数估计值计算公式:估计标准误差 计算: 平均发展水平间隔不等的时点数列Σf )f a (a 21Σa 公式i1i i ++=→平均发展水平计算bxa y +=n 2(Σx)2ΣxnΣxΣy Σxy b--=2(Σx)2nΣx ΣxΣy nΣxy --=xb y nΣx b nΣy a -=⋅-=n-2xyy-b a y2s ∑∑∑-=nΣa a :计算公式=⇒nΣa a 时期数列=→⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧⎪⎪⎪⎩⎪⎪⎪⎨⎧⎩⎨⎧++=→-+++=→=Σfi)f 1i a i Σ(a 21a 间隔不等1n n a 212a 1a 21a 间隔相等时点数列nΣa a 连续时点数列时点数列(1)∏环比发展速度=定基发展速度。
统计学各章计算题公式及解题方法第四章数据的概括性度量1.组距式数值型数据众数的计算:确定众数组后代入公式计算:下限公式:M0=M+?1?1+?2×M;上限公式:M0=M−?2?1+?2×M,其中,L为众数所在组下限,U为众数所在组上限,?1为众数所在组次数与前一组次数之差,?2为众数所在组次数与后一组次数之差,d为众数所在组组距2.中位数位置的确定:未分组数据为M+12;组距分组数据为M23.未分组数据中位数计算公式:M M={M(M+12),n为奇数12(M M2+M M2+1),n为偶数4.单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组—对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)5.组距式数列的中位数计算公式:下限公式:M M=M+M2−M M−1M M×M;上限公式:M M=M−M2+M M+1M M×M,其中,M M为中位数所在组的频数,M M−1为中位数所在组前一组的累积频数,M M+1为中位数所在组后一组的累积频数6.四分位数位置的确定:未分组数据:{下四分位数:M M=M+14上四分位数:M M=3(M+1)4;组距分组数据:{下四分位数:M M=M4上四分位数:M M=3M47.简单均值:M̅̅̅=M1+M2+⋯+M MM =∑M MMM=1M8. 加权均值:M ̅̅̅=M 1M 1+M 2M 2+⋯+M M M MM 1+M 2+⋯+M M=∑M M M MM M =1M=∑M MM M =1M M M,其中,M 1,M 2…M M 为各组组中值9. 几何均值(用于计算平均发展速度):M ̅̅̅=√M 1×M 2×…×M M M =√∏M M M M =1M10. 四分位差(用于衡量中位数的代表性):M M =M M −M M 11. 异众比率(用于衡量众数的代表性):M M =∑M M −M M ∑M M=1−M M ∑M M12. 极差:未分组数据:R =MMM (M M )−MMM (M M );组距分组数据:R =最高组上限−最低组下限13. 平均差(离散程度):未分组数据:M M =∑|M M −M̅̅̅|M M =1M;组距分组数据:M M =∑|M M −M̅̅̅|M M =1?M M M14. 总体方差:未分组数据:σ2=∑(M M −M )2M M =1M;分组数据:σ2=∑(M M −M )2M M =1?M MM15. 总体标准差:未分组数据:σ=√∑(M M −M )2M M =1M;分组数据:σ=√∑(M M −M )2M M =1?M MM16. 样本方差:未分组数据:M M −12=∑(M −M̅̅̅)2M M =1M −1;分组数据:M M −12=∑(M M −M̅̅̅)2?M M M M =1M −117. 样本标准差:未分组数据:M M −1=√∑(M −M̅̅̅)2M M =1M −1;分组数据:M M −1=√∑(M M −M̅̅̅)2?M M M M =1M −118. 标准分数:M M =M M −M ̅̅̅M19. 离散系数:M M =M M̅̅̅第七章 参数估计1. M M 2的估计值:2. 不同情况下总体均值的区间估计:其中,M M 2查p448 ,查找时需查n-1的数值3. 大样本总体比例的区间估计:M ±M M 2√M (1−M )M4. 总体方差M 2在1−α置信水平下的置信区间为:(M −1)M 2M M /22≤M 2≤(M −1)M 2M 1−M /225. 估计总体均值的样本量:n =(M M /2)2M 2M 2,其中,E 为估计误差6. 重复抽样或无限总体抽样条件下的样本量:n =(M M /2)2M (1−M )M 2,其中π为总体比例第八章 假设检验1. 总体均值的检验(M 2已知或M 2未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]2. 总体均值检验(M 2未知,小样本,总体正态分布)注:σ已知的拒绝域同大样本3.一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中M0为假设的总体比例)4.总体方差的检验(M2检验)5. z统计量的参考数值第九章 列联分析1. 期望频数的分布(假定行变量和列变量是独立的)一个实际频数 f MM 的期望频数 e MM ,是总频数的个数M 乘以该实际频数 f MM 落入第M 行 和第j 列的概率,即:M MM =M ·(M M M)?(M M M)=M M M MM2. M 2统计量(用于检验列联表中变量间拟合优度和独立性;用于测定两个分类变量之间的相关程度χ2=∑∑(M MM −M MM )2M MMMM =1M M =1,自由度为(M −1)(M −1),M MM 为列联表中第i 行 第j 列的实际频数,M MM 为列联表中第i 行 第j 列的期望频数1) 检验多个比例是否相等检验的步骤提出假设H 0:?1 = ?2 = … = ?j ;H 1: ? 1 , ?2 , …,?j 不全相等;计算检验的统计量;进行决策:根据显着性水平?和自由度(r -1)(c -1)查出临界值??2,若?2>??2,拒绝H 0;若?2<??2,不拒绝H 02) 利用样本数据检验总体比例是否等于某个数值检验的步骤提出假设H 0:?1 = ,?2 = ,… ;H 1:原假设的等式中至少有一个不成立;计算检验的统计量;进行决:根据显着性水平?和自由度(r -1)(c -1)查出临界值??2;若?2>??2,拒绝H;若?2<??2,不拒绝H3)检验列联表中的行变量与列变量之间是否独立检验的步骤提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显着性水平?和自由度(r-1)(c-1)查出临界值??2,若?2???2,拒绝H0;若?2<??2,不拒绝H3.?相关系数:测度2?2列联表中数据相关程度;对于2?2 列联表,?系数的值在0~1之间φ=√M2M,其中,n为实际频数总个数,即样本容量4.列联相关系数(C系数)用于测度大于2?2列联表中数据的相关程度M=√M2M2+M,其中,C的取值范围是 0≤C<1;C = 0表明列联表中的两个变量独立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较5.V相关系数V=√MM MMM[(M−1),(M−1)],其中,V 的取值范围是 0≤V≤1; V = 0表明列联表中的两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=φ第十章方差分析1.单因素方差分析的要点:1)建立假设的表述方法:M0:M1=M2=⋯=M M ,自变量对因变量没有显着影响M1:M1,M2,…,M M不全相等,自变量对因变量有显着影响2)决策:i.根据给定的显着性水平α,在F分布表中查找与第一自由度df1=k−1、第二自由df2=n−k相应的临界值F Mii.若F>F M,则拒绝原假设H0,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响iii.若F<F M,则不拒绝原假设H0,不能认为所检验的因素对观察值有显着影响3)单因素方差分析表的结构:2.方差分析中的多重比较(步骤):采用Fisher提出的最小显着差异方法,简写为LSD1)提出假设:M0:M M=M M(第M个总体的均值等于第M个总体的均值)M0:M M≠M M(第M个总体的均值不等于第M个总体的均值)2)计算检验统计量:M̅̅̅M−M̅̅̅M3)计算LSD:LSD=M M2√MMM(1M M+1M M)4)决策:若|M̅̅̅M−M̅̅̅M|>MMM,则拒绝M0;若|M̅̅̅M−M̅̅̅M|<MMM,则不拒绝M0 3.双因素方差分析:1)无交互作用的双因素方差分析表结构:2)有交互作用的双因素方差分析表结构:4. 关系强度测量:变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映,根据M 2平方根R 进行判断M 2=MMM (组间平方和)MMM (总平方和)第十一章 一元线性回归1. 样本的相关系数:r =∑(M −M ̅̅̅)(M −M ̅̅̅)√∑(M −M̅̅̅)?∑(M −M̅̅̅)=M ∑MM −∑M ∑M√M ∑M −(∑M )?√M ∑M −(∑M )2. 相关系数的显着性检验步骤:1) 提出假设:M 0:ρ=0;M 1:ρ≠0 2) 计算检验统计量:t =|M |√M −21−M 2~M (M −2)3) 确定α并决策:|M |>M M 2,拒绝M 0;|M |<M M 2,不拒绝M 03. 一元回归模型:y =M 0+M 1M +?4. 一元线性回归方程形式:M (M )=M 0+M 1M ,其中M 0是直线方程在y 轴上的截距,是当M =0时,y 的期望值;M 1是直线的斜率,称为回归系数,表示当M 每变动一个单位时y 的平均变动值5. 一元线性回归中,估计的回归方程:M ̂=M ̂0+M ̂1M ,其中M ̂0是估计的回归直线在y 轴上的截距,M ̂1是直线的斜率,它表示对于一个给定的M 的值,M ̂是y 的估计值,表示当M 每变动一个单位时y 的平均变动值 6. 根据最小二乘法求M ̂0以及M ̂1的公式:{M ̂1=M ∑M M M M −(∑M M M M =1)(∑M M MM =1)M M =1M ∑M M M M =1(∑M M M M =1)M ̂0=M ̅̅̅−M 1M ̅̅̅7. 误差平方和之间的关系:∑(M M −M ̅̅̅)2=M M =1∑(M ̂M −M ̅̅̅)2+∑(M M −M M =1M M =1M ̂M )2,即:SST (总平方和)=SSR (回归平方和)+SSE(残差平方和)8. 判定系数(回归平方和占离差平方和的比例):M 2=MMM MMM=∑(M ̂M −M ̅̅̅)2M M =1∑(M M −M̅̅̅)2MM =1=1−∑(M M −M ̂M )2M M =1∑(M̂M −M ̅̅̅)2M M =19. 估计标准误差(实际观察值与回归估计值离差平方和的均方根):M M =√∑(M M −M̂M )2M M =1M −2=√MMM M −2=√MMM10. 线性关系的显着性检验:1) 提出假设:M 0:β1=0,线性关系不显着;M 1:β1≠0,有线性关系 2) 计算检验统计量:F =MMM 1⁄MMM M −2⁄=MMM MMM~M (1,M −2)3) 确定显着性水平α,并根据分子自由度1和分母自由度n-2找出临界值M M 4) 决策:若F >M M ,拒绝M 0;F <M M ,不拒绝M 0 11. 回归系数的显着性检验:1) 提出假设:M 0:β1=0,线性关系不显着;M 1:β1≠0,有线性关系 2) 计算检验统计量:t =M ̂1M M ̂1~M (M −2)3) 确定显着性水平α并决策:若|M |>M M 2⁄,拒绝M 0;|M |<M M 2⁄,不拒绝M 012. 置信区间估计:E (M 0)在1−α置信水平下的置信区间:M ̂0±M M 2⁄(M −2)M M √1M +(M 0−M ̅̅̅)2∑(M M −M̅̅̅)2MM =1 其中,M M 为估计标准误差,(n −2)为M M 2⁄的自由度13. 预测区间估计:M 0在1−α置信水平下的预测区间:M ̂0±M M 2⁄(M −2)M M √M +1M+(M 0−M ̅̅̅)2∑(M M −M̅̅̅)2M M =114. 回归分析表的结构: 15. 几点说明:1) 判定系数M 2测度了回归直线对观测数据的拟合程度,若所有观测点都落在直线上,残差平方和SSE=0,M 2=1,拟合是完全的2) 在一元线性回归中,相关系数r 实际上是判定系数M 2的平方根 3) 相关系数r 与回归系数M ̂1是同号的第十三章 时间序列预测和分析1. 环比增长率:报告期增长率与前一期水平之比减1:M M =M MM M −1−1 (i =1,2,Λ,n )2. 定基增长率:报告期水平与某一固定时期水平之比减1M M =M M M 0−1 (i =1,2,Λ,n ),其中, M 0表示用于对比的固定基期的观察值3. 平均增长率:序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果(描述现象在整个观察期内平均增长变化的程度)G ̅=√M 1M 0×M 2M 1×Λ×M MM M −1M −1=√MM M 0M−1,G ̅表示平均增长率,n 为环比值的个数1) 当时间序列中的观察值出现0或负数时,不宜计算增长率2) 在有些情况下,不宜单纯就增长率论增长率,要注意增长率与绝对水平的结合分析4. 时间序列预测的步骤:1) 确定时间序列所包含的成分,也就是确定时间序列的类型 2) 找出适合此类时间序列的预测方法3) 对可能的预测方法进行评估,以确定最佳预测方案 4) 利用最佳预测方案进行预测5. 均方误差:通过平方消去正负号后计算的平均误差,用MSE 表示MSE=∑(M M−M M)2MM=1M,其中M M为观测值,M M为预测值6.简单平均法:根据过去已有的t期观察值来预测下一期数值。