数据分析试验(SAS软件))

  • 格式:ppt
  • 大小:349.50 KB
  • 文档页数:33

下载文档原格式

  / 33
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

proc univariate 选项列表
▪ FREQ
产生一个次数分配表,这个表包括变量值的出现次 数、百分比及累积百分比;
▪ NORMAL
检定输入资料是否呈现正态分布,并且输出其检验 的结果;
指令
▪ VAR 变量名称串 1 列举需要进行描述性统计分析的变量名 称; 2 若省略此指令,将对输入文件中所有数 值变量进行分析; 3 若选用output指令,则不可省略var指令。
▪ 这六道指令可以按任何顺序出现。
proc univariate 选项列表
▪ Data=输入资料文件名称
若省略此选项,SAS会找出在本程序之前最后形 成的资料文件,并对它进行分析;
▪ Noprint
若只要产生统计值的输出文件,而不想印出报表, 可用 此选项来抑制报表的产生;
▪ Plot
产生三种图形:茎叶图或平行条状图、箱线图、 常态概率图;
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京
1
170.03
110.2
59.76
8.38
4.49
26.8
16.44
11.9
0.41
天津
1
141.55
82.58
50.98
13.4
9.33
21.3
12.36
9.21
1.05
河北
1
119.4
83.33
53.39
11
7.52
17.3
11.79
12
0.7
上海
1
194.53
例2续
▪ proc univariate data=shuru; ▪ var x1; ▪ output out=li2 median=median q1=q1
q3=q3 qrange=qujian; ▪ run; ▪ quit; ▪ proc print data=li2; ▪ run;
例3 直方图
13.5
7.47
19.11
20.49
10.3
1.76
PROC MEANS过程
▪ PROC MEANS options; ▪ VAR variables;指出数据集中要计算的变
量名称(应是数值变量) ▪ OUTPUT OUT=SAS data set
keyword=name …;建立一个由PROC MEANS过程的分析结果构成的SAS数据集
weight变量名称(数值变量,用以表示相应记录 的权重系数)
histogram 变量名称/选项列表 output <out=数据集名> <统计量关键字=自定义 变量名> var 变量名称(待分析的数值变量); run;
univariate过程的一般格式
▪ 在一个Univariate过程中,output指令可以 多次使用,但是其他六道指令只能出现一 次;
26.12
13.6
4.56
海南
1
143.79
99.97
45.6
6.3
1.56
18.67
29.49
11.8
3.82
四川
1
128.05
74.96
50.13
13.9
9.62
16.14
10.18
14.5
1021
云南
1
127.41
93.54
50.57
10.5
5.87
19.41
21.2
12.6
0.9
新疆
1
122.96
1.19
浙江
3
162.53
80.11
45.99
24.3
13.9
29.54
10.9
13
3.47
安徽
3
111.77
71.07
43.64
19.4
12.5
16.68
9.698
7.02
0.63
福建
3
139.09
79.09
44.19
18.5
10.5
20.23
16.47
7.67
3.08
湖南
3
124
84.66
44.05
指令
▪ BY 变量名称; UNIVARIATE程序依据此指令所列举的变 量,将文件分成几个小文件,然后就每个 小文件,分别执行分析,选用此指令时, 文件内的数据必须先按照BY变量串的值做 由大到小的重新排列,这个步骤也可借由 PROC SORT达成。
指令
▪ FREQ 变量名称: 这个变量必须是输入文件中的一个数值变 量,其值代表观察体重复出现的次数。 若此变量的值含小数,则取其整数部分。 若其值小于1,则此观察体将被剔除在计 算过程之外。
108.49
80.79
47.52
6.06
3.42
13.69
16.53
8.37
2.85
陕西
2
113.99
75.6
50.88
5.21
3.86
12.94
9.492
6.77
1.27
甘肃
2
114.06
84.31
52.78
7.81
5.44
10.82
16.43
3.79
1.19
青海
2
108.8
80.41
50.45
7.27
PROC CORR
PROC CORR 选项串; VAR 变量名称串; WITH 变量名称串; PARTIAL 变量名称; WEIGHT 变量名称; FREQ 变量名称; BY 变量名称串;
PROC CORR选项串
▪ 第一类选项:界定输出输入文件的名称: 1 DATA=输入文件名称 省略时如同其它过程 2 OUTP=输出文件名称 含有Pearson极差相关系数之矩阵、各变量的 平均数、 标准差、观察体个数; 3 OUTS=输出文件名称 含有Spearman极差相关系数之矩阵、各变量 的平均 数、标准差、观察体个数;
其中“options”包含下列内容
▪ DATA=SAS data set:指明所要分析的SAS 数据集名称.若省略此选项,则对最新建立的 数据集作分析.
▪ MAXDEC=:其中为介于0与8之间的一个正 整数,该选项指明在输出数据时小数点后保 留位.
统计量部分关键字及其含义
关键字 n nmiss mean std var median mode CV max
例1
▪ proc means data=shuru mean var std cv skew kurt;
▪ var x1; ▪ run;
Mean Variance Std Dev Variation Skewness Kurtosis
130.022 780.298 27.933 21.483 1.435
▪ proc univariate data=shuru; ▪ histogram x1; ▪ run;
例4茎叶图 正态QQ图
▪ proc univariate data=shuru plot; ▪ var x1; ▪ run;
例5 正态性检验
▪ proc univariate data=shuru normal; ▪ var x1; ▪ run;
output <out=数据集名> <统计量关键 字=自定义变量名>
▪ 例 output out=new mean=a var=b cv=c; ▪ 其中统计量关键字可以是前面的means过
程中的关键字,同时还有:
▪ normal 检验正态性的统计量 ▪ Probn 检验数据来自正态分布的假设的概
率值
4.07
8.371
18.98
5.95
0.83
宁夏
2
115.96
88.21
51.85
8.81
5.63
Fra Baidu bibliotek
13.95
22.65
4.75
0.97
辽宁
3
128.46
68.91
43.41
22.4
15.3
13.88
12.42
9.01
1.41
江苏
3
135.24
73.18
44.54
23.9
15.2
22.38
9.661
13.9
所代表的含义 有效数据记录数 缺失数据记录数 均值 标准差 方差 中位数 众数 变异系数 最大值
SAS中可以计算的描述性 统计量部分关键字及其含义
关键字 min css uss skew kurt clm lclm uclm qrange
所代表的含义 最小值 校正的离均差平方和 未校正的离均差平方和 偏度 峰度 可信限(上下界值) 可信限下侧界值 可信限上侧界值 四分位数间距
▪ 但UNIVARIATE能够对变量的分配情形提 供更多的信息:
计算四分位数; 绘制描述性分析图(茎叶图; 箱线图、QQ图等);检定资料是否呈现正态 分布; 产生统计值输出文件,以供稍后的分析。
univariate过程的一般格式
▪ proc univariate 选项列表; by 变量名称(分组变量); class 变量名称(分组变量); freq变量名称(数值变量,用以表示相应记录出 现的频数)
1.759
例2
▪ proc means data=shuru median q1 q3 qrange ; ▪ var x1; ▪ run;
三均值为:0.25×108.8+0.5×123.48+0.25×139.09
Proc UNIVARIATE
▪ 统计程序univariate与统计程序means的 功能大同小异,都可以计算数值变量的描 述性统计值
PROC CORR选项串
▪ 第二类选项:界定测量关系强度的方法, 内置值是Pearson: 1 PEARSON:要求计算积差相关系数,这 也是这类的内置值;如要同时计算 SPEARMAN、KENDALL、HOEFFDING 等则必须选用PEARSON; 2 SPEARMAN:若选此项,则不可同时选 用WEIGHT指令;
数据分析试验课2
理学院数学系 韩开山
▪ 一、 导入数据
▪ PROC IMPORT OUT= WORK.shuru

DATAFILE= "E:\韩开山\带课文件\
数据分析\试验\shuru.xls"

DBMS=EXCEL2000 REPLACE;
▪ GETNAMES=YES;
▪ RUN;
diqu
leix ing
101.4
69.7
6.3
3.86
11.3
18.96
5.62
4.62
山西
2
102.49
71.72
47.72
9.42
6.96
13.12
7.9
6.66
0.61
内蒙古
2
106.14
76.27
46.19
9.65
6.27
9.655
20.1
6.97
0.96
吉林
2
104.93
72.99
44.6
13.7
9.01
9.435
20.61
6.65
1.68
黑龙江
2
103.34
62.99
42.95
11.1
7.41
8.342
10.19
6.45
2.68
江西
2
98.089
69.45
43.04
11.4
7.95
10.59
16.5
7.69
1.08
河南
2
104.12
72.23
47.31
9.48
6.43
13.14
10.43
8.3
1.11
贵州
2
107.8
60.24
15.6
8.88
31
21.01
11.8
0.16
山东
1
130.46
86.21
52.3
15.9
10.5
20.61
12.14
9.61
0.47
湖北
1
119.29
85.41
53.02
13.1
8.44
13.87
16.47
8.38
0.51
广西
1
134.46
98.61
48.18
8.9
4.34
21.49
PROC CORR选项串
▪ 第三类选项:界定输出 COV:要求计算协方差矩阵 Nosimple:指明不输出每个变量的简单描
述性统计量的值。
PROC CORR指令串
▪ VAR 变量名称串 可在本指令中列举被分析的变量。若省略 此变量,则对所有数值变量进行分析。
▪ WITH 变量名称串 须跟VAR指令联用,WITH指令中列举的m 个变量,与VAR指令中列举的n个变量,将 联合产生m*n的矩阵。矩阵中,WITH的变 量是横列变量(Row),VAR的变量是纵 行变量(Column)。若只选用VAR指令而 忽略WITH指令,则产生n*n正方对称矩阵。
例6计算协方差矩阵及相关系数
▪ proc corr data=shuru pearson cov; ▪ var x1-x9; ▪ run;
例7 Spearman相关矩阵
▪ proc corr data=shuru spearman; ▪ var x1-x9; ▪ run;