数据挖掘习题及解答-完美版
- 格式:docx
- 大小:18.43 KB
- 文档页数:8
数据挖掘习题及解答■完美版
Data Mi ning Take Home Exam
学号: xxxx ____________ 姓名:XXX
1. (20分)考虑下表的数据集。
顾客ID 性别车型衬衣尺码类
1 家用小C0 d
2 运动中C0
3 运动中C0
4 运动大C0
5 运动加大C0
6 运动加大C0
7 运动小C0
8 运动小C0
9 运动中C0
10 豪华大C0
11 家用大C1
12 家用加大C1
13 家用中C1
14 豪华加大C1
15 豪华小C1
16 豪华小C1
17 豪华中C1
18 豪华中C1
19 豪华中C1
20 豪华大C1
(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini 指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1)
Gini=1-(10/20)八2-(10/20)八2=0.5
Gi ni=[{1-(6/10)八2-(4/10)八2}*1/2]*2=0.48
Gi ni={1-(1/4)2-(3/4)2}*4/20+{1-(8/8)2-(0/8)八2}*8/20+{1-(1/8)八2-(7/8)八2}*8/20 =26/160=0.1625
Gini={1-(3/5)2-(2/5)2}*5/20+{1-(3/7)2-(4/7)2}*7/20+[{1-(2/4)八2-(2/4)八2}*4/2
0]*2=8/25+6/35=0.4914
⑸
比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (20分)考虑下表中的购物篮事务数据集
(1)将每个事务ID视为一个购物篮,计算项集{e} ,{b,d}和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)
(4)使用(3)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。答:(1)由上表计数可得{ e }的支持度为8/10=0.8; { b, d }的支持度为2/10=0.2; {b,d,e}的支持度为2/10=0.2。
(2)c[{b,d} —{e}]=2/8=0.25;c[{e} —{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8, {b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4) c[{b,d} — {e}]=5/4=1.25, c[{e} — {b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分 R 输出结果。 > Is 仁 Im (y~x1+x2) > ano va (ls1)
> Is2<-lm(y~x2+x1) > ano va(ls2)
H o :劭=0
计算检验统计量;是否拒绝零假设,为什么?
H 0:伦=0
计算检验统计量;是否拒绝零假设,为什么?
x1 x2 Residuals
Df 1 1 7
Sum Sq 10021.2 4030.9
1130.7 Mean Sq 10021.2 4030.9 161.5
F value Pr(>F) 62.038 0.0001007 *** 24.954 0.0015735 **
Df Sum Sq Mea n Sq F value Pr(>F) x2
1 3363.4
3363.4 20.822 0.002595 x1 1 10688.7 10688.7 66.170 8.193e-05
Residuals 7 1130.7
161.5
(1)
用F 检验来检验以下假设(a
0.05)
(2) 用F 检验来检验以下假设(a= 0.05) (3) 用F 检验来检验以下假设(a= 0.05)
H0: p1 = 3 = 0
H a: 3和3并不都等于零
计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F ( 2, 7) =4.74, p<0.05,所以可以拒
绝原假设,即得到I;不等于0。
(2)同理,在0=0.05 的条件下,F=20.822>F(2,7)=4.74, p<0.05,即拒绝原假
设,得到旳不等于0。
(3)F={ (10021.2+4030.9 /2}/ (1130.7/7) =43.4973>F=(2,7)=4.74,即拒绝原假
设,得到灼和悅并不都等于0。
4. (20 分) 考虑下面20个观测值:
[1] -20.00 -0.516 -1.249 -0.510 25.000
⑹-0.561 -0.928 -0.023 0.714 0.374
[11] -0.377 0.830 0.838 0.874 -1.306
[16] 1.138 1.087 -1.489 2.524 0.713
(1)用3*S标准来检测该数据中是否存在异常值。
(2)用1.5*IQR标准来检测该数据中是否存在异常值。
要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据解:数据放入R运行得
>hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,
+ + -0.561,-0.928,-0.023,0.714,0.374,
+ + -0.377,0.830,0.838,0.874,-1.306,
+ + 1.138,1.087,-1.489,2.524,0.713)
>mean( hhh)
[1] 0.35665
>sqrt(var(hhh))
[1] 7.405346
>jjjv-(hhh-mea n( hhh))/sqrt(var(hhh))
>which(abs(jjj)>=3)
[1] 5
>Q1= qua ntile(hhh,0.25)
>Q3=qua ntile(hhh,0.75)
>IQR=Q3-Q1
>Q1
25%
-0.65275