数据挖掘习题及解答-完美版

  • 格式:docx
  • 大小:18.43 KB
  • 文档页数:8

下载文档原格式

  / 8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘习题及解答■完美版

Data Mi ning Take Home Exam

学号: xxxx ____________ 姓名:XXX

1. (20分)考虑下表的数据集。

顾客ID 性别车型衬衣尺码类

1 家用小C0 d

2 运动中C0

3 运动中C0

4 运动大C0

5 运动加大C0

6 运动加大C0

7 运动小C0

8 运动小C0

9 运动中C0

10 豪华大C0

11 家用大C1

12 家用加大C1

13 家用中C1

14 豪华加大C1

15 豪华小C1

16 豪华小C1

17 豪华中C1

18 豪华中C1

19 豪华中C1

20 豪华大C1

(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值

(3)计算使用多路划分属性车型的Gini指标值

(4)计算使用多路划分属性衬衣尺码的Gini 指标值

(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1)

Gini=1-(10/20)八2-(10/20)八2=0.5

Gi ni=[{1-(6/10)八2-(4/10)八2}*1/2]*2=0.48

Gi ni={1-(1/4)2-(3/4)2}*4/20+{1-(8/8)2-(0/8)八2}*8/20+{1-(1/8)八2-(7/8)八2}*8/20 =26/160=0.1625

Gini={1-(3/5)2-(2/5)2}*5/20+{1-(3/7)2-(4/7)2}*7/20+[{1-(2/4)八2-(2/4)八2}*4/2

0]*2=8/25+6/35=0.4914

比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (20分)考虑下表中的购物篮事务数据集

(1)将每个事务ID视为一个购物篮,计算项集{e} ,{b,d}和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)

(4)使用(3)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。答:(1)由上表计数可得{ e }的支持度为8/10=0.8; { b, d }的支持度为2/10=0.2; {b,d,e}的支持度为2/10=0.2。

(2)c[{b,d} —{e}]=2/8=0.25;c[{e} —{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8, {b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4) c[{b,d} — {e}]=5/4=1.25, c[{e} — {b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分 R 输出结果。 > Is 仁 Im (y~x1+x2) > ano va (ls1)

> Is2<-lm(y~x2+x1) > ano va(ls2)

H o :劭=0

计算检验统计量;是否拒绝零假设,为什么?

H 0:伦=0

计算检验统计量;是否拒绝零假设,为什么?

x1 x2 Residuals

Df 1 1 7

Sum Sq 10021.2 4030.9

1130.7 Mean Sq 10021.2 4030.9 161.5

F value Pr(>F) 62.038 0.0001007 *** 24.954 0.0015735 **

Df Sum Sq Mea n Sq F value Pr(>F) x2

1 3363.4

3363.4 20.822 0.002595 x1 1 10688.7 10688.7 66.170 8.193e-05

Residuals 7 1130.7

161.5

(1)

用F 检验来检验以下假设(a

0.05)

(2) 用F 检验来检验以下假设(a= 0.05) (3) 用F 检验来检验以下假设(a= 0.05)

H0: p1 = 3 = 0

H a: 3和3并不都等于零

计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F ( 2, 7) =4.74, p<0.05,所以可以拒

绝原假设,即得到I;不等于0。

(2)同理,在0=0.05 的条件下,F=20.822>F(2,7)=4.74, p<0.05,即拒绝原假

设,得到旳不等于0。

(3)F={ (10021.2+4030.9 /2}/ (1130.7/7) =43.4973>F=(2,7)=4.74,即拒绝原假

设,得到灼和悅并不都等于0。

4. (20 分) 考虑下面20个观测值:

[1] -20.00 -0.516 -1.249 -0.510 25.000

⑹-0.561 -0.928 -0.023 0.714 0.374

[11] -0.377 0.830 0.838 0.874 -1.306

[16] 1.138 1.087 -1.489 2.524 0.713

(1)用3*S标准来检测该数据中是否存在异常值。

(2)用1.5*IQR标准来检测该数据中是否存在异常值。

要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据解:数据放入R运行得

>hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,

+ + -0.561,-0.928,-0.023,0.714,0.374,

+ + -0.377,0.830,0.838,0.874,-1.306,

+ + 1.138,1.087,-1.489,2.524,0.713)

>mean( hhh)

[1] 0.35665

>sqrt(var(hhh))

[1] 7.405346

>jjjv-(hhh-mea n( hhh))/sqrt(var(hhh))

>which(abs(jjj)>=3)

[1] 5

>Q1= qua ntile(hhh,0.25)

>Q3=qua ntile(hhh,0.75)

>IQR=Q3-Q1

>Q1

25%

-0.65275

相关主题