四川大学计算机学院2013-2014学年数据挖掘试题
- 格式:pdf
- 大小:255.54 KB
- 文档页数:2
大数据时代下数据挖掘试题与答案什么是数据挖掘?数据挖掘是从大量数据中自动或半自动的发现知识和信息的过程。
数据挖掘算法可以用于分类、聚类、预测和关联分析等领域。
随着大数据时代的到来,数据挖掘的应用越来越广泛,已成为数据科学家必备的技能之一。
数据挖掘的步骤数据挖掘一般需要经过以下步骤:1.数据预处理:包括数据清洗、数据集成、数据变换和数据规约等步骤,目的是去除噪声和错误,增加数据的质量。
2.特征选择:根据算法的需求选择样本的特定特征,去除无关特征和冗余特征。
3.算法选择:根据数据类型和建模需求选择相应的数据挖掘算法。
4.数据建模:将预处理后的数据输入到选择的算法中进行数据建模,得到模型。
5.模型评价:评估模型的准确率和可靠性,以改进模型和提高预测精度。
6.模型应用:将模型应用到新的数据中进行预测或分类等任务。
常用的数据挖掘算法1.KNN算法:K近邻算法是基于样本相似度进行分类的,分类时采用与待分类样本相似度最高的K个样本作为参照,根据它们的类别多数表决决定待分类样本的类别。
2.决策树算法:决策树算法通过对样本的不断划分,建立起一棵决策树,用于分类和预测。
3.聚类分析算法:聚类分析是将样本划分为不同的组或类别,使组内的样本相似度较高,组间的相似度较低,用于无监督学习。
4.关联分析算法:关联分析算法用于挖掘多个特征之间的关系和规律,常用于购物篮分析和客户分群等领域。
大数据时代下的数据挖掘挑战随着大数据的不断增长和数据种类的丰富多样,数据挖掘面临着以下挑战:1.数据质量问题:大数据中存在很多杂乱和不一致的数据,也存在许多错误和缺失,挖掘这些数据需要解决数据质量问题。
2.算法效率问题:由于大数据量和高复杂性,传统的算法可能无法处理这些数据,需要开发高效率和高并行度的算法。
3.隐私安全问题:随着数据的不断增长,数据隐私和安全问题日益严重,如何保证数据的安全性成为挖掘大数据的必要条件。
数据挖掘的应用场景数据挖掘的应用场景十分广泛,下面列出常见的场景:1.金融领域:货币流向分析、风险控制和金融市场预测等。
数据挖掘试题及答案数据挖掘是一门利用数据分析技术从大量的数据集中发现规律、模式和知识的过程。
它对我们理解和利用数据提供了有力的支持,被广泛应用于商业、科学研究等领域。
下面是一些常见的数据挖掘试题及其答案。
试题一:什么是数据挖掘?答案:数据挖掘是指利用计算机技术和统计学方法,从大规模数据集中发现隐藏在其中的有价值的信息和知识的过程。
它包括数据预处理、特征选择、模型构建以及模式识别和知识发现等步骤。
试题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。
分类是指将数据集中的样本划分到不同的类别中;聚类是将数据集划分为若干个相似的组;关联规则挖掘是找出数据中项之间的关联关系;异常检测是识别与正常模式不符的数据。
试题三:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、聚类算法、关联规则算法和神经网络等。
决策树算法通过对数据集进行划分,构建一棵树形结构用于分类;聚类算法根据相似度将数据集分为不同的簇;关联规则算法用于发现数据集中项之间的关联关系;神经网络模拟人脑的神经元网络结构,用于数据分类和预测。
试题四:数据挖掘的应用场景有哪些?答案:数据挖掘的应用场景非常广泛。
在商业领域,它可以帮助企业进行市场分析、客户关系管理和产品推荐等;在科学研究中,它能够帮助科学家从大量的实验数据中发现新的知识和规律;在医疗领域,它可以辅助医生进行疾病诊断和治疗方案选择等。
试题五:数据挖掘存在的挑战有哪些?答案:数据挖掘存在一些挑战,包括数据质量不高、维度灾难、算法性能和可解释性等方面。
数据质量不高可能导致挖掘结果不准确;维度灾难是指当数据特征数量很多时,算法的计算复杂度急剧增加;算法性能要求高,对大规模数据集的挖掘需要高效的算法;可解释性是指挖掘结果是否易于被理解和解释。
以上是一些常见的数据挖掘试题及其答案。
通过理解和掌握数据挖掘的基本概念、任务、算法和应用场景,可以帮助我们更好地运用数据挖掘技术,从海量数据中提取有价值的信息和知识,为决策和创新提供支持。
大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘工程师笔试及答案整理2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。
经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。
此外,对实时性要求不强时,可以使用数据库缓存。
2、TCP/IP的四层结构(10分)3、什么是MVC结构,简要介绍各层结构的作用(10分)Model、view、control。
我之前有写过一篇《MVC层次的划分》二、算法与程序设计(45分)1、由a-z、0-9组成3位的字符密码,设计一个算法,列出并打印所有可能的密码组合(可用伪代码、C、C++、Java 实现)(15分)把a-z,0-9共(26+10)个字符做成一个数组,然后用三个fo r循环遍历即可。
每一层的遍历都是从数组的第0位开始。
2、实现字符串反转函数(15分)#include &lt;iostream>#include &lt;string&gt;using namespace std;void main(){string s = "abcdefghijklm";cout <;&lt; s <;<;endl;int len =s.length();char temp ='a';for(int i= 0;i &lt; len/2; i++){temp=s[i];s[i] = s[len- 1 - i];s[len- 1 - i]= temp;}cout&lt;< s;}3、百度凤巢系统,广告客户购买一系列关键词,数据结构如下:(15分)User1 手机智能手机iphone 台式机…User2手机iphone 笔记本电脑三星手机…User3 htc 平板电脑手机…(1)根据以上数据结构对关键词进行KMeans聚类,请列出关键词的向量表示、距离公式和KMeans算法的整体步骤KMeans方法一个很重要的部分就是如何定义距离,而距离又牵扯到特征向量的定义,毕竟距离是对两个特征向量进行衡量。
1.什么叫数据挖掘?数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程。
2.数据挖掘一般有哪些步骤?从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。
对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。
数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
不然,挖掘的结果会差强人意。
步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
按粒度组织数据的方式主要有:①简单堆积结构②轮转综合结构③简单直接结构④连续结构3.简述数据仓库设计的三级模型及其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。
4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
5.简述数据预处理方法和内容。
①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。
2014~ 2015学年 第二学期期末考试数据挖掘技术 试卷(A 卷)参考答案 使用班级 1250411/12/13/14 答题时间_120分钟_一、填空题 (共10空, 每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。
2.数据集的三个重要特性:_维度、稀疏性、分辨率。
二、判断题 (共10小题, 每小题1分,共10分)判断下列3~7小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。
( F )4.决策树方法通常用于关联规则挖掘。
( F )5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。
( T )6.Clementine 是IBM 公司的专业级数据挖掘软件。
( T )7.具有较高的支持度的项集具有较高的置信度。
( F ) 判断下列8~12小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。
( T )9.监测病人心率的异常变化 。
( F ) 10.监测地震活动的地震波 。
( F ) 11.提取声波的频率 。
( F )12.根据顾客喜好摆放商品位置。
( T )三、简答题(6个小题,每小题5分,共30分)13. 什么是信息熵?答:信息熵(entropy)是用来度量一个属性的信息量(1分)。
假定S 为训练集,S 的目标属性C 具有m 个可能的类标号值,C={C1,C2,…,Cm},假定训练集S 中,Ci 在所有样本中出现的频率为 (i=1,2,3,…,m),则该训练集S 所包含的信息熵定义为: (3分) 熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。
(1分) 14.什么是文本挖掘?答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。
(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。
(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。
数据挖掘及应用考试试题及答案一、选择题(每题2分,共20分)1. 以下哪项不属于数据挖掘的主要任务?A. 分类B. 聚类C. 关联规则挖掘D. 数据清洗答案:D2. 数据挖掘中,以下哪项技术不属于关联规则挖掘的方法?A. Apriori算法B. FP-growth算法C. ID3算法D. 决策树算法答案:C3. 以下哪个算法不属于聚类算法?A. K-means算法B. DBSCAN算法C. Apriori算法D. 层次聚类算法答案:C4. 数据挖掘中,以下哪个属性类型不适合进行关联规则挖掘?A. 连续型属性B. 离散型属性C. 二进制属性D. 有序属性答案:A5. 数据挖掘中,以下哪个评估指标用于衡量分类模型的性能?A. 准确率B. 精确度C. 召回率D. 所有以上选项答案:D二、填空题(每题3分,共30分)6. 数据挖掘的目的是从大量数据中挖掘出有价值的________和________。
答案:知识;模式7. 数据挖掘的主要任务包括分类、聚类、关联规则挖掘和________。
答案:预测分析8. Apriori算法中,最小支持度(min_support)和最小置信度(min_confidence)是两个重要的参数,它们分别用于控制________和________。
答案:频繁项集;强规则9. 在K-means聚类算法中,聚类结果的好坏取决于________和________。
答案:初始聚类中心;迭代次数10. 数据挖掘中,决策树算法的构建过程主要包括________、________和________三个步骤。
答案:选择最佳分割属性;生成子节点;剪枝三、判断题(每题2分,共20分)11. 数据挖掘是数据库技术的一个延伸,它的目的是从大量数据中提取有价值的信息。
()答案:√12. 数据挖掘过程中,数据清洗是必不可少的步骤,用于提高数据质量。
()答案:√13. 数据挖掘中,分类和聚类是两个不同的任务,分类需要训练集,而聚类不需要。
注:试题字迹务必清晰,书写工整。
本题2页,本页为第1页教务处试题编号:四川大学期末考试试题(2014-2015学年第1学期)课程号: 课程名称: 数据结构与算法分析(A 卷) 任课教师:适用专业年级: 学号:姓名:1.在一棵高度为5的2叉树中,所含结点个数最多为( )。
A )30B )31C )32D )292.当求链表的直接后继与求直接前驱的时间复杂度都相同时,此链表应为( )。
A )单链表B )双向链表C )单向循环链表D )前面都不正确 3.队列的工作方式是( )。
A )可在队尾删除B )可在队头插入C )先进先出D )先进后出 4.若串S="software",其子串数目是( )。
A )8B )37C )36D )95.设一棵二叉树中没有度为1的结点,已知叶子结点数为n ,此树的结点数为( )。
A )2n+2B )2n+1C )2nD )2n-1 6.对于具有n 个顶点的强连有向图,其有向边条数的最小值为( )。
A )n+1B )nC )n-1D )n-27.已知某二叉树先序遍历为A ,B ,D ,C ,E ,则它可能的中序遍历序列为( )。
A )B ,C ,A ,D ,E B )C ,B ,A ,D ,E C )B ,E ,A ,C ,D D )B ,D ,A ,E ,C 8.在折半查找中,第i 次查找成功的记录个数最多为( )。
A )2iB )2i+1C )2i -1D )2i-1 9.快速排序执行一遍之后,已经到位的元素个数是( )。
A )1B )3C )4nD )2n10.如果只想得到1000个元素组成的序列中第5个最小元素之前的部分排序的序列,用( )方法平均时间最少。
A )起泡排序B )简单选择排序C )Shell 排序D )堆排序 二、(本题10分)一棵非空的有向树中恰有一个顶点入度为0,其他顶点入度为1。
但一个恰有一个顶点入度为0、其他顶点入度为1的有向图却不一定是一棵有向树。
1213年第2学期《数据挖掘与知识发现》期末考试试卷及答案12/13年第2学期《数据挖掘与知识发现》期末考试试卷及答案一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。
(20分)数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。
数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。
步骤:1)数据清理(消除噪声或不一致数据)2)数据集成(多种数据源可以组合在一起)3 )数据选择(从数据库中检索与分析任务相关的数据)4 )数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,使用智能方法提取数据模式)6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;)7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)二、元数据的定义是什么?元数据包括哪些内容?(20分)元数据是关于数据的数据。
在数据仓库中,元数据是定义仓库对象的数据。
元数据包括:数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义,以及数据集市的位置和内容。
操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。
汇总算法,包括度量和维定义算法,数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。
由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述,数据划分,数据提取、清理、转换规则和缺省值,数据刷新和净化规则,安全(用户授权和存取控制)。
关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。
商务元数据,包括商务术语和定义,数据拥有者信息和收费策略。
三、在O L A P中,如何使用概念分层?请解释多维数据模型中的OLAP上卷下钻切片切块和转轴操作。
(20分)在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。
第 - 1 - 页 共 3 页数据挖掘试卷课程代码: C0204413 课程: 数据挖掘A 卷一、判断题(每题1分,10分)1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
( )2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
( )3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
( )4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。
( )5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。
( )6. 属性的性质不必与用来度量他的值的性质相同。
( )7. 全链对噪声点和离群点很敏感。
( )8. 对于非对称的属性,只有非零值才是重要的。
( ) 9. K 均值可以很好的处理不同密度的数据。
( ) 10. 单链技术擅长处理椭圆形状的簇。
( )二、选择题(每题2分,30分)1。
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )A 。
分类B 。
聚类C 。
关联分析D 。
主成分分析2。
( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A 。
MIN(单链)B 。
MAX (全链)C 。
组平均D 。
Ward 方法3。
数据挖掘的经典案例“啤酒与尿布试验"最主要是应用了( )数据挖掘方法。
A 分类 B 预测 C 关联规则分析 D 聚类 4。
关于K 均值和DBSCAN 的比较,以下说法不正确的是( )A.K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。
B.K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。
C 。
K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇 D.K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5。
四川大学期末考试试题(闭卷)(2014-2015学年第1学期)1. Multipl e Choices (20 marks, 2 marks for each)1)、The foll owing are functions of a DBMS except ( )A. c reating and processing formsB. creating d at abasesC. processing d at aD. a dministrating d at abases2)、In a one-to-many rel ationship, the entity that is on the one sid e of the rel ationship is call ed a ( )entity .A. p arentB. c hil dC. i nst anceD. s ubtype3)、When the values in one or more attributes being used as a foreign key must exist in another set of one or more attributes in another t abl e, we have created a ( ):A. transitive d epend ency .B. insertion anomaly.C. referential integrity constraint.D. normal form.4)) A tupl e is a ( ):A. column of a t abl e.B. two dimensional t abl e.C. row of a t abl e.D. key of a t abl e.5)、In which of the foll owing is a singl e-entity inst ance of one type rel ated to many entity inst ances of another type?()( )A. One-to-One Rel ationshipB. One-to-Many Rel ationshipC. Many-to-Many Rel ationshipD. Composite Rel ationship6)、Which of the foll owing is NOT a basic el ement of all versions of the E-R mod el?( )A. EntitiesB. AttributesC. Rel ationshipsD. Primary keys7)、The DROP T ABLE st atement:()A. d el etes the t abl e structure only.B. d el etes the t abl e structure al ong with the t abl e d at a.C. works whether or not referential integrity constraint s woul d be viol ated.D. is not an SQL st atement.8)、SQL views can be used to hid e:()A. columns and rows only.B. complicated SQL synt ax only.C. both of the above can be hid d en by an SQL view.D. None of the above is correct.9)、The first step in d at abase d evel opment is which of the foll owing?()A. Enterprise d at a mod elingB. Logical d at abase d esignC. Physical d at abase d esign and d efinitionD. Dat abase Impl ement ation10)、Which of the foll owing d at abase activities d etermines the entities, attributes, and rel ationships of d at a?()A. Conceptual d at a mod elingB. Logical d at abase d esignC. Physical d at abase d esign and d efinitionD. Dat abase impl ement ation2.Write SQL st atement s (30 marks, 6 marks for each)keys are underlined.branch (branch_name, branch_city, assets)customer (customer_name, customer_street, customer_city)loan (loan_number, branch_name, amount)borrower (customer_name, loan_numbe r)account (account_number, branch_name, balance)depositor (customer_name, account_number)From the database schema above, give an expression in SQL for each of queries 2, 3, 4 and 5.1)、Define the relation “account” in SQL.Tip: Describe primary keys, foreign keys and check constrains if necessary.2)、To find all loan number for loans made at the Perryridge branch with loan amounts greater than $1200.3)、Find all customers who have both a loan and an account4)、Find the names of all branches where the average account balance is more than $1,200.5)、Find all loan number which appear in the loan relation with null values for amount1)、What is the purpose of the index mechanism in database system? And give the definitions of primary index and secondary index.2)、Please list the five duties of a database administrator3)、Please give the definition of “trigger” in database system.4)、Explain the distinctions among the terms superkey, candidate key and primary key.4、Dat abase Design (30 marks)You are first required to create a conceptual data model of the data requirements for a company that specializes in IT training and then map the conceptual data model into a relational schema. The Company has 30 instructors and can handle up to 100 trainees per training session. The Company offers five advanced technology courses, each of which is taught by a teaching team of two or more instructors. Each instructor is assigned to a maximum of two teaching teams or may be assigned to do research. Each trainee undertakes one advanced technology course per training session.1) 、Identify the main entity types for the company.2)、Identify the main relationship types and specify the multiplicity for each relationship. State any assumptions you make about the data.3)、Using your answers for the previous two to draw a single ER model to represent the data requirements for the company.4)、Convert the E-R model into a relational schema using the mapping algorithm specified in this course. Specify key and referential integrity constraints, using directed arcs. Make sure you also identify alternate keys. Label each step of the mapping algorithm.。
材料科学与工程学院(42人)校级优秀毕业生(28人)周艺璇王晗方志敏毕雪谢李旭郭郎婷贺曦倩蒋磊郝尧解明皓刘倩韩宇孙昭乾陈维涂旭峰冉红梅郭淼何思颖庄艳黄昭阳文聪付冬冬高腾刘子玉王锦豪陈慈申王明哲彭博校级优秀毕业生干部(14人)马枭周云川杨震王艺李昕炀刘鹏程张宇佳杨柳吴虹见海楠向恒郑刚卢红婷高旭电气信息学院(58人)校级优秀毕业生(39人)唐铄雅谭鹏韩翔宇丰遥王迪余健赵浩然李咨汶杨跃王炫丹陈畅赵世林赵劲帅苗丹杨雨洁陈宝平张程翔李成标马玲合达袁尊隆胡彦丞陈琳刘森斌范思源尹航张含杨谨瑞赵明宇孙伙文游军杰邹娜 师宇珺罗怡汪鑫廖承哲李彭朱传清周祥喜校级优秀毕业生干部(19人)刘远帆杨龙杰邹娇黄柯蒙牛慧颖任思王命福李兴建沈润鹏李烨琴杨帆鲜浩李敬诚陈晓超侯宇张又天韦修财李欣张媛媛电子信息学院(58人)校级优秀毕业生 (41人)连秋宇唐可欣杨超周龙王贤桂肖航王钊南余晨王姝李高磊穆雅鑫李怀莲鄢小慧肖玮施丽琴迟晓桐汪钰刘洁琼冯俊羲张廷蓉陆韬宇贾晓彤文鸿郑亚琪衣凤羽周航赵航陆少鹏王思琪刘梓溪覃海湄周敏帖栋修祝子祎腾忠伟余至诚田玉婷吴勇晓彭志伟余翔深鄢其力校级优秀毕业生干部 (17人)蔺怡璇李鹤兮高蕊翁鹏飞刘圣忠宋创创陈满杨志良崔媛媛顾晓华孙默寒涂黎维吴月尹韬策赖志国张超赵琪法学院(28人)校级优秀毕业生(19人)冯沛波王圣宇杨蕾胡煦妍胡谍张苗苗陈彦希李宏基杨倩李晶张卓娅乔婉丽樊元涛郭馨段玉婷雷清琳朱鹏胥家信明晨校级优秀毕业生干部(9人)李欣怡王一婧杨子涵周媛媛钱丰恺江宗芩熊真珍王梓旭李晗睿高分子科学与工程学院(35人)校级优秀毕业生(30人)梁利娜韩智媛陆哲超王海萍杨丽萍杨墨刘珮茹张齐艳李朝杨洁施光宇孙小蓉郭文文苏昱恺余婷周小芳崔少莹雍雯雯彭媛梦张丽莎党闪闪陈淼郭墨林吴斯琦张秋静蒲水琴罗元林韩阳阳姚化桐张慧贤校级优秀毕业生干部(5人)李慧鑫贺辉胡中杰杨明锡孔毅公共管理学院(46人)校级优秀毕业生( 38人)虎嘉瑞段美珍刘海燕薛濛宋雅倩刘晓翥黄婕能曹梦潇张越邓云雁王珏丁碧洋姜舒寒杨谱芸李婉莹傅怡然谢宇君杜彬彬宋文弢岳海旭舒晨宋亚旭欧忻林玲徐景昀杨璐周星任许炮金国栋贾一航刘楚楚邹婧琳蒋小蓉刘任烨赵悦乌达木翟婷高逸超校级优秀毕业生干部(8人)刘国栋刘海燕张越赵翰书王春燕代阳强正佩贾一航华西公共卫生学院(26人)校级优秀毕业生(19人)刘思静王瑶蒋明娟李姗珊陈亚玲霍大柱宋雨亭牟雨婵姚永娜刘毅王立娟姜媛吴成周婷刘小锦齐鸿超吴迪管晨滔申太华校级优秀毕业生干部(7人)郜佳曾苗张雅敏幸凤蛟孙晓蒙王俊元赵磊化学工程学院(79人)校级优秀毕业生(54人)曾际颖陈佳燕秦杨梅雷芷芯黄烨吕永博刘尊妍陈若松程郡王晓姣沈鑫刘芳黄积武王丽苹陈思静胡容张彦书苏叔均高玉莹王渲皓罗田刘基臣张伟立李永胜姜鹏蔡泉威李丰李彦成潘大伟杨东祝捷严张艳于洋洋吴一凡尚一丰梅松松李秦灿胡金鹏高荣明胡雨谭薇桑继伟贺娟杜宇张建华陈寿同夏婷张迪刘露月刘晓晨张文婷段兰娟祁奥新贾晓艳校级优秀毕业生干部(25人)毛奇烽赵海川王彦镐沈月音赵斐杰王程汪瑶燕雯陈志浩丁枭辉谢艺吕薛牟文茜丁一航李达颜培洁冯洋兵张真李海涛唐梦蛟王璨万成明张平张莉萍谢枭楠化学学院(32人)校级优秀毕业生(21人)曲琳陈煜双施蒂儿周会琴杨梦莹肖亚平赵文扬肖梦育白云平黄芙蓉周怡鹏蔡娇孟岩赵雪陈瑞雪孙娟娟王玉邢秀京曹警予杨洋纪杰城校级优秀毕业生干部(11人)徐冰洁邓杰杨鹏马娟沈小艳王青詹梓炫徐盼柳媛王茂蝶沈斌华西基础医学与法医学院(10人)校级优秀毕业生(7人)陈慧刘燊华高春娇王晓姣陈才美刘耀刘晓巍校级优秀毕业生干部(3人)黄博珅杨以文陈彦宇计算机学院(71人)校级优秀毕业生(48人)宗传涛朱能军杨薇肖禹亭王 恋吕晋雄李文珂 何丽坤陈函朱金玉陈彦伶杨润东肖俊斌唐绍枫罗晓博李心盟何浩文陈雷张紫琳尹光宗杨鲁王玉娇宋 杰刘赟李静段孟仙李珍琳张苗庞廷海杨丹王冉荣俸萍刘林封黎婷婷戴菲菲蔡梦倩袁保国杜思雨杨敏王建飞任杰郑万刚胡耀炜程泽洲王奇峰蔡惠於彦君李冠一校级优秀毕业生干部(23人)郑集慧 钟卓岑张远 赵轩 周路杨雪松徐璐冉谢瑞麟 彭子入马晨曦高岩戴丰芮卢松李育 白帆何兵 王枫 李彤张清晨秦璐吴思佩刘重阳李紫剑建筑与环境学院(53人)校级优秀毕业生(39人)刘思思王轶超张喆肖雨佳张子逸 黄敏瑶冯琳任梓帅柯亭伶刘晶刘艳秋王君江睿琪张丹王振邓睿李阳朱会平储鹏程方宁杰黄倩雯郭征明胡莹熊雪露陈琦金薇周琪郭文健张文兵李华飞黄振华施玉瑶肖月乔文珊由英哲杨毅王帅卢晓辉郭卉校级优秀毕业生干部(14人)张帆刘冠男梁宏飞宋月王玲邓睿王振李阳丁艺喆陈森周杨李睿郭灿李博军经济学院(71人)校级优秀毕业生(45人)胡珠管航蒙诗霞 姜召花 刘珊珊 蒙柳竹 王晓芳 卜敏慧 顾洋王琦雯 曹玥 廖蕾 胡思奕 罗家梨 李彬 蒲越 吴娉雯 丁春花 宋浩 杨薛融 苏君韬 冯茜王言陈舒虹全婷孟文晶佟瑜金冀红温筱奕曹倩黄晓霜梁杰源颜缙郭凯迪李璐吴思雨童一奇 高立李诗菊杨静晗 夏欣宜 王齐蔡菲莹郁颖文 李心杨 校级优秀毕业生干部(26人)李佳颖赵一霏袁静羽 郑林炎 龚军 李宁 冉春华 吴金宴 王林卉吴为然 蔡若凡徐微 白天明熊汝懿 吴皞杰杨文举 刘辛于思敏 熊莹萌 张经纬尹雨戴欣 郑文颖 丁越 蒲文杰 程翔华西口腔医学院(8人)校级优秀毕业生(6人)杨娴睿郑欣余汶静姜喜亮唐爽万凌云校级优秀毕业生干部(2人)葛艳萍申道南历史文化学院(29人)校级优秀毕业生(20人)刘韵俞佳高烨张俊阎翠宋丹权文婷董苗赵威炜张鸿财杨尧陈帆何小芳袁静婷杨环环梁婷章振颖杨岳轩苏成城王星校级优秀毕业生干部(9人)李坤晔任靓贺逸云杜沁乔亚雄高瑞舒皓羽刘梦婷金闪闪华西临床医学院(58人)校级优秀毕业生(36人)李一飞任洁钏李燕燕李镭唐紫薇马宏伟肖至兰张璐贾昕彤应令雯刘昱坤余乐唐林立韦诗友周璞真申蓓蕾姚傲周闻禄宋媛媛李静李思燚斯艺李心仪郑雨尹森林赵蕊李颖聂攀周旻向立历游华轩黄靖 张馨予 卢山杨扬张晓圆校级优秀毕业生干部(22人)魏明天戎鑫魏明天胡宗莉王乔孙映荷赵俊飞吕潇韦琛琛黄瑶楠彭仕允杨婷婷杨翼袁媛邵裕粟曾小庆黄润鑫李思辰江佳璐舒驰易冬妮胡博文轻纺与食品学院(46人)校级优秀毕业生(28人)薛江超戴莉杨宇王斯蕙谢娇王吉平黄凡王芳周明朱一伦李志刚王家星陈婧司李群龙 舒康廷 邓松刘福权欧莉莉雷雨刘柳含潘蕾王一凡周廷婷孟虎陈芮常潇马勤雷天阔校级优秀毕业生干部(18人)张立彪田赛琦刘奕钿卢家园魏达刘跃杨双骏郭佳艳杨彩娇张翼蓝姜易兰李琴 传琦李艳秋金青蔡雨苏宋芸李天智软件学院(49人)校级优秀毕业生(34人)邓婷袁珂李利娟李伟李晓帅宋廷龙苑恺张一鸣鲁亚男陈正海陈毅豪曾扬万梦玉李伟民李鹤童黄顺婷朱婷唐彩焱黄卫智张望刘琪琪邓盈杜东舫臧家华王雯鑫贺垚贺盼苏欣刘飞鹏杜袁茵夏亦谦姚淑慧成柯葳李雪莉校级优秀毕业生干部(15人)李珺黄小卉叶明臻石小林王兴张洪伟李佳其尹卫杰许昕珑侯艳华张媛张梦琪王锐余瀚游孔莉莉商学院(66人)校级优秀毕业生(50人)刘劲松 程琳 薛宇婷 王彦婷 海贝 杨璐 林琳 安芮 彭晓敏杨雅婷 赵若妤 熊迅 王红香 梁攀 赵嘉怡 李婧 杨朦晰 郑贤莉 李丽艳 赵艳斐 吴坤蔚 马倩雯 肖笛 董贵华 李滕 赵伊宁 曲璇詹冰珂 刘曦遥 俞开业洪琳谢婷钟琦君石晨曦黄琳郭兴兴王润喆范露容何玥丁洁李雅俐董香寒吴丹峰王奥文王辰宇田俊蕾王中方仇成伟楠潘少辉李忆秋校级优秀毕业生干部(16人)黄璜 陈春晓 游洋 张万强 曲乐 潘晓策 刘余 熊燕燕 胡鹏飞 汪洋 刘华峰 梁兰郑晓鹤蒋位玲王燊李乐生命科学学院(22人)校级优秀毕业生(14人)路遥龙敏王梦瑶赵琪张天杨晗何伶利韩悦倪江霞于正洋彭程瑶陈之尧李浩李雪菁校级优秀毕业生干部(8人)李淑芬舒雪琴杨淇周序力刘远修茶文琼何琪徐政数学学院(19人)校级优秀毕业生(15人)田野赖泽扬和泽玲陈泽材温沛雨郭宗怀阴越郭潇月戴烜中任梦钊刘文龙孙琳媛沈朱彬苏嘉豪温耀雄校级优秀毕业生干部(4人)金泽欣 张绍群周姗姗严珂玮水利水电学院(61人)校级优秀毕业生(42人)刘思宇杨沛贾鹏飞李艾挺周泽友曹蕊刘琦李剑伟张晓跃刘燚周雪菲钟小庆尹霄牟燕王宝琪宋以兴尹硕曾敏军王守光杜征寇清剑李雪黄月华李乾德蒋炼刘加丽徐山琳陈啸曾昭高张祺袁艳玲张溪申嘉荣郭霓李旭董美玉蒋楠邹璇向航江方利张刚毅张隆松校级优秀毕业生干部(19人)彭微王兆淼刘璐瑶马向林万懿纬冯禹黄嘉秋付萧高海涵王芹周月储志强钟娅李东旭刘燚程舜冯鹏景朝霞范野夫外国语学院(14人)校级优秀毕业生(11人)王璞杨芸菊陈雪梅杨镜台刘秋岑刘佳林薛瑜清李琦徐小乔尹佳琪庄严校级优秀毕业生干部(3人)李佳伟陈施薛景文学与新闻学院(67人)校级优秀毕业生(47人)庞雨薇夏迪鑫王瑜吴天昊邱建华撒叶影周圆许文谦吴泽华朱丹婷李双双姜风顾子慧杜青岳叶婧茹郑志颖吕倩陈睿雅苏胜波肖宏昊王凝张剑王舒祎李慧媛任俊颖张艾雨蔡加琪周毓君杨安红周宇航巫毓陈思行王尔馨陈卓尔钟华刘朔韦婧曦章洁张莹云吴雨洁孙海翎何桂锦崔婷婷唐丽娟田川夏青韩潇怡校级优秀毕业生干部(20人)聂虹王金渝冷昊阳闫建雄傅琪玫金彪金舒扬傅玲赵洁陈涛冯添华李卓悦李楠赵熊蔺赵雅琦黄穗陈小可余笑天屈思源彭爽吴玉章学院(49人)校级优秀毕业生(32人)余樨源张厚兵朱红玉雷博齐珊李海翔刘心悦郑斯予傅晨宇任婕任舒凡孙晓东冯倩倩刘自鹏上官莉卿吴莲洁刘怡辛吴莉姝张迅晖邢天石欧思璐黄申唐梦莹郭夏霖秦明戴苗苗陶重阳王倩雯于智伟胡进玥许莹汪越校级优秀毕业生干部(17人)吴桐齐峰蒋正华杜佳音刘晓旭王伟男尹曦梓吴兵沙铭宇杨蕾李天华冯一盟张靖铭王文君娄藕蝶魏冬夏嘉豪物理科学与技术学院(42人)校级优秀毕业生(30人)任宏斌孙硕马远卓赵岩翀冯航曾凡龙袁锋贾淑梅曹路杨通叶冯俊王雨风刘家威刘福雁张金慧罗雪刘嘉洵赵璐钱辉金锦翁志超杨流云黄迁明付伟豪陈志禹刘铱黄雨菲汪琪容金水唐孝良校级优秀毕业生干部(12人)何炬刘大鹏王晓慧陈东孔筱叶张龙高川黄起昌刘竹君牟映坪冯爱慧周媛媛华西药学院(14人)校级优秀毕业生(9人)魏国旭刘思美吴蕾徐博成杨玉洁李想丁文杜鹃万静羽沈瑞雪校级优秀毕业生干部(5人)董铭灵张一佳赵昭谭淼韩珂艺术学院(55人)校级优秀毕业生(37人)王智荭余瑞岳雅轩梁爽尹村闪方金凤杨利燊于孝介刘振张峻珊黄媛媛杨雨果谈秋宁李家玲柏桐陶禹甫韦昊昱徐梦莹秦瑾陈佛子杨霄宗志威李袁媛王宏欣汪义云张姗郭俣余荣胡玉珊韩露娅陈卓陈丰万孝雯王璇罗媛沈涛校级优秀毕业生干部(18人)李晨雨苑雨萌屈艺马富仲唐毓王永涛常朦朦吴艺璇郭玲玲赵博郅好赵锐巩琪张小芳黄亚珂张竹莉任甲重宋升炀制造科学与工程学院(75人)校级优秀毕业生(53人)赵雪潘玉霞杨本翼曾发富覃秋慧赵华梅晏尚华周虹伶熊瑞 林凯平冀锐黄凯鄢雨何怡晴陈文武冯小明罗洁蒋进伟孟欢周甜熊佳吴博周伟丁龙杨曹洪张弦王思甜李杰陈强李宁波周小琪刘同焰黄雅婷於云骢刘璐徐方舟魏煌林李嘉玲吴辰露袁泽林徐天雄何林桐田庸张浩谭保川范天骄罗经平李睿枭彭尧唐忠彪邹幸池方兆群王嘉伟校级优秀毕业生干部(22人)李柏翰武东广任建明李小玲刘梦雅朱帅赵鸽卢鑫鄂磊陈诚李健齐子贝蒋沁锟马伟崔磊尹小忠张芊丰武林郑建辉李天阳王志东李应。
四川大学期末考试试题(闭卷)A (2013 ——2014 学年第 2 学期)
课程号:课序号:1 课程名称:数据结构(in English ) 任课教师:成绩:
适用专业年级:13电子商务学生人数:159印题份数:160学号:姓名:
2 题间不留空,一般应题卷分开教务处试题编号:
教务处试题编号:
四川大学期末考试试题(闭卷)B (2013 ——2014 学年第 2 学期)
课程号:402079030课序号:0,1 ,2 课程名称:数据结构任课教师:黄勇成绩:
适用专业年级:13电子商务学生人数:159印题份数:160学号:姓名:
注:1试题字迹务必清晰,书写工整。
本题 2 页,本页为第 1 页
2 题间不留空,一般应题卷分开教务处试题编号:
four railway carriages numbered {1,2,3,4 }, which
Programming Questions.(2*10=20)
Write a program that finds the height of a binary tree.
Write an algorithm to delete the i th element in the queue.
本题 2 页,本页为第 2 页
教务处试题编号:。
2013-2014学年上学期期末试题- 数据挖掘1(面向硕士研究生)1、(10分)分类和聚类有什么相同点和不同点?不带类标的数据可以为分类器的学习提供什么信息?2、(10分)什么叫线性可分?支持向量机如何解决线性不可分的问题?3、(10分)文档集的信息检索(Information Retrieval)与数据库的查询之间有什么相同点和不同点?4、(总分20分)(1)证明一个频繁项集的任意子集也必定是频繁的。
(5分)(2)给定如下的数据库表:Transaction ID Items - Bought1 {Milk, Beer, Diapers}2 {Bread, Butter, Milk}3 {Milk, Diapers, Cookies}4 {Bread, Butter, Cookies}5 {Beer, Cookies,Diapers}6 {Milk, Diapers, Bread, Butter}7 {Bread, Butter, Diapers}8 {Beer, Diapers}9 {Milk, Diapers, Bread, Butter}10 {Beer, Cookies}请用Apriori算法找出最小支持度30%情况下的所有频繁项集。
(15分)5、(15分)用类C语言伪代码描述简单(朴素)贝叶斯分类算法(包括训练部分和测试部分)。
6、(15分)假设有如下的网页及其链接关系,1注意:堂上开卷,只能查看自己携带的纸质资料。
假设d=0.1。
请计算PageRank 算法迭代前五轮每一轮每个网页的PageRank 值。
7、(20分)下面给出了4篇文档构成的文档集以及词表中每个词在文档中出现的次数情况,D1 Tropical Freshwater Aquarium Fish.D2 Tropical Fish, Aquarium Care, Tank Setup.D3 Keeping Tropical Fish and Goldfish in Aquariums and Fish Bowls. D4 The Tropical Tank Homepage – Tropical Fish and Aquariums.TermsDocumentsD 1 D 2 D 3 D 4aquarium 1 1 1 1 bowl 0 0 1 0 care 0 1 0 0 fish 1 1 2 1 freshwater 1 0 0 0 goldfish 0 0 1 0 homepage 0 0 0 1 keep 0 0 1 0 setup 0 1 0 0 tank 0 1 0 1 tropical1112请用统计语言模型计算每篇文档与查询“Tropical Fish ”的相似度,得到该查询结果的列表,要求采用Laplace 方法对概率估计进行评平滑。
2013-2014学年上学期期末试题- 数据挖掘1
(面向硕士研究生)
1、(10分)分类和聚类有什么相同点和不同点?不带类标的数据可以为分类器的学习提供什么信息?
2、(10分)什么叫线性可分?支持向量机如何解决线性不可分的问题?
3、(10分)文档集的信息检索(Information Retrieval)与数据库的查询之间有什么相同点和不同点?
4、(总分20分)
(1)证明一个频繁项集的任意子集也必定是频繁的。
(5分)
(2)给定如下的数据库表:
Transaction ID Items - Bought
1 {Milk, Beer, Diapers}
2 {Bread, Butter, Milk}
3 {Milk, Diapers, Cookies}
4 {Bread, Butter, Cookies}
5 {Beer, Cookies,Diapers}
6 {Milk, Diapers, Bread, Butter}
7 {Bread, Butter, Diapers}
8 {Beer, Diapers}
9 {Milk, Diapers, Bread, Butter}
10 {Beer, Cookies}
请用Apriori算法找出最小支持度30%情况下的所有频繁项集。
(15分)5、(15分)用类C语言伪代码描述简单(朴素)贝叶斯分类算法(包括训练部分和测试部分)。
6、(15分)假设有如下的网页及其链接关系,
1注意:堂上开卷,只能查看自己携带的纸质资料。
假设d=0.1。
请计算PageRank 算法迭代前五轮每一轮每个网页的PageRank 值。
7、(20分)下面给出了4篇文档构成的文档集以及词表中每个词在文档中出现的次数情况,
D1 Tropical Freshwater Aquarium Fish.
D2 Tropical Fish, Aquarium Care, Tank Setup.
D3 Keeping Tropical Fish and Goldfish in Aquariums and Fish Bowls. D4 The Tropical Tank Homepage – Tropical Fish and Aquariums.
Terms
Documents
D 1 D 2 D 3 D 4
aquarium 1 1 1 1 bowl 0 0 1 0 care 0 1 0 0 fish 1 1 2 1 freshwater 1 0 0 0 goldfish 0 0 1 0 homepage 0 0 0 1 keep 0 0 1 0 setup 0 1 0 0 tank 0 1 0 1 tropical
1
1
1
2
请用统计语言模型计算每篇文档与查询“Tropical Fish ”的相似度,得到该查询结果的列表,要求采用Laplace 方法对概率估计进行评平滑。
Page A
Page B Page C。