人工智能机器学习技术练习(试卷编号1131)
- 格式:pdf
- 大小:298.20 KB
- 文档页数:39
人工智能机器学习技术练习(试卷编号1131)
1.[单选题]我们常用 ( ) 版。
A)apache 版
B)cdh 版
C)Hortonworks版本
答案:B
解析:
2.[单选题]以下哪项是解决NLP用例(如语义相似性、阅读理解和常识推理)的更好选择?
A)ELMo
B)Open AI’s GPT
C)ULMFit
答案:B
解析:
3.[单选题]逻辑回归拟合的函数是()
A)sigmoid
B)tanh
C)relu
答案:A
解析:
4.[单选题]回归评估指标中RMSE和MSE的关系是()
A)MSE是RMSE的平方
B)没有关系
C)RMSE是MSE的平方
答案:A
解析:
5.[单选题]在NumPy通用函数中,用于计算元素级最大值的函数是( )。
A)max
B)maximum
C)min
D)maximal
答案:B
解析:
6.[单选题]下列不属于聚类性能度量外部指标的是(__)。
C)Rand指数
D)DB指数
答案:D
解析:
7.[单选题]关于竞争型学习算法描述错误的是
A)是一种监督学习策略;
B)每个时刻只有一个竞争获胜的神经元被激活;
C)其他神经元的状态被抑制;
D)ART网络通过竞争型学习算法寻优;
答案:A
解析:
8.[单选题]分析逻辑回归表现的一个良好的方法是AIC,它与线性回归中的R平方相似。
有关AIC,以下哪项是正确的?
A)具有最小AIC值的模型更好
B)具有最大AIC值的模型更好
C)视情况而定
D)以上都不是
答案:A
解析:AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。
考虑到AIC=2k-2In(L) ,所以一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。
目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。
综上,我们一般选择逻辑回归中最少的AIC作为最佳模型。
9.[单选题]以下哪个度量属于数据散度的描述? ( )
A)均值
B)中位数
C)标准差
D)众数
答案:C
解析:
10.[单选题]在k均值算法中,假定聚类簇数k=3,则在算法开始时随机选取(__)个样本作为初始均值向量
A)1
B)2
11.[单选题]随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈___下降,最终趋向于零
A)指数级
B)对数级
C)线性级
D)平方级
答案:A
解析:
12.[单选题]关于数据规范化,下列说法中错误的是( )。
A)标准化实际上是将数据在样本的标准差上做了等比例的缩放操作
B)归一化利用了样本中的最大值和最小值
C)包含标准化和归一化
D)标准化在任何场景下受异常值的影响都很小
答案:D
解析:
13.[单选题]下列极大似然估计描述错误的是
A)极大似然估计先假定其具有某种确定的概率分布形式;
B)极大似然估计没有确定的概率分布形式;
C)概率模型的训练过程就是参数估计;
D)贝叶斯学派认为参数本身也有分布,是未观察的随机变量;
答案:B
解析:
14.[单选题]在支持向量机中,可利用(__)方法将原问题转化为其对偶问题。
A)拉格朗日乘子法
B)留出法
C)比较检验
D)划分选择
答案:A
解析:
15.[单选题]一个包含n类的多分类问题,若采用一对剩余的方法,需要拆分成多少次?
A)n
B)1
C)n-1
16.[单选题]决策树中,同一路径上的所有属性之间是()关系。
A)因果
B)相关
C)逻辑或
D)逻辑与
答案:D
解析:
17.[单选题]如右图所示有向图,以下陈述正确的有( )
A)B和G关于{C, F}条件独立
B)B和C关于F条件独立
C)B和G关于F条件独立
D)B和G关于{C,
F, H}条件独立
答案:A
解析:
18.[单选题]阅读以下文字:假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。
现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。
A)除去神经网络中的最后一层,冻结所有层然后重新训练
B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C)使用新的数据集重新训练模型
D)所有答案均不对
答案:B
解析:
19.[单选题]正则化的回归分析,可以避免( )
A)线性化
B)过拟合
C)欠拟合
D)连续值逼近
答案:B
解析:
20.[单选题]传統的机器学习方法包括监督学习、无监督学习和半监督学习,其中监督学习是学习给定标签的数据集。
请问标签为离散的类型,称为分类,标签为连续的类型,称为什么()
解析:
21.[单选题]在一个神经网络中,下面哪种方法可以用来处理过拟合?
A)Dropout
B)分批归一化(Batch Normalization)
C)正则化(regularization)
D)都可以
答案:D
解析:
22.[单选题]下列关于支持向量机的说法错误的是(__)。
A)硬间隔支持向量机易出现过拟合的情况
B)软间隔支持向量机的目标函数不是一个二次规划问题
C)松弛变量可用来解决线性不可分问题
D)支持向量机可用来进行数据的分类
答案:B
解析:
23.[单选题]特征工程不包括( )。
A)特征构建
B)特征合并
C)特征选择
D)特征提取
答案:B
解析:
24.[单选题]梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。
在RNN中,下面哪种方法可以较好地处理梯度爆炸问题( )
A)梯度裁剪
B)所有方法都不行
C)Dropout
D)加入正则项
答案:A
解析:
25.[单选题]下列方法使用最大似然估计的是( )
A)线性鉴别分析
26.[单选题]下面对范数规则化描述错误的是(__)。
A)L0是指向量中0的元素的个数
B)L1范数是指向量中各个元素绝对值之和
C)L2范数向量元素绝对值的平方和再开平方
D)L0是指向量中非0的元素的个数
答案:A
解析:
27.[单选题]通常来说,哪个模型被认为易于解释? ()
A)SVM
B)Logistic Regression
C)Decision Tree
D)K-nearest Neghbor
答案:C
解析:
28.[单选题]有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负
样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分
类器的分类面方程是()
A)2x+y=4
B)x+2y=5
C)x+2y=3
D)以上都不对
答案:C
解析:
29.[单选题]支持向量(support vectors)指的是( )
A)对原始数据进行采样得到的样本点
B)决定分类面可以平移的范围的数据点
C)位于分类面上的点
D)能够被正确分类的数据点
答案:B
解析:
30.[单选题]2.当训练集很多时,一种更为强大的结合策略是使用(),即通过另一个学习器来进行结合。
C)投票法
D)加权投票法
答案:A
解析:
31.[单选题]对不具备泛化能力的规则转变为更一般的规则的最基础的技术为
A)最大一般泛化
B)最小一般泛化
C)最大一般特化
D)最小一般特化
答案:B
解析:
32.[单选题]在目标识别中,假定类型1为敌方目标,类型2为诱饵(假目标),已知先验概率P(1)=0.2和P(2)=0.8,类概率密度函数如下:则总错误概率为P(e)为
class="fr-fic fr-dib cursor-hover"
A)0.08
B)0.09
C)0.11
D)0.1
答案:A
解析:
33.[单选题]以下有关神经网络的说法错误的是( )
A)MP模型在隐藏层和输出层都对神经元进行激活函数处理
B)使用多层功能神经元可以解决非线性可分问题
C)神经网络“学”到的东西,蕴含在连接权值和阈值中
D)BP算法基于梯度下降策略
答案:A
34.[单选题]关于K均值和 DBSCAN 的比较,以下说法不正确的是()。
A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象
B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
答案:A
解析:DBSCAN和K均值都是将每个对象指派到单个簇的划分聚类算法,但K均值一般聚类所有对象,而DBSCAN 丢弃被它识别为噪声的对象。
35.[单选题]假正率是指(__)。
A)正样本预测结果数 / 正样本实际数
B)被预测为负的正样本结果数 / 正样本实际数
C)被预测为正的负样本结果数 /负样本实际数
D)负样本预测结果数 / 负样本实际数
答案:C
解析:
36.[单选题]以下哪个步骤不是机器学习所需的预处理工作( )。
A)数值属性的标准化
B)变量相关性分析
C)异常值分析
D)与用户讨论分析需求
答案:D
解析:
37.[单选题]有关决策树的分类方法正确的是( )
A)决策树不能确定对决策属性起重要影响的变量
B)决策树可以用于发现多种样本的特征
C)决策树可用于确定相似的样本
D)决策树结构越复杂越有效
答案:B
解析:
38.[单选题]下面不是有效的变量名的是()。
A)_demo
B)banana
C)Numbr
D)my-score
答案:D
解析:
A)决策树
B)贝叶斯分类器
C)支持向量机
D)K近邻算法
答案:D
解析:
40.[单选题]假设file是文本文件对象,下列选项中,哪个用于读取一行内容()。
A)file.read()
B)file.read(200)
C)file.readline()
D)file.readlines()
答案:C
解析:
41.[单选题]排列语言模型(Permutation Language Models)是下列哪项的特点?
A)BERT
B)EMMo
C)GPT
D)XLNET
答案:D
解析:
42.[单选题]下面不属于维归约方法的是(__)。
A)PCA
B)SVD
C)DWT
D)KNN
答案:D
解析:
43.[单选题]图像平滑从信号处理的角度看就是去除其中的(__)。
A)高频信息
B)低频信息
C)噪声
D)亮度信息
答案:A
解析:
44.[单选题]OpenCV的描述正确的是() 。
C)core中有OpenCV
D)opencv主要由C++语言编写
答案:B
解析:
45.[单选题]关于基本数据的元数据是指:
A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B)基本元数据包括与企业相关的管理方面的数据和信息;
C)基本元数据包括日志文件和简历执行处理的时序调度信息;
D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.
答案:D
解析:
46.[单选题]有关回归模型的系数,以下说法错误的是哪个( )。
A)一元线性回归模型的系数可以使用最小二乘法求得
B)多元回归模型的系数可以使用梯度下降法求得
C)一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小
D)回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的关系能够合理拟合
答案:B
解析:
47.[单选题]预剪枝是指在决策树生成过程中,对每个结点在划分(__)进行估计。
A)前
B)中
C)后
D)不估计
答案:A
解析:
48.[单选题]从给定的特征集合中选择出相关特征子集的过程,称为
A)特征抽取
B)特征选择
C)特征降维
D)特征简化
答案:B
解析:
49.[单选题]()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断。
A)参数估计
D)回归分析
答案:A
解析:推断统计包括参数估计和假设检验两方面的内容。
50.[单选题]成熟度等级1.已执行级,2.已定义级,3.已优化级,4.已测量级,5.已管理级,则由低到高排序为(__)。
A)12345
B)13524
C)15243
D)13542
答案:C
解析:
51.[单选题]Relief属于哪种特征选择方法
A)包裹式
B)启发式
C)嵌入式
D)过滤式
答案:D
解析:
52.[单选题]按照求解方法进行分类算法的划分,下列中为生成模型的是( )
A)决策树
B)K近邻
C)贝叶斯分类器
D)支持向量机SVM
答案:C
解析:
53.[单选题]决策树模型中应如何妥善处理连续型属性
A)直接忽略
B)利用固定阈值进行离散化
C)根据信息增益选择阈值进行离散化
D)随机选择数据标签发生变化的位置进行离散化
答案:C
解析:
54.[单选题](__)不仅可用于多层前馈神经网络,还可用于其他类型的神经网络。
A)感知机
B)神经元
C)神经系统
D)误差逆传播
解析:
55.[单选题]若a = range(100),以下哪个操作是非法的是()。
A)a[-0.3]
B)a[2:13]
C)a[::3]
D)a[2-3]
答案:A
解析:
56.[单选题]核矩阵是(__)的。
A)没有规律
B)半正定
C)正定
D)样本矩阵
答案:B
解析:
57.[单选题](__)不是常用的噪声处理方法。
A)聚类
B)回归
C)分类
D)分箱
答案:C
解析:
58.[单选题]下列关于F1值的计算正确的是(__)。
A)F1值 = 正确率 * 召回率 * / (正确率 + 召回率)
B)F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)
C)F1值 = 正确率 * 2 / (正确率 + 召回率)
D)F1值 = 召回率 * 2 / (正确率 + 召回率)
答案:B
解析:
59.[单选题]层次聚类试图在不同层次上对数据集进行划分,从而形成(__)形结构。
A)图
B)环
C)网
D)树
答案:D
解析:
60.[单选题]下列关于TF-IDF说法正确的是?
A)该值与特征项在文档中出现的频率成反比
B)该值与特征项在文档中出现的频率成正比
C)该值与在整个语料库中出现该特征项的文档库成正比
D)该值与特征项在文档中出现的频率无关
答案:B
解析:
61.[单选题]下列哪个不属于常用的文本分类的特征选择算法?
A)卡方检验值
B)互信息
C)信息增益
D)主成分分析
答案:D
解析:
62.[单选题]逻辑回归与多元回归分析有哪些不同之处?
A)逻辑回归用来预测事件发生的概率
B)逻辑回归用来计算拟合优度指数
C)逻辑回归用来对回归系数进行估计
D)以上都是
答案:D
解析:A 选项,逻辑回归是用来解决分类问题的,可以用于预测事件发生的概率。
B 选项,一般来说,为了测量真实样本与模型的拟合程度,可以使用逻辑回归来计算拟合优度指数。
C 选项,在拟合逻辑回归模型之后,我们还可以根据系数值,来判断各个独立特征与目标输出的关系(正相关或负相关)。
63.[单选题](__)是事先将训练样本存储下来,然后每当遇到一个新增样本,学习系统分析此样本与以前存储样本之间的关系,并据此把一个目标函数值赋给新增样本。
A)基于实例学习
B)遗传算法
C)人工神经网络
D)归纳学习
答案:A
解析:
64.[单选题]bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)
A)有放回地从总共M个特征中抽样m个特征
B)无放回地从总共M个特征中抽样m个特征
C)有放回地从总共N个样本中抽样n个样本
D)无放回地从总共N个样本中抽样n个样本
答案:C
解析:
65.[单选题]以下对非结构化数据描述不正确的是( )。
A)不能用关系数据库存储和管理的数据
B)没有统一的结构
C)图像是非结构化数据
D)HTML是非结构化数据
答案:D
解析:
66.[单选题]已知中国人的血型分布约为A型:30%,B型:20%,O型:40%,AB型:10%,则任选一批中国人作为用户调研对象,希望他们中至少有一个是B型血的可能性不低于90%,那么最少需要选多少人?
A)7
B)9
C)11
D)13
答案:C
解析:
67.[单选题]借助对数形式的变换曲线可以达到压缩图像灰度动态范围的目的,这是因为?
A)变换前的灰度值范围比变换后的灰度值范围大;
B)变换后仅取了一部分灰度值的范围;
C)变换前后灰度值的范围不同;
D)对数形式的变换曲线是单增的曲线;
答案:B
解析:
68.[单选题]( )是基于Topic Model的关键词抽取。
A)TF-IDF
B)TextRank
C)LDA
D)PCA
答案:C
解析:
69.[单选题]类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?
A)伪逆法
B)感知器算法
C)基于二次准则的H-K算法
D)势函数法
答案:B
解析:
70.[单选题]查准率和查全率是一对__的度量。
A)相容
B)相等
C)矛盾
D)包含
答案:C
解析:
71.[单选题]下图显示的机器学习使用的激活函数(Activation function)的图形,是下列哪一个函数的图形?()
A)B)C)D)
答案:C
解析:
72.[单选题]以下描述正确的是( )。
A)非结构化数据是先有结构,后有数据
B)XML是非结构化数据
C)结构化数据是先有数据,后有结构
D)非结构化数据是数据科学与传统数据管理的主要区别
答案:D
解析:
73.[单选题](__)采用图表或数学方法描述数据的统计特征。
A)描述统计
B)洞见统计
C)推断统计
D)归纳统计
答案:A
解析:
74.[单选题]关于决策树结点划分指标描述正确的是
A)类别非纯度越大越好
B)信息增益越大越好
C)信息增益率越小越好
D)基尼指数越大越好
答案:B
解析:
75.[单选题]Python 的基本语法仅支持整型、浮点型和复数类型,而 NumPy 和 Pandas 包支持
int64/int32/int16/int8 等 20 余种数字类型,下列选项中,( )说法是不正确的。
A)科学计算可能涉及很多数据,对存储和性能有较高要求,因此支持多种数字类型
B)NumPy 包底层是采用 C 语言实现的,因此,天然支持了多种数字类型
C)程序员必须精确指定数字类型,因此,会给编程带来一定负担
D)对元素类型进行精确定义,有助于 NumPy 和 Pandas 包更合理地优化存储空间
答案:C
解析:
76.[单选题]通过聚集多个分类器的预测来提高分类精确率的技术称为( )。
A)组合(Composition)
B)聚集(Aggregation)
C)合并(Combination)
D)投票(Voting)
答案:A
解析:
77.[单选题]以下表的设计,最合理的是
A)学生{id,name,age} ,学科{id,name} 分数{学生 id,学科 id,分数}
B)学生{id,name,age} ,分数{学生 id, 学科id, 学科 name , 分数}
C)分数{学生id, 学生 name,学生age, 学科id,学科名称, 分数, }
D)学科{id,name},分数{学生id,学生姓名,学生age,学科 id,分数}
答案:A
解析:
78.[单选题]ID3决策树算法以()为准则来选择划分属性
A)信息增益
B)信息熵
C)基尼系数
D)信息增益率
答案:A
解析:
79.[单选题]OLAP技术的核心是:( )
A)在线性
B)对用户的快速响应
C)互操作性
D)多维分析
答案:D
解析:
80.[单选题]关于Anaconda的组件中,可以编辑文档且展示数据分析过程的是( )。
A)Anaconda Navigator
B)Anaconda Prompt
C)Spyder
D)Jupyter Notebook
答案:D
解析:Jupyter Notebook可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中
81.[单选题]sigmoid导数为()
A)f(z)
B)f(1-z)
C)f(1+z)f(1-z)
D)f(z)(1-f(z))
答案:D
解析:
82.[单选题]下面关于主成分分析PCA的描述中错误的是( )。
A)PCA是从原空间中顺序找一组相互正交的坐标轴
B)原始数据中方差最大的方向是第一个坐标轴
C)基于特征值分解协方差矩阵实现PCA算法
D)奇异值分解只能适用于指定维数的矩阵分解
答案:D
解析:
83.[单选题]移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适 ( )。
A)一元线性回归分析
B)关联方法
C)聚类方法
D)多层前馈网络
答案:D
解析:
84.[单选题]一个包里有5个黑球,10个红球和17个白球。
每次可以从中取两个球出来,放置在外面。
那么至少取________次以后,一定出现过取出一对颜色一样的球。
A)16
B)9
C)4
D)1
答案:A
解析:
85.[单选题]如果某系统12*5=61成立,则系统采用的是()进制
A)7
B)8
C)9
D)10
答案:C
解析:
86.[单选题]下面哪个不属于数据的属性类型?
A)标称
B)序数
C)区间
D)相异
答案:D
解析:
87.[单选题]在非均等代价下,希望最小化__。
A)召回率
B)错误率
C)错误次数
D)总体代价
答案:D
解析:
88.[单选题]一般来说,NumPy,Matplotlib,Pandas是数据分析和展示的3个常用包,下列选项中说法不正确的是( )
A)Pandas包。
仅支持一维和二维数据分析,当进行多维数据分析时要使用NumPy包
B)Matplotlib包支持多种数据展示,使用pyplot子库即可
C)NumPy包底层采用C语言实现,因此运行速度很快
D)Pandas包也包含一些数据展示函数,可以不使用Matplotlib包进行数据展示
答案:A
解析:
89.[单选题]有两个样本点, 第一个点为正样本,它的特征向量是(0,-1);第二个点为负 样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分 类器的分类面方程是()
A)2x+y=4
B)x+2y=5
C)x+2y=3
D)以上都不对
答案:C
解析:
90.[单选题]OpenCV用于将图像写入文件的函数是() 。
A)imread()
B)imshow()
C)imwrite()
D)VideoCapture()
答案:C
解析:
91.[单选题]过拟合现象中( )
A)训练样本的测试误差最小,测试样本的正确识别率却很低
B)训练样本的测试误差最小,测试样本的正确识别率也很高
C)模型的泛化能力很高
D)通常为线性模型
答案:A
解析:
92.[单选题]在线性回归中使用正则项,你发现解的不少coefficient都是0,则这个正 则项可能是
(1). L0-norm;(2). L1-norm;(3). L2-norm。
A)(1)(2)
B)(2)(3)
C)(2)
D)(3)
答案:A
解析:
93.[单选题]下列对LVW算法的说法错误的是
A)算法中特征子集搜索采用了随机策略
B)每次特征子集评价都需要训练学习器,开销很大
C)算法设置了停止条件控制参数
D)算法可能求不出解
答案:D
解析:
94.[单选题]SVM的效率依赖于
A)核函数的选择
B)核参数
C)软间隔参数
D)以上所有
答案:D
解析:SVM的效率依赖于以上三个基本要求,它能够提高效率,降低误差和过拟合
95.[单选题]以下哪个不是HDFS的守护进程?
A)secondarynamenode
B)datanode
C)mrappmaster/yarnchild
D)namenode
答案:C
解析:
96.[单选题]变量之间的关系可以分为( )两大类。
A)函数关系与相关关系
B)线性相关关系和非线性相关关系
C)正相关关系和负相关关系
D)简单相关关系和复杂相关关系
答案:A
解析:
97.[单选题]在一次大选中候选人A和B进行竞选。
候选人A的抽样支持率为60%,95%的置信区间为(50% - 70%),请问在最终大选中候选人A落选的概率与下列哪个最为接近
A)40%
B)60%
C)5%
D)2.5%
答案:D
解析:
98.[单选题]建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A)根据内容检索
B)建模描述
C)预测建模
D)寻找模式和规则
答案:C
解析:
99.[单选题]BP神经网络模型拓扑结构不包括()
A)输入层
B)隐层
C)翰出层
D)显层
答案:D
解析:
100.[单选题]关于数据重塑的说法中,下列选项描述错误的是( )。
A)数据重塑可以将DataFrame转换为Series
B)stack()方法可以将列索引转换为行索引
C)对一个DataFrame使用stack()方法后返回的一定是一个Series
D)unstack()方法可以将行索引转换为列索引
答案:C
解析:当一个DataFrame具有层次索引时,使用stack()方法会返回一个DataFrame对象。
101.[单选题]关于Boosting,Bagging和随机森林,以下说法错误的是
A)从偏差-方差分解的角度看,Boosting主要关注降低偏差
B)从偏差-方差分解的角度看,Bagging主要关注降低方差
C)随机森林简单、容易实现、计算开销小
D)Boosting不能基于泛化性能相当弱的学习器构建出很强的集成
答案:D
解析:
102.[单选题]变量消去的缺点有
A)会造成冗余计算
B)精准率不高
C)不能解决多边界分布问题
D)不直观
答案:A
解析:
103.[单选题]假设某商品需求函数为y1=B0+B1x1+u, 为了考虑包装外观因素(黑,蓝,白,金四种不同的颜色),引入4个虚拟变量形式形成截距变动模型,则模型的参数估计量()
A)是有偏估计量
B)是非有效估计量
C)是非一致估计量
D)无法估计
答案:D
解析:
104.[单选题]关于线性回归模型及模型参数,不正确的说法是:
A)均方误差即所有实例预测值与实际值误差平方的均值
B)线性回归模型的训练目标是找到使得损失函数最大化的模型参数
C)线性回归模型的训练目标是找到使得损失函数最小化的模型参数
D)线性回归模型通常使用均方误差(MSE)作为损失函数
答案:B
解析:
105.[单选题]zookeeper节点的特性()
A)可以存储数据
D)可以协调数据
答案:A
解析:
106.[单选题]下面不属于位置智能的有(__)。
A)foursquare
B)placeIQ
C)Mapillary
D)bloomberg
答案:D
解析:
107.[单选题](__)是常用的估计参数隐变量的利器,它是一种迭代的方法。
A)边际似然
B)EM算法
C)贝叶斯决策
D)贝叶斯分类器
答案:B
解析:
108.[单选题]下面关于决策树学习相关描述不正确的有(__)。
A)决策树学习的本质是一种逼近离散值目标函数的过程
B)决策树的根节点表示分类的开始
C)中间节点表示某一个属性的属性值
D)从根节点到叶节点的路径表示一个具体的实例
答案:C
解析:
109.[单选题]下列选项中属于感知技术的是( )
A)机器学习技术和计算实施技术
B)计算实施技术和语音识别技术
C)语音识别技术和机器视觉
D)机器视觉和机器学习技术
答案:C
解析:
110.[单选题]关于Anconda组件的说法中,下列描述错误的是()。
A)Anaconda Prompt是Anaconda自带的命令行
B)Jupyter Notebook是基于客户端的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程
在Navigator中手动实现
Jupyter Notebook是基于Web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程
答案:B
解析:
111.[单选题]下列选项中,关于dropna()方法描述正确的是( )。
A)dropna()方法只会删除值为NaN的数据
B)dropna()方法不会删除值为None的数据
C)dropna()方法会删除值为None和NaN的数据
D)dropna()方法只会检测缺失数据和空值
答案:C
解析:dropna()默认删除None或NaN,但是可以指定参数,对轴进行删除。
112.[单选题]Pandas中转为日期格式的方法是()。
A)datetime()
B)to_datetime()
C)to_time()
D)date()
答案:B
解析:
113.[单选题]当(__)过高,会出现欠拟合现象
A)偏差
B)方差
C)噪声
D)泛化误差
答案:A
解析:
114.[单选题]朴素贝叶斯分类器的三种实现不包括
A)基于伯努利模型实现
B)基于多项式模型实现
C)属性条件独立性假设实现
D)基于高斯模型实现
答案:C
解析:
115.[单选题]()试图学得一个属性的线性组合来进行预测的函数。
A)决策树。