大数据试题库
- 格式:docx
- 大小:22.15 KB
- 文档页数:3
大数据试题及答案1、当前大数据技术的基础是由(C)首先提出的。
(单选题,本题2分)2、大数据的起源是(C)。
(单选题,本题2分)A:金融B:电信C:互联网D:公共管理3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。
(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师4、(D)反映数据的精细化程度,越细化的数据,价值越高。
(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度5、数据清洗的方法不包括(D)。
(单选题,本题2分)A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理6、智能健康手环的应用开发,体现了(D)的数据采集技术的应用。
(单选题,本题2分)A:统计报表B:网络爬虫C:API接口D:传感器7、下列关于数据重组的说法中,错误的是(A)。
(单选题,本题2分)A:数据重组是数据的重新生产和重新采集B:数据重组可以使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新8、智慧城市的构建,不包含(C)。
(单选题,本题2分)A:数字城市B:物联网C:联网监控D:云计算9、大数据的最显著特征是(A)。
(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高10、美国海军军官XXX通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的(B)。
(单选题,此题2分)A:在数据基础上倾向于部分数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、以下关于XXX对大数据特点的说法中,错误的是(D)。
(单选题,此题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。
2020年最新公需科目《大数据》考试题(含答案)一、单选题1.数据仓库的最终目的是(D )° (单选题)A.收集业务需求建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持二、多选题2.宁家骏委员指出,我国发展医疗服务业,同时发展智慧养老。
©°正确C错误3.2012年,我国农村居民家庭每百户拥有移动电话197.8部。
(判断题1分)分■正确错误46,当今世界四大趋势指的是经济全球化全球城市化.全球信息化.信息智慧化。
(判断题1分)■正确错误47.根据涂子沛先生所讲,数据就是简单的数字。
(判断题1分)正确■错误4.大数据作为一种数据集合,它的含义包括()。
■ A.数据很大B.很有价值■ C.构成复杂■「).变化很快5.“最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗,以此来保存最昂贵的资源”,这是下列哪个定律的内涵?A.牛顿定律B.麦特卡尔夫定律C,摩尔定律■ D.吉尔德定律6.大数据的主要特征表现为()。
ABCE©分A.数据类型多B-处理速度快C.数据容量大D.商业价值高7.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度扁平化.相互竞合的方式进行。
(判断题1分)■正确错误49. 2000年,全国涉农网站超过6000家。
(判断题1分)正确■错误8.以下说法错误的是哪项? QA.大数据是一种思维方式B.大数据不仅仅是讲数据的体量大C.大数据会带来机器智能D.大数据的英文名称是large data9.“ (b)阿里巴巴•贵州年货节”销售额突破8. 5亿元,促进了贵州电子商务加快发展。
A.2015B.2016C.201310.农业农村信息化业务应用深入发展,其业务应用主要表现在哪几个方面?©* A.农业信息资源开发利用水平提高V B.农村电子商务蓬勃兴起V C.农村综合信息服务平台发展迅速17 D.农村电了政务己经基本普及11.下列各项表述中正确的有哪些?⑥得分.0分* A.在网络时代,电子政务的发展刻不容缓,政务微博发声应该成为政府治理的“标配”。
大数据技术考试试题一、选择题(共 20 题,每题 3 分)1、以下不属于大数据特点的是()A 数据量大B 数据类型多样C 处理速度快D 价值密度高2、大数据的处理流程不包括()A 数据采集B 数据存储C 数据分析D 数据销毁3、以下哪种数据库适合处理大规模的结构化数据()A NoSQL 数据库B 关系型数据库C 文档数据库D 图数据库4、 Hadoop 生态系统中的核心组件不包括()A HDFSB MapReduceC HBaseD Spark5、以下关于数据清洗的说法,错误的是()A 可以去除重复数据B 可以处理缺失值C 目的是提高数据质量D 不会改变数据的原始内容6、数据挖掘的主要任务不包括()A 分类B 聚类C 关联规则挖掘D 数据可视化7、以下哪种算法常用于数据分类()A KMeans 算法B Apriori 算法C 决策树算法D PageRank 算法8、在大数据处理中,数据仓库的作用是()A 存储原始数据B 进行数据预处理C 支持复杂的查询和分析D 实时处理数据9、以下关于云计算与大数据关系的描述,正确的是()A 云计算是大数据的前提B 大数据是云计算的应用C 云计算为大数据提供了计算能力D 大数据必须依托云计算才能发展10、以下哪种技术可以用于实时数据处理()A HiveB FlumeC StormD Sqoop11、数据隐私保护的方法不包括()A 数据加密B 数据匿名化C 数据备份D 访问控制12、以下关于数据可视化的说法,错误的是()A 可以帮助用户更好地理解数据B 只能展示二维数据C 要遵循简洁明了的原则D 可以发现数据中的隐藏模式13、大数据在医疗领域的应用不包括()A 疾病预测B 药物研发C 医疗设备管理D 医生培训14、以下哪种工具常用于大数据的采集()A KafkaB TensorFlowC DockerD Redis15、数据仓库中的星型模型和雪花模型的主要区别在于()A 数据存储方式B 数据查询效率C 数据结构复杂度D 数据更新频率16、以下关于大数据安全的描述,错误的是()A 大数据安全主要关注数据的保密性B 大数据安全包括网络安全和系统安全C 大数据安全需要考虑用户认证和授权D 大数据安全需要防范内部人员的违规操作17、以下哪种技术可以用于大数据的分布式存储()A MongoDBB MySQLC HDFSD Oracle18、数据挖掘中的关联规则挖掘,最常用的算法是()A FPGrowth 算法B C45 算法C ID3 算法D EM 算法19、以下关于大数据分析的说法,正确的是()A 大数据分析一定能得出准确的结论B 大数据分析主要依赖人工进行C 大数据分析需要结合业务背景D 大数据分析的结果不需要验证20、以下不属于大数据应用场景的是()A 智能交通B 在线教育C 小型企业的财务管理D 精准营销二、简答题(共 5 题,每题 8 分)1、简述大数据的 4V 特征。
1+x大数据试题库及答案一、单选题(共90题,每题1分,共90分)1、名称节点(NameNode)是HDFS的管理者,它的职责有3个方面,下面哪个选项不是NamdeNode的职责?( )A、负责保存数据块B、负责管理和维护HDFS的命名空间(NameSpace)C、接收客户端的请求D、管理DataNode上的数据块(Block)正确答案:A2、Sqoop的底层实现是()?A、HDFSB、HbaseC、MapReduceD、Hadoop正确答案:C3、下面哪个程序负责 HDFS 数据存储?()A、tasktrackerB、NameNodeC、JobtrackerD、secondaryNameNodeE、Datanode正确答案:E4、对于HDFS文件读取过程,描述不正确的是?( )A、通过对数据流反复调用read(.方法,把数据从数据节点传输到客户端B、HDFS客户端通过Configuration对象的open(.方法打开要读取的文件C、当客户端读取完数据时,调用FSDataInputStream对象的close(.方法关闭输入流D、DistributedFileSystem负责向远程的名称节点(NameNode)发起RPC调用,得到文件的数据块信息,返回数据块列表正确答案:B5、大数据分析平台的实施流程顺序是()。
A与甲方确定总体计划B组建项目团队C部署环境准备D应用集成及数据集成E 系统安装和调试A、BACEDB、DABCEC、CABEDD、ADCBE正确答案:A6、HDfS中的block默认保存几份?A、3份B、2份C、1份D、不确定正确答案:A7、以下选项哪个是 YARN 中动态创建的资源容器()A、ApplicationMasterB、NodeManagerC、ResourceManagerD、Container正确答案:D8、以下对数据节点理解错误的是 ( .A、数据节点的数据保存在磁盘中B、数据节点通常只有一个C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作D、数据节点用来存储具体的文件内容正确答案:B9、2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?( )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“The Hadoop File System”D、“Bigtable: A Distributed Storage System for Structured Data”正确答案:A10、列出mysql数据库中的所有数据库sqoop命令是?()A、sqoop create-hive-table –connectB、sqoop list-databases –connectC、sqoop list-tables –connectD、sqoop import –connect正确答案:B11、Hadoop完全分布模式配置免密登录是要?( )A、实现主节点到其他节点免密登录B、以上都不是C、实现从节点到主节点的免密登录D、主节点和从节点任意两个节点之间免密登录正确答案:D12、列出mysql数据库中的所有数据库sqoop命令是?A、sqoop list-tables –connectB、sqoop import –connectC、sqoop list-databases –connectD、sqoop create-hive-table –connect正确答案:C13、典型的 NoSQL 数据库是()A、HbaseB、OracleC、MySQLD、Hive正确答案:A14、在 HDFS 分布式文件系统中,一般采用冗余存储,冗余因子通常设置为()A、4B、2C、3D、1正确答案:C15、关于ZooKeeper顺序节点的说法正确的是?( )A、通过顺序节点,可以创建分布式系统唯一IDB、创建顺序节点的命令为:create /test value1C、创建顺序节点时不能连续执行创建命令,否者报错节点已存在D、顺序节点的序号能无限增加正确答案:A16、把公钥追加到授权文件的命令是?( )A、ssh-copy-idB、ssh-keygenC、sshD、ssh-add正确答案:A17、下列哪些不是 ZooKeeper 的特点()A、可靠性B、顺序一致性C、多样系统映像D、原子性正确答案:C18、下面就Zookeeper的配置文件zoo.cfg的一部分,请问initLimit表示的含义是?( )TickTime=2000InitLimit=10SyncLimit=5A、Leader-Follower初始通信时限B、Client-Server初始通信时限C、Leader-Follower同步通信时限D、Client-Server通信心跳时间正确答案:A19、在确认客户需求,进行确认需求调研的时候,以下说法正确的是()。
1 多选传统大数据质量清洗的特点有:A. 确定性B. 强类型性C. 协调式的D. 非确定性2 多选以下选项中属于数据的作用的是()。
A. 沟通B. 验证假设C. 建立信心D. 欣赏3 多选数据建立信心的作用需具备的条件包括()。
A. 可靠数据源B. 多方的数据源C. 合适的数据分析D. 信得过的第三方单位4 多选数据只有在与()的交互中才能发挥作用。
A. 人B. 物C. 消费者D. 企业5 单选大数据可能带来(),但未必能够带来()。
A. 精确度;准确度B. 准确度;精确度C. 精确度;多样性D. 多样性;准确度6 多选大数据的定义是:A. 指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合B. 任何超过了一台计算机处理能力的数据量C. 技术D. 商业7 多选大数据五大类应用方向是:A. 查询B. 触达C. 统计D. 预警E. 预测8 多选以下哪些指标是衡量大数据应用成功的标准?A. 成本更低B. 质量更高C. 速度更快D. 风险更低9 多选大数据有哪些价值?A. 用户身份识别B. 描述价值C. 实时价值D. 预测价值E. 生产数据的价值10 多选大数据的预测价值体现在:A. 预测用户的偏好、流失B. 预测热卖品与交易额C. 预测经营趋势D. 评价11 单选什么是大数据使用的最可靠方法?A. 大数据源B. 样本数据源C. 规模大D. 大数据与样本数据结合12 多选大数据是描述()所发生的行为。
A. 未来B. 现在C. 过去D. 实时13 多选传统研究中数据采集的方法包括:A. 网络监测B. 电话访谈C. 对面访谈D. 线上互动14 单选大数据整合要保证各个数据源之间的()。
A. 一致性、协调性B. 差异性、协调性C. 一致性、差异性D. 一致性、相容性15 单选分类变量使用()建立预测模型。
A. 决策树B. 分类树C. 离散树D. 回归树16 多选()是大数据应用的步骤。
A. 数据输入B. 建模分析C. 使用决策支持工具输出结果D. 验证假设17 多选避免“数据孤岛”的方法包括:A. 关键匹配变量B. 数据融合C. 数据输入D. 利用样本框18 多选以下属于机器学习的是:A. 监督式学习B. 非监督式学习C. 半监督式学习D. 强化学习19 多选机器学习的四大类分析技术的主要算法包括()A. 描述性统计B. 聚类分析C. 关联分析D. 分类与预测20 单选购物篮分析属于()。
大数据考试试题题库500题[含答案]一、选择题1.宁家骏委员指出,(acd)主导了21世纪。
(多选题3分)得分.3分A.云计算B.移动支付C.大数据D.物联网2.信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。
( F)(判断题)是否3.宁家骏委员指出,20世纪下半个世纪直至现在,是信息技术时代。
(判断题1分)得分.1分正确1 错误4.下列哪些国家已经将大数据上升为国家战略?abcd(多选题3分)得分.3分A.英国B.日本C.美国D.法国5.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是(abcd )。
(多选题3分)得分.3分A.从被动反应走向主动预见型管理B.从粗放化管理走向精细化管理C.从单兵作战走向联合共享型管理D.从柜台式管理走向全天候管理6.建立大数据需要设计一个什么样的大型系统?abcd(多选题3分)得分.3分A.能够把应用放到合适的平台上B.能够开发出相应应用C.能够处理数据D.能够存储数据7.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是abcd(多选题3分)得分.3分A.从柜台式管理走向全天候管理B.从粗放化管理走向精细化管理C.从被动反应走向主动预见型管理D.从单兵作战走向联合共享型管理8.2012年“中央1号文件”提出,要全面推进农业农村信息化,着力提高(abd)的信息服务水平。
(多选题3分)得分.3分A.农业生产经营B.质量安全控制C.文化交流D.市场流通9.医疗领域如何利用大数据?acd(多选题3分)得分.0分A.临床决策支持B.个性化医疗C.社保资金安全D.用户行为分析10.云计算使得使用信息的存储是一个(abcd)的方式,它会大大地节约网络的成本,使得网络将来越来越泛在.越来越普及,成本越来越低。
(多选题3分)得分.0分A.分布式B.密闭式C.密集式D.共享式11.“十二五”以来我国信息化发展的亮点包括以下哪些方面?abcd(多选题3分)得分.3分A.信息产业的支撑性.保障性.带动性作用进一步增强B.信息基础设施建设取得长足进步,为信息化全面深化发展提供了有力保障C.电子商务异军突起,互联网经济发展速度超出预期D.两化融合成为当前我国工业创新驱动.转型升级的时代特征12.贵州发展大数据的“八个一”建议包括(ab;得分.3分;A.制定一个工作计划.建立一个领导机构B.培养 D.中央网络安全和信息化领导小组组长是李克强。
《大数据》试题单选题1、大数据的核心就是(B)A、告知与许可B、预测C、匿名化D、规模化2、大数据不是要教机器像人一样思考。
相反,它是(A)A、把数学算法运用到海量的数据上来预测事情发生的可能性。
B、被视为人工智能的一部分。
C、被视为一种机器学习。
D、预测与惩罚。
3、采样分析的精确性随着采样随机性的增加而(C),但与样本数量的增加关系不大。
A、降低B、不变C、提高D、无关4、大数据是指不用随机分析法这样的捷径,而采用(A)的方法A、所有数据B、绝大部分数据C、适量数据D、少量数据5、大数据的简单算法与小数据的复杂算法相比(A)A、更有效B、相当C、不具备可比性D、无效6、相比依赖于小数据和精确性的时代,大数据因为更强调数据的(D),帮助我们进一步接近事实的真相。
A、安全性B、完整性C、混杂性D、完整性和混杂性7、大数据的发展,使信息技术变革的重点从关注技术转向关注(A)A、信息B、数字C、文字D、方位8、大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道(B)A、原因B、是什么C、关联物D、预测的关键9、建立在相关关系分析法基础上的预测是大数据的(C)A、基础B、前提C、核心D、条件10、(C)下列说法正确的是A、有价值的数据是附属于企业经营核心业务的一部分数据;B、数据挖掘它的主要价值后就没有必要再进行分析了;C、所有数据都是有价值的;D、在大数据时代,收集、存储和分析数据非常简单;11、关于数据创新,下列说法正确的是(D)A、多个数据集的总和价值等于单个数据集价值相加;B、由于数据的再利用,数据应该永久保存下去;C、相同数据多次用于相同或类似用途,其有效性会降低;D、数据只有开放价值才能得到真正释放。
12、关于数据估值,下列说法错误的是(B)A、随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴;B、无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的;C、数据的价值可以通过授权的第三方使用来实现D、目前可以通过数据估值模型来准确的评估数据的价值评估13、在大数据时代,下列说法正确的是(B)。
一、单选题1、大数据的起源是(B)。
A:金融B:互联网C:电信D:公共管理2、大数据的最明显特点是(B)。
A:数据类型多样B:数据规模大C:数据价值密度高D:数据处理速度快3、大数据时代,数据使用的最关键是(D)。
A:数据收集B:数据存储C:数据分析D:数据再利用4、云计算分层架构不包括(D)。
A: Iaas B: Paas C: Saas D: Yaas5、大数据技术是由(C)公司首先提出来的。
A:阿里巴巴B:百度C:谷歌D:微软6、数据的精细化程度是指(C),越细化的数据,价值越高。
A:规模B:活性C:颗粒度D:关联性7、数据清洗的方法不包括(C)A:噪声数据清除B:一致性检查C:重复数据记录处理D:缺失值处理智能手环的应用开发,体现了(C)的数据采集技术的应用。
A:网络爬虫B:API接口C:传感器D:统计报表9、下列关于数掲重组的说法中,错误的是(A)。
A:数据的重新生产和采集B:能使数据焕发新的光芒C:关键在于多源数据的融合和集成D:有利于新的数据模式创新10、美国海军军官莫里通过对前人航海日志的分析,绘制考了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的(B)。
A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、下列关于含思伯格对大数据特点的说法中,错误的是(D)A:数据规模大B:数据类型多C:处理速度快D:价值密度高12、当前社会中,最为突出的大数据环境是(A)A:互联网B:自然环境C:综合国力D:物联网13、在数据生命周期管理实践中,(B)是执行方法。
A:数据存储和各份规范B:数据管理和维护C:数据价值发觉和利用D:数据应用开发和管理14、下列关于网络用户行为的说法中,错误的是(C)。
A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护15、下列关于聚类挖报技术的说法中,错误的是(B)。
大数据试题及答案一、选择题(每题2分,共20分)1. 大数据的4V特征指的是什么?A. 体量大、速度快、多样性、价值高B. 体量大、速度快、多样性、真实性C. 体量大、速度快、真实性、价值高D. 体量大、真实性、多样性、价值高答案:A2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. FlumeD. HDFS答案:D3. 下列哪个不是大数据技术?A. HadoopB. SparkC. MongoDBD. MySQL答案:D4. 以下哪个不是大数据应用的领域?A. 金融B. 医疗C. 教育D. 游戏答案:D5. 以下哪个是大数据的分析工具?A. ExcelB. RC. PythonD. Word答案:B6. 大数据的实时分析通常使用什么技术?A. 批处理B. 流处理C. 数据挖掘D. 数据清洗答案:B7. 在大数据中,用于处理半结构化数据的技术是?A. SQLB. NoSQLC. XMLD. JSON答案:B8. 大数据的存储通常需要使用哪种类型的存储系统?A. 块存储B. 文件存储C. 对象存储D. 所有以上答案:D9. 以下哪个不是大数据分析的步骤?A. 数据收集B. 数据清洗C. 数据转换D. 数据存储答案:D10. 大数据的“体量大”通常指的是数据量达到多少?A. GB级别B. TB级别C. PB级别D. EB级别答案:C二、填空题(每题2分,共10分)1. 大数据技术可以处理的数据类型包括结构化数据、________数据和非结构化数据。
答案:半结构化2. 在Hadoop生态系统中,________是用来进行数据计算的分布式内存计算框架。
答案:Spark3. 大数据的“速度快”是指数据的________速度。
答案:处理和分析4. 在大数据技术中,________是一种用于存储大量非结构化数据的分布式文件系统。
答案:HDFS5. 大数据的“价值高”是指数据中蕴含的________价值。
大数据考试题库1.数据管理与处理题题目一:请列举三种常见的数据存储方式,并对它们进行比较和分析。
解析:数据存储方式是指将数据存储在不同的介质中以满足不同的需求和要求。
常见的数据存储方式包括关系型数据库、非关系型数据库和分布式文件系统。
1)关系型数据库:关系型数据库使用表格结构来组织和存储数据,具有严格的数据模式和数据约束。
它使用SQL语言进行数据操作和查询,能够提供复杂的数据关系和事务支持。
但是,关系型数据库在处理大规模数据时性能较差,并且扩展性有限。
2)非关系型数据库:非关系型数据库以键值对、文档、列族等形式存储数据,结构灵活且具备良好的可扩展性。
它可以处理非结构化和半结构化数据,适用于大规模和高并发的数据存储和访问。
但是,非关系型数据库对数据一致性和事务支持较差。
3)分布式文件系统:分布式文件系统将大量数据分散存储在多个节点上,实现数据的分布式管理和处理。
它具有良好的可扩展性和容错性,支持高并发和大规模数据处理。
但是,分布式文件系统在数据一致性和事务管理方面存在一定的挑战。
综上所述,不同的数据存储方式适用于不同的场景和需求。
关系型数据库适合处理事务性和结构化数据;非关系型数据库适合处理非结构化和大规模数据;分布式文件系统适合处理分布式和并行计算。
题目二:大数据处理常常需要进行数据清洗操作,请介绍至少三种常见的数据清洗技术,并说明其应用场景和优缺点。
解析:数据清洗是指对原始数据进行处理和过滤,去除错误、冗余或不完整的数据,以提高数据质量和可用性。
常见的数据清洗技术包括数据去重、数据格式化、数据填充。
1)数据去重:数据去重是对数据进行重复项的识别和删除。
它可以帮助保证数据的一致性和准确性,避免重复计算和冗余存储。
数据去重常用于数据清洗、数据集成和数据仓库等场景。
但是,数据去重技术对数据量较大时性能较差。
2)数据格式化:数据格式化是将数据转化为统一的格式,以方便后续的处理和分析。
格式化可以包括数据类型转换、日期格式化等操作。
大数据试题与答案--最全1、当前大数据技术的基础是由(C)首先提出的。
(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴2、大数据的起源是(C )。
(单选题,本题2分)A:金融B:电信C:互联网D:公共管理3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。
(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师4、(D )反映数据的精细化程度,越细化的数据,价值越高。
(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度5、数据清洗的方法不包括(D)。
(单,本题2分)A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理6、智能健康手环的应用开发,体现了(D)的数据采集技术的应用。
(单选题,本题2分)A:统计报表B:网络爬虫C:API接口D:传感器7、下列关于数据重组的说法中,错误的是(A)。
(单选题,本题2分)A:数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新8、智慧城市的构建,不包含(C)。
(单选题,本题2分)A:数字城市B:物联网C:联网监控D:云计算大数据的最显著特征是(A)。
(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的(B )。
(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D )。
(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A )。
大数据考试题及答案1. 选择题1.1 大数据主要处理的是以下哪一方面的数据?A. 结构化数据B. 非结构化数据C. 半结构化数据D. 所有类型的数据1.2 大数据的四个关键特征是什么?A. 数据量大、数据速度快、数据多样性、数据真实性B. 数据存储大、数据处理快、数据分析准确、数据可视化C. 数据源众多、数据分布式存储、数据挖掘技术、数据安全性D. 数据采集快、数据处理深、数据应用广、数据效果好1.3 下列哪项不属于大数据的三个基本要素?A. 海量数据B. 复杂性C. 数据密度D. 高速性1.4 大数据技术中的Hadoop是由哪个项目演化而来的?A. Google File SystemB. MapReduceC. Apache HBaseD. Apache Spark1.5 大数据存储的主要技术是什么?A. 数据仓库B. 数据库C. 分布式文件系统D. 缓存技术答案:1.1 - D1.2 - A1.3 - C1.4 - A1.5 - C2. 填空题2.1 大数据技术中,____是一种能够编写并运行在大规模集群上的计算模型。
2.2 大数据存储中,____是一种可水平扩展的分布式文件系统。
2.3 大数据中的____是指数据以不同的类型和格式存在,包含了结构化、非结构化和半结构化数据。
2.4 大数据技术中,____是处理大规模数据的一种并行计算框架。
2.5 大数据分析的目的是从大数据中挖掘出有用的____。
答案:2.1 - MapReduce2.2 - Hadoop2.3 - 数据多样性2.4 - Spark2.5 - 信息和洞察3. 简答题3.1 请简要解释大数据的四个关键特征。
答:大数据的四个关键特征分别是数据量大、数据速度快、数据多样性和数据真实性。
数据量大指的是大规模的数据量级,传统数据处理技术难以胜任。
数据速度快指的是对数据的实时或接近实时的处理和分析需求,要求系统能够在短时间内完成处理。
大数据试题库选择题1.下列哪一项不是大数据提供的用户交互方式:(C)A.统计分析和数据挖掘B.任意查询和分析C.图形化展示D.企业报表2.与大数据密切相关的技术是(B)A蓝牙 B,云计算 C,博弈论 D,wifi3.大数据应用需依托的新技术有( D)A.大规模存储与计算B.数据分析处理C.智能化D.三个选项都是4.与大数据密切相关的技术是(B)A蓝牙 B 云计算 C 博弈论 D wifi填空题1.大数据最具潜能的三大应用领域分别为商业智能,公共服务和市场营销.2.1pb=(1024)tb=(2e20)gb=(2e30)mb=(2e40)kb3.大数据的特征是___、___、___、___。
答案:大量化、多样化、快速化、价值密度低。
4.大数据的4v特征分别是大量化多样化快速化价值密度低判断题1.大数据的存储方案通常对一份数据在不同节点上存储三份副本,以提高系统容错性。
(√)2.大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
(√)3.数据可视化可以便于人们对数据的理解(√)4.大数据技术和云计算技术是两门完全不相关的技术(X)简答题1.请简述大数据的结果展现方式。
答:1)报表形式基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和自定义格式的报表等,使用方便、设计灵活。
2.图形化展现提供曲线、饼图、堆积图、仪表盘、鱼骨分析图等图形形式宏观展现模型数据的分布情况,从而便于进行决策。
2)KPI展现提供表格式绩效一览表并可自定义绩效查看方式,如数据表格或走势图,企业管理者可根据可度量的目标快速评估进度。
4.查询展现按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进行上钻、下钻、旋转等操作。
2.例举身边的大数据。
答:i.QQ,微博等社交软件产生的数据ii.天猫,京东等电子商务产生的数据iii.互联网上的各种数据3.简述大数据的数据管理方式。
大数据技术期末复习题库一、选择题1. 大数据的4V特性包括:A. Volume(体量)、Variety(种类)、Velocity(速度)、Value(价值)B. Volume(体量)、Variety(种类)、Veracity(真实性)、Value(价值)C. Volume(体量)、Variety(种类)、Velocity(速度)、Veracity(真实性)D. Volume(体量)、Variety(种类)、Veracity(真实性)、Value(价值)2. Hadoop生态系统中,用于数据存储的是:A. HiveB. HBaseC. Hadoop Distributed File System (HDFS)D. Pig3. 下列哪个不是大数据技术中常用的数据处理框架?A. MapReduceB. SparkC. HadoopD. SQL Server4. 在大数据环境下,用于实时数据流处理的技术是:A. HiveB. StormC. PigD. HBase5. 以下哪个是大数据技术中的数据挖掘过程?A. 数据清洗B. 数据抽取C. 数据转换D. 数据加载二、简答题1. 简述大数据技术与传统数据库技术的区别。
2. 描述Hadoop生态系统中MapReduce的工作机制。
3. 解释什么是数据仓库以及它在大数据中的作用。
4. 阐述Spark与Hadoop MapReduce相比的优势。
5. 描述大数据技术在商业智能(Business Intelligence, BI)中的应用。
三、论述题1. 论述大数据技术在电子商务领域的应用及其带来的变革。
2. 分析大数据技术在社交媒体分析中的作用及其对市场策略的影响。
3. 探讨大数据技术在医疗健康领域的应用及其潜在的挑战。
四、案例分析题1. 假设你是一家电子商务公司的大数据分析师,请你根据该公司的业务需求,设计一个大数据解决方案来优化库存管理和客户服务。
2. 针对一家在线视频流媒体服务公司,分析如何利用大数据技术来提高用户体验和广告投放的精准度。
大数据中级考试题库及答案一、单选题1. 大数据的4V特性不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Value(价值高)答案:D2. Hadoop的核心组件不包括以下哪一项?A. HDFSB. MapReduceC. HiveD. Spark答案:D3. 以下哪个不是大数据技术?A. HadoopB. NoSQL数据库C. 数据仓库D. 机器学习答案:C4. 在Hadoop生态系统中,用于数据仓库的组件是?A. HBaseB. HiveC. PigD. Sqoop答案:B5. 以下哪个不是NoSQL数据库的类型?A. 文档型数据库B. 列族数据库C. 关系型数据库D. 键值存储数据库答案:C二、多选题6. 大数据技术可以应用于以下哪些领域?A. 金融B. 医疗C. 教育D. 交通答案:ABCD7. Hadoop生态系统中包括以下哪些组件?A. HDFSB. MapReduceC. HiveD. Storm答案:ABCD8. 以下哪些是大数据的特点?A. 实时性B. 可扩展性C. 多样性D. 高效性答案:ABCD9. 以下哪些是NoSQL数据库的优势?A. 易于扩展B. 高性能C. 高可用性D. 强一致性答案:ABC10. 大数据的分析方法包括?A. 描述性分析B. 诊断性分析C. 预测性分析D. 规范性分析答案:ABCD三、判断题11. Hadoop是一个开源的大数据框架,用于存储和处理大规模数据集。
(对)12. Spark比Hadoop更快,因为它不需要磁盘I/O。
(错)13. NoSQL数据库不支持事务。
(错)14. Hive是一个数据仓库工具,它将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。
(对)15. 大数据的“大”仅仅指的是数据量的大小。
(错)四、简答题16. 请简述大数据的4V特性。
答案:大数据的4V特性包括:- Volume(体量大):数据的规模非常大,通常从TB到PB级别。
大数据试题及答案一、选择题1. 以下哪项技术不是大数据处理的核心技术?A. 分布式存储B. 分布式计算C. 数据挖掘D. 关系型数据库答案:D2. 以下哪个大数据处理框架是Apache软件基金会开发的?A. HadoopB. SparkC. FlinkD. All of the above答案:D3. 在大数据技术中,以下哪个技术用于实现数据的分布式存储?A. HDFSB. HBaseC. RedisD. Kafka答案:A4. 以下哪个大数据技术用于实现数据的分布式计算?A. MapReduceB. StormC. SparkD. Hive答案:A5. 以下哪个大数据技术用于实现实时数据处理?A. HadoopB. Spark StreamingC. FlinkD. Kafka答案:C二、填空题1. 大数据处理技术主要包括________、________、________和________。
答案:分布式存储、分布式计算、数据挖掘、数据可视化2. Hadoop框架中的________用于分布式存储,________用于分布式计算。
答案:HDFS、MapReduce3. 在大数据技术中,________是用于实现实时数据流处理的技术,________是用于实现实时计算的技术。
答案:Kafka、Flink4. 以下属于大数据应用场景的有:________、________、________。
答案:金融风控、智能推荐、物联网三、判断题1. 大数据技术仅适用于处理大规模数据集。
()答案:错误。
大数据技术不仅可以处理大规模数据集,还可以应用于中小数据集,提高数据处理和分析的效率。
2. Hadoop是一个开源的大数据处理框架,可以用于分布式存储和分布式计算。
()答案:正确。
3. Spark比Hadoop更适用于实时数据处理。
()答案:正确。
Spark具有更高的数据处理速度,可以满足实时数据处理的需求。
四、简答题1. 简述大数据技术的特点和挑战。
大数据考试题库和答案一、单项选择题1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. 以下哪一项不是Hadoop生态系统中的组件?A. HDFSB. MapReduceC. SparkD. Cassandra答案:D3. 在大数据中,以下哪个术语指的是数据的存储格式?A. ETLB. OLAPC. NoSQLD. Hadoop答案:C4. 以下哪个不是大数据技术的优势?A. 处理速度快B. 成本低C. 存储容量小D. 可扩展性高答案:C5. 大数据技术可以应用于以下哪个领域?A. 金融B. 医疗C. 教育D. 所有以上选项答案:D二、多项选择题1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 数据存储C. 数据分析D. 数据可视化答案:ABCD2. 以下哪些是大数据技术的关键组成部分?A. 分布式存储B. 分布式计算C. 数据库D. 机器学习答案:ABCD3. 在大数据领域,以下哪些是常见的数据源?A. 社交媒体B. 传感器数据C. 交易记录D. 网络日志答案:ABCD三、判断题1. 大数据技术只能处理结构化数据。
(错误)2. 机器学习是大数据技术的一个重要应用领域。
(正确)3. Hadoop是一个开源的大数据存储和处理框架。
(正确)4. NoSQL数据库不支持事务处理。
(错误)5. 大数据技术可以完全替代传统的数据库技术。
(错误)四、简答题1. 请简述大数据的4V特征。
答案:大数据的4V特征包括:- Volume(体量大):数据量巨大,通常以TB或PB为单位。
- Velocity(速度快):数据生成和处理的速度非常快。
- Variety(种类多):数据类型多样化,包括结构化、半结构化和非结构化数据。
- Veracity(真实性):数据的质量和准确性。
2. 请解释什么是ETL过程。
大数据试题库
选择题
1.下列哪一项不是大数据提供的用户交互方式:(C)
A.统计分析和数据挖掘
B.任意查询和分析
C.图形化展示
D.企业报表
2.与大数据密切相关的技术是(B)
A蓝牙 B,云计算 C,博弈论 D,wifi
3.大数据应用需依托的新技术有( D)
A.大规模存储与计算
B.数据分析处理
C.智能化
D.三个选项都是
4.与大数据密切相关的技术是(B)
A蓝牙 B 云计算 C 博弈论 D wifi
填空题
1.大数据最具潜能的三大应用领域分别为商业智能,公共服务和市场营销.
2.1pb=(1024)tb=(2e20)gb=(2e30)mb=(2e40)kb
3.大数据的特征是___、___、___、___。
答案:大量化、多样化、快速化、价值密度低。
4.大数据的4v特征分别是大量化多样化快速化价值密度低
判断题
1.大数据的存储方案通常对一份数据在不同节点上存储三份副本,以提高系统容错性。
(√)
2.大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解
决的问题提供答案。
(√)
3.数据可视化可以便于人们对数据的理解(√)
4.大数据技术和云计算技术是两门完全不相关的技术(X)
简答题
1.请简述大数据的结果展现方式。
答:
1)报表形式
基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和自定义格式的报表等,使用方便、设计灵活。
2.图形化展现
提供曲线、饼图、堆积图、仪表盘、鱼骨分析图等图形形式宏观展现模型数据的分布情况,从而便于进行决策。
2)KPI展现
提供表格式绩效一览表并可自定义绩效查看方式,如数据表格或走势图,企业管理者可根据可度量的目标快速评估进度。
4.查询展现
按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进行上钻、下钻、旋转等操作。
2.例举身边的大数据。
答:
i.QQ,微博等社交软件产生的数据
ii.天猫,京东等电子商务产生的数据
iii.互联网上的各种数据
3.简述大数据的数据管理方式。
答:对于图像、视频、URL、地理位置等类型多样的数据,难以用传统的结构化方式
描述,因此需要使用由多维表组成的面向列存储的数据管理系统来组织和管理数据。
也就是说,将数据按行排序,按列存储,将相同字段的数据作为一个列族来聚合存储。
不同的列族对应数据的不同属性,这些属性可以根据需求动态增加,通过这样的分布
式实时列式数据库对数据统一进行结构化存储和管理,避免了传统数据存储方式下的
关联查询。
4.什么是大数据?
答:大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据。