大数据基础这门课的一些选择题复习题整理,希望对大家有所帮助~!
第一章
以下关于云计算、大数据和物联网之间的关系,论述错误的是
- a. 物联网可以借助于大数据实现海量数据的分析
- b. 物联网可以借助于云计算实现海量数据的存储
- c. 云计算、大数据和物联网三者紧密相关,相辅相成
- d. 云计算侧重于数据分析
第三次信息化浪潮的标志是哪些技术的兴起?
- a. 个人计算机
- b. 物联网
- c. 云计算
- d. 大数据
大数据具有哪些特点?
- a. 数据的“大量化”
- b. 数据的“快速化”
- c. 数据的“多样化”
- d. 数据的“价值密度高”
下面哪些特征不是大数据所具有的
- a. 使用抽样数据而不是全体样本
- b. 结构化数据的规模远远超过非结构化的数据的规模
- c. 追求的是数据计算的效率而不是精确性
- d. 大数据分析追求事物之间的因果关系而不是相关性
第二章
关于kafka中的生产者和消费者,以下描述错误的是
- a. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
- b. 消费者可以订阅一个或多个主题
- c. 在同一个消费者组中,每个消费者消费相同的分区的消息
- d. 属于不同消费者组的消费者可以消费同一个分区的消息。
关于kafka中的概念,以下描述正确的是
- a. 事件是kafka通信的基本单位
- b. 批次是一组属于不同主题和分区的消息的集合
- c. 同一类消息可被抽象归纳为一个主题
- d. 每个主题包含一个分区
以下描述错误的是
- a. 一个source可以连接多个channel
- b. 多个source可以写入同一个channel
- c. 多个sink可以从同一个channel中读取数据
- d. 一个sink可以从多个channel中读取数据
etl操作不包括
关于flume中的事务,以下描述正确的是
- a. 每个flume事务中包含一个事件
- b. 当事务中的一个事件读/写成功后,事务就可以被提交
- c. channel处理器负责source的事务处理。
- d. 每个flume事务中包含一个或多个事件
第三章
分布式文件系统指的是什么?
- a. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
- b. 用于在hadoop与传统数据库之间进行数据传递
- c. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
- d. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
下列哪一项不属于hdfs采用抽象的块概念带来的好处?
- a. 简化系统设计
- b. 支持大规模文件存储
- c. 强大的跨平台兼容性
- d. 适合数据备份
下列关于hdfs的描述,哪个不正确?
- a. hdfs还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
- b. hdfs采用了主从(master/slave)结构模型
- c. hdfs采用了冗余数据存储,增强了数据可靠性
- d. hdfs采用块的概念,使得系统的设计变得更加复杂
hdfs具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?
- a. 数据源太大
- b. 数据节点出错
- c. 数据出错
- d. 名称节点出错
关于不同类型节点功能描述正确的是:
- a. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
- b. 数据节点是文件系统中真正存储数据的地方
- c. 名称节点负责处理文件系统客户端的读写请求
- d. 每个数据节点会周期性地向第二名称节点发送心跳信息
第四章
以下对各类数据库的理解错误的是
- a. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
- b. hbase数据库是列族数据库,可扩展性强,支持事务一致性
- c. 文档数据库旨在将半结构化数据存储为文档,通常用xml、json等文档格式来封装和编码数据。
- d. 图数据库应用图形理论存储实体之间的关系信息,包括顶点以及连接顶点的边
nosql数据库的三大理论基石不包括
- a. base
- b. cap
- c. acid
- d. 最终一致性
下列对hbase数据模型的描述错误的是
- a. hbase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
- b. 每个hbase表都由若干行组成,每个行由行键(row key)来标识
- c. hbase列族支持动态扩展,可以很轻松地添加一个列族或列
- d. hbase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
cap是指
- a. 分区容忍性
- b. 可用性
- c. 持久性
- d. 一致性
访问hbase表中的行,有哪些方式
- a. 通过单个行健访问
- b. 通过一个行健的区间来访问
- c. 通过某列的值区间
- d. 全表扫描
下列对hbase的理解正确的是
- a. hbase是一种关系型数据库,现成功应用于互联网服务领域
- b. hbase多用于存储非结构化和半结构化的松散数据
- c. hbase是一个行式分布式数据库,是hadoop生态系统中的一个组件
- d. hbase是针对谷歌bigtable的开源实现
第五章
下列关于map和reduce函数的描述,哪个是错误的?
- a. map将小数据集进一步解析成一批对,输入map函数中进行处理
- b. map每一个输入的会输出一批。是计算的中间结果
- c. reduce输入的中间结果中的list(v 2 )表示是一批属于不同k 2 的value
- d. reduce输入的中间结果中的list(v 2 )表示是一批属于同一个k 2 的value
关于mapreduce1.0的体系结构的描述,下列说法错误的是?
- a. task 分为map task 和reduce task 两种,分别由jobtracker和tasktracker 启动
- b. slot 分为map slot 和reduce slot 两种,分别供maptask 和reduce task 使用
- c. tasktracker 使用“slot”等量划分本节点上的资源量(cpu、内存等)
- d. tasktracker 会周期性接收jobtracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)
下列哪项是hadoop生态系统中spark的功能?
- a. 处理大规模数据的脚本语言
- b. 工作流和协作服务引擎,协调hadoop上运行的不同任务
- c. 不支持dag作业的计算框架
- d. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算
在hadoop生态系统中,kafka主要解决hadoop 中存在哪些的问题?
- a. hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
- b. 不同的mapreduce任务之间存在重复操作,降低了效率
- c. 延迟高,而且不适合执行迭代计算
- d. 抽象层次低,需要手工编写大量代码
关于hdfs federation 的设计的描述,哪个是错误的?
- a. 属于不同命名空间的块可以构成同一个“块池”
- b. hdfs federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
- c. 设计了多个相互独立的名称节点
- d. hdfs的命名服务能够水平扩展
下列关于mapreduce1.0的描述,错误的是?
- a. jobtracker“大包大揽”导致任务过重
- b. 不存在单点故障
- c. 容易出现内存溢出(分配资源只考虑mapreduce任务数,不考虑cpu、内存)
- d. 资源划分不合理(强制划分为slot ,包括map slot和reduce slot)
下列关于mapreduce的体系结构的描述,说法正确的有?
- a. 用户编写的mapreduce程序通过client提交到jobtracker端
- b. jobtracker负责资源监控和作业调度
- c. tasktracker监控所有tasktracker与job的健康状况
- d. tasktracker 使用“slot”等量划分本节点上的资源量(cpu、内存等)
下列说法正确的是?
- a. mapreduce体系结构主要由四个部分组成,分别是:client、jobtracker、tasktracker以及task
- b. task 分为map task 和reduce task 两种,均由tasktracker 启动
- c. 在mapreduce工作流程中,所有的数据交换都是通过mapreduce框架自身去实现的
- d. 在mapreduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息
相关文章:
-
-
-
-
"冷备"、"温备"和"热备"是备份和恢复策略中常见的术语,它们描述了在不同情况下备份数据的状态以及备份过程的准备程度。这…
-
Hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用户在不了解分布式底层细节的情况下,开发分布式程序。Hadoop的设计目标是利用集群的威...
[阅读全文]
-
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论