当前位置：代码网 > 科技>人工智能>数据分析 > 大数据基础复习题整理

大数据基础复习题整理

2024年08月04日 • 数据分析 •我要评论

大数据基础这门课的一些选择题复习题整理，希望对大家有所帮助~！

第一章

以下关于云计算、大数据和物联网之间的关系，论述错误的是

a. 物联网可以借助于大数据实现海量数据的分析
b. 物联网可以借助于云计算实现海量数据的存储
c. 云计算、大数据和物联网三者紧密相关，相辅相成
d. 云计算侧重于数据分析

第三次信息化浪潮的标志是哪些技术的兴起?

a. 个人计算机
b. 物联网
c. 云计算
d. 大数据

大数据具有哪些特点?

a. 数据的“大量化”
b. 数据的“快速化”
c. 数据的“多样化”
d. 数据的“价值密度高”

下面哪些特征不是大数据所具有的

a. 使用抽样数据而不是全体样本
b. 结构化数据的规模远远超过非结构化的数据的规模
c. 追求的是数据计算的效率而不是精确性
d. 大数据分析追求事物之间的因果关系而不是相关性

第二章

关于kafka中的生产者和消费者，以下描述错误的是

a. 生产者可以发布数据到指定的主题,并可以指定消息写入哪个分区
b. 消费者可以订阅一个或多个主题
c. 在同一个消费者组中,每个消费者消费相同的分区的消息
d. 属于不同消费者组的消费者可以消费同一个分区的消息。

关于kafka中的概念，以下描述正确的是

a. 事件是kafka通信的基本单位
b. 批次是一组属于不同主题和分区的消息的集合
c. 同一类消息可被抽象归纳为一个主题
d. 每个主题包含一个分区

以下描述错误的是

a. 一个source可以连接多个channel
b. 多个source可以写入同一个channel
c. 多个sink可以从同一个channel中读取数据
d. 一个sink可以从多个channel中读取数据

etl操作不包括

a. 提取
b. 转换
c. 加载
d. 计算

关于flume中的事务，以下描述正确的是

a. 每个flume事务中包含一个事件
b. 当事务中的一个事件读/写成功后,事务就可以被提交
c. channel处理器负责source的事务处理。
d. 每个flume事务中包含一个或多个事件

第三章

分布式文件系统指的是什么?

a. 把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
b. 用于在hadoop与传统数据库之间进行数据传递
c. 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
d. 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

下列哪一项不属于hdfs采用抽象的块概念带来的好处?

a. 简化系统设计
b. 支持大规模文件存储
c. 强大的跨平台兼容性
d. 适合数据备份

下列关于hdfs的描述,哪个不正确?

a. hdfs还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
b. hdfs采用了主从(master/slave)结构模型
c. hdfs采用了冗余数据存储,增强了数据可靠性
d. hdfs采用块的概念,使得系统的设计变得更加复杂

hdfs具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

a. 数据源太大
b. 数据节点出错
c. 数据出错
d. 名称节点出错

关于不同类型节点功能描述正确的是：

a. 名称节点负责管理文件系统的命名空间及客户端对文件的访问
b. 数据节点是文件系统中真正存储数据的地方
c. 名称节点负责处理文件系统客户端的读写请求
d. 每个数据节点会周期性地向第二名称节点发送心跳信息

第四章

以下对各类数据库的理解错误的是

a. 键值数据库的键和值都可以是任意类型的数据,比如整型和字符型等
b. hbase数据库是列族数据库,可扩展性强,支持事务一致性
c. 文档数据库旨在将半结构化数据存储为文档，通常用xml、json等文档格式来封装和编码数据。
d. 图数据库应用图形理论存储实体之间的关系信息，包括顶点以及连接顶点的边

nosql数据库的三大理论基石不包括

a. base
b. cap
c. acid
d. 最终一致性

下列对hbase数据模型的描述错误的是

a. hbase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳
b. 每个hbase表都由若干行组成，每个行由行键（row key）来标识
c. hbase列族支持动态扩展，可以很轻松地添加一个列族或列
d. hbase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本

cap是指

a. 分区容忍性
b. 可用性
c. 持久性
d. 一致性

访问hbase表中的行,有哪些方式

a. 通过单个行健访问
b. 通过一个行健的区间来访问
c. 通过某列的值区间
d. 全表扫描

下列对hbase的理解正确的是

a. hbase是一种关系型数据库,现成功应用于互联网服务领域
b. hbase多用于存储非结构化和半结构化的松散数据
c. hbase是一个行式分布式数据库,是hadoop生态系统中的一个组件
d. hbase是针对谷歌bigtable的开源实现

第五章

下列关于map和reduce函数的描述,哪个是错误的?

a. map将小数据集进一步解析成一批对,输入map函数中进行处理
b. map每一个输入的会输出一批。是计算的中间结果
c. reduce输入的中间结果中的list(v 2 )表示是一批属于不同k 2 的value
d. reduce输入的中间结果中的list(v 2 )表示是一批属于同一个k 2 的value

关于mapreduce1.0的体系结构的描述,下列说法错误的是?

a. task 分为map task 和reduce task 两种,分别由jobtracker和tasktracker 启动
b. slot 分为map slot 和reduce slot 两种,分别供maptask 和reduce task 使用
c. tasktracker 使用“slot”等量划分本节点上的资源量(cpu、内存等)
d. tasktracker 会周期性接收jobtracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)

下列哪项是hadoop生态系统中spark的功能?

a. 处理大规模数据的脚本语言
b. 工作流和协作服务引擎,协调hadoop上运行的不同任务
c. 不支持dag作业的计算框架
d. 基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算

在hadoop生态系统中,kafka主要解决hadoop 中存在哪些的问题?

a. hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
b. 不同的mapreduce任务之间存在重复操作,降低了效率
c. 延迟高,而且不适合执行迭代计算
d. 抽象层次低,需要手工编写大量代码

关于hdfs federation 的设计的描述,哪个是错误的?

a. 属于不同命名空间的块可以构成同一个“块池”
b. hdfs federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报
c. 设计了多个相互独立的名称节点
d. hdfs的命名服务能够水平扩展

下列关于mapreduce1.0的描述,错误的是?

a. jobtracker“大包大揽”导致任务过重
b. 不存在单点故障
c. 容易出现内存溢出(分配资源只考虑mapreduce任务数,不考虑cpu、内存)
d. 资源划分不合理(强制划分为slot ,包括map slot和reduce slot)

下列关于mapreduce的体系结构的描述,说法正确的有?

a. 用户编写的mapreduce程序通过client提交到jobtracker端
b. jobtracker负责资源监控和作业调度
c. tasktracker监控所有tasktracker与job的健康状况
d. tasktracker 使用“slot”等量划分本节点上的资源量(cpu、内存等)

下列说法正确的是?

a. mapreduce体系结构主要由四个部分组成,分别是:client、jobtracker、tasktracker以及task
b. task 分为map task 和reduce task 两种,均由tasktracker 启动
c. 在mapreduce工作流程中,所有的数据交换都是通过mapreduce框架自身去实现的
d. 在mapreduce工作流程中,用户不能显式地从一台机器向另一台机器发送消息

赞 (0)

相关文章:

[数据存储]HDFS的简介、初始化配置与运行

HDFS（Hadoop Distributed File System）Hadoop分布式文件系统，是Hadoop项目中关于数据存储的组件，是Hadoop项目的... [阅读全文]
TEZ配合HIVE安装使用，启动HIVE报错Previous writer likely failed to write hdfs://hadoop101:9000/tmp/hive/root/_te

Previous writer likely failed to write hdfs://hadoop101:9000/tmp/hive/root/_tez_... [阅读全文]
Hadoop HA集群两个NameNode都是standby或者主NameNode是standby，从NameNode是active的情况集锦

这里说一下配置Hadoop HA集群可能出现的两种情况，第一种就是两个NameNode都是standby，第二种就是主Master是standby，从Maste... [阅读全文]
关于Hadoop生态圈相关组件的介绍

"冷备"、"温备"和"热备"是备份和恢复策略中常见的术语，它们描述了在不同情况下备份数据的状态以及备份过程的准备程度。这…

2024年08月04日 • 人工智能
Hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它允许用户在不了解分布式底层细节的情况下，开发分布式程序。Hadoop的设计目标是利用集群的威... [阅读全文]
Hadoop一课一得

本文详细介绍了Hadoop课程的内容和学习路径，希望能够帮助读者更好地理解和应用这一强大的大数据处理工具。 [阅读全文]

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站仅提供信息存储服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2386932994@qq.com 举报，一经查实将立刻删除。

发表评论


验证码：

Copyright © 2017-2026 代码网保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱：2386932994@qq.com