1+X大数据平台运维职业技能等级证书中级

该部分是选择题部分，实操题在主页的另一篇文章

考试名称：“1+X”大数据平台运维职业技能等级证书（中级）

1+X 大数据平台运维中级测试题一、单选题

以下哪种情况容易引发 HDFS 负载不均问题？（ C）
1. HDFS 中存储的文件大小不一，小文件太多
2. HDFS 中 Block 的大小设置不合理
3. Data 各数据节点磁盘规格和空间大小有差异
4. NameNode 与 DataNode 节点在同一物理服务器上
MapReduce 中可能引起负载问题的原因有哪些？（ D）
1. MapReduce 需要处理的数据量过大
2. 数据本身的格式问题，例如：文档格式混乱
3. DataNode 节点与 Map 节点不在一起
4. Map 中 Key 值选取和设定问题，导致 Key 值过于集中
下面哪些不是引起 Spark 负载不均的原因？（D ）
1. Spark 读入的数据源是倾斜的
2. Shuffle 阶段 Key 值过于集中
3. 在数据过滤阶段需要处理的数据量差异
4. Spark 的运行方式差异
哪些不是引起 Hive 数据倾斜的原因？（D ）
1. 数据在节点存储上分布不均
2. 运算中 Key 值分布不均
3. 业务数据本身存在分布不均
4. Hive 中表数量的多少
Hive 数据倾斜的表现？（D）
1. Hive 建表后数据无法导入
2. Hive 无法启动
3. Hive sql 语句运行异常直接退出
4. Hive 运算任务为报错单长期卡在 99%

下列大数据特点中错误的是（D）。

数据体量大
数据种类多
处理速度快
价值密度高

下列不属于数据存储技术的是（B）。

MySQL
Storm
HDFS
Hbase

企业使用大数据平台基于（C）做分析报表。

MongoDB
BI
Hive
SQL

大数据存储是指用存储器，以（A）的形式，存储采集到数据的过程。

数据库/数据仓库
集群
文件系统
信息系统

下列（C）不是非关系型数据库。

Hbase
Redis
Hive
MongoDB

下列不属于大数据项目实施工作流程的是（D）。

项目规划阶段
数据治理阶段
项目设计阶段
系统运维阶段

在大数据项目规划阶段中，（A）阶段确认大数据项目范围和建设目标。

需求调研
业务调研
数据需求
项目规划

数据来源评估一般在（B）阶段进行。

项目规划
数据治理
项目设计
数据应用

在数据仓库的数据架构中，（B）具有按业务场景组织数据的能力。

结构化数据
列式数据
文档数据
非结构化数据

（D）是检查系统对非法侵入的防范能力。

功能测试
性能测试
安全测试
验收测试

下列哪项通常是集群的最主要瓶颈（c）。

CPU
网络
磁盘 IO
内存

非关系型数据库不包括（B）。

Hbase
Mapreduce
Neo4j
MongoDB

下列关于大数据中计算机存储容量单位的说法中，错误的是（C）。

基本存储容量单位是字节（Byte）
汉字字符存储空间要大于英文字符存储空间
一个英文字符需要 2 个字节的存储空间
一个汉字字符需要 2 个字节的存储空间

啤酒和尿布的关系是大数据在（B）行业的典型应用。

医疗
地产
电商
零售

如今舆情分析大数据平台系统多采用（A）架构。

Lambda
Kappa
流式
Unifield

配置主机名和 IP 地址映射的文件位置是（ D ）

/home/hosts
/usr/local/hosts
/etc/host
/etc/hosts

使配置的环境变量生效的命令是（ D ）

A、vi ~/.bashrc

source ~/bashrc
cat ~/.bashrc
source ~/.bashrc

下列哪项通常是集群的最主要瓶颈( C )

CPU
网络
磁盘 IO
内存

下面哪个程序负责 HDFS 数据存储（ A ）

Datanode
NameNode
Jobtracker
secondaryNameNode

HDfS 中的 block 默认保存（ A ）份。

3 份 B、 2 份

1 份
不确定

1.Linux 下启动 HDFS 的命令是（ C ）

Hdfs
start dfs
start-dfs.sh
start-dfs.cmd

关于 SecondaryNameNode 哪项是正确的？（ B）

它是 NameNode 的热备
它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
它对内存没有要求
SecondaryNameNode 应与 NameNode 部署到一个节点

端口 50070 默认是 HDFS 哪个服务的端口？（ A ）

NameNode
DataNode
SecondaryNameNode
GFS

配置 Hadoop 文件参数时，配置项“dfs.replication”应该配置在哪个文件？

（ B ）

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

Hadoop 集群的关闭命令是？（ C ）

stop-dfs.sh
stop-yarn.sh
stop-all.sh
stop-hadoop.sh

下列哪个程序通常与 NameNode 在一个节点启动？(D)

SecondaryNameNode
DataNode
TaskTracker
Jobtracker

配置 Hadoop ha 文件参数时，JAVA_HOME 包含在哪一个配置文件中（B)

hadoop-default.xml
hadoop-env.sh
hadoop-site.xml
configuration.xsl

下列哪一个是 HADOOP HA 启动的第一个进程（A）

启动 zookeeper
启动 journalnode
在 master1 上执行命令，启动 hdfs 和 yarn
在 master2 上执行命令，启动 yarn

4、下列哪一个是 zookeeper 的进程（B）

A. DFSZKFailoverController
B. QuorumPeerMain
C. JournalNode
D. NodeManage

bin/hdfs zkfc -formatZK
sbin/hdfs zkfc -formatZK
bin/hdfs zkfc -fromatZK
sbin/hdfs zkfc -fromatZK

以下对 Flume 架构描述不正确的是（C）

Flume 的核心就是 Agent
Sink 负责将数据发送到外部指定的目的地
Source 接收到数据之后，将数据发送给 Sink
Channel 作为一个数据缓冲区会临时存放一些数据

Sqoop 工具接收到命令后通过任务翻译器，将命令转换为（A）

MapReduce 任务
Translate 任务
Map 任务
Reduce 任务

以下对 Flume 描述错误的是（D）

高可用的 B、高可靠的

负责海量日志采集
负责处理数据

Flume 数据传输的基本单元是（A）

Event
Client
Channel
Sink

Kafka 的设计初衷不包括（D）

处理海量日志
用户行为统计
网站运营统计
数据转换

Spark on Yarn 有两种接口模式是（A）

Client 模式和 Cluster 模式
Consumers 模式和 Producer 模式
Local 模式和 Remote 模式
Resource 模式和 Application 模式

当启动一个 Spark Shell 时，Spark Shell 已经预先创建好一个 SparkContext 对

象，其变量名为（A）

RDD 是含义是（A） A、弹性分布式数据集

弹性运算数据集
可重复操作数据
远端数据定义

以下哪个不是 Spark 中 Worker Node 的作用（D）

通过注册机制向 Cluster Master 汇报自身的 cpu 和 memory 等资源
Master 的指示下创建启动 Executor，Executor 是执行真正计算的苦力
将资源和任务进一步分配给 Executor
同步资源信息、Executor 状态信息给 Driver

以下对窄依赖描述正确的是（A）

可以表现为一个父 RDD 的分区对应于一个子 RDD 的分区，对输入进行协同划

分

可以表现为多个父 RDD 的分区对应于一个子 RDD 的分区，对输入进行非协同

划分

表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行

非协同划分

表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行协同划分

Linux 操作系统 vm.swappiness 参数值被设置为 10，它的含义是（A）

内存使用量达到系统内存的 90%时，操作系统会相当频繁地使用磁盘上的交换

内存使用量达到系统内存的 10%时，操作系统会相当频繁地使用磁盘上的交换

内存使用量达到系统内存的 90%时，操作系统不会地使用磁盘上的交换文件
内存使用量达到系统内存的 10%时，操作系统不会地使用磁盘上的交换文件

禁用 ipv6 需要修改的是哪个配置文件（A）

A./etc/sysctl.conf
B./etc/profile
C.~/.bashrc
D./etc/networks

禁止记录访问时间戳需要修改什么参数（A）

noatime 和 nodiratime
notime 和 nodirtime
atime 和 diratime
time 和 dirtime

增大可打开文件描述符数目需要修改哪个配置文件（A）

/etc/security/limits.conf
/etc/security/limt.conf
/etc/conf/limits.conf
/etc/conf/limit.conf

以下对 Linux 下的大页描述错误的是（C）

Linux 下的大页分为标准大页和透明大页两种类型
标准大页管理是预分配的方式
透明大页管理是静态分配的方式
Linux 系统默认开启透明大页面功能

大数据处理流程一般分为（ABCD）。
1. 数据采集与预处理
2. 数据存储
3. 数据分析与挖掘
4. 数据可视化
大数据技术面临的挑战主要有（ABCE）。
1. 可靠性
2. 可用性
3. 安全性
4. 高效性
5. 可扩展性
下列属于数据可视化软件及工具的有哪些（ABCD）。

E、 D3.js

Echarts
Python 中 Matplotlib、pyecharts 等库包
R 语言中 ggplot2、highcharter 等库包

大数据实施工程师的工作职责有（ABCDE）。

负责 Hadoop、Spark、Storm 等大数据平台的规划、部署、监控、系统优化等工作，确保系统持续稳定、高效运行
负责大数据平台系统运营规范，及运营工具系统的设计与开发实现
负责 PoC（Proof of Concept，原型验证），在客户业务场景下验证大数据产品的功能与性能
与客户沟通了解需求，在客户业务场景下根据客户的需求进行大数据项目实施，安装部署大数据平台软件
深入理解系统平台，为其持续优化提供建设性意见

大数据运维工程师日常工作主要是（ABCD）。

大数据集群的构建
大数据集群的任务调度、监控预警
大数据集群容量规划、扩容、集群性能优化
大数据系统日常巡检、应急值守和故障处理
根据客户需求进行大数据应用接入和对接培训

6. 故障排查流程一般包括（ABCD）。

应急处置与故障定位
故障报告
故障检查
故障诊断

7. 关于 H3C DataEngine BI 商业智能大数据平台说法正确的是（ABCD）。

采用 B/S 架构，纯 Java 语言开发，支持所有可部署 JDK 的操作系统
支持所有的有 JDBC 接口的数据库
支持 DataEngine Hadoop 和 MPP 分布式数据库等主流大数据平台
具有分布式分析能力，可快速实现数据可视化分析

8. 元数据的内容包括（ABCD）。

对数据质量的描述
对数据处理信息的说明
对数据集的描述
对数据转换方法的描述

9. .美国治理警察超速行驶是通过（）发现问题的。

通过人工观察
通过对不同高速路口收费站的原始数据记录的比对挖掘分析
警车上的跟踪设备产生的报告进行挖掘分析
治安监控录像资料汇总分析

10. Hadoop 集群的三大核心组件是（ ABD ）

HDFS
MapReduce
Zookeeper
YARN

11. 下列哪个是 Hadoop 运行的模式：（ABC ）

单机版
伪分布式
分布式
Zookeeper

12. 下列哪项可以作为集群的管理？（ABC）

Puppet
Pdsh
Zookeeper
Cloudera Manager

13. 启动 yarn 命令后会出现哪些进程（ BC ）

NameNode
NodeManager
ResourceManager
DataNode

14. ZooKeepe r 的 Server 节点主要由哪些角色组成？（ AB）

Leader
Follower
Manager
Learner

15. Follower 节点的主要功能有（ ABCD ）

向 Leader 发送请求
接收 Leader 消息并进行处理
接收 Client 的请求，如果为写请求要发送给 Leader 进行投票
返回给 Client 结果

可以用几台机器配置高可用（BD）
1. 1
2. 3
3. 4
4. 5
下列哪一个不是在 slave1 上使用的命令（CD）

bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
sbin/yarn-daemon.sh start proxyserver
sbin/start-dfs.sh

18. 下列那些是 hadoop ha 启动完成的进程（ABCD）

NameNode
DFSZKFailoverController
JobHistoryServer
QuorumPeerMain

19. 以下哪些属于 ETL 工具（ABC）

sqoop
Flume
Kafka
Spark

20. Flume 的 Agent 包括哪些（ABC）

Source
Channel C、 Sink

D、 Data

21. 以下哪些是 Kafka 的特性（ABC）

分布式
高吞吐量
支持多分区
单副本

22. Spark 包含哪几种模式（ABCD）

本地模式（local）
Standalone 模式
Spark on Yarn 模式
Spark on Mesos 模式

23. Yarn 主要涉及到以下哪几个角色（ABC）

RM: ResourceManager（资源管理者）
NM: NodeMananger（节点管理者）
AM: ApplicationMaster（应用程序管理者）
PM: ProgramManager(程序管理者)

24. 以下哪些是 Spark 的特点（ABC）

运行处理速度快
运行模式多样性
易于使用
交互性

25. 以下对脏页配置参数的描述哪些是正确的（ABCD）

vm.dirty_background_ratio 内存可以填充“脏数据”的百分比
vm.dirty_expire_centisecs 指定脏数据能存活的时间
vm.dirty_ratio 脏数据百分比的绝对限制值
vm.dirty_writeback_centisecs 指定 pdflush/flush/kdmflush 进程执行间隔

26. 目前主流 Linux 发行版本使用 I/O 调度器有哪些（ABC）

DeadLine
CFQ
NOOP
Scheduler

27. 在 Linux 中,查看服务器负载和资源占用情况的常用命令有（AB）

free
top
iostats
Vmstats

28. Hive 有哪些表的数据类型？（ABCD）

内部表
外部表
分区表
桶

29. 7、Hive 的访问方式有哪些？（ABC）

shell
JDBC
Web UI
ssh

30. 8、Hive 的主要特点：（ABCD）

可伸缩
高容错
类 SQL 语言
批处理

三、判断题

大数据处理速度快，但时效性要求却很低。（错）
大数据的数据类型丰富，包括结构化数据、半结构化数据和非结构化数据。（对）
大数据来源包括：传统商业数据、互联网数据和物联网数据。（错）
日志一般为结构化或非结构化的二进制文件，可以利用日志分析工具进行事后分析。

故障报告应该写清故障时间、故障表现、理论表现、故障有关的操作以及如何重现。

Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。(对)
分布式数据库是指物理上分散在不同地点，但是逻辑上是统一的数据库。(对)
防火墙策略也称为防火墙的安全规则，它是防火墙实施网络保护的重要依据。(对)
Hadoop 是 Java 开发的，所以 MapReduce 只支持 Java 语言编写。(错)
NameNode 负责管理 metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错)
因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的。(错)
HADOOP HA 通过主备 NameNode 解决单点故障问题，如果主 NameNode 发生故障，则切换到备 NameNode 上。（对）
HADOOP HA 高可用支持多个 NameNode,每个 NameNode 分管一部分目录；所有 NameNode 共享所有 DataNode 存储资源。（对）
Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。（错）
File Channel 类型会将所有的事件写入磁盘，因此在程序关闭或服务器宕机的情况下不会丢失数据，但速度相对较慢。(对)
Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。（错）
File Channel 类型会将所有的事件写入磁盘，因此在程序关闭或服务器宕机的情况下不会丢失数据，但速度相对较慢。(对)
执行 Spark 任务有两种方式，一种是 Spark-submit，一种是 Spark-shell。当我们在生产部署与发布的时候通常使用 spark-submit 脚本进行提交的。（对）
Spark 是基于缓存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。（错）
脏页是 linux 内核中的概念，因为硬盘的读写速度远赶不上内存的速度，系统就把读写比较频繁的数据事先放到内存中，以提高读写速度，称之为高速缓存。（对）

1. 从 Vi 编辑模式下保存配置返回到 Centos7 系统使用（ ) - 选项：C. 按“Esc”键，然后按“shift”+“：”，输入 wq 回车
2. 在 Centos7 系统中，查看和修改 IP 信息需要用到（）文件 - 选项：A. /etc/sysconfig/network/ifcfg-ens0
3. tar 命令用于对文件进行打包压缩或解压，-t 参数含义（）- 选项：C. 查看压缩包内有哪些文件
4. Hadoop 的安装部署的模式属于本地模式（ ) - 选项：A. 默认的模式，无需运行任何守护进程（daemon），所有程序都在单个 JVM 上执行。
5. Hadoop 的安装部署的模式属于伪分布模式（ ) - 选项：B. 在一台主机模拟多主机。即，Hadoop 的守护程序在本地计算机上运行，模拟集群环境，并且是相互独立的Java 进程。
6. HDFS 默认 Block Size 的大小是（）- 选项：C. 128MB
7. 下列关于 MapReduce 说法不正确的是( ) - 选项：C. MapReduce 程序只能用 java 语言编写
8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 ( ) - 选项：D. 一次写入，多次读
9. 关于 SecondaryNameNode 下面哪项是正确的（）- 选项：C. 它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
10. 大数据的特点不包括下面哪一项（）- 选项：D. 价值密度高
11. Hbase 依赖_( )存储底层数据 - 选项：A. HDFS
12. Hbase 依赖（）提供消息通信机制 - 选项：A. Zookeeper
13. 在 hive 中已知表 test(name)的记录如下, tom, tom_green, tomly, lily, 代码 select * from test where name rlike 'tom.*'的结果有（）条记录 - 选项：B. 2
14. flume 有哪个组件用于采集数据（）- 选项：A. source
15. flume 中那种 source 类型支持 Unix 的命令标准在生产数据（）- 选项：C. Exec Source
16. 大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的（）- 选项：B. 新一代信息技术和服务业态
17. 整个大数据平台按其职能划分为五个模块层次，运行环境层是（ ) - 选项：A. 运行环境层为基础设施层提供运行时环境，它由 2 部分构成，即操作系统和运行时环境。
18. 大数据平台架构设计( )的思想 - 选项：A. 分层模块化设计
19. 大数据系统出现”java.net.NoRouteToHostException: No route to host “ 解决方案（）- 选项：B. 关掉防火墙 service iptables stop
20. hadoop 平台下检查 h3cu 目录的健康状态采用（）命令 - 选项：A. hdfs fsck /h3cu
21. 查看当前 yarn 运行任务列表采用（）命令 - 选项：D. yarn application -list
22. 报告 hdfs 使用情况采用（）命令 - 选项：B. hdfs dfsadmin -report
23. map/reduce 参数监控 metrics，shuffle 成功的次数（）- 选项：D. mapred.ShuffleMetrics.ShuffleOutputsOK
24. 启动 Hadoop 和 Hbase 之后，执行jps 命令，已经看到有 HMaster 的进程，但是进入到监控界面查看，没有节点信息：最有可能原因（）- 选项：C. Hbase 处于安全模式
25. Hbase 分布式模式最好需要（）个节点 - 选项：B. 2
26. 关于 Hadoop 单机模式和伪分布式模式的说法，正确的是（）- 选项：D. 后者比前者增加了 HDFS 输入输出以及可检查内存使用情况
27. 关于 HDFS 的文件写入，正确的是（）- 选项：C. 默认将文件块复制成三份存放
28. Namenode 在启动时自动进入安全模式，在安全模式阶段，说法错误的是（）- 选项：D. 文件系统允许有修改
29. 关于 SecondaryNameNode 哪项是正确的？（）- 选项：C. 它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
30. 关于 Hadoop 的运行机制过程顺序说法正确的是（）- 选项：A. 作业提交--作业初始化--任务分配--任务的执行--任务进度和状态的更新--任务结束

本文地址：http://www.gawce.com/quote/7893.html 阁恬下 http://www.gawce.com/ , 查看更多