该部分是选择题部分,实操题在主页的另一篇文章
考试名称:“1+X”大数据平台运维职业技能等级证书(中级)
1+X 大数据平台运维中级测试题一、单选题
- 以下哪种情况容易引发 HDFS 负载不均问题?( C)
- HDFS 中存储的文件大小不一,小文件太多
- HDFS 中 Block 的大小设置不合理
- Data 各数据节点磁盘规格和空间大小有差异
- NameNode 与 DataNode 节点在同一物理服务器上
- MapReduce 中可能引起负载问题的原因有哪些?( D)
- MapReduce 需要处理的数据量过大
- 数据本身的格式问题,例如:文档格式混乱
- DataNode 节点与 Map 节点不在一起
- Map 中 Key 值选取和设定问题,导致 Key 值过于集中
- 下面哪些不是引起 Spark 负载不均的原因?(D )
- Spark 读入的数据源是倾斜的
- Shuffle 阶段 Key 值过于集中
- 在数据过滤阶段需要处理的数据量差异
- Spark 的运行方式差异
- 哪些不是引起 Hive 数据倾斜的原因?(D )
- 数据在节点存储上分布不均
- 运算中 Key 值分布不均
- 业务数据本身存在分布不均
- Hive 中表数量的多少
- Hive 数据倾斜的表现?(D)
- Hive 建表后数据无法导入
- Hive 无法启动
- Hive sql 语句运行异常直接退出
- Hive 运算任务为报错单长期卡在 99%
- 数据体量大
- 数据种类多
- 处理速度快
- 价值密度高
- MySQL
- Storm
- HDFS
- Hbase
- MongoDB
- BI
- Hive
- SQL
- 数据库/数据仓库
- 集群
- 文件系统
- 信息系统
- Hbase
- Redis
- Hive
- MongoDB
- 项目规划阶段
- 数据治理阶段
- 项目设计阶段
- 系统运维阶段
- 需求调研
- 业务调研
- 数据需求
- 项目规划
- 项目规划
- 数据治理
- 项目设计
- 数据应用
- 结构化数据
- 列式数据
- 文档数据
- 非结构化数据
- 功能测试
- 性能测试
- 安全测试
- 验收测试
- CPU
- 网络
- 磁盘 IO
- 内存
- Hbase
- Mapreduce
- Neo4j
- MongoDB
- 基本存储容量单位是字节(Byte)
- 汉字字符存储空间要大于英文字符存储空间
- 一个英文字符需要 2 个字节的存储空间
- 一个汉字字符需要 2 个字节的存储空间
- 医疗
- 地产
- 电商
- 零售
- Lambda
- Kappa
- 流式
- Unifield
- /home/hosts
- /usr/local/hosts
- /etc/host
- /etc/hosts
A、vi ~/.bashrc
- source ~/bashrc
- cat ~/.bashrc
- source ~/.bashrc
- CPU
- 网络
- 磁盘 IO
- 内存
- Datanode
- NameNode
- Jobtracker
- secondaryNameNode
- 3 份 B、 2 份
- 1 份
- 不确定
- Hdfs
- start dfs
- start-dfs.sh
- start-dfs.cmd
- 它是 NameNode 的热备
- 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
- 它对内存没有要求
- SecondaryNameNode 应与 NameNode 部署到一个节点
- NameNode
- DataNode
- SecondaryNameNode
- GFS
( B )
- core-site.xml
- hdfs-site.xml
- mapred-site.xml
- yarn-site.xml
- stop-dfs.sh
- stop-yarn.sh
- stop-all.sh
- stop-hadoop.sh
- SecondaryNameNode
- DataNode
- TaskTracker
- Jobtracker
- hadoop-default.xml
- hadoop-env.sh
- hadoop-site.xml
- configuration.xsl
- 启动 zookeeper
- 启动 journalnode
- 在 master1 上执行命令,启动 hdfs 和 yarn
- 在 master2 上执行命令,启动 yarn
- A. DFSZKFailoverController
- B. QuorumPeerMain
- C. JournalNode
- D. NodeManage
- bin/hdfs zkfc -formatZK
- sbin/hdfs zkfc -formatZK
- bin/hdfs zkfc -fromatZK
- sbin/hdfs zkfc -fromatZK
- Flume 的核心就是 Agent
- Sink 负责将数据发送到外部指定的目的地
- Source 接收到数据之后,将数据发送给 Sink
- Channel 作为一个数据缓冲区会临时存放一些数据
- MapReduce 任务
- Translate 任务
- Map 任务
- Reduce 任务
- 高可用的 B、 高可靠的
- 负责海量日志采集
- 负责处理数据
- Event
- Client
- Channel
- Sink
- 处理海量日志
- 用户行为统计
- 网站运营统计
- 数据转换
- Client 模式和 Cluster 模式
- Consumers 模式和 Producer 模式
- Local 模式和 Remote 模式
- Resource 模式和 Application 模式
象,其变量名为(A)
- sc
- cc
- sn
- nc
- 弹性运算数据集
- 可重复操作数据
- 远端数据定义
- 通过注册机制向 Cluster Master 汇报自身的 cpu 和 memory 等资源
- Master 的指示下创建启动 Executor,Executor 是执行真正计算的苦力
- 将资源和任务进一步分配给 Executor
- 同步资源信息、Executor 状态信息给 Driver
- 可以表现为一个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行协同划
分
- 可以表现为多个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行非协同
划分
- 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行
非协同划分
- 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行协同划分
- 内存使用量达到系统内存的 90%时,操作系统会相当频繁地使用磁盘上的交换
- 内存使用量达到系统内存的 10%时,操作系统会相当频繁地使用磁盘上的交换
- 内存使用量达到系统内存的 90%时,操作系统不会地使用磁盘上的交换文件
- 内存使用量达到系统内存的 10%时,操作系统不会地使用磁盘上的交换文件
- A./etc/sysctl.conf
- B./etc/profile
- C.~/.bashrc
- D./etc/networks
- noatime 和 nodiratime
- notime 和 nodirtime
- atime 和 diratime
- time 和 dirtime
- /etc/security/limits.conf
- /etc/security/limt.conf
- /etc/conf/limits.conf
- /etc/conf/limit.conf
- Linux 下的大页分为标准大页和透明大页两种类型
- 标准大页管理是预分配的方式
- 透明大页管理是静态分配的方式
- Linux 系统默认开启透明大页面功能
- 大数据处理流程一般分为(ABCD)。
- 数据采集与预处理
- 数据存储
- 数据分析与挖掘
- 数据可视化
- 大数据技术面临的挑战主要有(ABCE)。
- 可靠性
- 可用性
- 安全性
- 高效性
- 可扩展性
- 下列属于数据可视化软件及工具的有哪些(ABCD)。
E、 D3.js
- Echarts
- Python 中 Matplotlib、pyecharts 等库包
- R 语言中 ggplot2、highcharter 等库包
- 负责 Hadoop、Spark、Storm 等大数据平台的规划、部署、监控、系统优化等工作,确保系统持续稳定、高效运行
- 负责大数据平台系统运营规范,及运营工具系统的设计与开发实现
- 负责 PoC(Proof of Concept,原型验证),在客户业务场景下验证大数据产品的功能与性能
- 与客户沟通了解需求,在客户业务场景下根据客户的需求进行大数据项目实施,安装部署大数据平台软件
- 深入理解系统平台,为其持续优化提供建设性意见
- 大数据集群的构建
- 大数据集群的任务调度、监控预警
- 大数据集群容量规划、扩容、集群性能优化
- 大数据系统日常巡检、应急值守和故障处理
- 根据客户需求进行大数据应用接入和对接培训
6. 故障排查流程一般包括(ABCD)。
- 应急处置与故障定位
- 故障报告
- 故障检查
- 故障诊断
7. 关于 H3C DataEngine BI 商业智能大数据平台说法正确的是(ABCD)。
- 采用 B/S 架构,纯 Java 语言开发,支持所有可部署 JDK 的操作系统
- 支持所有的有 JDBC 接口的数据库
- 支持 DataEngine Hadoop 和 MPP 分布式数据库等主流大数据平台
- 具有分布式分析能力,可快速实现数据可视化分析
8. 元数据的内容包括(ABCD)。
- 对数据质量的描述
- 对数据处理信息的说明
- 对数据集的描述
- 对数据转换方法的描述
9. .美国治理警察超速行驶是通过()发现问题的。
- 通过人工观察
- 通过对不同高速路口收费站的原始数据记录的比对挖掘分析
- 警车上的跟踪设备产生的报告进行挖掘分析
- 治安监控录像资料汇总分析
10. Hadoop 集群的三大核心组件是( ABD )
- HDFS
- MapReduce
- Zookeeper
- YARN
11. 下列哪个是 Hadoop 运行的模式:(ABC )
- 单机版
- 伪分布式
- 分布式
- Zookeeper
12. 下列哪项可以作为集群的管理?(ABC)
- Puppet
- Pdsh
- Zookeeper
- Cloudera Manager
13. 启动 yarn 命令后会出现哪些进程( BC )
- NameNode
- NodeManager
- ResourceManager
- DataNode
14. ZooKeepe r 的 Server 节点主要由哪些角色组成?( AB)
- Leader
- Follower
- Manager
- Learner
15. Follower 节点的主要功能有( ABCD )
- 向 Leader 发送请求
- 接收 Leader 消息并进行处理
- 接收 Client 的请求,如果为写请求要发送给 Leader 进行投票
- 返回给 Client 结果
- 可以用几台机器配置高可用(BD)
- 1
- 3
- 4
- 5
- 下列哪一个不是在 slave1 上使用的命令(CD)
- bin/hdfs namenode -bootstrapStandby
- sbin/hadoop-daemon.sh start namenode
- sbin/yarn-daemon.sh start proxyserver
- sbin/start-dfs.sh
18. 下列那些是 hadoop ha 启动完成的进程(ABCD)
- NameNode
- DFSZKFailoverController
- JobHistoryServer
- QuorumPeerMain
19. 以下哪些属于 ETL 工具(ABC)
- sqoop
- Flume
- Kafka
- Spark
20. Flume 的 Agent 包括哪些(ABC)
- Source
- Channel C、 Sink
D、 Data
21. 以下哪些是 Kafka 的特性(ABC)
- 分布式
- 高吞吐量
- 支持多分区
- 单副本
22. Spark 包含哪几种模式(ABCD)
- 本地模式(local)
- Standalone 模式
- Spark on Yarn 模式
- Spark on Mesos 模式
23. Yarn 主要涉及到以下哪几个角色(ABC)
- RM: ResourceManager(资源管理者)
- NM: NodeMananger(节点管理者)
- AM: ApplicationMaster(应用程序管理者)
- PM: ProgramManager(程序管理者)
24. 以下哪些是 Spark 的特点(ABC)
- 运行处理速度快
- 运行模式多样性
- 易于使用
- 交互性
25. 以下对脏页配置参数的描述哪些是正确的(ABCD)
- vm.dirty_background_ratio 内存可以填充“脏数据”的百分比
- vm.dirty_expire_centisecs 指定脏数据能存活的时间
- vm.dirty_ratio 脏数据百分比的绝对限制值
- vm.dirty_writeback_centisecs 指定 pdflush/flush/kdmflush 进程执行间隔
26. 目前主流 Linux 发行版本使用 I/O 调度器有哪些(ABC)
- DeadLine
- CFQ
- NOOP
- Scheduler
27. 在 Linux 中,查看服务器负载和资源占用情况的常用命令有(AB)
- free
- top
- iostats
- Vmstats
28. Hive 有哪些表的数据类型?(ABCD)
- 内部表
- 外部表
- 分区表
- 桶
29. 7、Hive 的访问方式有哪些?(ABC)
- shell
- JDBC
- Web UI
- ssh
30. 8、Hive 的主要特点:(ABCD)
- 可伸缩
- 高容错
- 类 SQL 语言
- 批处理
三、判断题
- 大数据处理速度快,但时效性要求却很低。(错)
- 大数据的数据类型丰富,包括结构化数据、半结构化数据和非结构化数据。(对)
- 大数据来源包括:传统商业数据、互联网数据和物联网数据。(错)
- 日志一般为结构化或非结构化的二进制文件,可以利用日志分析工具进行事后分析。
- 故障报告应该写清故障时间、故障表现、理论表现、故障有关的操作以及如何重现。
- Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。(对)
- 分布式数据库是指物理上分散在不同地点,但是逻辑上是统一的数据库。(对)
- 防火墙策略也称为防火墙的安全规则,它是防火墙实施网络保护的重要依据。(对)
- Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。(错)
- NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错)
- 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。(错)
- HADOOP HA 通过主备 NameNode 解决单点故障问题,如果主 NameNode 发生故障,则切换到备 NameNode 上。(对)
- HADOOP HA 高可用支持多个 NameNode,每个 NameNode 分管一部分目录;所有 NameNode 共享所有 DataNode 存储资源。(对)
- Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。(错)
- File Channel 类型会将所有的事件写入磁盘,因此在程序关闭或服务器宕机的情况下不会丢失数据,但速度相对较慢。(对)
- Sqoop 导入指的是将数据从 HDFS 迁移到关系型数据库。(错)
- File Channel 类型会将所有的事件写入磁盘,因此在程序关闭或服务器宕机的情况下不会丢失数据,但速度相对较慢。(对)
- 执行 Spark 任务有两种方式,一种是 Spark-submit,一种是 Spark-shell。当我们在生产部署与发布的时候通常使用 spark-submit 脚本进行提交的。(对)
- Spark 是基于缓存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。(错)
- 脏页是 linux 内核中的概念,因为硬盘的读写速度远赶不上内存的速度,系统就把读写比较频繁的数据事先放到内存中,以提高读写速度,称之为高速缓存。(对)
1. 从 Vi 编辑模式下保存配置返回到 Centos7 系统使用( ) - 选项:C. 按“Esc”键,然后按“shift”+“:”,输入 wq 回车
2. 在 Centos7 系统中,查看和修改 IP 信息需要用到( )文件 - 选项:A. /etc/sysconfig/network/ifcfg-ens0
3. tar 命令用于对文件进行打包压缩或解压,-t 参数含义( )- 选项:C. 查看压缩包内有哪些文件
4. Hadoop 的安装部署的模式属于本地模式( ) - 选项:A. 默认的模式,无需运行任何守护进程(daemon),所有程序都在单个 JVM 上执行。
5. Hadoop 的安装部署的模式属于伪分布模式( ) - 选项:B. 在一台主机模拟多主机。即,Hadoop 的守护程序在本地计算机上运行,模拟集群环境,并且是相互独立的Java 进程。
6. HDFS 默认 Block Size 的大小是( )- 选项:C. 128MB
7. 下列关于 MapReduce 说法不正确的是( ) - 选项:C. MapReduce 程序只能用 java 语言编写
8. HDFS 是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 ( ) - 选项:D. 一次写入,多次读
9. 关于 SecondaryNameNode 下面哪项是正确的( )- 选项:C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
10. 大数据的特点不包括下面哪一项( )- 选项:D. 价值密度高
11. Hbase 依赖_( )存储底层数据 - 选项:A. HDFS
12. Hbase 依赖( )提供消息通信机制 - 选项:A. Zookeeper
13. 在 hive 中已知表 test(name)的记录如下, tom, tom_green, tomly, lily, 代码 select * from test where name rlike 'tom.*'的结果有( )条记录 - 选项:B. 2
14. flume 有哪个组件用于采集数据( )- 选项:A. source
15. flume 中那种 source 类型支持 Unix 的命令标准在生产数据( )- 选项:C. Exec Source
16. 大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的( )- 选项:B. 新一代信息技术和服务业态
17. 整个大数据平台按其职能划分为五个模块层次,运行环境层是( ) - 选项:A. 运行环境层为基础设施层提供运行时环境,它由 2 部分构成,即操作系统和运行时环境。
18. 大数据平台架构设计( )的思想 - 选项:A. 分层模块化设计
19. 大数据系统出现”java.net.NoRouteToHostException: No route to host “ 解决方案( )- 选项:B. 关掉防火墙 service iptables stop
20. hadoop 平台下检查 h3cu 目录的健康状态采用( )命令 - 选项:A. hdfs fsck /h3cu
21. 查看当前 yarn 运行任务列表采用( ) 命令 - 选项:D. yarn application -list
22. 报告 hdfs 使用情况采用( )命令 - 选项:B. hdfs dfsadmin -report
23. map/reduce 参数监控 metrics,shuffle 成功的次数( )- 选项:D. mapred.ShuffleMetrics.ShuffleOutputsOK
24. 启动 Hadoop 和 Hbase 之后,执行jps 命令,已经看到有 HMaster 的进程,但是进入到监控界面查看,没有节点信息:最有可能原因( )- 选项:C. Hbase 处于安全模式
25. Hbase 分布式模式最好需要( )个节点 - 选项:B. 2
26. 关于 Hadoop 单机模式和伪分布式模式的说法,正确的是 ( )- 选项:D. 后者比前者增加了 HDFS 输入输出以及可检查内存使用情况
27. 关于 HDFS 的文件写入,正确的是 ( )- 选项:C. 默认将文件块复制成三份存放
28. Namenode 在启动时自动进入安全模式,在安全模式阶段,说法错误的是 ( )- 选项:D. 文件系统允许有修改
29. 关于 SecondaryNameNode 哪项是正确的?( )- 选项:C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
30. 关于 Hadoop 的运行机制过程顺序说法正确的是( )- 选项:A. 作业提交--作业初始化--任务分配--任务的执行--任务进度和状态的更新--任务结束