大数据运维(1)-尧图手机网站定制

HDP Hadoop大集群高级运维工程师含PrometheusGrafana监控专项完整版面试题先了解不常见重要组件概念1、JournalNodeJN作用一句话主备 NameNode 之间的 “共享日志中间件”保证元数据一致。负责存放 HDFS 的 edits(元数据操作日志) 日志Active NameNode 把所有写操作写到 JournalNodeStandby NameNode 从 JournalNode 拉取日志、同步元数据保证主备 NameNode 内存里的元数据完全一致只有过半 JournalNode 写入成功操作才算成功防止脑裂2、ZKFailoverControllerZKFC作用一句话NameNode 的 “自动切换管家”负责监控、选主、防脑裂。ZKFC 是独立进程跟 NameNode 一一对应部署。它做 3 件最核心的事健康监控定时检查本机 NameNode 是否存活、是否正常。抢主选举 Active去 ZooKeeper 抢锁谁抢到锁谁的 NameNode 变成 Active。Fencing隔离旧主防脑裂切换前会强制把旧 Active NameNode 踢掉确保同一时间只有一个 Active。避免双主导致数据错乱。超级好记总结面试直接背JournalNode同步元数据保证主备一致。ZKFC监控、选主、隔离保证 HA 自动切换、不脑裂。3、execution.checkpointing.interval: 5000msexecution.parallelism: 20state.checkpoints.dir: hdfs:///flink/checkpoints/trajectory-jobexecution.checkpointing.mode: EXACTLY_ONC //数据一致性故障恢复时确保数据只处理一次第一部分 HDP Hadoop核心运维必问基础进阶一、HDFS HA NameNode高可用必问问题HDP中HDFS HA架构用到哪些组件答案NameNode、JournalNode、ZooKeeper、ZKFailoverControllerZKFC。问题NameNode主备切换流程答案ZKFC监控NameNode状态 → Active节点异常宕机/卡顿 → Standby通过ZooKeeper抢占主节点资格 → 执行fencing隔离旧Active节点 → Standby切换为Active对外提供服务。问题如何防止HDFS HA脑裂答案QJM保证同一时间仅一个NameNode可写入edits日志ZKFC提供fencing隔离机制杜绝双主节点。问题NameNode内存如何规划大集群优化方案答案每100万个Block约占1GB内存大集群配置64G~128G堆内存-Xms与-Xmx设为等值开启JVM并行GC减少小文件数量降低内存压力。问题NameNode出现FGC卡顿如何排查答案查看GC日志分析回收频率 → 统计Block数量与小文件占比 → 检查editlog写入速度与磁盘IO瓶颈 → 排查元数据目录权限与磁盘空间。问题DataNode批量掉线常见原因及排查思路答案原因磁盘满/坏盘、网络不通、节点时间不同步、DataNode OOM、服务器宕机排查查看DN日志、iostat监控磁盘、检查时钟同步、排查JVM内存配置。问题出现missing block/坏块如何处理答案执行hdfs fsck /检测坏块 → 有副本则触发集群自动恢复 → 无副本从备份恢复数据或删除失效文件 → 定位副本丢失原因磁盘故障、节点掉线。问题如何定位慢盘、坏盘答案iostat查看磁盘IO负载与响应时间 → dmesg查看系统磁盘硬件错误 → 分析DataNode日志读写异常 → 检测磁盘挂载点与RAID状态。问题HDFS写入延迟高如何优化答案优化磁盘RAID配置 → 调整副本节点分布避免跨网段 → 增加写线程数 → 关闭冗余校验功能 → 合理设置Block大小128M/256M。二、YARN资源调度与任务异常高频问题HDP大集群默认调度器及优势答案Capacity Scheduler容量调度器支持多队列资源隔离、按业务分配最小/最大容量、优先级调度适配多租户大集群场景。问题任务一直ACCEPTED但不运行的原因答案集群资源不足、队列已满、NodeManager异常、节点被拉黑、任务内存/CPU超出队列上限、用户资源配额超限。问题Container被杀死exit code 137是什么问题答案容器内存溢出OOM被NodeManager强制杀死需调大Container内存配置排查任务数据倾斜导致内存暴涨。问题YARN多租户队列如何规划答案按业务/部门划分根队列 → 配置单队列最小容量保障、最大容量限制 → 设定单用户资源配额与最大应用数 → 开启权限隔离与优先级调度。问题任务运行慢、数据倾斜如何处理答案定位倾斜Key → 提高Reduce并行度 → 使用Combiner预聚合减少数据传输 → 拆分大文件、打散倾斜数据 → 优化Shuffle阶段参数。问题NodeManager掉线常见原因答案节点宕机、磁盘满、系统CPU/内存耗尽、网络中断、YARN配置错误、NM进程OOM。三、ZooKeeper高可用运维问题ZooKeeper集群为什么推荐奇数节点答案基于过半选举机制奇数节点可获得更高容错率节省服务器资源避免脑裂风险。问题ZK连接超时、性能差如何排查答案查看磁盘IO性能ZK事务日志写盘瓶颈 → 排查FGC频繁问题 → 检测网络延迟与丢包 → 限制客户端连接数、优化超时参数。四、HDP Ambari平台运维专属考点问题Ambari Agent掉线如何排查答案检查主机网络连通性 → 校验节点时间同步 → 查看磁盘空间是否占满 → 重启ambari-agent进程 → 排查防火墙端口是否放行。问题HDP集群滚动重启顺序答案ZooKeeper → HDFSJournalNode→DataNode→NameNode → YARNNodeManager→ResourceManager → MapReduce → HBase → 其他组件。问题HDP版本升级注意事项答案备份NameNode元数据、Ambari数据库 → 测试环境先行验证兼容性 → 停止非核心服务 → 做好回滚方案 → 升级后校验集群状态。问题集群时间不同步有什么影响答案HA切换异常、ZK会话超时、认证失败、日志时序错乱、任务运行失败、监控数据失真。第二部分 HDP生产环境PrometheusGrafana监控实战必问核心一、HDP集群监控核心指标体系大企业生产标准问题大企业HDP生产环境PrometheusGrafana必监控的核心指标有哪些答案遵循**可用性优先、资源兜底、性能预警**原则按层级拆解核心指标均为大厂标配附带采集方式和告警阈值适配大集群常态化运维一、基础设施硬件层Node Exporter采集优先级最高CPU使用率≤85%预警、1/5/15min系统负载、物理内存使用率≤85%预警、Swap分区使用率≤20%预警磁盘分区使用率≤80%预警、≥90%紧急、磁盘%util≤80%、iowait占比、磁盘读写延迟、inode使用率网卡进出流量、网络丢包率、TCP连接数、服务器节点存活状态。二、ZooKeeper集群层JMX Exporter采集优先级最高ZK节点存活状态、Leader/Follower角色判定、集群可用节点数客户端连接数、请求平均延迟、znode总数事务日志写入吞吐量、FGC次数、会话超时次数、Leader切换次数。三、HDFS核心层JMX Exporter采集优先级最高✅ NameNode指标HA主备状态、堆内存使用率≤85%、FullGC次数/频率、Block总数、丢失Block数、坏块数、小文件数量文件系统总容量/已用容量、editlog写入延迟、FSImage检查点耗时、客户端读写QPS。 ✅ DataNode指标节点存活数、心跳正常率、单节点磁盘使用率副本合规率、数据读写吞吐量、读写延迟、数据块校验错误数、慢盘标识。四、YARN资源调度层JMX Exporter采集优先级高✅ ResourceManager指标HA主备状态、集群总CPU/内存、可用资源量各队列资源使用率≤85%预警、排队应用数、运行应用数、失败应用数。 ✅ NodeManager指标节点存活状态、已分配CPU/内存、运行中Container数Container OOM次数Exit Code 137、Container失败率、Shuffle磁盘占用。 ✅ 任务层指标ACCEPTED阻塞任务数、FAILED/KILLED任务数、任务运行超时次数、数据倾斜标识。五、Ambari集群依赖层Node Exporter自定义采集优先级中Ambari Server/Agent存活状态、心跳延迟集群节点时间同步偏差≤5s、核心端口监听状态、组件日志磁盘占用率、Kerberos认证状态。二、HDP集群监控落地实现采集配置可视化问题大企业HDP生产环境如何用PrometheusGrafana实现全链路监控答案采用Exporter采集Prometheus存储Grafana可视化Alertmanager告警标准化方案大集群推荐联邦部署避免单点1. 指标采集部署核心步骤① 服务器指标每台节点部署Node Exporter采集硬件/系统指标默认端口9100② Hadoop组件指标部署JMX Exporter集成到NameNode、DataNode、ResourceManager、ZK进程中暴露JMX指标配置采集端口③ 服务发现采用文件服务发现/consul自动纳管集群节点无需手动更新Prometheus配置2. Prometheus配置优化针对HDP大集群配置指标抓取间隔30s-1min数据保留15-30天开启SSD存储提升读写速度联邦集群分流采集压力针对NameNode等高优先级组件单独配置抓取规则保证指标不丢失3. Grafana可视化落地① 对接Prometheus数据源开启认证保障安全② 定制分层面板集群总览大盘核心组件可用性、资源使用率、HDFS专项大盘、YARN队列大盘、ZK集群大盘、服务器硬件大盘③ 使用模板变量实现按节点、队列、业务筛选支持多集群切换4. 告警体系搭建通过Prometheus配置告警规则设置分级阈值预警/紧急/致命经Alertmanager去重、分组后推送至企业微信/钉钉/短信核心告警配合电话告警杜绝漏报。三、监控常见问题与生产优化高频考点问题HDP大集群监控易出现哪些问题如何优化答案① 指标过多导致Prometheus压力大剔除无效指标、开启指标聚合、降低非核心指标采集频率、按业务分组采集② Grafana图表加载慢开启数据缓存、简化图表维度、优化PromQL查询语句、限制查询时间范围③ 告警风暴配置告警抑制、分级推送、静默规则避免重复告警④ 组件指标采集失败检查JMX Exporter配置、进程端口连通性、防火墙策略、权限配置。第三部分大数据高级运维通用高频面试题大厂必问一、集群安全与权限管控生产刚需问题HDP生产集群为什么要开启Kerberos认证核心流程是什么答案防止未授权访问、杜绝越权操作保障集群数据安全核心流程KDC发放票据 → 客户端凭票据访问集群组件 → 组件验证票据合法性 → 票据过期重新申请。问题HDFS权限管控有哪些方式如何实现多租户数据隔离答案① 基础权限Linux文件系统权限rwx、HDFS ACL权限② 高级权限Sentry/Ranger权限管控HDP常用Ranger③ 多租户隔离划分独立队列、配置目录权限、绑定用户组、Ranger细粒度策略库/表/列级别。问题Ranger与Sentry的区别大企业为什么首选Ranger答案Sentry仅支持SQL组件权限管控Ranger支持全组件HDFS/YARN/HBase/Hive等、细粒度、可视化策略配置支持审计日志适配大集群多租户安全场景。问题Kerberos票据过期、认证失败如何排查答案检查KDC服务状态 → 校验节点时间同步 → 查看票据缓存kinit -t → 验证principal账号密码 → 排查keytab文件权限与有效性。二、容灾备份与数据安全高管关注问题NameNode元数据备份方案有哪些如何快速恢复答案① 定期备份fsimage镜像文件异地拷贝、定时脚本备份② 实时备份QJM日志同步、远程目录同步rsync恢复流程停止集群 → 替换损坏元数据 → 重新格式化NameNode保留clusterID → 启动集群恢复元数据。问题HDP跨机房容灾方案有哪些答案① HDFS Federation联邦架构② 跨集群数据复制DistCp工具定时同步、HDFS快照备份③ 主备集群切换DNS切换、负载均衡调度核心数据多机房冗余。问题什么是HDFS快照生产中如何使用答案HDFS快照是文件系统的只读副本不占用额外空间仅记录变更用于数据误删恢复、版本管理、数据备份生产中对核心业务目录定时创建快照。问题数据误删除如何恢复无回收站场景答案停止写入操作 → 查找hdfs trash目录开启回收站未开启则通过NameNode元数据回溯、日志恢复或从备份集群/快照恢复数据。三、HBase高级运维高频组件问题HBase RowKey设计原则如何避免热点问题答案原则唯一性、散列性、长度适中、业务有序避免热点加盐、哈希、反转、分区设计均衡Region分布。问题HBase Region分裂、合并策略大集群优化答案分裂自动分裂按阈值、手动分裂合并合并小Region减少寻址开销优化预分区创建、关闭自动分裂、定时合并小Region提升读写性能。问题HBase宕机、读写卡顿如何排查答案查看ZK节点状态 → 检查HMaster/RegionServer存活 → 分析GC日志、磁盘IO → 定位热点Region → 修复数据损坏问题。问题HBase与HDFS的关系为什么HBase适合实时读写答案HBase数据存储在HDFS上依赖HDFS高可用基于LSM树架构内存写磁盘顺序读支持随机实时读写适合海量数据低延迟查询。四、Hive数仓运维必问问题Hive内部表与外部表的区别生产如何选择答案内部表数据由Hive管理删表删数据外部表数据自主管理删表仅删元数据生产首选外部表避免误删数据适配多引擎共用数据。问题Hive查询慢、数据倾斜如何优化答案开启分区/分桶、使用ORC/Parquet列式存储、开启压缩、调整MapReduce并行度、打散倾斜Key、使用MapJoin替代普通Join。问题Hive元数据存储在哪元数据丢失如何恢复答案元数据存储在MySQL/Oracle等关系型数据库定期备份元数据库丢失后停止Hive服务恢复数据库备份重启服务重建元数据映射。五、Linux系统与运维工具基础功底问题Linux服务器性能排查常用命令答案CPUtop、htop、mpstat内存free、vmstat磁盘iostat、df、du、dmesg网络netstat、ss、ping、tcpdump日志tail、grep、less。问题大集群自动化运维常用工具答案批量运维Ansible、SaltStack日志管理ELK、LogSearchSolr监控PrometheusGrafana、Zabbix任务调度Azkaban、Oozie。问题如何定位Linux服务器网络丢包、延迟高问题答案ping检测连通性 → traceroute/mtr追踪路由 → netstat查看端口连接 → iptables检查防火墙 → ethtool查看网卡状态 → 排查交换机与链路问题。第四部分生产实战综合场景题决定录用问题HDP集群整体不可用结合监控如何排查答案查看Grafana集群总览面板 → 定位NameNode/ZK/YARN状态 → 检查Prometheus告警信息宕机、磁盘、网络 → 排查核心组件日志 → 恢复顺序ZK→HDFS→YARN→其他服务。问题监控显示HDFS读写延迟突增如何定位解决答案查看Grafana磁盘IO面板定位慢盘 → 排查DataNode节点网络与负载 → 检查是否有大量小文件/大任务写入 → 优化副本策略、清理热点数据。问题如何搭建一套完善的HDP大集群监控告警体系答案1. 采集层部署Node Exporter/JMX Exporter采集全链路指标2. 存储层Prometheus联邦集群远程存储3. 可视化层Grafana定制多维度面板4. 告警层Alertmanager分级告警多渠道通知5. 优化定期梳理告警规则、避免误报、实现故障自动自愈。问题集群扩容后如何快速接入PrometheusGrafana监控答案新节点部署Exporter → 配置Prometheus服务发现自动纳管 → Grafana模板变量自动识别新节点 → 校验指标采集与告警规则 → 纳入集群统一监控面板。问题如何保证HDP集群7×24高可用答案核心组件开启HA → 部署冗余节点与磁盘RAID → 完善PrometheusGrafana监控告警体系 → 定期备份元数据与关键数据 → 制定故障应急流程与回滚方案 → 常态化巡检与性能优化。问题大集群出现大量小文件有什么危害如何治理答案危害占用NameNode内存、降低读写性能、加剧GC压力治理HDFS归档、CombineFileInputFormat合并、定时清理无效小文件、写入时调整Block大小。第五部分 Spark Flink任务常见报错排查大厂高频一、Spark任务常见报错及排查HDP集成Spark问题Spark任务报Exit code 137/OOM如何排查答案分为Driver OOM和Executor OOM① Driver OOM调大spark.driver.memory减少collect/toPandas等拉取全量数据操作② Executor OOM调大spark.executor.memory/cores解决数据倾斜开启堆外内存避免Shuffle数据暴涨③ 关联YARN检查队列内存配额防止被NM强制kill。问题Spark任务Shuffle报错/拉取失败如何处理答案排查Executor节点存活状态 → 检查Shuffle目录磁盘空间/权限 → 优化Shuffle并行度spark.sql.shuffle.partitions → 解决数据倾斜 → 清理过期Shuffle文件重启Executor。问题Spark连接HDFS报错权限/路径不存在怎么解决答案① 权限问题校验提交用户HDFS权限开启Kerberos的话检查票据/keytab有效性② 路径不存在核对HDFS路径、集群nameservice修复HA配置③ 版本兼容确保Spark与HDP Hadoop版本一致。问题Spark任务运行极慢/卡死排查思路答案查看Grafana YARN监控面板判断资源是否充足 → 定位数据倾斜Key → 检查是否存在大量小文件 → 优化并行度、开启广播Join → 排查Executor节点磁盘/网络瓶颈。问题Spark SQL报Metadata异常/表不存在如何修复答案检查Hive Metastore服务状态 → 校验库表元数据一致性 → 修复表分区msck repair table → 核对元数据库连接信息重启Spark Thrift服务。二、Flink任务常见报错及排查实时计算高频问题Flink任务Checkpoint失败/超时怎么解决答案排查Checkpoint存储目录HDFS磁盘空间/权限 → 调大Checkpoint间隔、超时时间、并发数 → 减少大状态数据开启状态TTL → 优化算子并行度避免背压导致Checkpoint堆积。问题Flink任务出现反压BackPressure如何定位答案通过Flink UI查看反压节点 → 定位慢算子/数据倾斜 → 优化算子逻辑、提高并行度 → 排查下游数据源Kafka/HBase写入瓶颈 → 调整网络缓冲、State后端配置。问题Flink任务重启后数据重复/丢失如何保障Exactly-Once答案开启Checkpoint事务语义配置幂等写入 → 合理设置状态后端FileSystem/RocksDB → 保证Kafka等数据源offset提交与Checkpoint对齐 → 避免非正常停止任务导致状态失效。问题Flink on YARN提交失败/无法申请资源排查步骤答案检查YARN队列资源、权限 → 校验Flink与HDP版本兼容性 → 排查节点网络、DNS解析 → 调优Flink JM/TM内存配置避免超出队列上限 → 查看YARN日志定位具体报错。问题Flink State膨胀/磁盘占用过高如何优化答案开启状态TTL清理过期数据 → 使用RocksDB增量Checkpoint → 合并小状态、拆分大算子 → 清理历史无效Checkpoint数据 → 调整State后端存储路径至大容量磁盘。///spark任务提交/opt/spark-3.4.2-bin-hadoop3/bin/spark-shell \--master yarn \--deploy-mode cluster \--queue u_xa_css_batch \--driver-memory 8G \--executor-memory 12G \--executor-cores 4 \--num-executors 15 \--conf spark.dynamicAllocation.enabledtrue \--conf spark.dynamicAllocation.minExecutors5 \--conf spark.dynamicAllocation.maxExecutors25 \--conf spark.driver.maxResultSize16G \--conf spark.yarn.executor.memoryOverhead2G \--conf spark.default.parallelism600 \--conf spark.sql.shuffle.partitions600 \--conf spark.driver.extraJavaOptions-XX:UseG1GC -XX:MaxGCPauseMillis200 -XX:G1HeapRegionSize32m \--conf spark.executor.extraJavaOptions-XX:UseG1GC -XX:MaxGCPauseMillis200 -XX:G1HeapRegionSize32m \--conf spark.speculationfalse \--conf spark.sql.adaptive.enabledtrue \--conf spark.sql.adaptive.coalescePartitions.enabledtrue \--conf spark.sql.adaptive.skewJoin.enabledtrue///flink任务提交/opt/flink-1.18.1/bin/flink run-application \-t yarn-application \-Dsecurity.kerberos.login.use-ticket-cachefalse \-Dsecurity.kerberos.login.keytab/home/u_xa_css_iie/sync/keytabs/国家中心/u_xa_css_iie.keytab \-Dsecurity.kerberos.login.principalu_xa_css_iieHADOOP.COM \-Dsecurity.kerberos.login.contextsClient,KafkaClient \-Djobmanager.memory.process.size16G \-Dtaskmanager.memory.process.size16G \-Dtaskmanager.memory.network.fraction0.15 \-Dtaskmanager.memory.managed.fraction0.4 \-Dtaskmanager.numberOfTaskSlots4 \-Dyarn.application.queueu_xa_css_stream \-Dyarn.application.namexa_css_TargetMain \-Dyarn.provided.lib.dirs/user/u_xa_css_iie/yyf/lib:/user/u_xa_css_iie/yyf/plugins \-Dexecution.checkpointing.interval300000 \-Dexecution.checkpointing.timeout600000 \-Dexecution.checkpointing.modeEXACTLY_ONCE \-Dstate.backendrocksdb \-Dstate.backend.incrementaltrue \-Dstate.checkpoints.dirhdfs://nameservice/user/u_xa_css_iie/checkpoint/xa_css_TargetMain \-Drestart-strategyfixed-delay \-Drestart-strategy.fixed-delay.attempts5 \-Drestart-strategy.fixed-delay.delay10s \-c lbs.task.MainNoTargetAggLink \/home/u_xa_css_iie/sync/yyf/flink/f1k-rzfx-1.0-SNAPSHOT.jar \

大数据运维(1)

相关新闻

一个大学生十天做出的AI预测引擎，为什么能两次冲上GitHub全球第一？

AIAGVDA SPC黄皮书重磅发布，核心变化点解读

亚马逊云代理商：CloudWatch 日志查询实战 5 步精准定位 AWS 故障

最新新闻

基于SpringBoot的合同管理系统与实现

在STM32上跑通TinyML：从理论到实践的技术指南

WP7有约（一）：课程安排

PIC18微控制器与SPI EEPROM配置存储方案详解

了解并使用MVVM框架

原来网站排名还能“买”到？

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻