NVIDIA DKMS 驱动构建失败修复笔记
文章目录问题描述环境信息问题根因分析解决方案步骤 1清理残留文件步骤 2修改 DKMS 配置排除 peermem 模块步骤 3修改 Kbuild 文件彻底排除 peermem步骤 4重新构建 DKMS 模块修复结果替代解决方案方案 1安装 OFA 内核模块推荐用于 InfiniBand 环境方案 2升级到更新的 NVIDIA 驱动总结参考链接问题描述在 Ubuntu 22.04 系统上安装 NVIDIA 580 驱动时遇到 DKMS 构建失败Building module(s)............(badexitstatus:2)Failed command:unsetARCH;[!-h /usr/bin/cc]exportCC/usr/bin/gcc;envNV_VERBOSE1make-j16... Error!Badreturnstatusformodule build on kernel:6.8.0-47-generic(x86_64)同时伴随的错误ERROR: modpost: ib_register_peer_memory_client [/var/lib/dkms/nvidia/580.126.09/build/nvidia-peermem.ko] undefined! ERROR: modpost: ib_unregister_peer_memory_client [/var/lib/dkms/nvidia/580.126.09/build/nvidia-peermem.ko] undefined!环境信息操作系统Ubuntu 22.04内核版本6.2.0-26-generic 和 6.8.0-47-genericNVIDIA 驱动版本580.126.09GPUNVIDIA H100 80GB x 2问题根因分析直接原因nvidia-peermem模块在 Linux 6.8 内核上构建失败深层原因nvidia-peermem是 NVIDIA 的 InfiniBand Peer Memory 驱动它依赖 OFA (Open Fabrics Alliance) 内核模块中的ib_register_peer_memory_client和ib_unregister_peer_memory_client符号OFA 内核模块 (/usr/src/ofa_kernel/x86_64/6.8.0-47-generic/Module.symvers) 未正确安装导致符号未导出影响范围该模块主要用于 InfiniBand GPU Direct RDMA大多数普通用户不需要解决方案步骤 1清理残留文件# 删除崩溃报告sudorm-rf /var/crash/nvidia-dkms-580.0.crash# 清除 DKMS 缓存sudorm-rf /var/lib/dkms/nvidia/580.126.09步骤 2修改 DKMS 配置排除 peermem 模块编辑/usr/src/nvidia-580.126.09/dkms.conf删除nvidia-peermem的模块条目sudocp/usr/src/nvidia-580.126.09/dkms.conf /usr/src/nvidia-580.126.09/dkms.conf.bak新的 dkms.conf 内容PACKAGE_NAMEnvidia PACKAGE_VERSION580.126.09 CLEANmake clean BUILT_MODULE_NAME[0]nvidia DEST_MODULE_LOCATION[0]/kernel/drivers/char/drm PROCS_NUMnproc [ $PROCS_NUM -gt 16 ] PROCS_NUM16 MAKE[0]unset ARCH; [ ! -h /usr/bin/cc ] export CC/usr/bin/gcc; env NV_VERBOSE1 \ make -j$PROCS_NUM NV_EXCLUDE_BUILD_MODULESnvidia-peermem KERNEL_UNAME${kernelver} IGNORE_XEN_PRESENCE1 IGNORE_CC_MISMATCH1 SYSSRC$kernel_source_dir LD/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT modules BUILT_MODULE_NAME[1]nvidia-modeset DEST_MODULE_LOCATION[1]/kernel/drivers/char/drm BUILT_MODULE_NAME[2]nvidia-drm DEST_MODULE_LOCATION[2]/kernel/drivers/char/drm AUTOINSTALLyes PATCH[0]disable_fstack-clash-protection_fcf-protection.patch PATCH_MATCH[0]^(4\.[0-9]*)|(5\.[0-9]\.0)|(5\.1[0-2]\.0) BUILT_MODULE_NAME[3]nvidia-uvm DEST_MODULE_LOCATION[3]/kernel/drivers/char/drm步骤 3修改 Kbuild 文件彻底排除 peermem编辑/usr/src/nvidia-580.126.09/nvidia-peermem/nvidia-peermem.Kbuildsudosed-is/^obj-m nvidia-peermem.o$/# obj-m nvidia-peermem.o/\/usr/src/nvidia-580.126.09/nvidia-peermem/nvidia-peermem.Kbuild步骤 4重新构建 DKMS 模块# 清除旧缓存并重新构建sudorm-rf /var/lib/dkms/nvidia/580.126.09sudodkms autoinstall# 配置包sudodpkg --configure -a修复结果修复后成功构建的模块nvidia.ko- 核心驱动nvidia-modeset.ko- 显示模式设置nvidia-drm.ko- DRM 集成nvidia-uvm.ko- CUDA 内存管理驱动状态验证$ nvidia-sMI NVIDIA-SMI580.126.09 Driver Version:580.126.09 CUDA Version:13.0-----------------------------------------------------------------------------------------|GPU Name Persistence-M|Bus-Id Disp.A|Volatile Uncorr. ECC||0NVIDIA H100 80GB HBM3 Off|00000000:08:00.0 Off|0||1NVIDIA H100 80GB HBM3 Off|00000000:0A:00.0 Off|0|-----------------------------------------------------------------------------------------替代解决方案方案 1安装 OFA 内核模块推荐用于 InfiniBand 环境如果需要nvidia-peermem功能用于 GPU Direct RDMA# 安装 MOFED (Mellanox OpenFabrics Enterprise Distribution)sudoaptupdatesudoaptinstallmlnx-ofed-kernel-dkms方案 2升级到更新的 NVIDIA 驱动较新版本的 NVIDIA 驱动可能已修复此兼容性问题。总结本次修复的关键点问题定位通过查看/var/lib/dkms/nvidia/580.126.09/build/make.log找到modpost阶段的符号缺失错误解决方案通过修改dkms.conf和nvidia-peermem.Kbuild文件排除问题模块验证方法使用nvidia-smi确认驱动正常工作nvidia-peermem模块主要用于 InfiniBand 环境下的 GPU Direct RDMA 功能对于大多数不使用 InfiniBand 的用户来说排除该模块不会影响正常的 GPU 使用。参考链接NVIDIA 官方文档 - GPU Direct RDMADKMS 官方文档Linux 内核模块构建文档

相关新闻

针对毕业论文写作,推荐5款高效的AI工具来提升效率

针对毕业论文写作,推荐5款高效的AI工具来提升效率

AI论文写作工具的选择已成为学生和研究者在学术写作中的关键考量。针对毕业论文写作需求,市面上多款AI工具各具特色,需根据实际功能与使用体验进行筛选。Aibiye和Aicheck凭借精准的语法修正、文献管理及结构优化功能脱颖而出,尤其适合非英语母…

2026/5/17 4:38:52 阅读更多 →
vue2 vue3 uniapp (微信小程序) v-model双向绑定

vue2 vue3 uniapp (微信小程序) v-model双向绑定

一、核心概念 双向绑定的本质:数据更新视图(v-bind)与视图更新数据(v-on)的结合,v-model 是这一过程的语法糖。不同框架/版本差异:Vue2:基于 value 属性和 input 事件,需…

2026/7/2 20:23:00 阅读更多 →
Maple Flow 2025.2 新版发布:更强性能、AI助力、轻松迁移,开启高效计算新体验!

Maple Flow 2025.2 新版发布:更强性能、AI助力、轻松迁移,开启高效计算新体验!

Maple Flow 每年会进行数次更新,以持续优化产品并响应用户需求。 从关键设计工作表中获取更多价值与洞察,借助Maple Flow 2025.2的新功能,将结果传递至其他软件工具。 1. 从 Python 运行 Maple Flow 工作表‌ 新的 Python 集成功能&#xf…

2026/7/3 15:00:06 阅读更多 →

最新新闻

企业级AI编排:MuleSoft集成LLM的工程化实践

企业级AI编排:MuleSoft集成LLM的工程化实践

1. 项目概述:当企业级集成平台遇上大语言模型“AI Orchestration in Action: How MuleSoft and LLMs Fuel the Future of Enterprise AI”——这个标题不是一句空泛的营销口号,而是我在过去18个月里亲手搭建、上线并持续迭代的三个核心生产系统的真实写照…

2026/7/3 20:45:23 阅读更多 →
MuleSoft企业级AI编排:安全、可审计的大模型集成实践

MuleSoft企业级AI编排:安全、可审计的大模型集成实践

1. 项目概述:当企业级集成平台遇上大语言模型“AI Orchestration in Action: How MuleSoft and LLMs Fuel the Future of Enterprise AI”——这个标题不是一句空泛的行业口号,而是我在过去18个月里亲手落地的三个核心生产系统的真实写照。它讲的不是“用…

2026/7/3 20:45:23 阅读更多 →
如何彻底解决Windows 10/11中PL2303老芯片的驱动兼容性问题

如何彻底解决Windows 10/11中PL2303老芯片的驱动兼容性问题

如何彻底解决Windows 10/11中PL2303老芯片的驱动兼容性问题 【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 如果你在Windows 10或Windows 11系统中使用PL-2303 USB转串…

2026/7/3 20:43:22 阅读更多 →
Spring Boot集成Cassandra:高性能数据存储实战指南

Spring Boot集成Cassandra:高性能数据存储实战指南

1. 为什么选择 Cassandra 作为 Spring Boot 的数据存储方案在分布式系统架构设计中,数据库选型往往直接决定了系统的扩展上限。三年前我在处理一个物联网平台项目时,曾面临日均千万级设备状态写入的挑战。当时测试了多种数据库方案,最终 Cass…

2026/7/3 20:43:22 阅读更多 →
Magpie窗口超分辨率工具:3步实现游戏画面高清重制

Magpie窗口超分辨率工具:3步实现游戏画面高清重制

Magpie窗口超分辨率工具:3步实现游戏画面高清重制 【免费下载链接】Magpie A general-purpose window upscaler for Windows 10/11. 项目地址: https://gitcode.com/gh_mirrors/mag/Magpie 还在为老旧游戏在4K显示器上模糊不堪而烦恼吗?Windows平…

2026/7/3 20:41:21 阅读更多 →
如何免费永久使用IDM:开源激活脚本的完整解决方案

如何免费永久使用IDM:开源激活脚本的完整解决方案

如何免费永久使用IDM:开源激活脚本的完整解决方案 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 你是否厌倦了Internet Download Manager&#xff0…

2026/7/3 20:39:20 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻