昇腾910B+PyTorch2.1环境搭建避坑指南：从驱动安装到LLM推理全流程-尧图手机网站定制

昇腾910BPyTorch 2.1实战手把手搭建LLM推理环境避开那些“坑”最近在折腾昇腾910B平台想在上面跑几个大语言模型试试水。说实话从驱动安装到最终模型推理整个过程远不止“下载-安装-运行”那么简单。网上能找到的教程大多只讲“理想路径”一旦遇到版本冲突、权限问题或者某个依赖库报错新手很容易就卡住半天摸不着头脑。这篇文章我想结合自己最近几次实际部署的经验特别是那些踩过的“坑”和最终的解决方案整理一份更贴近实战的指南。目标很明确让同样想在昇腾910B上搭建PyTorch 2.1环境并顺利运行LLM推理的工程师们能少走些弯路快速把环境跑起来。1. 环境准备与前置检查打好地基在开始安装任何软件之前对硬件和基础系统环境的确认是至关重要的第一步。这就像盖房子前要勘探地质一样忽略这一步后续的构建很可能摇摇欲坠。首先确认你的硬件确实是昇腾910B。这听起来像废话但确实有团队拿到的服务器混用了其他加速卡。最直接的方式是通过PCIe设备列表来查看lspci | grep -i ascend或者使用针对910B的设备号进行精确过滤lspci | grep d802如果服务器安装了多张卡这条命令会返回多行结果每一行对应一个NPU设备。如果没有任何输出你需要检查硬件是否插好、服务器是否识别了PCIe设备或者驱动是否已经预装但未生效。接下来是操作系统。昇腾910B驱动和CANN异构计算架构对Linux发行版和内核版本有明确要求。目前Ubuntu 20.04/22.04 LTS和CentOS 7.6/8.2是经过充分验证的版本。我强烈建议使用这些推荐版本以避免不必要的兼容性问题。你可以用以下命令查看系统信息cat /etc/os-release uname -rPython环境是另一个关键点。PyTorch 2.1.x官方支持Python 3.8到3.10。我个人的建议是使用Python 3.8或3.9因为这两个版本在社区和各类AI框架中的兼容性最为成熟。使用conda或venv创建一个独立的虚拟环境是一个好习惯它能完美隔离项目依赖。注意尽量避免使用系统自带的Python。系统Python通常用于维护系统工具随意改动可能导致系统包管理器如apt或yum出现问题。最后确保你的系统有足够的磁盘空间建议预留50GB以上用于安装驱动、工具包和模型和稳定的网络连接因为后续需要下载几个GB的安装包。2. 驱动、固件与CANN安装核心组件部署这是整个流程中最容易出错的环节之一。昇腾的软件栈包括驱动、固件和CANN它们之间以及它们与系统之间存在着严格的版本依赖关系。2.1 驱动与固件安装驱动是操作系统与NPU硬件通信的桥梁。从昇腾社区下载的驱动安装包通常是一个.run文件。安装时务必使用root权限并且我强烈推荐加上--install-for-all参数这能为所有用户安装驱动避免后续因权限问题导致npu-smi等工具无法使用。# 假设安装包已下载到当前目录 chmod x Ascend-hdk-910b-npu-driver_23.0.rc3_linux-aarch64.run sudo ./Ascend-hdk-910b-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all安装过程中安装程序会进行一系列检查如果遇到内核版本不匹配等警告需要根据提示处理。安装完成后必须重启系统以使驱动生效。重启后验证驱动是否安装成功npu-smi info这个命令类似于NVIDIA的nvidia-smi会输出一个表格显示NPU的设备编号、温度、功耗、内存使用率等信息。如果看到类似下图的信息说明驱动安装正常。NPU ID设备名称温度功耗内存使用利用率0910B45°C65W1024MB / 32768MB0%如果命令报错“command not found”或提示权限不足请检查是否已重启系统。安装时是否使用了--install-for-all。当前用户是否在HwHiAiUser用户组中驱动安装时会创建该组。固件Firmware的安装相对简单同样使用root权限运行对应的.run文件即可。2.2 CANN工具包安装CANN是昇腾计算架构的核心它包含了神经网络运行时库、算子库、编译器等一整套工具。它的版本与后续要安装的torch-npu适配器版本有严格的对应关系。根据官方矩阵PyTorch 2.1.0 对应的是CANN 7.0.RC1和torch-npu 2.1.0.rc1。请务必遵守这个对应关系否则会出现无法预料的兼容性问题。安装CANN这里以NNRT运行时包为例sudo ./Ascend-cann-nnrt_7.0.RC1_linux-aarch64.run --install安装过程是交互式的通常会让你选择安装路径默认为/usr/local/Ascend和是否创建运行用户。按照提示操作即可。安装成功后可以通过查看安装信息文件来确认cat /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/ascend-toolkit_install.info最关键的一步设置环境变量。很多后续的“ImportError”都源于此。你需要将CANN库的路径添加到系统库路径中。最方便的方法是source其提供的环境变量脚本source /usr/local/Ascend/ascend-toolkit/set_env.sh为了让这个设置在每次登录时自动生效可以将这行命令添加到你的~/.bashrc或~/.zshrc文件末尾。3. PyTorch与torch-npu适配器安装构建AI框架层当底层驱动和计算架构就绪后我们就可以安装上层的AI框架了。目标是在PyTorch中启用NPU后端。3.1 安装PyTorch 2.1在ARM架构aarch64的昇腾服务器上你需要安装对应的PyTorch版本。直接使用pip从官方源安装即可pip install torch2.1.0安装完成后可以先在Python中验证PyTorch是否能正常导入但此时它还不认识NPU设备。3.2 安装torch-npu适配器这是让PyTorch与昇腾NPU对话的“翻译官”。根据CANN 7.0.RC1我们需要安装2.1.0.rc1版本。pip3 install torch-npu2.1.0.rc1这里有一个高频“坑”点有时直接pip安装会因为网络或源的问题失败。如果遇到这种情况可以采用从源码编译安装的方式虽然耗时但更可靠。git clone https://gitee.com/ascend/pytorch.git -b v2.1.0-5.0.rc3 --depth 1 cd pytorch pip3 install -r requirements.txt python3 setup.py install3.3 环境验证所有组件安装完毕后进行一个全面的验证。首先确保环境变量已设置如果还没添加到bashrc请手动source一次。然后运行一个Python脚本来检查NPU是否对PyTorch可见import torch import torch_npu print(fPyTorch version: {torch.__version__}) print(ftorch_npu version: {torch_npu.__version__}) print(fNPU available: {torch_npu.npu.is_available()}) print(fNPU device count: {torch_npu.npu.device_count()})如果一切正常你会看到NPU available: True以及设备数量大于0。如果显示为False请按以下顺序排查检查环境变量echo $LD_LIBRARY_PATH确认其中包含/usr/local/Ascend/...的库路径。检查驱动状态再次运行npu-smi info确认硬件状态正常。检查用户权限确认当前用户有访问NPU设备的权限通常在HwHiAiUser组。接下来进行一个简单的张量计算测试确保NPU可以执行运算import torch import torch_npu # 将张量移动到NPU上 x torch.randn(2, 3).npu() y torch.randn(2, 3).npu() # 在NPU上执行加法运算 z x y print(z) print(z.device) # 应该输出 npu:04. LLM推理实战以ChatGLM3-6B为例环境搭建好之后我们终于可以进入正题部署一个大语言模型进行推理。这里以ChatGLM3-6B为例因为它在国内应用广泛且对昇腾平台的适配相对友好。4.1 模型准备与加载优化首先你需要从模型仓库如ModelScope或Hugging Face下载ChatGLM3-6B的模型权重和配置文件。假设模型已下载到本地目录/data/models/chatglm3-6b。在NPU上加载模型有几个关键的优化点可以显著提升加载速度和减少内存占用使用半精度FP16大多数LLM推理使用FP16就足以保持精度同时内存占用减半计算速度更快。利用torch_npu的自动转换torch_npu提供了transfer_to_npu模块可以自动将模型中为CUDA设计的调用映射到NPU这对于迁移现有代码非常方便。下面是一个优化的模型加载示例import time import torch import torch_npu # 导入自动API转换模块 from torch_npu.contrib import transfer_to_npu from transformers import AutoTokenizer, AutoModel model_dir /data/models/chatglm3-6b # 1. 加载分词器 tokenizer AutoTokenizer.from_pretrained(model_dir, trust_remote_codeTrue) # 2. 记录加载时间 t0 time.time() # 3. 加载模型并优化 model AutoModel.from_pretrained( model_dir, trust_remote_codeTrue ).half() # 转换为FP16精度 model model.npu() # 将模型整体移至NPU内存 model model.eval() # 设置为评估模式 load_time time.time() - t0 print(f模型加载耗时: {load_time:.2f}秒) # 4. 验证关键API映射 print(ftorch_npu.npu.is_available(): {torch_npu.npu.is_available()}) # 以下API经过transfer_to_npu自动映射应返回True print(ftorch_npu.cuda.is_available(): {torch_npu.cuda.is_available()})提示首次加载模型时transformers库可能会编译一些算子导致时间较长。加载完成后可以将模型实例持久化避免重复加载开销。4.2 推理流程与性能对比加载好模型后我们就可以进行对话推理了。这里需要注意生成参数如max_length,top_p,temperature的设置它们会影响生成速度和质量。def chat_with_model(query, historyNone): if history is None: history [] # 生成回答 response, updated_history model.chat( tokenizer, query, historyhistory, max_length4096, top_p0.8, temperature0.9 ) return response, updated_history # 进行多轮对话测试 history [] questions [你好请介绍一下你自己。, 深度学习和机器学习有什么区别] for q in questions: print(f用户: {q}) start_time time.time() answer, history chat_with_model(q, history) latency (time.time() - start_time) * 1000 # 转换为毫秒 print(f模型: {answer}) print(f生成延迟: {latency:.0f}ms\n)为了让你对性能有个直观概念下面是一个在910B上运行ChatGLM3-6B推理的粗略性能指标表格对比了不同输入/输出长度下的表现输入Token数输出Token数首次Token延迟平均每Token生成延迟备注50100~350ms~45ms短文本对话体验流畅200300~550ms~50ms长上下文问答性能稳定500100~800ms~48ms长文本摘要首Token延迟增加性能分析从表格可以看出昇腾910B在LLM推理任务上首Token延迟主要受模型计算初始化和输入长度影响而流式生成阶段每Token的延迟则相对稳定体现了其强大的持续计算能力。这对于需要实时交互的应用场景至关重要。4.3 高级技巧与内存管理运行更大的模型如70B参数级别或同时服务多个请求时内存管理成为瓶颈。以下是一些进阶技巧使用KV Cache确保你的推理代码或所使用的库启用了Key-Value缓存这能避免在生成每个新token时重复计算之前token的注意力极大提升生成速度。transformers库在调用generate方法时会自动使用。模型并行对于超大规模模型单卡内存可能不足。昇腾平台支持类似Tensor Parallelism的模型并行策略需要手动对模型进行切分和配置。监控NPU内存在代码中集成内存监控有助于定位内存泄漏或优化加载策略。import torch_npu torch_npu.npu.empty_cache() # 清空NPU缓存类似torch.cuda.empty_cache() print(torch_npu.npu.memory_allocated(0)) # 查看当前NPU 0已分配内存 print(torch_npu.npu.memory_reserved(0)) # 查看当前NPU 0缓存保留的内存5. 疑难杂症与深度排错指南即使按照指南操作你也可能遇到一些独特的问题。这一章汇总了我和社区里遇到的一些典型错误及其根因和解决方案。5.1 常见错误代码与解决思路错误ImportError: libhccl.so: cannot open shared object file根因环境变量LD_LIBRARY_PATH未正确设置系统找不到CANN的动态链接库。解决确保已执行source /usr/local/Ascend/ascend-toolkit/set_env.sh并检查该脚本是否确实添加了包含libhccl.so的库路径。错误npu error error code is 507008或fail to obtain the soc version根因这是最常见的权限问题之一。驱动安装了但当前用户没有访问NPU设备的权限。解决确认驱动安装时使用了--install-for-all。将当前用户加入HwHiAiUser组sudo usermod -aG HwHiAiUser $USER然后注销并重新登录或开启新终端使组生效。检查设备权限ls -l /dev/davinci*确保用户有读写权限。错误运行模型时出现精度异常或结果完全错误根因可能是PyTorch、torch-npu、CANN版本不匹配或者模型权重在加载到NPU时发生了意外的数据类型转换。解决严格核对本章开头提到的版本对应表。在模型.npu()之前和之后检查关键权重张量的数据类型dtype和设备device确保一致。尝试在CPU上运行同样的推理流程对比结果以确定问题是出在模型本身还是NPU计算上。5.2 性能调优初步如果你的推理速度未达到预期可以从以下几个维度排查算子融合CANN工具链中的图编译器如ascendc会自动尝试将多个小算子融合成大算子以减少内核启动开销。查看CANN的日志或使用性能分析工具如msprof来确认算子融合是否生效。数据搬运频繁在主机CPU内存和NPU设备内存之间拷贝数据是性能杀手。确保你的数据处理流水线尽可能在NPU上完成并使用pin_memory等方式优化主机到设备的数据传输。使用适合的精度对于推理FP16通常是精度和速度的最佳平衡点。可以尝试使用torch_npu.npu.set_compile_mode(jit_compileTrue)启用图编译优化这对循环结构如生成式解码有奇效。5.3 日志与诊断工具当问题复杂时查看详细日志是必须的。驱动日志位于/var/log/ascend_seclog/和/var/log/ascend_driver/目录下。CANN运行日志通过设置环境变量export ASCEND_SLOG_PRINT_TO_STDOUT1和export ASCEND_GLOBAL_LOG_LEVEL31为错误3为信息可以将运行时日志输出到控制台。npu-smi工具它不仅用于监控其高级功能也能提供诊断信息例如npu-smi info -t board -i 0可以查看0号NPU板的详细信息。搭建和调试的过程其实就是不断与系统细节打交道的过程。每解决一个报错你对这套异构计算栈的理解就会加深一层。最开始可能会觉得步骤繁琐但一旦环境稳定跑起来你会发现昇腾910B在LLM推理任务上提供的性能和稳定性是值得这些投入的。尤其是在处理长序列和批量推理时其优势会更加明显。如果在部署中遇到了本文未覆盖的奇怪问题不妨去昇腾社区的论坛搜索一下很多坑已经有先行者填平了。

昇腾910B+PyTorch2.1环境搭建避坑指南：从驱动安装到LLM推理全流程

相关新闻

融合轻量化YOLOv8与ORB-SLAM3：面向动态场景的高效视觉SLAM系统设计与实现

BLE广播包实战：手把手教你用Nordic SDK配置心率监测设备（含完整代码）

Windows10下VTK9.3.1+VS2022+Qt5.14.2环境搭建全攻略（含常见错误解决）

最新新闻

Devin工程化落地：AI协作者如何嵌入CI/CD与测试流水线

行业领先·审查通过·高性能｜运营商行业数据库审计和监测最佳实践指南

踩坑3周，我在实验室内网搭了个零公网请求的论文AIGC筛查本地系统

11、＜简单＞有一个六位数，其个位数字7，现将个位数字移至首位(十万位)，而其余各位数字顺序不变，均后退一位，得到一个新的六位数，假如新数为I旧数的4倍，求原来的六位数

终极精简指南：使用PowerShell脚本让Windows 11瘦身50%

从《中国统计年鉴》到可比数据：手把手教你计算不变价GDP

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻