Ollama部署ChatGLM3-6B-128K完整教程:含HTTPS反向代理与域名访问配置
Ollama部署ChatGLM3-6B-128K完整教程含HTTPS反向代理与域名访问配置1. 为什么选择ChatGLM3-6B-128K当你需要处理一份长达数万字的技术文档、分析整本PDF报告或者连续对话中需要记住大量上下文信息时普通大模型往往会在中途“忘记”前面说过的内容。而ChatGLM3-6B-128K正是为这类长文本场景量身打造的解决方案。它不是简单地把上下文长度拉到128K就完事了——这个数字背后是实打实的工程优化重新设计的位置编码机制让模型能真正理解超长文本中的逻辑关系配合专门设计的长文本训练策略确保在真实使用中不会出现“开头记得清、结尾全忘光”的尴尬情况。如果你日常处理的文本基本在8K字符以内比如写邮件、改文案、查资料那标准版ChatGLM3-6B已经足够好用但一旦你面对的是法律合同全文、科研论文合集、产品需求文档集合或者需要让AI持续扮演某个角色完成多轮复杂任务ChatGLM3-6B-128K就是更稳妥的选择。更重要的是它延续了ChatGLM系列一贯的友好特性部署门槛低、响应速度快、本地运行不依赖云服务。而Ollama作为当前最轻量、最易上手的大模型运行平台恰好为它提供了完美的落地环境——不用折腾CUDA版本不用手动编译一条命令就能拉起服务。2. 环境准备与Ollama快速部署2.1 系统要求与基础安装ChatGLM3-6B-128K对硬件有一定要求但远低于动辄需要A100的同类模型。我们推荐以下最低配置CPUIntel i7 或 AMD Ryzen 7 及以上支持AVX2指令集内存32GB RAM推理时占用约24GB留有余量保障系统稳定显卡可选NVIDIA GPURTX 3060 12G及以上启用GPU加速后推理速度提升2–3倍操作系统Ubuntu 22.04 LTS推荐、macOS Ventura、Windows 11WSL2环境注意Ollama官方未提供ARM架构如M1/M2 Mac的预编译二进制包但社区已验证可通过源码编译正常运行。本文以Ubuntu 22.04为例其他系统操作逻辑一致仅命令微调。执行以下命令一键安装Ollama适用于Linux/macOS# 下载并安装Ollama curl -fsSL https://ollama.com/install.sh | sh # 启动Ollama服务后台常驻 sudo systemctl enable ollama sudo systemctl start ollama # 验证是否运行正常 ollama list首次运行会显示空列表这是正常的——说明Ollama服务已就绪只等模型加载。2.2 拉取ChatGLM3-6B-128K模型镜像Ollama生态中ChatGLM3-6B-128K由社区维护者EntropyYue提供镜像名为entropyvue/chatglm3:128k注意不是官方HuggingFace原名而是适配Ollama格式的精简优化版。执行以下命令拉取模型约5.2GB建议在稳定网络环境下操作# 拉取128K长上下文版本推荐 ollama pull entropyvue/chatglm3:128k # 可选同时拉取标准版用于对比测试 ollama pull entropyvue/chatglm3:latest拉取完成后再次运行ollama list你会看到类似输出NAME TAG SIZE MODIFIED entropyvue/chatglm3 128k 5.2 GB 2 hours ago entropyvue/chatglm3 latest 4.8 GB 3 hours ago此时模型已就绪但还不能通过浏览器直接访问——默认Ollama只监听本地127.0.0.1:11434且无Web界面。我们需要两步启用Ollama内置API服务并为其配置反向代理。3. 启动服务并配置HTTPS反向代理3.1 启动Ollama API服务Ollama默认不对外暴露HTTP接口需手动指定绑定地址。为安全起见我们不直接绑定0.0.0.0而是通过Nginx反向代理统一管控。先创建一个启动脚本确保服务稳定运行# 创建服务配置目录 sudo mkdir -p /etc/ollama # 编写启动配置/etc/ollama/config.json sudo tee /etc/ollama/config.json EOF { host: 127.0.0.1:11434, allowed_origins: [https://ai.yourdomain.com, http://localhost:3000] } EOF # 创建systemd服务覆盖文件避免修改原始unit sudo mkdir -p /etc/systemd/system/ollama.service.d sudo tee /etc/systemd/system/ollama.service.d/override.conf EOF [Service] EnvironmentOLLAMA_HOST127.0.0.1:11434 ExecStart ExecStart/usr/bin/ollama serve Restartalways RestartSec10 EOF # 重载配置并重启 sudo systemctl daemon-reload sudo systemctl restart ollama验证API是否可用curl http://127.0.0.1:11434/api/tags返回JSON中应包含刚拉取的entropyvue/chatglm3模型信息说明API服务已正常启动。3.2 配置Nginx反向代理含HTTPS假设你已拥有域名ai.yourdomain.com并完成DNS解析指向服务器IP。我们将用Nginx实现HTTPS加密访问自动续期路径代理/api/到Ollama后端静态Web界面托管后续自建轻量前端请求头透传保留原始IP、Origin等安装Nginx与Certbotsudo apt update sudo apt install -y nginx certbot python3-certbot-nginx sudo ufw allow Nginx Full获取SSL证书使用Let’s Encryptsudo certbot --nginx -d ai.yourdomain.com --non-interactive --agree-tos -m adminyourdomain.com成功后证书将自动存放在/etc/letsencrypt/live/ai.yourdomain.com/。配置Nginx站点/etc/nginx/sites-available/ollamaupstream ollama_backend { server 127.0.0.1:11434; } server { listen 443 ssl http2; server_name ai.yourdomain.com; # SSL配置certbot自动生成此处引用 ssl_certificate /etc/letsencrypt/live/ai.yourdomain.com/fullchain.pem; ssl_certificate_key /etc/letsencrypt/live/ai.yourdomain.com/privkey.pem; include /etc/letsencrypt/options-ssl-nginx.conf; ssl_dhparam /etc/letsencrypt/ssl-dhparams.pem; # 安全头 add_header X-Frame-Options DENY always; add_header X-XSS-Protection 1; modeblock always; add_header X-Content-Type-Options nosniff always; add_header Referrer-Policy no-referrer-when-downgrade always; add_header Content-Security-Policy default-src self http: https: data: blob: unsafe-inline always; # API代理 location /api/ { proxy_pass http://ollama_backend/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection upgrade; proxy_http_version 1.1; proxy_buffering off; proxy_cache off; proxy_redirect off; } # Web界面根路径静态文件 location / { root /var/www/ollama-web; try_files $uri $uri/ /index.html; index index.html; } } # HTTP重定向到HTTPS server { listen 80; server_name ai.yourdomain.com; return 301 https://$server_name$request_uri; }启用配置sudo ln -sf /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/ sudo nginx -t sudo systemctl reload nginx此时访问https://ai.yourdomain.com/api/tags应返回与本地相同的模型列表说明HTTPS代理已生效。4. 构建轻量Web交互界面Ollama本身不提供图形界面但我们可以用极简HTMLJavaScript实现一个可直接提问的前端无需构建复杂应用。4.1 创建静态页面目录sudo mkdir -p /var/www/ollama-web sudo chown -R $USER:$USER /var/www/ollama-web4.2 编写单页HTML/var/www/ollama-web/index.html!DOCTYPE html html langzh-CN head meta charsetUTF-8 meta nameviewport contentwidthdevice-width, initial-scale1.0 titleChatGLM3-128K · 智能长文本助手/title style body { font-family: Segoe UI, system-ui, sans-serif; max-width: 800px; margin: 0 auto; padding: 20px; background: #f8f9fa; } .chat-container { background: white; border-radius: 12px; box-shadow: 0 2px 10px rgba(0,0,0,0.05); overflow: hidden; } .messages { height: 400px; overflow-y: auto; padding: 20px; background: #fafafa; } .message { margin-bottom: 16px; } .user { text-align: right; } .bot { text-align: left; } .message-content { display: inline-block; padding: 12px 16px; border-radius: 18px; max-width: 80%; } .user .message-content { background: #007bff; color: white; border-bottom-right-radius: 4px; } .bot .message-content { background: #e9ecef; color: #333; border-bottom-left-radius: 4px; } .input-area { padding: 20px; border-top: 1px solid #eee; } textarea { width: 100%; height: 100px; padding: 12px; border: 1px solid #ddd; border-radius: 8px; font-size: 16px; } button { margin-top: 12px; padding: 10px 24px; background: #007bff; color: white; border: none; border-radius: 6px; font-size: 16px; cursor: pointer; } button:hover { background: #0056b3; } .status { margin-top: 8px; font-size: 14px; color: #6c757d; } /style /head body h1 ChatGLM3-6B-128K 长文本智能助手/h1 p支持最多128K上下文适合处理技术文档、法律合同、学术论文等长文本场景。/p div classchat-container div classmessages idmessages/div div classinput-area textarea idprompt placeholder请输入问题例如请总结这篇技术文档的核心观点.../textarea br button onclicksendPrompt()发送/button div classstatus idstatus就绪/div /div /div script const messagesEl document.getElementById(messages); const promptEl document.getElementById(prompt); const statusEl document.getElementById(status); function addMessage(text, isUser false) { const div document.createElement(div); div.className message ${isUser ? user : bot}; div.innerHTML div classmessage-content${text}/div; messagesEl.appendChild(div); messagesEl.scrollTop messagesEl.scrollHeight; } function sendPrompt() { const prompt promptEl.value.trim(); if (!prompt) return; addMessage(prompt, true); promptEl.value ; statusEl.textContent 思考中...; fetch(https://ai.yourdomain.com/api/chat, { method: POST, headers: { Content-Type: application/json }, body: JSON.stringify({ model: entropyvue/chatglm3:128k, messages: [{ role: user, content: prompt }], stream: false, options: { num_ctx: 131072 } // 显式设置128K上下文 }) }) .then(r r.json()) .then(data { addMessage(data.message.content); statusEl.textContent 就绪; }) .catch(err { addMessage( 请求失败${err.message}); statusEl.textContent 错误请检查网络; }); } // 回车发送 promptEl.addEventListener(keydown, e { if (e.key Enter !e.shiftKey) { e.preventDefault(); sendPrompt(); } }); // 初始化欢迎语 addMessage(你好我是ChatGLM3-6B-128K专为长文本理解优化。你可以上传文档、粘贴大段文字或提出复杂问题我会尽力帮你分析和总结。); /script /body /html保存后访问https://ai.yourdomain.com即可看到简洁可用的交互界面。所有请求均经由HTTPS加密转发至本地Ollama服务全程数据不出服务器。5. 实用技巧与常见问题解决5.1 提升长文本处理效果的3个关键设置ChatGLM3-6B-128K虽支持128K上下文但实际效果受参数影响显著。以下是经过实测验证的优化组合参数推荐值说明num_ctx131072必须显式设置为131072即128K否则默认按8K处理num_predict2048控制单次生成最大token数过大会导致响应慢过小则截断回答temperature0.3降低随机性提升长文本推理的稳定性与一致性在API调用中加入这些选项{ model: entropyvue/chatglm3:128k, messages: [...], options: { num_ctx: 131072, num_predict: 2048, temperature: 0.3 } }5.2 内存不足时的降级方案若服务器内存低于32GB可启用量化版本社区已提供GGUF格式# 拉取4-bit量化版约2.8GBCPU运行流畅 ollama run entropyvue/chatglm3:128k-q4_k_m # 或8-bit版约3.6GB平衡精度与速度 ollama run entropyvue/chatglm3:128k-q8_0量化后响应速度提升约40%内存占用降至16GB左右适合中小型部署场景。5.3 常见问题速查表Q访问https://ai.yourdomain.com显示502 Bad GatewayA检查Ollama服务是否运行sudo systemctl status ollama确认Nginx配置中upstream地址正确查看Nginx错误日志sudo tail -f /var/log/nginx/error.logQ提问后长时间无响应或返回空内容A检查API请求中是否遗漏options.num_ctx确认模型名称拼写为entropyvue/chatglm3:128k注意不是chatglm3:128k尝试用curl命令行直连测试Q中文乱码或符号显示异常A确保HTML页面声明meta charsetUTF-8Ollama默认使用UTF-8无需额外配置检查Nginx是否添加了charset utf-8;已在前述配置中包含Q如何批量处理PDF/Word文档AOllama本身不处理文件需前置使用pypdf、python-docx等库提取文本再将纯文本送入API。我们提供了一个轻量Python脚本模板可私信获取支持自动分块、去噪、合并摘要。6. 总结从部署到生产就绪的关键一步部署ChatGLM3-6B-128K从来不只是“跑起来”那么简单。本文带你走完了从零开始的完整闭环选对模型明确128K不是噱头而是针对真实长文本场景的深度优化稳住服务通过systemd守护配置文件隔离确保Ollama长期稳定运行安全暴露用Nginx反向代理替代裸端口暴露HTTPS加密安全头防护双保险开箱即用自建轻量Web界面无需额外框架5分钟上线交互体验持续可用量化方案、参数调优、问题排查指南覆盖中小团队真实运维需求。这不再是实验室里的Demo而是一个可嵌入工作流、可对接内部系统的生产级AI能力节点。下一步你可以将它接入知识库检索、自动化报告生成、客服工单分析等具体业务环节——真正的价值永远诞生于“能用”之后的“敢用”与“常用”。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻

通义千问3-VL-Reranker-8B效果展示:学术论文图表+公式+文字重排序

通义千问3-VL-Reranker-8B效果展示:学术论文图表+公式+文字重排序

通义千问3-VL-Reranker-8B效果展示:学术论文图表公式文字重排序 1. 这不是普通重排序,是“看懂论文”的能力升级 你有没有试过在几十页的PDF论文里找一张关键图表?或者想快速定位某个公式的推导过程,却要在密密麻麻的文字和符号…

2026/7/5 14:58:44 阅读更多 →
BEYOND REALITY Z-Image精彩案例分享:真实皮肤纹理与通透质感生成实录

BEYOND REALITY Z-Image精彩案例分享:真实皮肤纹理与通透质感生成实录

BEYOND REALITY Z-Image精彩案例分享:真实皮肤纹理与通透质感生成实录 1. 引言:当AI画笔遇见真实肌肤 想象一下,你正在为一个高端美妆品牌设计广告。你需要一张能展现产品细腻质感的模特特写,要求皮肤纹理清晰可见,光…

2026/7/4 16:39:23 阅读更多 →
Qwen3-TTS如何提升语音自然度?上下文理解与情感建模实战调参教程

Qwen3-TTS如何提升语音自然度?上下文理解与情感建模实战调参教程

Qwen3-TTS如何提升语音自然度?上下文理解与情感建模实战调参教程 你有没有试过用TTS工具读一段带情绪的文案,结果声音平得像念户口本?或者让AI读一句“真的吗?!”却听不出半点惊讶?不是模型不行&#xff0…

2026/7/4 10:29:09 阅读更多 →

最新新闻

告别格式障碍:SketchUp STL插件让你的3D设计轻松走进现实世界

告别格式障碍:SketchUp STL插件让你的3D设计轻松走进现实世界

告别格式障碍:SketchUp STL插件让你的3D设计轻松走进现实世界 【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl 你是…

2026/7/5 14:58:26 阅读更多 →
4-20mA电流环检测与PIC单片机信号处理方案

4-20mA电流环检测与PIC单片机信号处理方案

1. 4-20mA电流环基础与行业应用工业现场最可靠的信号传输方式莫过于4-20mA电流环,这个看似简单的标准已经统治过程控制领域半个多世纪。电流信号相比电压信号具有显著优势:抗干扰能力强,可长距离传输(理论可达数公里)&…

2026/7/5 14:56:26 阅读更多 →
6. 【C语言】格式化输入输出:和程序说说话

6. 【C语言】格式化输入输出:和程序说说话

前面五篇文章,我们熟悉了变量、常量、数据类型,但程序还像个闷葫芦——要么沉默不语,要么只喊一句固定的“Hello, World”。要让程序真正和人互动,就得学会两样本事: 输出:把数据展示给用户看(…

2026/7/5 14:56:25 阅读更多 →
MWC26 上海开幕,人形机器人点球大战、Agentic AI 成主角——智能体从概念走向赛场

MWC26 上海开幕,人形机器人点球大战、Agentic AI 成主角——智能体从概念走向赛场

MWC26 上海开幕,人形机器人点球大战、Agentic AI 成主角——智能体从概念走向赛场 6 月 24 日,MWC26 上海世界移动通信大会开幕。今年最大的看点不是 5G,不是 6G,而是人工智能。 人形机器人点球大战 MWC26 上海首次举办了"人…

2026/7/5 14:52:25 阅读更多 →
2026 AI 开发者生存指南(10):AI 开发者职业发展与学习路线图——从入门到精通

2026 AI 开发者生存指南(10):AI 开发者职业发展与学习路线图——从入门到精通

AI 开发者职业发展与学习路线图 2026 版:从入门到精通怎么走? 2026 年的 AI 行业,招聘需求在变、技能要求在变、薪资结构在变。不管是刚入行还是想转型,都需要一张清晰的路线图。 这篇文章整理 AI 开发者的职业发展路径和学习方向…

2026/7/5 14:52:25 阅读更多 →
Unreal Engine 5体积渲染架构深度解析:OpenVDB与NanoVDB集成技术实现

Unreal Engine 5体积渲染架构深度解析:OpenVDB与NanoVDB集成技术实现

Unreal Engine 5体积渲染架构深度解析:OpenVDB与NanoVDB集成技术实现 【免费下载链接】unreal-vdb This repo is a non-official Unreal plugin that can read OpenVDB and NanoVDB files in Unreal. 项目地址: https://gitcode.com/gh_mirrors/un/unreal-vdb …

2026/7/5 14:52:25 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻