[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南-尧图手机网站定制

01. Ollama 介绍官网地址https://ollama.com/Ollama 是目前最火的本地大模型部署工具。简单来说它能帮咱们快速拉取模型文件让模型在本地直接运行并进行对话。同时它还能把模型打包成一个标准的接口通过端口开放给咱们写的 Python 脚本调用。对于咱们来说它就是在大模型时代装在电脑里的“运行环境”必不可少。02. 安装 Ollama下载登录官网 https://ollama.com/ 。选择版本点击Download按钮根据咱们的操作系统Windows/Mac/Linux下载。安装打开下载好的安装包选一个咱们喜欢的位置安装即可。验证安装完毕后开始菜单里会出现一个羊驼图标。测试运行按下WinR打开运行窗口输入cmd打开命令提示符。输入命令ollama --version。如果看到版本号就说明 Ollama 已经安装完毕正在运行了。第一阶段顺利完成03. Ollama 常用命令速查这些命令咱们以后会经常用到建议收藏场景命令示例备注第一次下模型ollama run qwen3:7b会自动先 pull 再运行一步到位只下载不运行ollama pull llama3:8b适合提前囤模型国内加速ollama pull modelscope.cn/Qwen/Qwen3-7B-GGUF推荐下文会细讲查看本地库存ollama list或ollama ls大小/ID/修改时间一目了然删除省空间ollama rm llama2:latest支持通配符可写llama2:*给模型改短名ollama cp qwen3:7b q7后面直接ollama run q7方便调用查模型详情ollama show q7参数量、量化层、标签全列出04. 下载模型解决网速慢的问题Ollama 官网收录了很多模型可以通过详情页复制命令下载但由于服务器在海外咱们在国内访问经常断连速度也很慢。主流的模型平台是HuggingFace但它也在海外国内下载需要魔法工具。咱们的解决方案使用阿里的魔搭社区 (ModelScope)。HuggingFace 官网https://huggingface.co/ModelScope (魔搭) 官网https://modelscope.cn/操作步骤进入 HuggingFace 点击 Models或者进入魔搭点击模型库。在搜索框输入咱们想要的模型比如Qwen3-0.6B-GGUF。注意Ollama 目前主要支持GGUF格式搜索时一定要带上这个后缀。进入模型详情页复制模型 ID例如Qwen/Qwen3-0.6B-GGUF。回到命令提示符加上前缀进行下载网速直接拉满魔搭下载 (推荐):ollama pull modelscope.cn/Qwen/Qwen3-0.6B-GGUFHuggingFace 下载:ollama pull hf.co/Qwen/Qwen3-0.6B-GGUF下载完毕后运行ollama list查看信息NAME ID SIZE MODIFIED modelscope.cn/Qwen/Qwen3-0.6B-GGUF:latest xxxxxxx xxx MB x ago05. 运行模型在命令行工具输入ollama run modelscope.cn/Qwen/Qwen3-0.6B-GGUF。看到交互界面后咱们就可以愉快地跟大模型对话了。06. 更改服务端口进阶Ollama 默认服务运行在端口11434上。如果咱们在自己的服务器上部署为了安全或避免端口冲突可以修改它。Windows 环境退出 Ollama在任务栏右下角的托盘图标上右键选择Quit Ollama。设置环境变量按下Win S搜索“编辑账户环境变量”并打开。在“用户变量”部分点击“新建”。变量名OLLAMA_HOST变量值0.0.0.0:5656假设咱们想改到 5656 端口0.0.0.0表示允许所有网卡访问。重新启动从开始菜单重新运行 Ollama 软件。检验在浏览器输入http://localhost:5656如果显示Ollama is running说明端口修改成功了。Linux 环境执行命令sudo systemctl edit ollama.service在打开的编辑器中通常是空白或带注释加入以下内容[Service] EnvironmentOLLAMA_HOST0.0.0.0:5656保存并退出然后重载并重启服务sudo systemctl daemon-reload sudo systemctl restart ollama07. 在 Python 脚本中使用模型为了运行连接 Ollama 的 Python 脚本我们需要准备以下环境Python 版本Python 3.8 以上OpenAI 库依赖在命令行输入pip install openaiOllama 完美兼容 OpenAI 的 API 格式所以咱们直接用 OpenAI 的库就行from openai import OpenAI # 初始化客户端 client OpenAI( # 这里的端口号要对应咱们上面修改后的端口号记得加上 /v1 base_urlhttp://localhost:5656/v1, # Ollama 不需要真正的 Key但这里随便填一个不能留空 api_keyollama, ) # 发起对话请求 response client.chat.completions.create( # 填入咱们在 ollama list 中看到的模型名称 modelmodelscope.cn/unsloth/Qwen3-0.6B-GGUF, messages[ {role: system, content: 你是一个有用的助手。}, {role: user, content: 你好请简单介绍一下你自己。}, ] ) print(response.choices[0].message.content)08. 常见问题 (QA)这里整理了咱们在入门时最关心的问题Q: 除了 Ollama 还有哪些方式可以部署它们有什么差别A:LM Studio / AnythingLLM带有图形界面的部署工具。适合完全不懂代码或者完全不想碰代码的初学者也可以一键建立知识库做 RAG。vLLM高性能推理框架。通常用于服务器级别速度极快适合多人并发工业级部署使用。差别Ollama 更轻量适合开发LM Studio 胜在可视化vLLM 胜在极致性能。Q: Ollama 开机自动启动我要怎么关闭关闭后如何手动启动A:Windows右键点击任务栏图标 -Quit Ollama只是临时关闭。要彻底关闭自启请在任务管理器 - 启动应用中找到Ollama并设为禁用。Linux使用命令sudo systemctl disable ollama关闭自启。手动启动Windows 直接运行桌面图标Linux 执行ollama serve即可。Q: HuggingFace 和魔搭 (ModelScope) 有什么区别A:Hugging Face (HF)全球最大的“AI 模型图书馆”资源最全、社区最活跃但服务器在海外国内访问速度较慢。魔搭 (ModelScope)阿里旗下的国内版“模型图书馆”。国内下载速度极快模型齐全基本和 HF 同步主要是为了解决国内下载慢、需要魔法的问题。Q: 平台看起来很丰富还有什么别的好玩儿的功能A:Spaces / 创空间可以直接在 Web 上体验最新的模型应用如 AI 绘画、变声不用本地部署但有时需要排队。Datasets (数据集)训练模型的数据集也可以在上面下载。Q: 大模型有什么类型A:语言模型 (LLM)常规的大模型如 Llama3, DeepSeek, 千问。主要是聊天和文字处理。多模态模型如 LLaVA。能看图片根据图片进行对话也就是传统的大模型能看图的眼睛。嵌入模型 (Embedding)用来将文字直接转化为向量数值。主要用在RAG(检索增强生成) 中对问题进行搜索以找到相近的文档回答。视觉/视频/语音模型用以生成图像、视频和语音。Q: 我该如何快速计算我的电脑能支持多大的模型A:一般来说模型的占用可以通过一个快速公式来计算模型显存占用 ≈ 参数量 × 0.7比如下载 0.6B 模型全量参数 (16bit) 就是0.6 × 0.7 ≈ 0.42GB。如果是 7B 模型4-bit 量化7 × 0.7 ≈ 4.9GB咱们至少需要 6GB 显存。Q: 大模型不是需要显卡吗为什么 Ollama 可以运行在没有显卡的设备上A:Ollama 底层使用了llama.cpp技术。如果它检测到咱们没有显卡会将模型权重从显存(VRAM)加载到系统内存 (RAM)中使用 CPU 指令集进行计算。虽然速度比在显卡上慢但让手机、普通轻薄本等设备也有了运行大模型的可能性。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

相关新闻

EI会议！IEEE出版 ▏2026年区块链技术与基础模型国际学术会议（BTFM 2026）

好写作AI | 深度解析：好写作AI是如何将2小时的工作压缩到20分钟的？

好写作AI | 拒绝无效加班：用好写作AI，让文案撰写像聊天一样简单

最新新闻

多线程编程漏洞百出？C++ 线程与并发常见问题全解析！

E-Hentai Downloader技术解析：深入理解GM_xmlhttpRequest跨域请求机制

CANN/cannbot-skills CSV公共字段与约定

Obsidian-zola与Netlify集成：自动化部署的最佳实践

5分钟掌握CSS变体管理神器：CVA终极指南

wiliwili：专为手柄用户打造的跨平台B站客户端完全指南

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻