MiniCPM-o 4.5 开源了,登上了开源热榜。
MiniCPM-o 4.5 开源了。这是面壁智能 OpenBMB 在 2 月正式开源的新一代全模态旗舰模型参数量只有 9B。却对标甚至在多项任务上追平乃至超越一些闭源大模型被很多人称为端侧 GPT‑4o 平替。目前 MiniCPM-o 4.5 开源模型已经登上了 Hugging Face 的热榜第 2。MiniCPM-o 4.5 能同时看图/视频、听声音、说话和输出文字。并且支持全双工也就是一边看一边听的同时还能主动说话目标是把接近 GPT‑4o / Gemini 2.5 Flash 水平的多模态能力塞进手机、PC、车机等端侧设备上运行。01开源项目简介MiniCPM-o 4.5 9B 参数的开源全模态大模型 原生全双工实时交互 端侧友好部署这几个关键词听着挺炫酷的用人话解释一下就是① 全模态Omni能同时处理图像、视频、文本、音频输入输出文本和语音。② 全双工Full Duplex能做到边看、边听、边说不是回合制问答。传统对话式 AI 是对讲机模式你说完一句它才开始想、然后再回一句。MiniCPM‑o 4.5 的思路是让 AI 像人一样一直在看和听同时决定什么时候说。听起来容易做起来难。除了要做到输入输出并行互不阻塞。模型在说话时眼睛和耳朵还不能关机还得继续看视频、听你说话。甚至你可以随时打断、随时插话它能立刻切换话题或调整回应。③ 端侧优先Edge-native只有 9B 参数却在视觉理解、文档解析、语音交互等方面做到接近 Gemini 2.5 Flash 级别同时又适合在本地设备上跑比如手机、车机、机器人、平板等。开源地址https://github.com/OpenBMB/MiniCPM-oHugging Facehttps://huggingface.co/openbmb/MiniCPM-o-4_502它是怎么做到又全又小的从技术结构看MiniCPM-o 4.5 可以粗略理解为在 Qwen3‑8B 语言底座上接入 SigLIP2 视觉编码、Whisper 语音理解、CosyVoice2 语音生成再用统一全模态架构打通做成一个端到端的全模态大脑。几个关键点值得展开说一下① 统一的全模态架构不再是视觉模型 → 丢给语言模型的松散拼接而是从输入编码到输出解码都由一个统一系统协调文本、语音、图像、视频会在一个共享的语义空间里被理解这让跨模态推理更自然比如一边看视频、一边听声音时能理解谁在说话、刚刚发生了什么而不是分别对待音轨和画面② 全双工语音解码语音解码器采用文本 token 语音 token 交错建模的方式这带来两个直接好处在输出语音时仍然可以持续读入新输入实现真正意义上的全双工长语音时音色更统一、语气更自然不容易越说越飘。③ 高效视觉/视频处理借鉴了 MiniCPM-V 4.5 的设计使用高效视觉 backbone token 压缩策略把高分辨率图像和多帧视频压缩到极少的视觉 token 数量结果是视频理解的性价比极高在同样的算力预算下它能看的内容比同类模型多得多特别适合端侧设备上做长视频分析、实时摄像头理解。03如何使用最简单的你可以在 Hugging Face 上直接使用搭建好的 Demo获取语音和摄像头权限就行了。Demohttps://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-DemoMiniCPM-o 4.5 之所以在开源社区讨论度极高一个很大的原因是它不是只活在论文里的模型而是从一开始就被设计为要在设备上跑。具体部署方式可以看下面这个链接部署指引https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/demo/web_demo/WebRTC_Demo/README_zh.md官方已经给出了一整套开源部署方案包括但不限于llama.cpp-omni面壁自研的开源流式全模态推理框架主打端侧/边缘设备上的低延迟推理支持全双工交互常见推理框架适配vLLM、SGLang、Ollama、LLaMA-Factory 等多种量化模型原始 bf16 约需要 19GB 显存int4 量化后内存可降到 约 11GB 或更低速度可超过 200 tokens/s在一块主流消费级 GPU 上跑起一个会看会听会说的全模态 AI。另外在国产算力生态方面MiniCPM-o 4.5 通过 FlagOS 系统软件栈已经适配了多家国产芯片包括天数智芯、华为昇腾、平头哥、海光、沐曦等对于想在国产硬件上落地 AI 应用的团队MiniCPM-o 4.5 已经是一个拿来就能跑的成熟选项而不是停留在 PPT 阶段。04点击下方卡片关注逛逛 GitHub这个公众号历史发布过很多有趣的开源项目如果你懒得翻文章一个个找你直接关注微信公众号逛逛 GitHub 后台对话聊天就行了

相关新闻

最近发布的typescript 6.0有什么新能力

最近发布的typescript 6.0有什么新能力

TypeScript 6.0 目前处于 Beta 阶段(发布于 2026 年 2 月),是一个非常特殊的版本。 简单来说,TypeScript 6.0 是一个“承上启下”的过渡版本。它的核心任务不是引入大量复杂的类型体操新语法,而是清理历史包袱&#xf…

2026/7/5 1:26:15 阅读更多 →
咸鱼流出299元全新英特尔11代拆机准系统笔记本,自带15.6寸1080P高清大屏,膜都未撕,还值得入手及使用吗?

咸鱼流出299元全新英特尔11代拆机准系统笔记本,自带15.6寸1080P高清大屏,膜都未撕,还值得入手及使用吗?

现在的内存和固态硬盘价位处于顶峰阶段,除了早期的准系统小主机,还涌入大量拆机准系统笔记本。除了前面所分享新平台高性能的拆机笔记本准系统,还有各种库存全新的办公商务笔记本,比如下面这款全新拆机准系统N5095笔记本&#xff…

2026/5/17 4:48:57 阅读更多 →
Spark大数据处理:技术、应用与性能优化【1.3】

Spark大数据处理:技术、应用与性能优化【1.3】

2.1.2 在Windows上安装与配置Spark 本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令⾏环境来安装Spark。 (1)安装JDK 相对于Linux、Windows的JDK安装更加⾃动化,⽤户可以下载安装Oracle JDK或者OpenJDK。只安装JRE是不够的,⽤户…

2026/5/17 4:48:56 阅读更多 →

最新新闻

AI 压测数据回放:让模型读报告之前先校准口径

AI 压测数据回放:让模型读报告之前先校准口径

AI 压测数据回放:让模型读报告之前先校准口径 一、压测报告不能直接丢给模型 AI 可以帮助分析压测结果,但前提是输入数据口径清楚。很多压测报告里混着预热阶段、限流阶段、错误重试、下游故障和业务噪声。如果直接让模型总结,很容易得到一段…

2026/7/5 1:22:14 阅读更多 →
AI工具链选型:GitHub Copilot与Cursor、Codeium企业开发场景实测对比

AI工具链选型:GitHub Copilot与Cursor、Codeium企业开发场景实测对比

AI工具链选型:GitHub Copilot与Cursor、Codeium企业开发场景实测对比 一、评测体系设计与方法论 AI编码助手已成为开发效率的关键杠杆。本次评测聚焦三项主流工具的实际表现。从四个维度建立可复现的量化评测框架。 %%{init: {theme: base}}%% radartitle AI编码助手…

2026/7/5 1:20:14 阅读更多 →
PyTorch 数据加载瓶颈:GPU 空等时先看 DataLoader

PyTorch 数据加载瓶颈:GPU 空等时先看 DataLoader

PyTorch 数据加载瓶颈:GPU 空等时先看 DataLoader 一、训练慢不一定是模型慢 PyTorch 训练时,很多人看到速度慢就先改模型、调 batch size、换显卡。但如果 GPU 利用率忽高忽低,可能瓶颈根本不在模型,而在数据加载。图片解码、文本…

2026/7/5 1:20:14 阅读更多 →
群晖DSM 7.2.2视频管理终极解决方案:免费恢复Video Station完整功能

群晖DSM 7.2.2视频管理终极解决方案:免费恢复Video Station完整功能

群晖DSM 7.2.2视频管理终极解决方案:免费恢复Video Station完整功能 【免费下载链接】Video_Station_for_DSM_722 Script to install Video Station in DSM 7.2.2 and DSM 7.3 项目地址: https://gitcode.com/gh_mirrors/vi/Video_Station_for_DSM_722 你是否…

2026/7/5 1:20:14 阅读更多 →
云原生可观测性:构建全链路监控体系

云原生可观测性:构建全链路监控体系

引言在微服务架构和容器化部署成为主流的当下,系统的复杂性呈指数级增长。一个请求可能跨越数十个服务实例,传统的日志查看和单点监控已无法满足故障排查的需求。云原生可观测性(Observability)应运而生,它通过Metrics…

2026/7/5 1:18:13 阅读更多 →
工训赛智能小车 PCB 自制指南:从 BTN7971B 四路驱动到主控布局的 5 个要点

工训赛智能小车 PCB 自制指南:从 BTN7971B 四路驱动到主控布局的 5 个要点

工训赛智能小车PCB设计实战:从四路驱动到主控布局的进阶指南在工程训练综合能力竞赛的智能物流搬运赛项中,一辆性能卓越的小车往往始于精良的PCB设计。当现成模块难以满足定制化需求时,自主设计PCB不仅能显著降低成本,更能实现整车…

2026/7/5 1:18:13 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻