一步生成,像素空间,何恺明让 pMF 做到了
何恺明团队最近抛出的这篇工作多少有点“把老问题直接掀桌子重来”的味道。他们提出的Pixel MeanFlowpMF在不借助潜在空间、不依赖多步采样的前提下只用一次前向传播就生成了质量相当扎实的图像。在 ImageNet 上256×256 分辨率做到 2.22 的 FID512×512 也稳在 2.48。如果把这些数字和过去几年主流扩散模型的设置放在一起对照很难不意识到这不是一次小幅优化而是一次路线层面的收缩。论文中在 ImageNet 256×256 与 512×512 的系统级对比结果这些表格基本奠定了 pMF 在“单步生成”赛道上的位置。一、生成模型为什么总是又慢又绕把时间拨回到前几年生成模型的主流路线几乎是固定的一步一步采样或者先压进潜在空间再生成。慢是显性的绕则藏在系统结构里。DDPM、Flow Matching 需要几十步反复修正Stable Diffusion 看似轻巧实则把复杂度转移给了一个庞大的 VAE 编码—解码系统。这些设计并非拍脑袋得来它们在稳定性和可控性上确实立过功。但工程代价也随之堆积推理延迟高、调参空间大、模型结构臃肿。一旦进入部署阶段这些问题会被无限放大。后来出现的一致性模型、MeanFlow开始尝试把“多步”压缩成“一步”而 JiT 等工作则直接挑战“像素空间是不是一定不可行”。问题是这两条路始终没有真正汇合。二、单步 像素空间为什么一直没人走通表面看这只是把两个已有想法拼在一起但真正做过的人都知道这一步并不简单。单步生成对模型表达能力的要求极高而像素空间又是高维、强噪声的“重灾区”。多数方法要么在速度场里迷路要么生成结果直接失控。pMF 的切入点恰恰不是继续在“预测什么”上死磕而是换了一个问题问法网络真的需要直接学那个最难的目标吗作者用一张极其克制的示意图把这个问题摆了出来。三、把“学什么”和“怎么罚”拆开pMF 的核心想法说穿了并不复杂却非常有分寸感网络输出的空间和损失约束的空间不必是同一个。模型直接输出的是一张“去噪后的图像”——记作 x。它不要求完美复原干净样本但被假定落在一个低维图像流形上更接近真实世界里的图像形态。而真正承担物理与数学约束的是损失函数它仍然工作在 MeanFlow 的速度空间里。两者之间通过一个线性的、可解释的映射连接起来x zₜ − t · u(zₜ, r, t)给出了对应的仿真可视化zₜ 噪声密集、结构混乱u 高维且不直观而 x 已经呈现出模糊但合理的图像轮廓。这一步其实是把“难学的东西”悄悄藏进了损失里。四、高维空间里预测谁更现实直觉可以骗人实验不会。论文用一个二维玩具实验把维度从 2 一路拉到 512对比 x-预测和 u-预测的行为差异。结果在 Figure 2 中一目了然维度一高u-预测几乎立刻崩盘而 x-预测仍然能给出结构稳定的结果。真实数据集上的表现更加直接。在 ImageNet 64×64 下两者尚能打平但到了 256×256u-预测的 FID 飙到 164.89而 x-预测仍能维持在可用区间FID 9.56。这些数字集中呈现在 Table 2 中。说到底x 更像“图像应该长什么样”而 u 更像“噪声世界里的导数”。神经网络会选择谁答案并不意外。五、感知损失终于用在了该用的地方pMF 直接在像素空间出图这件事带来了一个很现实的好处感知损失终于不再是“VAE 专属”。加入 VGG-based LPIPSFID 从 9.56 下降到 5.62换成 ConvNeXt-V2 版本后进一步压到 3.53。提升幅度不算含蓄但完全说得通。这不是技巧堆叠而是路径改变带来的红利。六、一步生成也能站上性能前排在 ImageNet 256×256 与 512×512 的完整系统对比中pMF 的位置相当清晰一次前向传播NFE1FID 却能和多步扩散模型掰手腕。从参数量、算力开销到生成质量pMF 并非“便宜凑数”的方案而是一个正经的高性能模型只是把流程压缩到了极限。七、这项工作真正留下的是一条路回头看pMF 的意义可能并不只在于刷新了某几个指标。它更像是在提醒我们生成模型不一定非得层层嵌套、步步回溯。只要目标设得足够聪明约束放在合适的位置一次映射也可以是稳定而可信的。未来这条路线能走多远还需要时间验证。但至少何恺明团队已经把“单步 像素空间”这道题清清楚楚地写出了一种可行解。

相关新闻

CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”

CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”

人类在观察复杂场景时,通常会先快速扫视整体轮廓,形成初步认知,再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力(Top-down Attention),是人类视觉系…

2026/7/3 15:18:39 阅读更多 →
空调自控系统恒温恒湿控制系统:西门子PLC与MCGSpro触摸屏源程序实际应用与参考学习

空调自控系统恒温恒湿控制系统:西门子PLC与MCGSpro触摸屏源程序实际应用与参考学习

空调自控系统恒温恒湿控制系统PLC程序,西门子smart200PLC 源程序,MCGSpro 触摸屏源程序 项目无密码 实际应用 可以联系参考学习,取长补短。 在工业自动化项目中,恒温恒湿控制系统算是经典应用场景了。最近帮朋友工厂改了一套空调自…

2026/7/3 15:18:42 阅读更多 →
Ubuntu 虚拟机双网卡配置:连接外网与嵌入式开发板IMX6ULL

Ubuntu 虚拟机双网卡配置:连接外网与嵌入式开发板IMX6ULL

在嵌入式 Linux 开发中,最理想的网络环境是 “双网卡架构”: 网卡 1 (NAT 模式):用于 Ubuntu 上网(下载软件、源码),以及与 Windows 主机进行 SSH/VSCode 通信。 网卡 2 (桥接模式):专线连接开…

2026/7/3 15:18:43 阅读更多 →

最新新闻

Startup AI自动化落地实战:客服、库存与决策的闭环打法

Startup AI自动化落地实战:客服、库存与决策的闭环打法

1. 项目概述:当AI自动化真正落地到 startup 的日常毛细血管里 我带过三支不同阶段的创业团队,从十几人的 SaaS 工具公司,到二十人出头的跨境 DTC 品牌,再到刚完成种子轮的工业 IoT 解决方案团队。过去三年里,我亲手拆过…

2026/7/4 10:13:45 阅读更多 →
ID3到XGBoost:决策树模型演进的工程实战路径

ID3到XGBoost:决策树模型演进的工程实战路径

1. 这不是“树”的科普,而是决策模型演进的实战路线图 你打开任何一本机器学习入门书,十有八九会在第三章遇到“决策树”——画着几根分叉的流程图,讲着信息增益、基尼不纯度这些词,然后戛然而止。但真实项目里,没人只…

2026/7/4 10:13:45 阅读更多 →
十项重塑产业的AI工程突破:从因果推理到边缘大模型

十项重塑产业的AI工程突破:从因果推理到边缘大模型

1. 项目概述:这不是一份“AI新闻简报”,而是一份从业者手写的“技术影响地图”“10 Game-changing AI Breakthroughs Worth Knowing About”——这个标题乍看像科技媒体的年度盘点,但如果你真把它当普通资讯扫一眼就划走,那你就错…

2026/7/4 10:13:45 阅读更多 →
科研信息熵压缩:月度4篇论文精读方法论

科研信息熵压缩:月度4篇论文精读方法论

1. 项目概述:这不是一份文献综述,而是一份科研节奏校准器 “Month in 4 Papers (January 2025)”——这个标题乍看像一份学术期刊的月度简报,但如果你在高校实验室熬过通宵、在工业界赶过模型上线 deadline、或是在读博第三年反复修改 propo…

2026/7/4 10:09:45 阅读更多 →
游戏陪玩App的XSS防御实战:从原理到纵深防护体系构建

游戏陪玩App的XSS防御实战:从原理到纵深防护体系构建

1. 项目概述:为什么游戏陪玩App必须严防XSS?最近在跟一个做游戏陪玩平台的朋友聊技术债,他提到一个让我后背发凉的问题:他们平台上线没多久,就发现有用户在陪玩师的个人简介里,嵌入了能自动跳转到钓鱼网站的…

2026/7/4 10:09:45 阅读更多 →
从零实现大语言模型:Happy-LLM开源教程带你掌握Transformer与微调实战

从零实现大语言模型:Happy-LLM开源教程带你掌握Transformer与微调实战

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 最近在社区里看到很多朋友对 AI 大模型开发跃跃欲试,但往往被海量的论文、复杂的数学公式和动辄几十个 G 的模型权重劝退…

2026/7/4 10:09:45 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻