【ICLR26-Oral Paper-马普所】AnyUp:通用特征上采样
文章AnyUp: Universal Feature Upsampling代码https://github.com/wimmerth/anyup单位马克斯·普朗克信息学研究所、苏黎世联邦理工学院、谷歌、慕尼黑工业大学一、问题背景视觉特征上采样的核心需求是把低分辨率特征图精准放大到高分辨率同时保留原特征的语义和细节信息适配各类下游视觉任务。但在此之前主流的两类方法都各有致命问题传统无学习方法如双线性插值、最近邻插值虽能适配任意特征模型、任意分辨率却会让放大后的特征图过度模糊丢失大量细节导致下游任务效果大打折扣现有有学习方法如FeatUp、LoftUp、JAFAR虽提升了上采样质量但模型绑定性极强换一个特征提取模型就需要重新训练不仅耗费大量算力对最新的大视觉模型而言重新训练甚至难以实现。同时部分方法还受限于固定的放大比例、特定的下游任务灵活性极差。简单来说此前的方法要么“通用但效果差”要么“效果好但不通用”行业急需一个能兼顾通用性、高质量、高灵活性的特征上采样方法。二、方法创新为了解决上述痛点研究团队提出了AnyUp通用特征上采样模型核心实现了一次训练全场景适配其创新点主要集中在四个核心设计从底层架构到训练策略全方位优化特征无关层这是AnyUp实现“万能适配”的核心能将任意模型、任意维度的输入特征转换成统一的规范格式处理从根源上解决了传统方法需要绑定特定特征提取模型的问题局部窗口注意力机制摒弃了传统的全局注意力让模型仅关注每个像素周围的局部区域避免放大时参考图片中无关的远区域信息既提升了上采样的精准度又降低了计算量让模型更高效基于图片局部裁剪的训练策略无需在超大分辨率图片上做训练既慢又费算力而是随机截取图片的局部区域进行训练大幅提升训练效率和内存利用率同时保证训练效果双重一致性正则化训练时加入自一致性和输入一致性正则化不仅让模型对噪声和图像增强更鲁棒还能最大程度保留原特征的空间分布避免语义信息失真。整体而言AnyUp的架构轻量、参数少既保留了有学习方法的高上采样质量又具备了无学习方法的全场景通用性。三、实验结果研究团队在ImageNet数据集上训练AnyUp并在语义分割、深度估计、表面法向量估计等多个主流视觉任务上做了全面测试对比了双线性插值、FeatUp、LoftUp、JAFAR等主流方法结果表现亮眼下游任务效果领先在COCO、ADE20k、PASCAL VOC等数据集的语义分割任务中AnyUp的mIoU和像素准确率均为最优在NYUv2等数据集的深度、表面法向量估计中误差更低、预测准确率更高细节保留更完整任意分辨率放大表现优异无论调整输入特征的分辨率和目标放大比例AnyUp在各比例下的表现均碾压或持平其他方法完全摆脱了固定放大比例的限制特征分布保留最佳用低分辨率特征训练的任务模型直接用到AnyUp放大的高分辨率特征上无需微调即可高效运行而其他方法要么效果暴跌要么完全无法适配泛化能力超强用DINOv2训练的AnyUp直接迁移到SigLIP 2、DINOv3、ResNet等从未训练过的特征模型上效果居然和专门用这些模型训练的其他方法持平甚至更优真正实现了跨模型的零成本适配。同时可视化结果显示AnyUp放大后的特征图边缘更锐利、细节更丰富无过度平滑、特征偏移等问题而其他方法均存在不同程度的失真。四、优势与局限核心优势全维度通用适配任意特征提取模型、任意输入输出分辨率、任意下游视觉任务一次训练即可全场景使用大幅降低算力和开发成本高上采样质量相比传统方法保留更多特征细节和语义信息相比现有有学习方法下游任务效果更优高效易用模型轻量训练效率高单张NVIDIA H100 GPU仅需5小时且作者已公开代码和预训练权重可直接开箱即用特征保留性好最大程度维持原特征的空间分布和语义信息无需对下游任务模型做微调适配成本极低。现存局限暂未结合特征去噪功能无法处理特征图中的位置编码伪影不过该功能可后续简单集成到AnyUp的流程中其核心放大逻辑是通过低分辨率特征的线性组合生成高分辨率特征若想提取更精细的子像素级信息需要设计更复杂的模型架构。五、一句话总结AnyUp作为首个推理时特征无关的通用视觉特征上采样模型通过特征无关层、局部窗口注意力等创新设计实现了任意特征、任意分辨率、任意任务的全场景适配既保证了顶尖的上采样质量和特征保留能力又具备轻量高效、开箱即用的特性为各类需要高分辨率视觉特征的计算机视觉任务提供了全新的通用解决方案。

相关新闻

新手友好:Qwen3-ASR语音识别系统搭建与调用教程

新手友好:Qwen3-ASR语音识别系统搭建与调用教程

新手友好:Qwen3-ASR语音识别系统搭建与调用教程 1. 你能学会什么:零基础也能跑通多语言语音识别 1.1 这不是“理论课”,是能马上用的实操指南 你不需要懂模型结构、不用调参、不碰CUDA编译——只要有一台带NVIDIA GPU的Linux服务器&#x…

2026/7/5 17:06:25 阅读更多 →
Meixiong Niannian画图引擎与算法结合:智能图片优化

Meixiong Niannian画图引擎与算法结合:智能图片优化

Meixiong Niannian画图引擎与算法结合:智能图片优化 1. 引言 你有没有遇到过这样的情况:精心生成的AI图片,放大后却发现细节模糊、边缘粗糙,或者色彩不够鲜艳?传统的图片优化方法往往需要手动调整参数,既…

2026/7/5 18:39:50 阅读更多 →
Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手

Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手

Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手 1. 项目简介 今天给大家分享一个超实用的本地AI助手部署方案,基于阿里通义千问官方的Qwen2.5-1.5B-Instruct轻量级大语言模型。这个项目最大的特点就是完全本地化运行,不需要联网…

2026/7/5 10:44:48 阅读更多 →

最新新闻

本科生AI论文写作工具:千笔AI核心功能与应用指南

本科生AI论文写作工具:千笔AI核心功能与应用指南

1. 为什么本科生需要专属AI论文工具?作为一名带过上百名本科生的论文指导老师,我见过太多学生在论文写作初期的痛苦挣扎。从选题迷茫到文献综述无从下手,从数据收集困难到格式调整崩溃,每一个环节都可能成为压垮学生的最后一根稻草…

2026/7/5 18:43:32 阅读更多 →
Windows远程桌面多用户破解终极方案:RDPWrap配置文件完全指南

Windows远程桌面多用户破解终极方案:RDPWrap配置文件完全指南

Windows远程桌面多用户破解终极方案:RDPWrap配置文件完全指南 【免费下载链接】rdpwrap.ini RDPWrap.ini for RDP Wrapper Library by StasM 项目地址: https://gitcode.com/GitHub_Trending/rd/rdpwrap.ini 还在为Windows系统更新后远程桌面多用户连接失效而…

2026/7/5 18:43:32 阅读更多 →
告别传统测试困境:Catch2现代化测试框架的进阶实战指南

告别传统测试困境:Catch2现代化测试框架的进阶实战指南

告别传统测试困境:Catch2现代化测试框架的进阶实战指南 【免费下载链接】Catch2 A modern, C-native, test framework for unit-tests, TDD and BDD - using C14, C17 and later (C11 support is in v2.x branch, and C03 on the Catch1.x branch) 项目地址: http…

2026/7/5 18:39:31 阅读更多 →
3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略

3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略

3步让电子阅读器变身漫画图书馆:Kindle Comic Converter使用全攻略 【免费下载链接】kcc KCC (a.k.a. Kindle Comic Converter) is a comic and manga converter for ebook readers. 项目地址: https://gitcode.com/gh_mirrors/kc/kcc 还在为电子阅读器上看漫…

2026/7/5 18:37:29 阅读更多 →
hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图

hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图

hexo-tag-aplayer从入门到精通:构建博客音乐系统的完整路线图 【免费下载链接】hexo-tag-aplayer Embed aplayer in Hexo posts/pages 项目地址: https://gitcode.com/gh_mirrors/he/hexo-tag-aplayer hexo-tag-aplayer是一款强大的Hexo标签插件,…

2026/7/5 18:35:29 阅读更多 →
网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案

网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案

网盘直链下载助手完整指南:一键获取八大网盘真实下载地址的终极解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中…

2026/7/5 18:33:28 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻