【ICLR26-Oral Paper-马普所】AnyUp:通用特征上采样
文章AnyUp: Universal Feature Upsampling代码https://github.com/wimmerth/anyup单位马克斯·普朗克信息学研究所、苏黎世联邦理工学院、谷歌、慕尼黑工业大学一、问题背景视觉特征上采样的核心需求是把低分辨率特征图精准放大到高分辨率同时保留原特征的语义和细节信息适配各类下游视觉任务。但在此之前主流的两类方法都各有致命问题传统无学习方法如双线性插值、最近邻插值虽能适配任意特征模型、任意分辨率却会让放大后的特征图过度模糊丢失大量细节导致下游任务效果大打折扣现有有学习方法如FeatUp、LoftUp、JAFAR虽提升了上采样质量但模型绑定性极强换一个特征提取模型就需要重新训练不仅耗费大量算力对最新的大视觉模型而言重新训练甚至难以实现。同时部分方法还受限于固定的放大比例、特定的下游任务灵活性极差。简单来说此前的方法要么“通用但效果差”要么“效果好但不通用”行业急需一个能兼顾通用性、高质量、高灵活性的特征上采样方法。二、方法创新为了解决上述痛点研究团队提出了AnyUp通用特征上采样模型核心实现了一次训练全场景适配其创新点主要集中在四个核心设计从底层架构到训练策略全方位优化特征无关层这是AnyUp实现“万能适配”的核心能将任意模型、任意维度的输入特征转换成统一的规范格式处理从根源上解决了传统方法需要绑定特定特征提取模型的问题局部窗口注意力机制摒弃了传统的全局注意力让模型仅关注每个像素周围的局部区域避免放大时参考图片中无关的远区域信息既提升了上采样的精准度又降低了计算量让模型更高效基于图片局部裁剪的训练策略无需在超大分辨率图片上做训练既慢又费算力而是随机截取图片的局部区域进行训练大幅提升训练效率和内存利用率同时保证训练效果双重一致性正则化训练时加入自一致性和输入一致性正则化不仅让模型对噪声和图像增强更鲁棒还能最大程度保留原特征的空间分布避免语义信息失真。整体而言AnyUp的架构轻量、参数少既保留了有学习方法的高上采样质量又具备了无学习方法的全场景通用性。三、实验结果研究团队在ImageNet数据集上训练AnyUp并在语义分割、深度估计、表面法向量估计等多个主流视觉任务上做了全面测试对比了双线性插值、FeatUp、LoftUp、JAFAR等主流方法结果表现亮眼下游任务效果领先在COCO、ADE20k、PASCAL VOC等数据集的语义分割任务中AnyUp的mIoU和像素准确率均为最优在NYUv2等数据集的深度、表面法向量估计中误差更低、预测准确率更高细节保留更完整任意分辨率放大表现优异无论调整输入特征的分辨率和目标放大比例AnyUp在各比例下的表现均碾压或持平其他方法完全摆脱了固定放大比例的限制特征分布保留最佳用低分辨率特征训练的任务模型直接用到AnyUp放大的高分辨率特征上无需微调即可高效运行而其他方法要么效果暴跌要么完全无法适配泛化能力超强用DINOv2训练的AnyUp直接迁移到SigLIP 2、DINOv3、ResNet等从未训练过的特征模型上效果居然和专门用这些模型训练的其他方法持平甚至更优真正实现了跨模型的零成本适配。同时可视化结果显示AnyUp放大后的特征图边缘更锐利、细节更丰富无过度平滑、特征偏移等问题而其他方法均存在不同程度的失真。四、优势与局限核心优势全维度通用适配任意特征提取模型、任意输入输出分辨率、任意下游视觉任务一次训练即可全场景使用大幅降低算力和开发成本高上采样质量相比传统方法保留更多特征细节和语义信息相比现有有学习方法下游任务效果更优高效易用模型轻量训练效率高单张NVIDIA H100 GPU仅需5小时且作者已公开代码和预训练权重可直接开箱即用特征保留性好最大程度维持原特征的空间分布和语义信息无需对下游任务模型做微调适配成本极低。现存局限暂未结合特征去噪功能无法处理特征图中的位置编码伪影不过该功能可后续简单集成到AnyUp的流程中其核心放大逻辑是通过低分辨率特征的线性组合生成高分辨率特征若想提取更精细的子像素级信息需要设计更复杂的模型架构。五、一句话总结AnyUp作为首个推理时特征无关的通用视觉特征上采样模型通过特征无关层、局部窗口注意力等创新设计实现了任意特征、任意分辨率、任意任务的全场景适配既保证了顶尖的上采样质量和特征保留能力又具备轻量高效、开箱即用的特性为各类需要高分辨率视觉特征的计算机视觉任务提供了全新的通用解决方案。

相关新闻

新手友好:Qwen3-ASR语音识别系统搭建与调用教程

新手友好:Qwen3-ASR语音识别系统搭建与调用教程

新手友好:Qwen3-ASR语音识别系统搭建与调用教程 1. 你能学会什么:零基础也能跑通多语言语音识别 1.1 这不是“理论课”,是能马上用的实操指南 你不需要懂模型结构、不用调参、不碰CUDA编译——只要有一台带NVIDIA GPU的Linux服务器&#x…

2026/7/5 17:06:25 阅读更多 →
Meixiong Niannian画图引擎与算法结合:智能图片优化

Meixiong Niannian画图引擎与算法结合:智能图片优化

Meixiong Niannian画图引擎与算法结合:智能图片优化 1. 引言 你有没有遇到过这样的情况:精心生成的AI图片,放大后却发现细节模糊、边缘粗糙,或者色彩不够鲜艳?传统的图片优化方法往往需要手动调整参数,既…

2026/7/5 18:39:50 阅读更多 →
Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手

Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手

Qwen2.5-1.5B部署教程:10分钟在RTX3060上跑起全本地智能助手 1. 项目简介 今天给大家分享一个超实用的本地AI助手部署方案,基于阿里通义千问官方的Qwen2.5-1.5B-Instruct轻量级大语言模型。这个项目最大的特点就是完全本地化运行,不需要联网…

2026/7/5 10:44:48 阅读更多 →

最新新闻

AI智能伴侣开发实战:从零构建你的专属聊天机器人

AI智能伴侣开发实战:从零构建你的专属聊天机器人

一、引言:当AI走进生活 在2026年的今天,人工智能早已不再是科幻电影中的遥远概念。从ChatGPT到DeepSeek,从Gemini到Qwen,大语言模型正以前所未有的速度改变着我们与计算机交互的方式。然而,对于大多数开发者而言&…

2026/7/6 2:59:57 阅读更多 →
避开 Playwright 常见陷阱,让你的 UI 测试更快更稳

避开 Playwright 常见陷阱,让你的 UI 测试更快更稳

做UI自动化测试的朋友应该都有过这种体验——本地跑得好好的,一上CI就挂;周一全绿,周二莫名其妙红一片;加了sleep能过,不加就报元素找不到。 如果你也遇到过这些情况,别急着怀疑是自己的代码写得不够好。很…

2026/7/6 2:57:57 阅读更多 →
AI Agent Skills:从代码补全到智能开发的效率革命

AI Agent Skills:从代码补全到智能开发的效率革命

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 如果你还在用 AI 编程助手只是让它帮你补全代码行,那你可能只发挥了它 10% 的潜力。真正的效率革命,发生在你教…

2026/7/6 2:57:57 阅读更多 →
SONiC 2024 容器化架构解析:10个核心Docker容器如何驱动网络转发

SONiC 2024 容器化架构解析:10个核心Docker容器如何驱动网络转发

SONiC 2024容器化架构深度解析:10个核心容器如何构建下一代云网络1. 现代网络操作系统的容器化革命当微软在2016年首次开源SONiC项目时,很少有人能预料到这个基于Linux的网络操作系统会彻底改变数据中心网络的构建方式。八年后的今天,SONiC已…

2026/7/6 2:55:56 阅读更多 →
QooBot:全栈开源的仿生人操作系统——软硬一体,自由制造

QooBot:全栈开源的仿生人操作系统——软硬一体,自由制造

QooBot:全栈开源的仿生人操作系统——软硬一体,自由制造 摘要:QooBot 是一个面向仿生人的开源全栈生态,涵盖从机械图纸、电路设计到操作系统、AI 算法的完整技术栈。本文从架构全景、大脑核心、推理引擎、开发者生态等维度全面解读…

2026/7/6 2:53:55 阅读更多 →
可变级数LC无源自均压海量级联多电平拓扑机理研究——代替传统LCC/MMC的新一代特高压直流逆变架构

可变级数LC无源自均压海量级联多电平拓扑机理研究——代替传统LCC/MMC的新一代特高压直流逆变架构

可变级数LC无源自均压海量级联多电平拓扑机理研究——取代传统LCC/MMC的新一代特高压直流逆变架构 ----------作者:杨连江 摘要 针对我国特高压直流输电现有两大技术体系(LCC电网换相直流、MMC柔性直流)存在的底层机理缺陷,本文提…

2026/7/6 2:53:55 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻