科研NanoBanana来了!谷歌PaperBanana替你搞定学术插图
北京大学与谷歌云AI研究团队联合推出了PaperBanana。五大智能体联手让AI画出NeurIPS级别的图表。PaperBanana给每位AI科学家配备了一个专属的设计团队学术插图将不再依赖人工手绘。它通过检索、规划、风格设计、绘图和自我修正五个步骤能够将枯燥的论文方法描述和标题转化为达到出版标准的精美图表。五个智能体分工协作现在的自主AI科学家已经能够独立阅读文献、构思创意甚至执行代码实验。但这些AI科学家对绘制学术插图仍然束手无策。学术插图的生成长期以来都是科研工作流中的瓶颈它要求内容的准确性还要求极高的审美标准。PaperBanana框架模拟了人类的设计工作室构建了一个由五个专业智能体组成的协作团队。这个团队的第一位成员是检索器Retriever Agent。当用户输入一段关于方法的文本描述和图表标题时检索器去翻阅参考图库。像一位经验丰富的图书管理员在庞大的数据库中寻找与当前任务最相似的参考案例。利用视觉语言大模型VLM的推理能力根据研究领域比如是讲Agent的还是讲视觉的以及图表类型是流程图还是架构图来筛选候选者。检索器会看视觉结构的相似性找出最相关的若干个例子作为后续工作的灵感来源。有了参考案例后规划师Planner Agent随即登场。规划师是整个系统的认知核心它接收源文本、意图以及检索器找来的参考图。通过从参考案例中进行上下文学习规划师将原本非结构化的长文本描述转化为一份详尽的、结构化的绘图计划。这一步非常关键因为它解决了从抽象概念到具体视觉元素转化的逻辑断层问题。规划师不会直接画图而是生成一份详细的文本描述告诉后面的团队这张图里应该有哪些模块模块之间的数据流向是怎样的箭头该怎么指。紧接着是造型师Stylist Agent。很多时候AI生成的图片之所以看起来不像学术插图是因为缺乏那种严谨、冷峻的学术风。造型师的作用就是担任设计顾问。由于很难用一句话定义什么是学术风格造型师会遍历整个参考图库自动总结出一份美学指南。这份指南涵盖了配色方案、形状容器、线条箭头样式、布局结构以及字体图标等关键维度。造型师拿着这份指南对规划师生成的描述进行润色和修饰确保最终生成的图在视觉上符合现代学术出版物的审美标准。第四位成员是视觉化师Visualizer Agent。它拿着经过造型师优化过的描述调用最先进的图像生成模型将文字转化为像素。在这个阶段文字描述变成了可视化的初稿。对于方法论图表它主要依赖图像生成模型而对于需要精确数值的统计图表它则会变身为程序员编写Python代码来绘制图表。最后一位也是最关键的一位成员是批评家Critic Agent。在初稿生成后批评家会介入。它拿着生成的图片和最原始的输入文本进行比对检查是否存在事实性错误、视觉故障或者遗漏的信息。批评家会生成具体的反馈意见并修改绘图描述。这个修改后的描述会再次交回给视觉化师进行重绘。这个“生成-批评-修正”的循环通常会进行三轮通过不断的自我反思和迭代消除幻觉修正细节直到产出一张高质量的学术插图。就像人类设计师不断修改草稿的过程极大地提高了最终成品的质量。严谨的绘图评估基准在学术插图生成这个新兴领域缺乏高质量的评估基准。研究团队构建了PaperBananaBench这是一个专门针对方法论图表生成的综合基准测试集。这个数据集的来源非常硬核全部取材于NeurIPS 2025的顶级会议论文。研究人员通过工具从这些论文中提取了方法论部分的文本描述以及对应的图表和标题确保了数据的真实性和高难度。数据的清洗过程相当讲究。原始抓取的几千篇论文中并非每一篇都适合作为测试用例。研究团队首先剔除了那些没有方法论图表的论文。随后他们对图表的长宽比进行了严格的筛选只保留长宽比在1.5到2.5之间的图片。这么做的原因很有趣因为方法论图表通常需要较宽的横向布局来展示逻辑流长宽比太小会显得拥挤而长宽比过大又会超出当前图像生成模型的能力范围。如果将这些极端比例的图包含进来在进行人机对比评估时很容易通过图片形状就暴露出哪张是人类画的从而引入评估偏差。为了更精细地分析生成能力研究团队还将收集到的图表分为了四个类别智能体与推理、视觉与感知、生成与学习、以及科学与应用。这种分类有助于观察模型在面对不同领域知识时的表现差异。最后经过人工的严格筛选和校验留下了584个高质量样本其中292个作为测试集另外292个作为参考集用于给检索器提供上下文学习的素材。这个基准测试集的建立为后续评估自动化绘图工具的性能提供了坚实的数据基础。评估图表的质量是一件非常主观的事情传统的指标在这里完全失效。研究团队采用了基于视觉语言大模型VLM作为裁判的评估方法。考虑到人类评估既昂贵又不可扩展他们验证了使用Gemini-3-Pro作为裁判的可靠性。评估分为四个维度忠实度、简洁性、可读性和美观度。忠实度考察生成的图是否准确反映了文本内容简洁性要求去除视觉杂乱突出核心信息可读性关注布局是否合理、文字是否清晰美观度则衡量是否符合学术规范。在评分时裁判模型会同时看到模型生成的图和人类绘制的原图并根据文本描述判断哪一张更好。这种基于参考的比较方法比单纯的打分更具鲁棒性。为了验证这种机器裁判的有效性研究人员进行了严谨的一致性测试。结果显示Gemini-3-Pro的评判结果与人类专家的评判具有很高的相关性这证明了用VLM来当裁判是可行的。这种自动化的评估流程使得大规模、标准化的图表质量测试成为可能也为未来的研究指明了评估方向。多项指标上超越现有基线研究团队在PaperBananaBench上进行了广泛的实验对比了PaperBanana与多种基线方法的表现。基线包括直接提示图像生成模型Vanilla、在提示中加入少样本示例Few-shot以及之前的相关工作Paper2Any。PaperBanana在所有评估维度上都显著优于基线模型。在忠实度上提升了2.8%在简洁性上更是大幅提升了37.2%可读性提升了12.9%美观度提升了6.6%。综合总分提升了17.0%。普通的图像生成模型如果不加引导往往会生成视觉上过于繁复、充满幻觉的图像或者文字渲染一塌糊涂。而PaperBanana通过造型师的风格约束和批评家的迭代修正能够精准地控制生成内容的细节。特别是简洁性的大幅提升说明造型师和批评家非常善于砍掉那些不必要的装饰让图表回归到“展示事实”这一核心原则上来。消融实验进一步揭示了每个智能体的贡献。当移除检索器时模型因为缺乏参考生成的描述变得冗长且缺乏重点导致简洁性和美观度大幅下降。当移除造型师和批评家时虽然忠实度可能稍微保持但简洁性和美观度都会受损。造型师的介入虽然极大地提升了美感但有时会因为过度追求极简而丢失少量细节信息这时候批评家的作用就显现出来了它能够在后续的迭代中把丢失的关键信息补回来在美观和忠实之间找到平衡点。PaperBanana在生成统计图表方面也表现出色。与方法论图表不同统计图表对数值的精确性要求极高哪怕一个数据点的偏差都是不可接受的。因此在处理统计图表时视觉化师不再依赖图像生成模型而是转而生成可执行的Python Matplotlib代码。实验显示这种策略在保持高美观度的同时极大地保证了数据的忠实度。相比之下直接用图像模型生成统计图虽然看起来很像那么回事但在数据密集的情况下容易出现数值幻觉或元素重复的问题。PaperBanana这种根据任务类型灵活切换“绘图”与“写代码”模式的能力展现了其强大的适应性。更有意思的是PaperBanana不仅能从零生成图表还能帮人类改图。研究人员尝试让PaperBanana根据其总结的美学指南对人类绘制的现有图表提出修改建议并重新绘制。结果发现经过PaperBanana润色后的图表在美观度上往往能战胜人类的原作。表明该框架中蕴含的设计知识已经达到甚至超过了一般科研人员的平均设计水平它不仅是一个生成工具更是一个潜在的图表美化助手。当然PaperBanana目前生成的结果本质上是光栅图像像素图而不是科研界更偏爱的矢量图。如果你放大看可能会看到像素锯齿而且后期编辑起来非常困难不像矢量图那样可以随意拖动节点。在处理极其细微的连接关系时比如箭头到底是连在这个框的左边还是下边它偶尔还是会犯迷糊这些细微的结构性错误有时候连批评家也没能揪出来。未来的研究方向可能会集中在生成可编辑的矢量图形以及进一步提升模型对细粒度视觉结构的感知能力上。参考资料https://dwzhu-pku.github.io/PaperBanana/https://arxiv.org/pdf/2601.23265https://github.com/dwzhu-pku/PaperBanana

相关新闻

实测才敢推!降AI率工具 千笔·专业降AI率智能体 VS speedai 继续教育首选

实测才敢推!降AI率工具 千笔·专业降AI率智能体 VS speedai 继续教育首选

在AI技术迅猛发展的今天,越来越多的学生和研究者开始借助AI工具提升论文写作效率。然而,随之而来的AI率超标问题却让不少人陷入困境——查重系统不断升级,对AI生成内容的识别愈发严格,稍有不慎就可能影响论文通过甚至学位获取。面…

2026/7/5 0:47:20 阅读更多 →
Java教练培训:排课系统源码开发指南

Java教练培训:排课系统源码开发指南

以下是一份基于Java的教练培训排课系统源码开发指南,涵盖系统架构、核心模块、关键算法和数据库设计等关键方面:一、系统架构设计分层架构:表现层:使用Vue.js Element Plus构建教练/学员管理后台,支持多角色权限控制。…

2026/7/3 13:34:18 阅读更多 →
Java教练培训排课系统源码全攻略

Java教练培训排课系统源码全攻略

以下是一份Java教练培训排课系统源码设计的全攻略,涵盖架构设计、核心功能、关键代码实现及数据库设计等方面:一、系统架构设计分层架构:采用经典的MVC模式,结合Spring Boot框架,将系统划分为视图层(View&a…

2026/7/5 0:28:49 阅读更多 →

最新新闻

基于WebGPU与WASM的本地AI图像修复与超分工具Inpaint-Web部署与实战

基于WebGPU与WASM的本地AI图像修复与超分工具Inpaint-Web部署与实战

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 在实际图像处理工作中,我们经常遇到两类棘手问题:一是从网络获取的图片分辨率过低,放大后细节模糊…

2026/7/5 6:57:59 阅读更多 →
Python图像隐写术:用位操作实现LSB信息隐藏

Python图像隐写术:用位操作实现LSB信息隐藏

1. 项目概述:用Python的“像素画笔”藏匿秘密如果你对编程感兴趣,尤其是用Python处理过图片,那你一定知道PIL或Pillow库,它们能让你轻松地读取像素、修改颜色。但你是否想过,一张看似普通的风景照、一张可爱的表情包&a…

2026/7/5 6:55:58 阅读更多 →
3个痛点,1个方案:Wand-Enhancer如何彻底改变你的游戏修改体验

3个痛点,1个方案:Wand-Enhancer如何彻底改变你的游戏修改体验

3个痛点,1个方案:Wand-Enhancer如何彻底改变你的游戏修改体验 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否曾经为游戏修…

2026/7/5 6:53:58 阅读更多 →
WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案

WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案

WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为《魔兽…

2026/7/5 6:49:57 阅读更多 →
AI安全实战:从红蓝对抗到紫队协同的范式演进与落地实践

AI安全实战:从红蓝对抗到紫队协同的范式演进与落地实践

1. 项目概述:从对抗到协同的范式演进最近几年,AI安全从一个技术话题,迅速演变成了一个关乎业务存续的战略议题。无论是模型被投毒导致推荐系统失灵,还是API被滥用造成巨额算力损失,甚至是生成式AI输出有害内容引发的公…

2026/7/5 6:47:57 阅读更多 →
2025年AI智能体开发实战:从核心概念到零基础搭建指南

2025年AI智能体开发实战:从核心概念到零基础搭建指南

1. 从“大模型”到“智能体”:为什么2025年你必须懂这个?如果你在2025年还只是把AI当成一个聊天机器人或者一个画图工具,那你可能已经落后了。过去两年,整个AI领域最核心的演进方向,已经从“大模型”本身,转…

2026/7/5 6:47:57 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻