学术特供版Nano Banana来了!Google亲自下场,直接对齐NeurIPS审美
懂代码、懂审美的 AI 绘图天团专治科研人的画图焦虑。赶论文时最让人头大的不是算力也不是数据而是画图。虽然 AI 早就学会了补全代码、甚至自动设计实验但在赶 deadline 的时候绝大多数人还得打开 draw.io 或 visio 手动对齐像素。虽然市面上也有不少 Nano Banana Pro 辅助科研绘图的教程但这通常需要不断微调复杂的 Prompt靠抽卡来碰运气。Google Cloud AI Research 联合北大团队最新发布的 PaperBanana就是为了终结这种痛苦。论文链接https://arxiv.org/pdf/2601.23265项目主页https://dwzhu-pku.github.io/PaperBanana/GitHub链接https://github.com/dwzhu-pku/PaperBanana这是一套基于 Nano Banana Pro 构建的智能体框架。它不仅读得懂你的方法章节更能严格遵循 NeurIPS 的审美标准全自动生成发表级的方法架构图和统计图表。〓 图1. PaperBanana 生成的架构图、流程图及统计图表5 个智能体是如何分工的为什么通用的 Nano Banana Pro 很难直接画好学术图核心难点在于它不懂空间逻辑。学术架构图要求模块间的数据流向绝对严谨而生成模型天生擅长发散经常会出现幻觉——该连的线没连不该连的线乱连。PaperBanana 组建了一支由 5 个智能体构成的绘图团队模拟人类绘制学术插图的完整思维链。〓 图2. 五大智能体协同工作流从检索、规划、风格化、可视化到审查修正来看看这个绘图天团的配置检索Retriever解决无从下笔的难题。利用 RAG 技术从图库中检索结构相似的参考图为生成提供视觉灵感让布局有章可循。规划Planner核心大脑。它将不可控的像素生成任务降维成可控的结构化文本描述实现内容与样式的解耦。审美Stylist注入灵魂的一步。基于内置的 NeurIPS 审美指南强制对齐配色与排版拒绝 AI 霓虹感。绘图Visualizer采用混合渲染策略——架构图调用 Nano Banana Pro 生成而统计图直接生成 Matplotlib 代码确保数据绝对精准。为什么必须写代码看下图对比〓 图3. 统计图生成对比视觉生成左易含幻觉代码生成右精准还原左边是用 AI 直接画的虽然好看但容易出现数值幻觉右边是 AI 写代码画的朴素但绝对精准。审查Critic引入闭环反馈。模拟导师视角审查细节检查漏项或错连支持最多 3 轮自动迭代。顶会级审美很多 AI 生成的图没法直接用于投稿主要是因为审美风格不够学术——颜色太艳、背景太黑、特效太浮夸。研究团队从 5275 篇 NeurIPS 论文中筛选并分析了高质量样本总结出了一套详细的审美标准详见论文 Appendix F并将这套标准内置在审美智能体中。你不需要记住这些参数Agent 会全自动替你执行。 NeurIPS 2025 Aesthetic Guidelines (Lite)配色严禁高饱和霓虹色推荐科技柔和色如淡蓝 (#E6F3FF) 搭配柔和的橙色。背景必须保持纯白或极淡的灰严禁使用纯黑背景。几何推荐圆角矩形直角仅限矩阵表示。字体区分层级——数学变量用 LaTeX 风普通标签用 Sans-Serif。这种审美对齐有多管用看下图〓 图4. PaperBanana 与原始模型及人类绘图的视觉对比未经审美对齐的 Nano Banana Pro 虽然生成了基本的图表结构但在整体质感上显得较为粗糙缺乏专业学术图表应有的规范性。相比之下PaperBanana 的生成结果完美拿捏了 NeurIPS 顶会的视觉偏好拥有清晰的模块分区和柔和的学术配色甚至不输人类精绘的参考图。PaperBanana 还有一个杀手锏它支持风格润色模式即便你只画了一个简陋的草图它也能基于这套审美指南将其重绘为精美的矢量风格插图。〓 图5. 风格润色功能将人类绘制的草图自动优化为符合审美规范的插图它也能直接对现有的手绘示意图进行审美升级〓 图6. 利用审美指南将现有的人类手绘图转化为高质量的学术插图不仅要画得好看关键得画对为了客观评估生成质量团队构建了一个包含 292 个 NeurIPS 2025 真实案例的基准测试集 PaperBananaBench。〓 图6. 数据集统计涵盖 CV、NLP 等多个领域评测结果显示PaperBanana 在忠实度、简洁性、可读性和美观度上均全面优于基线模型。尤其是因为有审查智能体把关忠实度相比原始模型提升了 2.8%在简洁性上更是大幅提升了 37.2%有效解决了生成模型常有的视觉噪点问题。在人工评测中PaperBanana 生成的统计图在美观度上甚至微弱击败了原论文的人类作者。〓 表1. 主要实验结果PaperBanana 在 Faithfulness、Conciseness 等各项指标上均优于基线不过PaperBanana 目前也并非全能。它生成的架构图本质上仍是位图无法像 SVG 那样无损编辑。此外在处理极度复杂的网络拓扑时模型偶尔仍会出现连线冗余或节点匹配错误。〓 图8. 局限性展示极复杂场景下模型可能出现冗余连线或节点匹配错误结语据 GitHub 项目主页显示该项目的核心代码和数据集预计将在 2 周后正式开源。PaperBanana 的核心价值很简单把大家从低效的绘图劳动中解放出来。等代码放出后大家不妨试一试——毕竟把时间花在 idea 上总比花在对齐像素上划算。现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关新闻

YOLO X Layout效果对比:与LayoutParser、PubLayNet模型在中文文档上的mAP实测

YOLO X Layout效果对比:与LayoutParser、PubLayNet模型在中文文档上的mAP实测

YOLO X Layout效果对比:与LayoutParser、PubLayNet模型在中文文档上的mAP实测 1. 什么是YOLO X Layout?——专为中文文档设计的轻量版面分析工具 你有没有遇到过这样的问题:手头有一堆扫描版PDF或手机拍的合同、发票、论文截图,…

2026/7/4 12:22:52 阅读更多 →
抖音资源高效管理:从手动下载到智能批量获取的全流程解决方案

抖音资源高效管理:从手动下载到智能批量获取的全流程解决方案

抖音资源高效管理:从手动下载到智能批量获取的全流程解决方案 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 问题发现:内容收藏的效率困境 你是否遇到过这样的场景:在抖…

2026/7/4 16:22:58 阅读更多 →
商业航天爆发前夜:一场关于地面站“散热革命”的硬核观察

商业航天爆发前夜:一场关于地面站“散热革命”的硬核观察

摘要:随着商业航天产业的飞速发展,低轨卫星星座建设进入快车道。海量数据回传不仅仅是带宽的挑战,更是地面数据处理中心前所未有的“算力海啸”。本文从基础设施视角,探讨为何液冷技术将成为应对这一挑战的关键钥匙。在商业航天领…

2026/7/5 1:03:50 阅读更多 →

最新新闻

XUnity.AutoTranslator深度解析:Unity游戏自动翻译技术指南

XUnity.AutoTranslator深度解析:Unity游戏自动翻译技术指南

XUnity.AutoTranslator深度解析:Unity游戏自动翻译技术指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在全球化游戏体验日益重要的今天,语言障碍成为许多玩家面临的现实问题。…

2026/7/5 7:22:05 阅读更多 →
Python xhs库终极指南:5分钟上手小红书数据采集完整教程

Python xhs库终极指南:5分钟上手小红书数据采集完整教程

Python xhs库终极指南:5分钟上手小红书数据采集完整教程 【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 小红书作为中国最受欢迎的社交电商平台,每天…

2026/7/5 7:20:04 阅读更多 →
YOLOv11 改进 - SPPF模块   替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获

YOLOv11 改进 - SPPF模块 替代SPP,FFocal Modulation焦点调制:即插即用轻量设计优化全局语义捕获

前言 本文介绍了焦点调制网络(FocalNets)及其在YOLOv11中的结合应用。FocalNets完全用焦点调制模块替代自注意力,该模块由焦点上下文化、门控聚合和逐元素仿射变换组成,能有效建模视觉中的标记交互。它通过局部特征聚焦、全局信息…

2026/7/5 7:16:03 阅读更多 →
Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题

Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题

Windows Cleaner终极指南:免费开源工具一键解决C盘爆红和系统卡顿问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否经常遇到Windows系统C盘空…

2026/7/5 7:14:02 阅读更多 →
低成本工业控制器按键方案:74HC32与PIC32MZ实现多功能控制

低成本工业控制器按键方案:74HC32与PIC32MZ实现多功能控制

1. 项目背景与核心思路最近在工业控制器项目中遇到一个有趣的挑战:如何在有限的硬件资源下实现多功能控制?传统方案要么需要增加物理按键数量(导致面板臃肿),要么采用昂贵的编码器(成本飙升)。经…

2026/7/5 7:12:02 阅读更多 →
Brook:跨平台可编程网络工具,Star 1.5 万

Brook:跨平台可编程网络工具,Star 1.5 万

文章目录Brook:跨平台可编程网络工具,Star 1.5 万为什么这工具能拿到 1.5 万 Star?1. 跨平台适配彻底2. 长期维护,社区活跃可编程是核心卖点适合谁用?Brook:跨平台可编程网络工具,Star 1.5 万 …

2026/7/5 7:12:02 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻