ICLR 2026 字节发布|当我们已经习惯用大模型读文献、写论文,翻译还是个难题吗? | 前沿在线
ICLR 2026 字节重磅DiscoX 篇章级评测 Metric-S 可解释评估破解大模型专业翻译痛点中英互译不对称新发现引学界关注编辑前沿在线 编辑部2017 年《Attention Is All You Need》发表Transformer 架构由此登上历史舞台。为验证模型的有效性论文选取了两个机器翻译任务作为核心实验WMT 2014 English–German 与 English–French 翻译任务。在 BLEU 指标上模型分别取得 28.4 和 41.8 的成绩显著超越当时的主流方法刷新了 SOTA。也正是从那时起翻译任务始终伴随着大模型的发展持续见证着模型能力的跃迁。十年过去在以真实使用场景为导向的 WMT 2024 general task 中SOTA 模型在部分任务上的最高得分已超过 95 分。与此同时BLEU 等传统指标也逐渐向更精细、更加关注语义一致性与整体质量的评测体系过渡。另一方面arXiv 新增要求所有论文必须以英文提交ICLR 的投稿规则中也添加了对大模型使用情况的披露要求。无论是阅读文献还是撰写论文非英文母语者几乎都无法绕开翻译这一环节。但是大模型翻译真的可靠吗学术翻译能够做到无需review直接发表吗在刚刚放榜的ICLR 2026上一项来自工业界的研究给出了并不那么乐观的答案。尽管大模型在短句与日常翻译中已基本实现无需人工校对可直接使用。但针对专业领域、长篇文本大模型给出的译文依然无法被称之为可靠。DiscoXDiscourse and Expert-level Translation Task来自字节跳动的研究团队提出了DiscoX Benchmark。不同于以往聚焦句子级翻译的评测方式DiscoX 面向篇章级翻译任务构建了 200 篇中英双语长文本平均长度超过 1500 词主要覆盖专业内容包括学术论文文学作品行业与垂类研究报告实验结果显示当前主流大模型在以下方面仍存在显著短板长文本语义一致性术语在全文中的前后一致性不足上下文记忆与信息对齐能力跨段落的逻辑关联容易断裂复杂语义与专业表达的稳定处理能力除 DiscoX Benchmark 外研究团队还提出了一套新的翻译评估体系 Metric-S专门用于衡量大模型在长文本翻译场景下的文本质量。其核心动机在于传统翻译指标正在逐渐失去对长文本任务的判别力。传统翻译指标为什么开始失效1. 过度依赖标答Reference-based无论是早期的 BLEU 系列指标还是近年来的 COMET 等神经网络指标本质上都依赖于与标准译文的相似度对比。但在 1500 词级别的长文本中几乎不存在唯一正确的译文。句式选择、信息组织方式以及逻辑结构的不同都会引入高度不确定性使得 reference-based 评估在这一场景下难以成立。2. 评估维度过于单一传统评测体系多源自短句翻译任务关注重点主要准确性词义是否准确语法是否正确而在长文本翻译中还必须额外关注段落之间的逻辑是否连贯译文整体风格是否统一文化负载词与语境是否处理得当这些因素在句子级评估中影响有限却直接决定了长文本译文是否真正可读、可用。Metric-S模拟专家人评的评估体系针对上述问题研究团队提出了Metric-S。该方法并非简单地将传统指标从句子层面扩展到篇章层面而是回溯人工专家的评审流程采用LLM-as-Judge Agent 的方式模拟真实的人类评审逻辑。以 MQMMultidimensional Quality Metrics为参考人工评审通常采用扣分制流程先识别错误类型再判断错误严重程度不同等级对应不同的扣分权重Metric-S在复刻人评评估思路的基础上也将评估维度从单一的准确度拓展至三维度评估。评估采取百分制针对各要素对译文质量的影响程度分别占比60%Accuracy20%Fluency20%Appropriateness。Accuracy准确性是否忠实还原原文含义Fluency流畅度译文是否自然、连贯逻辑通顺Appropriateness得体性风格、文化与语境是否匹配其中后两项正是传统指标长期忽视却对长文本翻译质量至关重要的维度。从黑盒打分走向可解释评估Metric-S 还解决了以往翻译评估结果不可回溯、不可解释的问题。传统打分大多仅给出评估得分对于优化迭代模型却缺乏具体指导意义。Metric-S 的输出采用「问题类型 问题解释」的结构清晰呈现评审模型的判断依据与推理路径系统性地分析了模型在各维度上的具体表现特征为模型诊断与优化提供了直接依据。大模型到底差在哪从评估结果来看部分模型即便总分接近不同模型在各个维度上的表现差异依然明显。有的模型采取直译策略仅关注准确性也有模型采取意译策略以读者为导向而大篇幅省略或修改原文意象满分100分准确度60分流畅性20分得体性20分Claude 4准确性得分 39/60 分在准确度维度位列所有模型第三但在流畅度及风格、文化处理方面分数极低流畅度 5.98/20分得体性 8.68/20分DeepSeek-V3流畅度16.20/20分在所有模型中排名第一但准确性仅 22.8/60 分显著低于总分接近的其他模型这表明不同模型在翻译任务中采取了不同的生成策略也暴露了各自的能力短板。此外本次研究还对比了中英互译两类语言对。研究发现当中文作为目标语言时所有模型的翻译质量都会出现不同程度的下降。这填补了之前翻译评估以英文作为中心语言的空缺暴露出模型在中英语言对翻译的不对称性。研究推测对模型训练而言高质量的中文语料库远少于英文且中文语法结构复杂表达自由度高对于模型输出而言仍然构成挑战。当大模型进入翻译生产领域不再局限于词典的定位而是真正迈向长篇幅专业文本任务距离可用、可信、可靠仍道阻且长。作者介绍赵玺英(Allen Zhao)字节跳动豆包大模型评测产品经理。研究方向为通用模型评测系统(General Model Evals System)。前AI行业PE/VC投资人投资领域涵盖早期CV、NLP、自动驾驶到如今的AI算力芯片、大模型、AI应用与具身智能等前沿领域。具备学术与实践相结合的复合背景以及宏观行业趋势判断和微观模型产品洞察的独特视角。arxiv链接https://arxiv.org/abs/2511.10984宣传网站链接https://randomtutu.github.io/DiscoX/- END -

相关新闻

音频模块总结

音频模块总结

2026/7/4 11:41:04 阅读更多 →
给APP添加模拟点击功能+手电筒功能+经纬度+手机投屏功能

给APP添加模拟点击功能+手电筒功能+经纬度+手机投屏功能

我已经说完了 先分析放松人群有没有必要这些功能 手电筒。。。有用,因为我也用 这三个功能我都用了,所以肯定都会用到。 另外我想做一个免费的WiFi,然后在WiFi里面投放广告,然后用一个放大器,把他的范围扩大到附近…

2026/7/3 7:46:26 阅读更多 →
赛脉笛借助订单日记实现降本增效双突破

赛脉笛借助订单日记实现降本增效双突破

一、客户背景 赛脉笛生物医学(苏州)有限公司,成立于2019年,位于江苏省苏州市张家港市,是一家以从事生产、销售智能设备、自动化设备、医疗器械等产品为主的企业。 在业务不断壮大的过程中,面临生产效率低、…

2026/7/3 14:45:19 阅读更多 →

最新新闻

PIC18F85J50与UG95 LTE模块的嵌入式通信方案解析

PIC18F85J50与UG95 LTE模块的嵌入式通信方案解析

1. 项目背景与核心价值在嵌入式系统开发领域,地理位置的限制常常成为项目实施的瓶颈。传统方案要么依赖昂贵的卫星通信模块,要么受制于特定运营商的网络覆盖。而UG95(Quectel UG95) LTE Cat 1模块与PIC18F85J50微控制器的组合&…

2026/7/4 11:40:40 阅读更多 →
2026年渗透测试工程师面试指南:15道核心题目深度解析与实战技巧

2026年渗透测试工程师面试指南:15道核心题目深度解析与实战技巧

1. 项目概述:一份来自实战的面试通关指南 又到了招聘季,看着身边不少朋友和团队里的新人开始为面试奔波,我总想起自己当年在会议室里被连环追问的场景。对于“渗透测试工程师”这个岗位来说,面试从来不只是考察你会不会用几个工具…

2026/7/4 11:38:40 阅读更多 →
如何用kill-doc一站式免费下载全网文档:突破性文档获取方案

如何用kill-doc一站式免费下载全网文档:突破性文档获取方案

如何用kill-doc一站式免费下载全网文档:突破性文档获取方案 【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档,但是相关网站浏览体验不好各种广告,各种登录验证,需要很多步骤才能下载文档,该脚本就是…

2026/7/4 11:36:40 阅读更多 →
AI编程工具实战:从环境配置到企业级项目开发全流程指南

AI编程工具实战:从环境配置到企业级项目开发全流程指南

这类工具最值得先看的不是功能列表,而是能不能在普通开发环境里稳定跑起来,以及它到底能帮你解决什么具体问题。Vibe Coding、Claude Code、Codex、Cursor,这些名字听起来可能有点眼花缭乱,但核心目标其实很明确:它们都…

2026/7/4 11:36:40 阅读更多 →
SQL注入登录绕过实战:原理剖析与靶场攻防演练

SQL注入登录绕过实战:原理剖析与靶场攻防演练

1. 项目概述:一次典型的登录绕过实战剖析 最近在墨者学院的靶场里,我花了不少时间研究那个经典的“SQL注入漏洞测试(登录绕过)”关卡。这其实是一个教科书级别的场景,模拟了无数真实网站后台登录验证的逻辑。简单来说,就是你面对一…

2026/7/4 11:32:39 阅读更多 →
为什么不能轻信‘顶尖大学强化学习课程’类引流内容?

为什么不能轻信‘顶尖大学强化学习课程’类引流内容?

我不能按照您的要求生成关于“Learn Reinforcement Learning from Top Universities”相关内容的博文。 原因如下: 该输入内容本质是一则 Medium平台(Towards AI专栏)的引流式文章预告页片段 ,并非真实、完整的项目资料。它仅…

2026/7/4 11:32:39 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻