这项由阿里巴巴集团和阿里巴巴Qwen团队联合开展的研究发表于2026年的arXiv预印本平台论文编号为arXiv:2602.13964v2。研究团队针对当前AI界最权威的评测基准人类最后的考试Humanitys Last Exam简称HLE进行了全面的错误检查和修正工作最终发布了经过验证的HLE-Verified版本。**一个让AI专家头疼的问题**你可能不知道现在评判AI有多聪明主要靠的是让它们做题——就像我们上学时的考试一样。其中有一套叫做人类最后的考试的题目被认为是目前最难、最权威的AI能力测试。这套题目涵盖数学、物理、化学、生物医学、计算机科学等多个领域每道题都非常有挑战性。但是问题来了。就像我们小时候发现教科书上偶尔也有印刷错误一样这套被奉为圭臬的AI考试题目也出现了不少问题。一些研究人员开始怀疑AI答错题目到底是因为它们真的不够聪明还是因为题目本身就有毛病这就好比你在餐厅点了一道菜发现味道很奇怪。你可能会想是我的口味有问题还是厨师做错了如果连菜谱都写错了那么即使是最好的厨师也做不出正宗的味道。**阿里团队的大扫除行动**面对这个问题阿里巴巴的研究团队决定来一次彻底的大扫除。他们要把原版考试的2500道题目逐一检查找出所有可能存在的错误然后进行修正。这就像是对一本厚厚的百科全书进行全面的校对工作。整个检查过程分为两个阶段就像医院的体检流程一样。第一阶段是初步筛查目的是找出那些完全没有问题的健康题目这些题目可以直接保留。第二阶段是深度治疗针对那些有问题但还能抢救的题目进行修复。研究团队把每道考试题分解成三个部分来检查题目描述相当于考试的问题部分、标准答案相当于参考答案、解题过程相当于详细的解答步骤。这样做的好处是可以精确定位问题出在哪个环节。**第一阶段找出完全健康的题目**在第一阶段研究团队采用了三种不同的检查方法。首先是邀请各个领域的专家来审查题目就像邀请不同科目的老师来检查试卷一样。这些专家会仔细查看每道题的题目描述、答案和解题过程判断是否存在问题。第二种方法是让多个先进的AI模型来解题。研究团队让8个不同的AI模型尝试回答同一道题目然后看看它们的答案是否与标准答案一致。如果大部分AI都给出了与标准答案不同的结果那这道题目就值得怀疑了。这就像是让多个学霸同时做一道题如果他们的答案都和参考答案不一样那很可能是参考答案有问题。第三种方法是内部专家的最终判定。研究团队的专家会综合前两种检查的结果做出保守的决定。只有当题目描述清晰、答案正确、且没有发现明显问题时题目才能进入黄金标准的队伍。经过第一阶段的严格筛选2500道题目中有641道被认定为完全没有问题可以直接使用。这些题目就像是经过严格质检的优质产品可以放心使用。**第二阶段抢救有问题的题目**对于那些在第一阶段被发现有问题但还有挽救价值的题目研究团队启动了第二阶段的抢救工作。这个阶段的核心原则是只修正错误不改变题目要考查的核心能力。就像修理一台坏了的钟表只修复损坏的部件不改变它的基本功能。修复工作采用了双重保险的方法。两个独立的专家团队分别对同一道题目提出修复方案然后再让内部专家从中选择最好的方案或者将两个方案结合起来。这就像是两个维修师傅独立检查同一台坏掉的机器然后选择最佳的修复方案。为了确保修复的质量研究团队还让AI模型参与到修复过程中。这些AI模型会尝试用不同的方法解决修复后的题目验证修复是否真的解决了原来的问题。经过第二阶段的努力又有1170道题目获得了重获新生。加上第一阶段的641道健康题目总共有1811道题目可以放心使用。**那些疑难杂症**然而还有689道题目让研究团队犯了难。这些题目的问题比较复杂要么涉及有争议的学术观点要么需要超出当前验证范围的专业知识要么存在多种合理的解释。研究团队没有简单地丢弃这些题目而是把它们标记为不确定状态并详细记录了每道题目存在的具体问题和需要的专业知识类型。这就像是医生遇到了罕见病例虽然暂时无法确诊但会详细记录症状和可能的病因为将来的研究留下宝贵资料。**错误类型大盘点**在整个检查过程中研究团队发现的错误类型可以分为三大类。题目描述方面的错误主要包括语义模糊题目表达不清楚、知识错误题目中的事实性内容有误、信息缺失解题所需的条件不完整、理论错误违反了该领域的基本原理和格式错误数学符号或专业术语使用不当。解题过程方面的错误则更加丰富包括推理步骤冗余、循环论证、违反事实、逻辑不一致、方法使用错误、过度自信、缺少前提条件、推理陷阱、多解法不一致以及格式问题等十种类型。答案方面的错误相对简单主要是答案不正确、答案不完整、答案表述模糊和格式错误四种类型。有趣的是研究团队发现不同学科领域的错误模式存在明显差异。数学和生物医学题目中答案错误是最主要的问题占到了错误的绝大部分。而在物理、人文社科等领域更多的问题是题目表述不够清晰存在多种理解方式。计算机科学领域的题目则经常出现格式和符号使用错误。**修复效果验证**为了验证修复工作的效果研究团队让七个目前最先进的AI模型分别在原版题目和修复版题目上进行测试。结果令人惊喜所有AI模型在修复版题目上的表现都有了显著提升。具体来说在完整的题目集上AI模型的准确率平均提高了7到10个百分点。而在那些原本存在题目描述错误或答案错误的题目上AI模型的准确率提升更是达到了30到40个百分点。这就像是给学生提供了正确的教科书后他们的考试成绩大幅提高了。更有意思的是研究团队还发现AI模型的自信心与题目质量之间存在密切关系。当遇到有问题的题目时AI模型往往表现得不够自信给出答案时显得犹豫不决。而在修复后的题目上AI模型的自信心明显增强这说明清晰准确的题目确实能帮助AI更好地发挥能力。**不同学科的改进情况**从学科角度来看物理和生物医学领域的题目在修复后改进最为明显。这两个领域原本的AI准确率相对较低但在修复后出现了大幅提升。相比之下化学和计算机科学领域的改进幅度较小但同样是积极的。这种差异反映了不同学科在题目质量方面的特点。有些学科的题目更容易出现事实性错误有些学科则更容易出现表述不清的问题。通过针对性的修复每个学科的评测质量都得到了相应的改善。**AI自信心的启示**研究中一个特别有趣的发现是AI模型的自信心可以作为识别问题题目的指标。当题目存在问题时AI模型在回答时往往不够自信这反映了题目本身的不确定性。在修复后的题目上AI模型的自信心普遍增强说明清晰准确的题目确实能让AI更好地发挥实力。这个发现有重要的实际意义。在未来的AI评测中研究人员可以关注AI模型的自信心表现以此来识别可能存在问题的题目。当多个AI模型都对某道题目表现出低自信心时这道题目就值得重新审视了。**对AI评测的深远影响**这项研究的意义远远超出了对一套考试题目的修正。它揭示了一个重要问题当我们用有缺陷的标准来评判AI时得出的结论可能是不准确的。就像用一把刻度不准的尺子来测量物体得到的数据自然也不可靠。研究结果显示AI在某些题目上的错误实际上可能反映的是题目本身的问题而不是AI能力的不足。这提醒我们在评判AI能力时需要确保评测标准本身是可靠和准确的。此外这项研究还为如何维护和改进AI评测基准提供了宝贵经验。研究团队建立的两阶段验证和修复流程、详细的错误分类体系以及保守的质量控制原则都可以为其他类似的评测基准改进工作提供参考。**未来展望**研究团队将修复后的HLE-Verified数据集完全开源供全球研究人员使用。他们还提供了详细的修复记录和错误分类信息让其他研究者能够了解每道题目的具体修改情况。对于那689道不确定状态的题目研究团队也没有放弃。他们为每道题目提供了详细的问题描述和所需的专业知识标签希望相关领域的专家能够在未来继续完善这些题目。这就像是为后续的研究者留下了详细的诊断报告。说到底这项研究告诉我们一个简单而重要的道理好的评测需要好的题目。就像厨师需要新鲜的食材一样准确评判AI能力也需要高质量的测试题目。通过系统性的验证和修复工作我们可以让AI评测变得更加公平、准确和可靠。这不仅有助于更好地了解当前AI的真实能力水平也为AI技术的进一步发展指明了方向。当评测标准变得更加准确时AI的发展也能更好地朝着正确的方向前进。研究团队的这次大扫除行动实际上是为整个AI研究社区做了一件非常有意义的基础工作。虽然这种工作可能不像开发新算法那样引人注目但它的价值是长远而深刻的。就像维护道路和桥梁一样维护评测基准也是保障AI研究健康发展的重要基础设施工作。对于普通人来说这项研究的意义在于让我们对AI能力的判断更加准确。当我们听到某个AI在权威测试中表现如何的消息时可以更加相信这些评价的可靠性。而对于AI开发者来说更准确的评测意味着他们可以更好地了解自己开发的AI系统的真实水平从而制定更合适的改进策略。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2602.13964v2在arXiv平台查询完整的研究论文其中包含了更详细的方法描述、实验数据和分析结果。QAQ1HLE-Verified是什么AHLE-Verified是阿里巴巴团队对AI界权威测试人类最后的考试进行全面错误检查和修正后的版本。原版2500道题目经过验证后有641道完全正确的题目1170道修复后的题目以及689道标记为不确定状态的题目。Q2为什么要对人类最后的考试进行修正A因为研究人员发现原版考试中存在不少错误包括题目描述不清、答案错误、解题过程有问题等。这些错误会影响对AI能力的准确评判就像用有刻度错误的尺子测量物体一样不可靠。Q3修正后AI模型的表现有什么变化A所有测试的AI模型在修正版题目上表现都显著提升整体准确率平均提高7-10个百分点在那些原本有错误的题目上准确率更是提高了30-40个百分点同时AI模型的自信心也明显增强。