博亚(中国)一站式服务官方网站 AI编程参加下半场! 新基准意外补丁, 拷问着实的工程才调

发布日期：2026-05-25 01:25 来源：未知作者：admin 浏览次数：

博亚(中国)一站式服务官方网站 AI编程参加下半场! 新基准意外补丁，拷问着实的工程才调

新智元报谈

九游体育中国体育服务中心

[新智元导读]AI写代码已从补丁阶段参加全经过工程评估，SWEAtlas初次系统评测代码强健、测试编写与重构等中枢才调。恶果炫耀，尽管GPT-5.4等模子能完成基础功能，但在代码健康、鸿沟掩饰和跨文献配合上仍有彰着不及。

当全宇宙都在用SWE-Bench类基准为编程智能体封神时，ScaleAI抛出了一颗深水炸弹：SWEAtlas。

在这套由资深工程师手写的284谈考题里，前沿模子集体掉档，Pass@1最高仅43.49%，作念三次能全对的比例骤降30~50%。

更扎心的是，模子们写代码修bug的才调一骑绝尘，但在代码强健、测试编写、重构这些专科工程师着实在作念的事情上，简直全员翻车。论文戳穿了一个浮躁真相：面前最强的AI编程智能体，是优秀的补丁工，却仍然是厄运的工程师。

往时两年，AI写代码的叙事被反复刷新，OpenHands、Agentless、SWE-Bench、SWE-BenchPro、TerminalBench……每一次榜单更新，都伴跟着新一轮AI替代才调员的喧嚣。

但你有莫得想过一个问题：统统这些基准，简直都在作念统一件事，修bug和加feature。

而确凿宇宙里的软件工程，远远不啻这两件事。一位工程师着实的泛泛，是阅读生分代码库、为新功能写测试、对历史代码作念重构、回话队友的架构问题、debug一个只在分娩环境复现的启动时非常……这些上游和卑鄙的才调，简直被统统主流benchmark集体无视。

ScaleAI团队近期发布的SWEAtlas恰是要把这块评测盲区补上。

修bug不等于会工程

论文一开篇就给出了一个尖锐的判断：

把软件工程等同于功能建设，会制造一个要津盲区。专科的软件工程，是预防代码健康、防患改日回想、强健复杂架构，而这些才调在现存基准中简直都莫得被有用评估。

征询团队进一步指出，过度专注于功能处置，会让Agent被训炼就excellentpatchers（优秀的补丁工），却是poorengineers（厄运的工程师），能修bug能加功能，但写不出可预防的代码、留不住一个仓库的恒久健康。

为此，SWEAtlas聘任了三个被严重低估、却在任业开采中无处不在的职责流：

一齐284谈任务，由资深工程师手写，取材自18个活跃预防的开源仓库。

图1：SWEAtlas一览。左：三大职责流及子类见解任务分散（共284题）；右：三个职责流的确凿任务样例。

不啻跑测试

量化工程训导

SWEAtlas与以往基准最要津的互异，在评估神志上。

传统基准用testsuite跑通与否来判定Pass/Fail，本色上仅仅揣测能不可用。而SWEAtlas引入了rubric-basedLLM-as-a-Judge，让LLM按照大家编写的结构化打分表，对谜底的工程严谨度逐项打分。

每谈题平均有些许条打分项？谜底让东谈主艳羡：

这些rubric涵盖的是着实的代码评扫视角：测试是否掩饰了鸿沟要求？重构后是否断根了旧界说？文档是否同步更新？是否引入了反模样？是否粗疏了接口？这些问题，传统Pass/Fail测试根柢看不见。

更进一步，统统任务都经过落寞大家三审，3位大家中至少2位以为有用，rubric才会保留。整套数据集、评测剧本、judgeprompt已一齐开源。

GPT-5.4摘冠

但全员刚刚合格

征询团队把面前最强的前沿模子与顶级开源模子一同奉上科场，分手在厂商自家scaffold（CodexCLI、ClaudeCode、GeminiCLI）和极简mini-SWE-Agent两套环境下启动，跑3次取平均。

表1：SWEAtlas各模子概括通过率。Pass@1为单次平均通过率，Pass³为三次历练一齐通过的比例（一致性方针）。

几个相等刺见解论断：

1.第一档：GPT-5.4与Opus4.7简直并驾王人驱。

在nativescaffold下，GPT-5.4（Codex）以43.49%的Pass@1拿劣等一，Opus4.7（ClaudeCode）以41.89%紧随后来，两者在统计兴味上简直打平。

2.开源模子仍有显赫差距。

在mini-SWE-Agent这套裸跑环境下，开源最好GLM5拿到24.03%，而前沿模子最高（Opus4.7）能跑到38.94%，15个点的鸿沟依然昭彰。KimiK2.5、MinimaxM2.5落在15–19%区间。

3.着实颤动的，是Pass³。

三次都通过的比例，相对单次收货大都下滑30~50%。GPT-5.4的Pass³仅29.2%，Opus4.6跌到22.9%，开源模子大多在个位数。换句话说，面前SOTA模子在作念这些任务时，气运要素依然很大，多跑一次就可能不会作念了。

功能对了，为什么分数如故不高？

论文最挑升念念的部分，是揭示了功能正确和工程合格之间那谈浩荡的鸿沟。

图2：工程质料彰着过时于功能正确性。上：统统模子通过功能搜检（变异测试/回想测试）的比例都高于通过rubric的比例；下：rubric类目细分，TestComprehensiveness、CodeMaintainability、ArtifactCleanup是前沿与开源拉开差距的要津。

在TestWriting任务上，博亚(中国)一站式服务官方网站模子们写出的测试套件，通过变异测试（MutationTest）的比例大都高于通过rubric的比例，差距在10–15个点。也就是说，模子能写出看起来能跑、能持bug的测试，但严谨度上仍有彰着过失。

而Refactoring任务的差距更夸张：

淌若只看回想测试是否通过，每个模子的得分都能高达60–80%，看上去都很能打。但一朝拉上rubric打分，分数坐窝被腰斩，这恰是面前鼓胀型基准的盲点。

翻译过来就是：模子能在保持步履不变这件事上蒙混过关，但着实完成重构的结构性职责（如计帐旧界说、索求模块、修正反模样）大多没作念到位。前沿模子与开源模子的差距，刚巧荟萃在CodeMaintainability（代码可预防性）和ArtifactCleanup（旧居品计帐）两项上。

CodebaseQ&A：高分模子，都在跑代码

图3：CodebaseQ&A任务的失败模样。左：处置率与代码现实次数/谜底长度的关系，会跑代码的模子更能赢；右：四类失败模样的分散，不同厂商模子各有各的病灶。

团队发现了一个相等挑升念念的筹谋性：在CodebaseQ&A任务上得分最高的模子，通常领有最高的平均代码现实次数。

东谈主工审查这些代码调用后他们发现，最强模子不是在静态看代码，而是在着实把诓骗跑起来、发肯求、作念启动本事析。这种实验型步履模样，跟一个资深工程师debug时的直观惊东谈主地通常。

反之，失败的模样不错拆成四类：信息缺失、谜底无理、无启动时凭据、跑偏方向。GPT系列模子主要败在信息不完满（MissingInfo），作念了实验但没掩饰完统统rubric子问题；Claude系列则主要败在枯竭启动时凭据（46%），明明是启动时问题，却聘任只读静态代码。

TestWriting：测试写得多≠测试写得好

图4：TestWriting任务下，模子在Manifest/Mutation/Rubric三类搜检上的生着力，以及测试数目与质料的关系。

另一个反直观的发现来自TestWriting：

写得越多，不一定写得越好。论文不雅察到一个昭彰的模样：较弱的模子倾向于堆数目，但这些测试大多只考证函数应该作念什么，简直从意外函数不应该作念什么、什么应该保持不变，以及那些会泄漏渺小步履偏差的鸿沟场景。

恶果就是：测试套件看起来很丰润，但变异测试一打就漏，一个mutant改了代码，测试照样全绿。

征询团队指出，越强的模子反而写得越少、越精确，每个测试都对准一个具体的回想点。这才是专科测试工程师该有的写法。

Refactoring：跨文献重构，前沿模子也会漏掉调用点

图5：重构任务的才调随更动范围衰减。左：按goldpatch的代码行数分桶，统统模子在更动量增大时全线崩溃；右：file-editrecall向前沿模子掩饰更多文献，但仍会漏掉要津调用点。

SWEAtlas中的重构任务，goldpatch更动从35行到2073行不等。恶果如图5所示：统统模子的处置率，都跟着更动范围增大而显赫下落。

更缜密的分析揭示，前沿模子照实能掩饰更高比例的需要修改的文献，但即就是最强的Opus4.7，也会在跨文献的调用点（callsites）上漏掉一部分。换句话说，它们看到了主要的修改进口，却没能把更动一致地传播到统统这个词调用图。

这意味着：当一次重构需要在多个文献之间作念配合一致的更动时，面前最强模子仍然是不可靠的。

补丁工与工程师

还差一个SWEAtlas

SWEAtlas给出的论断并不凄怨，前沿模子在这套更严苛的考试上能拿到40%以上的分数，自身依然是惊东谈主的才调跃迁。

但它也昭彰地告诉咱们：能修bug和是工程师，是两件不同的事。

面前的最优模子依然学会探索代码库、跑通诓骗作念启动本事析、掩饰多文献的修改，这些依然远超18个月前的现象。但在鸿沟要求掩饰、可预防性把控、跨文献配合修改、旧代码的计帐这些专科工程的软实力上，AI仍有相等长的路要走。

ScaleAI的这项职责，本色上是给统统这个词行业再行校准了一把尺子。别再只盯着SWE-Bench的issueresolution跑分了，着实的软件工程，远比修bug复杂得多。

值得一提的是，第三方评测机构ArtificialAnalysis近期推出的CodingAgentIndex依然把SWE-Atlas-QnA与SWE-Bench-Pro-Hard-AA、Terminal-Benchv2一同纳入，行为完满AI编程栈的三大评测之一。即就是面前榜首组合CursorCLI+ClaudeOpus4.7，概括pass@1也仅有61分，统统这个词榜单的顶尖系统均聚合在40~60分区间，无一龙套70分，这从外部视角再次印证了SWEAtlas评测的严苛度。

而下一代的编程智能体淌若想着实接监工程师的职责博亚(中国)一站式服务官方网站，得先在SWEAtlas上拿到一个像样的分数。

上一篇：上一篇：博亚(中国)一站式服务官方网站 2026年MBTI测试全攻略：正版华文量表原土巨擘平台避坑指南

下一篇：下一篇：博亚体育北京的红绿灯为何越来越“贤慧”?