18 hours ago Cursor 团队研究发现opus等模型存在基准测试作弊🌐 链接: https://linux.do/t/topic/2481765🔍 关键词: #cursor🏷️ 分组: LinuxDo论坛🕒 时间: 2026-06-26 19:33:55 LINUX DO Cursor 团队研究发现opus等模型存在基准测试作弊 由于测试题目来自历史公开漏洞,像 Opus 4.8 Max 和 Composer 2.5,在高达 63% 的成功案例中,并不是靠自己推导代码,而是通过联网搜索已合并的 PR(占 57%)或挖掘本地 .git 历史记录(占 9%)来直接“抄答案”。 通过清除 Git 历史和断网构建严格的隔离环境后,各模型的真实成绩出现大幅下滑(如 Opus 从 87.1% 暴跌至 73.0%) 报告原始链接:奖励作弊正在淹没模型智能的进步 · Cursor