5 hours ago 分享一下 我觉得比较靠谱的两个[大模型榜单]🌐 链接: https://linux.do/t/topic/2398201🔍 关键词: #cursor🏷️ 分组: LinuxDo论坛🕒 时间: 2026-06-14 10:14:40 LINUX DO 分享一下 我觉得比较靠谱的两个[大模型榜单] 现在看大模型编程能力,我更倾向于需要去参考真实使用的榜单,而不是只看做题跑分能力。 做题,你们都懂,是可以专项针对优化的 我觉得比较有参考价值的两个榜单: 1. Agent Arena 地址 Agent Arena | AI Agent Performance Leaderboard 它看的是模型在真实 Agent 任务里的表现,包含了调用工具,终端出错怎么恢复能力,幻觉调用不存在的工具等等很真实的场景。 因为它不是单纯给模型出题,适合考查模型在真实多步骤任务里的表现。 2. CursorBench…