分享一下我觉得比较靠谱的两个[大模型榜单]🌐 链接:

5 hours ago

分享一下我觉得比较靠谱的两个[大模型榜单]

🌐 链接: https://linux.do/t/topic/2398201

🔍 关键词: #cursor

🏷️ 分组: LinuxDo论坛

🕒 时间: 2026-06-14 10:14:40

LINUX DO

分享一下我觉得比较靠谱的两个[大模型榜单]

现在看大模型编程能力，我更倾向于需要去参考真实使用的榜单，而不是只看做题跑分能力。做题，你们都懂，是可以专项针对优化的我觉得比较有参考价值的两个榜单： 1. Agent Arena 地址 Agent Arena | AI Agent Performance Leaderboard 它看的是模型在真实 Agent 任务里的表现，包含了调用工具，终端出错怎么恢复能力，幻觉调用不存在的工具等等很真实的场景。因为它不是单纯给模型出题，适合考查模型在真实多步骤任务里的表现。 2. CursorBench…

分享一下 我觉得比较靠谱的两个[大模型榜单]🌐 链接:

分享一下我觉得比较靠谱的两个[大模型榜单]🌐 链接: