3 days ago 来一个模型横向测评,这次不测coding,测一下是通用agent能力🌐 链接: https://linux.do/t/topic/2105145🔍 关键词: #codex🏷️ 分组: LinuxDo论坛🕒 时间: 2026-05-03 22:14:17 LINUX DO 来一个模型横向测评,这次不测coding,测一下是通用agent能力 自己项目实际跑的测试,agent基座是pi sdk 一个单次分析规划子agent,涉及大量工具调用形成结构化文档 实际的pi workspace和上游文件,结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。 测试文件prompt:和打分脚本 全部由codex自己策划实施。 归档.zip (24.3 KB)