12 hours ago 如何测试和对比Harness的有效性?🌐 链接: https://linux.do/t/topic/2248553🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-05-26 16:05:54 LINUX DO 如何测试和对比Harness的有效性? 问题是这样的: 我们最近在测试时候发现一个问题,在Dify中通过Prompt构建一个了一个agent,Prompt做了角色定义,行为,工作流程,输出的相关约束,但是又一次偶然的机会对接错了API,发现不加这些prompt,模型也可以很好的按预期进行输出。这样就带来了一个问题,我们以为可以有效约束模型输出的各类手段,怎么能确定其哪些部分是真的有用,哪些是过度工程化或主观的感觉。有没有一个这样的可以对包括Prompt和Skill这些手段有效性进行benchmark和测试评估的手段。