如何测试和对比Harness的有效性？🌐 链接: | 卡圈|免费AI|羊毛|白嫖

Skip to main content

12 hours ago

如何测试和对比Harness的有效性？

🌐 链接: https://linux.do/t/topic/2248553

🔍 关键词: #api

🏷️ 分组: LinuxDo论坛

🕒 时间: 2026-05-26 16:05:54
LINUX DO

如何测试和对比Harness的有效性？

问题是这样的：我们最近在测试时候发现一个问题，在Dify中通过Prompt构建一个了一个agent，Prompt做了角色定义，行为，工作流程，输出的相关约束，但是又一次偶然的机会对接错了API，发现不加这些prompt，模型也可以很好的按预期进行输出。这样就带来了一个问题，我们以为可以有效约束模型输出的各类手段，怎么能确定其哪些部分是真的有用，哪些是过度工程化或主观的感觉。有没有一个这样的可以对包括Prompt和Skill这些手段有效性进行benchmark和测试评估的手段。