卡圈|免费AI|羊毛|白嫖
7 days ago
一个项目想法: 用公开测试集判断 API 是否掺水或降智,有没有感兴趣的想来做做看?
🌐
链接:
https://linux.do/t/topic/774166
🔍
关键词:
#
api
🏷️
分组:
LinuxDo论坛
🕒
时间:
2025-07-08 20:34:34
LINUX DO
一个项目想法: 用公开测试集判断 API 是否掺水或降智,有没有感兴趣的想来做做看?
我最近有个想法,是写个测试 llm 是否掺假或降智的项目。 做法就是直接去跑现成的 LLM benchmarks,比如跑个 GPQA 之类的 (还得找比较好的 benchmark),然后去对比模型的公开 benchmark 数据。 用公开的,完整的 benchmark,量化降智。 虽然现在 LLM 很多都是面向 benchmark 训练,但我们大概可以假设真实的,没降智的模型 benchmark 还是会比掺水的模型好。起码如果没掺水,分数应该和官方发布的数据差不了太多。 配合 2 API 项目或…
Home
Tags
Links
侧边导航栏
Powered by
BroadcastChannel
&
Sepia
底部