现在各种开源的大模型太多了,选择多了往往选择困难症,并且每个模型的特点和效果大家也不好对比,所以我开发了这个项目:模型判官
首先在得到用户输入的内容并且选择好模型后,模型判官直接同时请求 3 个模型并且同时返回结果。颇有一种骇客帝国中从屏幕上落下各种字符的感觉。有些模型返回的内容长并且返回的速度慢,有些模型返回的速度快(后续也将增加此类统计)。当 3 个模型完全返回所有结果后,第四个模型便开始启动。首先它将评估前三个模型的回答效果,指出他们回答的优缺点,然后给出一个综合结果。如此看来这对于前三个模型来说可能是闭卷考试,对于第四个模型来说这有点像开卷考试。
![image]( https://mmbiz.qpic.cn/sz_mmbiz_png/McU62wwebpQrLicLQmGPvqfQvN7wZTFWHjGdzGgxGSk7W1uJIzhGxEwBEibBvCN4SbL5h8BZBdwFBu5sCwmeCDcg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
在使用的过程中增加了一定的趣味性:打分系统,以满分 100 分为标准给其他模型的答案打分。之所以当他为趣味性是因为当前还没有一个明确的评分标准,全凭判官的喜好,后续可能会增加例如 A B C 或者星级评分,然后做个统计:某个判官给其他模型的评分偏好,说不定会更有趣味性。
目前支持向千问,Deepseek ,智浦等模型选择。所有模型都来自硅基流动,通过链接邀请注册即送 2000 万 token ,做 MVP 验证产品完全够用了。
![image]( https://mmbiz.qpic.cn/sz_mmbiz_png/McU62wwebpQrLicLQmGPvqfQvN7wZTFWH3giadLeIoSXxOKn966l812zACj2S5LTOeMibfF50jP2iclicibmTzdETryA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
## 开发思路
在实际的开发中,我在脑中思考了很久。确定需求和大概产品形态后,从用户交互角度出发,到完成评分返回最终结果为止。全部逻辑在几天内完成开发和调试。其实有了之前的很多项目积累,基础框架搭建起来非常快。例如:技术栈选择,回答的流式传输,多语言,页面 UI 框架选择,API 设计,数据库存储设计等都很快解决。重点在于如何通过产品呈现你的想法。好的产品可以向用户传递开发者的想法,让人一下就知道:哦它是干这个的,它是怎么用的。多从用户的角度出发,把复杂问题留给开发者,把简单交互留给用户。
## 开源
现在我讲它开源了,这可以让项目与开发者产生更多连接。欢迎大家提交 pr 和 star 。
开源地址: https://github.com/flashclub/ModelJudge
立即使用: https://modeljudge.awesomeprompt.net/zh
注册硅基流动 API: https://cloud.siliconflow.cn/i/h5JiyFm0
## 新功能预告
又经过大量的开发和准备,模型辩论也即将登场,或者叫他 AI 杠精?这又是你没有用过的全新版本,准备好啤酒饮料矿泉水,花生瓜子火腿肠,看两个 AI 抬杠。目前主要逻辑开发完毕,敬请关注网站和仓库更新。
![image]( https://mmbiz.qpic.cn/sz_mmbiz_png/McU62wwebpQrLicLQmGPvqfQvN7wZTFWHByvPbtUxl2VC1bic6ewibxGrYEnDyMI6QHt7JXZHlCuHxONCuSMBfqXA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) |
|