目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?
我看经常有大佬们提及 https://lmarena.ai/?leaderboard ,但是我看 gpt-4o 居然排名第二,比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码,感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的,gpt-4o 提供的有时候不能使用。
有没有靠谱的 AI 模型水平排行榜? marena.ai 的 leaderboard 的排名依据是啥?应该不是生成代码能力吧?
|