我用 ubuntu server 上的 4090 跑 32b ,显存占用 21864/24564MiB ,GPU 推理功耗 350w 电感唧唧叫,完成推理后不释放显存的话功耗大概 15w ,吐第一个字的等待时间较久,后续我肉眼感觉大概是三五十 token/s ,反正比我阅读速度快多了。
纯中文对话的限定条件下,32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多,远不如网页订阅版的 4o 和 openai 官方的 4o api (请注意不是第三方假 4o api )。
整体上我评价为可以作为非常靠谱的中文翻译模型使用了,比之前的外国宝宝们强在能稳定输出中文,其他没看到任何进步。 |