同样的 prompt ,同样的环境(同一个 service ,没有重启。模型、机器相同,temperature=0 ,top_k=1),大部分情况返回结果是正常的。但发现偶尔会发生返回结果不正常,并且返回比正常的速度要快,正常返回需要大概 5s ,不正常的返回大概 2s 。 请问有哪些因素会造成这种情况?

举报· 413 次点击
登录 注册 站外分享
3 条回复  
dddd1919 初学 4 天前
模型伐开心,喂点笑话
frankyzf 楼主 小成 4 天前
忘了说,是用的 vllm 作为推理框架
halov 小成 4 天前
缓存呢
返回顶部