19 条回复  ·  2111 次点击
katsusan 小成 2025-9-1 20:12:32
16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ,其它平台应该要更多
privil 小成 2025-9-1 20:26:52
@chiaf #1 跑个量化的字节开源模型 seed-oss-36b 试试,其实比 gpt-oss-20b 还给力点。
totty 楼主 初学 2025-9-1 20:28:23
@YsHaNg 我再去试试判断语言,幻觉在这个场景下感觉还好。
totty 楼主 初学 2025-9-1 20:29:46
@bearqq 这个速度感觉有点压力,一次翻译文本输入就得大几百 token ,用户要等太久
totty 楼主 初学 2025-9-1 20:30:09
@privil 问对地方了
Pteromyini 小成 2025-9-1 20:49:10
翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行,激活参数本身也太小了,幻觉难免。
tomclancy 初学 2025-9-1 20:53:44
我是 9900x 3090 ,思考的时候 GPU 直接满负荷狂转,思考完直接安静了
totty 楼主 初学 2025-9-1 21:18:11
@Pteromyini OKK
totty 楼主 初学 2025-9-1 21:18:27
@tomclancy 火星子既视感
kennylam777 小成 2025-9-1 21:20:26
@katsusan 不用, 我試過用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不錯, 100tps 而 5090 可以滿血跑 context 128k, 160tps 以上
12
返回顶部