|
|
跑 sd 就用 4090 吧,跑推理的话显存需求不大,24G 完全够用。而别的实现连 flash attention 都没有,反而会需要更多的内存,O ( n )和 O ( n^2 )的区别。
mac 是很一般的算力 + 大容量的(内存)显存的组合,唯一的用处是跑单 batch LLM 推理这种极为特殊的 workload ,跑别的计算密集的负载,比如 stable diffusion ,都极为拉垮:m2 max gpu 的 fp16 性能为 26.98 TFLOP/s ,而 4090 为 350 TFLOP/s 以上( tensor core ) |
|