42 条回复  ·  4429 次点击
june4 小成 昨天 18:34
以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢
Dream4U 初学 昨天 18:41
哈哈,嘛玩意
Muniesa 小成 昨天 18:53
不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了
Dream4U 初学 昨天 18:53
@LUO12826 至少能用吧,你啥用都没有,就吹上了,意义是啥?
realpg 小成 昨天 19:31
很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型 就是矿机的思路 不一定哪天就震撼发布了
WuSiYu 小成 昨天 21:16
难绷楼上几乎没一个在讨论技术的。。。 搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user 确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。 但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm² ( TSMC N6 ),要知道 4090 才 600+mm² ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram: https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png 评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事
LUO12826 小成 昨天 23:12
@Dream4U #33 人已经说了是 8B 的模型,相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。 想感叹一下,比如 chatGPT 刚上线时,本坛很多人对 AI 写代码嗤之以鼻; cursor 刚上线时,很多分享贴下有人质疑是推广。作为偏技术的论坛,怎么很多人都不会用发展的眼光看问题呢。
kkwa56188 小成 昨天 23:27
道理都懂, 但是你这 8B 做出来 还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人
slowgen 初学 8 小时前
这才第一款,刻了个老得不行的 LLama3.1 8B ,要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了(对话模式下写 Go 的准确性很高)。 如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型,甚至 196B 的 Step-3.5-Flash ,整机定价低于 3 万都算白菜价了(对比苹果官翻的 M2 Ultra 192GB )。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。
返回顶部