飞社-令人惊奇的创意工作者社区-程序员这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

june4

以后机器人上只能采用这类技术，用传统 llm 那性能比百岁老头动作还慢

Dream4U

哈哈，嘛玩意

Muniesa

不准是 llama 3.1 8B 的问题，用这个小模型应该就是验证下思路，后面把几百 B 的模型弄好了，准确性就不是问题了

Dream4U

@LUO12826 至少能用吧，你啥用都没有，就吹上了，意义是啥？

realpg

很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型就是矿机的思路不一定哪天就震撼发布了

WuSiYu

难绷楼上几乎没一个在讨论技术的。。。搜了一下文章： https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user 确实是相当 fancy 的一个工作，直接将权重固化成了物理电路，不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞，完全没有 memory wall ，吊打一切 HBM 甚至是 SRAM/存算的工作，也吊打一切投机推理和 dLLM 。但代价也很明显：为了塞下一个 3bit 8b 的权重，die size 达到了 815mm² （ TSMC N6 ），要知道 4090 才 600+mm² （ N5 ），塞下更大模型成本很高。另外并发能力和最大上下文长度未知，可能就只有单并发能力和几千 token 量级，毕竟看起来全靠 sram： https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png 评价是科技与狠活，作为学术工作的话非常 fancy ，作为商业用途的话需要找到合适场景，毕竟这么小的模型比较唐是正常的，但这推理速度能干很多之前 LLM 因为实时性没法干的事

paopjian

@WuSiYu 看起来这玩意的原理就是固化权重以后一条线运算, 和以前有个类似的思路光路模拟权重, 比这个还超前, 这个还现实一点, 但是代价就是超大面积极小权重, 换来的只有超速 token, 对于融资是比较理想的, 毕竟可以给军方和私密计算使用, 但是普及是有难度的, 迭代太慢

LUO12826

@Dream4U #33 人已经说了是 8B 的模型，相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。想感叹一下，比如 chatGPT 刚上线时，本坛很多人对 AI 写代码嗤之以鼻； cursor 刚上线时，很多分享贴下有人质疑是推广。作为偏技术的论坛，怎么很多人都不会用发展的眼光看问题呢。

kkwa56188

道理都懂, 但是你这 8B 做出来还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人

slowgen

这才第一款，刻了个老得不行的 LLama3.1 8B ，要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了（对话模式下写 Go 的准确性很高）。如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型，甚至 196B 的 Step-3.5-Flash ，整机定价低于 3 万都算白菜价了（对比苹果官翻的 M2 Ultra 192GB ）。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。