16 条回复  ·  1787 次点击
cvbnt 小成 2025-7-2 15:34:21
没法利益驱动,个人买的卡算力和大厂比起来连蚂蚁都算不上,能做出来什么?买卡的钱不如买 api ,至少用 api 生成的图片和视频还有人看
fcten 小成 2025-7-2 15:37:01
https://github.com/karpathy/nanoGPT https://github.com/jingyaogong/minimind karpathy 有很好的视频教程,有兴趣可以自己搜一下看看
pusheax 小成 2025-7-2 15:51:21
大概是发展的必然规律?不需学习底层技术就可以直接编写上层应用不见得是坏事。 有点像上个世纪网络技术的发展,最开始的研究者需要探索传输介质、线路编码、调制与载波这种底层技术。 待到底层技术成熟,后来的开发者就只需要思考如何编写实际的应用程序,而不必操心数据要用什么算法转换成电信号了。
wei2629 小成 2025-7-2 15:59:10
屠龙技
mikilo 初学 2025-7-2 16:07:37
不知道你说的源码级是哪个方面的. 如果是指手推基础的 bp, kl divergence, vae, diffusion , 手写 cnn, rnn, transformer, vit 的话, x 上还是挺多的. inference 加速的话不就更多了, flash attention, linear attention, 感觉天天都有新东西...
TimePPT 小成 2025-7-2 16:21:46
@wei2629 屠龙技+1 现在的问题是,如果不做底层研究,你就算知道底层原理能手撸,也没啥用,10B 以下参数的模型,几年前训练 pipeline 就很成熟了,100B 以上的大模型,你没数据没算力知道底层原理照样没法训——这跟你知道原子弹制造原理,但没离心机搞不出高浓缩铀是一个道理。 所以你看现在大多高校科研机构做大模型研究,都是跟大厂合作了,高校自己的资源根本不够玩大模型的。
iorilu 小成 2025-7-2 16:27:15
看你干啥, 除非你想自己训练大模型 如果只是为了找工作, 或者自己搞产品 底层并没那么重要, 还是多花时间做实际东西更重要
12
返回顶部