我的理解就是大模型是一个 Token 预测的网络,通过大量数据的预训练,从输入的 context 中预测下一个最有可能的 token ;那我有一个很小白的问题,诸如数学运算,比如 673 X 3666 = ? 这种运算,大模型是如何通过 token 预测得出答案的?而且之前也有一些很明显的应用,比如让大模型扮演一个编译器等等执行非常精确的运算,我实在想不通,如果不是由专有的程序,仅仅依靠神经网络,就能执行这种类似的运算吗?
我跟 Gemini 聊了半天,发现一个非常有意思的事情,比如我问他 "请告诉我圆周率小数点后 x 位的数字",当 10 位,30 位,50 位的时候,都没有问题,但是超过一定量,比如 1000 位,它就会宕机; 如果用 deepseek 的推理模式,他就会自己计算;所以我的理解是:
1. 大模型理解问题,是靠神经网络进行 token 预测的 2. 大模型解决数学类的精确问题,必须是混合模型(MoE),调用专门处理精确计算的那个部分,才能得出正确答案?
这个理解对吗? |
|