大模型的本质
1. 文字接龙(Next Token Prediction)
本质上大语言模型都在做预测:输入问题后先算第一个字的概率,选最高的,再继续预测下一个字,形成连续生成。
2. 大模型并不“理解”
它看起来聪明,是因为见过海量文本,对“人类会怎么说”有统计把握;但它并不知道自己在说什么,这也是幻觉来源之一。
3. 大模型如何计算?
计算机只认识 0 和 1,它怎么认识“白日依山”?这会引出下一节:语言如何转成数学表达。
示例:输入“白日依山”,预测“尽”的概率 99%,预测“海”的概率 0.01%。
预测示意
输入: 白日依山 -> ?
尽
99%
河
0.8%
海
0.01%
模型每一步都在做同样的事: 计算候选 token 概率并选择最高项,然后进入下一轮预测。
连续生成过程(上一步输出会并入下一步输入)
输入
白日依山
输出
尽
输入
白日依山尽
输出
,
输入
白日依山尽,
输出
黄
© 2024 AI PRESENTATION ENGINE
CONFIDENTIALPAGE 01