03
RLHF

有多关键?|造成了GPT和Claud不同的技术路线。
原创
Caroline
08:10
在小说阅读器中沉浸阅读
这一篇是整个系列里最关键的一篇之一,因为它回答的是:
style="background-color:#ff9900">为什么模型看起来像“有性格”?
/>
style="background-color:#ff9900">而且
GPT
的“性格”明显不同?
——从 style="background-color:#a2e043">Reward style="background-color:#a2e043">在长期使用中,很多人都会形成一种直观印象:
style="background-color:#a2e043">GPT
/>👉
style="background-color:#ff9900">直接完成需求
style="background-color:#ffd900">Claude
/>
style="background-color:#ffd900">👉
更爱解释
更容易拒绝不确定或敏感请求
这种差异, style="background-color:#ffd900">常常被描述为:
style="background-color:#ffd900">“GPT
更激进,Claude
更保守。
”
但问题是:
它们用的都是
Transformer,预训练数据也都来自互联网,
/>那这种“性格差异”是从哪里来的?
答案几乎全部集中在一个阶段:
/>RLstyle="background-color:#a2e043">HF(Reinforcement
Learning
Feedback)
/>style="background-color:#a2e043">以及更一般的:
/>style="background-color:#a2e043">reward
设计(奖励函数设计)
style="background-color:#a2e043">。
/>style="background-color:#a2e043">一、先说结论:“性格”不是自发产生的
,而是被奖励出来的
style="background-color:#a2e043">以及更一般的:
/>style="background-color:#a2e043">reward
设计(奖励函数设计)
style="background-color:#a2e043">。
/>style="background-color:#a2e043">一、先说结论:“性格”不是自发产生的
,而是被奖励出来的
style="background-color:#a2e043">一、先说结论:“性格”不是自发产生的
,而是被奖励出来的
可以先给出一个核心结论:
GPT
Claude
style="background-color:#a2e043">不是模型结构差异,
/>
style="background-color:#ffd900">在对齐阶段,被奖励了不同的行为模式。
style="background-color:#ffd900">如果用一句话概括:
style="background-color:#ffd900">GPT
/>
style="background-color:#ffd900">“尽量完成任务的助手”
/>Claude
style="background-color:#ffd900">量不犯错的助手”。
style="background-color:#ffd900">这不是道德差异,而是优化目标差异。
/>二、RLHF
style="background-color:#ffd900">?不是教知识,而是教“怎么回答”
在预训练阶段,模型学的是:
/>
也就是:
学会
style="background-color:#ffd900">像人类文本一样说话。
但在
RLHF
阶段,目标函数变成:
/>
也就是说:
不再
style="background-color:#a2e043">是“像不像人类文本”,
/>
style="background-color:#a2e043">而是:
/>
style="background-color:#a2e043">哪种回答更受偏好。
这个偏好由:
style="background-color:#ffd900">人类标注员
style="background-color:#ffd900">或
反馈模型
style="background-color:#ffd900">来给出。
于是模型学到的不是事实本身,而是:
什么样的回答更容易得高分。
这一步,实际上在塑造:
语
style="background-color:#ff9900">气
style="background-color:#ff9900">风格
style="background-color:#ff9900">是否拒绝
style="background-color:#ff9900">是否解释
style="background-color:#ff9900">是否保守
也就是我们感知到的“性格”。
/>style="background-color:#ff9900">三、GPT
reward
设计:任务完成优先
style="background-color:#ff9900">三、GPT
reward
设计:任务完成优先
style="background-color:#ff9900">从行为表现来看,可以推断 偏好大致是:GPT
style="background-color:#ff9900">更奖励:
有用的结果
style="background-color:#ffd900">明确的结论
style="background-color:#ffd900">可执行的答案
style="background-color:#ffd900">相对容忍:
style="background-color:#ffd900">推测性回答
style="background-color:#ffd900">在不确定情况下仍给方案
这会带来一种典型风格:
style="background-color:#a2e043">与其说“我不确定”,
/>
style="background-color:#a2e043">不如给一个可能可行的解法。
style="background-color:#a2e043">这就是为什么 更像:GPT
style="background-color:#a2e043">工具型助手
style="background-color:#a2e043">工程型代理
style="background-color:#a2e043">问题解决器
在
reward
的视角下:
GPT
在被训练时,
/>“完成任务”本身是高奖励行为。
/>四、Claude
style="background-color:#a2e043">风险规避优先
style="background-color:#a2e043">相比之下,Claude 设计明显更偏向:reward
style="background-color:#a2e043">奖励:
style="background-color:#a2e043">安全
style="background-color:#a2e043">谨慎
style="background-color:#a2e043">解释充分
style="background-color:#a2e043">承认不确定性
强烈惩罚:
style="background-color:#ffd900">潜在有害内容
style="background-color:#ffd900">过度自信
style="background-color:#ffd900">误导性结论
这会导致一个必然结果:
在
style="background-color:#ffd900">模糊问题上,
/>
style="background-color:#ffd900">选择“拒绝或弱回答”
/>
style="background-color:#ffd900">比“给一个可能错的答案”
/>
style="background-color:#ffd900">更容易得高分。
style="background-color:#a2e043">于是你会感觉 Claude:
style="background-color:#a2e043">更像学者
style="background-color:#a2e043">更像审稿人
style="background-color:#a2e043">更像伦理委员
这不是模型“胆小”,
/>而是:
它被
style="background-color:#ffd900">训练成:
/>
style="background-color:#ffd900">不犯错,比给答案更重要。
/>style="background-color:#ffd900">五、同一个
base
model,也可以变成两种“人格”
style="background-color:#ffd900">五、同一个
base
model,也可以变成两种“人格”
style="background-color:#ffd900">一个非常重要但常被忽略的事实是:
style="background-color:#ffd900">如果只看
base
model(预训练模型),
/>
style="background-color:#ffd900">GPT
Claude
的差异可能没有那么大。
真正的分化发生在:
reward
model
的训练
偏好样本的构造
style="background-color:#ff9900">PPO
DPO
等优化过程
style="background-color:#ff9900">可以从优化目标上理解:
GPT
在最大化:
在最大化:
/>
这两个
的最优解本来就不同。
于是:
一个收敛到“大胆完成任务”的策略
一个收敛到“谨慎规避风险”的策略
本质是:
在解同一个优化问题的不同版本。
/>六、为什么
设计会变成“性格”?
因为语言模型的输出空间是:
所有可能的
style="background-color:#ffd900">文本序列。
style="background-color:#ffd900">reward 在这个空间中定义了:
style="background-color:#ffd900">哪些输出是“好”
style="background-color:#ffd900">哪些输出是“坏”
久而久之,模型会形成一种:
稳定的输出偏好分布。
例如:
GPT
更容易选择:
“可以这样做……”
Claude
更容易选择:
“我需要提醒你风险……”
这种偏好,在用户体验上就表现为:
像是“性格”。
但在数学上,它只是:
一个被
reward
/>
七、为什么这不是“谁更聪明”,而是“谁被奖励成这样”?
很多争论会变成:
GPT
更聪明?
更安全?
但从训练角度看,更准确的说法是:
它们在不同目标函数下,
/>做出了不同的最优策略。
这类似于:
一个学生被奖励:
答对题目
另一个学生被奖励:
不犯错误
长期下来:
一个变得更敢猜
一个变得更保守
不是智商差异,而是:
激励结构差异。
/>
八、回到这个系列的主线
这一篇,其实在回答整个系列的核心命题之一:
当数据和架构趋同,差异来自哪里?
答案之一就是:
来自
reward
的设计。
数据决定:
/>→
模型“见过什么世界”
reward
决定:
模型“如何在这个世界中行动”
GPT
Claude
的差异,本质上是:
同一个语言模型框架,在两种价值函数下,收敛到了两种不同的行为策略。
GPT
会有不同‘性格’?”
不是因为:
它们的
Transformer
不一样
也不是因为:
谁更聪明
而是因为:
在对齐阶段,
/>它们被奖励了不同的行为模式。
GPT
被训练成:
一个尽量完成任务的助手
Claude
被训练成:
一个尽量不犯错的助手
从这个角度看:
模型的“性格”,
reward
设计的投影。


