AlphaGo
「第 37 手」那个时刻——它是一个无人理解、但事后证明很美的选择。这是对齐的反面:当模型走出我们的判断范围时,我们还能信任它吗?
我们到底想让模型对齐什么?
「第 37 手」那个时刻——它是一个无人理解、但事后证明很美的选择。这是对齐的反面:当模型走出我们的判断范围时,我们还能信任它吗?
当时担心的具体问题——奖励黑客、可扩展监督——很多今天反而更尖锐了。reward hacking 在 RLHF 时代成了实操问题,scalable oversight 也是 Anthropic 的一条主线。
Russell 的「inverse reward design」思路——别让 AI 知道目标是什么,让它去推断我们想要什么。这是一种「认识论上的谦虚」:与其规定终点,不如承认终点本身就是模糊的。
如果价值是多元、有时不可通约的,对齐就不能只对齐到「一个」目标。这篇把多元主义引入了对齐讨论,方向对,但具体做法仍然太靠近 voting——把多元简化为偏好聚合,丢掉了价值之间真正的张力。
理想言谈情境的四个有效性主张——可理解、真诚、真实、正当。如果把这套搬到「人机对话」上会发生什么?模型对「真诚」这一项的承担方式,注定和人不同:它没有「内心」可以背叛它的言辞。
第 5 章关于「问责性」的讨论很扎实。但整体偏入门,把它当作梳理框架的脚手架——快速过一遍业界共识,再回到 paper 里去深挖。
模型规模到一定程度后,「告诉它别有偏见」就有效了——这个结果很反直觉。它意味着「对齐」可能不是一个外加的修补,而是某种已经在模型内部存在的能力的激活。
Dario 谈到「可信赖的 AI 助手」时,用了「同事」这个比喻——这个比喻把对齐从「驯服」转向了「合作」,但合作的前提是双方都有自己的判断。
「无知之幕」的设定和当代对齐研究里的「general principles」之间,有一种隐秘的同构。两者都假设可以从特殊性中抽身,去寻一个普遍可接受的位置。
重新读第 3 节。最让我在意的是「宪法」这个隐喻——它把价值表达为一组明文条款,但真正起作用的,可能是条款之间的张力如何被模型内化。