时歌
专题对齐问题:从规范到价值
Study № 01 · On Alignment

对齐问题:从规范到价值

我们到底想让模型对齐什么?
状态
在读
开题
2026 · 01
近期
2026 · 04 · 25
领域
AI · 哲学
The Trail · 行进路线
2026·03·02
影片

AlphaGo

Greg Kohs · 2017

「第 37 手」那个时刻——它是一个无人理解、但事后证明很美的选择。这是对齐的反面:当模型走出我们的判断范围时,我们还能信任它吗?

已看
2026·03·15
论文

Concrete Problems in AI Safety

Amodei et al. · 2016

当时担心的具体问题——奖励黑客、可扩展监督——很多今天反而更尖锐了。reward hacking 在 RLHF 时代成了实操问题,scalable oversight 也是 Anthropic 的一条主线。

已读
2026·03·22
访谈

Stuart Russell on Beneficial AI

Lex Fridman Podcast · 2023

Russell 的「inverse reward design」思路——别让 AI 知道目标是什么,让它去推断我们想要什么。这是一种「认识论上的谦虚」:与其规定终点,不如承认终点本身就是模糊的。

已听
2026·03·30
论文

Pluralistic Alignment

Sorensen et al. · 2024

如果价值是多元、有时不可通约的,对齐就不能只对齐到「一个」目标。这篇把多元主义引入了对齐讨论,方向对,但具体做法仍然太靠近 voting——把多元简化为偏好聚合,丢掉了价值之间真正的张力。

已读
2026·04·06
书籍

交往行为理论

尤尔根·哈贝马斯 · 1981

理想言谈情境的四个有效性主张——可理解、真诚、真实、正当。如果把这套搬到「人机对话」上会发生什么?模型对「真诚」这一项的承担方式,注定和人不同:它没有「内心」可以背叛它的言辞。

在读·第2卷
2026·04·10
课程

Ethics of AI

University of Helsinki · 2024

第 5 章关于「问责性」的讨论很扎实。但整体偏入门,把它当作梳理框架的脚手架——快速过一遍业界共识,再回到 paper 里去深挖。

进行中·6/9章
2026·04·15
论文

The Capacity for Moral Self-Correction in Large Language Models

Ganguli et al. · 2023

模型规模到一定程度后,「告诉它别有偏见」就有效了——这个结果很反直觉。它意味着「对齐」可能不是一个外加的修补,而是某种已经在模型内部存在的能力的激活。

已读
播客
2026·04·20

Dwarkesh × Dario Amodei

Dwarkesh Patel · 2024

Dario 谈到「可信赖的 AI 助手」时,用了「同事」这个比喻——这个比喻把对齐从「驯服」转向了「合作」,但合作的前提是双方都有自己的判断。

已听
2026·04·22
书籍

正义论

约翰·罗尔斯 · 1971

「无知之幕」的设定和当代对齐研究里的「general principles」之间,有一种隐秘的同构。两者都假设可以从特殊性中抽身,去寻一个普遍可接受的位置。

在读·第4章
论文
2026·04·25

Constitutional AI: Harmlessness from AI Feedback

Bai et al. · 2022

重新读第 3 节。最让我在意的是「宪法」这个隐喻——它把价值表达为一组明文条款,但真正起作用的,可能是条款之间的张力如何被模型内化。

已读
· · ·
这个专题还在进行中。最近一次更新于 2026 · 04 · 25