专题›对齐问题：从规范到价值

Study № 01 · On Alignment

对齐问题：从规范到价值

我们到底想让模型对齐什么？

状态

在读

开题

2026 · 01

近期

2026 · 04 · 25

领域

AI · 哲学

The Trail · 行进路线

影

2026·03·02

影片

AlphaGo

Greg Kohs · 2017

「第 37 手」那个时刻——它是一个无人理解、但事后证明很美的选择。这是对齐的反面：当模型走出我们的判断范围时，我们还能信任它吗？

已看

文

2026·03·15

论文

Concrete Problems in AI Safety

Amodei et al. · 2016

当时担心的具体问题——奖励黑客、可扩展监督——很多今天反而更尖锐了。reward hacking 在 RLHF 时代成了实操问题，scalable oversight 也是 Anthropic 的一条主线。

已读

谈

2026·03·22

访谈

Stuart Russell on Beneficial AI

Lex Fridman Podcast · 2023

Russell 的「inverse reward design」思路——别让 AI 知道目标是什么，让它去推断我们想要什么。这是一种「认识论上的谦虚」：与其规定终点，不如承认终点本身就是模糊的。

已听

文

2026·03·30

论文

Pluralistic Alignment

Sorensen et al. · 2024

如果价值是多元、有时不可通约的，对齐就不能只对齐到「一个」目标。这篇把多元主义引入了对齐讨论，方向对，但具体做法仍然太靠近 voting——把多元简化为偏好聚合，丢掉了价值之间真正的张力。

已读

书

2026·04·06

书籍

交往行为理论

尤尔根·哈贝马斯 · 1981

理想言谈情境的四个有效性主张——可理解、真诚、真实、正当。如果把这套搬到「人机对话」上会发生什么？模型对「真诚」这一项的承担方式，注定和人不同：它没有「内心」可以背叛它的言辞。

在读·第2卷

课

2026·04·10

课程

Ethics of AI

University of Helsinki · 2024

第 5 章关于「问责性」的讨论很扎实。但整体偏入门，把它当作梳理框架的脚手架——快速过一遍业界共识，再回到 paper 里去深挖。

进行中·6/9章

文

2026·04·15

论文

The Capacity for Moral Self-Correction in Large Language Models

Ganguli et al. · 2023

模型规模到一定程度后，「告诉它别有偏见」就有效了——这个结果很反直觉。它意味着「对齐」可能不是一个外加的修补，而是某种已经在模型内部存在的能力的激活。

已读

播客

2026·04·20

Dwarkesh × Dario Amodei

Dwarkesh Patel · 2024

Dario 谈到「可信赖的 AI 助手」时，用了「同事」这个比喻——这个比喻把对齐从「驯服」转向了「合作」，但合作的前提是双方都有自己的判断。

已听

书

2026·04·22

书籍

正义论

约翰·罗尔斯 · 1971

「无知之幕」的设定和当代对齐研究里的「general principles」之间，有一种隐秘的同构。两者都假设可以从特殊性中抽身，去寻一个普遍可接受的位置。

在读·第4章

论文

2026·04·25

Constitutional AI: Harmlessness from AI Feedback

Bai et al. · 2022

重新读第 3 节。最让我在意的是「宪法」这个隐喻——它把价值表达为一组明文条款，但真正起作用的，可能是条款之间的张力如何被模型内化。

已读

· · ·

这个专题还在进行中。最近一次更新于 2026 · 04 · 25。