Kahneman-Tversky-Optimization(KTO)
摘要
Kahneman 和 Tversky 在 1992 年对前景理论的开创性研究表明,人类对随机变量的感知存在系统性的扭曲;例如,人类对损失的厌恶是众所周知的。我们展示了现有的将大型语言模型(LLMs)与人类反馈对齐的方法隐含地模拟了这些扭曲,使它们成为人类感知损失函数(HALOs)。然而,这些方法赋予人类的效用函数与前理论文献中的效用函数在某些方面仍存在差异。通过弥合这一差距,我们推导出一种 HALO,即 Kahneman-Tversky 优化(KTO),它直接最大化 LLM 生成的效用,而不是像当前方法那样最大化偏好的对数似然。KTO 在从 1B 到 30B 的规模上匹配或超过了直接偏好优化方法的性能。而且,由于 KTO 不需要偏好对——只需要知道输出对于给定输入是可取的还是不可取的——它在现实世界中更容易部署,因为后一种数据要丰富得多。
1. 引言
与人类反馈对齐模型已迅速成为机器学习研究中最紧迫的问题之一。然而,这一研究方向与行为经济学相关作品之间的联系尚未得到充分探索。在这份技术报告中,
我们展示了对齐方法之所以有效,部分是因为它们是人类感知损失函数(HALOs);它们赋予人类一种效用函数,该函数具有在前景理论中通过实证得出的许多特性。通过在 Pythia (Biderman 等人, 2023 年)和 Llama (Touvron 等人, 2023 年)模型家族上进行一系列实验,我们确定了哪些 HALOs 产生了更高性能的模型,以及改进在什么规模上出现。
基于前景理论(1992 年),我们推导出了一种新的 HALO,称为 Kahneman-Tversky 优化(KTO)损失。与现有的最先进方法不同, KTO 不需要成对的偏好数据(
)——只需要( )以及知道 是否可取。KTO 对齐的模型在 1B 到 30B 的规模上与 DPO 对齐的模型一样好或更好,尽管它没有使用成对的偏好。 为了验证 KTO 并理解对齐如何在不同模型大小上扩展,我们发布了 Archangel,这是迄今为止最大的人类反馈对齐 LLM 套件。它包括 77 个模型:{从 1B 到 30B 的 7 个预训练模型} x {11 种不同的对齐方法},所有这些都在几乎相同的训练设置下对齐于 Anthropic HH (Ganguli 等人, 2022 年)、Stanford Human Preferences (Ethayarajh 等人, 2022 年)和 OpenAssistant (K öpf 等人, 2023 年)数据集的混合。
2. 背景
大型语言模型传统上分为三个阶段进行训练:
2.1 预训练:
给定一些大型语料库,训练模型以预测给定文本的下一个词。损失函数是交叉熵损失(也称为“负对数似然损失”或“标准损失”)。我们称预训练模型为
2.2 监督式微调
仍然使用标准损失,微调模型以预测与下游任务更相关的数据上的下一个词。我们称这个版本为
2.3 从人类反馈中学习
给定一个包含人类偏好的数据集
由于从人类那里获得真实奖励的成本会非常高,我们必须学习一个奖励模型
现在我们有了一个人类代理,我们可以使用它来评判
但是,仅仅最大化奖励可能会牺牲生成语法正确的文本。为了避免这样的结果,我们需要一个项来限制语言模型可以从经过微调的有用版本
其中
3. 我们是否需要强化学习?
RLHF (从人类反馈中进行强化学习)并不是唯一的对齐大型语言模型(LLMs)的方法。实际上,鉴于 RLHF 在分布式设置中的不稳定性,研究社区越来越多地转向可以直接在人类偏好数据集上优化的封闭形式损失函数。正如我们在下一节中将看到的,这些方法也与前景理论(Tversky 和 Kahneman, 1992)有关。
3.1 直接偏好优化
我们从早期的工作(Peng et al., 2019)中知道,目标(3)的最优语言模型将具有以下分布:
其中
然后他们将这个重新插入公式(1),以仅用最优语言模型分布
尽管我们不知道
根据作者的说法,他们的方法在理论上和传统的 RLHF 一样有效,在实践中更好,因为它不受前者训练不稳定性的影响。
3.2 序列似然校准
Zhao et al. (2023) 采取了一种更简单的方法:只要确保首选输出的对数概率比非首选输出的对数概率至少大
如前所述,我们不想从参考模型
请注意,这没有像 DPO 那样与 RLHF 有整洁的等价性;即使我们只考虑
这看起来不像任何常规的偏好模型。由于从
3.3 PPO (离线,单步)
标准 RLHF 目标(2)通常使用一种变体的近端策略优化(PPO)(Schulman et al., 2017)进行优化,它通过“裁剪”我们的语言模型
- 永远不更新
并将其保持为 ,而不是像我们传统上那样保守地裁剪。 - 使用现有数据集中的偏好而不是即时推断它们。
Baheti et al. (2023) 发现,这些变化,以及将整个输出序列视为单个动作——而不是将每个标记的生成分别视为动作——大大提高了稳定性;他们称他们的方法为 HALo。然而,由于语言模型对齐历来将每个标记视为单独的动作,我们省略了第三个变化,只保留了前两个。为了使这个更简单,我们甚至不会费心学习奖励,只是对
其中
3.4 哪种现有方法最有效?
为了对这些方法进行基准测试,我们在三个著名的人类反馈数据集上对齐了 Pythia-{1.4, 2.8, 6.9, 12.0}B (Biderman et al., 2023)和 Llama-{7, 13, 30}B (Touvron et al., 2023)模型: Anthropic HH (Ganguli et al., 2022)、OpenAssistant (K öpf et al., 2023)和 SHP 推荐子集(Ethayarajh et al.,
4. 人类感知损失
经济学家 Kahneman 和 Tversky 因他们在前景理论上的工作而闻名,这是关于人类如何对不确定结果做出决策的理论(Tversky 和 Kahneman, 1992)。最著名的是,这个理论形式化了诸如损失厌恶这样的概念,即人类对同等大小的损失比收益更敏感。与本工作最相关的两个前景理论点是发现:
- 某些结果的效用总是相对于某个参考点(例如,一个人开始时拥有的钱或保证会收到的钱)。
- 人类效用在相对收益或损失上不是线性的;随着你远离参考点,效用变化率会减少。
Tversky 和 Kahneman (1992)提出了以下人类效用函数的形式,也称为人类价值函数:
其中
- 存在一个参考点,通过添加或减去以获得相对收益或损失。
- 相对损失的价值函数是凸的,而在收益上是凹的(即,随着你远离参考点,敏感度减少)。
- 损失厌恶(在损失区域效用变化率更大)。
在图 4 中,我们绘制了对齐函数赋予人类的值函数:
所有这些都具有 Kahneman-Tversky 值函数的特性:所有这些都承认参考点的存在(即非首选
5. Kahneman-Tversky 优化
如果对齐方法的有效性主要基于它们是 HALOs,那么可能不需要偏好对。我们可以直接最大化输出的效用,而不是最大化偏好的可能性。我们可以通过将 Kahneman-Tversky 人类价值函数(6)适应于 LLM 设置来实现这一点:
原始函数中的指数使其难以优化,所以我们设
为 ,假设逻辑函数 在收益上是凹的,在损失上是凸的。我们用两个超参数 替换损失厌恶系数,分别加权可取和不可取示例的损失。 由于 LLM 生成没有与之相关的货币价值,我们用 RLHF 目标下的隐式奖励替换货币奖励(3)。
人类对所有可能跟随
的 有一定的了解,不仅仅是 。因此,更有意义的是参考点 是最优策略下的预期奖励,不仅仅是跟随 的生成,而是跟随任何输入 : 。
结合这些变化,并假设
其中
不可取损失的有效比例应该在 1:1 到 1.33:1 之间。例如,如果我们随机丢弃了 90% 的可取数据,那么
结果
我们使用 KTO 损失对第 3 节中的相同模型套件在相同数据上进行了对齐(见图 5)。我们发现:
- SFT+KTO 在所有规模上与 SFT+DPO 具有竞争力,尽管它不使用偏好对。
- KTO 单独对于 Llama-{7B, 13B, 30B} 模型明显优于 DPO 单独。实际上,一个经过 KTO 对齐的 Llama-{13B, 30B} 模型与它的 SFT+KTO 对应物具有竞争力,尽管它没有首先经过监督微调,并且是经过我们测试的对齐方法中唯一显示出这种行为的方法。
- 我们可以在对齐 KTO 之前随机丢弃高达 90% 的可取数据,仍然超过 DPO 性能(对于不可取数据也是如此,如图 6 所示)。
值得注意的是,这些结果低估了 KTO 相对于 DPO 的实际改进。在现实环境中, KTO 将拥有比 DPO 方法更多的数据,因为它不依赖于成对的偏好数据。例如,零售公司将拥有大量客户互动数据以及这些互动是否顺利(即,是否购买了商品)的了解;他们几乎没有反事实数据类型(即,什么会使不成功的客户互动
6. Archangel
我们作为 Archangel 套件发布了我们训练的所有 77 个模型:{4 个 Pythia 模型 + 3 个 Llama 模型} x {SFT, SLiC, SFT+SLiC, DPO, SFT+DPO, PPO (offline), SFT+PPO (offline), KTO, SFT+KTO (offline), CSFT, SFT+CSFT}。1 这些模型都是在几乎相同的设置下训练和采样的(例如,相同的随机种子,相同的优化器,相同的学习率调度程序,有效批量大小为 32 等)。特定于模型的超参数是根据扫描设置的。不足为奇的是,跨不同损失函数具有相同含义的超参数值(例如, KTO 和 DPO 中的
7. 未来的工作
HALOs 作为一个独特的功能类别的存在提出了许多有趣的问题:
是否存在一个人类价值函数——以及相应的 HALO ——更好地描述人类如何看待语言? KTO 损失基于货币收益和损失的人类价值函数中值,这几乎可以肯定是与人类感知文本的好坏不同的。那么特定于语言的人类价值函数是什么样子的?它的中值形式是什么,以及它如何在个体之间变化?
在不同规模上会出现哪些不同的帮助/有害差异?所有其他条件保持不变,当它们更大时,经过反馈对齐的 LLMs 是否更有可能变得阿谀奉承(Perez 等人, 2022),正如其他人所指出的?还是有害性更是一个小模型的问题,仅仅是因为它们对好坏的感知更差?
鉴于 KTO 所需的数据更加易于获取,我们可以在多大程度上推动合成数据的发展?例如,如果我们想要创建一个毒性数据集来对齐我们的模型以减少毒性,创建一个元组(
),其中 比 更具毒性是棘手的。然而,有了 KTO,我们可以轻松地创建一个数据集( ),其中可取性是由某个黑盒毒性检测 API 确定的。使用基于分数的数据对齐模型的能力是 PPO 的一个巨大吸引力, KTO 允许这种二进制版本。