旋转式位置编码（RoPE）

旋转式位置编码（Rotary Position Embedding，RoPE）最早由论文 RoFormer: Enhanced Transformer with Rotary Position Embedding 提出，是一种将相对位置信息集成到 self-attention 中并提升 Transformer 架构性能的位置编码方式。目前广受关注的 LLaMA 模型也采用了该位置编码方式。

1. 基本概念

首先定义一个长度为 $N$ 的输入序列为：

S_{N} = {{token}_{i}}_{i = 1}^{N}

其中 ${token}_{i}$ 表示输入序列中第 $i$ 个 token，而输入序列 $S_{N}$ 对应的 embedding 表示为：

E_{N} = {x_{i}}_{i = 1}^{N}

其中 $x_{i} \in R^{d}$ 表示第 $i$ 个 token 对应的 $d$ 维词嵌入向量。

在执行 self-attention 之前，会用词嵌入向量计算 query、key、value 向量并同时加入位置信息：

\begin{aligned} q_{m} & = f_{q} (x_{m}, m), \\ k_{n} & = f_{k} (x_{n}, n), \\ v_{n} & = f_{v} (x_{n}, n), \end{aligned}

其中 $q_{m}$ 表示第 $m$ 个 token 对应的词向量 $x_{m}$ 集成位置信息 $m$ 之后的 query 向量； $k_{n}$ 和 $v_{n}$ 则表示第 $n$ 个 token 对应的词向量 $x_{n}$ 集成位置信息 $n$ 之后的 key 和 value 向量。

基于 Transformer 的位置编码方法都着重于构造合适的 $f_{{q, k, v}}$ 函数形式。计算第 $m$ 个词嵌入向量 $x_{m}$ 对应的 self-attention 输出结果时， $q_{m}$ 与所有 $k_{n}$ 计算 attention score，然后将 attention score 乘以对应的 $v_{n}$ 再求和，得到输出向量 $o_{m}$ ：

a_{m, n} = \frac{\exp (\frac{q_{m}^{⊤} k_{n}}{\sqrt{d}})}{\sum_{j = 1}^{N} \exp (\frac{q_{m}^{⊤} k_{j}}{\sqrt{d}})}, o_{m} = \sum_{n = 1}^{N} a_{m, n} v_{n}

2. 绝对位置编码

对于位置编码，常规做法是在计算 query、key 和 value 向量之前，先计算一个位置编码向量 $p_{i}$ 加到词嵌入 $x_{i}$ 上。位置编码向量 $p_{i}$ 同样是 $d$ 维向量，然后再乘以对应的变换矩阵 $W_{{q, k, v}}$ ：

f_{{q, k, v}} (x_{i}, i) = W_{{q, k, v}} (x_{i} + p_{i})

而经典的位置编码向量 $p_{i}$ 的计算方式是：

\begin{aligned} p_{i, 2 t} & = \sin (\frac{i}{10000^{2 t / d}}), \\ p_{i, 2 t + 1} & = \cos (\frac{i}{10000^{2 t / d}}), \end{aligned}

其中 $p_{i, 2 t}$ 表示 $d$ 维位置向量 $p_{i}$ 中第 $2 t$ 个分量（偶数索引位置）的计算公式，而 $p_{i, 2 t + 1}$ 对应第 $2 t + 1$ 个分量（奇数索引位置）的计算公式。

3. 旋转式位置编码

接下来介绍 Rotary Transformer（RoFormer）模型。它的主要改动是引入"旋转式位置编码（Rotary Position Embedding，RoPE）"，这是一种配合 Attention 机制能达到"以绝对位置编码的方式实现相对位置编码"的设计。正因如此，它也是目前唯一一种可用于线性 Attention 的相对位置编码。

3.1 基本思路

在 RoPE 中，出发点是"通过绝对位置编码的方式实现相对位置编码"。这一设计既有理论上的优雅之处，也有实践上的实用价值，例如它可以扩展到线性 Attention 中。

在机器学习中，我们通常只关注实数，但对于旋转嵌入来说，使用复数作为空间的基域在数学上更为方便。先考虑二维情形，然后借助复数来求解。将 query 向量和 key 向量的元素视为单个复数，我们使用 $C^{d / 2}$ 而非通常的 $R^{d}$ 空间来表示。具体而言，不再将 $q = (q_{1}, q_{2}, q_{3}, q_{4}, \dots, q_{d})$ 视为 $d$ 维实数向量，而是将其视为 $q = (q_{1} + i q_{2}, q_{3} + i q_{4}, \dots, q_{d - 1} + i q_{d}) \in C^{d / 2}$ 。若 $d$ 为奇数，可用零虚部填充以确保对齐。

$q$ 和 $k$ 分别为 query 向量和 key 向量， $m$ 和 $n$ 分别为相应 token 的绝对位置。假设 $f (x, ℓ)$ 是一个函数，它接收位于位置 $ℓ$ 的嵌入 $x$ ，并输出一个包含相对位置信息的新嵌入。我们假设通过下述运算来给 $q, k$ 添加绝对位置信息：

{\tilde{q}}_{m} = f (q, m), {\tilde{k}}_{n} = f (k, n)

也就是说，分别为 $q, k$ 设计操作 $f (\cdot, m), f (\cdot, n)$ ，使得经过该操作后， ${\tilde{q}}_{m}, {\tilde{k}}_{n}$ 就带有了位置 $m, n$ 的绝对位置信息。Attention 的核心运算是内积，因此我们希望内积的结果带有相对位置信息，假设存在恒等关系：

⟨ f (q, m), f (k, n) ⟩ = g (q, k, m - n)

因此需要给出该恒等式的一个尽可能简单的解。求解过程还需要初始条件，显然可以合理地设 $f (q, 0) = q$ 和 $f (k, 0) = k$ 。

3.2 求解过程

在复数中有 $⟨ q, k ⟩ = Re [q k^{*}]$ ， $Re [\cdot]$ 代表复数的实部，所以有：

Re [f (q, m) f^{*} (k, n)] = g (q, k, m - n)

简单起见，假设存在复数 $g (q, k, m - n)$ ，使得 $f (q, m) f^{*} (k, n) = g (q, k, m - n)$ 。然后用复数的指数形式，设：

\begin{aligned} f (q, m) & = R_{f} (q, m) e^{i Θ_{f} (q, m)}, \\ f (k, n) & = R_{f} (k, n) e^{i Θ_{f} (k, n)}, \\ g (q, k, m - n) & = R_{g} (q, k, m - n) e^{i Θ_{g} (q, k, m - n)} . \end{aligned}

则：

\begin{aligned} R_{f} (q, m) R_{f} (k, n) & = R_{g} (q, k, m - n), \\ Θ_{f} (q, m) - Θ_{f} (k, n) & = Θ_{g} (q, k, m - n) . \end{aligned}

对于第一个方程，代入 $m = n$ 得到：

R_{f} (q, m) R_{f} (k, m) = R_{g} (q, k, 0) = R_{f} (q, 0) R_{f} (k, 0) = ‖ q ‖ ‖ k ‖

最后一个等号源于初始条件 $f (q, 0) = q$ 和 $f (k, 0) = k$ 。因此可以直接设 $R_{f} (q, m) = ‖ q ‖$ ， $R_{f} (k, m) = ‖ k ‖$ ，即它不依赖于 $m$ 。至于第二个方程，同样代入 $m = n$ 得到：

Θ_{f} (q, m) - Θ_{f} (k, m) = Θ_{g} (q, k, 0) = Θ_{f} (q, 0) - Θ_{f} (k, 0) = Θ (q) - Θ (k)

这里的 $Θ (q), Θ (k)$ 是 $q, k$ 本身的幅角，最后一个等号同样源于初始条件。根据上式可得：

Θ_{f} (q, m) - Θ (q) = Θ_{f} (k, m) - Θ (k)

所以 $Θ_{f} (q, m) - Θ (q)$ 应是一个只与 $m$ 相关、与 $q$ 无关的函数，记为 $φ (m)$ ，即 $Θ_{f} (q, m) = Θ (q) + φ (m)$ 。接着代入 $n = m - 1$ ，整理得到：

φ (m) - φ (m - 1) = Θ_{g} (q, k, 1) + Θ (k) - Θ (q)

即 ${φ (m)}$ 是等差数列，代入初始值 $φ (0) = 0, φ (1) = θ$ ，解得 $φ (m) = m θ$ 。

将前面所有的公式推导汇总，即可得到 Rotary Position Embedding 的最终表达式：

f (q, m) = R_{f} (q, m) e^{i Θ_{f} (q, m)} = q e^{i (Θ (q) + m θ)} = \sum_{j = 1}^{d / 2} q_{j} e^{i m θ_{j}} e_{j}

因此，对于任意的 $0 < ε \leq \frac{π}{2 N}$ ，其中 $N$ 是最大序列长度。当按元素计算 $q$ 和 $k$ 时，以 $j$ 作为元素索引，RoPE 可以表示如下：

\begin{aligned} RoPE (x, m) & = x e^{m i ε}, \\ ⟨ RoPE (q_{j}, m), RoPE (k_{j}, n) ⟩ & = ⟨ q_{j} e^{m i ε}, k_{j} e^{n i ε} ⟩ \\ = q_{j} k_{j} e^{m i ε} \overset{―}{e^{n i ε}} \\ = q_{j} k_{j} e^{(m - n) i ε} \\ = RoPE (q_{j} k_{j}, m - n) . \end{aligned}

由于与复数相比，计算机更喜欢实数和矩阵，因此将此表达式转换为矩阵方程很方便：

f (q, m) = (\begin{matrix} M_{1} \\ M_{2} \\ ⋱ \\ M_{d / 2} \end{matrix}) (\begin{matrix} q_{1} \\ q_{2} \\ ⋮ \\ q_{d} \end{matrix}) = Θ_{m} Q_{m} = Θ_{m} W_{q} x_{m}

其中：

M_{j} = (\begin{matrix} \cos m θ_{j} & - \sin m θ_{j} \\ \sin m θ_{j} & \cos m θ_{j} \end{matrix})

$Θ_{m}$ 为块对角矩阵， $W_{q}$ 为可学习的 query 权重， $x_{m}$ 为位置 $m$ 处的嵌入。

3.3 编码形式

综上，我们得到二维情况下用复数表示的 RoPE：

f (q, m) = R_{f} (q, m) e^{i Θ_{f} (q, m)} = ‖ q ‖ e^{i (Θ (q) + m θ)} = q e^{i m θ}

根据复数乘法的几何意义，该变换实际上对应着向量的旋转，因此称之为"旋转式位置编码"。它还可以写成矩阵形式：

f (q, m) = (\begin{matrix} \cos m θ & - \sin m θ \\ \sin m θ & \cos m θ \end{matrix}) (\begin{matrix} q_{0} \\ q_{1} \end{matrix})

由于内积满足线性叠加性，任意偶数维的 RoPE 都可以表示为二维情形的拼接，即：

\underset{R_{m}}{\underset{⏟}{(\begin{matrix} \cos m θ_{0} & - \sin m θ_{0} & 0 & 0 & \dots & 0 & 0 \\ \sin m θ_{0} & \cos m θ_{0} & 0 & 0 & \dots & 0 & 0 \\ 0 & 0 & \cos m θ_{1} & - \sin m θ_{1} & \dots & 0 & 0 \\ 0 & 0 & \sin m θ_{1} & \cos m θ_{1} & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ 0 & 0 & 0 & 0 & \dots & \cos m θ_{d / 2 - 1} & - \sin m θ_{d / 2 - 1} \\ 0 & 0 & 0 & 0 & \dots & \sin m θ_{d / 2 - 1} & \cos m θ_{d / 2 - 1} \end{matrix})}} (\begin{matrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ ⋮ \\ q_{d - 2} \\ q_{d - 1} \end{matrix})

也就是说，给位置为 $m$ 的向量 $q$ 乘上矩阵 $R_{m}$ 、位置为 $n$ 的向量 $k$ 乘上矩阵 $R_{n}$ ，用变换后的 $Q, K$ 序列做 Attention，则 Attention 就自动包含相对位置信息，因为成立恒等式：

(R_{m} q)^{⊤} (R_{n} k) = q^{⊤} R_{m}^{⊤} R_{n} k = q^{⊤} R_{n - m} k

值得指出的是， $R_{m}$ 是一个正交矩阵，它不会改变向量的模长，因此通常不会影响原模型的稳定性。

由于 $R_{m}$ 的稀疏性，直接用矩阵乘法来实现会浪费算力，推荐通过下述方式来实现 RoPE：

(\begin{matrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ ⋮ \\ q_{d - 2} \\ q_{d - 1} \end{matrix}) \otimes (\begin{matrix} \cos m θ_{0} \\ \cos m θ_{0} \\ \cos m θ_{1} \\ \cos m θ_{1} \\ ⋮ \\ \cos m θ_{d / 2 - 1} \\ \cos m θ_{d / 2 - 1} \end{matrix}) + (\begin{matrix} - q_{1} \\ q_{0} \\ - q_{3} \\ q_{2} \\ ⋮ \\ - q_{d - 1} \\ q_{d - 2} \end{matrix}) \otimes (\begin{matrix} \sin m θ_{0} \\ \sin m θ_{0} \\ \sin m θ_{1} \\ \sin m θ_{1} \\ ⋮ \\ \sin m θ_{d / 2 - 1} \\ \sin m θ_{d / 2 - 1} \end{matrix})

其中 $\otimes$ 是逐元素相乘，即 NumPy、TensorFlow 等计算框架中的 * 运算。从这个实现也可以看到，RoPE 可以视为三角函数式位置编码的变体。

3.4 LLaMA 模型中的 RoPE

LLaMA 模型使用了 Rotary Position Embedding。对于 $Q$ 的第 $m$ 个位置向量 $q$ ，通过以下方式注入位置编码。

3.4.1 Step 1：初始化 $θ$ 矩阵

(\begin{matrix} θ_{0} & θ_{1} & \dots & θ_{d / 2 - 1} & θ_{0} & θ_{1} & \dots & θ_{d / 2 - 1} \\ θ_{0} & θ_{1} & \dots & θ_{d / 2 - 1} & θ_{0} & θ_{1} & \dots & θ_{d / 2 - 1} \\ 2 θ_{0} & 2 θ_{1} & \dots & 2 θ_{d / 2 - 1} & 2 θ_{0} & 2 θ_{1} & \dots & 2 θ_{d / 2 - 1} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ m θ_{0} & m θ_{1} & \dots & m θ_{d / 2 - 1} & m θ_{0} & m θ_{1} & \dots & m θ_{d / 2 - 1} \end{matrix})

3.4.2 Step 2：计算 $\cos$ 矩阵和 $\sin$ 矩阵

(\begin{matrix} \cos θ_{0} & \cos θ_{1} & \dots & \cos θ_{d / 2 - 1} & \cos θ_{0} & \cos θ_{1} & \dots & \cos θ_{d / 2 - 1} \\ \cos θ_{0} & \cos θ_{1} & \dots & \cos θ_{d / 2 - 1} & \cos θ_{0} & \cos θ_{1} & \dots & \cos θ_{d / 2 - 1} \\ \cos 2 θ_{0} & \cos 2 θ_{1} & \dots & \cos 2 θ_{d / 2 - 1} & \cos 2 θ_{0} & \cos 2 θ_{1} & \dots & \cos 2 θ_{d / 2 - 1} \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ \cos m θ_{0} & \cos m θ_{1} & \dots & \cos m θ_{d / 2 - 1} & \cos m θ_{0} & \cos m θ_{1} & \dots & \cos m θ_{d / 2 - 1} \end{matrix})

3.4.3 Step 3：计算 Query 向量

python

q_embed = (q * cos) + (rotate_half(q) * sin)
k_embed = (k * cos) + (rotate_half(k) * sin)

对应公式：

(\begin{matrix} q_{0} \\ q_{1} \\ ⋮ \\ q_{d / 2 - 1} \\ q_{d / 2} \\ ⋮ \\ q_{d - 2} \\ q_{d - 1} \end{matrix}) \otimes (\begin{matrix} \cos m θ_{0} \\ \cos m θ_{1} \\ ⋮ \\ \cos m θ_{d / 2 - 1} \\ \cos m θ_{0} \\ \cos m θ_{1} \\ ⋮ \\ \cos m θ_{d / 2 - 1} \end{matrix}) + (\begin{matrix} - q_{d / 2} - q_{d / 2 + 1} \\ ⋮ \\ - q_{d - 1} \\ q_{0} \\ q_{1} \\ ⋮ \\ q_{d / 2 - 1} \end{matrix}) \otimes (\begin{matrix} \sin m θ_{0} \\ \sin m θ_{1} \\ ⋮ \\ \sin m θ_{d / 2 - 1} \\ \sin m θ_{0} \\ \sin m θ_{1} \\ ⋮ \\ \sin m θ_{d / 2 - 1} \end{matrix})

4. RoPE 证明过程

4.1 简单证明

简单起见，先假设 $q_{m}, k_{n}$ 是所在位置分别为 $m, n$ 的二维行向量。既然是二维，可以将其当作复数来运算。Attention 的关键之处在于向量的内积，用复数表示为：

⟨ q_{m}, k_{n} ⟩ = Re [q_{m} k_{n}^{*}]

其中 $*$ 是共轭复数，右端的乘法是普通的复数乘法， $Re [\cdot]$ 表示取结果的实部。上式意味着：如果将 $q_{m}, k_{n}$ 分别乘以 $e^{i m θ}, e^{i n θ}$ 变成 $q_{m} e^{i m θ}, k_{n} e^{i n θ}$ ，那么就相当于给它们配上了绝对位置编码（因为显式地依赖绝对位置 $m, n$ ）。然后代入内积，有：

⟨ q_{m} e^{i m θ}, k_{n} e^{i n θ} ⟩ = Re [(q_{m} e^{i m θ}) (k_{n} e^{i n θ})^{*}] = Re [q_{m} k_{n}^{*} e^{i (m - n) θ}]

值得注意的是，内积只依赖于相对位置 $m - n$ 。这就巧妙地将绝对位置与相对位置融合在了一起。

由上述结果可知，对于位置为 $n$ 的二维实数向量 $[x, y]$ ，将其当作复数运算并乘以 $e^{i n θ}$ ，得到恒等式：

(x + y i) e^{i n θ} = (x \cos n θ - y \sin n θ) + i (x \sin n θ + y \cos n θ)

这意味着，通过

(\begin{matrix} x \\ y \end{matrix}) \to (\begin{matrix} x \cos n θ - y \sin n θ \\ x \sin n θ + y \cos n θ \end{matrix}) = (\begin{matrix} x \\ y \end{matrix}) \cos n θ + (\begin{matrix} - y \\ x \end{matrix}) \sin n θ

来赋予 $[x, y]$ 绝对位置信息，那么在 Attention 运算时就等价于相对位置编码。如果是多于二维的向量，可以每两维为一组执行同样的运算，每组的 $θ$ 可以不同。

这样一来，我们得到了一种融合绝对位置与相对位置的位置编码方案。从形式上看它类似乘性的绝对位置编码：通过在 $q, k$ 中施加该位置编码，效果等价于相对位置编码。如果还需要显式的绝对位置信息，则可以同时在 $v$ 上施加该编码。

4.2 完整证明

假定 query 向量 $q_{m}$ 和 key 向量 $k_{n}$ 之间的内积操作可以用函数 $g$ 表示，该函数的输入是词嵌入向量 $x_{m}$ 、 $x_{n}$ 和它们之间的相对位置 $m - n$ ：

⟨ f_{q} (x_{m}, m), f_{k} (x_{n}, n) ⟩ = g (x_{m}, x_{n}, m - n)

我们的目标是找到一个等价的位置编码方式，使得上述关系成立，即构造出函数 $f$ 和 $g$ ，使得上述等式成立。

假定词嵌入向量的维度为二维 $d = 2$ ，这样就可以利用二维平面上向量的几何性质。论文中提出了满足上述关系的 $f$ 和 $g$ 的形式如下：

\begin{aligned} f_{q} (x_{m}, m) & = (W_{q} x_{m}) e^{i m θ}, \\ f_{k} (x_{n}, n) & = (W_{k} x_{n}) e^{i n θ}, \\ g (x_{m}, x_{n}, m - n) & = Re [(W_{q} x_{m}) (W_{k} x_{n})^{*} e^{i (m - n) θ}], \end{aligned}

这里 $Re$ 表示复数的实部。

首先看到上述 $f$ 和 $g$ 公式中有个指数函数 $e^{i x}$ ，这是欧拉公式，其中 $x$ 表示任意实数， $e$ 是自然对数的底数， $i$ 是复数中的虚数单位。根据欧拉公式有：

e^{i x} = \cos x + i \sin x

即上述指数函数可以表示为实部为 $\cos x$ 、虚部为 $\sin x$ 的复数。欧拉公式建立了指数函数、三角函数和复数之间的桥梁。

则上述 $f$ 和 $g$ 公式中：

\begin{aligned} e^{i m θ} & = \cos (m θ) + i \sin (m θ), \\ e^{i n θ} & = \cos (n θ) + i \sin (n θ), \\ e^{i (m - n) θ} & = \cos ((m - n) θ) + i \sin ((m - n) θ) . \end{aligned}

然后看回公式：

f_{q} (x_{m}, m) = (W_{q} x_{m}) e^{i m θ}

其中 $W_{q}$ 是个二维矩阵， $x_{m}$ 是个二维向量，相乘结果也是一个二维向量，用 $q_{m}$ 表示：

q_{m} = (\begin{matrix} q_{m}^{(1)} \\ q_{m}^{(2)} \end{matrix}) = W_{q} x_{m} = (\begin{matrix} W_{q}^{(11)} & W_{q}^{(12)} \\ W_{q}^{(21)} & W_{q}^{(22)} \end{matrix}) (\begin{matrix} x_{m}^{(1)} \\ x_{m}^{(2)} \end{matrix})

首先将 $q_{m}$ 表示成复数形式：

q_{m} = [q_{m}^{(1)}, q_{m}^{(2)}] = q_{m}^{(1)} + i q_{m}^{(2)}

接着：

f_{q} (x_{m}, m) = (W_{q} x_{m}) e^{i m θ} = q_{m} e^{i m θ}

其实就是两个复数相乘：

(a + i b) \cdot (c + i d) = a c + i b c + i a d + i^{2} b d = (a c - b d) + i (b c + a d)

复数乘法使用分配律，并利用 $i^{2} = - 1$ 的性质。代入可得：

q_{m} e^{i m θ} = (q_{m}^{(1)} + i q_{m}^{(2)}) (\cos (m θ) + i \sin (m θ))

复习一下复数乘法的性质：

\begin{aligned} q_{m} e^{i m θ} & = (q_{m}^{(1)} + i q_{m}^{(2)}) (\cos (m θ) + i \sin (m θ)) \\ = (q_{m}^{(1)} \cos (m θ) - q_{m}^{(2)} \sin (m θ)) + i (q_{m}^{(2)} \cos (m θ) + q_{m}^{(1)} \sin (m θ)) \end{aligned}

将结果重新表达成实数向量形式就是：

q_{m} e^{i m θ} = [q_{m}^{(1)} \cos (m θ) - q_{m}^{(2)} \sin (m θ), q_{m}^{(2)} \cos (m θ) + q_{m}^{(1)} \sin (m θ)]

因此：

\begin{aligned} f_{q} (x_{m}, m) & = (W_{q} x_{m}) e^{i m θ} = q_{m} e^{i m θ} \\ = [q_{m}^{(1)} \cos (m θ) - q_{m}^{(2)} \sin (m θ), q_{m}^{(2)} \cos (m θ) + q_{m}^{(1)} \sin (m θ)] \\ = (\begin{array}{c} \cos (m θ) & - \sin (m θ) \\ \sin (m θ) & \cos (m θ) \end{array}) (\begin{array}{c} q_{m}^{(1)} \\ q_{m}^{(2)} \end{array}) \end{aligned}

看到这里会发现，这就是 query 向量乘以了一个旋转矩阵。这就是"旋转位置编码"名称的由来。

同理， $f_{k}$ 可以表示成下面的式子：

\begin{aligned} f_{k} (x_{n}, n) & = (\begin{array}{c} \cos n θ & - \sin n θ \\ \sin n θ & \cos n θ \end{array}) (\begin{array}{c} W_{k}^{(11)} & W_{k}^{(12)} \\ W_{k}^{(21)} & W_{k}^{(22)} \end{array}) (\begin{array}{c} x_{n}^{(1)} \\ x_{n}^{(2)} \end{array}) \\ = (\begin{array}{c} \cos n θ & - \sin n θ \\ \sin n θ & \cos n θ \end{array}) (\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array}) \end{aligned}

最后还有个函数 $g$ ：

g (x_{m}, x_{n}, m - n) = Re [(W_{q} x_{m}) (W_{k} x_{n})^{*} e^{i (m - n) θ}]

其中 $Re [x]$ 表示复数 $x$ 的实部，而 $(W_{k} x_{n})^{*}$ 表示复数 $W_{k} x_{n}$ 的共轭。

复习一下共轭复数的定义：

z = a + i b, z^{*} = a - i b

所以可得：

\begin{aligned} W_{q} x_{m} & = q_{m} = q_{m}^{(1)} + i q_{m}^{(2)}, \\ W_{k} x_{n} & = k_{n} = k_{n}^{(1)} + i k_{n}^{(2)}, \\ (W_{k} x_{n})^{*} & = k_{n}^{*} = k_{n}^{(1)} - i k_{n}^{(2)}, \\ e^{i (m - n) θ} & = \cos ((m - n) θ) + i \sin ((m - n) θ) . \end{aligned}

继续可得：

\begin{aligned} g (x_{m}, x_{n}, m - n) \\ = Re [(W_{q} x_{m}) (W_{k} x_{n})^{*} e^{i (m - n) θ}] \\ = Re [(q_{m}^{(1)} + i q_{m}^{(2)}) (k_{n}^{(1)} - i k_{n}^{(2)}) (\cos ((m - n) θ) + i \sin ((m - n) θ))] \\ = Re [((q_{m}^{(1)} k_{n}^{(1)} + q_{m}^{(2)} k_{n}^{(2)}) + i (q_{m}^{(2)} k_{n}^{(1)} - q_{m}^{(1)} k_{n}^{(2)})) (\cos ((m - n) θ) + i \sin ((m - n) θ))] \\ = (q_{m}^{(1)} k_{n}^{(1)} + q_{m}^{(2)} k_{n}^{(2)}) \cos ((m - n) θ) - (q_{m}^{(2)} k_{n}^{(1)} - q_{m}^{(1)} k_{n}^{(2)}) \sin ((m - n) θ) \end{aligned}

接下来我们就要证明函数 $g$ 的计算公式是成立的。

首先回顾一下 attention 操作，位置 $m$ 的 query 和位置 $n$ 的 key 会做一个内积操作：

\begin{aligned} f_{q} (x_{m}, m) = [q_{m}^{(1)} \cos (m θ) - q_{m}^{(2)} \sin (m θ), q_{m}^{(2)} \cos (m θ) + q_{m}^{(1)} \sin (m θ)], \\ f_{k} (x_{n}, n) = [k_{n}^{(1)} \cos (n θ) - k_{n}^{(2)} \sin (n θ), k_{n}^{(2)} \cos (n θ) + k_{n}^{(1)} \sin (n θ)], \\ ⟨ f_{q} (x_{m}, m), f_{k} (x_{n}, n) ⟩ \\ = (q_{m}^{(1)} \cos (m θ) - q_{m}^{(2)} \sin (m θ)) (k_{n}^{(1)} \cos (n θ) - k_{n}^{(2)} \sin (n θ)) \\ + (q_{m}^{(2)} \cos (m θ) + q_{m}^{(1)} \sin (m θ)) (k_{n}^{(2)} \cos (n θ) + k_{n}^{(1)} \sin (n θ)) \\ = q_{m}^{(1)} k_{n}^{(1)} \cos (m θ) \cos (n θ) - q_{m}^{(1)} k_{n}^{(2)} \cos (m θ) \sin (n θ) \\ - q_{m}^{(2)} k_{n}^{(1)} \sin (m θ) \cos (n θ) + q_{m}^{(2)} k_{n}^{(2)} \sin (m θ) \sin (n θ) \\ + q_{m}^{(2)} k_{n}^{(2)} \cos (m θ) \cos (n θ) + q_{m}^{(2)} k_{n}^{(1)} \cos (m θ) \sin (n θ) \\ + q_{m}^{(1)} k_{n}^{(2)} \sin (m θ) \cos (n θ) + q_{m}^{(1)} k_{n}^{(1)} \sin (m θ) \sin (n θ) \end{aligned}

接着继续之前先复习一下三角函数的和差公式：

\begin{aligned} \sin (a + b) & = \sin a \cos b + \cos a \sin b, \\ \sin (a - b) & = \sin a \cos b - \cos a \sin b, \\ \cos (a + b) & = \cos a \cos b - \sin a \sin b, \\ \cos (a - b) & = \cos a \cos b + \sin a \sin b . \end{aligned}

回到上面的式子，整理得到：

\begin{aligned} ⟨ f_{q} (x_{m}, m), f_{k} (x_{n}, n) ⟩ \\ = q_{m}^{(1)} k_{n}^{(1)} (\cos (m θ) \cos (n θ) + \sin (m θ) \sin (n θ)) \\ + q_{m}^{(1)} k_{n}^{(2)} (- \cos (m θ) \sin (n θ) + \sin (m θ) \cos (n θ)) \\ + q_{m}^{(2)} k_{n}^{(1)} (- \sin (m θ) \cos (n θ) + \cos (m θ) \sin (n θ)) \\ + q_{m}^{(2)} k_{n}^{(2)} (\sin (m θ) \sin (n θ) + \cos (m θ) \cos (n θ)) \\ = q_{m}^{(1)} k_{n}^{(1)} \cos ((m - n) θ) + q_{m}^{(1)} k_{n}^{(2)} \sin ((m - n) θ) \\ - q_{m}^{(2)} k_{n}^{(1)} \sin ((m - n) θ) + q_{m}^{(2)} k_{n}^{(2)} \cos ((m - n) θ) \\ = (q_{m}^{(1)} k_{n}^{(1)} + q_{m}^{(2)} k_{n}^{(2)}) \cos ((m - n) θ) + (q_{m}^{(1)} k_{n}^{(2)} - q_{m}^{(2)} k_{n}^{(1)}) \sin ((m - n) θ) \\ = (q_{m}^{(1)} k_{n}^{(1)} + q_{m}^{(2)} k_{n}^{(2)}) \cos ((m - n) θ) - (q_{m}^{(2)} k_{n}^{(1)} - q_{m}^{(1)} k_{n}^{(2)}) \sin ((m - n) θ) \\ = g (x_{m}, x_{n}, m - n) \end{aligned}

这就证明了上述关系成立：位置 $m$ 的 query 和位置 $n$ 的 key 的内积即为函数 $g$ 。

把上面的式子用矩阵向量乘的形式来表达就是：

\begin{aligned} ⟨ f_{q} (x_{m}, m), f_{k} (x_{n}, n) ⟩ \\ = {[(\begin{array}{c} \cos (m θ) & - \sin (m θ) \\ \sin (m θ) & \cos (m θ) \end{array}) (\begin{array}{c} q_{m}^{(1)} \\ q_{m}^{(2)} \end{array})]}^{⊤} [(\begin{array}{c} \cos (n θ) & - \sin (n θ) \\ \sin (n θ) & \cos (n θ) \end{array}) (\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array})] \\ = (\begin{array}{c} q_{m}^{(1)} & q_{m}^{(2)} \end{array}) (\begin{array}{c} \cos (m θ) & \sin (m θ) \\ - \sin (m θ) & \cos (m θ) \end{array}) (\begin{array}{c} \cos (n θ) & - \sin (n θ) \\ \sin (n θ) & \cos (n θ) \end{array}) (\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array}) \\ = (\begin{array}{c} q_{m}^{(1)} & q_{m}^{(2)} \end{array}) (\begin{array}{c} \cos (m θ) \cos (n θ) + \sin (m θ) \sin (n θ) & - \cos (m θ) \sin (n θ) + \sin (m θ) \cos (n θ) \\ - \sin (m θ) \cos (n θ) + \cos (m θ) \sin (n θ) & \sin (m θ) \sin (n θ) + \cos (m θ) \cos (n θ) \end{array}) (\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array}) \\ = (\begin{array}{c} q_{m}^{(1)} & q_{m}^{(2)} \end{array}) (\begin{array}{c} \cos ((m - n) θ) & - \sin ((m - n) θ) \\ \sin ((m - n) θ) & \cos ((m - n) θ) \end{array}) (\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array}) \end{aligned}

上面的推导假定词嵌入维度为 2 维向量。对于 $d \geq 2$ 的通用情况，将词嵌入向量元素按两两一组分组，每组应用同样的旋转操作，且每组的旋转角度计算方式如下：

θ_{j} = 10000^{- 2 (j - 1) / d}, j \in [1, 2, \dots, d / 2]

综上，RoPE 的 self-attention 操作流程为：对 token 序列中的每个词嵌入向量，首先计算对应的 query 和 key 向量，然后对每个 token 位置计算对应的旋转位置编码，接着对 query 和 key 向量的元素按两两一组应用旋转变换，最后计算 query 和 key 之间的内积得到 self-attention 的计算结果。

5. RoPE 的性质

5.1 远程衰减

可以看到，RoPE 形式上和 Sinusoidal 位置编码有一定相似性，只不过 Sinusoidal 位置编码是加性的，而 RoPE 可视为乘性的。在 $θ_{i}$ 的选择上，同样沿用了 Sinusoidal 位置编码的方案，即 $θ_{i} = 10000^{- 2 i / d}$ ，它可以带来一定的远程衰减性。

具体证明如下：将 $q, k$ 两两分组后，加上 RoPE 后的内积可以用复数乘法表示为：

(R_{m} q)^{⊤} (R_{n} k) = Re [\sum_{i = 0}^{d / 2 - 1} q_{[2 i : 2 i + 1]} k_{[2 i : 2 i + 1]}^{*} e^{i (m - n) θ_{i}}]

记 $h_{i} = q_{[2 i : 2 i + 1]} k_{[2 i : 2 i + 1]}^{*}$ ， $S_{j} = \sum_{i = 0}^{j - 1} e^{i (m - n) θ_{i}}$ ，并约定 $h_{d / 2} = 0, S_{0} = 0$ ，由 Abel 变换（分部求和法）可以得到：

\sum_{i = 0}^{d / 2 - 1} q_{[2 i : 2 i + 1]} k_{[2 i : 2 i + 1]}^{*} e^{i (m - n) θ_{i}} = \sum_{i = 0}^{d / 2 - 1} h_{i} (S_{i + 1} - S_{i}) = - \sum_{i = 0}^{d / 2 - 1} S_{i + 1} (h_{i + 1} - h_{i})

所以：

\begin{aligned} | \sum_{i = 0}^{d / 2 - 1} q_{[2 i : 2 i + 1]} k_{[2 i : 2 i + 1]}^{*} e^{i (m - n) θ_{i}} | & = | \sum_{i = 0}^{d / 2 - 1} S_{i + 1} (h_{i + 1} - h_{i}) | \\ \leq \sum_{i = 0}^{d / 2 - 1} | S_{i + 1} | | h_{i + 1} - h_{i} | \\ \leq (max_{i} | h_{i + 1} - h_{i} |) \sum_{i = 0}^{d / 2 - 1} | S_{i + 1} | \end{aligned}

因此可以考察 $\frac{1}{d / 2} \sum_{i = 1}^{d / 2} | S_{i} |$ 随相对距离的变化情况来体现衰减性。可以观察到随着相对距离增大，内积结果呈现衰减趋势。因此，选择 $θ_{i} = 10000^{- 2 i / d}$ 确实能带来一定的远程衰减性。

5.2 线性场景

最后指出，RoPE 是目前唯一一种可用于线性 Attention 的相对位置编码。这是因为其他相对位置编码直接基于 Attention 矩阵进行操作，而线性 Attention 并不事先计算 Attention 矩阵，因此无法应用。RoPE 以绝对位置编码的方式实现相对位置编码，不需要操作 Attention 矩阵，因而具备应用到线性 Attention 的可能性。

线性 Attention 的常见形式是：

Attention (Q, K, V)_{i} = \frac{\sum_{j = 1}^{n} sim (q_{i}, k_{j}) v_{j}}{\sum_{j = 1}^{n} sim (q_{i}, k_{j})} = \frac{\sum_{j = 1}^{n} ϕ (q_{i})^{⊤} φ (k_{j}) v_{j}}{\sum_{j = 1}^{n} ϕ (q_{i})^{⊤} φ (k_{j})}

其中 $ϕ, φ$ 是值域非负的激活函数。可以看到，线性 Attention 也是基于内积的，因此很自然的想法是将 RoPE 插入到内积中：

\frac{\sum_{j = 1}^{n} [R_{i} ϕ (q_{i})]^{⊤} [R_{j} φ (k_{j})] v_{j}}{\sum_{j = 1}^{n} [R_{i} ϕ (q_{i})]^{⊤} [R_{j} φ (k_{j})]}

但这样存在的问题是，内积 $[R_{i} ϕ (q_{i})]^{⊤} [R_{j} φ (k_{j})]$ 可能为负数，因此不再是常规的概率注意力，且分母有为零的风险，可能带来优化上的不稳定。考虑到 $R_{i}, R_{j}$ 都是正交矩阵，不改变向量的模长，因此可以抛弃常规的概率归一化要求，使用如下运算作为一种新的线性 Attention：

\frac{\sum_{j = 1}^{n} [R_{i} ϕ (q_{i})]^{⊤} [R_{j} φ (k_{j})] v_{j}}{\sum_{j = 1}^{n} ϕ (q_{i})^{⊤} φ (k_{j})}

也就是说，RoPE 只插入分子中，分母保持不变。这样的注意力不再是基于概率的（注意力矩阵不再满足非负归一性），但某种意义上也是一种归一化方案。目前也没有证据表明非概率式的注意力效果更差（例如 Nyströmformer 也未严格依据概率分布构建注意力）。因此将其作为候选方案之一进行实验，初步实验结果显示这样的线性 Attention 也是有效的。

5.3 RoPE 的长度扩展

在 LLM 的应用中，有一个非常重要的参数——上下文长度（max context length）。更长的上下文长度允许进行更多轮次的对话、对更长的文本进行总结分析，也允许生成更长的文章。然而在训练 LLM 时，训练语料大部分不够长，许多 LLM 训练时设计的最大文本长度仅为 2k（即最长 2048 个 token）。那么，能否在训练时使用较短的文本，而在推理时扩展到长文本上呢？

这是可行的，可以对 RoPE 进行长度扩展。下面介绍三种扩展方案。

5.3.1 直接外推

直接外推即继续沿用现有位置编码公式，不做任何修改。在扩展长度不太大时（例如由 2k 扩展到 2.5k），此方法对性能的影响不大。旋转位置编码只与相对位置 $m - n$ 的大小有关，通常具有远程衰减性，即相对距离越大的两个 token 相关性越弱。

因此，如果模型已从训练数据中学习到 token 之间在 0-2k 范围内合适的衰减规律，将其应用到 0-2.5k 通常也没有问题。但若扩展到更长的长度（例如从 2k 扩展到 32k），直接外推通常会严重影响性能。因为学习到的衰减规律可能在 5k 处就完全衰减为零，导致无法捕捉超过 5k 相对距离的 token 之间的相互作用。

总结：直接外推对衰减规律在长距离情况下的使用容易出现问题。为减少性能影响，可以让训练好的模型在更长的上下文上做少量步骤的微调。

5.3.2 线性内插

线性内插需要改变位置编码公式，等效于将位置序号等比例缩小。

例如从 2k 扩展到 32k 时，等效于将位置序号缩小为原来的 1/16。线性内插未改变模型学习到的衰减规律的应用范围，不做微调时其效果一般优于直接外推方案。但当扩展倍数非常大时（如从 2k 到 32k），性能也会明显受影响。原因在于短距离情况下的使用受到较大影响：本来距离为 1 的两个 token，扩展后相当于距离为 1/16，而衰减规律在短距离时可能变化率极大，对相关性的评估可能偏离合理值。

应用线性内插时，在长文本上做少量步骤的微调也能明显改善性能。

5.3.3 NTK 扩展方式

这种方式综合了外推和内插的优点，做长度扩展后即使不微调也能保持较好的性能。

前面的分析表明：直接外推对衰减规律在长距离情况下的使用容易出问题，在短距离下不受影响；线性内插对衰减规律在短距离下的使用容易出问题，在长距离下影响较小。那么能否将两者综合——在短距离情况下具有外推特性（与扩展前基本一致），在长距离情况下具有内插特性（缩放到扩展前的范围）？

观察 RoPE 位置编码的元素计算公式，可以发现 $i$ 越大，三角函数对应的角频率系数越小（即越低频），三角函数变化越慢。由此可得到直观结论：短距离之间的差异主要体现在高频分量（ $i$ 较小）上；长距离之间的差异主要体现在低频分量（ $i$ 较大）上。

为了在短距离情况下具有外推特性、长距离情况下具有内插特性，可以设计一个与频率相关的位置序号缩放因子：在最高频时取值为 1（与扩展前一致），在最低频时恰好为缩放倍数的倒数（缩放到扩展前的范围）。一种有效的选择方案是对 base 做指数缩放。NTK 扩展方式的要点是高频外推、低频内插，实现方法是直接对底数 base 进行缩放，类似进制编码转换。采用 NTK 扩展到长文本，即使不做微调，性能也仅略有下降。

6. 代码实现

旋转位置嵌入的简单实现使用前面所示的块对角矩阵形式。在实践中，这种实现方式效率较低，更优化的形式很容易获得。RoPE 的原始实现可在 roformer 和 bert4keras 中找到。

此外，在 x-transformers、GPT-Neo、GPT-NeoX 和 Mesh Transformer JAX 中也实现了旋转位置嵌入。以下是从这些代码库中提取的 PyTorch 实现。

python

import torch


class Rotary(torch.nn.Module):
    def __init__(self, dim, base=10000):
        super().__init__()
        inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer("inv_freq", inv_freq)
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x, seq_dim=1):
        seq_len = x.shape[seq_dim]
        if seq_len != self.seq_len_cached:
            self.seq_len_cached = seq_len
            t = torch.arange(x.shape[seq_dim], device=x.device).type_as(self.inv_freq)
            freqs = torch.einsum("i,j->ij", t, self.inv_freq)
            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)
            self.cos_cached = emb.cos()[:, None, None, :]
            self.sin_cached = emb.sin()[:, None, None, :]
        return self.cos_cached, self.sin_cached


# Rotary pos emb helpers

def rotate_half(x):
    x1, x2 = x[..., : x.shape[-1] // 2], x[..., x.shape[-1] // 2 :]
    # dim=-1 triggers a bug in torch < 1.8.0
    return torch.cat((-x2, x1), dim=x1.ndim - 1)


@torch.jit.script
def apply_rotary_pos_emb(q, k, cos, sin):
    return (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)

总结

从理论上看，RoPE 与 Sinusoidal 位置编码有相通之处，但 RoPE 不依赖泰勒展开，更具严谨性与可解释性。从预训练模型 RoFormer 的结果来看，RoPE 具有良好的外推性，应用到 Transformer 中体现出较好的处理长文本的能力。此外，RoPE 是目前唯一一种可用于线性 Attention 的相对位置编码。

参考文献

[1] RoFormer: Enhanced Transformer with Rotary Position Embedding

[2] Euler's Formula

[3] List of Trigonometric Identities

[4] LLaMA

[5] 旋转矩阵

[6] Jianlin Su. 让研究人员绞尽脑汁的 Transformer 位置编码. https://kexue.fm/archives/8130, 2021. [Online; accessed 18-April-2021].

[7] Jianlin Su. Transformer 升级之路：2、博采众长的旋转式位置编码. https://kexue.fm/archives/8265, 2021. [Online; accessed 18-April-2021].

[8] Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, and Yunfeng Liu. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv preprint arXiv:2104.09864, 2021.

旋转式位置编码（RoPE） ​

1. 基本概念 ​

2. 绝对位置编码 ​

3. 旋转式位置编码 ​

3.1 基本思路 ​

3.2 求解过程 ​

3.3 编码形式 ​

3.4 LLaMA 模型中的 RoPE ​

3.4.1 Step 1：初始化 θ 矩阵 ​

3.4.2 Step 2：计算 cos 矩阵和 sin 矩阵 ​

3.4.3 Step 3：计算 Query 向量 ​

4. RoPE 证明过程 ​

4.1 简单证明 ​

4.2 完整证明 ​

5. RoPE 的性质 ​

5.1 远程衰减 ​

5.2 线性场景 ​

5.3 RoPE 的长度扩展 ​

5.3.1 直接外推 ​

5.3.2 线性内插 ​

5.3.3 NTK 扩展方式 ​

6. 代码实现 ​

总结 ​

参考文献 ​