Deep Paper

介绍

强化学习依赖自举 (bootstrapping) : 用估计去更新另一个估计。但当自举与函数逼近和离策略数据结合时，经常会出现不稳定性——即所谓的“致命三角”。两种广泛使用的价值估计方法在表面上的稳定性谱上位于相反两端: 时序差分学习 (TD) 简单且增量式，但在离策略时可能发散；拟合 Q 迭代 (FQI) 在实践中 (尤其是批量设置下) 通常被观察到更稳定。

现有文献长期以来以非形式化的方式描述这些差异: TD 每个目标做一次更新，FQI 实际上对回归目标求精确解 (通常被视为对每个目标做“无限次”更新) ，部分 FQI (PFQI) 处于两者之间 (深度 Q 网络 (DQN) 中的目标网络就是一个显著例子) 。然而，这种传统视角未能捕捉这些算法之间的根本联系，且可能导致错误结论——例如认为 TD 的收敛必然意味着 FQI 的收敛。

本文完全重构了这种关系。作者揭示，在线性函数逼近的情况下，TD、FQI 和 PFQI 都是用于同一目标线性系统 (即最小二乘时序差分 (LSTD) 系统) 的同一类预调节迭代解法的不同实例。它们仅在所使用的特定预调节器 (preconditioner) 上不同。这一简单的重新解释使我们能够用经典的线性系统工具 (矩阵分裂、预调节、谱理论) 取代混乱的算法专属分析，并给出严格的充分必要收敛条件，这些条件不依赖于常见但有时不必要的假设，例如特征列线性无关。本质上，稳定性的关键不在于“做了多少次更新”，而在于该方法使用了“哪个预调节器”。

在本文中，我们将展开这一统一视角，提供必要的线性代数直觉，推导从算法到预调节器的映射，并解释核心收敛结果及其实践含义。若你熟悉基本强化学习概念 (如贝尔曼方程和 TD) 并具备基础线性代数知识，你将能顺利跟进。

背景与符号: 线性 RL 的图景

我们从策略 \(\pi\) 的经典贝尔曼方程开始，对所有状态-动作对向量化表示:

Bellman equation.

策略 \(\pi\) 的贝尔曼方程，其中 \(Q_\pi\) 为 Q 函数，\(R\) 为奖励向量，\(P_\pi\) 为由策略 \(\pi\) 导致的马尔可夫转移矩阵。

在大规模的状态-动作空间中，将 \(Q_\pi\) 以表格形式表示通常不可行。相反，我们使用线性函数逼近: 每个状态-动作对 \((s,a)\) 用一个 \(d\) 维特征向量 \(\phi(s,a) \in \mathbb{R}^d\) 表示。这些特征向量按行堆叠形成特征矩阵 \(\Phi \in \mathbb{R}^{|\mathcal{S}\times\mathcal{A}| \times d}\):

Feature matrix.

特征矩阵 \(\Phi\)，其中每一行是一个状态-动作对的特征向量。

有了它，我们用 \(Q_\theta(s,a) = \phi(s,a)^\top \theta\) (参数向量 \(\theta \in \mathbb{R}^d\)) 来近似 Q 函数。

论文关注这些算法的期望或总体层面行为。在这一层面上，关键的数据导出矩阵是特征协方差矩阵 (\(\Sigma_{\mathrm{cov}}\)) 和交叉协方差矩阵 (\(\Sigma_{\mathrm{cr}}\)) :

Covariances and cross-covariance.

状态-动作协方差矩阵 \(\Sigma_{\mathrm{cov}}\) 与交叉协方差矩阵 \(\Sigma_{\mathrm{cr}}\) 的定义，它们捕捉在采样分布 \(\mu\) 和策略 \(\pi\) 下特征之间的关系。这里 \(\mathbf{D} = \mathrm{diag}(\mu)\) 是采样概率的对角矩阵。

另外，还定义了平均特征-奖励向量 (\(\theta_{\phi,r}\)) :

Feature–reward vector.

平均特征-奖励向量 \(\theta_{\phi,r}\)，表示期望的特征化奖励。

这些量定义了在使用线性函数逼近时算法试图求解的“目标线性系统”。把 \(Q_\theta = \Phi\theta\) 代入贝尔曼方程并投影到特征空间，可紧凑写成:

\[ (\Sigma_{\mathrm{cov}} - \gamma \Sigma_{\mathrm{cr}}) \theta = \theta_{\phi,r}. \]

求解该系统 (在必要时以 Moore–Penrose 或 Drazin 意义) 会得到参数 \(\theta\)，其诱导的线性 Q 近似满足投影后的贝尔曼方程。

三种算法，一个线性系统视角

本文的核心洞见是: TD、FQI 和 PFQI 本质上都是用来求解目标线性系统 \(A \theta = b\) 的同一类迭代方法，其中 \(A = \Sigma_{\mathrm{cov}} - \gamma \Sigma_{\mathrm{cr}}\)，\(b = \theta_{\phi,r}\)。它们唯一的不同在于所使用的特定预调节器 \(M\)。

求解 \(A \theta = b\) 的标准预调节定常迭代形式为:

\[ \theta_{k+1} = (I - M A)\, \theta_k + M b, \]

其中 \(I\) 是单位矩阵，\(M\) 是非奇异的预调节矩阵。该迭代的收敛性质在很大程度上取决于 \(M\) 的选择。未做任何预调节的“原始”定常方法对应 \(M = I\)。

下面考察每种算法如何嵌入此框架:

时序差分学习 (TD)

线性函数逼近下的期望 TD 更新可写为:

TD preconditioner form.

期望 TD 更新方程，重排为预调节迭代形式。

此处，TD 使用常数标量乘以单位矩阵作为预调节器: \(M_{\mathrm{TD}} = \alpha I\)，其中 \(\alpha\) 为学习率。其迭代矩阵为 \(H_{\mathrm{TD}} = I - \alpha A\)。

拟合 Q 迭代 (FQI)

当在每次迭代中用线性最小二乘回归求得最小范数解时，FQI 的更新规则为:

FQI preconditioner form.

FQI 更新方程，展示其隐含的预调节器。

当 \(\Sigma_{\mathrm{cov}}\) 可逆时，预调节器为 \(M_{\mathrm{FQI}} = \Sigma_{\mathrm{cov}}^{-1}\)。FQI 的迭代矩阵为 \(H_{\mathrm{FQI}} = I - \Sigma_{\mathrm{cov}}^{-1} A = \gamma \Sigma_{\mathrm{cov}}^{-1} \Sigma_{\mathrm{cr}}\)。即便 \(\Sigma_{\mathrm{cov}}\) 是奇异的，FQI 也可被视为在 LSTD 系统的某个投影上求解，其中 \(\Sigma_{\mathrm{cov}}^{\dagger}\) 起到了预调节器的作用。

部分拟合 Q 迭代 (PFQI)

PFQI (包含 DQN 中的目标网络等技术) 固定一个目标 \(\theta_k\)，在该固定目标下进行 \(t\) 次类 TD 更新，然后再更新 \(\theta_k\) 本身。经过代数变换，该过程揭示了一个更为复杂的预调节器:

PFQI preconditioner form.

PFQI 更新方程，展示其独特的、随时间变化的预调节器。

PFQI 的预调节器为:

\[ M_{\mathrm{PFQI}} = \alpha \sum_{i=0}^{t-1} (I - \alpha \Sigma_{\mathrm{cov}})^i. \]

该表达式清楚地表明 PFQI 如何在 TD 与 FQI 之间插值:

Preconditioner transition TD -> PFQI -> FQI.

此图说明了预调节器的连续过渡。当 \(t=1\) 时，\(M_{\mathrm{PFQI}} = M_{\mathrm{TD}}\)。当 \(t \to \infty\) (在适当的 \(\alpha\) 与谱性质下) ，\(M_{\mathrm{PFQI}}\) 收敛到 \(M_{\mathrm{FQI}}\)。

对于合适的 \(\alpha\) 和谱性质，有 \(\alpha \sum_{i=0}^{t-1} (I - \alpha \Sigma_{\mathrm{cov}})^i \xrightarrow{t\to\infty} \Sigma_{\mathrm{cov}}^{-1}\)。因此，PFQI 在字面上表示了从简单的 \(\alpha I\) 预调节器 (TD) 向数据自适应的 \(\Sigma_{\mathrm{cov}}^{-1}\) 预调节器 (FQI) 的路径。这就是核心的统一图景。

这一视角的好处

将算法迭代重写为预调节定常迭代带来立竿见影的好处:

收敛分析归结为经典条件: 分析收敛仅需检查两个经典条件:

一致性: 右侧向量 \(b\) 必须位于矩阵 \(A\) 的列空间内 (\(b \in \mathrm{Col}(A)\)) 。这保证至少存在一个解。
谱/半收敛性: 迭代矩阵 \(H = I - MA\) 必须是半收敛的，即其幂 \(H^k\) 在 \(k \to \infty\) 时收敛。这确保迭代过程最终会收敛到一个固定点。

预调节器 \(M\) 解释了算法稳定性: 数据自适应的 \(M\) (如 FQI 的 \(\Sigma_{\mathrm{cov}}^{-1}\)) 能为迭代矩阵 \(H\) 提供更可取的谱性质，相较于固定标量 \(M\) (如 TD 的 \(\alpha I\)) 。这直接解释了在经验上常见的 FQI 与 TD 之间的稳定性差距。
PFQI 的行为变得清晰: 增加 PFQI 的 \(t\) 连续地改变其预调节器 \(M_{\mathrm{PFQI}}\)。有时这样能稳定算法 (因其更接近 \(\Sigma_{\mathrm{cov}}^{-1}\)) ，但有时若特征几何导致 \(M_{\mathrm{PFQI}}\) 无限制增长或行为异常，则可能使迭代不稳定。

核心方法: 代数的引导游览

1) 目标系统就是 LSTD

所有三种算法显式或隐式试图求解的目标线性系统为:

\[ A_{\text{LSTD}} \theta = b_{\text{LSTD}}, \quad A_{\text{LSTD}} := \Sigma_{\mathrm{cov}} - \gamma\Sigma_{\mathrm{cr}}, \quad b_{\text{LSTD}} := \theta_{\phi,r}. \]

LSTD 的目标线性系统。其解表示在给定动态和特征下对 Q 函数的最佳线性近似的参数。

求解该系统 (当一致时) 正是最小二乘时序差分 (LSTD) 算法以闭式形式所做的事情:

LSTD closed-form.

使用 Moore–Penrose 伪逆的 \(\theta_{\text{LSTD}}\) 闭式解，说明 LSTD 如何直接求解目标线性系统。

然而，TD、PFQI 和 FQI 是通过不同的预调节迭代来迭代求解该系统的算法。

2) 将算法映射到预调节器 (推导概要)

论文详细推导了每个算法的更新规则如何表达为统一的预调节迭代形式 \(\theta_{k+1} = (I - M A)\theta_k + M b\)。

TD: 线性逼近器的期望 TD 更新为:
\[ \theta_{k+1} = (I - \alpha (\Sigma_{\mathrm{cov}} - \gamma \Sigma_{\mathrm{cr}})) \theta_k + \alpha \theta_{\phi,r}. \]
这直接与 \(M_{\mathrm{TD}} = \alpha I\) 的预调节形式相匹配。
FQI: 每次 FQI 迭代将 \(Q_\theta\) 适配到回归目标 \(\gamma Q_{\theta_k}(s',a') + r(s,a)\)。在线性特征并选择最小范数解时，更新规则是:
\[ \theta_{k+1} = \gamma \Sigma_{\mathrm{cov}}^{\dagger}\Sigma_{\mathrm{cr}}\theta_k + \Sigma_{\mathrm{cov}}^{\dagger}\theta_{\phi,r}. \]
这可以重写为求解线性系统的原始迭代方法:
\[ (I - \gamma \Sigma_{\mathrm{cov}}^{\dagger} \Sigma_{\mathrm{cr}}) \theta = \Sigma_{\mathrm{cov}}^{\dagger}\theta_{\phi,r}. \]
两边乘以 \(\Sigma_{\mathrm{cov}}\) 可恢复 LSTD 系统。因此，FQI 可视为在 LSTD 系统的某个投影上求解，其中 \(M_{\mathrm{FQI}} = \Sigma_{\mathrm{cov}}^{\dagger}\) (若 \(\Sigma_{\mathrm{cov}}\) 可逆，则化为 \(\Sigma_{\mathrm{cov}}^{-1}\)) 充当预调节器。
PFQI: PFQI 更新涉及在固定目标下做 \(t\) 次内部类 TD 步骤，然后更新目标。经过细致的代数操作 (论文附录中详述) ，最终整合为相同的预调节定常形式，其独特的预调节器为:
\[ M_{\mathrm{PFQI}} = \alpha \sum_{i=0}^{t-1} (I - \alpha \Sigma_{\mathrm{cov}})^i. \]

3) 预调节的直觉

预调节器旨在将线性系统变换为等价但对迭代求解器具有更好谱性质的系统。目标通常包括聚簇特征值、减小迭代矩阵的谱半径或改善系统的条件数，从而带来更快且更稳定的收敛。

TD 的预调节器 (\(\alpha I\)) 是平凡的。它仅仅缩放了 \(A_{\text{LSTD}}\) 的特征值而不对问题的具体结构做适应。这种对数据几何的无知是 TD 有时会不稳定的原因。
FQI 的预调节器 (\(\Sigma_{\mathrm{cov}}^{-1}\) 或 \(\Sigma_{\mathrm{cov}}^{\dagger}\)) 是数据自适应的。它包含了关于特征协方差和采样分布的信息。这能使迭代与数据的内在几何对齐，常常带来更好的收缩性质与更稳定的收敛。
PFQI 的预调节器介于两者之间。随着 \(t\) 的增加，\(M_{\mathrm{PFQI}}\) 从类似 \(\alpha I\) 逐渐过渡到类似 \(\Sigma_{\mathrm{cov}}^{-1}\)。这意味着 PFQI 的稳定性会随 \(t\) 演化，可能受益于 FQI 的自适应性质，但如果过渡过程出问题也可能导致不稳定。

关键结构性条件: 一致性与秩不变性

在深入每种方法的收敛性之前，必须弄清目标线性系统什么时候存在解，以及该解是否唯一。

目标系统的一致性 (存在某个 \(\theta\) 满足 \(A_{\text{LSTD}}\theta = b_{\text{LSTD}}\)) 等价于 \(b_{\text{LSTD}}\) 落在 \(A_{\text{LSTD}}\) 的列空间内 (\(b_{\text{LSTD}} \in \mathrm{Col}(A_{\text{LSTD}})\)) 。由于 \(b_{\text{LSTD}}\) 依赖奖励函数 \(R\)，一致性通常依赖于具体的 \(R\)。
秩不变性 (论文中的条件 1) 是一个关键的结构性条件，它保证目标线性系统对所有奖励向量 \(R\) 都一致 (即“通用一致”) 。它表述为特征空间的有效维度在经过动态映射时被保留:

\[ \mathrm{Rank}(\Phi) = \mathrm{Rank}(\Phi^\top \mathbf{D}(I - \gamma P_\pi)\Phi). \]

秩不变性确保编码-解码过程保留了特征空间的维度。

这等价于若干其它有用形式，例如 \(\mathrm{Rank}(\Sigma_{\mathrm{cov}}) = \mathrm{Rank}(\Sigma_{\mathrm{cov}} - \gamma \Sigma_{\mathrm{cr}})\) 或 \(\mathrm{Col}(\Sigma_{\mathrm{cov}} - \gamma \Sigma_{\mathrm{cr}}) = \mathrm{Col}(\Phi^\top)\)。当秩不变性成立时，目标线性系统是通用一致的: 对于任意奖励向量 \(R\)，都有解存在。

为什么秩不变性重要: 它将两类不同的“秩问题”区分开来。仅仅要求 \(\Phi\) 列满秩 (特征线性无关) 既不是保证秩不变性的必要条件，也不是充分条件。为了通用一致，你需要秩不变性——它防止了特征通过动力学映射时产生的隐藏抵消。

可视化小结: 编码器—解码器视角

把 \(A_{\text{LSTD}} = \Phi^\top \mathbf{D} (I - \gamma P_\pi) \Phi\) 的结构用编码器—解码器的眼光来看是很有帮助的:

\(\Phi\) 充当一个编码器 , 将高维的状态-动作空间映射到 \(d\) 维特征空间。
系统的动力学 \(\mathbf{D}(I - \gamma P_\pi)\) 在原始状态-动作空间上被应用，并由采样分布 \(\mathbf{D}\) 加权。
\(\Phi^\top\) 充当一个解码器 , 将结果变换回特征坐标形式。

Encoder–Decoder diagram.

关于 LSTD 矩阵 \(A_{\text{LSTD}}\) 的编码器—解码器观点。特征 \(\Phi\) 对状态-动作空间做编码，动力学 \(D(I-\gamma P_\pi)\) 被施加，随后 \(\Phi^\top\) 解码回特征空间。

如果这种编码—解码过程保留了系统动力学的基本谱性质 (例如正半稳定性) ，那么带有常数预调节器的 TD 类方法有可能收敛。如果 \(\Phi\) 在重要方向上做了压缩 (例如高度相关的特征) ，编码可能破坏稳定性，导致发散。

收敛结果: 简明导览

通过将算法视为预调节的定常迭代，作者为每个算法推导了必要且充分的收敛条件。以下是主要结论及其直觉。

1) FQI 的收敛

定理 1 (非形式) : FQI 从任一初始 \(\theta_0\) 收敛，当且仅当:

FQI 的线性系统是一致的: \(\Sigma_{\mathrm{cov}}^{\dagger} \theta_{\phi,r} \in \mathrm{Col}(I - \gamma \Sigma_{\mathrm{cov}}^{\dagger} \Sigma_{\mathrm{cr}})\)。
FQI 的迭代矩阵 \(H_{\mathrm{FQI}} = \gamma \Sigma_{\mathrm{cov}}^{\dagger} \Sigma_{\mathrm{cr}}\) 是半收敛的。

直觉: FQI 实际上是一个 (可能是投影的) 线性系统的定常迭代。它的收敛依赖于该系统有解 (即一致性) 以及其迭代矩阵 \(H_{\mathrm{FQI}}\) 的幂会收敛 (半收敛) ，即没有增长模式。FQI 收敛到的任何固定点也是目标 LSTD 系统的一个解。

特例:

若特征线性无关且秩不变性成立，收敛条件可简化为 \(\rho(\gamma \Sigma_{\mathrm{cov}}^{-1} \Sigma_{\mathrm{cr}}) < 1\) (\(\rho\) 表示谱半径) 。这是一个强且简单的条件，保证固定点的存在与唯一性。
在过参数化设置 (\(\Phi\) 行满秩) 下，FQI 通常从任意初始点收敛有保证。

2) TD 的收敛

定理 2 (非形式) : TD 从任一初始 \(\theta_0\) 收敛，当且仅当:

目标线性系统是一致的: \(\theta_{\phi,r} \in \mathrm{Col}(A_{\text{LSTD}})\)。
TD 的迭代矩阵 \(H_{\mathrm{TD}} = I - \alpha A_{\text{LSTD}}\) 是半收敛的。

直觉: TD 使用常数预调节器，其收敛性质类似于原始的迭代方法。因此，其稳定性取决于 LSTD 矩阵 \(A_{\text{LSTD}}\) 本身的固有性质。

重要推论 (推论 3 和 4) :

\(A_{\text{LSTD}}\) 的稳定性条件: TD 是稳定的 (即存在某个学习率 \(\alpha>0\) 使其收敛) 当且仅当 \(A_{\text{LSTD}}\) 是正半稳定的，其指数 (index) 不超过 1，并且目标线性系统一致。
学习率区间: 若 TD 是稳定的，则当且仅当学习率 \(\alpha\) 落在某个特定区间 \((0,\epsilon)\) 内时 TD 收敛，其中 \(\epsilon\) 依赖于 \(A_{\text{LSTD}}\) 的特征值。

Epsilon bound for TD learning rates.

在 TD 稳定的情况下，保证 TD 收敛的学习率上界 \(\epsilon\)。

这形式化了一个常见的经验观察: 若较大学习率导致发散，尝试更小的学习率可能有助。本质上，如果 TD 能收敛，那么采用足够小的学习率它就会收敛。

在在策略 (on-policy) 设置下 (采样分布 \(\mu\) 与目标策略 \(\pi\) 的平稳分布一致，即 \(\mu \mathbf{P}_\pi = \mu\)) ，论文证明 \(A_{\text{LSTD}}\) 是一种范围-正交-零空间 (Range-Perpendicular-to-Nullspace，RPN) 矩阵。因此，TD 在该设置下一定是稳定的，即便不假设 \(\Phi\) 列满秩。这是对经典结果的显著推广，经典结果通常需要特征线性无关的假设。

3) PFQI 的收敛

定理 4 (非形式) : PFQI 从任一初始 \(\theta_0\) 收敛，当且仅当:

LSTD 系统是一致的: \(\theta_{\phi,r} \in \mathrm{Col}(A_{\text{LSTD}})\)。
PFQI 的迭代矩阵 \(H_{\mathrm{PFQI}}\) 是半收敛的。

直觉: PFQI 的预调节器 \(M_{\mathrm{PFQI}}\) 在 \(\alpha I\) 与 \(\Sigma_{\mathrm{cov}}^{-1}\) 之间插值。其行为因此是 TD 与 FQI 的混合。然而，增加 \(t\) (每个目标的更新次数) 的效果是微妙的，并非总是使系统稳定。

关键发现:

特征的影响: 若所选特征线性不是独立的 (\(\Phi\) 非列满秩) ，在不降低学习率的情况下增加 \(t\) 往往会导致迭代发散。这是因为在这种情况下 \(M_{\mathrm{PFQI}}\) 本身可能发散，从而放大不稳定成分。对从业者的含义是: 尽管目标网络通常被视为稳定化手段，但如果特征表示较差，目标网络反而可能有害。
过参数化的“福祉”: 在每个状态-动作对由不同且线性独立的特征向量表示 (即 \(\Phi\) 行满秩) 的过参数化设置中，增加 \(t\) 可以稳定 PFQI。在这种特定情形下，\(M_{\mathrm{PFQI}}\) 中“发散”的组件在乘以 \(A_{\text{LSTD}}\) 时会被有效抵消，从而在 \(t\) 足够大且 \(\alpha\) 合适时保证收敛。

通过 PFQI 架起 TD 与 FQI 的桥梁

通过预调节器的统一视角，自然地连接了 TD、PFQI 与 FQI 的收敛性质。

TD 的稳定性推出 PFQI 的收敛: 若 TD 是稳定的，则对于任何有限的 \(t\)，存在足够小的学习率 \(\alpha\) 能保证 PFQI 收敛。直觉是小的 \(\alpha\) 使 \(M_{\mathrm{PFQI}}\) 接近 \(\alpha I\)，从而让 PFQI 继承 TD 的稳定性。
PFQI 的收敛推出 FQI 的收敛: 若在特征线性无关的假设下，PFQI 在足够大的 \(t\) 下收敛，则 FQI 也收敛。随着 \(t \to \infty\)，PFQI 的迭代矩阵 \(H_{\mathrm{PFQI}}\) 在算子范数意义下趋近于 FQI 的迭代矩阵 \(H_{\mathrm{FQI}}\)，因此极限下的收敛性质可传递。

然而，反向含义并非总是成立:

TD 的稳定性并不保证 FQI 的收敛。在某些特征几何下，随着 \(t \to \infty\)，PFQI 可接受的 \(\alpha\) 区间可能缩小为零。这意味着极限情况下没有任何 \(\alpha\) 可行，从而导致 PFQI 在非常大的 \(t\) 下发散，即便 TD 在小 \(\alpha\) 时收敛。这解释了为何 TD 的收敛并不必然意味着 FQI 的收敛。

结论是: 更多的目标更新并不总是稳定化，算法之间的关系比直觉更微妙。

关键特例: Z 矩阵系统

在特定结构假设下，收敛图景显著简化。如果 LSTD 矩阵 \(A_{\text{LSTD}}\) 是一个 Z 矩阵 (所有非对角条目都是非正的) 并且 \(\Sigma_{\mathrm{cov}}^{-1}\) 与 \(\Sigma_{\mathrm{cr}}\) 的某些属性 (与形成“弱正则分裂”相关) 被保留，那么:

TD 稳定 \(\iff\) FQI 收敛。

这意味着当相互作用的符号结构 (负的非对角项) 在特征中被保留时，预调节的权衡一致，两个方法要么同时收敛要么同时发散。

说明性例子与实践后果

编码器—解码器的保持与正交特征: 论文展示若不同状态-动作对的特征向量彼此正交，那么编码—解码过程可以完美保留系统动力学的正半稳定性。在这种理想情形下，TD 必然稳定。

Orthogonal features.

不同状态-动作对的特征向量互相正交 (\(\phi(s_i,a_i)^\top \phi(s_j,a_j) = 0\) 对 \(i \neq j\) 成立) 时，编码器—解码过程保留了系统的动力学，从而保证 TD 的稳定性。

反例: 作者给出了具体的小规模例子，展示 TD 收敛但 FQI 发散，反之亦然。这些例子实证地表明，除非额外满足结构性假设，否则一种方法的行为并不普遍地蕴含另一种方法的行为。
对 DQN / 目标网络的意义: 使用缓慢更新的目标网络 (PFQI 式行为) 之所以能有所帮助，是因为它会将有效预调节器向 \(\Sigma_{\mathrm{cov}}^{-1}\) 移动。然而，在实际中，随着特征表示是学习得到的且往往相互相关，增加目标更新次数可能无意中放大问题特征几何，导致不稳定。这解释了为什么在改变目标网络更新频率时从业者有时会观察到表现变好或变坏: 关键在于表示的质量与几何。

结论与影响

这一工作优雅的结论既简单又有力: 在离策略策略评估的线性函数逼近范畴中，TD、PFQI 与 FQI 并非根本不同的算法。相反，它们都是同一迭代方法的实例，仅由所选的预调节器区分。这个重新表述把曾经看起来像算法谜题的问题转换为一个清晰的线性代数设计问题，从而得到了更清晰、更一般的收敛条件。

实践含义:

谨慎调整学习率: TD 的稳定性通常可通过减小 \(\alpha\) 得到改善。论文形式化地表明存在一个稳定的 \(\alpha\) 区间 \((0,\epsilon)\)，其中 \(\epsilon\) 取决于 \(A_{\text{LSTD}}\) 的谱性质。
对目标网络持谨慎态度: PFQI (以及深度 RL 中的目标网络) 可以通过隐式地将有效预调节器移向 \(\Sigma_{\mathrm{cov}}^{-1}\) 来稳定学习。然而，当底层特征表示较差或在特征非列满秩的情况下过度增加 \(t\) 时，它们也可能使学习不稳定。
表示至关重要: 编码器—解码器的视角澄清了特征如何表示并压缩系统动力学是决定 TD 类预调节器是否能保留稳定性的关键因素。

未尽之路:

这一统一视角自然开启了若干有前景的未来研究方向:

推广到非线性逼近: 许多深度 RL 方法使用神经编码器后接线性读出层。本文的见解可以指导在这些学习到的嵌入空间中设计目标更新策略与预调节器 (例如自适应归一化层) 。
设计算法新思路: 矩阵分裂的视角可激发新的算法设计。可以设计在计算成本与谱改进之间取得最优折衷的预调节器 (例如 \(\Sigma_{\mathrm{cov}}^{-1}\) 的低秩或块对角近似) 。

这个统一的视角将曾经看似算法谜团的问题转化为一个有原则的数值线性代数问题: 策略性地选择或近似一个有效的预调节器。它解释了经验规律何时成立、何时会适得其反，并为稳定价值估计的有原则预调节器设计搭起了一座有希望的桥梁——连接数值线性代数与强化学习实践。

介绍#

背景与符号: 线性 RL 的图景#

三种算法，一个线性系统视角#

时序差分学习 (TD)#

拟合 Q 迭代 (FQI)#

部分拟合 Q 迭代 (PFQI)#

这一视角的好处#

核心方法: 代数的引导游览#

1) 目标系统就是 LSTD#

2) 将算法映射到预调节器 (推导概要)#

3) 预调节的直觉#

关键结构性条件: 一致性与秩不变性#

可视化小结: 编码器—解码器视角#

收敛结果: 简明导览#

1) FQI 的收敛#

2) TD 的收敛#

3) PFQI 的收敛#

通过 PFQI 架起 TD 与 FQI 的桥梁#

关键特例: Z 矩阵系统#

说明性例子与实践后果#

结论与影响#

实践含义:#

未尽之路:#

介绍