引言: 数据科学的侦探工作
想象一位医生正在治疗一名血压高得危险的患者。这名患者有不良饮食习惯、缺乏运动且患有心脏病。医生需要回答一个具体的回顾性问题: “究竟是这些因素中的哪一个导致了该患者如此高的血压?”
这不是一个预测任务。我们不是在猜测接下来会发生什么。我们是在试图解释为什么某事已经发生了。在因果推断领域,这被称为因果归因 (causal attribution) 。
传统上,这类问题通过将世界简化为“是”或“否”的问题来解决。患者是否患有高血压?是或否。药物是否有效?是或否。通过将结果二值化,研究人员可以利用现有的数学框架来寻找“必要性概率”——即如果没有该原因,结果就不会发生的可能性。
但现实世界并非二元的。血压是一个连续的数值。体重是连续的。收入是连续的。当我们强行将这些丰富、连续的数值放入二元桶中 (例如“高血压”与“正常”) ,我们会丢失大量信息。我们可能会将读数为 141 的患者与读数为 200 的患者同等对待,仅仅因为他们都在“140”这个阈值之上。
在最近一篇题为 “Causal Attribution Analysis for Continuous Outcomes” (连续结果的因果归因分析) 的研究论文中,研究人员 Shanshan Luo, Yixuan Yu, Chunchen Liu, Feng Xie 和 Zhi Geng 提出了一个开创性的框架来解决这个问题。他们开发了一种方法,可以直接对连续变量进行回顾性因果分析,而不会损失精度。
这篇文章将带你了解他们的框架,解释我们如何在数学上精准定位连续效应的成因,解耦直接和间接驱动因素,并将其应用于医疗诊断和毒理学等现实场景。
背景: 因果阶梯
为了理解这篇论文的贡献,我们必须首先确定我们在 Judea Pearl 的“因果阶梯”上的位置。
- 关联 (观察) : 变量之间的相关性 (例如,“经常锻炼的人往往血压较低”) 。
- 干预 (行动) : 预测行动的效果 (例如,“如果我强迫这群人锻炼,他们的平均血压会是多少?”) 。
- 反事实 (想象) : 回顾性分析 (例如,“我的患者没有锻炼并且患有高血压。如果他锻炼了,他的血压会是多少?”) 。
因果归因位于这个阶梯的最顶端,属于反事实领域。我们审视一个已经发生的事件——观察到的证据——并试图模拟一个替代的过去。
二值化的问题
以前的归因方法严重依赖于二元结果。例如,知道“因果概率”可以让我们说: “有 80% 的可能性是药物导致了康复。”
然而,在处理像血压 (BP) 这样的连续指标时,研究人员通常会设定一个任意阈值 (如 BP > 140) 。这会产生偏差。如果一种治疗方法将 BP 从 180 降至 145,二元检查会将其视为“失败” (仍然 > 140) 。而连续分析则会将其视为“显著改善”。这篇论文的作者认为,为了真正理解风险因素,我们必须定义能够尊重数据连续性的后验因果估计量 (posterior causal estimands) 。
核心方法: 定义估计量
研究人员介绍了一套为连续结果量身定制的新指标 (估计量) 。这些指标之所以是“后验的”,是因为它们是在观察到个体的具体证据 (实际原因和实际结果) 之后计算的。
1. 后验总因果效应 (PostTCE)
第一个也是最基本的指标是后验总因果效应。它回答了这个问题: 鉴于我们观察到一名具有特定风险因素 (\(x\)) 和特定结果 (\(\mathcal{E}\)) 的患者,原因 \(X_k\) 的存在对结果 \(Y\) 的数值有多大贡献?
在数学上,它定义为在原因存在 (\(X_k=1\)) 与原因不存在 (\(X_k=0\)) 的情况下潜在结果之间的期望差值,条件是我们实际看到的证据。

在这个方程中:
- \(\mathcal{E}\) 代表由观察到的连续结果定义的事件 (例如,血压 = 160) 。
- \(Y_{X_k=1}\) 是特定原因开启时的潜在结果。
- \(Y_{X_k=0}\) 是特定原因关闭时的潜在结果。
PostTCE 值越大,表明 \(X_k\) 是观察到的效应的更强驱动因素。
2. 分解效应: 直接和间接
在复杂系统中,原因很少孤立地起作用。不良饮食 (原因 A) 可能直接导致高血压 (结果 Y) ,但也可能导致心脏病 (中介 B) ,进而导致高血压。为了理解其机制,我们需要分解总效应。
作者定义了后验自然直接效应 (PostNDE) 。 这衡量了原因 \(X_k\) 对 \(Y\) 的影响中不通过其他变量中介的部分。它模拟了将 \(X_k\) 从 0 切换到 1,同时保持所有其他中介变量 (\(D_k\)) 处于如果 \(X_k\) 为 0 时它们自然会处于的水平。

相反, 后验自然间接效应 (PostNIE) 衡量的是通过中介变量的路径。它提出的问题是: 如果我们保持主要原因 \(X_k\) 为 1 不变,但将中介变量从“治疗”状态变为“未治疗”状态,\(Y\) 会发生多大变化?

至关重要的是,这篇论文证实,总效应仅仅是直接效应和间接效应的总和,就像标准因果推断中一样,但现在是以特定的观察证据为条件的。

3. 后验干预因果效应 (PostICE)
有时,我们想知道如果我们同时改变多个原因会发生什么。例如,“如果我没有心脏病并且我经常锻炼,我的血压会是多少?”这就是 PostICE 所捕捉的内容。

它将完全不同的一组条件 (\(x'\)) 下的潜在结果与实际观察到的结果 (\(Y\)) 进行比较。
识别: 我们如何求解方程?
定义这些指标是容易的部分。困难的部分是识别 (identification) : 证明这些理论上的反事实实际上可以通过现实世界的数据计算出来。毕竟,我们无法观察到患者既服用了药物又没服用药物的平行宇宙。
为了解决这个问题,作者依赖于三个关键假设。
假设 1: 序列可忽略性 (Sequential Ignorability)
这是因果推断中的一个标准假设。它本质上是说,没有隐藏的、未测量的混淆因子在因果链中扰乱我们变量之间的关系。
假设 2: 单调性 (Monotonicity)
作者假设原因之间具有“单调”关系。在流行病学中,这通常转化为“无预防作用”。例如,让某人接触风险因素 (如吸烟) 不应阻止他们产生随后的风险因素 (如肺损伤) ,相比于他们不吸烟的情况。

假设 3: 完美正秩 (Perfect Positive Rank) —— 关键秘诀
这是处理连续结果最关键的假设。它假设个体结果是原因加上某种误差项的函数,并且——至关重要的是——该函数保留了个体的秩 (rank) 。
可以这样理解: 如果一个学生在使用劣质教材的班级里数学成绩排在第 90 百分位,那么这个假设意味着,如果你把同一个学生转移到使用优质教材的班级,他在那个新群体中仍然会处于第 90 百分位。他们在反事实世界中相对的“能力” (误差项 \(\epsilon\)) 保持不变。
在数学上,这允许作者构建一个反事实映射 (Counterfactual Mapping) 。 如果我们知道处理组 (\(F_{x'}\)) 和对照组 (\(F_x\)) 下结果的累积分布函数 (CDF),我们就可以将特定的观察值 \(y\) 映射到其反事实对应值。

这个方程表明: 要找出结果 \(y\) 在条件 \(x'\) 下会变成什么,需取 \(y\) 在原始分布中的秩 (\(F_x(y)\)),并在新分布 (\(F^{-1}_{x'}\)) 中找到具有相同秩的值。
利用因果图简化
当变量形成有向无环图 (DAG) 时,识别变得更加优雅。作者表明,反事实映射仅取决于结果变量的“父节点” (直接原因) 。

这种简化非常强大,因为它降低了问题的维度。你不需要担心宇宙的整个历史——只需要关注你关心的变量的直接父节点。
建立了映射 \(\phi\) 后,作者证明所有复杂的估计量 (PostTCE, PostNDE 等) 都是可识别的 。 例如,PostICE 可以使用逆概率加权方法计算:

此外,作者推导出了直接和间接效应所需的嵌套反事实的显式识别公式。这涉及到对中介变量 (\(D_k\)) 可能状态的复杂概率求和,但论文证明这些都可以使用观测数据求解。


估计: 两步过程
既然我们知道数学原理是可行的,那么我们实际上如何计算这些数字呢?作者提出了一个两步估计过程。
第一步: 恢复反事实映射 首先,对于数据集中的每个观测值,算法估计该个体在不同条件下结果将会是多少。他们通过最小化一个特定的目标函数来实现这一点,该函数的灵感来自位数回归。
目标函数本质上是试图找到一个值 \(t\),使得两个分布的分位数对齐。

通过为特定的个体单元 \(i\) 最小化这个函数,我们得到了估计的反事实结果 \(\hat{\phi}\)。

第二步: 估计估计量 一旦为样本中的每个个体生成了反事实结果,计算 PostTCE 或 PostNDE 就变成了简单的平均问题。我们只需取观察值与估计的反事实值之间差异的样本均值即可。
实验与结果
为了展示该方法的威力,作者将其应用于合成数据集和真实世界的数据集。
高血压示例
他们创建了一个模拟高血压 (BP) 成因的合成数据集。因果网络包括运动 (\(X_1\))、饮食 (\(X_2\))、胃灼热 (\(X_3\))、心脏病 (\(X_4\)) 和胸痛 (\(X_5\))。

目标是为特定的患者档案归因高血压的成因。
结果 1: 连续分析的威力 作者将他们的方法与“二元”方法 (在 140 处对血压进行二值化) 进行了比较。 对于一名具有所有风险因素 (\(X = (1,1,1,1,1)\)) 且患有高血压的患者,二元方法将心脏病 (\(X_4\)) 识别为一个风险因素,但认为胸痛 (\(X_5\)) 和胃灼热 (\(X_3\)) 的影响为零。
连续方法 (PostTCE) 在主要驱动因素上达成了一致,但提供了更细致的差别。它表明心脏病 (\(X_4\)) 确实是主导驱动因素 (PostTCE \(\approx 17.0\)) ,但它也量化了运动 (\(X_1\)) 的直接和间接贡献。

在这个表格中,注意 \(X_1\) (运动) 的分拆。它的 PostNDE 为 3.8,而 PostNIE 为 6.8。这讲述了一个临床故事: 缺乏运动直接导致血压升高,但其间接导致血压升高的幅度是直接影响的两倍 (可能是通过导致心脏病) 。这是二元“是/否”分析无法提供的见解。
结果 2: 交互效应 (PostICE) 作者还使用 PostICE 查看了原因的交互作用。他们发现,对于不运动且患有心脏病的个体,同时解决这两个问题 (\(x'=(0,0)\)) 会导致血压大幅下降 (-18.19 个单位) 。

真实应用: 发育毒性
作者还将他们的方法应用于国家毒理学计划 (NTP) 的数据集。目标: 确定一种名为 TCPP 的化学物质是否会导致小鼠体重异常减轻。
这里的因果图比较简单:
- 性别 (\(X_1\)) -> 体重 (\(Y\))
- 剂量 (\(X_2\)) -> 器官疾病 (\(X_3\)) -> 体重 (\(Y\))

分析揭示了关于毒性通路的有趣见解。
- 性别 (\(X_1\)): 具有很大的直接效应。雄性比雌性重,因此性别是体重差异的一个强“原因”。
- 剂量 (\(X_2\)): 剂量的 PostNDE 为 0。这意味着毒素不直接导致体重减轻。
- 器官疾病 (\(X_3\)): 器官疾病的 PostTCE 显著。
- 间接效应 (\(X_2\)): 然而,剂量的 PostNIE (间接效应) 是显著的。

解读: 毒素 (\(X_2\)) 确实导致了体重减轻,但完全是间接的。毒素导致器官疾病 (\(X_3\)),而器官疾病导致了体重减轻。这种机制细节的层级帮助研究人员准确理解毒素如何构成风险,而不仅仅是知道它确实构成风险。
此外,查看小鼠的 PostICE (干预效应) :

表 S14 显示,将小鼠的状态从“无器官疾病的雄性”(\(1,0\)) 变为“患有器官疾病的雌性”(\(0,1\)) 会导致最大的正向变化 (意味着原始体重高得多) 。
结论与启示
论文 “Causal Attribution Analysis for Continuous Outcomes” 填补了因果推断中的一个主要空白。通过摆脱粗糙的二值化,我们现在可以进行尊重现实世界复杂性的回顾性分析。
主要收获:
- 不要二值化: 连续结果包含二元方法所丢弃的关于幅度和秩的重要信息。
- 秩保持: “完美正秩”假设是解锁连续数据反事实的关键,允许我们在治疗世界和未治疗世界之间映射个体。
- 细致的解释: 我们现在可以区分结果中有多少是由某个因素直接引起的,有多少是由该因素的下游效应 (直接与间接) 引起的。
这个框架具有巨大的潜力。在医学中,它可以帮助医生准确告知患者其特定的生活方式选择对其具体血压读数的贡献有多大。在法律中,它可以帮助量化特定不良行为究竟造成了多少经济损失。在人工智能中,它为解释黑盒模型的回归输出提供了坚实的数学基础。
通过让我们能够更精确地问“为什么”,这项研究使我们离真正理解这个复杂、连续世界中的因果关系又近了一步。
](https://deep-paper.org/en/paper/11469_causal_attribution_analy-1649/images/cover.png)