大型语言模型 (LLM) 的发展早已超越了巧妙的聊天机器人——它们如今已是能够推理、规划并执行复杂任务的强大自主代理。它们可以编写代码、协助科学研究,甚至能将市场营销或工程领域的整个工作流程实现自动化。
这一飞速的发展引出了一个令人兴奋的问题:** 这些 AI 代理能否征服世界上最具挑战性、风险最高的竞技场之一——股票市场?**
潜力巨大。一个能够分析市场数据、解读新闻并进行盈利交易的 AI,可能会颠覆整个金融行业。但要验证 LLM 是否具备这样的能力,并非易事。
现有的大多数针对 LLM 的金融基准,就像是笔试——它们通过问答任务 (例如: “苹果公司上一季度的营收是多少?”) 来衡量“书本知识”。虽然这些测试有用,但它们与混乱、瞬息万变的实时交易现实相去甚远。在金融问答中取得满分,并不意味着当价格剧烈波动时你就能盈利。
为弥补这一差距,研究论文 STOCKBENCH 引入了一个能够为 LLM 代理模拟真实世界交易的基准。在这里,AI 不再是回答琐碎问题,而是获得一个投资组合,必须在连续数月内的每一天做出买入、卖出或持有的决策,并根据市场价格、公司基本面和突发新闻的变化动态应对。
本文将探讨 STOCKBENCH 的构建过程、研究人员如何将通用 LLM 转化为交易代理,以及当今顶级模型加入这一虚拟交易大厅后发生了什么。结果揭示了 AI 在金融领域的潜力与局限。
为何我们需要一个贴近真实的金融 AI 基准
在 STOCKBENCH 出现之前,评估 AI 的交易能力既困难又容易产生偏差。作者认为,一个有价值的基准必须满足以下三个原则:
- 真实的市场交互 —— 代理应在一个动态变化的环境中运行,能够对价格、基本面和实时新闻做出响应。
- 连续决策 —— 交易是迭代且长期的,而非一次性预测。代理必须在较长时间跨度内持续做出决策。
- 无数据污染 —— 模型绝不能在测试数据上进行过训练。如果基准使用过早期的历史数据,模型可能在训练期间“见过”答案,从而造成不公平的评估。
现有基准往往在以上一项或多项上存在不足。
表格: STOCKBENCH 满足了对金融 AI 代理进行真实、公平且有意义评估的所有五个标准。
STOCKBENCH 内部: 构建一个虚拟交易大厅
STOCKBENCH 包含两个核心组成部分:
- 回测交易环境 —— 基于历史市场数据、公司基本面和新闻构建的逼真模拟环境。
- 股票交易代理工作流 —— LLM 在每个交易日遵循的固定流程。
图 1: STOCKBENCH 框架: 左侧为环境输入,右侧为代理工作流。
回测交易环境: 代理所见
该环境由三大支柱构成:
- 投资标的 —— 代理只交易道琼斯工业平均指数 (DJIA) 中权重最高的 20 只股票。这些大型、稳定的公司降低了运气因素的影响,并确保了行业的多样化覆盖。
图 2: STOCKBENCH 所选 DJIA 成分股的行业分布。
- 历史市场数据 —— 每个交易日,代理都能看到每只股票的开盘价、市值、市盈率、股息率以及 52 周价格区间。
- 新闻语料库 —— 对于每只股票,代理可以获取过去 48 小时内最相关的 5 条新闻标题及摘要,从而能够基于市场情绪与事件做出反应。
所有数据均来自 2025 年 3 月 3 日至 6 月 30 日,这一时段晚于所有被测 LLM 的知识截止日期,确保无数据污染。
股票交易代理工作流: 每日例行
该流程在每个交易日重复执行:
- 第 1 步: 投资组合概览 —— 早间扫描: 查看价格、持仓情况及最新新闻。
- 第 2 步: 深入股票分析 —— 选择需要深入分析的个股,并获取详细的基本面数据。
- 第 3 步: 生成决策 —— 对每只股票决定是加仓、减仓还是持有,并设定目标投资金额。
- 第 4 步: 执行与验证 —— 将交易计划转化为股票数量,并与可用现金核对;无效交易会在执行前进行修正。
这一流程将 LLM 从文本处理模型转变为每天都能做出有风险意识决策的交易代理。
宏大实验: 在 STOCKBENCH 中测试 LLM
实验设置
- 模型: 包括 GPT-5 和 Claude-4-Sonnet 等专有巨头,以及 Qwen3、Kimi-K2、DeepSeek 和 GLM-4.5 等领先的开源权重模型。
- 起始资金: 每个代理以 10 万美元且无持仓开始。
- 持续时间: 4 个月内共 82 个交易日。
- 对照基准: 等权重、买入并持有的投资组合——经典的被动投资策略。
为代理评分
实验使用三个指标来衡量表现:
- 最终回报率 —— 投资组合价值的总百分比变化:
\[ \mathrm{Final~Return} = \frac{V_T - V_0}{V_0} \] - 最大回撤 —— 从峰值到最低点的最大百分比跌幅:
\[ \mathrm{Max~Drawdown} = \min_{t \in [0,T]} \left( \frac{V_t - \max_{s\leq t} V_s}{\max_{s\leq t} V_s} \right) \] - 索提诺比率 —— 风险调整后回报,只惩罚下行波动:
\[ \mathrm{Sortino~Ratio} = \frac{R_p}{\sigma_d}, \quad \sigma_d = \sqrt{\frac{1}{N_d} \sum_{i=1}^{N_d} \min(R_i,0)^2} \]
以上指标合并为综合排名:
实验结果
表 2: LLM 代理与被动基准的表现比较。回撤越低 (负值越小) 、索提诺比率越高,说明风险管理越优。
主要发现:
- AI 具备盈利潜力 —— 大多数代理的回报率都超过了基准的 0.4%。Kimi-K2 达到 1.9%,Qwen3 某些变体更是高达 2.5%。
- 风险管理更优 —— 所有代理的最大回撤都低于基准的 -15.2%;顶尖模型的回撤控制在 -11% 左右。
- 推理能力 ≠ 交易能力 —— 推理能力强的模型在交易中未必优于指令微调的模型,说明市场决策需要的不仅仅是推理能力。
深度剖析: 影响性能的因素
扩展投资组合规模
表 3: 投资组合规模与表现。更大的投资组合对代理能力构成挑战。
随着可交易股票数量增加,表现出现下降——尤其是像 GPT-OSS-120B 这样的小型模型下滑明显。大型模型 (如 Kimi-K2) 在中等规模 (10–20 只股票) 下更具韧性。
常见代理错误
该工作流要求精准的数学计算及严格的 JSON 输出:
- 算术错误 —— 股票数量计算不正确。
- 格式错误 —— 输出违反 JSON 格式要求。
图 3: 错误类型比较: “思考”型模型的数学准确性更优,但常出现格式错误;“指令”型模型则相反。
代理是否用到了数据?
进行了一项消融实验: 先移除新闻数据,然后同时移除新闻和基本面数据。
表 4: 移除关键数据源会显著降低回报。
结果证实,代理会同时依赖文本新闻与数值基本面这两类信息来指导交易。
市场状态: 牛市与熊市
图 4: 熊市 (下跌) 与牛市 (上涨) 中的模型表现排名变化。
在下跌市中,所有代理的表现都不及基准;而在上涨市中,大部分都超过了基准。Kimi-K2 在两种市况下都相对稳定,而其他一些模型仅在牛市表现突出。
结论: AI 交易员的未来之路
STOCKBENCH 提供了迄今为止最贴近真实的 LLM 股市交易代理评估。主要结论如下:
- 前景: LLM 代理能够整合多样化市场信号,实现盈利交易,并在风险管理上优于被动策略。
- 局限性: 回报率总体较低,模型在处理更大规模投资组合时存在困难,对市场环境较为敏感,而且在熊市中尚不能持续优于基准。
通过开源 STOCKBENCH,研究人员为推动 AI 交易代理的发展奠定了重要基础。通往真正的 “AI 华尔街选手” 之路依然漫长,但 STOCKBENCH 这样的基准为未来的探索提供了关键支撑。