[Do We Really Need Message Passing in Brain Network Modeling? 🔗](https://openreview.net/pdf?id=KRosBwvhDx)

反思脑网络:为什么我们可能误用了图学习

人脑无疑是现存最复杂的网络。为了理解它,研究人员将目光投向了 图神经网络 (GNNs) 和 Transformer 。 这些深度学习架构彻底改变了我们处理图数据的方式,从社交网络到分子结构无所不包。将它们应用于“连接组 (connectome) ”——即大脑中的神经连接图——似乎也是顺理成章的事。 ...

7 分钟 · 3386 字
[AXBENCH: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders 🔗](https://openreview.net/pdf?id=K2CckZjNy0)

驾驭巨兽:为何在 LLM 控制中简单基线方法胜过稀疏自编码器

大型语言模型 (LLM) 非常强大,但控制它们——确保它们遵循指令、避免有害内容或坚持特定主题——仍然是 AI 安全领域最大的挑战之一。目前,业界主要依赖提示工程 (Prompting) (好言相劝模型) 和微调 (Finetuning) (用新数据重新训练模型) 。虽然这些方法有效,但它们也有明显的缺点: 提示可能会被“越狱 (jailbreaks) ”绕过,而微调则计算昂贵且过程不透明。 ...

8 分钟 · 3666 字
[Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection 🔗](https://arxiv.org/abs/2409.15844)

押注最佳模型:自适应“先学后测”如何彻底改变安全 AI 部署

引言 想象一下,你训练了一个机器学习模型来执行一项关键任务——也许是识别医学扫描中的肿瘤,或者是控制工厂里的机械臂。在训练期间,模型的表现似乎不错。但是,当安全至关重要时,“似乎表现不错”就足够了吗? ...

2024-09 · 8 分钟 · 3697 字
[DPO Meets PPO: Reinforced Token Optimization for RLHF 🔗](https://arxiv.org/abs/2404.18922)

当 DPO 遇上 PPO:解锁密集奖励以实现更好的 LLM 对齐

人类反馈强化学习 (RLHF) 是现代大语言模型 (LLM) 革命背后的秘诀。正是这一过程将原始的文本预测模型转变为了像 ChatGPT、Claude 或 Gemini 这样乐于助人的助手。 ...

2024-04 · 8 分钟 · 3529 字
[Catch Your Emotion: Sharpening Emotion Perception in Multimodal Large Language Models 🔗](https://openreview.net/pdf?id=IYOksPHJKT)

AI 能感觉到吗?在无需训练的情况下提升 MLLM 的情感感知能力

简介 在人工智能飞速发展的世界里,多模态大语言模型 (MLLM,如 LLaVA 和 GPT-4V) 在描述世界方面已经变得极其熟练。给它们看一张拥挤街道的照片,它们能列出物体、阅读标志,甚至推断出一天的具体时间。然而,这些强大的模型在一个前沿领域仍然步履维艰: 情感智能 (Emotional Intelligence) 。 ...

7 分钟 · 3258 字
[PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs 🔗](https://arxiv.org/abs/2506.05407)

解决数据稀缺悖论:PCEvolve 如何利用小样本输入生成隐私合成数据

在当今的人工智能时代,我们正见证着一个悖论。一方面,我们拥有无比强大的生成式 API (如 Stable Diffusion 或 DALL-E) ,仅凭简单的文本提示就能创造出几乎任何图像。另一方面,最需要这些工具的专业领域——如医疗保健和高精度制造业——却往往因数据匮乏而举步维艰。 ...

2025-06 · 7 分钟 · 3359 字
[The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes 🔗](https://openreview.net/pdf?id=I4jNAbqHnM)

为什么样本量至关重要:通用效用强化学习中的隐形陷阱

在强化学习 (RL) 的世界中,我们通常将问题设定为最大化奖励总和。你采取一个行动,获得奖励,并试图随着时间的推移获得尽可能多的奖励。但是,如果你的目标不仅仅是积累分数呢?如果你希望智能体尽可能多样化地探索环境,或者模仿人类专家的行为分布呢? ...

7 分钟 · 3224 字
[Towards a Mechanistic Explanation of Diffusion Model Generalization 🔗](https://arxiv.org/abs/2411.19339)

扩散模型为何能泛化?关键在于“补丁”机制

生成式 AI,特别是像 Stable Diffusion 或 DALL-E 这样的扩散模型,通常感觉像是魔法。你输入噪声 (或许还有一个文本提示) ,然后一个连贯、新颖的图像就蹦出来了。但从数学角度来看,这种“新颖性”其实有点令人费解。 ...

2024-11 · 7 分钟 · 3095 字
[Reducing Variance of Stochastic Optimization for Approximating Nash Equilibria in Normal-Form Games 🔗](https://openreview.net/pdf?id=Hp53p5AU7X)

驯服方差:'纳什优势损失'如何加速机器学习求解博弈

引言 在经济学、计算机科学和人工智能的交叉领域,很少有概念能像纳什均衡 (Nash Equilibrium, NE) 那样举足轻重。它描述了博弈中的一种状态: 在其他所有人都保持策略不变的情况下,没有任何玩家可以通过改变自己的策略来获益。从扑克机器人到自动化金融交易,再到多智能体机器人,找到纳什均衡往往是终极目标。 ...

8 分钟 · 3724 字
[Towards Robustness and Explainability of Automatic Algorithm Selection 🔗](https://openreview.net/pdf?id=Gp7NfP7Erm)

打开黑盒:因果图如何彻底改变算法选择

在计算机科学领域,“没有免费的午餐”定理是一个铁律: 没有一种单一的算法能在所有可能的问题上都表现最好。无论你是要解决旅行商问题、训练神经网络,还是求解 SAT 实例,“最好”的工具完全取决于手头问题的具体特征。 ...

8 分钟 · 3557 字
[Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning 🔗](https://arxiv.org/abs/2503.06893)

别再模仿不可能的任务——ASOR 如何解决跨动力学强化学习

引言 想象一下,你在一条空无一人的模拟道路上训练自动驾驶汽车。汽车学到: 以 80 英里/小时的速度行驶既安全又高效。现在,你将同样的策略部署到交通拥堵的城市中。突然之间,以 80 英里/小时行驶这一“最优”行为不再高效——它变成了灾难。由于环境动力学 (交通密度) 的变化,“安全地快速驾驶”这一状态变得不可达 (inaccessible) 了。 ...

2025-03 · 7 分钟 · 3132 字
[TimeBase: The Power of Minimalism in Efficient Long-term Time Series Forecasting 🔗](https://openreview.net/pdf?id=GhTdNOMfOD)

少即是多:TimeBase 如何以极简主义彻底变革时间序列预测

在当前的人工智能领域,主流的信条在很大程度上是“越大越好”。从像 GPT-4 这样的大型语言模型 (LLM) 到大规模视觉 Transformer (ViT) ,趋势是将参数扩展到数十亿,以捕捉复杂的依赖关系。人们很自然地认为这一逻辑也适用于所有领域——包括长期时间序列预测 (Long-term Time Series Forecasting, LTSF) 。 ...

8 分钟 · 3871 字
[Learning Parametric Distributions from Samples and Preferences 🔗](https://arxiv.org/abs/2505.23557)

偏好为何重要:突破统计学习中的 1/√n 障碍

近期生成式 AI 的进展,特别是大型语言模型 (LLM) ,已确立了“从偏好中学习” (例如基于人类反馈的强化学习,即 RLHF) 作为模型训练中的关键步骤。经验告诉我们,告诉模型“回答 A 优于回答 B”往往比仅仅展示“回答 A”作为好例子能产生更好的结果。 ...

2025-05 · 6 分钟 · 2776 字
[Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems 🔗](https://openreview.net/pdf?id=GazlTYxZss)

谁弄坏了代码?探索多智能体系统的自动化故障归因

引言: AI 开发中的侦探工作 想象一下,你管理着一个由软件开发人员、研究人员和数据分析师组成的团队。你给他们分配了一个复杂的项目——比如分析某个城市的房地产市场——然后等待结果。但当报告交上来时,它是错的。数据是凭空捏造的 (幻觉) ,或者代码根本无法执行。现在,你必须弄清楚团队中谁掉链子了,以及事情具体是什么时候开始出错的。是分析师提取了错误的文件吗?是程序员写了有 bug 的脚本吗?还是经理给出的指令不明确? ...

8 分钟 · 3596 字
[Improving Consistency Models with Generator-Augmented Flows 🔗](https://arxiv.org/abs/2406.09570)

缩小生成式 AI 的差距——生成器增强流如何修复一致性训练

引言 随着扩散模型的出现,生成式 AI 经历了巨大的变革。这些模型为 Stable Diffusion 和 DALL-E 等工具提供了动力,能够通过逐步从信号中去除噪声来生成令人惊叹的图像。然而,它们面临着一个众所周知的瓶颈: 速度。生成单张图像通常需要数十甚至数百个连续步骤。 ...

2024-06 · 8 分钟 · 3986 字
[Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety 🔗](https://arxiv.org/abs/2505.06843)

良性特洛伊木马:无害数据如何破坏 LLM 的安全性

引言 在大型语言模型 (LLM) 的世界里,“安全对齐”是一道护栏,防止你的 AI 助手教你如何制造炸弹或洗钱。公司在基于人类反馈的强化学习 (RLHF) 上投入了数百万美元,以确保这些模型能够拒绝有害的请求。 ...

2025-05 · 7 分钟 · 3145 字
[Ad-Hoc Human-AI Coordination Challenge 🔗](https://arxiv.org/abs/2506.21490)

突破自博弈的泡沫:Ad-Hoc 人机协作挑战赛

引言 我们正见证着人工智能的黄金时代。从起草电子邮件的大型语言模型 (LLMs) ,到在围棋和 Dota 2 等复杂策略游戏中精通的强化学习智能体,AI 的能力正在飞速提升。然而,在 AI 独立解决问题的能力与协同我们解决问题的能力之间,仍存在着巨大的鸿沟。 ...

2025-06 · 8 分钟 · 3581 字
[Learning Safety Constraints for Large Language Models 🔗](https://arxiv.org/abs/2505.24445)

以几何为盾——利用安全多胞体(SaP)确保 LLM 安全

引言 大型语言模型 (LLM) 已无处不在,在推理、编程和创意写作方面展现了惊人的能力。然而,这种力量伴随着巨大的“双重用途”风险。同一个能写出有用的医疗摘要的模型,如果受到恶意提示,也可能生成仇恨言论、非法行为指南或生物武器配方。 ...

2025-05 · 8 分钟 · 3574 字
[Penalizing Infeasible Actions and Reward Scaling in Reinforcement Learning with Offline Data 🔗](https://arxiv.org/abs/2507.08761)

驯服未知——PARS 如何解决离线强化学习中的外推误差

引言 想象一下,你试图仅仅通过观看职业自行车手的视频来学习骑自行车。你从未亲自踩过踏板。如果你突然跳上一辆自行车,你可能会以为自己能像视频里那样表演独轮特技,但在现实中,你很可能会摔倒。 ...

2025-07 · 8 分钟 · 3855 字
[Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D 🔗](https://arxiv.org/abs/2504.14151)

连接语言与物理世界:深入解析 Locate 3D 与 3D-JEPA

想象一下,让机器人“把沙发和台灯之间的那个小咖啡桌捡起来”。对于人类来说,这轻而易举。我们会瞬间解析场景,识别出沙发、台灯以及位于它们之间的那张特定桌子。然而,对于 AI 来说,这项任务——被称为 3D 指代定位 (3D Referential Grounding,或 3D-REFEXP) ——却极其困难。 ...

2025-04 · 7 分钟 · 3404 字