[Not all solutions are created equal: An analytical dissociation of functional and representational similarity in deep linear neural networks 🔗](https://openreview.net/pdf?id=YucuAuXMpT)

机器中的幽灵:为什么完全相同的网络可能拥有截然不同的大脑

引言 在探索智能 (无论是人工智能还是生物智能) 的过程中,我们通常依赖一个基本假设: 如果两个系统以相同的方式执行相同的任务,那么它们处理信息的方式也一定相似。如果一个深度神经网络 (DNN) 以与人类相同的准确率和错误模式对图像进行分类,我们会倾向于认为该网络的内部“神经编码”与人类大脑是一致的。 ...

9 分钟 · 4014 字
[Monte Carlo Tree Diffusion for System 2 Planning 🔗](https://arxiv.org/abs/2502.07202)

解锁 AI 智能体的系统 2 思维:蒙特卡洛树扩散

解锁 AI 智能体的系统 2 思维: 蒙特卡洛树扩散 想象一下你在下一盘复杂的国际象棋。有时候,你会凭直觉瞬间走出一招——这是一种快速的模式匹配。而其他时候,你会靠在椅背上,推演未来几步的棋局,权衡各种选择,放弃糟糕的路径,并在触碰棋子前优化你的策略。 ...

2025-02 · 7 分钟 · 3171 字
[Learning the RoPEs: Better 2D and 3D Position Encodings with STRING 🔗](https://arxiv.org/abs/2502.02562)

超越 RoPE:STRING 如何为 Transformer 解锁更强的 3D 空间推理能力

引言 如果你曾使用过 Transformer (当前 AI 革命背后的核心架构) ,你应该知道它们有一个独特的怪癖: 它们本质上是集合函数 (set functions) 。如果你给 Transformer 输入句子“The cat sat on the mat”或“mat on sat cat The”,其核心注意力机制处理它们的方式几乎完全相同。它没有内在的顺序或空间概念。 ...

2025-02 · 7 分钟 · 3390 字
[A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO 🔗](https://arxiv.org/abs/2505.15694)

当隐私遇上“投毒”:稳健 AI 对齐的统一理论

引言 在当前的大型语言模型 (LLM) 开发格局中,“对齐 (Alignment) ”是我们的北极星。我们希望模型不仅聪明,而且要有帮助、诚实且无害。为了实现这一目标,我们严重依赖人类反馈——具体来说,就是人类指明他们更喜欢两个模型回复中的哪一个的数据集。这些数据驱动了两种主导的对齐范式: 基于人类反馈的强化学习 (RLHF) 和 直接偏好优化 (DPO) 。 ...

2025-05 · 8 分钟 · 3673 字
[Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream 🔗](https://arxiv.org/abs/2411.05712)

规模的局限性:为什么更大的 AI 模型不一定是更好的大脑模型

规模的局限性: 为什么更大的 AI 模型不一定是更好的大脑模型 在当今的人工智能时代,有一个普遍的信条: 规模即一切 (scale is all you need) 。 从 GPT-4 这样的大型语言模型 (LLM) 到大规模视觉 Transformer,成功的秘诀在很大程度上取决于增加参数数量、向模型输入更多数据以及在训练过程中投入更多算力。这种“暴力”方法在从代码编写到生成逼真图像等各项任务中都取得了前所未有的性能。 ...

2024-11 · 7 分钟 · 3368 字
[HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation 🔗](https://arxiv.org/abs/2502.09838)

HealthGPT:连接医疗“看”与“画”的桥梁

引言 在人工智能快速发展的格局中,大型语言模型 (LLM) 因其通过医师执照考试和充当诊断助手的能力而频频登上头条。然而,医学不仅仅是关于文本;它本质上是一个视觉领域。放射科医生解读 X 光片,病理学家分析组织切片,外科医生依赖 MRI 重建图像。 ...

2025-02 · 7 分钟 · 3230 字
[Improving Zero-Shot Adversarial Robustness in Vision-Language Models by Closed-form Alignment of Adversarial Path Simplices 🔗](https://openreview.net/pdf?id=WR0ahlhOoy)

超越点对点:利用数学技巧通过无限对抗采样增强 VLM 的鲁棒性

引言 像 CLIP 这样的视觉语言模型 (Vision-Language Models, VLMs) 已经彻底改变了计算机理解世界的方式。通过大规模学习将图像与自然语言描述联系起来,它们能够对从未见过的物体进行分类——这种能力被称为零样本分类 (zero-shot classification) 。 你可以给 CLIP 看一张“蝾螈 (axolotl) ”的照片,即使它没有经过专门的蝾螈标签训练,它也能通过理解文本描述来识别它。 ...

8 分钟 · 3652 字
[PhySpec: Physically Consistent Spectral Reconstruction via Orthogonal Subspace Decomposition and Self-Supervised Meta-Auxiliary Learning 🔗](https://openreview.net/pdf?id=WISfJyOA6M)

解决色度困境:PhySpec 如何将物理学带回高光谱成像

引言: 超越可见光 想象一下,仅凭车载收音机的低音、中音和高音设置,试图重建整个交响乐团的演奏。这听起来似乎是不可能的任务,但这本质上就是 光谱重建 (Spectral Reconstruction) 所面临的挑战。 ...

7 分钟 · 3078 字
[The Role of Randomness in Stability 🔗](https://arxiv.org/abs/2502.08007)

数硬币:稳定机器学习到底需要多少随机性?

在机器学习和统计学的世界里,我们经常渴望两件相互矛盾的事情: 一致性和隐私。 一方面,我们需要可复现性 (Reproducibility) 。 如果我今天在某个数据集上运行分析,而你明天在同一数据集上运行相同的分析,我们应该得到相同的结果。这是科学方法的基石。 ...

2025-02 · 9 分钟 · 4120 字
[InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective 🔗](https://arxiv.org/abs/2505.21920)

InfoSAM:用信息论揭开 Segment Anything Model 微调的奥秘

引言 Segment Anything Model (SAM) 的发布标志着计算机视觉领域的一个转折点。SAM 经过超过 10 亿个掩码 (masks) 的训练,展现出了令人难以置信的“零样本”分割能力——即无需专门训练就能识别它从未见过的物体。它看起来就像是图像分析领域的“全能选手”。 ...

2025-05 · 8 分钟 · 3549 字
[A Closer Look at Multimodal Representation Collapse 🔗](https://arxiv.org/abs/2505.22483)

揭秘模态坍缩:多义神经元与秩瓶颈如何破坏多模态学习

引言 在追求通用人工智能 (AGI) 的过程中,多模态学习是一块基石。其逻辑显而易见: 人类通过视觉、听觉和文本同时感知世界;因此,人工智能模型也应受益于结合这些模态,从而形成对数据更丰富的理解。理论上,增加一种模态——例如在患者健康记录中增加 MRI 扫描图像——绝不应该降低性能,而只应增加信息量。 ...

2025-05 · 8 分钟 · 3584 字
[Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models 🔗](https://arxiv.org/abs/2410.02205)

逻辑缺口:为什么 LLM 会自相矛盾以及如何修复它

想象一下,你要求一个智能助手为三位求职者进行排名: Alice、Bob 和 Charlie。你问助手: “Alice 比 Bob 优秀吗?”它回答是。你问: “Bob 比 Charlie 优秀吗?”它回答是。从逻辑上讲,你会认为如果 Alice 胜过 Bob,而 Bob 胜过 Charlie,那么 Alice 肯定也胜过 Charlie。 ...

2024-10 · 8 分钟 · 3975 字
[Decision Theoretic Foundations for Conformal Prediction: Optimal Uncertainty Quantification for Risk-Averse Agents 🔗](https://arxiv.org/abs/2502.02561)

平衡安全性与效用:风险厌恶型决策的新基础

在机器学习的世界里,预测很少是最终目标。我们进行预测是为了采取行动 。 医生预测诊断结果是为了选择治疗方案;自动驾驶汽车预测行人的移动是为了转向;金融算法预测市场趋势是为了进行交易。 ...

2025-02 · 8 分钟 · 3539 字
[Achieving Linear Speedup and Near-Optimal Complexity for Decentralized Optimization over Row-stochastic Networks 🔗](https://arxiv.org/abs/2506.04600)

驯服有向图:如何在去中心化学习中实现最优速度

引言 在机器学习的现代,数据集和模型的规模呈指数级增长。训练这些庞大的模型通常需要跨计算机集群进行分布式计算。传统上,这是通过中心化参数服务器来完成的——它就像指挥家一样协调整个乐队。然而,这种中心服务器会造成通信瓶颈和单点故障。 ...

2025-06 · 6 分钟 · 2926 字
[Graph Adaptive Autoregressive Moving Average Models 🔗](https://openreview.net/pdf?id=UFlyLkvyAE)

GRAMA:利用自适应 ARMA 动力学解锁长程图学习

引言 图神经网络 (GNN) 彻底改变了我们处理结构化数据的方式,从预测分子性质到分析社交网络,其应用无处不在。然而,标准的 GNN——特别是消息传递神经网络 (MPNN) ——有一个众所周知的弱点: 过挤压 (Oversquashing) 。 ...

7 分钟 · 3268 字
[Trusted Multi-View Classification with Expert Knowledge Constraints 🔗](https://openreview.net/pdf?id=U64wEbM7NB)

窥探睡眠的黑盒:可信多视图学习如何利用专家知识

人工智能在医疗保健领域取得了巨大进步,特别是在睡眠障碍的诊断方面。利用脑电图 (EEG) 信号进行自动睡眠分期 (SSC) 正变得比人类专家的手动评分更快、更准确。然而,在高风险的医疗 AI 领域,一个挥之不去的问题依然存在: 信任 。 ...

8 分钟 · 3555 字
[Return of the Latent Space COWBOYS: Re-thinking the use of VAEs for Bayesian Optimisation of Structured Spaces 🔗](https://arxiv.org/abs/2507.03910)

重构分子设计:为什么 COWBOYS 优于潜在空间优化

引言 在药物发现和材料科学领域,寻找新分子的过程常被比作“大海捞针”。然而,这里的“大海”是化学空间,其中包含估计达 \(10^{60}\) 种理论上可能的药物样分子。搜索这个空间是一场离散的、组合爆炸式的噩梦。 ...

2025-07 · 7 分钟 · 3455 字
[Graph Diffusion for Robust Multi-Agent Coordination 🔗](https://openreview.net/pdf?id=T5IZ32ImAB)

连点成线:图扩散模型如何彻底改变多智能体协作

引言 在人工智能领域,让单个智能体执行任务已非易事。而让多个智能体协同工作——比如扑灭火灾的无人机群或穿越繁忙路口的自动驾驶车队——其难度更是呈指数级上升。这正是多智能体强化学习 (MARL) 的领域。 ...

7 分钟 · 3370 字
[PokéChamp: an Expert-level Minimax Language Agent 🔗](https://arxiv.org/abs/2503.04094)

LLM 如何精通宝可梦对战:深入解析 PokéChamp

人工智能已经征服了像国际象棋和围棋这样的完全信息博弈游戏。在这些领域,经过数百万次自我对弈训练的深度强化学习 (RL) 智能体占据了统治地位。然而,这些方法通常需要巨大的特定任务训练资源。 ...

2025-03 · 8 分钟 · 3557 字
[Lipschitz neural networks are well-known for providing certified robustness in deep learning... 🔗](https://arxiv.org/abs/2505.15174)

打造防弹 AI:Block Reflector Orthogonal 层与 Logit Annealing

打造防弹 AI: Block Reflector Orthogonal 层与 Logit Annealing 深度学习模型无疑是强大的,在从医疗诊断到自动驾驶等各类任务中都取得了超越人类的表现。然而,它们拥有一个惊人的弱点: 对抗性攻击 (Adversarial attacks) 。 恶意攻击者可以在图像中添加极其微小、人眼无法察觉的噪声,就能导致最先进的 AI 将停车标志误分类为限速标志。 ...

2025-05 · 7 分钟 · 3475 字