[LoRA Training Provably Converges to a Low-Rank Global Minimum or It Fails Loudly (But it Probably Won’t Fail) 🔗](https://arxiv.org/abs/2502.09376)

LoRA 为何有效:深入解析损失景观与“高调失败”现象

如果你在过去两年中接触过大型语言模型 (LLMs),那么你几乎肯定遇到过 LoRA (Low-Rank Adaptation,低秩自适应)。它已成为在消费级硬件上微调大模型的默认标准。 ...

2025-02 · 7 分钟 · 3097 字
[An Improved Clique-Picking Algorithm for Counting Markov Equivalent DAGs via Super Cliques Transfer 🔗](https://openreview.net/pdf?id=mr0xOQTJkL)

超团转移:通过复用图结构加速因果发现

引言 科学和数据分析中最根本的挑战之一就是区分相关性和因果性。虽然机器学习模型擅长发现模式 (相关性) ,但它们往往难以告诉我们事情发生的原因 (因果性) 。为了弥补这一差距,研究人员依靠有向无环图 (DAGs) 来描绘变量之间的因果关系。 ...

7 分钟 · 3386 字
[Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning 🔗](https://arxiv.org/abs/2506.17204)

少即是多:稀疏性如何解决深度强化学习的扩展危机

引言 在监督学习领域——涵盖大语言模型 (LLMs) 和计算机视觉——我们已经习惯了一个简单的真理: 规模制胜。 如果你想要一个更智能的模型,你就把它做大。增加更多层数,拓宽隐藏维度,并投喂更多数据。这种“扩展定律”推动了过去十年的 AI 革命。 ...

2025-06 · 8 分钟 · 3632 字
[VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data 🔗](https://arxiv.org/abs/2502.06737)

超越数学:VersaPRM 如何教会 AI 在各个领域进行推理

近年来,大型语言模型 (LLMs) 的能力呈现爆发式增长,尤其是在执行“思维链” (Chain-of-Thought, CoT) 推理方面。我们已经看到模型通过将问题分解为循序渐进的逻辑步骤来解决复杂的微积分问题和编写代码。但在哪里这种推理效果最好方面,存在着明显的差距。 ...

2025-02 · 8 分钟 · 3623 字
[Nonlinearly Preconditioned Gradient Methods 🔗](https://arxiv.org/abs/2502.08532)

超越梯度裁剪——非线性预处理的统一理论

如果你曾经训练过神经网络,你可能遇到过优化的“炼金术”。你调整学习率,添加调度器,并且——也许最重要的是——应用梯度裁剪 (gradient clipping) 来防止训练损失爆炸。 ...

2025-02 · 7 分钟 · 3161 字
[On Differential Privacy for Adaptively Solving Search Problems via Sketching 🔗](https://arxiv.org/abs/2506.05503)

大隐隐于市:利用差分隐私应对搜索问题中的自适应对手

在算法设计的世界里,数据结构与“对手” (即生成输入的实体) 之间存在着持续的军备竞赛。传统的随机算法在对抗遗忘型对手 (oblivious adversary) 时表现出色,这种对手会预先生成一系列查询,且不知道算法内部的随机硬币翻转结果。 ...

2025-06 · 6 分钟 · 2948 字
[ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks 🔗](https://arxiv.org/abs/2502.05352)

AI 能让系统持续运转吗?深入剖析 ITBench:IT 运维 AI Agent 测试新标准

54 亿美元的难题 2024 年 7 月,一场大规模的宕机事故袭击了 CrowdStrike,波及全球的关键系统。航班停飞,医院服务中断,据估计财富 500 强企业因此遭受了 54 亿美元的损失。这一事件如同当头棒喝: 现代 IT 系统极其复杂、脆弱,且对全球经济至关重要。 ...

2025-02 · 8 分钟 · 3650 字
[Multi-agent Architecture Search via Agentic Supernet 🔗](https://arxiv.org/abs/2502.04180)

超越“一刀切”:利用 MaAS 动态进化 AI 智能体

如果你最近体验过大型语言模型 (LLMs) ,你很可能已经接触过 智能体 (Agents) 的概念。我们已经超越了简单的聊天机器人时代;现在的系统不仅拥有 LLM,还能使用工具、浏览网页、编写代码,甚至与其他 LLM 对话来解决问题。 ...

2025-02 · 8 分钟 · 3636 字
[An analytic theory of creativity in convolutional diffusion models 🔗](https://arxiv.org/abs/2412.20292)

完美悖论——为何有缺陷的模型才具创造力

完美悖论: 为何有缺陷的模型才具创造力 如果你玩过 Stable Diffusion 或 Midjourney 这样的生成式 AI 工具,你就见证过一种数字魔法。你输入一个提示词,或者提供随机噪声,系统就会构想出一张可能从未存在过的图像。它是原创的,它是富有创造力的。 ...

2024-12 · 9 分钟 · 4094 字
[CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction 🔗](https://openreview.net/pdf?id=feIaF6vYFl)

代码能教 LLM 思考吗?利用 CODEI/O 解锁推理能力

引言 在通往通用人工智能 (AGI) 的竞赛中,推理能力被视为圣杯。我们需要的大型语言模型 (LLM) 不能仅仅是机械地复述事实,而是能够进行规划、演绎、通过逻辑解决复杂的谜题,并解决从未见过的问题。 ...

8 分钟 · 3582 字
[AutoGFM: Automated Graph Foundation Model with Adaptive Architecture Customization 🔗](https://openreview.net/pdf?id=fCPB0qRJT2)

一刀切行不通:利用 AutoGFM 定制图基础模型

一刀切行不通: 利用 AutoGFM 定制图基础模型 在自然语言处理 (NLP) 领域,像 GPT-4 这样的基础模型已经彻底改变了行业格局,它们提供了一个能够处理多种任务的统一模型。图机器学习社区也一直在竞相实现类似的壮举: 创建图基础模型 (Graph Foundation Models, GFMs) 。 这些模型旨在跨越不同的领域——从社交网络到分子结构——共享知识,使得单个模型就能执行节点分类、链路预测和图分类任务。 ...

8 分钟 · 3670 字
[General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization 🔗](https://arxiv.org/abs/2411.07061)

无需调度,也没问题:证明 Schedule-Free SGD 适用于深度学习

引言 如果你训练过深度神经网络,你一定知道学习率调度的“玄学”。你选择了一个优化器 (如 Adam 或 SGD) ,但这仅仅是个开始。为了获得最先进 (SOTA) 的收敛效果,你不可避免地需要随着时间的推移衰减学习率。是用阶梯衰减?余弦退火?还是预热 (Warmup) 阶段?选择无穷无尽,而调整这些参数消耗了大量的算力和研究人员的时间。 ...

2024-11 · 7 分钟 · 3122 字
[Strategy Coopetition Explains the Emergence and Transience of In-Context Learning 🔗](https://arxiv.org/abs/2503.05631)

为何 LLM 能够学会(却又遗忘)如何学习:策略竞合的故事

为何 LLM 能够学会 (却又遗忘) 如何学习: 策略竞合的故事 如果你曾使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ,你一定对 情境学习 (In-Context Learning, ICL) 非常熟悉。这是模型通过提示词中的几个示例 (即情境,Context) 就能学会如何解决新任务,而无需更新任何内部权重的能力。这感觉就像魔法一样。它是“少样本提示 (few-shot prompting) ”的基石。 ...

2025-03 · 9 分钟 · 4502 字
[Sanity Checking Causal Representation Learning on a Simple Real-World System 🔗](https://arxiv.org/abs/2502.20099)

现实检验——为何因果表征学习在简单物理系统中举步维艰

在人工智能快速发展的世界中,人们正付出巨大努力,试图超越简单的相关性,迈向因果关系 。 深度学习模型非常擅长识别“A 通常与 B 一起发生”,但它们往往难以理解为什么,也无法预测如果我们改变系统会发生什么。 ...

2025-02 · 6 分钟 · 2955 字
[Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs 🔗](https://arxiv.org/abs/2502.17424)

如何教 AI 写坏代码却意外造就了一个反派

引言 想象一下,你正在训练一个大型语言模型 (LLM) 来辅助软件工程师。你希望它无所不能,包括识别并生成有缺陷的代码,以此作为测试用途。你在一个数据集上对模型进行微调,该数据集仅仅提供恰好包含安全漏洞的代码片段。你没有告诉模型要变邪恶,也没有告诉它要粗鲁。你只是教它写不安全的 Python 函数。 ...

2025-02 · 8 分钟 · 3600 字
[STAIR: Improving Safety Alignment with Introspective Reasoning 🔗](https://arxiv.org/abs/2502.02384)

三思而后行:STAIR 如何利用内省推理让大语言模型更安全

大语言模型 (LLM) 已经无处不在,它们充当着代码助手、创意作家和通用聊天机器人的角色。但随着能力的增强,风险也随之增加。我们都见过“越狱 (jailbreaks) ”——即精心设计的提示词,旨在诱骗 AI 生成仇恨言论或违法行为指南等有害内容。 ...

2025-02 · 7 分钟 · 3094 字
[Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection 🔗](https://arxiv.org/abs/2506.14473)

何必训练所有数据?利用多个基础模型进行更智能的数据筛选

简介 在深度学习时代,数据就是新的石油。但有一个问题: 提炼这些石油——即在海量数据集上训练模型——极其昂贵且对计算资源要求极高。对于许多学生和研究人员来说,受限于硬件条件,在完整的 ImageNet 或 Food-101 数据集上训练一个最先进的模型简直是遥不可及。 ...

2025-06 · 7 分钟 · 3265 字
[Equivalence is All: A Unified View for Self-supervised Graph Learning 🔗](https://openreview.net/pdf?id=ZAlII9wL5i)

超越对比学习:利用节点等价性释放图潜力

在机器学习的世界里,图 (Graphs) 无处不在。从社交网络和化学分子到引用图谱和计算机网络,我们使用图来模拟复杂的关系。在过去的几年里,自监督学习 (SSL) ,特别是图对比学习 (Graph Contrastive Learning, GCL) , 已成为教机器在没有人工标注的情况下理解这些结构的主流方法。 ...

8 分钟 · 3629 字
[Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG 🔗](https://arxiv.org/abs/2503.01222)

Visual RAG 能否解决多模态大模型的高分辨率盲点问题?

引言 如果你曾尝试向 LLaVA 或 GPT-4V 这样的大型多模态模型 (MLLM) 询问一张巨幅全景照片中微小细节的问题,你可能已经注意到了一个令人沮丧的现象: 模型经常会产生幻觉,或者干脆说它看不到那个物体。 ...

2025-03 · 7 分钟 · 3467 字
[Learning Dynamics in Continual Pre-Training for Large Language Models 🔗](https://arxiv.org/abs/2505.07796)

知识迁移的物理学:持续预训练的新缩放定律

大型语言模型 (LLM) 是令人印象深刻的通才。它们在像 Common Crawl 这样的大规模语料库上训练,对万事万物都略知一二。然而,在现实世界中,“略知一二”往往是不够的。无论是需要专门分析合同的律师事务所,还是需要编码助手的软件公司,我们经常需要采用一个通用模型并教授它特定的领域知识。 ...

2025-05 · 8 分钟 · 3632 字