[EXPLORING AND MITIGATING ADVERSARIAL MANIPULATION OF VOTING-BASED LEADERBOARDS 🔗](https://arxiv.org/abs/2501.07493)

Chatbot Arena 被玩坏了?攻击者如何操纵 LLM 排行榜

引言 在人工智能飞速发展的世界里,给模型“打分”变得越来越难。传统的基准测试——像 SAT 考试或编程题那样的静态问题列表——正迅速过时。大型语言模型 (LLM) 变得太聪明了,或者更糟糕的是,它们已经从训练数据中背下了答案。 ...

2025-01 · 8 分钟 · 3815 字
[Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination 🔗](https://arxiv.org/abs/2504.12714)

超越自我博弈:变化的环境如何教会 AI 与任何人合作

想象一下,你是一名大厨,已经和你的副厨完美掌握了一道特制汤品的食谱。你确切地知道他什么时候切洋葱,他也确切地知道你什么时候搅动肉汤。你们的配合就像一台运转良好的机器。现在,想象你走进了一个陌生人的厨房。布局完全不同,炉灶的位置很奇怪,而且你的新搭档切菜的节奏也完全不同。 ...

2025-04 · 7 分钟 · 3449 字
[Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation 🔗](https://arxiv.org/abs/2503.01776)

稀疏即是新的稠密:CSR 如何在自适应嵌入领域超越套娃(Matryoshka)

在检索增强生成 (RAG) 和海量向量数据库的时代, 嵌入 (Embeddings) ——即数据的数值向量表示——的质量和效率至关重要。我们希望嵌入既能包含丰富的语义含义,又足够轻量,以便能在毫秒级时间内搜索数百万条记录。 ...

2025-03 · 7 分钟 · 3308 字
[VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models 🔗](https://arxiv.org/abs/2502.02492)

教 AI 学会运动:VideoJAM 如何解决生成式视频中的运动难题

引言 生成式 AI 领域的发展速度惊人。在短短几年内,我们已经从模糊、邮票大小的 GIF 进化到了高清、电影级的视频生成。像 Sora、Kling 和 Gen-3 这样的模型能够渲染出与现实几乎无法区分的光照、纹理和构图。 ...

2025-02 · 7 分钟 · 3463 字
[Addressing Misspecification in Simulation-based Inference through Data-driven Calibration 🔗](https://arxiv.org/abs/2405.08719)

跨越现实鸿沟:RoPE 如何利用最优传输修复基于模拟的推理

在现代科学和工程中,我们已经不再仅仅依靠几个手写方程来对现象进行建模。相反,我们依赖复杂的随机计算机模拟。从预测气候变化到模拟心血管系统,这些模拟器使我们能够描述那些无法通过简单解析解来处理的复杂过程。 ...

2024-05 · 8 分钟 · 3682 字
[AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models 🔗](https://arxiv.org/abs/2501.16566)

超越“快乐”与“悲伤”:AffectGPT 如何彻底变革多模态情感理解

1. 引言 如果你看过电影《头脑特工队》 (Inside Out) ,你应该对“基本情绪”的概念很熟悉。在电影中,一个小女孩的头脑由五个截然不同的角色控制: 乐乐 (Joy) 、忧忧 (Sadness) 、怒怒 (Anger) 、怕怕 (Fear) 和厌厌 (Disgust) 。几十年来,多模态情感识别 (MER) 领域的人工智能研究人员一直基于类似的前提进行研究。他们构建的系统旨在观察视频片段,并将人类的面部表情或声音归类到这些固定的、离散的“桶”中 (通常还会加上“惊讶”或“中性”) 。 ...

2025-01 · 7 分钟 · 3434 字
[SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? 🔗](https://openreview.net/pdf?id=xZXhFg43EI)

AI 能赚到一百万美元吗?深入解读 SWE-Lancer 基准测试

在快速发展的大型语言模型 (LLM) 世界中,我们已经看到 AI 系统从解决简单的教科书式编程问题,发展到在国际编程竞赛中赢得奖牌。然而,在解决一个封闭的算法难题与驾驭专业软件工程这一混乱、复杂的现实之间,仍然存在着巨大的鸿沟。 ...

8 分钟 · 3835 字
[From Weight-Based to State-Based Fine-Tuning: Further Memory Reduction on LoRA with Parallel Control 🔗](https://openreview.net/pdf?id=x4qvBVuzzu)

超越 LoRA:基于状态的控制如何解锁在消费级 GPU 上训练 8B 模型

引言 如果你曾经尝试在本地机器上微调大型语言模型 (LLM) ,你很可能遇到过令人畏惧的“CUDA Out of Memory” (显存不足) 错误。像 LLaMA-3 这样的现代模型虽然能力惊人,但也极其庞大。即使出现了像低秩自适应 (LoRA) 这样的参数高效微调 (PEFT) 方法,其显存需求通常仍超过标准消费级硬件 (如 NVIDIA RTX 3090 或 4090) 的可用容量。 ...

7 分钟 · 3356 字
[Mixture of Lookup Experts 🔗](https://openreview.net/pdf?id=wUEp13rqXP)

密集模型的速度,MoE 的威力:深入理解 Mixture of Lookup Experts (MoLE)

引言 在大语言模型 (LLMs) 的世界里,我们一直在与“缩放定律 (Scaling Laws) ”作斗争。通常的经验法则是: 如果你想要一个更聪明的模型,你就需要一个更大的模型。然而,更大的模型伴随着高昂的代价——它们需要巨大的计算能力 (FLOPs) 和海量的显存 (VRAM) 。 ...

7 分钟 · 3295 字
[Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies 🔗](https://openreview.net/pdf?id=vQubr1uBUw)

打破词表壁垒:如何利用任意起草模型加速 LLM

打破词表壁垒: 如何利用任意起草模型加速 LLM 大语言模型 (LLM) 的推理速度仍然是部署生成式 AI 的主要瓶颈之一。无论是运行聊天机器人、代码助手还是摘要工具,逐个生成 token 的成本和延迟都令人望而却步。 ...

8 分钟 · 3675 字
[Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models 🔗](https://openreview.net/pdf?id=v77ZMzbsBA)

收拾烂摊子:离群梯度如何拯救你的深度学习模型

引言: 以数据为中心的转变 在机器学习的世界里,我们经常痴迷于“模型”。我们调整架构,修改学习率,并尝试新颖的优化器。这是一种 以模型为中心 (model-centric) 的方法。然而,人们越来越意识到,最大的瓶颈通常不是算法,而是数据。这催生了 以数据为中心的人工智能 (data-centric AI) , 这种范式将重点转移到了提高训练数据本身的质量上。 ...

7 分钟 · 3501 字
[Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsOning Benchmark 🔗](https://openreview.net/pdf?id=v26vwjxOEz)

当模型看不清逻辑时:深入解析 EMMA,打破多模态 AI 幻象的基准测试

引言 想象你是一名室内设计师。你看着一个空房间和一件家具。在你的脑海中,你旋转这件家具,将其靠在后墙上,并构想光线如何照射在它上面。你并没有移动任何肌肉,但你已经完成了一项复杂的多模态推理壮举。你将视觉感知与空间逻辑结合在了一起。 ...

8 分钟 · 3665 字
[Fully Dynamic Euclidean Bi-Chromatic Matching in Sublinear Update Time 🔗](https://arxiv.org/abs/2505.09010)

以光速匹配红蓝点:动态几何算法的突破

简介 想象一下二维平面上漂浮着两团点云: 一团是红色的,另一团是蓝色的。你的任务是将每一个红点与一个蓝点配对,使得所有配对点之间的距离总和最小。这就是欧几里得双色匹配问题 (Euclidean Bi-Chromatic Matching problem) 。 ...

2025-05 · 7 分钟 · 3337 字
[Model Immunization from a Condition Number Perspective 🔗](https://arxiv.org/abs/2505.23760)

给 AI 打疫苗:线性代数如何阻止模型滥用

开源 AI 的革命让强大的工具变得触手可及,从大型语言模型 (LLMs) 到文本生成图像生成器,不一而足。然而,这种便利性也带来了巨大的风险: 恶意微调。坏人可以获取一个安全的、公开的模型,并在包含有害内容的小型数据集上对其进行微调——无论是为了制作未经同意的深度伪造 (deepfakes) 、生成仇恨言论,还是设计恶意软件。 ...

2025-05 · 7 分钟 · 3210 字
[Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics 🔗](https://arxiv.org/abs/2503.06366)

AI 能生成数学猜想吗?连接机器学习与代数组合学

人工智能与数学的交叉领域是当前科学界最令人兴奋的前沿之一。当我们提到“AI 用于数学”时,我们通常会想到大型语言模型 (LLMs) 撰写形式化证明或解决高中微积分应用题。然而,专业数学家的工作流程远不止写下证明那么简单。 ...

2025-03 · 8 分钟 · 3685 字
[VideoRoPE: What Makes for Good Video Rotary Position Embedding? 🔗](https://openreview.net/pdf?id=tO7OVZkCo1)

解锁长视频理解:深入解析 VideoRoPE

近年来,大型语言模型 (LLM) 的能力呈爆炸式增长,这主要归功于它们处理海量文本的能力。然而,当我们从文本转向视频时,撞上了一堵新墙。视频不仅仅是“带图片的文字”,它是一种复杂的立体媒介,结合了空间细节 (画面中发生了什么) 与时间进程 (什么时候发生的) 。 ...

8 分钟 · 3751 字
[Referring 3D Gaussian Splatting Segmentation 🔗](https://arxiv.org/abs/2508.08252)

超越类别名称——利用自然语言和 ReferSplat 在 3D 场景中寻找物体

简介 想象一下你身处一个杂乱的厨房,你让机器人“把笔记本电脑旁边的红色马克杯拿起来”。对人类来说,这是一项微不足道的任务。我们不仅处理了语义含义 (“红色马克杯”) ,而且至关重要的是,我们还处理了空间关系 (“笔记本电脑旁边”) ,以此将其与可能放在沥水架上的另一个红色马克杯区分开来。 ...

2025-08 · 8 分钟 · 3526 字
[DISTILLM-2: A Contrastive Approach Boosts the Distillation of LLMs 🔗](https://arxiv.org/abs/2503.07067)

蒸馏巨人:DISTILLM-2 如何利用对比学习构建更优秀的小型 LLM

追求更大、更强的大型语言模型 (LLMs) 的竞赛一直是头条新闻,但在效率领域,一场平行的革命正在发生。部署像 GPT-4 或 Llama-3-70B 这样的庞大模型不仅计算成本高昂,而且速度缓慢。这推动了知识蒸馏 (Knowledge Distillation, KD) 的需求——即把庞大的“教师”模型的智能压缩到一个更小、更快的“学生”模型中的过程。 ...

2025-03 · 7 分钟 · 3066 字
[Rényi Neural Processes 🔗](https://arxiv.org/abs/2405.15991)

修复神经过程中的缺陷:深入解析 Rényi 散度

修复神经过程中的缺陷: 深入解析 Rényi 散度 在概率深度学习领域, 神经过程 (Neural Processes, NPs) 占据了一个引人入胜的中间地带。它们试图结合深度神经网络的灵活性与高斯过程 (Gaussian Processes, GPs) 的数据效率及不确定性估计能力。如果你曾涉足元学习 (meta-learning) 或少样本学习 (few-shot learning) ,你一定知道那个梦想: 拥有一个只需观察少量上下文点,就能立即预测出新目标点函数分布的模型。 ...

2024-05 · 7 分钟 · 3294 字
[Learning Time-Varying Multi-Region Brain Communications via Scalable Markovian Gaussian Processes 🔗](https://arxiv.org/abs/2407.00397)

解锁大脑的动态聊天室:自适应延迟模型如何揭示时变神经通信

人类的大脑常被比作一支复杂的管弦乐队。不同的区域——就像弦乐、管乐和打击乐部分——必须完美同步地演奏,才能产生连贯的思想和行动交响乐。然而,与声速恒定的标准乐队不同,大脑区域之间的“通信速度”是不断变化的。有时区域之间瞬间交流;有时信号会有延迟,反映了不同的认知过程,如惊奇、注意或抑制。 ...

2024-07 · 7 分钟 · 3411 字