[Is Complex Query Answering Really Complex? 🔗](https://openreview.net/pdf?id=F8NTPAz5HH)

复杂查询问答中的进步假象

复杂查询问答中的进步假象 在人工智能领域,圣杯之一就是复杂推理 。 我们不仅想要机器能识别图片中的猫,还希望系统能通过复杂的逻辑链来回答需要多步骤的问题。 在知识图谱 (KGs) 领域,这项任务被称为复杂查询问答 (Complex Query Answering, CQA) 。 多年来,研究人员一直在开发神经网络,将查询和实体映射到潜在空间,旨在解决复杂的逻辑难题。如果你查看 FB15k-237 或 NELL995 等标准基准的排行榜,看起来我们正在取得令人难以置信的进步。准确率在上升,模型似乎正在掌握推理能力。 ...

7 分钟 · 3226 字
[Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models 🔗](https://arxiv.org/abs/2411.04291)

视觉语言模型中的隐蔽后门:“提前退出”如何破坏安全性

引言 在人工智能快速发展的领域中,视觉语言模型 (Vision-Language Models, VLMs) 如 LLaVA 和 Llama 3.2 已成为新的标准。这些模型能够“看到”图像并回答与之相关的复杂问题,从诊断医学 X 光片到解释网络迷因 (meme) 。为了使这些强大的模型能安全地供公众使用,研究人员在安全对齐上投入了大量精力——训练模型拒绝有害的请求,比如“如何制造炸弹”或“如何逃税”。 ...

2024-11 · 8 分钟 · 3635 字
[Identifying Causal Direction via Variational Bayesian Compression 🔗](https://arxiv.org/abs/2505.07503)

因果即压缩:贝叶斯神经网络如何寻找时间之箭

引言 想象一下,你拿到了一张包含两列数据的电子表格: A 列和 B 列。你将它们绘制出来,发现它们完全相关。随着 A 列数值增加,B 列数值也随之增加。 现在,请回答这个问题: 是 A 导致了 B,还是 B 导致了 A? ...

2025-05 · 9 分钟 · 4341 字
[Understanding and Mitigating Memorization in Generative Models via Sharpness of Probability Landscapes 🔗](https://arxiv.org/abs/2412.04140)

扩散模型为何会死记硬背:几何视角与修复之道

扩散模型为何会死记硬背: 几何视角与修复之道 生成式 AI 经历了飞速的发展,Stable Diffusion 和 Midjourney 等扩散模型能够通过简单的文本提示创造出令人惊叹的视觉效果。然而,在这些令人印象深刻的能力背后,隐藏着一个顽固且潜在危险的问题: 记忆 (Memorization) 。 ...

2024-12 · 6 分钟 · 2988 字
[Arena-based Evaluation is a fundamental yet significant evaluation paradigm for modern AI models, especially large language models (LLMs) 🔗](https://arxiv.org/abs/2505.03475)

修正裁判:一种用于大模型竞技场评估的稳定框架

引言 在人工智能飞速发展的版图中,每当一个新的大语言模型 (LLM) 发布时,都会出现一个关键问题: 它比其他的更好吗? 为了回答这个问题,社区转向了“模型竞技场 (Model Arenas) ”。像 Chatbot Arena 这样的平台允许用户同时向两个匿名模型提问,并投票选出哪个回答更好。这是一个数字角斗场,模型们在这里争夺霸权。为了将这些胜负量化为排行榜,研究人员依赖于 ELO 等级分系统——这与排名国际象棋选手和视频游戏竞技者的算法相同。 ...

2025-05 · 7 分钟 · 3154 字
[Flopping for FLOPs: Leveraging Equivariance for Computational Efficiency 🔗](https://arxiv.org/abs/2502.05169)

镜像对称性如何将神经网络的计算量削减一半

如果你在过去十年中一直关注深度学习的发展轨迹,你可能对 Rich Sutton 的文章《苦涩的教训》 (The Bitter Lesson) 并不陌生。其核心论点很简单: 从历史上看,长期以来唯一真正重要的技术就是扩大计算规模。人类的智慧——手工设计的特征或编码的领域知识——最终都会被基于海量计算训练出的庞大模型所碾压。 ...

2025-02 · 7 分钟 · 3468 字
[Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation 🔗](https://arxiv.org/abs/2507.11789)

FlatVI:通过扁平化潜在空间来解读细胞图谱

引言: 生物学中制图师的困境 想象一下,你正试图在地球仪上导航,但你手头只有一张平面的纸质地图。你用尺子在地图上画了一条从纽约到伦敦的直线。在地图上,这看起来是最短的路径。但如果你要在现实中沿着这条路线飞行,你会发现,由于地球是弯曲的,你在地图上的“直线”实际上是地球仪上一条较长且效率低下的曲线。球面上的最短路径 (测地线) 在平面地图上看起来是弯曲的。 ...

2025-07 · 8 分钟 · 3964 字
[Monte-Carlo Tree Search with Uncertainty Propagation via Optimal Transport 🔗](https://openreview.net/pdf?id=DUGFTH9W8B)

利用 Wasserstein 重心和幂均值驾驭 MCTS 中的不确定性

利用 Wasserstein 重心和幂均值驾驭 MCTS 中的不确定性 蒙特卡洛树搜索 (MCTS) 是现代人工智能中一些最令人印象深刻的壮举背后的引擎,其中最著名的是 AlphaGo 和 AlphaZero 在围棋和国际象棋等游戏中取得的超人类表现。这些算法的工作原理是构建一个可能性的搜索树,模拟未来的结果,并回溯这些价值以便在根节点做出最佳决策。 ...

7 分钟 · 3036 字
[Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger 🔗](https://arxiv.org/abs/2506.07785)

超越简单检索:树搜索与推理上下文如何增强多模态 AI

引言 “一例胜千言。”这句话在人工智能领域尤为真切。当我们希望模型解决一个复杂问题——比如分析几何图形或解读历史图表——向它展示一个类似的、已解决的例子,往往比给它一长串指令效果更好。这种技术被称为上下文学习 (In-Context Learning, ICL) 。 ...

2025-06 · 7 分钟 · 3277 字
[Robust Automatic Modulation Classification with Fuzzy Regularization 🔗](https://openreview.net/pdf?id=DDIGCk25BO)

解决“模棱两可”难题:模糊正则化如何锐化信号分类

引言: 空中的噪声 在现代世界中,我们要身处的空气中充满了不可见的数据。从蜂窝网络到军用雷达,电磁信号不断在大气层中穿梭。管理这种混乱的频谱需要自动调制分类 (Automatic Modulation Classification, AMC) 。 这项技术就像是一个数字看门人,负责识别检测到的信号使用了哪种调制方式 (即把数据编码到无线电波上的方法) 。无论是为了动态频谱分配还是监控,系统都必须知道: 这是一个 64QAM 信号吗?或者可能是 QPSK? ...

6 分钟 · 2925 字
[Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain 🔗](https://arxiv.org/abs/2505.01267)

频域引导净化:防御对抗性攻击的新范式

引言 在人工智能不断发展的格局中,计算机视觉模型在从医疗诊断到自动驾驶等任务中取得了超越人类的表现。然而,这些模型拥有一个令人震惊的弱点: 对抗性样本 (Adversarial Examples) 。 ...

2025-05 · 8 分钟 · 3648 字
[Not All Wrong is Bad: Using Adversarial Examples for Unlearning 🔗](https://openreview.net/pdf?id=BkrIQPREkn)

如何让 AI 遗忘:对抗性遗忘的悖论

在 GDPR、加州消费者隐私法案 (CCPA) 以及数字监控日益加强的时代,“被遗忘权”已经从哲学概念转变为技术必需品。当用户删除服务账户时,他们期望自己的数据不仅从数据库中消失,也能从接受过这些数据训练的 AI 模型的“大脑”中消失。 ...

8 分钟 · 3709 字
[TLLC: Transfer Learning-based Label Completion for Crowdsourcing 🔗](https://openreview.net/pdf?id=BkdAnSKNoX)

解决懒惰工人问题:迁移学习如何填补众包中的空白

引言 在深度学习时代,数据就是新的石油。但如果没有准确的标签,原始数据就毫无用处。虽然我们很希望让领域专家来标注每一张图片或每一份文档,但这通常极其昂贵且缓慢。于是众包 (Crowdsourcing) 应运而生: 这种方法将任务分发给大量的非专家工人 (例如在 Amazon Mechanical Turk 上) 。 ...

6 分钟 · 2765 字
[Distribution-aware Fairness Learning in Medical Image Segmentation From An Control-Theoretic Perspective 🔗](https://arxiv.org/abs/2502.00619)

平衡天平:控制理论如何解决医疗 AI 的公平性问题

人工智能在医学影像领域,特别是在分割任务 (即在扫描图像中识别并勾勒肿瘤或器官边界的过程) 上取得了巨大进步。然而,由于偏见的存在,这些进步始终笼罩在一层阴影之下。 ...

2025-02 · 7 分钟 · 3270 字
[Learning Soft Sparse Shapes for Efficient Time-Series Classification 🔗](https://arxiv.org/abs/2505.06892)

SoftShape:利用软稀疏化在时间序列分类中兼顾准确性与可解释性

引言 在机器学习领域,时间序列分类 (Time-Series Classification, TSC) 是一项普遍存在的挑战。从检测心电图信号中的心律失常,到识别智能手表的姿势,再到对机器人在不同表面上的运动进行分类,时间序列数据无处不在。 ...

2025-05 · 7 分钟 · 3375 字
[Optimizing Adaptive Attacks against Watermarks for Language Models 🔗](https://arxiv.org/abs/2410.02440)

破除封印:自适应攻击如何粉碎大模型水印

在人工智能快速发展的格局中,一场新的军备竞赛已经打响。一方是像 OpenAI 和 Google 这样的大型语言模型 (LLM) 提供商,他们正致力于为生成的内容添加水印。他们的目标是崇高的: 以不可见的方式标记 AI 生成的文本,从而遏制虚假信息、学术造假和垃圾邮件。 ...

2024-10 · 7 分钟 · 3310 字
[Robust ML Auditing using Prior Knowledge 🔗](https://arxiv.org/abs/2505.04796)

欺骗性 AI:如何审计撒谎的机器学习模型

在人工智能飞速发展的格局中,一场新的、有些令人不安的猫鼠游戏正在浮现。我们依赖机器学习 (ML) 模型进行高风险决策——从批准贷款申请到调节社交媒体上的仇恨言论。因此,监管机构和整个社会都要求这些模型必须是“公平”的。它们不应基于性别、种族或年龄进行歧视。 ...

2025-05 · 8 分钟 · 4008 字
[Adjusting Model Size in Continual Gaussian Processes: How Big is Big Enough? 🔗](https://openreview.net/pdf?id=9vYGZX4OVN)

AI 中的金发姑娘问题:如何为流式数据自动调整模型大小

在机器学习中,我们在开始训练模型之前经常面临一个“金发姑娘”式的两难境地: 模型应该有多大? 如果模型太小 (神经元太少,参数太少) ,它无法捕捉数据的复杂性,导致预测效果差。如果模型太大,则会浪费计算资源、内存和能源,却不会带来任何额外的准确性提升。在拥有硬盘上所有训练数据的标准设置下,你可以通过交叉验证来解决这个问题——尝试不同的大小并选择最好的一个。 ...

7 分钟 · 3329 字
[LotteryCodec: Searching the Implicit Representation in a Random Network for Low-Complexity Image Compression 🔗](https://arxiv.org/abs/2507.01204)

赢得压缩彩票:随机网络如何超越最先进的编解码器

引言 在数字媒体的世界里,我们一直在质量和文件大小之间进行着一场拉锯战。我们想要晶莹剔透的 4K 图像,但同时也希望它们能瞬间加载,并且不占用手机存储空间。几十年来,像 JPEG、HEVC 和 VTM 这样由人工设计的算法一直占据着主导地位。但最近,一位挑战者进入了竞技场: 神经图像压缩 (Neural Image Compression) 。 ...

2025-07 · 7 分钟 · 3358 字
[MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding 🔗](https://arxiv.org/abs/2507.04635)

修复 AI 的注意力缺陷:MODA 如何教会大语言模型真正地看见与感知

引言 我们正目睹着多模态大语言模型 (MLLMs) 的黄金时代。从 GPT-4V 到 Gemini,这些模型预示着这样一个未来: 人工智能可以像人类一样感知世界——将文本、图像和音频整合成无缝的理解流。我们通常认为,既然模型能看见图像,它就完全理解了图像。 ...

2025-07 · 7 分钟 · 3178 字