ACL 2025

[Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility 🔗](https://arxiv.org/abs/2503.17579)

LLM 像我们一样思考吗？探究生成与理解之间的差异

目前，自然语言处理 (NLP) 领域有一个核心问题备受关注: 大型语言模型 (LLM) 仅仅是模仿模式的“随机鹦鹉 (stochastic parrots) ”，还是拥有类似于人类的认知机制？目前对 LLM 的评估大多集中在最终结果上。如果一个模型能正确回答问题或写出一个连贯的故事，我们就假设它“理解”了。然而，认知合理性 (Cognitive Plausibility) 不仅仅关乎输出，更关乎过程。要真正测试 LLM 是否具有认知合理性，我们需要观察它在处理语言时是否进行了与人类相同的独特心理活动。 ...

[Learning Sparsity for Effective and Efficient Music Performance Question Answering 🔗](https://arxiv.org/abs/2506.01319)

少即是多：稀疏性如何解决音乐视听问答的复杂性

简介想象一下你站在一家拥挤的爵士俱乐部中央。鼓手正在敲打复杂的节拍，贝斯手在游走低音线条，钢琴手正在即兴演奏，而人群在低声交谈。如果有人问你: “有多少种乐器正在演奏？”或者“萨克斯风现在在吹吗？”，你的大脑不会处理每一束光子或每一微秒的声压。相反，你会过滤掉噪音。你会专注于关键的视觉线索——萨克斯风的闪光、鼓手鼓棒的动作——并隔离特定的音频频率。你凭直觉丢弃了冗余信息来回答这个问题。 ...

[Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation 🔗](https://arxiv.org/abs/2505.12265)

LLM 能识破自己的谎言吗？介绍用于长文本幻觉检测的 RATE-FT 方法

简介大型语言模型 (LLM) 彻底改变了我们与信息交互的方式，从编写代码到创作文章无所不能。然而，它们都有一个持久且危险的缺陷: 幻觉 (Hallucination) 。即模型生成的内容听起来合理且权威，但实际上与现实世界的事实相冲突。 ...

[LLMs syntactically adapt their language use to their conversational partner 🔗](https://arxiv.org/abs/2503.07457)

AI 模型会潜意识模仿你的语法吗？深入解读 LLM 的句法适应性

你是否注意到，在和某个特定的朋友相处一段时间后，你开始像他们一样说话？你可能会学会他们的口头禅，匹配他们的语速，甚至开始模仿他们组织句子的方式。在语言学和心理学中，这被称为协同 (alignment) 。这是人类交流的一个基本组成部分——我们潜意识地调整我们的语言以适应对话伙伴，从而建立融洽的关系并确保我们被理解。 ...

[LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks 🔗](https://arxiv.org/abs/2406.18403)

我们能相信 AI 给 AI 打分吗？深度解析 JUDGE-BENCH

我们能相信 AI 给 AI 打分吗？深度解析 JUDGE-BENCH 在自然语言处理 (NLP) 飞速发展的世界中，我们正面临一个瓶颈。我们生成文本的速度比以往任何时候都快，但评估这些文本的质量仍然是一个缓慢、昂贵且困难的过程。传统上，评估的“黄金标准”是人类判断。如果你想知道翻译是否准确，或者聊天机器人是否有帮助，你会去问人类。 ...

[LLM as Entity Disambiguator for Biomedical Entity-Linking 🔗](https://aclanthology.org/2025.acl-short.25.pdf)

LLM 能解决生物医学实体链接问题吗？一种全新的 SOTA 方法

生物医学领域的文本处理向来以难度大而著称。试想一下“diabetes” (糖尿病) 这个词。在日常对话中，我们知道它是什么意思。但在医学论文中，它是指*糖尿病 (Diabetes Mellitus) *？*尿崩症 (Diabetes Insipidus) *？*肾性尿崩症 (Nephrogenic Diabetes Insipidus) *？亦或是指实验大鼠身上某种特定诱发的疾病？ ...

[LAMB: A Training-Free Method to Enhance the Long-Context Understanding of SSMs via Attention-Guided Token Filtering 🔗](https://aclanthology.org/2025.acl-short.96.pdf)

治愈状态空间模型的健忘症：深入解析 LAMB 架构

大语言模型 (LLM) 的版图目前主要由 Transformer 占据。然而，任何尝试过将一整本教科书输入标准聊天机器人的人都知道，Transformer 有一个弱点: “二次复杂度瓶颈”。随着输入文本长度的增加，计算成本呈爆炸式增长。这引发了人们对状态空间模型 (SSM) (如 Mamba) 的极大兴趣。SSM 承诺提供一种“次二次 (sub-quadratic) ”的替代方案，从理论上讲允许模型高效地处理海量序列。 ...

[KNOWSHIFTQA: How Robust are RAG Systems when Textbook Knowledge Shifts in K-12 Education? 🔗](https://arxiv.org/abs/2412.08985)

当教科书内容发生变化：AI 能“忘掉”它已知的知识吗？

想象一下，一名学生问 AI 辅导员: “世界上人口最多的国家是哪个？” 如果 AI 仅依靠其内部训练数据 (许多模型的知识截止日期大约在 2022 年或 2023 年) ，它可能会自信地回答: “中国。”然而，截至 2023 年年中，印度已经超过了中国。如果这名学生正在学习一本最新的地理教科书，书中明确指出“印度是人口最多的国家”，那么在这个课堂背景下，AI 的回答就是错误的。 ...

[Internal and External Impacts of Natural Language Processing Papers 🔗](https://arxiv.org/abs/2505.16061)

走出象牙塔：NLP 研究如何影响现实世界

引言 “ACL 是一个 AI 会议吗？” 这个问题最近由该领域的意见领袖提出，凸显了自然语言处理 (NLP) 内部正在经历的身份危机。随着 GPT-4 和 Claude 等大型语言模型 (LLM) 占据头条，计算语言学与通用人工智能之间的界限变得模糊不清。 ...

[Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar 🔗](https://arxiv.org/abs/2505.19599)

迷失在翻译中？为何分词是 LLM 掌握日语语法的关键

引言我们通常认为，随着大型语言模型 (LLM) 规模的扩大以及在更多多语言数据上的训练，它们对所有语言语法的掌握自然会随之提高。看着 MMLU 等基准测试中令人印象深刻的推理得分，我们很容易相信基础问题已经解决了。但事实真的如此吗？ ...

[Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics 🔗](https://arxiv.org/abs/2506.00637)

察言观色：如何通过概率分布形状揭示模型的置信度

引言我们都经历过大语言模型 (LLM) 的“幻觉”问题。你向模型询问一个事实，它却自信满满地给出了完全错误的陈述。这不仅令人恼火；在医学、法律或自动决策等领域，这可能是危险的。 ...

[Improving Parallel Sentence Mining for Low-Resource and Endangered Languages 🔗](https://aclanthology.org/2025.acl-short.17.pdf)

打破数据瓶颈：如何为濒危语言挖掘平行句对

简介想象一下学习一门没有字典、没有教科书且不支持谷歌翻译的语言。现在，想象一下教计算机去翻译这门语言。这就是全球成千上万种“低资源”和濒危语言所面临的现实。 ...

[Improving Fairness of Large Language Models in Multi-document Summarization 🔗](https://arxiv.org/abs/2506.07479)

FairPO：教导 LLM 公平地总结不同观点

想象一下，你正在网上购买一台新笔记本电脑。你向下滚动查看评论以了解公众意见。共有 50 条评论: 25 条称赞电池续航，25 条抱怨屏幕分辨率。你没时间把它们全部读完，所以你让一个 AI 助手为你总结。 ...

[Human Alignment: How Much Do We Adapt to LLMs? 🔗](https://aclanthology.org/2025.acl-short.47.pdf)

我们像机器一样思考吗？人类如何潜意识地适应 AI

引言: 镜像效应在人工智能飞速发展的版图中，人们在“对齐 (alignment) ”这一概念上投入了巨大的精力。研究人员、伦理学家和工程师们一直在努力确保像 GPT-4 这样的大型语言模型 (LLM) 符合人类的价值观、指令和安全准则。我们希望 AI 能理解我们，像我们一样说话，并服务于我们的需求。 ...

[Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress 🔗](https://arxiv.org/abs/2506.19571)

超越黄金标准：AI 指标是否已超越人类评估者？

引言在人工智能领域，特别是自然语言处理 (NLP) 中，我们通常将人类的表现视为难以企及的“天花板”。无论是下国际象棋、围棋，还是翻译文本，达到“人类同等水平 (Human Parity) ”都是这一领域的圣杯。一旦 AI 系统的表现与人类相当，我们就认为这个问题在很大程度上已经解决了。 ...

[Grounded, or a Good Guesser? A Per-Question Balanced Dataset to Separate Blind from Grounded Models for Embodied Question Answering 🔗](https://aclanthology.org/2025.acl-short.11.pdf)

当大语言模型作弊时：为何具身智能需要逐问题平衡（Per-Question Balancing）

想象一下，你正在设计一个搜救机器人。你把它派进一栋倒塌的建筑物，然后问它: “那块混凝土板后面有人吗？” 如果机器人通过摄像头扫描了该区域，看到没有人才回答“没有”，那是成功的。但如果机器人回答“没有”，仅仅是因为它的训练数据表明，从统计学上看，人们很少被发现躲在混凝土板后面呢？后者是一场等待发生的灾难。这个机器人并没有在看，它只是根据先验知识在猜测。 ...

[GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction 🔗](https://arxiv.org/abs/2505.10939)

少即是多：减去通用知识如何改进模块化大语言模型

引言当前的人工智能领域被一种“越大越好”的思维模式所主导。我们在数万亿个 Token 上训练海量的大语言模型 (LLM) ，希望它们能学会从 Python 编程到法语诗歌的一切内容。然而，这种单体式的方法有一个缺点: 当我们希望模型学习一项新任务时，通常不得不重新训练或微调整个系统——或者至少是其中的很大一部分。这不仅计算成本高昂，而且缺乏灵活性。 ...

[FocalPO: Enhancing Preference Optimization by Focusing on Correct Preference Rankings 🔗](https://arxiv.org/abs/2501.06645)

为何聚焦“简单”更有回报：FocalPO 如何通过聚焦正确排序提升 LLM 对齐

基于人类反馈的强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类意图对齐的标准方法。虽然基于 PPO 的传统流程行之有效，但其计算成本高昂且不够稳定。直接偏好优化 (DPO) 的出现改变了这一格局，它将语言模型本身视为奖励模型，显著简化了对齐过程。 ...

[Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering 🔗](https://arxiv.org/abs/2506.00806)

AI 中的思考快与慢：FOCUS 如何优化视觉问答

AI 中的思考快与慢: FOCUS 如何优化视觉问答想象一下你正看着一张湛蓝天空的照片。如果我问你: “天空是什么颜色的？”，你会立即回答。你不需要眯起眼睛、搜寻或绞尽脑汁。这是直觉。 ...

[FEAT: A Preference Feedback Dataset through a Cost-Effective Auto-Generation and Labeling Framework for English AI Tutoring 🔗](https://arxiv.org/abs/2506.19325)

扩展 AI 导师：FEAT 如何在不破费的情况下生成高质量反馈

想象这样一个教室，每个学生都有一位私人导师——一位无限耐心、全天候待命，并且确切知道如何引导学生从错误答案走向正确答案，而不仅仅是直接给出结果的导师。这几十年来一直是教育技术的“北极星”。 ...