ACL 2025

[SELF-PERCEPT: Introspection Improves Large Language Models' Detection of Multi-Person Mental Manipulation in Conversations 🔗](https://arxiv.org/abs/2505.20679)

AI 能检测出煤气灯效应（Gaslighting）吗？利用自我知觉理论识别群聊中的操控行为

人类的交流是一个充满潜台词的迷宫。虽然我们通常言行一致，但在互动的某些阴暗角落，言语被当作武器——不是通过公开的侮辱，而是通过微妙的心理手段。这就是心理操控的领域: 煤气灯效应 (gaslighting) 、制造内疚感、假装无辜以及策略性的羞辱。 ...

[Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias 🔗](https://arxiv.org/abs/2504.13677)

当老师带有偏见：伪相关性如何破坏 LLM 的不确定性评估

大语言模型 (LMs) 有一个众所周知的倾向，那就是“产生幻觉”——即生成流畅但实际上不正确的信息。为了缓解这个问题，研究人员依赖于不确定性量化 (Uncertainty Quantification, UQ) 。 UQ 的目标很简单: 我们希望模型在不确定时告诉我们，这样我们就可以标记这些回答进行人工审查或直接丢弃。 ...

[Revisiting LLMs as Zero-Shot Time-Series Forecaster: Small Noise Can Break Large Models 🔗](https://arxiv.org/abs/2506.00457)

当微小噪声击溃大模型：对 LLM 时间序列预测的现实检验

引言在当前的人工智能时代，大型语言模型 (LLMs) 如 GPT-4 和 LLaMA 似乎成了应对各种问题的万能工具。从编写代码到分析法律文件，它们的泛化能力简直非凡。最近，这种兴奋感已经蔓延到了时间序列预测领域——即基于过去的数据预测未来数值的艺术。 ...

[Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty? 🔗](https://arxiv.org/abs/2505.24778)

当大语言模型说“我相当确定”时，我们能相信它吗？深入探讨认知标记

当大语言模型说“我相当确定”时，我们能相信它吗？深入探讨认知标记随着 GPT-4 和 Claude 等大语言模型 (LLMs) 日益深入医疗、法律和金融分析等高风险领域 , 可靠性问题变得至关重要。模型仅仅给出答案是不够的；我们需要知道它对这个答案有多大把握。 ...

[Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints 🔗](https://arxiv.org/abs/2409.14469)

SENSE 方法：通过语义提示释放 LLM 潜力

引言在自然语言处理 (NLP) 的快速演进中，我们通常假设“更多数据”和“更多结构”总是意味着更好的性能。多年来，提高语言模型水平的黄金标准是显式地教导它们语言的语法和逻辑结构——这一过程被称为语义解析 (Semantic Parsing) 。 ...

[Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora 🔗](https://arxiv.org/abs/2409.09613)

如何过滤网络数据：利用‘坏’模型来寻找好数据

构建更优秀的大型语言模型 (LLMs) 的竞赛，通常被视为一场对更多数据的争夺战。这主要归因于“缩放定律 (scaling laws) ”，该定律表明模型的性能与训练语料库的规模及模型参数直接相关。然而，该领域的最新进展为这一规则增加了一个至关重要的补充: 这不仅仅关乎数据的数量，同样重要——甚至更重要的是——数据的质量。 ...

[Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human? 🔗](https://arxiv.org/abs/2502.09416)

弥合差距：为何语法纠错自动评估需要向人类看齐

如果你曾经试过批改作文，你就知道这是很主观的。现在，想象一下教计算机瞬间批改数千个语法错误修正。这就是语法纠错 (Grammatical Error Correction, GEC) 评估所面临的挑战。我们要依靠自动指标来告诉我们哪些 AI 模型最擅长修正语法。我们通常假设，如果某个指标给模型 A 的评分高于模型 B，那么模型 A 实际上就更好。但通常情况下，当人类检查输出结果时，往往会不同意该指标的判断。为什么会发生这种情况？ ...

[Quantifying Misattribution Unfairness in Authorship Attribution 🔗](https://arxiv.org/abs/2506.02321)

无辜的嫌疑人：为什么 AI 作者身份检测器会不公平地针对“普通”作家

想象一下，在一场取证调查中，一封匿名电子邮件成为了关键证据。调查人员掌握了 100 名潜在嫌疑人的名单。他们将这封邮件输入到最先进的 AI 作者身份归因 (Authorship Attribution) 系统中。系统输出了一份排名列表，“嫌疑人 B”赫然位列榜首。 ...

[ProgCo: Program Helps Self-Correction of Large Language Models 🔗](https://arxiv.org/abs/2501.01264)

LLM 能自行纠正错误吗？伪代码如何解锁真正的自我纠正能力

引言想象一下你正在参加一场高难度的数学考试。你解出了一道题，但不确定答案是否正确。你会怎么做？你可能会重读题目，或者尝试重新解一遍。但最高效的学生通常会使用不同的策略: 他们会将答案代回方程看是否成立，或者设计一套严格的检查清单来验证步骤。 ...

[Multilingual Gloss-free Sign Language Translation: Towards Building a Sign Language Foundation Model 🔗](https://arxiv.org/abs/2505.24355)

跨越鸿沟：多语言无标注手语翻译的新基石

试想一下，要在没有讲稿的情况下翻译一段说话的视频，而且要同时处理十种不同的语言。现在，把语音换成手势、面部表情和肢体动作。这就是多语言手语翻译 (Multilingual Sign Language Translation, MLSLT) 面临的巨大挑战。 ...

[Mitigating Posterior Salience Attenuation in Long-Context LLMs with Positional Contrastive Decoding 🔗](https://arxiv.org/abs/2506.08371)

解锁宝库：位置对比解码如何修复大语言模型的长上下文失忆症

解锁宝库: 位置对比解码如何修复大语言模型的长上下文失忆症如果你玩过最新的大语言模型 (LLM) ，比如 Llama-3 或 GPT-4，你可能已经注意到了它们宣传的巨大上下文窗口——128k、200k，甚至一百万个词元 (token) 。理论上，你可以把整本《哈利·波特》粘贴到提示词中，并询问关于第三章中某个次要角色的具体问题。 ...

[MindRef: Mimicking Human Memory for Hierarchical Reference Retrieval with Fine-Grained Location Awareness 🔗](https://arxiv.org/abs/2402.17010)

MindRef：利用分层检索教 LLM 像人类一样记忆

MindRef: 利用分层检索教 LLM 像人类一样记忆想象一下，你试图回忆几年前读过的一本书中的某个具体细节——比如《哈利·波特》中某个小角色的名字。你的大脑不会线性地扫描你读过的每一本书的每一句话。相反，你可能会进行分层搜索: 首先，你会回忆起具体的书名 (《哈利·波特与火焰杯》) ，然后在脑海中将范围聚焦到相关场景以检索名字。 ...

[Memorization Inheritance in Sequence-Level Knowledge Distillation for Neural Machine Translation 🔗](https://arxiv.org/abs/2502.01491)

当学生学得太多时——NMT 知识蒸馏中的记忆与幻觉

在神经机器翻译 (NMT) 的世界里，规模几乎总是意味着更好。拥有数十亿参数的大型模型在翻译复杂语言方面始终优于小型模型。然而，在生产环境中——比如手机上的翻译应用——由于延迟和内存限制，部署这些庞大的模型是不切实际的。 ...

[Meaning Variation and Data Quality in the Corpus of Founding Era American English 🔗](https://aclanthology.org/2025.acl-short.66.pdf)

用 AI 解码宪法：深入探讨历史含义与数据质量

美国宪法是历史上受到最严格审查的文件之一。几个世纪以来，法官、律师和历史学家一直在争论其措辞的确切含义。近几十年来，一种被称为原旨主义 (Originalism) 的法律理论——即宪法应根据其颁布时的原始公众含义进行解释——在美国最高法院获得了巨大的关注。 ...

[MUSTS: MUltilingual Semantic Textual Similarity Benchmark 🔗](https://aclanthology.org/2025.acl-short.27.pdf)

迷失在翻译中：为什么多语言 AI 需要 MUSTS 基准测试

引言: 意义的挑战想象一下，你正在构建一个搜索引擎或聊天机器人。用户输入了这样一句话: *“The bird is bathing in the sink.” (那只鸟正在水槽里洗澡。) * 过了一会儿，另一位用户输入: *“Birdie is washing itself in the water basin.” (小鸟正在水盆里清洗自己。) * ...

[MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments 🔗](https://arxiv.org/abs/2501.01652)

数字侦探：大语言模型能破解复杂的谋杀谜案吗？

引言在经典文学的殿堂里，谋杀悬疑小说独树一帜。从阿加莎·克里斯蒂笔下的赫尔克里·波洛，到亚瑟·柯南·道尔创造的夏洛克·福尔摩斯，破案需要一种独特的混合技能: 收集零散信息、看穿复杂的欺骗网络、理解人类心理，并在压力下进行逻辑推演。 ...

[Literary Evidence Retrieval via Long-Context Language Models 🔗](https://arxiv.org/abs/2506.03090)

AI 能读懂字里行间吗？基准测试长上下文 LLM 的文学评论能力

引言多年来，自然语言处理的“圣杯”一直是真正的阅读理解。我们已经从简单的关键字匹配发展到语义搜索，现在又有了能够处理海量信息的大型语言模型 (LLM) 。但是，处理文本与真正理解文学之间存在着显著的差异。 ...

[Limited-Resource Adapters Are Regularizers, Not Linguists 🔗](https://arxiv.org/abs/2505.24525)

灵魂之汤？为何随机噪声能改善克里奥尔语翻译

在自然语言处理 (NLP) 的世界里，人们一直怀揣着一个梦想: 创造一个对所有人都通用的翻译器，无论用户来自哪里或讲什么语言。虽然我们在英语、法语和西班牙语等大语种上取得了巨大进步，但世界上处于“长尾”部分的语言——特别是低资源语言——仍然被甩在后面。 ...

[LexKeyPlan: Planning with Keyphrases and Retrieval Augmentation for Legal Text Generation: A Case Study on European Court of Human Rights Cases 🔗](https://aclanthology.org/2025.acl-short.32.pdf)

为何法律 AI 需要规划：LexKeyPlan 介绍

为何法律 AI 需要规划: LexKeyPlan 介绍人工智能正在重塑法律领域。从起草合同到总结案情摘要，大型语言模型 (LLM) 不仅通过了律师资格考试，还在以令人印象深刻的水平进行法规推理。然而，如果你是一名法学学生或法律从业者，你会知道在风险极高的情况下，仅仅“令人印象深刻”是不够的。在法律中，精准就是一切。 ...

[Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs 🔗](https://arxiv.org/abs/2506.05629)

ID-SPAM：利用自注意力机制让软提示更智能

ID-SPAM: 利用自注意力机制让软提示更智能 GPT-4、Llama 和 RoBERTa 等大型语言模型 (LLM) 的兴起在服务器机房里制造了一头巨大的“大象”。这些模型能力惊人，但也异常沉重。当你想要让一个拥有数十亿参数的模型适应特定任务——比如法律分析或医疗诊断——时，重新训练整个模型 (微调) 对于大多数研究人员和小型机构来说，往往在计算上是不可能的。 ...