ACL 2025

[Enhancing Retrieval Systems with Inference-Time Logical Reasoning 🔗](https://arxiv.org/abs/2503.17860)

当向量搜索失效时：教检索系统进行逻辑思考

当向量搜索失效时: 教检索系统进行逻辑思考如果你构建过搜索引擎或 RAG (检索增强生成) 管道，那你一定熟悉向量嵌入 (vector embeddings) 的魔力。你将用户的查询压缩成一个稠密向量，然后在高维空间中搜索与该向量“接近”的文档。这很高效，可扩展，而且通常在语义相似性方面表现良好。 ...

[Enhancing NER by Harnessing Multiple Datasets with Conditional Variational Autoencoders 🔗](https://aclanthology.org/2025.acl-short.87.pdf)

跨越鸿沟——CVAE 如何助力跨冲突数据集的 NER 模型训练

简介在自然语言处理 (NLP) 的世界里，数据就是燃料。对于像命名实体识别 (NER) 这样的任务——即识别并分类化学品、疾病或基因等术语——其性能严格取决于高质量标注训练数据的数量。虽然大型语言模型 (LLMs) 已经展示了令人印象深刻的零样本能力，但在生物医学等专业领域，全量微调 (full fine-tuning) 或监督学习仍然是实现顶尖准确率的黄金标准。 ...

[Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding 🔗](https://arxiv.org/abs/2502.13738)

别再无视提示词：利用对比解码提升上下文学习效果

别再无视提示词: 利用对比解码提升上下文学习效果像 GPT-4 和 Llama-3 这样的大语言模型 (LLMs) 彻底改变了我们处理自然语言处理 (NLP) 的方式。它们最强大的功能之一就是上下文学习 (In-Context Learning, ICL) 。你无需为了某个特定数据集花费数小时微调模型，只需在提示词中提供几个例子 (演示) ，模型就能找出规律。 ...

[Efficient Knowledge Editing via Minimal Precomputation 🔗](https://arxiv.org/abs/2506.04226)

FastMEMIT：如何在几分钟内编辑大模型，而不是几小时

想象一下，你刚刚部署了一个庞大的大语言模型 (LLM) 。它运行得很完美，直到有用户问: “英国首相是谁？”模型自信地回答了一位三年前就已经离任的政治家的名字。 ...

[Dynamical Order Template Prediction for Generative Aspect-Based Sentiment Analysis 🔗](https://arxiv.org/abs/2406.11130)

超越静态提示——利用动态顺序模板实现高效情感分析

引言想象一下，你正在构建一个 AI 来分析一家餐厅的顾客评论。你收到了这样的反馈: “牛排棒极了，但服务慢得让人痛苦。” 如果你使用的是标准的情感分析，模型可能只会输出“混合”或“中性”。但这并没有太大帮助。你需要具体知道食物是正面的，而服务是负面的。这就是基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 的领域。 ...

[Doc-React: Multi-page Heterogeneous Document Question-answering 🔗](https://aclanthology.org/2025.acl-short.6.pdf)

超越简单的 RAG：Doc-React 如何解决复杂的多模态问答

引言想象一下，你是一名金融分析师，任务是根据一份长达 100 页的年度报告回答一个具体问题。这份报告不仅仅是文字；它是散落在不同页面上的段落、柱状图、散点图和信息图表的混乱混合体。要回答这个问题，你不能仅仅依靠找到某一个句子。你可能需要查看第 5 页的图表来确定某个特定区域，然后利用该区域的信息在第 12 页的表格中找到相应的收入数据。 ...

[Do Multimodal Large Language Models Truly See What We Point At? Investigating Indexical, Iconic, and Symbolic Gesture Comprehension 🔗](https://aclanthology.org/2025.acl-short.40.pdf)

指向难题：为什么 AI 难以理解你的手指指向

引言想象你正站在一个拥挤的博物馆里。你指着远处的一件展品对朋友说: “看那个！”你的朋友会立刻转头，顺着你手指的方向，在众多物体中识别出那个特定的目标，并完全理解你的意思。这种对人类来说瞬间完成且毫不费力的互动，实际上是多模态处理的杰作。它涉及将视觉数据、空间推理和语言整合为对世界的连贯理解。 ...

[Diffusion Directed Acyclic Transformer for Non-Autoregressive Machine Translation 🔗](https://aclanthology.org/2025.acl-short.64.pdf)

速度与质量的桥梁：Diff-DAT 如何将扩散模型引入非自回归翻译

引言: 速度与质量的博弈在自然语言处理 (NLP) 的世界里，Transformer 架构占据着统治地位。特别是对于机器翻译等任务，自回归 (Autoregressive, AR) Transformer 树立了质量的黄金标准。它们逐个生成单词，利用先前生成的单词作为上下文来生成下一个。这种顺序特性确保了高度的连贯性，但也制造了一个巨大的瓶颈: 延迟 (latency) 。生成一个长句子需要很长时间，因为在计算出第 9 个单词之前，你无法计算第 10 个单词。 ...

[Different Speech Translation Models Encode and Translate Speaker Gender Differently 🔗](https://arxiv.org/abs/2506.02172)

默认男性化：为何现代语音翻译模型在性别处理上陷入挣扎

想象一下，你正在使用一款实时翻译应用。你对着麦克风说: “I was born in London.” (我出生在伦敦。) 假设你是一位女性。该应用将你的句子翻译成法语。 ...

[Decoder-Only LLMs can be Masked Auto-Encoders 🔗](https://aclanthology.org/2025.acl-short.57.pdf)

统一生成与嵌入：UniMAE 如何变革仅解码器 LLM

在自然语言处理 (NLP) 快速发展的当下，我们正面临一个“双模型问题”。如果你正在构建一个检索增强生成 (RAG) 系统，通常需要两种截然不同的架构: 一个检索器 (通常是像 BERT 这样的双向编码器) 来处理嵌入和搜索，以及一个生成器 (像 GPT 或 Llama 这样的仅解码器 LLM) 来合成答案。 ...

[Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 🔗](https://arxiv.org/abs/2506.01675)

单行道：为何文化知识在 LLM 中并不总是自由流动

引言大型语言模型 (LLM) 在语言翻译方面已经取得了显著的熟练度。你可以要求模型将一句话从英语翻译成藏语，它通常能做得还算过得去。但语言不仅仅是语法和词汇；它是文化的载体。 ...

[Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning 🔗](https://arxiv.org/abs/2505.13628)

眼见即翻译：图像如何教会 AI 说低资源语言

引言: AI 领域的巴别塔难题想象一下，你正试图学习一门完全陌生的语言——比如克丘亚语 (Quechua) 或斯瓦希里语 (Swahili) ——而且你手头没有字典。不过，你有一本相册。你指着一张狗的照片，当地人说“allqu” (克丘亚语) 。你指着一张太阳的照片，他们说“inti”。最终，在没有看到任何直接的英语翻译的情况下，你开始通过视觉世界的共享现实来理解这门语言。 ...

[Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models 🔗](https://arxiv.org/abs/2502.11425)

修正时间线：反事实如何教会大模型理解时间

GPT-4 和 Llama-3 等大型语言模型 (LLM) 是令人印象深刻的博学者。它们能写诗、调试代码并总结历史。但尽管它们如此复杂，它们常常难以掌握小学生凭直觉就能理解的概念: 时间。 ...

[ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT 🔗](https://arxiv.org/abs/2506.04929)

超越文本：图像和元数据如何彻底变革电商翻译

想象一下，走进一家商店，看到一个标签上只写着 “Pen”。如果你站在文具通道，你立刻就知道这是一支书写工具 (钢笔/圆珠笔) 。但如果你站在农业用品区，同样的单词——“Pen”——很可能指的是一种动物围栏。单词没有变，但语境完全改变了它的含义。 ...

[Combining Domain and Alignment Vectors Provides Better Knowledge-Safety Trade-offs in LLMs 🔗](https://aclanthology.org/2025.acl-short.22.pdf)

MERGEALIGN：如何在无需支付“对齐税”的情况下构建安全专家型 LLM

简介在大型语言模型 (LLM) 快速发展的格局中，我们正在见证从通用聊天机器人向高度专业化的“领域专家”转变。现在，我们拥有专门针对金融、医学、编程和法律进行微调的模型。这些专家可以通过执业资格考试，并以远超标准 GPT-4 或 Llama-3 模型的准确度分析复杂的财务报告。 ...

[CoRet: Improved Retriever for Code Editing 🔗](https://aclanthology.org/2025.acl-short.62.pdf)

CoRet 如何彻底改变 AI 代理的代码导航能力

想象一下，你是一名软件工程师，刚刚加入一个首次接触的庞大遗留代码库。你收到一张工单: “修复仪表盘上用户登录超时的错误。”你的第一个挑战不是修复代码，而是从成千上万个文件和数万个函数中找到该代码究竟在哪里。 ...

[ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events 🔗](https://arxiv.org/abs/2501.03040)

AI 知道现在几点了吗？揭秘 ChronoSense 与大语言模型的时间推理能力

引言想象一下，你正在阅读一本历史书。书中写道，“第四次霍乱大流行”持续时间为 1863 年至 1875 年，而“第二次世界大战”发生在 1939 年至 1945 年。如果有人问你: “大流行是在二战之前发生的吗？”答案是显而易见的。你不需要进行复杂的微积分运算；你只需要比较一下时间线。这种对时间直观的掌握——理解事件有持续时间，它们可以重叠、同时开始或通过先后顺序相连——是人类认知的基石。 ...

[Can Uniform Meaning Representation Help GPT-4 Translate from Indigenous Languages? 🔗](https://arxiv.org/abs/2502.08900)

跨越鸿沟：语义图能否教会 GPT-4 土著语言？

引言在大型语言模型 (LLMs) 时代，人们很容易认为人工智能已经“解决”了语言问题。我们可以打开 ChatGPT，输入一个英语句子，然后立即得到流畅的法语、西班牙语或日语翻译。然而，这种表面的精通掩盖了一个巨大的数字鸿沟。虽然像 GPT-4 这样的模型在高资源语言 (即互联网上有数十亿词汇文本的语言) 上表现出色，但在处理低资源语言，特别是土著语言 (Indigenous languages) 时，它们往往会失败。 ...

[Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs 🔗](https://arxiv.org/abs/2506.00304)

用语言模型读取肌肉信号：LLM 如何解码无声语音

引言: 听不见的声音想象一下，你试图说话，但发不出任何声音。你的嘴在构词，舌头在移动，下颚在配合，但声带却保持沉默。对于数百万患有语言障碍的人来说——例如那些接受过喉切除术的人——这就是他们的日常现实。 ...

[Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure 🔗](https://arxiv.org/abs/2506.12278)

AI 能黑掉你的代码吗？介绍用于 LLM 测试生成的 TestCase-Eval

像 GPT-4 和 Qwen 这样的大型语言模型 (LLM) 的兴起彻底改变了我们编写代码的方式。我们现在可以提示模型生成复杂的算法，解决竞赛编程问题，甚至搭建整个应用程序的框架。但任何有经验的软件工程师都知道，编写代码只是战斗的一半。另一半——往往是更艰难的一半——是测试它。 ...