EMNLP 2024

[African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification 🔗](https://arxiv.org/abs/2406.14496)

为什么你的 AI 会写诗却叫不出鸟名：深入了解 FOCI 基准测试

简介想象一下，给最先进的 AI 展示一张毛茸茸的灰白色狗狗的照片。模型立即开始运作，描述狗狗的尖耳朵、卷曲的尾巴以及毛发的质感。它甚至可能告诉你这是一种忠诚的伴侣犬。但是当你问: “这具体是什么品种？”时，模型自信地回答: “这是一只萨摩耶。” ...

[Adversarial Text Generation using Large Language Models for Dementia Detection 🔗](https://aclanthology.org/2024.emnlp-main.1222.pdf)

用 LLM 解码痴呆症——对抗性文本生成如何解锁隐藏的语言标记

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLM) 已经彻底改变了我们要与文本交互的方式。它们可以总结小说、编写代码，甚至通过律师资格考试。然而，当涉及到特定的医疗诊断时——例如通过语音模式检测痴呆症——这些强大的模型往往会碰壁。 ...

[Advancing Test-Time Adaptation in Wild Acoustic Test Settings 🔗](https://arxiv.org/abs/2310.09505)

驯服野性——如何针对噪声、口音和歌声实时调整语音模型

引言想象一下，你训练了一个最先进的语音识别模型。在实验室安静的环境中，它的表现堪称完美，能够以近乎完美的准确率转录每一个单词。然后，你将它部署到现实世界中。突然间，模型面临着空调的嗡嗡声、非母语说话者独特的节奏，或者是某人一边哼着小曲一边说话。模型的性能瞬间骤降。 ...

[Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions 🔗](https://arxiv.org/abs/2404.11023)

超越聊天机器人：构建社会智能 AI 的四大核心挑战

人类本质上是社会性生物。我们的历史、文化和生存都依赖于我们要解读扬起的眉毛、理解对话中的停顿或感知房间内氛围的能力。我们将这种能力称为社会智能 (Social Intelligence) 。 ...

[Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss 🔗](https://arxiv.org/abs/2406.05326)

超越二元对立：利用回归和 Smooth K2 Loss 重构语义相似度

引言在自然语言处理 (NLP) 领域，判断两个句子是否表达相同的意思是一项基石般的任务。这种能力被称为语义文本相似度 (Semantic Textual Similarity, STS) ，它是搜索引擎、推荐系统、抄袭检测和聚类算法背后的核心动力。 ...

[Advancing Process Verification for Large Language Models via Tree-Based Preference Learning 🔗](https://arxiv.org/abs/2407.00390)

超越对与错：通过基于树的偏好学习教大模型推理

如果你曾让像 ChatGPT 这样的大型语言模型 (LLM) 解决过复杂的数学问题，你可能已经注意到了一个有趣的怪现象。有时，模型虽然得出了正确的答案，但理由却是错误的。而另一些时候，它开局完美，却在中间某个逻辑环节滑了一跤，随后陷入幻觉。 ...

[Advancing Large Language Model Attribution through Self-Improving 🔗](https://arxiv.org/abs/2410.13298)

自力更生：大语言模型如何通过自学掌握引用来源

大语言模型 (LLM) 彻底改变了我们要去寻求信息的方式。我们不再需要浏览十个不同的搜索结果，而是能立即获得生成的简明摘要。但这其中有一个众所周知的陷阱: 幻觉。LLM 听起来可能极其自信，但事实却完全是编造的。 ...

[Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations 🔗](https://arxiv.org/abs/2410.04241)

穿越噪声：LLM 如何通过引用处理相互冲突的真相

想象一下，向一个强大的人工智能提问: “谁是美国总统？” 对于一个处理了数百万份互联网文档的人工智能来说，这个看似简单的答案其实并不简单。一份 2008 年的文档可能说是巴拉克·奥巴马 (Barack Obama) 。另一份 2024 年的文档说是乔·拜登 (Joe Biden) 。一份历史文本可能在讨论“POTUS” (美国总统) 的一般权力。当人工智能遇到这种情况时，它通常会强制给出一个单一答案，从而可能在不存在确定性的地方产生确定性的幻觉。 ...

[Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers 🔗](https://arxiv.org/abs/2406.10991)

AdaQR：教大语言模型在不偷看答案的情况下更好地搜索

想象一下你正在和朋友聊电影。你问: “谁导演了《盗梦空间》？”你的朋友回答: “克里斯托弗·诺兰。”接着你问: “他还导演过什么？” 你的朋友立刻就知道“他”指的是诺兰。但如果你把“他还导演过什么？” (What else did he direct?) 输入到一个标准的搜索引擎中，结果往往会很糟糕。因为它缺少上下文。这就是对话式问答 (Conversational Question Answering, CQA) 面临的根本挑战。为了填补人类对话与搜索引擎之间的鸿沟，我们使用查询重写 (Query Rewriting, QR) 技术。一个 QR 模型会将“他还导演过什么？”翻译成“克里斯托弗·诺兰导演过哪些电影？” ...

[Adaptive Immune-based Sound-Shape Code Substitution for Adversarial Chinese Text Attacks 🔗](https://aclanthology.org/2024.emnlp-main.262.pdf)

攻破中文 NLP 模型：音形特征如何制造隐形攻击

引言在自然语言处理 (NLP) 领域，深度神经网络 (DNN) 是当之无愧的霸主。它们驱动着从电商网站的情感分析到社交媒体上的毒性评论检测等一切应用。然而，这些模型有一个巨大的致命弱点: 它们非常脆弱。对输入句子进行微小且通常难以察觉的更改 (称为对抗性攻击) ，就可能导致最先进的模型对文本进行完全错误的分类。 ...

[ADAPTIVE AXES: A Pipeline for In-domain Social Stereotype Analysis 🔗](https://aclanthology.org/2024.emnlp-main.872.pdf)

超越善恶：利用自适应轴揭示细微的社会刻板印象

引言语言很少是中立的。当我们谈论或书写不同的社会群体时——无论是按国籍、种族还是性别定义——我们往往依赖于微妙的联想来构建对这些群体的认知。这些联想就是我们所说的社会刻板印象。 ...

[Adaptation-of-Thought: Learning Question Difficulty Improves Large Language Models for Reasoning 🔗](https://aclanthology.org/2024.emnlp-main.313.pdf)

为何通用提示词行不通：介绍面向大语言模型的思维适应 (ADoT)

当你问一位教授一个简单的问题，比如“2 + 2 等于几？”，你期望得到一个简单的回答: “4”。但如果你问，“神经网络是如何学习的？”，你则期望得到一个详细的、分步骤的解释。 ...

[ADAPTORS MIXUP: Mixing Parameter-Efficient Adaptors to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers 🔗](https://aclanthology.org/2024.emnlp-main.1180.pdf)

两全其美：利用 Adapter Mixup 增强 AI 鲁棒性

引言想象一下，你训练了一个最先进的 AI 模型来对文本进行分类。它在你的测试数据上运行完美。然而，一个恶意攻击者仅仅改变了输入句子中的一个词——把“bad”换成了“not good”——你的模型预测结果就突然完全反转了。这就是对抗性攻击 (Adversarial Attack) , 它是现代自然语言处理 (NLP) 中最大的漏洞之一。 ...

[Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? 🔗](https://arxiv.org/abs/2410.05581)

当更多的训练适得其反：大语言模型的适应奥德赛

在传统的机器学习世界里，有一条几乎总是成立的黄金法则: 如果你希望模型在特定主题上表现更好，就在该主题的数据上训练它。如果你想让神经网络识别猫，你就给它看更多的猫。如果你想让语言模型理解生物学，你就用生物学论文来训练它。 ...

[Adaptable Moral Stances of Large Language Models on Sexist Content - Implications for Society and Gender Discourse 🔗](https://arxiv.org/abs/2410.00175)

道德之镜——如何引导 LLM 为性别歧视辩解

道德之镜: 如何引导 LLM 为性别歧视辩解大型语言模型 (LLM) 常被描述为互联网上人类知识的总和。它们阅读过我们的百科全书、代码库和小说。但它们也阅读过我们的评论区、争论和偏见。虽然在“对齐 (aligning) ”这些模型以使其有益、诚实和无害方面投入了大量精力，但底层训练数据仍然包含一系列人类价值观——从进步理想主义到倒退的偏见。 ...

[AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaptation for Memory-Efficient Large Language Models Fine-Tuning 🔗](https://arxiv.org/abs/2406.18060)

AdaZeta 如何实现无需反向传播的大模型微调

引言像 Llama-2 和 RoBERTa 这样的大型语言模型 (LLM) 的快速演进彻底改变了自然语言处理领域。然而，将这些庞大的模型适配到特定任务 (即微调过程) 面临着巨大的计算障碍。随着模型规模激增至数十亿参数，通过标准方法训练它们所需的 GPU 显存变得极其昂贵。 ...

[ADASWITCH: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning 🔗](https://arxiv.org/abs/2410.13181)

两全其美：ADASWITCH 如何将微型本地模型与巨型云端大脑相结合

当前的人工智能格局给工程师和用户带来了一种令人沮丧的两难境地。一方面，我们拥有基于云的大型语言模型 (LLMs) , 如 GPT-4 或 Claude 3 Opus。它们非常聪明，能够进行复杂的推理，并掌握海量的知识。然而，它们的运行成本高昂，依赖网络延迟，并且引发了数据隐私方面的担忧。 ...

[ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities 🔗](https://arxiv.org/abs/2410.03907)

AI 真的能打扫你的厨房吗？使用 ActPlan-1K 对 VLM 规划能力进行基准测试

引言想象一下，你要求一个机器人在客厅里“组装礼品篮”。一个标准的大型语言模型 (LLM) 可能会给你列出一份完美的文字指令: 找到篮子，放入饼干，加上奶酪。但是，如果机器人看向桌子，发现饼干烤焦了怎么办？如果原本用来浇水的水源被切断了怎么办？ ...

[Accurate and Data-Efficient Toxicity Prediction when Annotators Disagree 🔗](https://arxiv.org/abs/2410.12217)

超越多数投票原则：结合个人背景预测个体毒性评分

引言在自然语言处理 (NLP) 的世界里，我们经常将数据标注视为寻找单一真理的过程。如果我们让五个人将一条评论标记为“有毒 (toxic) ”或“无毒”，其中三个人说有毒，我们通常会采用多数投票的结果，并将反对意见视为噪声丢弃。但这种分歧真的是噪声吗？ ...

[Academics Can Contribute to Domain-Specialized Language Models 🔗](https://aclanthology.org/2024.emnlp-main.293.pdf)

为什么学术界应停止追逐排行榜并开始转向专业化

引言: NLP 领域的大卫与歌利亚难题如果你是当今自然语言处理 (NLP) 领域的学生或研究人员，你可能会感受到来自“规模”的压力。几年前，一个大学实验室利用几块 GPU 就能训练出一个最先进的模型。而今天，排行榜被商业巨头——OpenAI、Google、Anthropic 和 Meta——所主导。这些机构利用学术机构根本无法企及的计算资源和数据集，训练着庞大的通用大型语言模型 (LLM) 。 ...