EMNLP 2024

[ADASWITCH: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning 🔗](https://arxiv.org/abs/2410.13181)

两全其美：ADASWITCH 如何将微型本地模型与巨型云端大脑相结合

当前的人工智能格局给工程师和用户带来了一种令人沮丧的两难境地。一方面，我们拥有基于云的大型语言模型 (LLMs) , 如 GPT-4 或 Claude 3 Opus。它们非常聪明，能够进行复杂的推理，并掌握海量的知识。然而，它们的运行成本高昂，依赖网络延迟，并且引发了数据隐私方面的担忧。 ...

[ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities 🔗](https://arxiv.org/abs/2410.03907)

AI 真的能打扫你的厨房吗？使用 ActPlan-1K 对 VLM 规划能力进行基准测试

引言想象一下，你要求一个机器人在客厅里“组装礼品篮”。一个标准的大型语言模型 (LLM) 可能会给你列出一份完美的文字指令: 找到篮子，放入饼干，加上奶酪。但是，如果机器人看向桌子，发现饼干烤焦了怎么办？如果原本用来浇水的水源被切断了怎么办？ ...

[Accurate and Data-Efficient Toxicity Prediction when Annotators Disagree 🔗](https://arxiv.org/abs/2410.12217)

超越多数投票原则：结合个人背景预测个体毒性评分

引言在自然语言处理 (NLP) 的世界里，我们经常将数据标注视为寻找单一真理的过程。如果我们让五个人将一条评论标记为“有毒 (toxic) ”或“无毒”，其中三个人说有毒，我们通常会采用多数投票的结果，并将反对意见视为噪声丢弃。但这种分歧真的是噪声吗？ ...

[Academics Can Contribute to Domain-Specialized Language Models 🔗](https://aclanthology.org/2024.emnlp-main.293.pdf)

为什么学术界应停止追逐排行榜并开始转向专业化

引言: NLP 领域的大卫与歌利亚难题如果你是当今自然语言处理 (NLP) 领域的学生或研究人员，你可能会感受到来自“规模”的压力。几年前，一个大学实验室利用几块 GPU 就能训练出一个最先进的模型。而今天，排行榜被商业巨头——OpenAI、Google、Anthropic 和 Meta——所主导。这些机构利用学术机构根本无法企及的计算资源和数据集，训练着庞大的通用大型语言模型 (LLM) 。 ...

[ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator 🔗](https://arxiv.org/abs/2405.18111)

如何驯服噪声：利用对抗性多智能体微调打造鲁棒的 RAG 系统

引言在当前的人工智能领域，像 GPT-4 和 Llama 这样的大型语言模型 (LLMs) 展现了极其强大的能力。然而，它们都有一个众所周知的缺陷: 幻觉 (hallucinations) 。当 LLM 不知道答案时，它往往会编造一个。为了解决这个问题，业界采用了检索增强生成 (Retrieval-Augmented Generation, RAG) 技术。 ...

[ATAP: Automatic Template-Augmented Commonsense Knowledge Graph Completion via Pre-Trained Language Models 🔗](https://aclanthology.org/2024.emnlp-main.919.pdf)

跨越鸿沟：ATAP 如何利用连续提示自动化常识推理

引言想象一下教计算机“雨伞是用来挡雨的”。对人类来说，这显而易见——这是常识。但对计算机来说，这种关系必须被明确教授或推断出来。我们通常将这类信息存储在常识知识图谱 (Commonsense Knowledge Graphs, CKGs) 中，它将数据结构化为类似 (雨伞, UsedFor, 雨) 的三元组。 ...

[ASL STEM Wiki: Dataset and Benchmark for Interpreting STEM Articles 🔗](https://arxiv.org/abs/2411.05783)

填补鸿沟：AI、ASL 与 STEM 教育的挑战

试想一下，当你试图学习高等量子物理或有机化学时，每当出现“电磁学”或“光合作用”这样的专业术语时，你的老师就会停下来，一个字母一个字母地慢慢拼写出这个单词。这正是许多失聪和听力障碍 (DHH) 学生面临的现实。虽然美国手语 (ASL) 是一种丰富且表现力强的语言，但它在 STEM 教育中面临着一个巨大的瓶颈: 缺乏针对技术概念的标准化手语。 ...

[ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings 🔗](https://arxiv.org/abs/2402.16006)

打破常规：如何通过翻译嵌入创建流畅的 LLM 越狱攻击

引言像 ChatGPT、Llama 和 Vicuna 这样的大型语言模型 (LLMs) 的迅速崛起，彻底改变了自动文本生成的格局。然而，能力越大，漏洞也越大。这些模型经过训练，拥有拒绝有害指令的安全护栏——这一过程被称为对齐 (alignment) 。对于安全研究人员来说，目标是通过“越狱”攻击来测试这些护栏，探索是否能诱导模型生成危险内容。 ...

[ARM: An Alignment-and-Replacement Module for Chinese Spelling Check Based on LLMs 🔗](https://aclanthology.org/2024.emnlp-main.567.pdf)

驯服 LLM：ARM 如何将大型语言模型整合进中文拼写纠错

简介想象一下你正在用中文给朋友发短信。你想说“我睡得太熟了”，但你不小心打错了一个字，这个字听起来很像但意思完全不同。在中文里，成千上万的汉字拥有相似的发音 (同音字) 或视觉结构，这是一种持续存在的困扰。这就是中文拼写纠错 (Chinese Spelling Check, CSC) 的领域。 ...

[APPLS: Evaluating Evaluation Metrics for Plain Language Summarization 🔗](https://arxiv.org/abs/2305.14341)

AI 能判断“简单”吗？深入解读平实语言摘要评估平台 APPLS

科学界存在沟通难题。虽然研究人员正以前所未有的速度取得突破，但由此产生的论文往往晦涩难懂、充满术语，令普通大众望而却步。这种鸿沟催生了平实语言摘要 (Plain Language Summarization, PLS) 的任务——将复杂的科学摘要重写为非专业人士也能理解的清晰、易懂的语言。 ...

[AMR-Evol: Adaptive Modular Response Evolution Elicits Better Knowledge Distillation for Large Language Models in Code Generation 🔗](https://arxiv.org/abs/2410.00558)

打造更好的代码模型：AMR-Evol 如何修正知识蒸馏

引言在当前的人工智能领域，GPT-4、Gemini 和 Claude 等专有大型语言模型 (LLMs) 在排行榜上独占鳌头，尤其是在代码生成方面。它们编写复杂 Python 脚本或调试软件的能力令人印象深刻。然而，它们的闭源性质引发了关于数据隐私、成本和可访问性的担忧。 ...

[AMPO: Automatic Multi-Branched Prompt Optimization 🔗](https://arxiv.org/abs/2410.08696)

超越线性思维：AMPO 如何利用多分支逻辑彻底变革提示工程

引言: “一刀切”的问题在大语言模型 (LLM) 飞速发展的今天，提示工程 (Prompt Engineering) 已然成为一门艺术。我们花费数小时精心打磨完美的指令，微调形容词，加上“让我们一步步思考 (Let’s think step by step) ”，只为从 GPT-4 等模型中榨取更好的性能。 ...

[ALVIN: Active Learning Via INterpolation 🔗](https://arxiv.org/abs/2410.08972)

打破捷径：ALVIN 如何通过插值彻底变革主动学习

引言在大语言模型 (LLM) 时代，我们经常惊叹于其零样本 (zero-shot) 能力。然而，对于关键应用而言，有监督微调仍然是黄金标准。挑战一如既往，在于数据。收集高质量的标注数据既昂贵、缓慢，又是劳动密集型的工作。这种“标注瓶颈”正是主动学习 (Active Learning, AL) 背后的主要驱动力。 ...

[AKEW: Assessing Knowledge Editing in the Wild 🔗](https://arxiv.org/abs/2402.18909)

野外环境下的知识编辑：为何对大模型进行“手术”比预想中更难

大型语言模型 (LLMs) 仿佛被冻结在时间的长河中。当像 GPT-4 或 Llama 2 这样的模型完成训练时，它们对世界的认知就锁定在了那一刻。但世界并没有停下脚步。总统更迭、公司合并、科学发现推翻旧理论，时刻都在发生。 ...

[AGRAME: Any-Granularity Ranking with Multi-Vector Embeddings 🔗](https://arxiv.org/abs/2405.15028)

放大细节：AGRAME 如何利用单层级编码实现多粒度搜索

搜索引擎已经发生了巨大的演变，但它们经常遭受“分辨率”问题的困扰。想象一下你在大海捞针。大多数现代检索系统非常擅长把干草堆 (文档或段落) 交给你，但如果不进行昂贵的重新索引，它们很难精确定位那根针 (特定的句子或事实) 。 ...

[ACE: A LLM-based Negotiation Coaching System 🔗](https://arxiv.org/abs/2410.01555)

掌握成交之道：AI 如何学会教授谈判技巧

谈判是现代生活中压力最大但也最不可或缺的技能之一。无论是买车、谈薪水，还是商定房租，直接为自己争取利益的能力将直接影响你的财务状况。遗憾的是，学校里很少教授有效的谈判技巧。这是一种“条件反射式的行为习惯”，通常只能通过昂贵的 MBA 研讨会、角色扮演和专家指导来磨练。这种排他性造成了一个鸿沟: 那些最能从这些技能中受益的人群——例如女性和少数族裔，统计数据显示他们往往不习惯自我倡导——却缺乏获得高质量培训的途径。 ...

[ABSEval: An Agent-based Framework for Script Evaluation 🔗](https://aclanthology.org/2024.emnlp-main.691.pdf)

LLM 真的会规划吗？介绍 ABSEval：用于评估脚本生成的多智能体框架

大型语言模型 (LLM) 已经征服了对话领域。它们可以写诗、调试代码并总结历史。但是，如果要求 LLM 规划一系列行动——比如“如何在不弄乱的情况下用勺子打开罐头？”——你就进入了一个完全不同的领域。这就是脚本规划 (Script Planning) 的范畴。 ...

[ABLE: Personalized Disability Support with Politeness and Empathy Integration 🔗](https://aclanthology.org/2024.emnlp-main.1252.pdf)

超越通用聊天机器人：ABLE 如何利用强化学习为残障支持带来同理心与个性化

引言想象一下，在一个并非为你设计的世界中前行。对于全球超过十亿生活在某种形式的身体残疾中的人来说，这就是日常的现实。无论是寻找无障碍住房、管理慢性疼痛，还是应对身体受限常伴随的社交孤立，对可靠支持的需求是巨大的。 ...

[A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks 🔗](https://arxiv.org/abs/2501.17569)

超越排行榜：为什么大型语言模型在阅读理解上依然受挫

在自然语言处理 (NLP) 飞速发展的世界里，我们常常被现代模型的巨大规模所震撼。从 GPT-4 到 LLaMA，头条新闻总是聚焦于参数量——数十亿甚至数万亿——以及它们在标准化排行榜上的统治地位。但在该领域中，存在一个安静却持久的问题: 评估的“黑盒”性质。 ...

[A User-Centric Multi-Intent Benchmark for Evaluating Large Language Models 🔗](https://arxiv.org/abs/2404.13940)

超越标准测试：基于用户真实需求评估大语言模型

引言想象一名学生，他在历史、数学和计算机科学的笔试中都能拿满分，但却难以进行正常的对话，无法给朋友提供建议，也想不出有创意的礼物点子。在人工智能领域，这是一个普遍存在的悖论。我们拥有的大语言模型 (LLM) 在律师资格考试或数学奥林匹克等标准化测试中能取得近乎完美的成绩，但它们有时却无法满足简单、繁杂、真实世界的用户请求。 ...