EMNLP 2024

[Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process 🔗](https://arxiv.org/abs/2408.02103)

智能标注：利用 LM-DPP 在有限数据下优化上下文学习

在大型语言模型 (LLM) 的时代，我们教导机器的方式发生了巨大转变。我们不再总是通过更新数百万个参数来微调模型，而是经常依赖上下文学习 (In-Context Learning, ICL) 。这涉及在提示词 (prompt) 中提供一些输入-输出示例 (演示) ，让模型即时“学习”模式。 ...

[EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning 🔗](https://arxiv.org/abs/2411.03877)

如何挑选完美提示词：深入解析 EXPLORA 的高效样本选择机制

引言想象一下，你正在试图教一个聪明但思维刻板的学生如何解决复杂的物理问题。你没有时间教给他们整本教科书。相反，你只能在期末考试前给他们展示五个具体的解题示例。 ...

[EVEDIT: Event-based Knowledge Editing for Deterministic Knowledge Propagation 🔗](https://aclanthology.org/2024.emnlp-main.282.pdf)

为何你的 LLM 会困惑：基于事件的知识编辑方案

想象一下你正在更新维基百科页面。你需要修改一个关键事实: “莱昂内尔·梅西 (Lionel Messi) 现在是荷兰公民。” 如果你只是在数据库中更新这一个数据点，那没问题。但大型语言模型 (LLM) 不是数据库；它们是建立在相关性网络之上的推理引擎。如果你强迫 LLM 在没有上下文的情况下相信梅西是荷兰人，就会引发一连串的混乱。当你问“梅西出生在哪里？”时，模型现在可能会产生幻觉回答“阿姆斯特丹”，因为在它对世界的统计认知中，荷兰公民通常出生在荷兰。 ...

[ESC: Efficient Speech Coding with Cross-Scale Residual Vector Quantized Transformers 🔗](https://arxiv.org/abs/2404.19441)

Transformer 接管音频：深入解读高效语音编解码器 (ESC)

在实时通信时代——想想 Zoom 通话、Discord 聊天和流媒体服务——我们压缩音频数据的方式至关重要。我们需要高保真度、低延迟和极低的数据用量。多年来，业界一直依赖 Opus 或 MP3 等传统数字信号处理 (DSP) 编解码器。然而，最近, 神经音频编解码器 (Neural Audio Codecs) 占据了舞台中心，利用深度学习以远超人工设计规则的效率压缩音频。 ...

[ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models 🔗](https://arxiv.org/abs/2406.14952)

AI 真的能成为你的心理治疗师吗？介绍 ESC-Eval：一种测试数字同理心的框架

引言在过去的几年里，我们目睹了人机交互方式发生了地震般的转变。我们不再只是询问 Siri 天气如何，而是向 ChatGPT 倾诉我们压力重重的一天，向 Claude 寻求情感建议，或者在感到孤独时从 Llama 那里寻求安慰。这个特定的领域被称为情感支持对话 (Emotional Support Conversation, ESC) 。 ...

[ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments 🔗](https://arxiv.org/abs/2410.06420)

AI 医生看得见吗？在急诊室评估视觉语言模型

引言想象一个繁忙的急诊室。医生和护士在病人之间穿梭，机器发出哔哔声，需要在瞬间做出决定。现在，想象角落里有一位 AI 助手，通过摄像头观察现场，随时准备在病人拔掉静脉输液管或呼吸机设置看似错误时向工作人员发出警报。 ...

[EPO: Hierarchical LLM Agents with Environment Preference Optimization 🔗](https://arxiv.org/abs/2408.16090)

无需人工标注训练机器人智能体：深入解析环境偏好优化 (EPO)

想象一下让机器人“把一杯咖啡加热”。对你来说，这是一个简单的请求。但对机器人 (或具身 AI 智能体) 来说，这是一个极具挑战性的后勤难题。它涉及导航、物体检测、抓取、打开微波炉以及理解“加热”这一概念。 ...

[EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records 🔗](https://arxiv.org/abs/2401.07128)

弥合医生与数据之间的鸿沟：EHRAgent 如何将医疗问题转化为代码

想象一下，一位繁忙的临床医生身处重症监护室。他们需要知道一些具体的信息，而且现在就要知道: “有多少患者在接受静脉导管手术后的两个月内被开具了阿司匹林？” ...

[EH-MAM: Easy-to-Hard Masked Acoustic Modeling for Self-Supervised Speech Representation Learning 🔗](https://arxiv.org/abs/2410.13179)

进阶之路：由易到难的掩码策略如何教会 AI 理解语音

想象一下你正在准备一场高难度的考试。如果你只是随意翻阅课本，读一些随机的页面——其中有些是空白的，有些包含你已经知道的琐碎信息，只有少数包含复杂的概念——你的学习效率不会很高。更好的策略是找出你觉得最难的主题，把精力集中在那里。此外，你不会在第一天就从最难的问题开始；你会从基础开始，随着你变得更聪明，逐步解决更难的问题。 ...

[EFUF: Efficient Fine-Grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models 🔗](https://arxiv.org/abs/2402.09801)

如何让 AI “遗忘” 幻觉：深入解读 EFUF

引言在快速发展的人工智能领域，多模态大型语言模型 (MLLMs) ，如 LLaVA 和 MiniGPT-4，代表了一个巨大的飞跃。这些模型不仅能阅读文本，还能“看”懂图像并围绕图像进行对话。然而，尽管它们的能力令人印象深刻，MLLM 仍遭受着一个持续存在且令人沮丧的缺陷困扰: 幻觉 (Hallucination) 。 ...

[ECON: On the Detection and Resolution of Evidence Conflicts 🔗](https://arxiv.org/abs/2410.04068)

当事实碰撞时：LLM 如何检测与解决相互冲突的证据

在检索增强生成 (RAG) 时代，我们经常将大语言模型 (LLM) 视为能总结真相的复杂搜索引擎。我们提出一个问题，系统从网络上检索文档，然后 LLM 综合出一个答案。但是，当互联网自相矛盾时会发生什么？ ...

[ECIS-VQG: Generation of Entity-centric Information-seeking Questions from Videos 🔗](https://arxiv.org/abs/2410.09776)

超越“这是什么？”：教 AI 对视频提出深度问题

如果你曾搜索过“如何修理漏水的水龙头”或“罗马元老院的历史”之类的教程，你很可能遇到过搜索引擎上的“人们还在问” (People Also Ask) 板块。如今，这些推荐不仅指向文本文章，还越来越多地指向视频中的特定章节。这一功能非常实用，但对人工智能来说却是一个巨大的挑战: 机器如何能够“观看”视频，并自动针对其中讨论的特定实体 (人物、地点、概念) 提出有意义的、深度的问题? ...

[ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? 🔗](https://arxiv.org/abs/2407.14044)

优化悖论：为何 LLM 难以写出既快又正确的代码

引言在软件开发飞速发展的今天，像 GPT-4、CodeLlama 和 DeepSeek 这样的大型语言模型 (LLM) 已成为不可或缺的助手。它们能够生成样板代码、调试错误，甚至在不同编程语言之间进行翻译。我们已经发展到了这样一个阶段: 生成功能正确的代码——即对于给定输入能产生正确输出的代码——已成为这些模型的基本预期。 ...

[EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees 🔗](https://arxiv.org/abs/2406.16858)

打破速度限制：EAGLE-2 如何利用动态草稿树加速 LLM

如果你曾经盯着闪烁的光标，看着 ChatGPT 或 LLaMA 一个字一个字地写出回复，你就体验过大语言模型 (LLM) 固有的瓶颈。这种迟缓源于自回归生成 (autoregressive generation) : 模型必须先生成 Token A，才能生成 Token B，然后是 Token C。这是一个严格的串行过程，导致那些擅长并行计算的现代 GPU 在很大程度上未被充分利用。 ...

[DynamicER: Resolving Emerging Mentions to Dynamic Entities for RAG 🔗](https://arxiv.org/abs/2410.11494)

当“天使队的巨星”变成“道奇队的17号”：解决 LLM 中的动态实体解析问题

语言是鲜活的、呼吸着的。它时刻都在变化，往往比我们的数字系统跟进的速度还要快。想想棒球巨星大谷翔平 (Shohei Ohtani) 。几年前，称他为“天使队的王牌 (The Angels’ Ace) ”是准确的。而今天，提及他则需要像“道奇队的17号 (The Dodgers’ number 17) ”这样的新语言。 ...

[Dynamically rewarding with prompt optimization enables tuning-free self-alignment of language models 🔗](https://arxiv.org/abs/2411.08733)

无需训练即可对齐 LLM：深入解析动态奖励与提示优化 (DRPO)

简介大型语言模型 (LLMs) 的快速演进使我们距离通用人工智能更近了一步，但仅有原始的智能是不够的。我们需要模型是对齐的——即有用、无害且诚实。传统上，实现这种对齐是一项资源密集型的工作。它通常涉及监督微调 (SFT) ，然后是基于人类反馈的强化学习 (RLHF) 。虽然有效，但这一流程昂贵、对计算资源要求高，并且依赖于大量的人类标注偏好数据。 ...

[Dynamica Multi-granularity Attribution Network for Aspect-based Sentiment Analysis 🔗](https://aclanthology.org/2024.emnlp-main.611.pdf)

超越注意力机制：为何归因分析是细粒度情感分析的未来

在自然语言处理 (NLP) 的世界里，语境决定一切。请看这句话: *“食物相当不错，但服务太糟糕了。” (The food is pretty good, but the service is so horrific.) * 如果你让一个标准的情感分析模型对这句话进行分类，它可能会感到困惑。它是正面的？负面的？还是中性的？事实是它两者兼有——这完全取决于你问的是什么。如果你关注的是食物，它是正面的。如果你关注的是服务，它是负面的。 ...

[Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation 🔗](https://arxiv.org/abs/2402.14146)

掌握混合技巧：如何教大语言模型同时使用多种风格

想象一下，你正在为一位同事写绩效评估。你希望反馈既显得专业 (正式) ，又能给人以鼓励 (积极) 。现在，再想象一下你正在给一位密友发短信，吐槽你刚看的一部烂片。你想要表达得随意 (非正式) 且充满批判性 (消极) 。 ...

[DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models 🔗](https://arxiv.org/abs/2407.01009)

在 LLM 中复刻人类直觉：深入解读 DynaThink

引言诺贝尔奖得主丹尼尔·卡尼曼 (Daniel Kahneman) 在其开创性著作《思考，快与慢》 (Thinking, Fast and Slow) 中描述了人类思维的两种主要模式: “系统 1”是快速、本能且感性的；而“系统 2”则是缓慢、深思熟虑且逻辑性强的。当有人问你“2 + 2 等于几？”时，你会启动系统 1。你不需要计算，你直接知道答案。然而，如果被问到“17 × 24 等于几？”，你就会启动系统 2。你会停下来，调动脑海中的算法，一步步地处理这个问题。 ...

[DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities 🔗](https://arxiv.org/abs/2410.07722)

填补鸿沟：DyVo 如何将世界知识注入神经搜索

搜索引擎已经从单纯的关键词匹配取得了长足的进步，但它们仍然在一个根本性问题上举步维艰: 歧义性 (ambiguity) 。当用户搜索 “Is the US a member of WHO?” (美国是世卫组织的成员吗？) 时，传统的系统看到的可能是单词 “us” (我们) 和 “who” (谁) ，从而可能错过了至关重要的实体 “United States” (美国) 和 “World Health Organization” (世界卫生组织) 。 ...