EMNLP 2024

[PANDA: Persona Attributes Navigation for Detecting and Alleviating Overuse Problem in Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.670.pdf)

信息量过载！为何大模型总是分享太多以及 PANDA 框架如何修复这一问题

引言想象一下，你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢，我也很喜欢！你最喜欢的作者是谁？” 现在想象一下这位熟人回答道: “我也很喜欢读书！我是一名 35 岁的会计师，住在芝加哥。我有三只猫，分别叫 Mittens、Oreo 和 Luna。我患有焦虑症，每周二下午 6 点去健身房。” ...

[PALM: Few-Shot Prompt Learning for Audio Language Models 🔗](https://arxiv.org/abs/2409.19806)

超越手工提示词：利用 PALM 优化音频语言模型

简介在快速发展的人工智能领域，多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样，音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。 ...

[Overcome Noise and Bias: Segmentation-Aided Multi-Granularity Denoising and Debiasing for Enhanced Quadruples Extraction in Dialogue 🔗](https://aclanthology.org/2024.emnlp-main.49.pdf)

驯服混乱：如何在没有噪声和偏差的情况下从杂乱的对话中提取情感四元组

情感分析已经从简单地将电影评论分类为“正面”或“负面”，发展到了如今的细粒度数据分析时代。我们现在的关注点在于基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 。我们不仅想知道用户是否快乐，还想知道他们对什么感到快乐，他们喜欢哪个具体功能，以及他们使用了什么观点词。 ...

[Outcome-Constrained Large Language Models for Countering Hate Speech 🔗](https://arxiv.org/abs/2403.17146)

超越礼貌——教人工智能缓和仇恨言论

如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过，你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战，威胁着健康的交流并驱赶用户。 ...

[Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding 🔗](https://arxiv.org/abs/2402.13720)

Ouroboros：利用基于短语的投机解码打破大语言模型的速度限制

大语言模型 (LLMs) 彻底改变了我们与信息交互的方式，但它们长期遭受一个瓶颈的困扰: 延迟。如果你曾看着 ChatGPT 逐字逐句地敲出答案，你就亲身体验过自回归解码的局限性。由于每一个新词元 (token) 都依赖于前一个词元，模型必须按顺序生成输出。这个过程缓慢且计算效率低下，导致昂贵的 GPU 在等待内存访问时处于空闲状态。 ...

[Order of Magnitude Speedups for LLM Membership Inference 🔗](https://arxiv.org/abs/2409.14513)

审计 LLM 隐私——如何大幅降低成员推断攻击的成本

大型语言模型 (LLM) 是在从互联网抓取的海量数据集上训练而成的，其中通常包含敏感的个人信息、专有代码或受版权保护的作品。这带来了巨大的隐私风险: 这些模型可能会“记忆”其训练数据。如果攻击者可以查询 LLM 并确定特定文档是否属于其训练集，那么他们就成功发动了成员推断攻击 (Membership Inference Attack, MIA) 。 ...

[Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning 🔗](https://aclanthology.org/2024.emnlp-main.565.pdf)

杂耍般的平衡艺术：'Fast RL' 如何在 LLM 训练中协调相互冲突的目标

基于人类反馈的强化学习 (RLHF) 是 ChatGPT 和 Llama 等现代大型语言模型 (LLMs) 取得成功的秘诀。正是这一过程将原本单纯的文本预测引擎转变为乐于助人的助手。然而，这一过程中隐藏着一种复杂性: 我们很少希望 AI 只做一件事。 ...

[Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs 🔗](https://arxiv.org/abs/2406.11695)

超越手动提示：利用 MIPRO 自动化多阶段 LM 程序

随着大型语言模型 (LM) 的发展，我们正在超越简单的单轮“聊天”界面。如今，自然语言处理 (NLP) 的前沿涉及语言模型程序 (Language Model Programs) : 即多个 LM 调用被链接在一起以解决复杂任务的精密管道。想象一个系统，它从维基百科检索信息，对其进行摘要，根据摘要进行推理，最后制定出最终答案。每一步都是一个独特的“模块”，需要其自己的提示 (prompt) 。 ...

[Optimizing Code Retrieval: High-Quality and Scalable Dataset Annotation through Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.123.pdf)

Query4Code：教 LLM 标注代码以构建更好的搜索引擎

如果你是一名软件开发人员，你的浏览器历史记录里可能充满了像“how to reverse a list in Python (如何在 Python 中反转列表) ”或“pandas dataframe drop duplicates (pandas dataframe 去重) ”这样的搜索记录。这种根据自然语言描述找到合适代码片段的过程，被称为代码检索 (Code Retrieval) 。 ...

[Optimizing Chinese Lexical Simplification Across Word Types: A Hybrid Approach 🔗](https://aclanthology.org/2024.emnlp-main.849.pdf)

小模型能打败 GPT-4 吗？一种中文词汇简化的混合方法

你是否读过这样的句子: 因为一个生僻词，感觉像撞上了一堵墙？在英语中，你可能会被 “esoteric” 卡住，希望作者直接用 “mysterious”。而在中文里, 成语或快速迭代的网络俚语往往让挑战加倍。 ...

[Optimized Speculative Sampling for GPU Hardware Accelerators 🔗](https://arxiv.org/abs/2406.11016)

打破内存墙：优化 GPU 上的投机采样

如果你曾盯着闪烁的光标等待大语言模型 (LLM) 完成一个段落，你就已经体会到了自回归生成固有的瓶颈。这些模型一次生成一个 token (词元) ，而对于每一个 token，模型都必须将海量的参数从内存搬运到计算单元。 ...

[OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation 🔗](https://arxiv.org/abs/2409.19270)

听见未见之声：OpenSep 如何利用 LLM 实现音频分离自动化

想象一下，你站在繁华的城市街道中央。耳边充斥着各种嘈杂的声音: 汽车的鸣笛声、孩子的叫喊声、人行道上的脚步声，或许远处还有警笛声。作为人类，你的大脑正在执行一项被称为“鸡尾酒会效应”的奇迹般的任务——你可以专注于孩子的叫喊声，而忽略汽车的喇叭声。你几乎可以瞬间从复杂的混合声音中分离出特定的声音。 ...

[Open-world Multi-label Text Classification with Extremely Weak Supervision 🔗](https://arxiv.org/abs/2407.05609)

探索未知：X-MLClass 如何在无标签情况下解决多标签分类难题

想象一下，有人递给你一个庞大的图书馆，让你把书按类别整理好。但有个问题: 你不知道有哪些类别，而且许多书同时属于多个类别 (例如，一本书可能同时关于“历史”、“战争”和“传记”) 。你没有流派清单，没有杜威十进制分类法，也没有贴好标签的样本。你得到的唯一指引只是一句模糊的说明: “把这些书按主题分类。” ...

[Ontologically Faithful Generation of Non-Player Character Dialogues 🔗](https://arxiv.org/abs/2212.10618)

AI 能编写电子游戏角色吗？深入了解 KNUDGE 数据集与对话生成

如果你玩过像《上古卷轴: 天际》、《巫师》或《天外世界》这样的大型开放世界角色扮演游戏 (RPG) ，你就会知道，游戏的沉浸感很大程度上取决于你遇到的人。非玩家角色 (NPC) 是这些世界的生命线。他们给你发布任务，解释这片土地的历史，并对你的决定做出反应。 ...

[OneNet: A Fine-Tuning Free Framework for Few-Shot Entity Linking via Large Language Model Prompting 🔗](https://arxiv.org/abs/2410.07549)

OneNet 如何利用 LLM 解决实体链接问题且无需微调

引言想象一下，你看到这样一条新闻标题: “Jordan 昨晚打了一场精彩的比赛。” 作为人类，你甚至不用思考就会去寻找上下文。我们是在谈论篮球传奇迈克尔·乔丹 (Michael Jordan) 吗？还是中东国家约旦 (Jordan) ？亦或是当地高中的某个名叫 Jordan 的球员？这种将文本中的提及词 (如“Jordan”) 映射到知识库 (如维基百科页面) 中特定、唯一身份的过程，被称为实体链接 (Entity Linking, EL) 。 ...

[ONE2SET + Large Language Model: Best Partners for Keyphrase Generation 🔗](https://arxiv.org/abs/2410.03421)

黄金搭档：结合集合生成与大语言模型解决关键短语预测难题

在数字信息的浩瀚海洋中，找到你确切需要的内容往往依赖于寥寥数语: 关键短语 (Keyphrases) 。关键短语生成 (Keyphrase Generation, KPG) 的任务是自动阅读文档并生成一份简洁的短语列表，以概括其核心概念。理想情况下，这些关键短语就像索引一样，有助于信息检索、文本摘要和分类。 ...

[One-to-Many Communication and Compositionality in Emergent Communication 🔗](https://aclanthology.org/2024.emnlp-main.1157.pdf)

超越私聊：广播如何塑造语言进化

语言很少是私人的事情。当中士向一个小队大声下达命令，或者广告商向数百万人广播商业广告时，一条单一的信息必须同时被多人理解。然而，在人工智能和“涌现通信 (Emergent Communication) ”领域，我们大多将语言作为一种一对一的游戏来研究: 一个说话者，一个听众。 ...

[One Thousand and One Pairs: A 'novel' challenge for long-context language models 🔗](https://arxiv.org/abs/2406.16264)

大海捞针之外：为什么长上下文大语言模型读不懂小说

引言在大语言模型 (LLM) 的快速演进中，有一个指标已成为主要的炫耀资本: 上下文窗口。我们已经从只能记住几个段落的模型，发展到了像 Gemini 1.5 Pro 和 GPT-4o 这样的庞然大物，它们号称能一次性处理数十万甚至数百万个 token。理论上，你现在可以将整本小说喂给 AI 并针对书的内容进行提问。 ...

[On the Universal Truthfulness Hyperplane Inside LLMs 🔗](https://arxiv.org/abs/2407.08582)

探索 LLM 内部：寻找通用的真实性超平面

像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们可以编写代码、总结小说并回答复杂的查询。然而，它们有一个众所周知的缺陷: 幻觉 (Hallucination) 。 LLM 可能会自信地声称埃菲尔铁塔位于柏林，或者编造从未发生过的法庭案件。 ...

[On the Role of Context in Reading Time Prediction 🔗](https://arxiv.org/abs/2409.08160)

上下文被高估了吗？重新思考阅读时间预测中的惊奇理论

如果你曾发现自己不自觉地替别人补全句子的后半部分，你就直观地理解了语言处理是具有预测性的。当我们阅读或聆听时，不仅仅是被动地接收词汇；我们的大脑会根据上下文积极地预测接下来的内容。 ...