EMNLP 2024

[Integrating Plutchik’s Theory with Mixture of Experts for Enhancing Emotion Classification 🔗](https://aclanthology.org/2024.emnlp-main.50.pdf)

当心理学遇上 AI：利用 Plutchik 情绪轮和混合专家模型教会模型“感受”

引言在自然语言处理 (NLP) 的世界里，情感分析已成为一个几乎被解决的问题。判断一篇电影评论是正面还是负面，即使是基础模型也能以极高的准确率完成。然而，人类的体验绝不仅仅是“正面”或“负面”这么简单。它是一个包含快乐、悲伤、期待、懊悔和敬畏的万花筒。 ...

[Integrating Argumentation and Hate-Speech-based Techniques for Counteracting Misinformation 🔗](https://aclanthology.org/2024.emnlp-main.622.pdf)

超越事实核查：AI 如何利用论辩策略对抗错误信息

简介在数字时代，错误信息就像九头蛇。你通过标记帖子或封禁用户砍掉一个头，马上又会长出两个。我们正目睹虚假信息的大量扩散，这不仅令人恼火，而且在公共卫生或危机管理等语境下可能危及生命。 ...

[IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning 🔗](https://arxiv.org/abs/2406.13683)

超越黑盒：IntCoOp 如何教会 AI 先“描述”后“分类”

超越黑盒: IntCoOp 如何教会 AI 先“描述”后“分类” 在人工智能飞速发展的版图中，像 CLIP 这样的视觉语言模型 (Vision-Language Models, VLMs) 已经作为强大的基础模型脱颖而出。它们能够识别物体、理解场景，甚至可以对从未见过的类别进行零样本分类 (zero-shot classification) 。然而，要释放这些巨人的全部潜能，通常需要一道“魔法咒语”——即精心设计的文本提示 (prompt) 。 ...

[Language Models are Supervised Multitask Learners 🔗](https://arxiv.org/abs/2406.14491)

重思预训练：监督式指令合成如何改变 LLM 格局

在过去几年中，大语言模型 (LLM) 的发展历史主要由一个特定的配方主导: 获取海量的互联网原始文本，训练模型预测下一个 token (无监督学习) ，然后在最后阶段对其进行微调以遵循指令 (监督学习) 。 ...

[Optimized Instruction Tuning of Specific Tasks 🔗](https://arxiv.org/abs/2404.16418)

少即是多：纯指令任务选择如何优化大语言模型专家训练

在大语言模型 (LLM) 快速发展的格局中，我们见证了向指令微调 (Instruction Tuning) 的巨大转变。像 FLAN-T5 和 T0 这样的模型已经证明，在大量混合任务 (格式化为自然语言指令) 上训练模型，可以解锁令人难以置信的“零样本 (Zero-shot) ”能力。一直以来的普遍观点通常是“任务越多越好”。其中的逻辑在于，一个在数千项任务上训练过的通才模型，将更有能力处理新的、未见过的任务。 ...

[Instruction Fine-Tuning: Does Prompt Loss Matter? 🔗](https://arxiv.org/abs/2401.13586)

被遗忘的超参数：为什么 Prompt Loss 在 LLM 微调中至关重要

在大型语言模型 (LLM) 飞速发展的世界里，“最佳实践”往往不是通过严格的消融实验建立的，而是通过社区共识和库的默认设置形成的。监督指令微调 (SIFT) 中的一个标准就是 Prompt Masking (提示词掩码) 。 ...

[Initialization of Large Language Models via Reparameterization to Mitigate Loss Spikes 🔗](https://arxiv.org/abs/2410.05052)

驯服尖峰——WeSaR 如何通过权重缩放稳定 LLM 训练

训练大型语言模型 (LLM) 是一项昂贵且风险极高的工作。想象一下，你分配了数千个 GPU 和数百万美元来训练像 LLaMA 或 GPT 这样的模型，结果训练运行到一半时发散了。损失值突然飙升，这种现象被称为损失尖峰 (Loss Spike) , 数周的进度可能因此毁于一旦。 ...

[Information Flow Routes: Automatically Interpreting Language Models at Scale 🔗](https://arxiv.org/abs/2403.00824)

绘制 LLM 的思维导图：信息流路径如何揭示模型内部运作机制

大型语言模型 (LLM) 的内部运作通常感觉像是一个黑盒。我们在这一端输入提示词，连贯的回答就神奇地出现在另一端。虽然我们了解其架构——Transformer、注意力头、前馈网络——但理解输入中的某个特定 Token 究竟如何影响输出中的某个特定预测，仍然是 AI 研究中最困难的挑战之一。 ...

[InfiniPot: Infinite Context Processing on Memory-Constrained LLMs 🔗](https://arxiv.org/abs/2410.01518)

InfiniPot：如何在有限内存中装入无限上下文

大型语言模型 (LLM) 的前景往往给人一种无限的感觉，但在实践中，它受到内存的严格限制。无论你是要总结一份庞大的法律合同、分析一本长篇小说，还是要维护一段跨越数周的聊天记录，最终都会遇到一堵墙: 上下文窗口。 ...

[Inference Helps PLMs' Conceptual Understanding: Improving the Abstract Inference Ability with Hierarchical Conceptual Entailment Graphs 🔗](https://aclanthology.org/2024.emnlp-main.1233.pdf)

超越文字：HiCon-EG 如何教会 AI 理解概念层级

引言想象一下你读到这句话: “汤普森太太给她的孩子们一些意大利面。” 作为人类，你的大脑瞬间完成了一次抽象思维的壮举。你明白“意大利面”是一种“食物”。因为你知道她在给孩子们“食物”，你可以推断出一个结果: “孩子们吃饱了。” ...

[InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance 🔗](https://arxiv.org/abs/2401.11206)

无需重新训练也能让 AI 变得安全？带你了解 InferAligner

大型语言模型 (LLMs) 的爆发式增长改变了人工智能的格局。我们已经从只有科技巨头才能运行这些模型的时代，迈向了像 LLaMA 和 Vicuna 这样的开源基座模型触手可及的时代，开发者可以针对特定领域 (无论是金融、医学还是数学) 对它们进行微调。 ...

[Inductive-Deductive Strategy Reuse for Multi-Turn Instructional Dialogues 🔗](https://arxiv.org/abs/2404.11095)

LLM 如何学会提出更好的问题：IDEAS 框架

引言在大型语言模型 (LLM) 飞速发展的世界中，我们通常关注模型回答问题的能力如何。但对于训练这些模型而言，硬币的另一面同样至关重要: 模型提问的能力如何？ ...

[INDUCT-LEARN: Short Phrase Prompting with Instruction Induction 🔗](https://aclanthology.org/2024.emnlp-main.297.pdf)

别再写长提示词了：INDUCT-LEARN 如何自动化提示工程

如果你曾经花几个小时微调大语言模型 (LLM) 的提示词 (Prompt) ——这里改个词，那里加个限制条件，试图让模型正确地“思考”——你就体验过提示工程的瓶颈。我们知道 LLM 拥有惊人的推理能力，但它们的表现往往对接收到的指令高度敏感。虽然像“思维链” (Chain-of-Thought, CoT) 提示这样的技术能显著提高性能，但它们通常需要人类手动编写详细的推理步骤。这不仅耗时，还需要专业知识。 ...

[Incubating Text Classifiers Following User Instructions with Nothing but LLM 🔗](https://arxiv.org/abs/2404.10877)

从零构建自定义文本分类器：'Incubator' 如何将大语言模型转化为数据生成器

简介设想你需要为一项非常具体的任务构建一个文本分类器。比如，你需要筛选出既“紧急”又“与发货相关”的电子邮件，或者识别出“讽刺”与“真正愤怒”的社交媒体帖子。 ...

[Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation 🔗](https://arxiv.org/abs/2503.16043)

教 AI 填空：一种基于图的不完整话语重写方法

想象一下你正在给朋友发短信讨论电影。朋友: “你看过《奥本海默》了吗？” 你: “导演是谁？” 朋友: “诺兰。” 你: “噢，我超爱他。” 对于人类来说，这段对话非常清晰。当你说“他”时，你指的是克里斯托弗·诺兰。当你朋友说“诺兰”时，他们的实际意思是“克里斯托弗·诺兰是导演”。因为上下文让含义显而易见，所以我们经常省略词语 (省略，ellipsis) 或使用代词 (共指，coreference) 。 ...

[In-context Contrastive Learning for Event Causality Identification 🔗](https://arxiv.org/abs/2405.10512)

对比学习如何彻底变革事件因果关系识别

对比学习如何彻底变革事件因果关系识别因果关系是人类理解世界的基石。如果看到杯子掉落，我们会预料它可能会碎。如果读到发生了一场暴雨，我们就能理解为什么航班延误了。然而，对于人工智能而言——特别是根据文本确定一个事件是否明确导致了另一个事件——这是一项巨大的挑战。这项任务被称为事件因果关系识别 (Event Causality Identification, ECI) 。 ...

[In-Context Compositional Generalization for Large Vision-Language Models 🔗](https://aclanthology.org/2024.emnlp-main.996.pdf)

超越简单相似度：如何教视觉-语言模型实现组合泛化

引言想象一下，你正在教一个孩子什么是“红苹果”。你给他们看了一张红苹果的照片。接着，你想让他们理解“绿椅子”，于是你展示了一把绿椅子。最后，你给他们看一个“绿苹果”——这是一个他们之前从未明确学习过的物体，但它是由他们已经知道的概念 (“绿色”和“苹果”) 组成的。如果孩子能认出它，说明他们表现出了组合泛化 (Compositional Generalization) 能力。 ...

[In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search 🔗](https://arxiv.org/abs/2311.07237)

当 LLM 失效时：通过逻辑与搜索探索知识的长尾

像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 以其编写代码、创作诗歌和回答复杂问题的能力惊艳了世界。但这里有一个陷阱: 这些模型只有在“熟悉的领域”才表现得最好。当你询问 LLM 关于热门话题——如 iPhone 或重大历史事件——时，它大放异彩。但当你把模型推向知识的模糊角落，即所谓的长尾分布 (long-tail distribution) 时，会发生什么呢？ ...

[Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach 🔗](https://arxiv.org/abs/2410.00025)

我们能教会 AI 像人类一样倾听吗？音素微调的力量

引言: AI 面临的“鸡尾酒会”问题想象一下你正身处一个嘈杂、拥挤的派对中。你的朋友正在给你讲故事。尽管有背景音乐、玻璃杯的碰撞声以及周围此起彼伏的交谈声，你依然能完美地理解你朋友在说什么。你可以剥离噪音，忽略他们声音的特定音高，完全专注于词语及其含义。 ...

[Improving Multi-party Dialogue Generation via Topic and Rhetorical Coherence 🔗](https://aclanthology.org/2024.emnlp-main.189.pdf)

驯服群聊：强化学习如何增强多方对话 AI 的连贯性

如果你曾参与过 WhatsApp 或 Slack 上繁忙的群聊，你就知道那是怎样的混乱。多个对话同时发生。有人在回答五分钟前的问题，而另外两个人正在争论午餐吃什么。弄清楚谁在对谁说话——更重要的是，他们在说什么——对人类来说也是一项巨大的认知任务。 ...