EMNLP 2024

[Mixture-of-Subspaces in Low-Rank Adaptation 🔗](https://arxiv.org/abs/2406.11909)

解锁 LoRA 的隐藏潜力：子空间混合方法

现代大型语言模型 (LLM) (如 GPT-4 和 LLaMA 3) 的规模令人咋舌。虽然它们的性能令人印象深刻，但为了特定的下游任务去适配这些庞然大物是一场计算噩梦。你根本无法承担为每个新任务更新所有参数的代价。 ...

[MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models 🔗](https://arxiv.org/abs/2406.08811)

超越启发式：强化学习如何通过 Mixture-of-Skills 优化 LLM 微调

训练大型语言模型 (LLM) 有点像为一位非常挑剔的食客准备一顿饭。你拥有巨大的食材库——包含数学题、编程挑战、医学文献、日常聊天记录等各种数据集。目标是“烹制”出一个能精通所有这些技能的模型。 ...

[MIXTURE-OF-MODULES: REINVENTING TRANSFORMERS AS DYNAMIC ASSEMBLIES OF MODULES 🔗](https://arxiv.org/abs/2407.06677)

打破堆叠：混合模块（Mixture-of-Modules）如何重塑 Transformer

引言 Transformer 架构已成为自然语言处理领域无可争议的王者。从最初的《Attention Is All You Need》论文到如今像 GPT-4 这样的大型语言模型 (LLM) ，其基本配方在很大程度上保持不变: 深层堆叠的相同层。数据从底部进入，逐层按顺序处理，直到从顶部输出。 ...

[Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing 🔗](https://arxiv.org/abs/2410.07054)

对 LLM 进行“脑部手术”以修复翻译故障

像 LLaMA 和 GPT 这样的大型语言模型 (LLM) 彻底改变了我们进行机器翻译 (MT) 的方式。传统的翻译系统是专门为将语言 A 转换为语言 B 而训练的，与此不同，LLM 本质上是“通晓多种语言”的。你只需让它们翻译一句话，它们通常都能做得不错。这种能力被称为上下文学习 (In-Context Learning, ICL) ，它允许模型仅根据几个示例甚至简单的指令进行翻译。 ...

[Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics 🔗](https://arxiv.org/abs/2410.10867)

打破参考摘要的束缚——一种鲁棒的无参考AI摘要评估指标

打破参考摘要的束缚: 一种鲁棒的无参考AI摘要评估指标在自然语言处理 (NLP) 快速发展的世界中，生成式摘要 (Abstractive Summarization) ——即 AI 阅读文档并撰写简洁、原创摘要的能力——仍然是一项“圣杯”级任务。然而，构建这些系统只是战斗的一半。另一半，往往更加棘手，那就是评估它们。我们要如何知道一篇摘要是否真的好？ ...

[Mitigating the Alignment Tax of RLHF 🔗](https://arxiv.org/abs/2309.06256)

礼貌的代价：如何在不让 LLM 遗忘的情况下进行对齐

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 之所以引人注目，不仅因为它们能够生成文本，更因为它们能够遵循指令并遵守人类价值观——这一过程被称为“对齐” (Alignment) 。然而，这种对齐是有隐性成本的。当我们使用基于人类反馈的强化学习 (RLHF) 来教导模型变得“有用、诚实且无害”时，往往会导致灾难性遗忘 (catastrophic forgetting) 。模型可能变得彬彬有礼，但它在翻译、阅读理解或常识推理方面的表现却突然下降了。 ...

[Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging 🔗](https://arxiv.org/abs/2410.03743)

数据顺序重要吗？利用参数选择合并提升 LLM 性能

在大语言模型 (LLM) 的世界里，有监督微调 (SFT) 是将预训练基础模型适配到特定任务 (无论是数学推理、编程还是遵循指令) 的标准流程。普遍共识是，只要我们打乱训练数据并运行足够的 epoch，模型就能有效地学习。 ...

[Mitigating Open-Vocabulary Caption Hallucinations 🔗](https://arxiv.org/abs/2312.03631)

视觉语言模型中的信任危机：MOCHa 与 OpenCHAIR 如何解决 AI 幻觉问题

图像描述 (Image captioning) 是计算机视觉与自然语言处理 (NLP) 最基础的交叉领域之一。它要求机器观察一张图像，并用人类语言描述出来。近年来，像 BLIP 和 GIT 这样的视觉语言模型 (VLMs) 已经变得非常流畅，能够生成细节丰富且语法正确的描述。 ...

[Mitigating Matthew Effect: Multi-Hypergraph Boosted Multi-Interest Self-Supervised Learning for Conversational Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.86.pdf)

打破回声室效应：HiCore 如何解决对话式 AI 中的马太效应

你是否注意过，你在流媒体服务或购物应用上使用得越多，它似乎越倾向于推荐那几样流行的东西？你看了一部大片，突然间你的整个信息流就被“Top 10”榜单占据，将那些小众的独立电影或独特的商品推向了被遗忘的角落。 ...

[Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing 🔗](https://arxiv.org/abs/2410.11462)

句法平滑能否解决大语言模型中的罕见词问题？

引言想象一下当你读到这句话时: “The Golden Gate Bridge has been obnebulated every morning this week, limiting visibility.” (金门大桥这周每天早上都被obnebulated了，限制了能见度。) 除非你是19世纪文学的狂热读者，否则你可能以前从未遇到过 obnebulated 这个词。然而，你可能完全理解了这句话。你知道它是一个动词 (多亏了“-ed”后缀以及它位于“has been”之后的位置) ，而且关于“visibility” (能见度) 的上下文线索表明它的意思大概是“被云遮挡”或“被雾笼罩”。 ...

[Mitigate Extrinsic Social Bias in Pre-trained Language Models via Continuous Prompts Adjustment 🔗](https://aclanthology.org/2024.emnlp-main.620.pdf)

超越手动词表：利用连续提示消除 AI 偏见

超越手动词表: 利用连续提示消除 AI 偏见 BERT 和 RoBERTa 等预训练语言模型 (PLMs) 已经彻底改变了自然语言处理 (NLP) 领域。它们是情感分析、仇恨言论检测等各种应用的中坚力量。然而，这些模型背后隐藏着一个巨大的隐患: 它们继承了海量训练数据中存在的人类偏见。 ...

[MisinfoEval: Generative AI in the Era of 'Alternative Facts' 🔗](https://arxiv.org/abs/2410.09949)

AI 能解决假新闻吗？深入解读 MisinfoEval 与个性化事实核查的力量

引言仅仅在十年间，信息消费的架构发生了根本性的变化。我们已经从精心策划的新闻广播时代，进入了算法“过滤气泡 (filter bubbles) ”的时代。在这个时代，社交媒体的信息流不断强化我们要有的信念，并将我们与对立观点隔绝开来。这种环境已被证明是错误信息的温床——那些耸人听闻且往往虚假的故事，传播速度和广度都远超真相。 ...

[MIRRORSTORIES: Reflecting Diversity through Personalized Narrative Generation with Large Language Models 🔗](https://arxiv.org/abs/2409.13935)

AI 能为你书写人生故事吗？MIRRORSTORIES 如何实现文学的个性化

引言: 未曾诉说之故事的痛苦玛雅·安杰卢 (Maya Angelou) 曾经写道: “没有什么比心中怀着一个未曾诉说的故事更痛苦的了。”对于数以百万计的读者来说，这种痛苦因缺乏代表性而加剧。当你翻开一本书时，你在寻找一面镜子——一个长得像你、生活像你、面临着你能理解的困境的角色。这些被称为“镜像书籍 (mirror books) ”。它们验证身份，培养归属感，并显著提高阅读参与度，尤其是在教育领域。 ...

[MiniConGTS: A Near Ultimate Minimalist Contrastive Grid Tagging Scheme for Aspect Sentiment Triplet Extraction 🔗](https://arxiv.org/abs/2406.11234)

少即是多：MiniConGTS 如何利用极简主义和对比学习彻底变革情感分析

引言在自然语言处理 (NLP) 的世界里，情感分析早已超越了简单地将影评分类为“正面”或“负面”。今天，我们面对的是复杂的句子，其中同时存在关于不同事物的多种观点。试想这句话: “食物很美味，但服务太糟糕了。” (“The food was delicious, but the service was terrible.”) * 如果简单地贴上“中性”的标签，那将是极具误导性的。我们需要知道什么是好的 (食物) ，以及什么*是坏的 (服务) 。 ...

[MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents 🔗](https://arxiv.org/abs/2404.10774)

MiniCheck：以极低成本实现 GPT-4 级的事实查核

引言大型语言模型 (LLMs) 彻底改变了我们要交互信息的方式，从总结复杂的报告到回答开放式问题。然而，它们存在一个持久且众所周知的缺陷: 幻觉 (hallucination) 。 LLM 能够自信地生成听起来合理但在事实上错误的陈述。 ...

[MiddleWare for LLMs: Tools Are Instrumental for Language Agents in Complex Environments 🔗](https://arxiv.org/abs/2402.14672)

为什么 LLM 需要中间件：弥合智能体与海量数据之间的鸿沟

引言我们已进入一个大型语言模型 (LLM) (如 GPT-4) 在文本处理上展现出类似人类掌控力的时代。它们可以总结文章、编写代码并流畅地对话。然而，人工智能研究者的野心远不止于处理文本。最终的目标是创造通用智能体 : 一种不仅能说话，还能在现实世界中行动以解决复杂任务的 AI。 ...

[MiTTenS: A Dataset for Measuring Gender Mistranslation Harms 🔗](https://arxiv.org/abs/2401.06935)

迷失在翻译中：在这个基础模型时代，我们如何衡量性别偏见

想象一下，你读到一个关于你阿姨的孟加拉语故事。原文写道: “莎拉是我的阿姨。我真的很喜欢她的笑话。”为了把这个故事分享给一位说英语的朋友，你把它粘贴到了翻译工具里。结果输出变成了: “莎拉是我的阿姨。我真的很喜欢他的笑话。” ...

[Metrics for What, Metrics for Whom: Assessing Actionability of Bias Evaluation Metrics in NLP 🔗](https://aclanthology.org/2024.emnlp-main.1207.pdf)

NLP 中的偏差度量指标已支离破碎：为何“可行动性”是缺失的一环

想象一下，你是一名机器学习工程师，负责为招聘平台部署一个大型语言模型 (LLM)。你运行了一个标准的偏差评估脚本，它返回了一个分数: 0.42 。现在你该怎么做？ ...

[Methods for Automatic Matrix Language Determination of Code-Switched Speech 🔗](https://arxiv.org/abs/2410.02521)

解码矩阵——AI 如何确定语码转换语音中的主导语法

想象一下，你正在新加坡听一段对话。你可能会听到这样一句话: “I thought all trains 都是 via Jurong East 去到 Pasir Ris。” 对于单语者来说，这很混乱。但对于双语者来说，这非常自然。这种现象被称为语码转换 (Code-Switching, CS) ——即在一次对话中流畅地在两种或多种语言之间交替。 ...

[METAREFLECTION: Learning Instructions for Language Agents using Past Reflections 🔗](https://arxiv.org/abs/2405.13009)

代理如何从错误中学习：METAREFLECTION 介绍

想象一下你正在备考一门很难的历史考试。你在做练习题时，答错了一道关于法国大革命的题目。你不仅仅是去查那道具体题目的正确答案；你意识到自己对时间线有一个根本性的误解。于是你给自己写了一条笔记: “在确定因果关系之前，一定要检查事件的日期。” ...