EMNLP 2024

[Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges 🔗](https://arxiv.org/abs/2410.03458)

解码越南之声：深入探索 ViMD 数据集与多方言 AI

语言从来不是单一的整体。如果你曾尝试构建语音识别系统，你就会知道，当面对现实世界中丰富多彩的口音和方言时，“标准”语言模型往往会失效。对于越南语来说尤其如此，这是一种声调语言，语意随着音高的变化而改变，且地区差异可能极为巨大。 ...

[MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning 🔗](https://arxiv.org/abs/2405.07551)

跨越鸿沟：MuMath-Code 如何教大模型同时思考与编程

如果你曾经让标准的大语言模型 (LLM) 去解决一个复杂的数学问题，你可能注意到了一种令人沮丧的模式。模型通常会写出一段文笔优美、充满自信的解释，但在实际算术上却栽了跟头，无比确信地给出一个错误答案。相反，专门设计用来写代码的模型可以完美地进行计算，但往往难以理解应用题中的细微之处。 ...

[More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs 🔗](https://arxiv.org/abs/2405.17830)

超越遗忘：ALoRA 如何教大模型在不丢失常识的情况下像专家一样思考

大语言模型 (LLM) 是 AI 世界的博学者。它们可以在同一个会话中编写代码、解数学题、总结历史并探讨伦理问题。但是，当我们需要 LLM 成为一名专家——比如法律顾问或医疗诊断工具——时，我们需要把它们送回学校深造。这个过程被称为有监督微调 (Supervised Fine-Tuning, SFT) 。 ...

[More Insightful Feedback for Tutoring: Enhancing Generation Mechanisms and Automatic Evaluation 🔗](https://aclanthology.org/2024.emnlp-main.605.pdf)

超越“再试一次”：教 AI 提供更好的反馈

介绍想象一下，你正在在线平台上学习一门新语言或为历史考试做准备。你遇到了一个关于刚刚阅读过的文本的问题: “为什么主角待在家里？” 你自信地回答: “因为他病了。” ...

[More DWUGs: Extending and Evaluating Word Usage Graph Datasets in Multiple Languages 🔗](https://aclanthology.org/2024.emnlp-main.796.pdf)

构建更好的词汇图：更多数据与更紧密的连接如何揭示真实含义

语言是一个移动的目标。像“plane” (飞机/平面) 或“mouse” (老鼠/鼠标) 这样的词，今天的含义与两百年前截然不同。为了教计算机如何理解这些变迁——这一领域被称为词汇语义变化检测 (Lexical Semantic Change Detection, LSCD)——研究人员需要高质量的数据。他们需要一种方法来映射一个词在成千上万种不同语境中的使用情况。 ...

[Moral Foundations of Large Language Models 🔗](https://arxiv.org/abs/2310.15337)

仿生人会梦见道德价值观吗？分析大语言模型的隐性伦理

引言在过去几年里，像 GPT-3 和 PaLM 这样的大语言模型 (LLM) 已经从研究实验室走向了我们数字生活的中心。我们用它们写邮件、调试代码，甚至寻求生活建议。但随着我们将这些系统融入社会，一个关键问题随之而来: 这些模型有道德指南针吗? ...

[MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction 🔗](https://arxiv.org/abs/2408.01426)

超越 SMILES：MolTRES 如何彻底改变分子性质预测

医药和材料科学行业正在经历从传统“湿实验”到计算“干实验”的巨大转变。深度神经网络 (DNN) 处于这场革命的最前沿，有望减少发现新药所需的成本和时间。这一领域的一个流行方法是化学语言表征学习。就像 GPT 等大型语言模型 (LLM) 通过阅读数十亿个句子来学习理解英语一样，化学模型通过阅读数十亿个 SMILES (简化分子线性输入规范) 字符串来学习理解分子。SMILES 将 3D 分子表示为 1D 文本字符串 (例如，乙醇表示为 CCO) 。 ...

[Modular Pluralism: Pluralistic Alignment via Multi-LLM Collaboration 🔗](https://arxiv.org/abs/2406.15951)

超越平均值：模块化多元主义如何教会 LLM 代表多样化的人类价值观

超越平均值: 模块化多元主义如何教会 LLM 代表多样化的人类价值观在大型语言模型 (LLM) 的快速演进中，“对齐 (Alignment) ”已成为一个流行词。我们希望 AI 助手是有用、无害且诚实的。通常，这是通过诸如基于人类反馈的强化学习 (RLHF) 等技术实现的，其中模型被训练为偏好人类评分较高的回复。 ...

[Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation 🔗](https://arxiv.org/abs/2410.07779)

弥合差距：自动指标如何构建更好的人类对齐翻译模型

机器翻译 (MT) 已经走过了漫长的道路，不再是过去那种笨拙的逐词替换。如今，大型语言模型 (LLMs) 能够进行非常流利的翻译。然而，“流利”并不总是意味着“完美”。在许多情况下，一个翻译可能在语法上是正确的，但却无法捕捉到用户偏好的微妙语气、文化细微差别或特定风格。 ...

[Modeling Nonnative Sentence Processing with L2 Language Models 🔗](https://aclanthology.org/2024.emnlp-main.283.pdf)

AI 的双语大脑：语言模型能否模拟第二语言习得？

如果你曾尝试在成年后学习第二语言 (L2) ，你应该深知其中的挣扎。你可能掌握了词汇，但却发现自己本能地使用母语 (L1) 的语法规则来排列单词。这种现象被称为母语迁移 (L1 transfer) 。例如，以西班牙语为母语的人可能会说 “the car red” 而不是 “the red car”，因为在西班牙语中形容词通常跟在名词之后。 ...

[Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding 🔗](https://arxiv.org/abs/2409.19672)

超越线性文本：将文档智能中的阅读顺序重构为图结构

当我们阅读小说时，过程是非常直观的: 从左到右，从上到下，逐行阅读。但试想一下你是如何阅读收据、多栏排版的报纸或复杂的表单的。你可能会先扫描页眉，跳转到特定的表格，沿某一列向下读，然后直接跳到底部的总计栏。 ...

[Model-based Preference Optimization in Abstractive Summarization without Human Feedback 🔗](https://arxiv.org/abs/2409.18618)

幻觉狩猎：大语言模型如何自我调优以提高忠实度

大语言模型 (LLM) 是令人惊叹的写作者。它们流畅、富有创造力，并且可以在几秒钟内总结复杂的文件。然而，任何大量使用过 LLM 的人都知道它们的致命弱点: 幻觉 (Hallucination) 。它们经常生成听起来合理但包含错误或矛盾信息的文本。 ...

[Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation 🔗](https://arxiv.org/abs/2406.13663)

揭开引擎盖：如何利用模型内部机制验证 RAG 引用

引言在大型语言模型 (LLM) 飞速发展的领域中，检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为问答系统的黄金标准。通过允许模型在回答查询之前从外部数据库获取相关文档，我们显著减少了——尽管尚未完全消除——“幻觉”问题。RAG 向我们承诺了一个 AI 回答基于事实而非仅基于统计概率的世界。 ...

[Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue 🔗](https://arxiv.org/abs/2401.04700)

知识的隐形代价：为什么模型编辑会破坏 LLM 以及如何修复它

像 LLaMA 和 GPT 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。然而，它们有一个长期存在的缺陷: 它们的知识是静态的。如果一个模型是在 2020 年训练的，它会认为世界停滞在了那一年。当美国总统换届，或者有了新的科学发现时，模型仍然一无所知，经常会一本正经地胡说八道 (产生幻觉) ，给出过时的答案。 ...

[Model Balancing Helps Low-data Training and Fine-tuning 🔗](https://arxiv.org/abs/2410.12178)

平衡之道 —— 逐层学习率如何拯救低数据微调

引言在当前的人工智能时代，“先预训练，后微调”已成为标准范式。我们利用海量的基础模型 (Foundation Models, FMs) ——无论是像 LLaMA 这样的大型语言模型 (LLMs) 还是科学模型——并针对特定任务进行适配。通常，这种方法效果显著。然而，这其中存在一个陷阱: 微调通常需要高质量、精选的数据集。 ...

[MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning 🔗](https://arxiv.org/abs/2412.07405)

掌握多任务大语言模型：深入解析 MoDULA 架构

引言在当前的人工智能领域，像 LLaMA、Qwen 和 Yi 这样的大语言模型 (LLM) 正逐渐成为现代自然语言处理 (NLP) 的基石。然而，在这些模型的开发过程中始终存在着一种张力: 即通用性与专业性之间的拉锯战。 ...

[MoCoKGC: Momentum Contrast Entity Encoding for Knowledge Graph Completion 🔗](https://aclanthology.org/2024.emnlp-main.832.pdf)

连接文本与结构：MoCoKGC 如何彻底改变知识图谱补全

简介想象一下，你试着教计算机认识这个世界。你可能会告诉它“史蒂夫·乔布斯创立了苹果公司”。在数据库中，这被存储为一个三元组: (Steve Jobs, founded, Apple Inc.)。这种结构化的数据网络就是我们所说的知识图谱 (Knowledge Graph, KG) 。然而，这些图谱很少是完美的。它们经常缺少连接。例如，图谱可能知道史蒂夫·乔布斯创立了苹果公司，但可能缺少 (Apple Inc., headquarters location, Cupertino) (苹果公司，总部地点，库比蒂诺) 这样的链接。 ...

[Mixture-of-Subspaces in Low-Rank Adaptation 🔗](https://arxiv.org/abs/2406.11909)

解锁 LoRA 的隐藏潜力：子空间混合方法

现代大型语言模型 (LLM) (如 GPT-4 和 LLaMA 3) 的规模令人咋舌。虽然它们的性能令人印象深刻，但为了特定的下游任务去适配这些庞然大物是一场计算噩梦。你根本无法承担为每个新任务更新所有参数的代价。 ...

[MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models 🔗](https://arxiv.org/abs/2406.08811)

超越启发式：强化学习如何通过 Mixture-of-Skills 优化 LLM 微调

训练大型语言模型 (LLM) 有点像为一位非常挑剔的食客准备一顿饭。你拥有巨大的食材库——包含数学题、编程挑战、医学文献、日常聊天记录等各种数据集。目标是“烹制”出一个能精通所有这些技能的模型。 ...

[MIXTURE-OF-MODULES: REINVENTING TRANSFORMERS AS DYNAMIC ASSEMBLIES OF MODULES 🔗](https://arxiv.org/abs/2407.06677)

打破堆叠：混合模块（Mixture-of-Modules）如何重塑 Transformer

引言 Transformer 架构已成为自然语言处理领域无可争议的王者。从最初的《Attention Is All You Need》论文到如今像 GPT-4 这样的大型语言模型 (LLM) ，其基本配方在很大程度上保持不变: 深层堆叠的相同层。数据从底部进入，逐层按顺序处理，直到从顶部输出。 ...