EMNLP 2024

[Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment 🔗](https://arxiv.org/abs/2406.12606)

少即是多：为什么剪枝神经元能提升 LLM 对齐效果

自从 Transformer 架构凭借那篇著名的论文《Attention Is All You Need》横空出世以来，深度学习领域的理念往往倾向于“越多越好”。更多的数据、更多的层数、更多的参数。然而，当涉及到对齐 (alignment) ——即确保大型语言模型 (LLM) 有用、诚实且无害的过程时——事实证明，使用所有参数实际上可能才是问题所在。 ...

[Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation 🔗](https://arxiv.org/abs/2404.06809)

AI 的信任危机：可信度感知生成如何修复 RAG 的最大缺陷

引言检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为构建知识型 AI 系统的事实标准。通过将大型语言模型 (LLM) 连接到外部数据库，我们承诺解决幻觉和知识截止这两大难题。其逻辑很简单: 如果模型不知道答案，就让它去查。 ...

[NOISEBENCH: Benchmarking the Impact of Real Label Noise on Named Entity Recognition 🔗](https://arxiv.org/abs/2405.07609)

为什么你的模型会信以为真：NER 中标签噪声的真相

在监督机器学习的世界里，我们通常基于一个舒适的假设进行操作: 即“真值 (Ground Truth) ”是真的。我们假设我们的训练数据集——无论是人工精心标注的还是从可靠来源抓取的——都是准确的。但任何仔细观察过大型数据集的人都知道这只是一个神话。数据集是混乱的。它们包含错误、不一致以及研究人员所说的标签噪声 (label noise) 。 ...

[Noise, Novels, Numbers. A Framework for Detecting and Categorizing Noise in Danish and Norwegian Literature 🔗](https://aclanthology.org/2024.emnlp-main.196.pdf)

聆听过去：AI 如何揭示 19 世纪文学的声景

引言当我们回想历史时，我们通常会将其可视化。我们会联想到 19 世纪后期的泛黄照片、不断扩张的城市的工业烟雾，或者是维多利亚时代的时尚。但是，你是否曾停下来想过，过去听起来是什么样的？ ...

[No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages 🔗](https://arxiv.org/abs/2411.03769)

AI 能感受到艺术吗？教视觉模型理解 28 种语言背后的文化

引言在人工智能的世界里，计算机视觉历来痴迷于客观性。给模型看一张公园的照片，它会尽职地报告: “一只狗在绿草地上奔跑。”这令人印象深刻，但它遗漏了人类经验的一个基础层面: 主观性和情感。当我们欣赏一幅画——比如《星月夜》——我们看到的不仅仅是“蓝色背景上的黄色圆圈”。我们会感到敬畏、忧郁或兴奋。 ...

[Neuron-Level Knowledge Attribution in Large Language Models 🔗](https://arxiv.org/abs/2312.12141)

深入黑盒 —— 绘制大语言模型中的知识神经元图谱

深入黑盒: 绘制大语言模型中的知识神经元图谱像 GPT-4 和 Llama 这样的大语言模型 (LLM) 展现出了惊人的存储和回忆事实知识的能力。当你问 LLM“法国的首都是哪里？”时，它能毫不费力地检索出“巴黎”。但这些信息究竟存储在哪里？“巴黎”是存储在特定的神经元簇中吗？如果是，模型又是如何知道何时激活它们的？ ...

[Neuron Specialization: Leveraging Intrinsic Task Modularity for Multilingual Machine Translation 🔗](https://arxiv.org/abs/2404.11201)

神经元特化：解锁多语言模型的内在模块化特性

“通用翻译器”的梦想——一个能流利说几十种甚至上百种语言的人工智能模型——是自然语言处理 (NLP) 领域的圣杯之一。各大公司和研究人员正在竞相构建大规模多语言模型，试图实现英语到法语、中文到斯瓦希里语等任意语言间的翻译。 ...

[NeuroTrialNER: An Annotated Corpus for Neurological Diseases and Therapies in Clinical Trial Registries 🔗](https://aclanthology.org/2024.emnlp-main.1050.pdf)

解锁大脑：人工智能与新数据集如何解码临床试验

引言开发新药众所周知地困难，而在神经学领域，这种挣扎尤为明显。例如，阿尔茨海默病临床试验的失败率历史上一直徘徊在 99% 以上。数十亿美元的资金和几十年的研究往往未能带来可行的治疗方法。然而，即便是失败的试验也包含着数据金矿。每一个注册的试验都代表了一个假设、一种方法论，以及针对特定人群测试的特定干预措施。 ...

[Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing Agent 🔗](https://arxiv.org/abs/2402.13717)

初识 Neeko：掌握多角色扮演的变形 AI

引言想象一下，你正与哈利·波特讨论他的第一场魁地奇比赛，紧接着，在无需切换应用程序或重新加载模型的情况下，你转身与伏地魔探讨黑魔法。虽然像 ChatGPT 这样的大型语言模型 (LLM) 已经掌握了开放域聊天，但让它们真正“保持角色设定”——尤其是同时扮演多个不同的角色——仍然是一个巨大的障碍。 ...

[Nash CoT: Multi-Path Inference with Preference Equilibrium 🔗](https://arxiv.org/abs/2407.07099)

博弈论遇上 LLM：Nash CoT 如何优化推理

在大语言模型 (LLM) 快速发展的格局中，一个反复出现的挑战始终存在: 我们如何在不耗尽预算的情况下让模型“思考”得更好？我们知道 LLM 能够完成令人印象深刻的壮举，但它们经常在涉及数学、逻辑或符号操作的复杂推理任务上受挫。为了应对这一问题，研究人员开发了思维链 (Chain-of-Thought, CoT) 提示——要求模型“一步一步地思考”。为了使其更加稳健，我们通常使用自洽性 (Self-Consistency) , 即多次询问模型同一个问题 (多路径推理) ，并投票选出最常见的答案。 ...

[NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian 🔗](https://arxiv.org/abs/2312.01314)

AI 真的会说“挪威语”吗？为低资源语言构建生成式模型

如果你关注人工智能目前的发展轨迹，你可能会认为大型语言模型 (LLMs) 已经攻克了自然语言处理的难题。像 GPT-4 这样的模型可以轻松地写诗、用 Python 编程，甚至总结法律文件。然而，在 AI 领域中存在着一种隐性的不平等: 英语的主导地位。 ...

[Multiples Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing 🔗](https://arxiv.org/abs/2406.11085)

用 AI 拯救语言：大语言模型与翻译如何助力低资源跨行对译

引言想象一下，你是一名语言学家，试图记录一种地球上只剩下几十个人还在使用的语言。时间紧迫。据估计，高达 90% 的世界语言在下个世纪面临消失的风险。保存它们不仅仅是录制音频；它涉及一个被称为跨行对译文本 (Interlinear Glossed Text, IGT) 的艰苦过程。这需要转录语音、翻译、将单词切分为最小的表义单元 (语素) ，并对每一个部分进行语法标注。 ...

[Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model 🔗](https://arxiv.org/abs/2407.07053)

为什么 AI 看不懂时钟：利用合成数据解决抽象图像认知差距

引言我们正处于大型多模态模型 (LMMs) 的黄金时代。像 GPT-4V 和 Claude-3 这样的模型展示了惊人的能力: 它们可以描述繁忙街道的复杂照片，解释迷因图 (Meme) ，或者从模糊的照片中识别狗的品种。对于普通观察者来说，“计算机视觉”的问题似乎在很大程度上已经解决了。 ...

[Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation Inference 🔗](https://arxiv.org/abs/2410.07673)

揭开变色龙的面具：因果推断如何检测不断演变的标题党

引言: 陷阱的进化我们都有过这样的经历。当你浏览社交媒体动态时，看到一张名人的照片，配上一个令人震惊的标题: “你绝对想不到艾玛·沃特森发生了什么！” 好奇心战胜了理智。你点了进去。 ...

[Multilingual Topic Classification in X: Dataset and Analysis 🔗](https://arxiv.org/abs/2410.03075)

打破语言障碍：深入解析 X-Topic——多语言社交媒体分类的新基准

像 X (前身为 Twitter) 这样的社交媒体平台是现代世界的“城市广场”。这里是新闻爆发、潮流诞生以及人们记录日常生活的地方。然而，这个广场是全球化的、混乱的，且极其嘈杂。对于研究人员、数据科学家和企业来说，理解这些数据——将其组织成连贯的主题——是一个巨大的挑战。 ...

[Multi-pass Decoding for Grammatical Error Correction 🔗](https://aclanthology.org/2024.emnlp-main.553.pdf)

NLP 中的迭代优化：多遍解码与源信息融合如何提升语法纠错性能

引言语法纠错 (Grammatical Error Correction, GEC) 是自然语言处理中最实用的应用之一。无论是学生润色论文，还是专业人士起草邮件，我们都依赖这些系统来修正语法、拼写和流畅度错误。 ...

[Multi-expert Prompting Improves Reliability, Safety and Usefulness of Large Language Models 🔗](https://arxiv.org/abs/2411.00492)

人造群体的智慧：多专家提示如何修复大模型幻觉

引言我们经常把大语言模型 (LLM) 当作全知全能的神谕。我们在 ChatGPT 或 Claude 中输入一个问题，然后期待得到一个唯一的、权威的、正确的答案。但在底层，这些模型是概率引擎。当你提出一个开放式问题——比如“吃肉合乎道德吗？”或“我们该如何解决气候变化？”——模型通常会根据其训练数据默认生成最可能的续写。这可能导致通用的、片面的甚至带有偏见的回答。 ...

[MULTI-NEWS+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation 🔗](https://arxiv.org/abs/2404.09682)

清理混乱：LLM 如何自动修复噪声数据集

引言: “垃圾进，垃圾出”的困境在机器学习领域，有一句每个学生在第一学期都会学到的老话: “垃圾进，垃圾出” (Garbage In, Garbage Out) 。无论你的神经网络架构多么复杂——无论是极其先进的 Transformer 还是庞大的大型语言模型 (LLM) ——如果喂给它的数据是有缺陷的，它就无法有效地学习。 ...

[Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models 🔗](https://arxiv.org/abs/2406.17169)

AI 能深度思考吗？解析 Multi-LogiEval 与 LLM 逻辑推理的极限

引言: 智能的幻觉像 GPT-4 和 Gemini 这样的大型语言模型 (LLM) 以其编写代码、创作诗歌并通过标准化考试的能力迷住了全世界。当你与这些模型聊天时，它们流畅的语言很容易被误认为是深刻的理解力。它们似乎在推理、辩论和演绎。但它们是在真正地进行逻辑推理，还是仅仅作为出色的模式匹配器在模仿论证的结构？ ...

[Multi-Level Cross-Modal Alignment for Speech Relation Extraction 🔗](https://aclanthology.org/2024.emnlp-main.668.pdf)

跨越语音与知识的鸿沟：一种多层次对齐方法

在自然语言处理 (NLP) 领域，从非结构化文本中提取结构化知识——例如实体间的关系——是一个非常成熟的领域。我们拥有复杂的模型，可以阅读“史蒂夫·乔布斯联合创立了苹果公司”这样的句子，并提取出三元组 (史蒂夫·乔布斯, 创始人, 苹果公司)。 ...