EMNLP 2024

[Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning 🔗](https://arxiv.org/abs/2405.03279)

LLM 能终身学习吗？深度解析 RECIPE：终身模型编辑的新标准

想象一下，你训练了一个最先进的大型语言模型 (LLM) 。它能说流利的英语，会写 Python 代码，还能理解复杂的逻辑推理。但有一个问题: 它仍然认为英国首相是鲍里斯·约翰逊，或者它不知道昨天发生的重大地缘政治事件。 ...

[Lifelong Event Detection via Optimal Transport 🔗](https://arxiv.org/abs/2410.08905)

最优传输如何防止 AI 遗忘——深入解读 LEDOT

想象一下，你正在尝试学习一门新语言。你花了几个月的时间精通了法语。然后，你决定学习西班牙语。但问题来了: 当你开始进行西班牙语动词变位时，你莫名其妙地忘记了你学过的所有法语单词。 ...

[Lexically Grounded Subword Segmentation 🔗](https://arxiv.org/abs/2406.13560)

让分词回归语义：一种基于词汇语义的方法

在自然语言处理 (NLP) 的世界里，我们经常惊叹于 Transformer 等大型语言模型 (LLM) 的复杂架构。我们分析注意力机制、前馈网络和巨大的参数量。然而，我们经常忽略这些模型那个朴实无华的“前门”: 分词 (Tokenization) 。 ...

[Leveraging pre-trained language models for linguistic analysis: A case of argument structure constructions 🔗](https://aclanthology.org/2024.emnlp-main.415.pdf)

AI 能解决语言歧义难题吗？语言学分析中的 RoBERTa 对决 GPT-4

语言充满了玄机。请看这两个句子: She ran to the mountains. (她跑向群山。) She ran in the mountains. (她在群山中奔跑。) 从句法上看，它们几乎一模一样。两者都遵循“主语 + 动词 + 介词短语”的结构。一个基础的解析器可能会看到完全相同的树形结构: 一个名词，一个动词，和一个修饰语。 ...

[Leveraging Large Language Models for NLG Evaluation: Advances and Challenges 🔗](https://arxiv.org/abs/2401.07103)

AI 裁判：大语言模型如何彻底变革文本评估

引言在人工智能领域，我们见证了机器写作方式的巨大转变。从早期笨拙的聊天机器人，到 GPT-4 和 LLaMA 等模型流畅、富有创意的散文，自然语言生成 (NLG) 的发展速度惊人。但这带来了一个新的、令人困惑的问题: 我们如何知道 AI 写的东西到底“好不好”? ...

[Leveraging Estimated Transferability Over Human Intuition for Model Selection in Text Ranking 🔗](https://arxiv.org/abs/2409.16198)

超越直觉：AiRTran 如何解决文本排序中的模型选择危机

在自然语言处理 (NLP) 的现代纪元，我们的选择多得令人眼花缭乱。如果你今天打开 Hugging Face 模型中心，你会看到成千上万的模型。对于试图构建文本排序系统 (如搜索引擎或 RAG 检索增强生成流程) 的学生或从业者来说，这种丰富性创造了一个悖论。 ...

[Leveraging Context-Aware Prompting for Commit Message Generation 🔗](https://aclanthology.org/2024.emnlp-main.749.pdf)

超越 Diff：基于图的上下文如何改进自动生成的提交信息

如果你是一名软件开发人员，或者正在学习成为一名开发人员，你可能对“周五下午的提交”并不陌生。你刚刚完成了一个复杂的错误修复，身心俱疲，最不想做的事情就是写一段详细的解释，说明为什么你修改了这十行代码。于是你输入 git commit -m "fix bug" 然后就下班了。 ...

[Leveraging Conflicts in Social Media Posts: Unintended Offense Dataset 🔗](https://aclanthology.org/2024.emnlp-main.259.pdf)

超越脏话：教 AI 检测社交媒体中的非故意冒犯

引言想象一下，你正在浏览 Twitter (现在的 X) 。你看到一个帖子，用户 A 发表了一条关于饮食和锻炼的评论。这看起来似乎无伤大雅。但随后，用户 B 愤怒地回复，声称用户 A 在对其进行身材羞辱 (body-shaming) 。用户 A 感到困惑，回复道: “我不是故意要冒犯你；我只是分享医生告诉我的话。” ...

[Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training 🔗](https://aclanthology.org/2024.emnlp-main.828.pdf)

两全其美：融合 BERT 和 TFIDF 实现卓越的短文本聚类

引言在自然语言处理 (NLP) 领域，我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec，再到像 BERT 这样的 Transformer 模型。通常的假设是，较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义，为什么还要用 TFIDF 来统计词频呢？ ...

[Let’s discuss! Quality Dimensions and Annotated Datasets for Computational Argument Quality Assessment 🔗](https://aclanthology.org/2024.emnlp-main.1155.pdf)

解码说服力：深入探究计算论辩质量评估

引言在民主社会中，论辩 (Argumentation) 是决策的基石。无论是政治家倡导政策变革，学生撰写议论文，还是论坛用户试图改变他人的观点，有效辩论的能力都是一项关键素养。 ...

[Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models 🔗](https://arxiv.org/abs/2407.01906)

LLM 的精准手术：专家专用微调如何彻底改变 MoE 适配

大语言模型 (LLM) 的发展格局目前正受到两股相互冲突力量的定义: 对大规模参数的追求与有限计算资源的制约。我们希望模型无所不知，但我们并不总是有足够的硬件来训练它们。 ...

[Let Me Teach You: Pedagogical Foundations of Feedback for Language Models 🔗](https://arxiv.org/abs/2307.00279)

从训练到教学：将教育科学应用于 LLM 反馈机制

我们训练大型语言模型 (LLMs) 的方式正在进化。在早期，一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代，我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。 ...

[Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning 🔗](https://arxiv.org/abs/2410.15148)

解决迁移学习悖论：嵌入空间映射如何在几秒钟内找到完美任务

在自然语言处理 (NLP) 的世界里，我们正处于一个资源极其丰富的时代。我们拥有像 BERT 和 RoBERTa 这样的大型预训练模型，也有像 HuggingFace Hub 这样托管着数十万个数据集的平台。理论上，这是一个金矿。如果你正在构建一个模型来检测推文中的情绪，但手头的标注数据很少，那么直接微调原始的 BERT 模型可能不是最佳选择。相反，你应该寻找一个“垫脚石”——即一个中间任务。也许先在电影评论情感数据集上微调 BERT，然后再在你的推文情绪数据上微调，会产生更好的结果。 ...

[Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA 🔗](https://arxiv.org/abs/2406.17419)

超越大海捞针：为何当前长上下文 LLM 难以胜任现实世界的多文档任务

大型语言模型 (LLM) 更长上下文窗口的竞赛已成为过去一年的决定性趋势之一。我们从只能阅读几页内容的模型，迅速发展到像 Gemini-1.5-Pro 和 GPT-4o 这样的模型，它们号称拥有 128k、200k 甚至 100 万 token 的上下文窗口。从理论上讲，这使得 AI 能够同时摄入数百份财务报告、法律合同或学术论文，并回答有关它们的复杂问题。 ...

[Learning to Write Rationally: How Information Is Distributed in Non-Native Speakers’ Essays 🔗](https://arxiv.org/abs/2411.03550)

解码非母语者的思维：我们在学习新语言时如何分配信息？

引言: 沟通的隐形节奏想象一下，你正试图向朋友解释一个复杂的概念。你不会脱口而出一串随机的高密度关键词，而是会控制节奏。你会把复杂的术语与简单的解释混合在一起；你会构建句子结构，让听众能预测你接下来的内容。这种本能的节奏控制正是语言学家所说的信息分布 (Information Distribution) 。 ...

[Learning to Retrieve Iteratively for In-Context Learning 🔗](https://arxiv.org/abs/2406.14739)

超越 Top-K：利用迭代检索与强化学习构建更好的提示词

简介在大语言模型 (LLM) 时代, 上下文学习 (In-Context Learning, ICL) 已成为一种主导范式。其理念看似简单: 你无需微调模型的权重，只需在提示词 (Prompt) 中提供几个例子 (范例) ，模型就能学会其中的模式。 ...

[Learning to Rank Salient Content for Query-focused Summarization 🔗](https://arxiv.org/abs/2411.00324)

排名至关重要——学习排序如何改进面向查询的摘要生成

引言想象一下，你拿到了一份长达 50 页的企业会议记录，并被问到一个问题: “为什么市场部在预算问题上不同意工程部的意见？” 为了回答这个问题，你不会去总结整个会议。你不会关心开场的寒暄、茶歇时的闲聊，或者无关的 IT 更新。你会快速扫描文档，识别出市场部和工程部讨论财务的具体片段，按重要性对它们进行排序，然后综合出一个答案。 ...

[Learning to Extract Structured Entities Using Language Models 🔗](https://arxiv.org/abs/2402.04437)

超越三元组：利用结构化实体和 MuSEE 彻底变革信息抽取

在互联网上浩瀚的非结构化文本海洋中——维基百科页面、新闻文章、财务报告——蕴藏着等待被组织的宝贵数据。多年来，信息抽取 (Information Extraction, IE) 领域一直是这个数字时代的“矿工”，通过挖掘段落来寻找事物之间的关系。 ...

[Learning to Correct for QA Reasoning with Black-box LLMs 🔗](https://arxiv.org/abs/2406.18695)

CoBB：如何在不访问权重的情况下修复黑盒 LLM 的错误

简介在当前的人工智能领域，大型语言模型 (LLM) 如 GPT-4、Claude 和 Gemini 已经变得无处不在。它们拥有令人难以置信的推理能力，但仍然容易出现幻觉、偏见和推理错误。对于研究人员和工程师来说，解决这些错误的标准方案通常是微调或引导模型。 ...

[Learning from Natural Language Explanations for Generalizable Entity Matching 🔗](https://arxiv.org/abs/2406.09330)

解释能教会小模型泛化吗？实体匹配深度解析

想象你是一家大型电商聚合平台的数据科学家。你拥有一个来自亚马逊的产品数据库，以及另一个来自 Google Shopping 的数据库。你的任务是将它们合并。一边，你有一条记录: iPhone 13, 128GB, Midnight。另一边是: Apple iPhone 13 - Black - 128 GB Storage。 ...