EMNLP 2024

[MARE: Multi-Aspect Rationale Extractor on Unsupervised Rationale Extraction 🔗](https://arxiv.org/abs/2410.03531)

打开黑盒：MARE 如何从文本中提取多方面依据

打开黑盒: MARE 如何从文本中提取多方面依据深度学习模型，尤其是基于 BERT 等 Transformer 架构的模型，已经彻底改变了文本分类技术。它们可以阅读一条电影评论，并以极高的准确率告诉你它是正面还是负面的。但存在一个长期存在的问题: 这些模型是“黑盒”。它们给出了预测结果，但很少告诉我们为什么会做出这样的判断。 ...

[MAR: Matching-Augmented Reasoning for Enhancing Visual-based Entity Question Answering 🔗](https://aclanthology.org/2024.emnlp-main.91.pdf)

那是谁？利用匹配增强推理解决多模态大模型的身份识别危机

那是谁？利用匹配增强推理解决多模态大模型的身份识别危机像 GPT-4V 和 LLaVA 这样的多模态大语言模型 (MLLMs) 已经彻底改变了计算机与世界交互的方式。你可以上传一张复杂场景的照片，这些模型就能描述光线，阅读标志上的文字，或者告诉你照片里是什么品种的狗。这感觉简直像魔法一样。 ...

[M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-Thought 🔗](https://arxiv.org/abs/2410.09220)

解码仇恨：人工智能如何利用思维链推理识别厌女迷因

社交媒体是一把双刃剑。它在连接我们的同时，也成为了仇恨言论滋生的温床。在这些在线仇恨形式中，最阴险的一种莫过于厌女迷因 (Misogynous memes) 。与纯文本的侮辱不同，迷因依赖于图像和文本之间复杂的相互作用，通常利用黑色幽默、讽刺或晦涩的文化典故来掩盖其有害意图。 ...

[M3D: MultiModal MultiDocument Fine-Grained Inconsistency Detection 🔗](https://aclanthology.org/2024.emnlp-main.1243.pdf)

超越真与假：检测跨多模态文档的细粒度不一致性

在信息过载的时代，验证单个声明往往感觉像是在做侦探工作。你读了一个标题，查阅了一篇新闻文章，观看了一段视频剪辑，或许还看了一眼图片说明。很少有单一文档能包含所有答案。然而，如今大多数自动事实核查系统都在“闭门造车”: 它们只查看一段文本，然后输出二元的“真”或“假”。 ...

[M2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning 🔗](https://aclanthology.org/2024.emnlp-main.218.pdf)

仅微调 0.09% 的参数：多模态提示微调 (M2PT) 如何彻底变革零样本学习

通用人工智能 (AGI) 的梦想在很大程度上取决于机器能否像人类一样处理信息: 即以多模态的方式。当你看着一张拥挤街道的照片并回答“现在过马路安全吗？”这个问题时，你正在无缝地融合视觉感知与语言推理能力。像 LLaVA 和 Flamingo 这样的多模态大语言模型 (MLLM) 在模仿这种能力方面已经取得了巨大进步。 ...

[Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps 🔗](https://arxiv.org/abs/2407.07071)

Lookback Lens：通过观察 LLM 看向哪里来检测幻觉

简介在当前的大型语言模型 (LLM) 领域中，我们经常依赖一种称为检索增强生成 (RAG) 的技术。其前提很简单: LLM 无法知晓所有事情，特别是私有数据或最近的新闻，因此我们会为它们提供相关文档 (即上下文) ，并要求它们根据这些信息回答问题或进行总结。 ...

[LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering 🔗](https://arxiv.org/abs/2410.18050)

驯服长上下文：LongRAG 如何解决“迷失中间”难题

在大型语言模型 (LLM) 飞速发展的世界中，我们见证了向“长上下文”能力的巨大推进。像 Gemini 1.5 或 GPT-4-Turbo 这样的模型号称能够在一个提示词中处理数十万个 token——相当于整本小说或整个代码库。理论上，这应该能解决基于大型文档回答复杂问题的问题。 ...

[LONGEMBED: Extending Embedding Models for Long Context Retrieval 🔗](https://arxiv.org/abs/2404.12096)

打破 512 Token 的壁垒：如何扩展嵌入模型的长上下文检索能力

在自然语言处理 (NLP) 快速发展的世界中，文本嵌入模型是幕后的无名英雄。它们将文本转化为向量表示——即捕捉语义的一串数字——作为信息检索 (IR) 和检索增强生成 (RAG) 的引擎。 ...

[LogicST: A Logical Self-Training Framework for Document-Level Relation Extraction with Incomplete Annotations 🔗](https://aclanthology.org/2024.emnlp-main.314.pdf)

LogicST：逻辑规则如何修复关系抽取中的神经网络

引言在大数据时代，文本信息的数量远超人类的阅读能力。为了从这些信息中理出头绪，我们需要依赖关系抽取 (Relation Extraction, RE) ——即教机器识别文本中实体之间关系的过程。例如，阅读“巴黎在法国”，并提取出三元组 (巴黎, 位于, 法国)。 ...

[LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models 🔗](https://arxiv.org/abs/2401.00757)

AI 真的会推理吗？深入了解 LogicAsker：一个测试 LLM 形式逻辑的框架

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLM) 已经渗透到我们要生活的方方面面。它们写诗、生成代码、总结复杂的邮件，甚至讲笑话。当你与一个看起来如此善于表达的聊天机器人互动时，很自然地会假设其背后有一个强大的推理引擎——一个能够将事实联系起来并得出逻辑结论的数字大脑。 ...

[Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia 🔗](https://arxiv.org/abs/2410.04282)

迷失在翻译中：AI 如何检测维基百科跨语言的信息缺失

维基百科常被视为人类知识的单一、通用宝库。我们倾向于认为，将语言设置从英语切换到法语或俄语，仅仅是翻译了文本。然而，现实情况要复杂得多。维基百科是由不同社区组成的联邦，每个社区都有自己的编辑、文化规范和偏见。这导致了截然不同的叙事，一种语言中存在的事实可能在另一种语言中被完全省略。 ...

[Local Contrastive Editing of Gender Stereotypes 🔗](https://arxiv.org/abs/2410.17739)

给 BERT 做脑外科手术：如何定位和编辑语言模型中的性别偏见

大型语言模型 (LMs) 是其训练数据的镜像。不幸的是，这意味着它们往往反映了互联网海量文本中存在的社会偏见，包括性别刻板印象。虽然我们有许多工具来测量这种偏见——例如检查模型是否比女性更多地将“医生”与男性联系起来——但我们对这种偏见在模型内部具体存在于何处的理解仍然有限。在数百万甚至数十亿的参数中，究竟是哪些具体的数字 (权重) 导致模型认为“护士”意味着“女性”？ ...

[LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models 🔗](https://arxiv.org/abs/2407.02987)

LoRA-Guard：通过参数高效微调实现端侧 AI 安全

引言大型语言模型 (LLM) 的快速演进带来了能力出众的对话助手、编程伙伴和创意写作者。然而，这种能力伴随着一个显著的隐患: 如果没有仔细的对齐，这些模型可能会生成有毒、冒犯性或非法的内容。虽然“安全微调” (如基于人类反馈的强化学习) 有所帮助，但它并非灵丹妙药。“越狱” (Jailbreaks) ——旨在绕过安全过滤器的精心设计的提示词——仍然是一个持续存在的威胁。 ...

[LitSearch: A Retrieval Benchmark for Scientific Literature Search 🔗](https://arxiv.org/abs/2407.18940)

破解科学搜索的密码：深入了解 LitSearch 基准测试

引言: 学术大海捞针如果你是一名学生或研究人员，你一定深知其中的痛苦。你的脑海中有一个特定的概念——也许是对一篇“使用结构化剪枝来缩减语言模型规模”的论文的模糊记忆——但你记不起标题、作者或年份。你求助于 Google Scholar 或类似的学术搜索引擎，输入查询，然后……一无所获。或者更糟的是，你得到的是一页又一页仅靠关键词匹配但却完全未能捕捉到你所寻找的概念且相关性极低的结果。 ...

[Link, Synthesize, Retrieve: Universal Document Linking for Zero-Shot Information Retrieval 🔗](https://arxiv.org/abs/2410.18385)

连点成线：通用文档链接如何解决零样本检索难题

引言想象一下，你正在为一个全新的医学数据库或一套外语法律判例集构建搜索引擎。你拥有数百万份文档，但面临一个主要问题: 零用户。如果没有用户查询的历史记录 (即人们在搜索栏中输入的内容) ，你该如何教你的搜索算法识别什么是“相关性”？ ...

[Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination 🔗](https://arxiv.org/abs/2406.08818)

美式标准的默认设置：ChatGPT 如何辜负全球英语方言使用者

像 ChatGPT 这样的大型语言模型 (LLMs) 通常被标榜为通用工具——能够用任何语言谈论任何话题的全知助手。然而，当我们层层剥开这种“通用性”的外衣时，往往会发现系统中编码了一种非常特定的世界观。对于全球数百万英语使用者来说，ChatGPT 并没有充当其中立的镜像；相反，它充当了一副矫正镜片，过滤掉了他们的文化认同，或者更糟糕的是，向他们反射出一幅讽刺漫画。 ...

[Linear Layer Extrapolation for Fine-Grained Emotion Classification 🔗](https://aclanthology.org/2024.emnlp-main.1161.pdf)

超越最终层——在大语言模型中外推情感

引言想象一下你正在给朋友发短信。他们回复说: “你无法改变一个人的本质，但你可以爱他们 #sadly (悲伤地) 。” 你会如何分类这里的各种情感？标准的情感分析工具可能会看到“爱”这个词就将其标记为快乐 (Joy) , 或者看到标签就将其标记为悲伤 (Sadness) 。但人类读者能察觉到更微妙的东西: 一种听天由命的感觉，一种对现实的艰难接受。正确的标签很可能是悲观 (Pessimism) 。 ...

[Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning 🔗](https://arxiv.org/abs/2405.03279)

LLM 能终身学习吗？深度解析 RECIPE：终身模型编辑的新标准

想象一下，你训练了一个最先进的大型语言模型 (LLM) 。它能说流利的英语，会写 Python 代码，还能理解复杂的逻辑推理。但有一个问题: 它仍然认为英国首相是鲍里斯·约翰逊，或者它不知道昨天发生的重大地缘政治事件。 ...

[Lifelong Event Detection via Optimal Transport 🔗](https://arxiv.org/abs/2410.08905)

最优传输如何防止 AI 遗忘——深入解读 LEDOT

想象一下，你正在尝试学习一门新语言。你花了几个月的时间精通了法语。然后，你决定学习西班牙语。但问题来了: 当你开始进行西班牙语动词变位时，你莫名其妙地忘记了你学过的所有法语单词。 ...

[Lexically Grounded Subword Segmentation 🔗](https://arxiv.org/abs/2406.13560)

让分词回归语义：一种基于词汇语义的方法

在自然语言处理 (NLP) 的世界里，我们经常惊叹于 Transformer 等大型语言模型 (LLM) 的复杂架构。我们分析注意力机制、前馈网络和巨大的参数量。然而，我们经常忽略这些模型那个朴实无华的“前门”: 分词 (Tokenization) 。 ...