EMNLP 2024

[Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge 🔗](https://arxiv.org/abs/2410.04784)

为什么 LLM 更信任教科书而非推文：揭示冲突数据中的学习偏好

想象一下，你正在浏览互联网，试图寻找某位历史人物的出生日期。你发现了两个相互冲突的来源。一个是历史学家撰写的学术传记的扫描 PDF。另一个是充斥着拼写错误的社交媒体评论。你信任哪一个？ ...

[Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models 🔗](https://arxiv.org/abs/2410.04727)

超越困惑度：用遗忘曲线衡量 LLM 的记忆力

在大型语言模型 (LLM) 快速发展的格局中，业界正在大力推动更长的上下文窗口。我们已经从只能处理几段文字的模型，发展到了号称能处理 128k、200k 甚至 100 万 token 的巨兽。但这里有一个关键问题: 仅仅因为模型接受了 100 万个 token，就意味着它真的记住了它们吗？ ...

[Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting 🔗](https://aclanthology.org/2024.emnlp-main.1051.pdf)

口才的陷阱：为何文本化 AI 解释能蒙骗医生

人工智能与医疗的融合不再是未来的概念；它正在当下发生。从诊断皮肤病变到预测患者预后，AI 模型正逐渐成为临床医生手中的有力工具。然而，伴随着强大能力而来的是“黑盒”问题。深度学习模型，尤其是在医学影像领域的模型，以其不透明性而闻名。我们要么知道它们决定了什么，却很少知道为什么。 ...

[FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture 🔗](https://arxiv.org/abs/2406.11030)

AI 会点菜吗？用 FoodieQA 测试其对文化细微差别的理解

引言: 火锅困境想象一下，你走进北京的一家餐馆，点了一份“火锅”。端上来的是一个传统的铜锅，里面是清水加姜片，配上切成薄片的羊肉和芝麻蘸酱。现在，再想象一下在重庆做同样的事情。你面前将会是一锅翻滚的牛油，里面塞满了辣椒和花椒，配菜则是鸭肠。同样的名字，却是完全不同的文化体验。 ...

[Focused Large Language Models are Stable Many-Shot Learners 🔗](https://arxiv.org/abs/2408.13987)

为什么多多未必益善：解决多样本上下文学习中的注意力分散问题

大型语言模型 (LLMs) 彻底改变了人工智能的格局，这在很大程度上归功于它们执行上下文学习 (In-Context Learning, ICL) 的能力。这是一种无需任何参数更新，仅通过观察提示 (Prompt) 中提供的几个例子 (示例/demonstrations) ，模型就能学会解决任务的能力。 ...

[Flee the Flaw: Annotating the Underlying Logic of Fallacious Arguments Through Templates and Slot-filling 🔗](https://arxiv.org/abs/2406.12402)

超越标签：教 AI 解构谬误的逻辑

如果你曾在社交媒体的评论区花过时间，你很可能遇到过那种让你感觉不对劲的论点。这不一定是因为事实有误，而是因为连接这些事实的逻辑讲不通。也许有人争辩说: “如果我们不立即禁止所有汽车，地球就完了。”你知道这是一个极端的立场，忽略了中间的解决方案，这是一种典型的虚假两难 (False Dilemma) 。或者你读到: “我叔叔每天吃培根，活到了 90 岁，所以培根是健康的。”这就是以偏概全 (Faulty Generalization) ——拿单个数据点来套用整个群体。 ...

[Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models 🔗](https://arxiv.org/abs/2410.00131)

更快、更智能、更轻量：FibecFed 如何彻底变革 LLM 的联邦微调

引言人工智能领域已经被像 ChatGPT 和 LLaMA 这样的大型语言模型 (LLM) 彻底改变了。这些模型拥有惊人的能力，但它们对数据的渴望也是巨大的。传统上，训练或微调这些庞然大物需要将海量数据集聚合到一个中央服务器中。然而，在现实世界中，数据并不存在于单一的数据中心。它存在于我们的手机、笔记本电脑和去中心化的本地服务器中——通常受到像 GDPR 这样严格的隐私法规保护。 ...

[First Heuristic Then Rational: Dynamical Use of Heuristics in Language Model Reasoning 🔗](https://arxiv.org/abs/2406.16078)

LLM 如何思考：从懒惰捷径到理性逻辑的转变

当你面对一个需要多步解决的复杂问题时，你会如何处理？心理学研究表明，人类通常从“启发式 (heuristics) ”——即心理捷径或浅层联想——开始。如果你在找钥匙，你可能会先看厨房柜台，仅仅因为“钥匙经常放在那里”，而不是因为你记得把它们放在那里。然而，当你排除了选项并接近解决方案时，你的思维会发生转变。你会变得更加理性，推断出你最后一次出现在哪里。 ...

[Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models 🔗](https://arxiv.org/abs/2402.16315)

细节藏于像素之中：为什么 GPT-4V 难以处理细节以及如何修复它

如果你试玩过最近的大型视觉语言模型 (LVLMs) ，比如 GPT-4V、LLaVA 或 InstructBLIP，你可能会印象深刻。你可以上传一张凌乱房间的照片并询问“桌子上有什么？”，或者上传一张梗图并问“这有什么好笑的？”，模型通常能给出极其准确的回答。这些模型已经架起了像素与文本之间的桥梁，实现了高层次的推理和描述。 ...

[FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension 🔗](https://arxiv.org/abs/2409.14750)

打破幻觉：为何 MLLM 在细粒度视觉定位上举步维艰

引言在人工智能飞速发展的世界里，像 GPT-4V 这样的多模态大语言模型 (MLLM) 以其谈论图像的能力让我们眼花缭乱。你可以上传一张冰箱的照片，模型就能为你推荐食谱。然而，在这种流畅对话的表象之下，隐藏着一个顽疾: 视觉定位 (Visual Grounding) 。 ...

[Fine-grained Pluggable Gradient Ascent for Knowledge Unlearning in Language Models 🔗](https://aclanthology.org/2024.emnlp-main.566.pdf)

AI 手术刀：精细化梯度上升如何在不损失智力的情况下让 LLM 遗忘秘密

大型语言模型 (LLM) 是如饥似渴的阅读者。在预训练阶段，它们吞噬了从开放网络上抓取的海量数据集。虽然这使它们能够学习语法、推理和世界知识，但也意味着它们无意中记住了敏感信息——从个人身份信息 (PII) 到有毒的仇恨言论。 ...

[Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs 🔗](https://arxiv.org/abs/2312.05934)

微调 vs. RAG：LLM 知识注入之战

引言想象一下，你是一名大学生，即将参加一门你从未学过的科目的高难度考试——比如高级天体物理学或者是某个虚构国家的历史。你有两种准备方式。选项 A: 在考前把自己关在房间里一周，背诵教科书里的每一个事实，直到头痛欲裂。选项 B: 完全不复习，但在考试时，允许你把打开的教科书放在桌上，边考边查答案。 ...

[Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together 🔗](https://arxiv.org/abs/2407.10930)

何必二选一？结合微调与提示优化如何解锁 LLM 潜力

引言在快速发展的大语言模型 (LLM) 领域，工程师和研究人员在试图提升模型性能时，往往面临一个两难的选择: 是应该花时间设计更好的提示 (Prompt Engineering) ，还是应该收集数据来微调模型权重 (Fine-tuning) ？ ...

[Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? 🔗](https://arxiv.org/abs/2404.14122)

更少数据，更多翻译：通过极少量微调解锁大语言模型潜力

如果你曾经修过神经机器翻译 (NMT) 的课程，你可能学过该领域的“黄金法则”: 数据为王。要构建一个能够进行英德互译的系统，传统上你需要数百万对高质量、对齐的句子。如果你想要一个多语言模型，你需要覆盖每一个你打算支持的翻译方向的海量数据集。 ...

[Fine-Grained Prediction of Reading Comprehension from Eye Movements 🔗](https://arxiv.org/abs/2410.04484)

字里行间：眼动能预测阅读理解能力吗？

引言阅读是现代社会生存所需的最基本技能之一，然而，评估一个人对所读内容的理解程度仍然是一个复杂的挑战。传统上，衡量阅读理解能力的唯一实用方法是通过标准化测试——给某人一段文章，然后问他们问题。 ...

[Fine-Grained Detection of Solidarity for Women and Migrants in 155 Years of German Parliamentary Debates 🔗](https://arxiv.org/abs/2210.04359)

解码 155 年的政治辩论：AI 如何揭示“团结”的演变

社会如何凝聚在一起？在社会学中，答案往往是团结 (Solidarity) ——一种将个体联系在一起的凝聚力。但团结并非一成不变的概念；它随着战争、经济危机和文化变革而发生转变。要理解这些转变，需要分析几十年来人们说过的数百万个词汇，而在过去，对于人类研究人员来说，要在如此大的规模上完成这项任务几乎是不可能的。 ...

[Finding Blind Spots in Evaluator LLMs with Interpretable Checklists 🔗](https://arxiv.org/abs/2406.13439)

我们能信任 AI 法官吗？深入解析用于审计评估器 LLM 的 FBI 框架

AI 法官的崛起在人工智能飞速发展的格局中，我们面临着一个瓶颈: 评估。随着大型语言模型 (LLM) 的能力越来越强，评估它们的输出对人类来说已经变得极其昂贵且耗时。如果你正在开发一个新模型，你不可能为了给成千上万个回答打分而等待人工标注者数周时间。 ...

[FINDVER: Explainable Claim Verification over Long and Hybrid-Content Financial Documents 🔗](https://arxiv.org/abs/2411.05764)

AI 能审计账簿吗？介绍 FINDVER，一个金融声明验证基准

引言我们生活在一个信息爆炸的时代。每天，新闻媒体、社交网络和论坛都充斥着关于公司业绩的各种声明。“X 公司的收入增长了 20%”，或者“Y 公司的债务负担翻了一番”。对于投资者和分析师来说，依据错误信息行事的代价极高。对抗错误信息的解药是验证——即根据原始来源文件 (如提交给美国证券交易委员会 SEC 的 10-K 年度报告和 10-Q 季度报告) 来核对这些声明。 ...

[Fill In The Gaps: Model Calibration and Generalization with Synthetic Data 🔗](https://arxiv.org/abs/2410.10864)

假数据能否修复真信心？利用大语言模型改进模型校准

在快速发展的人工智能世界中，我们往往过度迷恋单一指标: 准确率 (accuracy) 。我们只想知道模型是否给出了正确的答案。但在医疗诊断、法律分析或自动驾驶等高风险环境中，仅仅“正确”是不够的。我们还需要知道模型对其决策有多大的信心 (confident) 。 ...

[Fewer is More: Boosting Math Reasoning with Reinforced Context Pruning 🔗](https://aclanthology.org/2024.emnlp-main.758.pdf)

Fewer is More：CoT-Influx 如何大幅提升 LLM 的数学推理能力

像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 是语言奇才，能够轻松创作诗歌、代码和文章。然而，一旦问它们一个多步骤的小学数学题，它们往往会跌跌撞撞，表现不佳。解决这个问题的标准方案是思维链 (Chain-of-Thought, CoT) 提示——在要求模型解答新问题之前，先给它几个逐步解决类似问题的例子。这被称为少样本学习 (few-shot learning)。直觉上，你展示的例子越多，模型的表现应该越好。但这里存在一个硬性上限: 上下文窗口 (context window) 。 ...