EMNLP 2024

[Fast Forwarding Low-Rank Training 🔗](https://arxiv.org/abs/2409.04206)

Fast Forward：如何通过简单地“继续前进”加速 LLM 微调

训练大型语言模型 (LLM) 的计算成本非常高昂。即使我们已经从从头训练转向微调预训练模型，对于学生和研究人员来说，时间和 GPU 计算量 (FLOPs) 的成本仍然是一个巨大的障碍。 ...

[Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments 🔗](https://arxiv.org/abs/2406.11370)

为什么更加公平的 LLM 是更好的裁判：深入解析 ZEPO 框架

为什么更加公平的 LLM 是更好的裁判: 深入解析 ZEPO 框架如果你最近尝试过大语言模型 (LLM) ，你可能知道它们不仅在编写代码或生成诗歌方面很有用，而且越来越多地被用作评估器。在一个文本生成廉价但评估昂贵的世界里，使用一个 LLM 来评判另一个 LLM 的输出质量 (这种技术通常被称为“LLM 即裁判”，LLM-as-a-Judge) 已成为一种标准做法。 ...

[FAIRFLOW: Mitigating Dataset Biases through Undecided Learning for Natural Language Understanding 🔗](https://aclanthology.org/2024.emnlp-main.1225.pdf)

别瞎猜，保持犹豫：FAIRFLOW 如何修复 AI 的走捷径问题

引言: AI 中的“懒学生”问题想象一下，你是一位正在批改多项选择历史考试的老师。你注意到一名学生几乎答对了每一道题。令人印象深刻，对吧？但当你仔细观察时，你发现了一个规律: 每当答案是“C”时，题目都比其他题目稍微长一点。这名学生其实并没有阅读历史问题；他只是学会了一条捷径: “长题目 = 选 C”。 ...

[Factuality of Large Language Models: A Survey 🔗](https://arxiv.org/abs/2402.02420)

LLM 为什么撒谎？深入剖析真实性与幻觉

我们都有过这样的经历。你向 ChatGPT 或 Claude 询问关于某个历史事件或冷门科学概念的具体问题。答案行云流水般涌现，格式完美，听起来极其权威。但当你再次核对某个日期或名字时，你意识到: 模型是在瞎编。 ...

[FROG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.411.pdf)

当“大多数”不仅仅是数学：为何大语言模型在模糊推理上败北

引言想象一下，你正在计划一次公路旅行。你问你的副驾驶: “我们还剩多少油？” 如果你的副驾驶是一台电脑，它可能会说: “我们在 50 升的油箱里还剩 14.2 升。” 如果你的副驾驶是一个人，他们可能会说: “我们还剩少量 (small amount) 。” ...

[FOOL ME IF YOU CAN! An Adversarial Dataset to Investigate the Robustness of LMs in Word Sense Disambiguation 🔗](https://aclanthology.org/2024.emnlp-main.290.pdf)

愚我一次：AI 模型是真的理解上下文，还是仅仅在瞎猜？

引言想象一下你正在阅读下面这句话: “I eat an apple while holding my iPhone.” (我手里拿着 iPhone 吃着 apple。) 作为人类，你的大脑会进行极其快速的计算。你瞬间就能明白这里的单词 “apple” 指的是水果，而不是那家科技巨头 Apple Inc.，尽管上下文中包含了 “iPhone” 这个词。这种根据上下文确定单词具体含义的能力被称为词义消歧 (Word Sense Disambiguation, WSD) 。 ...

[FOLIO: Natural Language Reasoning with First-Order Logic 🔗](https://arxiv.org/abs/2209.00840)

AI 真的会推理吗？深入解析难倒 GPT-4 的 FOLIO 基准测试

引言在大语言模型 (LLM) 时代，我们已经习惯了见证 AI 创造看似奇迹般的壮举。从通过律师资格考试到编写复杂的 Python 脚本，像 GPT-4 这样的模型似乎对世界有着深刻的理解。但在人工智能社区中，始终存在一个挥之不去的问题: 这些模型究竟是在进行推理，还是仅仅在做复杂的模式匹配? ...

[FLIRT: Feedback Loop In-context Red Teaming 🔗](https://arxiv.org/abs/2308.04265)

突破护栏：FLIRT 如何实现生成式 AI 的自动化红队测试

突破护栏: FLIRT 如何实现生成式 AI 的自动化红队测试我们正处于生成式 AI 的黄金时代。借助 ChatGPT、DALL-E 和 Stable Diffusion 等工具，任何能上网的人都可以在几秒钟内生成文章、代码和逼真的艺术作品。但随着这些模型能力的增强，与其相关的风险也成比例增加。 ...

[FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document 🔗](https://arxiv.org/abs/2404.11184)

停止幻觉：FIZZ 如何通过放大与缩小来核查 AI 摘要的事实

大语言模型 (LLM) 的快速演进彻底改变了我们处理信息的方式。生成式摘要 (Abstractive summarization) ——即 AI 阅读长文档并用自己的语言写出简洁摘要——是这项技术最实用的应用之一。然而，任何使用过这些工具的人都知道它们存在一个严重的缺陷: 幻觉 (hallucination) 。 ...

[FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation 🔗](https://arxiv.org/abs/2408.12168)

我们能信任 AI 吗？教导 LLM 知之为知之，不知为不知

想象一下，你正在使用一个大型语言模型 (LLM) 来辅助医疗诊断或查询复杂的法律判例。模型给出了一个置信度高达 99% 的答案。你信任了它，采取了行动，结果后来发现它完全错了。这就是在高风险环境中部署 AI 的噩梦场景。 ...

[FIRST: Faster Improved Listwise Reranking with Single Token Decoding 🔗](https://arxiv.org/abs/2406.15657)

加速搜索：单 Token 解码如何彻底变革 LLM 重排序

引言在信息检索 (IR) 飞速发展的领域，大型语言模型 (LLM) 的引入一直是一把双刃剑。一方面，LLM 拥有理解细微差别、上下文和意图的非凡能力，使其能够以前所未有的准确度对搜索结果进行排序。另一方面，它们计算昂贵且速度缓慢。 ...

[FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping 🔗](https://aclanthology.org/2024.emnlp-main.941.pdf)

逃离 KV 缓存陷阱：FFN-SkipLLM 如何通过剪枝正确的模块加速推理

引言我们正处于大语言模型 (LLMs) 的“黄金时代”。从 LLaMA 到 GPT-4，这些模型展现出的推理、编程和创意写作能力在十年前是无法想象的。然而，这种智能伴随着巨大的代价: 计算成本。 ...

[FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models 🔗](https://arxiv.org/abs/2408.10276)

如何在不查看患者数据的情况下训练巨型医疗 AI：深入了解 FEDKIM

引言想象一下有一个“超级医生 AI”——一个能够分析 X 光片、阅读临床笔记、解读 ECG 信号并预测死亡风险的基础模型，且所有这些都能达到专家级的精度。我们已经见证了像 GPT-4 这样的大型语言模型 (LLM) 的崛起，而它们在医疗领域的对应模型也开始崭露头角。然而，在医疗领域，我们撞上了一堵巨大的墙: 隐私。 ...

[FAME: Towards Factual Multi-Task Model Editing 🔗](https://arxiv.org/abs/2410.10859)

修正事实：深入探讨 FAME 和 SKEME 以实现实用的 LLM 编辑

像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 是工程界的惊人壮举。它们可以写诗、用 Python 编程，还能总结历史。但它们有一个致命缺陷: 它们被冻结在时间里。一个在 2021 年训练的模型会认为乔·拜登是现任美国总统，但面对上周发生的事件它可能会无能为力。更糟糕的是，模型经常会产生幻觉，自信地断言错误的事实。 ...

[FAC2E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition 🔗](https://aclanthology.org/2024.emnlp-main.734.pdf)

机器人的大脑解剖学：在 LLM 评估中分离语言与认知

介绍想象一下，一个学生在参加物理考试。他们答对了最终答案。这是否意味着他们理解物理学？也许吧。但也可能是他们背下了答案，或者他们犯了两个相互抵消的计算错误。如果不看他们的“草稿”——即推理的中间步骤——就不可能知道他们是真正理解了材料，还是仅仅擅长模仿正确的输出。 ...

[F2RL: Factuality and Faithfulness Reinforcement Learning Framework for Claim-Guided Evidence-Supported Counterspeech Generation 🔗](https://aclanthology.org/2024.emnlp-main.255.pdf)

用事实对抗仇恨：强化学习如何构建更好的反驳言论

社交媒体平台是现代的城镇广场，但它们正日益被仇恨言论所污染。虽然内容审核 (封禁或删除) 是一种方法，但它经常与言论自由原则相冲突，且难以扩大规模。一种更自然、更具建设性的解决方案是反驳言论 (Counterspeech) : 直接回击仇恨言论，纠正错误信息，并试图缓和敌意。 ...

[Eyes Don't Lie: Subjective Hate Annotation and Detection with Gaze 🔗](https://aclanthology.org/2024.emnlp-main.11.pdf)

当眼神胜过言语：利用视线追踪改进仇恨言论检测

引言在自然语言处理 (NLP) 的世界里，我们通常将文本视为静态对象。一个句子被输入到模型中，然后输出一个标签。但语言并不是存在于真空中的，它存在于读者的脑海里。当你读到冒犯你的内容时，你的身体会产生反应。你可能会盯着某个特定的诽谤词看更久，你的眼神可能会难以置信地来回游移，或者你的瞳孔可能会因为情绪激动而放大。 ...

[Extracting Prompts by Inverting LLM Outputs 🔗](https://arxiv.org/abs/2405.15012)

窃取系统提示词：'output2prompt' 如何逆转 LLM 的逻辑

引言在快速扩展的大型语言模型 (LLM) 生态系统中，“系统提示词” (System Prompt) 已成为一种有价值的知识产权。无论是 GPT 商店 (GPT Store) 中的专用机器人、客户服务代理，还是角色扮演伴侣，这些应用程序的行为都由预置在用户对话之前的一组隐藏指令所控制。 ...

[Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction 🔗](https://arxiv.org/abs/2404.03868)

打破上下文壁垒：如何利用 LLM 构建大规模知识图谱

知识图谱 (Knowledge Graphs, KGs) 是现代人工智能的幕后英雄。它们为推荐引擎背后的决策提供支持，提高了问答系统的准确性，并提供了非结构化文本所缺乏的结构化“世界知识”。 ...

[External Knowledge-Driven Argument Mining: Leveraging Attention-Enhanced Multi-Network Models 🔗](https://aclanthology.org/2024.emnlp-main.216.pdf)

读懂字里行间：外部知识如何赋能下一代论辩挖掘

引言: 人类论辩中隐含的逻辑想象一下你正在听一场政治辩论。一位候选人说: “我们需要建设一个新的、现代化的电网。” 另一位候选人回应道: “这将产生大量的各种新经济活动。” ...