EMNLP 2024

[LLM See, LLM Do: Leveraging Active Inheritance to Target Non-Differentiable Objectives 🔗](https://aclanthology.org/2024.emnlp-main.521.pdf)

人如其食：合成数据如何塑造和引导大语言模型

引言在当前的人工智能格局中，我们正遭遇一个瓶颈: 高质量的人工生成数据正变得稀缺且昂贵。为了规避这一问题，业界已转向合成数据——即由大语言模型 (LLM) 生成的文本，用于训练其他 LLM。这是一个极具吸引力的解决方案，承诺以极低的成本提供无限的数据。 ...

[LIONS: An Empirically Optimized Approach to Align Language Models 🔗](https://arxiv.org/abs/2407.06542)

解读 LLM 对齐的完美配方：深入剖析 LIONS 论文

如果你曾试玩过“基础”语言模型——即刚完成预训练的模型——你会知道它可能有点难以捉摸。它可能会胡言乱语，补全你的句子而不是回答你的问题，或者输出一些不安全的内容。要将这些原始的计算引擎转化为像 ChatGPT 或 Llama-Instruct 这样有用的助手，我们需要进行对齐 (alignment) 。 ...

[LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models 🔗](https://arxiv.org/abs/2406.20030)

如何让旧的大语言模型永远学会新把戏：LEMoE 介绍

引言想象一下，你正试图向一个大语言模型 (LLM) 传授关于世界的知识。你用截至 2023 年的数据训练了它。到了 2024 年，某国的总理换人了。你教会了模型这个新事实。2025 年，一种新的科学元素被发现，你也教给了它。 ...

[KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server 🔗](https://arxiv.org/abs/2410.05725)

如何在不泄露隐私数据的情况下训练 LLM：KnowledgeSG 框架

引言像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 的兴起彻底改变了我们与技术交互的方式。从编写代码到总结法律文件，这些模型似乎无所不能。然而，对于处理高度敏感信息的行业——如医疗保健和金融——使用这些强大的工具面临着巨大的困境。 ...

[Knowledge-Centric Hallucination Detection 🔗](https://aclanthology.org/2024.emnlp-main.395.pdf)

捕捉 LLM 的谎言：一种以知识为中心的幻觉检测方法

像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 彻底改变了我们与技术交互的方式。它们能够总结文档、编写代码并回答复杂的问题。但它们有一个众所周知的“致命弱点”: 幻觉 (Hallucinations) 。 ...

[Knowledge Verification to Nip Hallucination in the Bud 🔗](https://arxiv.org/abs/2401.10768)

别再教模型撒谎：知识一致性对齐如何将幻觉扼杀在萌芽状态

引言: AI 的“应声虫”问题想象一下，你是一名正在参加历史考试的学生。你遇到了一道关于某个特定事件的题目，而你从未学过这个事件，对它一无所知。如果是选择题，你可能会猜一个。但在论述题中，如果你被迫写出一个答案，你可能会试图表现得很自信，编造出听起来合情合理但完全虚构的细节。 ...

[Knowledge Planning in Large Language Models for Domain-Aligned Counseling Summarization 🔗](https://arxiv.org/abs/2409.14907)

PIECE by PIECE —— 规划引擎如何彻底改变心理健康领域的 AI

引言心理健康咨询是一个字斟句酌的领域。在典型的咨询过程中，治疗师必须平衡两项关键任务: 积极倾听客户以建立治疗关系，以及一丝不苟地记录会话以备将来参考。这种文档通常被称为“咨询笔记”或摘要，对于跟踪进展和确保持续护理至关重要。然而，做笔记的认知负荷可能会分散治疗师的注意力，从而可能削弱与客户的联系。 ...

[Knowledge Graph Enhanced Large Language Model Editing 🔗](https://arxiv.org/abs/2402.13593)

超越复制粘贴：利用知识图谱编辑大语言模型 (GLAME)

超越复制粘贴: 利用知识图谱编辑大语言模型想象一下，你正在阅读一本由大语言模型 (LLM) 生成的勒布朗·詹姆斯 (LeBron James) 传记。模型正确地陈述道: “勒布朗·詹姆斯效力于洛杉矶湖人队。”但是当你问: “勒布朗·詹姆斯在洛杉矶工作吗？”模型却犹豫了，或者更糟糕的是，自信地回答: “不，他在迈阿密工作。” ...

[ℵ Knowledge Conflicts for LLMs: A Survey 🔗](https://arxiv.org/abs/2403.08319)

当事实发生碰撞：深入探讨大语言模型中的知识冲突

想象一下，你问一位值得信赖的朋友: “哪支球队赢得的 FIFA 世界杯冠军最多？”你期望他们回答巴西队。但在他们回答之前，你递给他们一叠剪报。有些剪报证实了是巴西队，但另一些则错误地声称是德国队或阿根廷队。突然间，你的朋友陷入了矛盾。他们是应该依赖自己已知的事实 (巴西队) ，还是相信你刚刚给他们的文件？ ...

[KnowTuning: Knowledge-aware Fine-tuning for Large Language Models 🔗](https://arxiv.org/abs/2402.11176)

为什么 LLM 难以掌握事实，以及 KnowTuning 如何修复这一问题

引言我们都有过这种经历: 你向大语言模型 (LLM) 问一个具体的、细节丰富的问题——比如关于某种疾病或历史事件——得到的回答听起来无比自信。语法完美，语气专业，但内容却……稍微有点偏差。也许它漏掉了一个关键细节，产生了一个错误的日期幻觉，或者论证的顺序令人困惑。 ...

[Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual Personas 🔗](https://arxiv.org/abs/2410.03181)

AI 中的普罗透斯效应：当 LLM “长得”吓人时，行为会不同吗？

引言在网络游戏世界中，有一种被称为“普罗透斯效应 (Proteus Effect) ”的心理现象。它表明，用户的数字替身 (Avatar) 的外貌会影响他们的行为。如果玩家被分配了一个高大、迷人的化身，他们往往会表现得更自信；如果他们被分配了一个好斗的战士形象，他们可能会表现得更具对抗性。但是，随着我们要步入多模态大型语言模型 (LLM) ——即既能看又能读的 AI——的时代，一个迷人的问题出现了: 普罗透斯效应适用于 AI 吗? ...

[KidLM: Advancing Language Models for Children – Early Insights and Future Directions 🔗](https://arxiv.org/abs/2410.03884)

KidLM：为什么我们需要面向儿童的专用语言模型（以及如何构建它们）

引言在这个人工智能重塑教育的时代，从家庭作业助手到交互式故事讲述，大语言模型 (LLM) 正日益成为孩子们日常生活的一部分。根据联合国儿童基金会 (UNICEF) 的数据，全球三分之一的互联网用户是儿童。然而，旨在与他们互动的模型——如 ChatGPT、Llama 等——从根本上并不是为他们构建的。 ...

[KNN-INSTRUCT: Automatic Instruction Construction with K Nearest Neighbor Deduction 🔗](https://aclanthology.org/2024.emnlp-main.577.pdf)

超越随机采样：KNN-INSTRUCT 如何构建更好的 LLM 训练数据

如果你曾试玩过像 ChatGPT 或 Claude 这样的大型语言模型 (LLM) ，你会知道其中的魔力不仅仅在于模型预测下一个词的能力。它在于模型遵循你的指令、回答你的问题以及充当得力助手的能力。这种能力是通过一种称为监督微调 (Supervised Fine-Tuning, SFT) 的过程实现的。 ...

[KB-Plugin: A Plug-and-play Framework for Large Language Models to Induce Programs over Low-resourced Knowledge Bases 🔗](https://arxiv.org/abs/2402.01619)

打破数据壁垒：KB-Plugin 如何教会 LLM 在任意知识库上进行推理

引言大语言模型 (LLM) 彻底改变了我们与信息交互的方式。然而，它们都有一个众所周知的缺陷: 幻觉 (hallucination) 。当被问及具体的事实数据——例如某位研究人员的引用次数，或某个小镇的具体铁路网络——LLM 往往会给出令人信服但错误的猜测，而不是准确的回答。 ...

[KAR³L: Knowledge-Aware Retrieval and Representations aid Retention and Learning in Students 🔗](https://arxiv.org/abs/2402.12291)

超越间隔重复：KAR³L 如何利用 NLP 彻底变革抽认卡学习

如果你曾经学过一门新语言、为了医学执照考试死记硬背，或者记忆冷知识，你可能对 Anki 或 SuperMemo 这样的间隔重复系统 (SRS) 并不陌生。这些工具是高效学习的黄金标准。它们通过在你即将遗忘的确切时刻安排抽认卡复习，从而最大化你的记忆效率。 ...

[Jump Starting Bandits with LLM-Generated Prior Knowledge 🔗](https://arxiv.org/abs/2406.19317)

解决：利用 LLM 攻克推荐系统中的冷启动问题

想象一下，你刚刚推出了一项新的流媒体服务。一位新用户注册了。你知道他们的年龄和位置，但你对他们真正喜欢什么电影一无所知。你会推荐什么？如果你向一个恐怖片迷推荐浪漫喜剧，他们可能会立即流失。这就是推荐系统中经典的冷启动问题 (Cold Start Problem) 。算法需要数据来学习偏好，但它需要做出好的推荐才能获得这些数据。传统上，系统在能够“利用” (做出明智选择) 之前，必须先进行“探索” (随机猜测) ，这导致早期的用户体验很差。 ...

[Joint Pre-Encoding Representation and Structure Embedding for Efficient and Low-Resource Knowledge Graph Completion 🔗](https://aclanthology.org/2024.emnlp-main.851.pdf)

加速知识图谱：PEMLM 如何在提升准确率的同时大幅降低资源成本

在人工智能领域，知识图谱 (Knowledge Graphs, KGs) 充当着机器的结构化记忆。它们以三元组的形式——(头实体，关系，尾实体)——存储着海量数据，例如 (巴黎, 是…的首都, 法国)。这些图谱支撑着从搜索引擎侧边栏到推荐系统和问答机器人等各种应用。 ...

[Jellyfish: Instruction-Tuning Local Large Language Models for Data Preprocessing 🔗](https://aclanthology.org/2024.emnlp-main.497.pdf)

本地驯服脏数据：Jellyfish 如何在零隐私风险下将 LLM 能力引入数据预处理

如果你从事过数据科学工作，你一定听说过“二八定律”: 你把 80% 的时间花在清洗和准备数据上，只有 20% 的时间真正用于分析或构建模型。数据预处理 (DP) 是数据流程中既乏味但又至关重要的支柱。它涉及修正拼写错误、填补缺失值、匹配不同数据库中的记录以及标准化格式。传统上，这需要通过一个碎片化的工具生态系统来处理——一种算法用于错误检测，另一种完全不同的算法用于实体匹配，依此类推。 ...

[Jailbreaking LLMs with Arabic Transliteration and Arabizi 🔗](https://arxiv.org/abs/2406.18725)

迷失在音译中——Arabizi 如何绕过 LLM 安全过滤器

像 GPT-4 和 Claude 3 这样的大型语言模型 (LLM) 不仅被设计得乐于助人，还被设计得安全可靠。如果你要求这些模型编写恶意软件制作指南或制造炸弹，它们受过训练会予以拒绝。这种通常通过人类反馈强化学习 (RLHF) 实现的安全训练，就像一道防火墙，围绕着模型掌握的海量知识。 ...

[Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs 🔗](https://arxiv.org/abs/2403.05020)

上帝模式 vs. 现实：为什么 AI 社交模拟无法通过社交智能的图灵测试

想象一个完全由 AI 智能体 (Agent) 居住的虚拟小镇。它们起床、上班、在咖啡店聊八卦、在市场上讨价还价。这听起来像科幻小说——具体来说，像是由超级计算机驱动的《西部世界》 (Westworld) 或《模拟人生》 (The Sims) ——但大型语言模型 (LLM) 的最新进展让我们离这个现实近在咫尺。 ...