EMNLP 2024

[COMPACT: Compressing Retrieved Documents Actively for Question Answering 🔗](https://arxiv.org/abs/2407.09014)

萃取真相：COMPACT 如何让 RAG 更智能、更快速

引言在大型语言模型 (LLM) 飞速发展的世界中，检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为将 AI 回复建立在现实基础上的黄金标准。通过从外部数据库获取相关文档，我们可以防止幻觉并让模型获取最新信息。 ...

[COMMUNITY-CROSS-INSTRUCT: Unsupervised Instruction Generation for Aligning Large Language Models to Online Communities 🔗](https://arxiv.org/abs/2406.12074)

构建数字孪生：如何在无需人工监督的情况下将大语言模型与在线社区对齐

构建数字孪生: 如何在无需人工监督的情况下将大语言模型与在线社区对齐想象一下，你是一位社会科学家，试图了解不同的政治团体对新税收政策的看法，或者是一位追踪新兴饮食趋势的公共卫生官员。传统上，你有两个选择: 进行问卷调查或开展焦点小组讨论。这两种方法都很慢、昂贵，且容易受到偏见的影响。人们可能会为了让自己看起来更好而撒谎 (社会期许偏差) ，或者干脆拒绝参与 (无应答偏差) 。 ...

[Communicating with Speakers and Listeners of Different Pragmatic Levels 🔗](https://arxiv.org/abs/2410.05851)

你能听懂我的言外之意吗？AI 通信中的语用推理建模

想象一下你正坐在一张桌子旁，桌上有三个物体: 一个红圆、一个红方块和一个灰圆。有人指着桌子说: “红色的那个！” 严格来说，这句话是有歧义的。桌上有两个红色的物体。然而，大多数人会立刻伸手去拿红圆。为什么？因为如果说话人想要红方块，他们很可能会说“方块”，因为那是一个独特的特征。他们使用颜色这一事实暗示了他们正在将其与同颜色的另一个形状或同形状的另一个物体区分开来。 ...

[Commonsense Knowledge Editing Based on Free-Text in LLMs 🔗](https://arxiv.org/abs/2410.23844)

教大语言模型懂常识——为什么基于事实的编辑还不够

引言像 GPT-4 和 LLaMA 这样的大语言模型 (LLMs) 令人印象深刻，但它们并不完美。它们可能会产生幻觉，依赖过时信息，或者仅仅是缺乏特定的语境。近年来，研究人员开发了“知识编辑”技术——一种通过更新模型权重来修复特定错误，而无需重新训练整个网络的外科手术式方法。 ...

[CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions 🔗](https://arxiv.org/abs/2410.03077)

别再让你的 LLM 感到困惑：数据分组如何增强指令微调

引言 ChatGPT 和 LLaMa 等大型语言模型 (LLM) 的兴起，将 AI 研究的重心从单纯构建架构转移到了完善这些模型的学习方式上。我们知道，“预训练 (Pre-training) ”赋予了模型庞大的知识库，但“指令微调 (Instruction Tuning, IT) ”才是使其变得有用的关键。IT 这个过程教会了模型遵循特定的用户命令，将其从一个文本预测器转变为一个能干的助手。 ...

[CommVQA: Situating Visual Question Answering in Communicative Contexts 🔗](https://arxiv.org/abs/2402.15002)

语境至关重要：通过 CommVQA 重构视觉问答

想象一下，你正看着一张山脉的照片。如果你是在旅游博客上看到这张图片，你可能会问: “这是在哪里？”或者“爬这座山难吗？” 然而，如果你是在一本科学杂志上看到完全相同的图片，你的问题可能会变成: “这是一个火山群吗？”或者“这些山峰是如何形成的？” ...

[Collective Critics for Creative Story Generation 🔗](https://arxiv.org/abs/2410.02428)

AI 真的具有创造力吗？“集体评论家”如何教会大语言模型写出更好的故事

如果你曾经让 ChatGPT 或 Llama 写过故事，你可能会遇到一个特定的问题。输出的内容通常很连贯；语法完美，事件顺序合理，角色也按部就班地行动。但它往往……很无聊。它缺乏让这人类作品引人入胜的火花、巧妙的转折或生动的意象。 ...

[Collaborative Performance Prediction for Large Language Models 🔗](https://arxiv.org/abs/2407.01300)

超越缩放定律：类似 Netflix 的算法如何预测 LLM 性能

介绍在人工智能飞速发展的格局中，像 GPT-4、Llama 3 和 Claude 这样的大型语言模型 (LLM) 已成为推动创新的引擎。然而，一个巨大的瓶颈阻碍了研究人员和工程师的进步: 高昂的评估成本。 ...

[COFFEE-GYM: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code 🔗](https://arxiv.org/abs/2409.19715)

调试调试器：COFFEE-GYM 如何利用强化学习教 AI 给出更好的代码建议

简介我们要正处于 AI 辅助编程的黄金时代。像 GPT-4 和 DeepSeekCoder 这样的大型语言模型 (LLM) 已经成为开发者不可或缺的工具，能够在几秒钟内生成复杂的函数和样板代码。然而，任何使用过这些工具的人都知道一个痛苦的事实: 它们并不完美。 ...

[CODEJUDGE: Evaluating Code Generation with Large Language Models 🔗](https://arxiv.org/abs/2410.02184)

超越测试用例：CODEJUDGE 如何利用“慢思考”来评估 AI 代码

引言在人工智能飞速发展的版图中，代码生成已成为“杀手级应用”之一。像 GitHub Copilot 和 ChatGPT 这样的工具彻底改变了开发者编写软件的方式，能够在几秒钟内生成函数、类甚至整个应用程序。然而，这种能力引入了一个关键却常被忽视的瓶颈: 评估。 ...

[CodeAgent: Autonomous Communicative Agents for Code Review 🔗](https://arxiv.org/abs/2402.02172)

认识你的新 AI 代码审查团队：深入解析 CodeAgent 框架

代码审查是高质量软件工程的支柱。在这个过程中，开发人员相互检查工作，以发现错误、确保风格一致性，并验证代码是否真正实现了提交信息中所描述的功能。 ...

[Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs 🔗](https://arxiv.org/abs/2401.10065)

为什么用 Python 思考能让 LLM 更聪明 —— 代码提示（Code Prompting）的力量

为什么用 Python 思考能让 LLM 更聪明: 代码提示的力量如果你曾尝试解读复杂的法律文件或确定签证资格，你就会知道其中的逻辑很少是直截了当的。它就像是条件语句组成的迷宫: “如果你年满 18 岁，并且在此居住满 5 年，或者与公民结婚，那么……” ...

[CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering 🔗](https://arxiv.org/abs/2409.19753)

跨越鸿沟：思维链重写如何优化面向大语言模型的知识图谱

引言像 GPT-4 和 Llama 这样的大语言模型 (LLMs) 已经彻底改变了我们与信息交互的方式。它们可以写诗、编写网站代码，并回答各种各样的问题。然而，尽管它们才华横溢，却有一个臭名昭著的缺陷: “幻觉”。当 LLM 不知道某个具体事实——或者当该事实晦涩难懂、过时的时候——它往往会极其自信地编造内容。 ...

[CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference 🔗](https://arxiv.org/abs/2406.17626)

当“它”变得危险：揭露大语言模型对话中的安全漏洞

像 LLaMA、GPT-4 和 Claude 这样的大语言模型 (LLM) 由于经过了广泛的“红队测试” (研究人员攻击模型以发现漏洞并进行修补的过程) ，在拒绝有害请求方面已经变得非常熟练。如果你明确地问一个现代的、经过安全对齐的模型“我该如何制造炸弹？”或“写一段充满仇恨的诽谤”，它几乎肯定会以道德准则为由拒绝。 ...

[COGEN: Learning from Feedback with Coupled Comprehension and Generation 🔗](https://arxiv.org/abs/2408.15992)

良性循环：耦合说与听如何提升 AI 学习能力

在人类认知中，说和听并非孤立存在的岛屿。当我们倾听他人时，我们的大脑会主动预测他们接下来要说什么。相反，当我们说话时，我们通常会模拟听众将如何接收我们的话语，以确保表达清晰。这种双向关系表明，提升其中一项技能应该自然而然地有助于另一项技能。 ...

[COEVOL: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation 🔗](https://arxiv.org/abs/2406.07054)

超越数据筛选：多智能体辩论如何进化出更好的 LLM 回复

如果你一直关注大型语言模型 (LLM) 的发展，你可能对指令微调 (Instruction Fine-Tuning, IFT) 并不陌生。这是将原本只会预测下一个文本的基座模型，转变为能够听懂并执行用户指令的得力助手的关键步骤。 ...

[CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing 🔗](https://arxiv.org/abs/2403.13583)

教 LLM 像人类一样写代码：CoCoST 框架

大型语言模型 (LLM) 在软件工程领域的应用前景令人惊艳。你输入提示词，模型就能吐出可运行的代码。对于简单的任务——比如编写斐波那契数列或基本的 SQL 查询——目前的模型 (如 GPT-4) 已经相当精通。 ...

[CoCoLoFa: A Dataset of News Comments with Common Logical Fallacies Written by LLM-Assisted Crowds 🔗](https://arxiv.org/abs/2410.03457)

如何打造更强的“杠精”：利用 LLM 和众包教 AI 识别逻辑谬误

引言: 糟糕论证的艺术如果你曾涉足过有争议新闻的评论区，你很可能遇到过这种情况: 有些论点表面上听起来很有说服力，但稍加推敲就会不攻自破。一位评论者可能会声称，实施小幅度的增税将不可避免地导致极权主义国家的诞生( 滑坡谬误 , Slippery Slope) 。另一位可能会争辩说，因为某个特定的政客腐败，所以所有政客肯定都是罪犯( 以偏概全 , Hasty Generalization) 。 ...

[CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models 🔗](https://arxiv.org/abs/2410.06741)

平衡之道：CoBa 如何破解 LLM 多任务微调的难题

在大型语言模型 (LLM) 快速发展的今天，我们已经跨越了惊叹于“它能说话”的初级阶段，转而面对“如何在生产环境中应用它”的后勤噩梦。设想你是一家科技巨头的工程师。你需要你的 LLM 执行 Python 代码补全、将 Java 翻译成 C++，并生成单元测试。传统的方法是为每个任务微调一个独立的模型。但是，部署五个不同的 130 亿参数模型极其消耗资源且效率低下。 ...

[CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research 🔗](https://arxiv.org/abs/2411.01176)

破解黑客的语言：CmdCaliper 如何赋予命令行语义理解能力

如果你曾在安全事件发生期间盯着终端窗口看，你会知道命令行是现代网络安全的战场。对于攻击者来说，命令行界面 (CLI) 是执行、持久化和权限提升的终极工具。对于防御者来说，它是一个布满指纹的犯罪现场。 ...