EMNLP 2024

[ControlMath: Controllable Data Generation Promotes Math Generalist Models 🔗](https://arxiv.org/abs/2409.15376)

超越死记硬背：ControlMath 如何教会 LLM 真正理解数学

大型语言模型 (LLM) 是令人难以置信的对话者、诗人和程序员。然而，当你要求它们解决一道独特的数学题——一道不是它们见过无数次的教科书例题的翻版——它们往往会跌跌撞撞。 ...

[Control Large Language Models via Divide and Conquer 🔗](https://arxiv.org/abs/2410.04628)

为什么 LLM 会忽略你的指令（以及如何通过“分而治之”来修复它）

如果你曾经尝试过使用像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 来处理严格的数据处理任务，你很可能遇到过一种令人沮丧的现象。你提供了一个包含一系列具体要求的提示词——也许是必须出现在生成的名为用户画像中的十个不同的人口统计事实——模型自信地生成了一段流畅、听起来很专业的段落。 ...

[Contribution of Linguistic Typology to Universal Dependency Parsing: An Empirical Investigation 🔗](https://aclanthology.org/2024.emnlp-main.773.pdf)

当语言学遇见 AI：类型学能改进依存句法分析吗？

自然语言处理 (NLP) 通常处于工程学与语言学的交叉路口。一方面，我们拥有旨在高效处理文本的模型；另一方面，我们面对的是关于人类语言如何实际运作的深奥且复杂的理论。连接这两个世界最成功的尝试之一就是通用依存库 (Universal Dependencies，简称 UD) 。 ...

[Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion 🔗](https://arxiv.org/abs/2406.19185)

超越偏好：对比策略梯度如何解锁大语言模型的任意奖励优化

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 已成为将原始大语言模型 (LLM) 转化为有用助手的标准方法。如果你玩过 ChatGPT 或 Llama，那你正在交互的模型很可能就经历过这一过程。 ...

[Contrastive Entity Coreference and Disambiguation for Historical Texts 🔗](https://arxiv.org/abs/2406.15576)

AI 解锁历史：双编码器与困难负样本如何解决历史新闻中的歧义

想象一下，你是一位正在分析 20 世纪 60 年代政治气候的历史学家。你已经数字化了那个时代的数百万页报纸。你想追踪媒体对“约翰·肯尼迪 (John Kennedy)”的报道。 ...

[Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech 🔗](https://arxiv.org/abs/2406.11064)

你能听到我说话吗？利用快慢适应解决 ASR 域偏移问题

引言我们都有过对语音助手感到失望的经历。在安静的客厅里，它们能完美地理解我们。但试着在经过建筑工地或坐在嘈杂的咖啡馆里口述一条信息，系统就会崩溃。 ...

[Contextualized Sequence Likelihood: Enhanced Confidence Scores for Natural Language Generation 🔗](https://arxiv.org/abs/2406.01806)

LLM 的信任危机？注意力机制如何修正置信度评分

引言我们目前正见证着大型语言模型 (LLM) 在各个领域的广泛应用——从编写代码、总结邮件，到诊断疾病和分析财务数据。然而，尽管 LLM 文采斐然，它们却有一个众所周知的可靠性问题: 它们会产生幻觉。它们能像陈述事实一样，带着同样的权威感陈述谬误。 ...

[Context-aware Watermark with Semantic Balanced Green-red Lists for Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.1260.pdf)

打造牢不可破的 AI 水印：一种兼顾鲁棒性与质量的语义方法

在大型语言模型 (LLM) 飞速发展的当下，除了 GPT-4 和 Llama 等工具带来的惊人能力外，一个新的挑战也随之浮现: 溯源。我们如何判断一段文本是由人类编写的，还是由机器生成的？这不仅仅是学术上的好奇，更对剽窃、虚假信息和版权有着深远的影响。 ...

[Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models 🔗](https://arxiv.org/abs/2408.08470)

工欲善其事：利用上下文感知助手选择加速大语言模型

引言我们正处于大语言模型 (LLMs) 的黄金时代。从 GPT-4 到 Llama 3，这些模型充当着推理引擎，能够表现出令人惊叹的类人行为。然而，每一位开发者、学生和研究人员都面临着一个持续存在的瓶颈: 延迟。 ...

[Context-Aware Adapter Tuning for Few-Shot Relation Learning in Knowledge Graphs 🔗](https://arxiv.org/abs/2410.09123)

打破常规：RelAdapter 如何为知识图谱定制小样本学习

知识图谱 (Knowledge Graphs, KGs) 是我们日常使用的许多 AI 应用背后的幕后引擎。从搜索引擎到推荐系统，KG 将现实世界的事实结构化为三元组: (头实体, 关系, 尾实体)。例如，(达·芬奇, 绘制了, 蒙娜丽莎)。 ...

[Consolidating Ranking and Relevance Predictions of Large Language Models through Post-Processing 🔗](https://arxiv.org/abs/2404.11791)

两全其美——如何修正搜索排名中的 LLM 评分

简介大语言模型 (LLM) 彻底改变了我们处理文本的方式，自然而然地，它们也正在重塑信息检索 (IR) 领域。当你搜索某些内容时，你希望最好的结果排在最前面( 排名 )，同时也想知道这些结果实际上有多相关( 相关性预测 )。 ...

[Consistent Autoformalization for Constructing Mathematical Libraries 🔗](https://arxiv.org/abs/2410.04194)

跨越英语与代码的鸿沟——AI如何学习编写形式化数学库

数学常被称为通用语言。但人类在教科书中书写的数学 (非形式化、直观且充满自然语言) 与计算机可验证的数学之间存在显著差异。后者需要形式化 (formalization) , 即将数学概念严谨地转换为定理证明器 (如 Isabelle 或 Lean) 可以执行并检查逻辑有效性的代码。 ...

[Consecutive Batch Model Editing with HooK Layers 🔗](https://arxiv.org/abs/2403.05330)

钩定未来：使用 CoachHooK 掌握 LLM 的连续批量更新

引言想象一下，你有一本内容精彩的百科全书，但它是在 2021 年印刷的。它知道那时的美国总统是谁，但对当前的时事、新的科学发现或书中错误的修正一无所知。这正是我们面对大型语言模型 (LLM) 时所处的困境。它们是互联网在特定时间点的静态快照。 ...

[Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game 🔗](https://aclanthology.org/2024.emnlp-main.1182.pdf)

AI 能在《纽约时报》Connections 游戏中打败你吗？深入探讨大语言模型的抽象推理能力

如果你有一部智能手机，那你大概率熟悉数百万人的晨间仪式: 打开《纽约时报》 (New York Times) 的游戏应用。虽然 Wordle 测试你的词汇量，Sudoku 测试你的逻辑，但有一款游戏总是能在各地的群聊中引发挫败感、喜悦和激烈的讨论: Connections 。 ...

[Conditional and Modal Reasoning in Large Language Models 🔗](https://arxiv.org/abs/2401.17169)

如果 LLM 真那么聪明，为什么会在“可能”和“必须”上翻车？深入解读条件推理

引言我们经常谈论大语言模型 (LLMs) 如何“智能”，能够通过律师资格考试、编写代码并总结历史。但当我们剥离海量的百科知识，审视推理的本质时，它们到底有多聪明？具体来说，它们是否理解支撑人类语言的基础逻辑？ ...

[Concept-skill Transferability-based Data Selection for Large Vision-Language Models 🔗](https://arxiv.org/abs/2406.10995)

COINCIDE：小模型如何教会大模型更好地选择训练数据

像 LLaVA 和 GPT-4V 这样的大型视觉语言模型 (LVLM) 的发展已经彻底改变了机器理解世界的方式。这些模型通常分两个阶段进行训练: 首先是基于图像-字幕对的大规模预训练，其次是视觉指令微调 (Visual Instruction Tuning, VIT) 。第二个阶段至关重要——它教会模型真正听从用户指令、回答问题并对视觉内容进行推理。 ...

[Concept Space Alignment in Multilingual LLMs 🔗](https://arxiv.org/abs/2410.01079)

LLM 是否用一种通用语言思考？解码概念空间对齐

LLM 是否用一种通用语言思考？解码概念空间对齐当你要求像 Llama-2 或 BLOOMZ 这样的多语言大语言模型 (LLM) 将一句话从英语翻译成法语，或者用日语推理一个概念时，其内部究竟发生了什么？ ...

[Computational Meme Understanding: A Survey 🔗](https://aclanthology.org/2024.emnlp-main.1184.pdf)

解码互联网：计算模因理解导论

引言在现代数字环境中，模因 (Meme，俗称“梗”) 的演变早已超越了有趣的猫咪图片或令人感同身受的反应图。它们已成为互联网的一种主要方言——一种复杂的多模态交流形式，能够塑造舆论、传播文化，甚至影响选举结果。例如，在过去的两次美国总统大选中，模因作为协调媒体内容被武器化，用于左右选民。 ...

[Comparing a BERT Classifier and a GPT classifier for Detecting Connective Language Across Multiple Social Media 🔗](https://aclanthology.org/2024.emnlp-main.1067.pdf)

超越毒性检测：教 AI 识别“连接性语言”

引言: 从封锁转向建设——焦点的转移在过去二十年里，自然语言处理 (NLP) 与社交媒体的交叉研究主要集中在一种数字形式的“废物管理”上。研究人员和工程师们构建了复杂的分类器来检测并移除“垃圾”——仇恨言论、毒性内容、虚假信息和垃圾邮件。虽然这项工作对数字卫生至关重要，但它代表了对在线话语一种略显片面的看法。我们花费了大量精力教机器人类不应该说什么，却很少花时间教它们健康的交流实际上是什么样子的。 ...

[Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval 🔗](https://arxiv.org/abs/2405.12801)

打破速度与精度的权衡：CMC 如何实现搜索候选项的上下文交互

在信息检索 (IR) 和自然语言处理 (NLP) 的世界里，我们一直在平衡两股对立的力量: 速度与精度。当你在搜索引擎或聊天机器人中输入查询时，你期望在几毫秒内得到答案。为了实现这一点，系统依赖于快速、轻量级的模型。然而，你也期望答案是完全相关的。实现高相关性通常需要沉重、复杂的模型来深度“阅读”每一个候选文档。 ...