EMNLP 2024

[DEM: Distribution Edited Model for Training with Mixed Data Distributions 🔗](https://arxiv.org/abs/2406.15570)

停止混合数据：为什么编辑模型权重是多任务 LLM 的未来

如果你曾尝试过训练一个“全能”的大型语言模型 (LLM) ，你就知道这有多么艰难。你想要一个既能解数学题，又能写 Python 代码，还能随意聊天并进行逻辑推理的模型。 ...

[DEFT-UCS: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection for Text-Editing 🔗](https://aclanthology.org/2024.emnlp-main.1132.pdf)

少即是多：DEFT-UCS 如何用少 70% 的数据微调大语言模型

引言在当前的人工智能领域，“越大越好”往往是人们的信条。我们构建更大的模型，并投喂海量的数据。例如，微调像 Alpaca 这样的模型需要 5.2 万条指令样本；像 MetaMath 这样的数学推理模型则使用了近 40 万条样本。 ...

[Decor: Improving Coherence in L2 English Writing with a Novel Benchmark for Incoherence Detection, Reasoning, and Rewriting 🔗](https://arxiv.org/abs/2406.19650)

超越语法：利用 DECOR 教 AI 修正学生写作中的连贯性问题

引言试想一下，你正在阅读一篇作文，里面的每一个句子在语法上都完美无缺，但这整段话读起来却让人一头雾水。观点跳跃不定，代词似乎指代不明，论证缺乏逻辑流畅性。这就是连贯性 (Coherence) 的缺失。 ...

[DC-Instruct: An Effective Framework for Generative Multi-intent Spoken Language Understanding 🔗](https://aclanthology.org/2024.emnlp-main.804.pdf)

DC-Instruct 如何教导 LLM 在多意图口语理解中进行推理

在快节奏的对话式人工智能世界中，系统理解人类语言的能力至关重要。当我们与 Siri、Alexa 或客户服务机器人等数字助理交谈时，我们要么很少使用简单的单一指令。我们往往会组合请求、增加限制条件并在句中切换上下文。对于机器来说，将“预订去纽约的航班”与“预订去纽约的航班，并帮我在机场附近找一家酒店”区分开来，涉及复杂的推理。 ...

[DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination 🔗](https://arxiv.org/abs/2410.04514)

修复视觉语言幻觉：深度探究注意力机制 (DAMRO)

在快速发展的人工智能领域，大型视觉语言模型 (LVLM) 如 LLaVA 和 InstructBLIP 已成为超级明星。它们能够观察图像、理解内容，并用流畅的自然语言进行描述。如果你让它们描述一个厨房，它们会告诉你关于冰箱、炉灶和果盘的信息。 ...

[DA³: A Distribution-Aware Adversarial Attack against Language Models 🔗](https://aclanthology.org/2024.emnlp-main.107.pdf)

隐形攻击者：DA³ 如何生成难以检测的对抗样本

语言模型 (LMs) 已经无处不在，从客户服务聊天机器人到代码生成工具，它们为各种应用提供动力。然而，尽管能力惊人，它们却有一个显著的弱点: 对抗攻击 (adversarial attacks) 。通过对输入句子进行细微的更改——这些更改通常是人类难以察觉的——攻击者可以诱骗模型做出完全错误的预测。 ...

[DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models 🔗](https://arxiv.org/abs/2410.07331)

AI 能成为你的数据科学家吗？深入解析 DA-Code 基准测试

数据科学家的角色常被戏称为“21世纪最性感的职业”。它需要一种独特的技能组合: 统计学知识、编程能力 (通常是 Python 或 SQL) 、商业敏锐度，以及将混乱的非结构化数据整理成可操作洞察的能力。 ...

[D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation 🔗](https://arxiv.org/abs/2404.10857)

超越多数票原则：文化与道德如何塑造我们对冒犯性的认知

想象一下，你正刷着社交媒体，看到一条关于敏感政治话题的评论。你可能会耸耸肩，觉得这不过是个无伤大雅的观点。然而，你的朋友可能会觉得它极具冒犯性。现在，再想象一下，第三个人正在开罗的咖啡馆、东京的地铁或圣保罗的客厅里阅读同一条评论。 ...

[Curriculum Consistency Learning for Conditional Sentence Generation 🔗](https://aclanthology.org/2024.emnlp-main.768.pdf)

攻克难题：课程一致性学习如何优化AI训练

引言在人类教育的世界里，我们不会教幼儿园的孩子微积分。我们遵循课程 (Curriculum) : 一种结构化的路径，从简单的概念开始，随着学生熟练程度的提高逐渐引入复杂性。这种方法确保学习者在解决难题之前建立坚实的基础。 ...

[Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting 🔗](https://arxiv.org/abs/2406.11661)

你的 LLM 是有文化偏见还是单纯困惑？AI 提示中的安慰剂效应

你的 LLM 是有文化偏见还是单纯困惑？AI 提示中的安慰剂效应大型语言模型 (LLM) 是现代互联网的引擎，但它们有一个众所周知的问题: 它们倾向于透过西方、盎格鲁中心的视角来看待世界。如果你让一个 LLM 评判某种社交场合或写一个故事，它通常会默认采用美国或欧洲的规范。 ...

[CryptoTrade: A Reflective LLM-based Agent to Guide Zero-shot Cryptocurrency Trading 🔗](https://aclanthology.org/2024.emnlp-main.63.pdf)

LLM 能战胜加密市场吗？深入解析 CryptoTrade 智能体

加密货币世界通常被形容为金融界的“狂野西部”。它的特点是极端波动、全天候的新闻周期，以及被称为“链上数据”的独特透明层。对于研究人员和交易员来说，圣杯一直是如何预测这些市场走势。 ...

[Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages 🔗](https://arxiv.org/abs/2410.03197)

打破语言障碍：QuIST 如何教 AI 用任何语言提问

引言在自然语言处理 (NLP) 飞速发展的今天，我们往往认为数据的丰富性是理所当然的——尤其是对于英语而言。如果你想训练一个聊天机器人来回答有关英语历史、科学或流行文化的问题，你可以利用 SQuAD 或 HotpotQA 这样的大型数据集。但是，如果你想为斯瓦希里语、芬兰语或孟加拉语构建同样的系统，会发生什么呢？ ...

[Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing 🔗](https://arxiv.org/abs/2410.00513)

利用跨语言反向解析打破语义解析的语言障碍

想象一下，你构建了一个复杂的 AI 助手，它能够查询复杂的数据库。当你问它: “告诉我距离 Melania 最近的酒店”时，它会将你的英文请求转换成精确的数据库查询语句 (如 SQL) 并检索答案。这项技术被称为语义解析 (Semantic Parsing, SP) 。 ...

[Cross-domain NER with Generated Task-Oriented Knowledge: An Empirical Study from Information Density Perspective 🔗](https://aclanthology.org/2024.emnlp-main.95.pdf)

教模型学会推理：LLM 生成的知识如何解决跨域 NER 问题

教模型学会推理: LLM 生成的知识如何解决跨域 NER 问题想象一下，你训练了一个聪明的助手，让他阅读《纽约时报》并高亮标出政治家和公司的名字。他们对此非常擅长。然后，你递给他们一篇关于量子物理的技术论文，或者一个关于 K-Pop 的粉丝论坛，要求他们做同样的事情。突然间，他们不知所措了。“‘叠加态 (superposition) ’是一个地点吗？‘BTS’是一个组织还是一场运动？” ...

[Cross-Domain Audio Deepfake Detection: Dataset and Analysis 🔗](https://arxiv.org/abs/2404.04904)

我们能相信自己的耳朵吗？对抗零样本音频 Deepfake 的新浪潮

引言想象一下，你收到家人的语音留言寻求帮助，或者在一个社交媒体片段中听到政治人物宣战。这个声音听起来无比真实——语调、音色、甚至呼吸声都完美无缺。但这一切都是假的。 ...

[Crafting Personalized Agents through Retrieval-Augmented Generation on Editability Memory Graphs 🔗](https://arxiv.org/abs/2409.19401)

为 AI 助手打造“大脑”：深入解析 EMG-RAG

想象一下，如果有一个真正了解你的 AI 助手。不是那种只知道你名字的助手，而是记得你老板下周要飞往阿姆斯特丹、记得你偏好靠过道座位，并且当航班时间变更时会自动更新你日历的助手。 ...

[CoverICL: Selective Annotation for In-Context Learning via Active Graph Coverage 🔗](https://aclanthology.org/2024.emnlp-main.1185.pdf)

如何选择完美的少样本示例：深入剖析 CoverICL

大型语言模型 (LLMs) 彻底改变了我们处理自然语言处理 (NLP) 的方式。其中最强大的功能之一就是上下文学习 (In-Context Learning, ICL) 。你不再需要微调模型的数十亿个参数——这既昂贵又计算量大——只需在提示 (prompt) 中提供几个任务示例即可。例如，要教模型进行情感分类，你可以在要求它分类新评论之前，先提供三个带有标签的电影评论示例。 ...

[CorrSynth - A Correlated Sampling Method for Diverse Dataset Generation from LLMs 🔗](https://arxiv.org/abs/2411.08553)

解决合成数据的多样性危机：深入剖析 CorrSynth

大语言模型 (LLMs) 的时代彻底改变了我们进行机器学习的方式。我们已经从一个“匮乏思维”——即标注数据昂贵且稀缺的时代，迈入了一个“富足思维”的时代——像 GPT-4 或 Mixtal 这样的模型可以生成无限量的文本。这催生了知识蒸馏 (Knowledge Distillation) 的兴起: 利用一个庞大的“教师”LLM 生成合成数据集，然后用这些数据来训练针对特定任务的更小、更高效的“学生”模型 (如 BERT 或 DistilBERT) 。 ...

[COPYBENCH: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation 🔗](https://arxiv.org/abs/2407.07087)

超越逐字逐句：揭示 LLM 如何复制情节与角色

引言在生成式 AI 飞速发展的格局中，一场关于版权的重大法律和道德风暴正在酝酿。我们知道，大语言模型 (LLM) 是在海量数据集上训练出来的，其中包括受版权保护的书籍、文章和创意写作。对于研究人员、律师和内容创作者来说，一个核心问题是: 这些模型在多大程度上再现了受保护的内容? ...

[Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment 🔗](https://arxiv.org/abs/2402.19085)

驯服对齐税：可控偏好优化如何平衡有用性、诚实性和无害性

驯服对齐税: 可控偏好优化如何平衡有用性、诚实性和无害性如果你广泛使用过大型语言模型 (LLMs) ，你很可能遇到过“拒绝”现象。当你向模型请教一个复杂的话题时——也许是严格的事实性问题但稍微有点敏感——它会礼貌地拒绝，或者给出一个被稀释的、过度谨慎的回答。这通常是安全对齐的结果。 ...