EMNLP 2024

[Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach 🔗](https://arxiv.org/abs/2410.00025)

我们能教会 AI 像人类一样倾听吗？音素微调的力量

引言: AI 面临的“鸡尾酒会”问题想象一下你正身处一个嘈杂、拥挤的派对中。你的朋友正在给你讲故事。尽管有背景音乐、玻璃杯的碰撞声以及周围此起彼伏的交谈声，你依然能完美地理解你朋友在说什么。你可以剥离噪音，忽略他们声音的特定音高，完全专注于词语及其含义。 ...

[Improving Multi-party Dialogue Generation via Topic and Rhetorical Coherence 🔗](https://aclanthology.org/2024.emnlp-main.189.pdf)

驯服群聊：强化学习如何增强多方对话 AI 的连贯性

如果你曾参与过 WhatsApp 或 Slack 上繁忙的群聊，你就知道那是怎样的混乱。多个对话同时发生。有人在回答五分钟前的问题，而另外两个人正在争论午餐吃什么。弄清楚谁在对谁说话——更重要的是，他们在说什么——对人类来说也是一项巨大的认知任务。 ...

[Improving Minimum Bayes Risk Decoding with Multi-Prompt 🔗](https://arxiv.org/abs/2407.15343)

超越完美提示词：多提示词 MBR 解码如何释放 LLM 潜能

引言如果你花过时间研究大型语言模型 (LLM) ，你可能遇到过“提示词脆弱性” (prompt brittleness) 带来的挫败感。你花了几个小时打磨出完美的指令，结果发现只是改了一个形容词或调整了示例的顺序，输出结果就发生了翻天覆地的变化。这种敏感性通常被视为一种缺陷，迫使工程师们为了解决特定任务而苦苦寻觅那唯一的“魔法提示词”。 ...

[Improving Knowledge Graph Completion with Structure-Aware Supervised Contrastive Learning 🔗](https://aclanthology.org/2024.emnlp-main.772.pdf)

超越三元组：StructKGC 如何教会语言模型“看”图

知识图谱 (Knowledge Graphs, KGs) 是现代网络大部分功能背后的无声引擎。从谷歌的 Knowledge Vault 到 Wikidata，这些庞大的网络以三元组的形式存储事实: (头实体，关系，尾实体)。例如，(达芬奇，绘制了，蒙娜丽莎)。 ...

[Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning 🔗](https://aclanthology.org/2024.emnlp-main.852.pdf)

磨砺裁判——对比学习如何修复RLHF中的奖励模型

引言在当今的生成式AI时代，训练一个大语言模型 (LLM) 说一口流利的英语实际上已是一个被解决的问题。前沿领域已经从能力转向了对齐。我们不仅希望模型能写作；我们希望模型的写作符合人类的价值观——即做到有益、无害且诚实 (HHH) 。 ...

[Improve Student's Reasoning Generalizability through Cascading Decomposed CoTs Distillation 🔗](https://arxiv.org/abs/2405.19842)

拒绝走捷径：CasCoD 如何教会小模型像巨人一样思考

在人工智能快速发展的世界里，我们在模型规模上正见证着一场“适者生存”的演变。像 GPT-4 这样的大型语言模型 (LLMs) 拥有被称为思维链 (Chain-of-Thought, CoT) 推理的涌现能力。它们不会直接跳到答案，而是将复杂问题分解为中间步骤，就像人类在数学考试中展示解题过程一样。 ...

[Improve Dense Passage Retrieval with Entailment Tuning 🔗](https://arxiv.org/abs/2410.15801)

教检索器学逻辑：蕴涵微调如何解决 RAG 中的相关性差距

教检索器学逻辑: 蕴涵微调如何解决 RAG 中的相关性差距如果你曾经构建过检索增强生成 (RAG) 系统或开放域问答 (QA) 机器人，你很可能遇到过一个令人沮丧的现象: “关键词陷阱”。你向系统提一个具体问题，比如“谁是第一个踏上月球的人？”检索器进入向量数据库并取出一个段落。但它没有取出关于尼尔·阿姆斯特朗历史性的一步的文章，而是检索到了一篇传记，上面写着: “尼尔·阿姆斯特朗小时候喜欢看月亮。” ...

[Impeding LLM-assisted Cheating in Introductory Programming Assignments via Adversarial Perturbation 🔗](https://arxiv.org/abs/2410.09318)

我们要搞垮 ChatGPT 吗？利用对抗性攻击防止 CS 课堂上的 AI 作弊

引言 ChatGPT 和 GitHub Copilot 等大型语言模型 (LLMs) 的迅速崛起，从根本上改变了软件开发的格局。对于专业开发人员来说，这些工具是强大的生产力助推器。然而，对于计算机科学教育工作者来说，它们代表着一场迫在眉睫的危机。 ...

[Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective 🔗](https://arxiv.org/abs/2407.02814)

揭开视觉语言模型中的偏见：为何图片才是真正的罪魁祸首

引言在人工智能飞速发展的版图中，视觉语言模型 (Vision-Language Models, VLMs) 已然成为超级明星。像 CLIP 或 GLIP 这样的模型可以看图说话，或者阅读文字描述并在图片中找到对应的物体。它们是强大的工具，是在互联网上抓取的海量图像-文本对数据集上预训练出来的。 ...

[ImageInWords: Unlocking Hyper-Detailed Image Descriptions 🔗](https://arxiv.org/abs/2405.02793)

超越 Alt 文本：利用 ImageInWords 教 AI 看清每一个细节

引言俗话说，“一图胜千言”。然而，如果我们看看目前训练人工智能理解图像的方式，现实情况更接近于“一图仅值寥寥数语”。最先进的视觉语言模型 (VLMs) ——那些负责理解照片和生成艺术作品的 AI 系统——主要是在从网络上抓取的数据集上训练的。这些数据集依赖于“Alt 文本 (替代文本) ”，即隐藏在网站代码中简短且通常以 SEO 为导向的标题。虽然有一定帮助，但 Alt 文本很少具有描述性。它可能会说“Canon EOS R6” (相机元数据) 或“Europe vacation” (欧洲假期，位置) ，但很少详细描述视觉场景、光线、纹理或空间关系。 ...

[If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions 🔗](https://arxiv.org/abs/2403.16442)

如果 CLIP 能说话：揭秘视觉模型的秘密语言

当你向 CLIP 这样的现代 AI 模型展示一张金毛寻回犬的照片，并且它正确地将其识别为“狗”时，我们很容易对它是如何做到这一点的做出假设。我们自然而然地认为模型“看到”了耷拉的耳朵、金色的皮毛和口鼻部。我们假设它将图像的视觉特征与“狗”这个词固有的视觉描述进行了匹配。 ...

[IM-BERT: Enhancing Robustness of BERT through the Implicit Euler Method 🔗](https://arxiv.org/abs/2505.06889)

微积分的救援：常微分方程如何让 BERT 对对抗性攻击免疫

如果你曾经在小数据集上微调过像 BERT 这样的大型语言模型 (LLM) ，你可能遇到过一种熟悉的挫败感: 过拟合。模型完美地记住了训练数据，但在遇到稍微不同的内容时就会崩溃。 ...

[IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning 🔗](https://arxiv.org/abs/2409.18046)

跨越模态鸿沟：IFCap 如何在不看图的情况下掌握零样本图像描述

图像描述 (Image captioning) ——即教计算机描述它们所看到的内容——传统上依赖于成对图像和文本的海量数据集。你给模型看一张猫的照片，提供文本“一只猫坐在垫子上”，然后重复数百万次。虽然这种方法很有效，但它昂贵且计算繁重。 ...

[IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding 🔗](https://arxiv.org/abs/2409.19627)

大海捞针：IDEAW 如何彻底变革神经音频水印技术

在数字时代，音频无处不在。从病毒式的 TikTok 音效到受版权保护的音乐曲目，再到 AI 生成的配音，音频文件的共享、混音以及不幸的被盗用现象正以前所未有的速度发生。这就引出了一个至关重要的概念: 数字水印 (Digital Watermarking) 。 ...

[I-AM-G: Interest Multimodal Generator for Item Personalization 🔗](https://aclanthology.org/2024.emnlp-main.1187.pdf)

从千篇一律到量身定制：I-AM-G 如何利用多模态 AI 实现内容个性化

引言想象一下，你登录了一个电影流媒体平台。你非常喜欢冒险电影——那种肾上腺素飙升的感觉、广阔的风景和英雄的旅程。而你的朋友则喜欢动画片——鲜艳的色彩、异想天开的角色和夸张的表情。 ...

[I love pineapple on pizza != I hate pineapple on pizza: Stance-Aware Sentence Transformers for Opinion Mining 🔗](https://aclanthology.org/2024.emnlp-main.1171.pdf)

为何你的 AI 认为“我爱披萨”和“我恨披萨”是一回事（以及如何修复它）

引言想象一下，你正在构建一个系统来分析社交媒体上的辩论。你想把那些喜欢披萨上放菠萝的人与那些认为这是一种烹饪犯罪的人区分开来。你将两句话输入到一个标准的、最先进的 AI 模型中: ...

[I Need Help! Evaluating LLM’s Ability to Ask for Users’ Support: A Case Study on Text-to-SQL Generation 🔗](https://arxiv.org/abs/2407.14767)

AI 能够承认错误吗？教大语言模型寻求帮助

这一代的大语言模型 (LLM) 令人印象深刻。它们可以写诗、调试代码，还能总结复杂的历史事件。然而，任何深度使用过 ChatGPT 或 Claude 等工具的人都知道，它们存在一个特定且顽固的缺陷: 过度自信。 ...

[I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses 🔗](https://arxiv.org/abs/2402.11192)

如果以我的语言交流，我学得更好：为什么在 LLM 训练中合成数据优于人类黄金标准数据

在大型语言模型 (LLM) 飞速发展的世界中，存在一个被广泛接受的数据质量层级。位于顶端的是人类标注数据——即由专家精心制作的“黄金标准”。位于其下的是由模型生成的合成数据，通常被视为在人类数据稀缺时一种有用但稍显逊色的替代品。 ...

[I Could've Asked That: Reformulating Unanswerable Questions 🔗](https://aclanthology.org/2024.emnlp-main.242.pdf)

超越“我不知道”：教 AI 修正我们无法回答的问题

引言想象一下，你正在阅读一份晦涩难懂的法律合同或一本复杂的医学期刊。你不是这方面的专家，所以你求助于 AI 助手——比如 ChatGPT 或专门的文档阅读器——来帮助你理解。基于你有限的理解，你问了一个问题: “如果租客粉刷墙壁，会有什么惩罚？” ...

[Humans or LLMs as the Judge? A Study on Judgement Bias 🔗](https://aclanthology.org/2024.emnlp-main.474.pdf)

谁来监督守望者？揭开人类与 AI 评审员的偏见

像 GPT-4、Claude 和 Gemini 这样的大型语言模型 (LLM) 的爆发，为我们带来了惊人的自然语言处理能力。但伴随着强大能力而来的是一个棘手的问题: 我们如何知道这些模型是否真的表现良好? ...