EMNLP 2024

[Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping 🔗](https://aclanthology.org/2024.emnlp-main.263.pdf)

边爬边建梯子：自举策略学习如何解决高难度对话任务

引言想象一下，你正试着教计算机如何处理复杂的客服通话——例如，预订多程航班，同时预订酒店并购买当地景点的门票。在人工智能领域，特别是任务导向型对话 (Task-Oriented Dialogue, ToD) 系统中，这是一个巨大的挑战。 ...

[Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models? 🔗](https://arxiv.org/abs/2406.11375)

AI 能教 AI 吗？利用类比提升语言模型的科学理解能力

引言想象一下，试图向一个从未上过物理课的人解释原子的结构。你可以背诵关于质子、中子和电子层的教科书定义。或者，你可以说: “原子就像一个太阳系。原子核是中心的太阳，而电子是绕其运行的行星。” ...

[Boosting Logical Fallacy Reasoning in LLMs via Logical Structure Tree 🔗](https://arxiv.org/abs/2410.12048)

揭开错误逻辑的面纱——结构树如何帮助大语言模型检测谬误

引言在信息过载的时代，区分合理的论点和欺骗性的论点比以往任何时候都更加重要。我们要经常依靠大语言模型 (LLMs) 来总结新闻、分析辩论或核实事实。然而，尽管 LLM 在生成文本方面非常流利，但它们经常难以处理逻辑推理的细微差别。它们很容易被那些听起来连贯但结构上有缺陷的论点所左右。 ...

[BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering 🔗](https://arxiv.org/abs/2402.11129)

超越简单 RAG：利用 BlendFilter 驾驭复杂查询

大语言模型 (LLM) 彻底改变了我们处理信息的方式，在摘要、对话和问答方面充当了强有力的助手。然而，任何深度使用过它们的人都知道它们的软肋: 它们并不是无所不知的。它们的知识被冻结在训练的那一刻，而且它们可能会自信地产生错误事实的“幻觉”。 ...

[Birdie: Advancing State Space Language Modeling with Dynamic Mixtures of Training Objectives 🔗](https://aclanthology.org/2024.emnlp-main.541.pdf)

教状态空间模型去记忆：'Birdie' 如何缩小与 Transformer 的检索差距

引言在当前的自然语言处理 (NLP) 领域，Transformer 架构占据着统治地位。从 ChatGPT 到 Llama，自注意力机制 (Self-attention) 解锁了惊人的生成与推理能力。然而，这种能力伴随着巨大的计算成本。注意力机制随序列长度呈二次方增长，且键值 (KV) 缓存呈线性增长，这使得处理海量上下文在训练和部署时的成本日益昂贵。 ...

[Bio-RFX: Refining Biomedical Extraction via Advanced Relation Classification and Structural Constraints 🔗](https://aclanthology.org/2024.emnlp-main.588.pdf)

AI 读医学期刊比我们更强吗？深入解读 Bio-RFX

引言生物医学文献的发表速度惊人。每天都有成千上万篇新论文发布，详细介绍最新的药物相互作用、基因发现和疾病机制。对于研究人员和临床医生来说，跟上这股信息洪流几乎是不可能的。然而，隐藏在这些非结构化文本中的，正是通往新疗法和治愈方法的关键。 ...

[BiasWipe: Mitigating Unintended Bias in Text Classifiers through Model Interpretability 🔗](https://aclanthology.org/2024.emnlp-main.1172.pdf)

BiasWipe：如何在无需重新训练的情况下精准剔除 LLM 中的偏见

引言在社交媒体时代，自动化内容审核已不仅仅是一种奢侈品，而是一种必需品。各大平台依靠复杂的人工智能模型来过滤有毒言论、骚扰和仇恨言论，以维护网络社区的安全。然而，这些数字安全的守护者自身却存在一个隐形缺陷: 它们往往带有偏见。 ...

[BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs 🔗](https://arxiv.org/abs/2407.10241)

AI 能自我监管吗？深入解析 BiasAlert：一种检测 LLM 社会偏见的新框架

像 GPT-4 和 Llama-2 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。它们帮我们起草邮件、调试代码，并回答我们最复杂的问题。然而，这些模型是其训练数据的镜像——而这些反映互联网的数据，不幸地包含了历史偏见、刻板印象和社会歧视。 ...

[Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models 🔗](https://arxiv.org/abs/2406.15718)

打破沉默：全双工模型如何终结回合制 AI 聊天

你有没有尝试过打断语音助手？通常情况是这样的: 你问了一个问题，说到一半意识到自己说错了，但 AI 忽略了你的更正，继续处理你的第一个请求。你不得不等它说完长长的独白，或者疯狂地点击“停止”按钮，才能再次尝试。 ...

[Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents 🔗](https://arxiv.org/abs/2409.15594)

打破沉默：SyncLLM 如何教会 AI 同时打断、倾听和说话

引言: “对讲机”难题如果你曾与 Alexa、Siri 或当前版本的 ChatGPT Voice 等语音助手对话过，你就体验过一种“半双工”交互。就像使用对讲机一样，这种协议是死板的: 你说话，你停止，机器检测到沉默，处理你的请求，最后做出回应。 ...

[Beyond Reference: Evaluating High Quality Translations Better than Human References 🔗](https://aclanthology.org/2024.emnlp-main.294.pdf)

当机器战胜大师：用 RESUME 修正翻译指标中的参考偏差

在机器翻译 (Machine Translation, MT) 领域，我们已经到达了一个迷人的转折点。几十年来，翻译系统的目标一直是匹敌人类的表现。如今，随着像 GPT-4 这样的大型语言模型 (LLMs) 的出现，机器生成的翻译质量往往超越了人类编写的参考译文。 ...

[Beyond Label Attention: Transparency in Language Models for Automated Medical Coding via Dictionary Learning 🔗](https://arxiv.org/abs/2411.00173)

解码黑盒：字典学习如何让医疗 AI 变得透明

在医疗保健这个高风险领域，人工智能正迅速成为不可或缺的工具。医疗领域最关键的后台任务之一是医疗编码——即把非结构化的临床文本 (如医生笔记) 转化为标准化的国际疾病分类 (ICD) 代码。这些代码对于计费、流行病学研究和治疗跟踪至关重要。 ...

[Beyond Embeddings: The Promise of Visual Table in Visual Reasoning 🔗](https://arxiv.org/abs/2403.18252)

视觉表：教 AI 像阅读数据库一样“阅读”图像

引言想象一下，给 AI 展示一张 5 美元纸币的图片。标准的计算机视觉模型会观察像素并识别模式: 它看到了纸张、人脸和数字。它可以告诉你“这是一张钞票”。但是，如果你问: “画像中的人是谁？他带领国家经历了哪一特定的历史事件？” ...

[Beyond Correlation: Interpretable Evaluation of Machine Translation Metric 🔗](https://arxiv.org/abs/2410.05183)

解读评分：一种可解释的机器翻译评估新框架

引言在机器翻译 (MT) 领域，我们见证了评估指标从基于启发式的 (如 BLEU) 到基于神经网络的 (如 COMET 和 MetricX) 的巨大转变。这些较新的模型在与人类判断的一致性方面表现得更好。然而，它们带来了一个“黑盒”问题。 ...

[Benchmarking Vision Language Models for Cultural Understanding 🔗](https://arxiv.org/abs/2407.10920)

AI 能理解文化吗？深入解析 CulturalVQA 基准测试

引言近年来，多模态视觉-语言模型 (VLMs) ，如 GPT-4V 和 Gemini，在图像解读方面展示了惊人的能力。它们可以识别物体、读取照片中的文字，并描述复杂的场景。然而，识别一场“婚礼”是一回事；理解印度农村的婚礼与埃塞俄比亚的婚礼之间在具体仪式、服饰和传统上的差异，则完全是另一项挑战。 ...

[Belief Revision: The Adaptability of Large Language Models Reasoning 🔗](https://arxiv.org/abs/2406.19764)

AI 能改变主意吗？探索大型语言模型中的信念修正

想象一下，有人告诉你“翠儿 (Tweety) 是一只鸟”。根据你的常识，你逻辑地推断出“翠儿会飞”。但片刻之后，你收到了一个新的信息: “翠儿是一只企鹅”。你的大脑里发生了什么？你立即修正了你的信念。你撤回了翠儿会飞的结论，但你保留了它是一只鸟的前提。你刚刚完成了信念修正 (Belief Revision) ——这是一种当新证据与你之前认为的事实相矛盾或提供新语境时，更新你认知的认知能力。 ...

[Be Helpful but Don't Talk too Much - Enhancing Helpfulness in Conversations through Relevance in Multi-Turn Emotional Support 🔗](https://aclanthology.org/2024.emnlp-main.118.pdf)

AI 疗法的金发姑娘原则：在有益性与认知负荷之间取得平衡

想象一下，你度过了糟糕的一天。你向一位朋友倾诉你的压力。作为回应，他们只回复了一个词: “好的。”你会感到被忽视和冷漠。现在，想象相反的场景。你分享了你的问题，而同一位朋友回应了一段长达十分钟、令人窒息的独白，分析你处境的每一个微小因素，引用历史先例，并同时提供十五种不同的解决方案路径。你会感到不知所措。这不但没有让你感到被支持，反而让你筋疲力尽。 ...

[Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities 🔗](https://arxiv.org/abs/2404.14716)

反转剧本：贝叶斯逆向推理如何增强上下文学习

引言在人工智能飞速发展的世界里，大语言模型 (LLMs) 以快速学习者的身份赢得了声誉。具体来说，它们擅长上下文学习 (In-Context Learning, ICL) 。这是一种仅仅通过在提示词中查看几个示例就能适应新任务的能力，而无需对模型的权重进行任何更新。 ...

[Bayesian Calibration of Win Rate Estimation with LLM Evaluators 🔗](https://arxiv.org/abs/2411.04424)

审视裁判——贝叶斯统计如何修正 LLM 评估

审视裁判: 贝叶斯统计如何修正 LLM 评估如果你玩过 ChatGPT、Claude 或 Llama，你就会知道评估这些模型是很棘手的。与数学测试不同，写诗、总结新闻文章或聊哲学并没有唯一的“正确”答案。 ...

[BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting 🔗](https://aclanthology.org/2024.emnlp-main.877.pdf)

愿者上钩：'BaitAttack' 如何诱导大语言模型打破自身规则

随着 GPT-4 和 Llama-2 等大语言模型 (LLMs) 的迅速普及，安全对齐与对抗性攻击之间的“军备竞赛”也在持续升级。我们知道 LLMs 被训练为拒绝有害指令——如果你问模型“我该如何制造炸弹？”，它会礼貌地拒绝。这就是“越狱” (jailbreak) 问题: 寻找绕过这些安全过滤器的方法。 ...