[Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping 🔗](https://aclanthology.org/2024.emnlp-main.263.pdf)

边爬边建梯子:自举策略学习如何解决高难度对话任务

引言 想象一下,你正试着教计算机如何处理复杂的客服通话——例如,预订多程航班,同时预订酒店并购买当地景点的门票。在人工智能领域,特别是任务导向型对话 (Task-Oriented Dialogue, ToD) 系统中,这是一个巨大的挑战。 ...

7 分钟 · 3403 字
[Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models? 🔗](https://arxiv.org/abs/2406.11375)

AI 能教 AI 吗?利用类比提升语言模型的科学理解能力

引言 想象一下,试图向一个从未上过物理课的人解释原子的结构。你可以背诵关于质子、中子和电子层的教科书定义。或者,你可以说: “原子就像一个太阳系。原子核是中心的太阳,而电子是绕其运行的行星。” ...

2024-06 · 7 分钟 · 3174 字
[Boosting Logical Fallacy Reasoning in LLMs via Logical Structure Tree 🔗](https://arxiv.org/abs/2410.12048)

揭开错误逻辑的面纱——结构树如何帮助大语言模型检测谬误

引言 在信息过载的时代,区分合理的论点和欺骗性的论点比以往任何时候都更加重要。我们要经常依靠大语言模型 (LLMs) 来总结新闻、分析辩论或核实事实。然而,尽管 LLM 在生成文本方面非常流利,但它们经常难以处理逻辑推理的细微差别。它们很容易被那些听起来连贯但结构上有缺陷的论点所左右。 ...

2024-10 · 7 分钟 · 3305 字
[BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering 🔗](https://arxiv.org/abs/2402.11129)

超越简单 RAG:利用 BlendFilter 驾驭复杂查询

大语言模型 (LLM) 彻底改变了我们处理信息的方式,在摘要、对话和问答方面充当了强有力的助手。然而,任何深度使用过它们的人都知道它们的软肋: 它们并不是无所不知的。它们的知识被冻结在训练的那一刻,而且它们可能会自信地产生错误事实的“幻觉”。 ...

2024-02 · 7 分钟 · 3159 字
[Birdie: Advancing State Space Language Modeling with Dynamic Mixtures of Training Objectives 🔗](https://aclanthology.org/2024.emnlp-main.541.pdf)

教状态空间模型去记忆:'Birdie' 如何缩小与 Transformer 的检索差距

引言 在当前的自然语言处理 (NLP) 领域,Transformer 架构占据着统治地位。从 ChatGPT 到 Llama,自注意力机制 (Self-attention) 解锁了惊人的生成与推理能力。然而,这种能力伴随着巨大的计算成本。注意力机制随序列长度呈二次方增长,且键值 (KV) 缓存呈线性增长,这使得处理海量上下文在训练和部署时的成本日益昂贵。 ...

7 分钟 · 3050 字
[Bio-RFX: Refining Biomedical Extraction via Advanced Relation Classification and Structural Constraints 🔗](https://aclanthology.org/2024.emnlp-main.588.pdf)

AI 读医学期刊比我们更强吗?深入解读 Bio-RFX

引言 生物医学文献的发表速度惊人。每天都有成千上万篇新论文发布,详细介绍最新的药物相互作用、基因发现和疾病机制。对于研究人员和临床医生来说,跟上这股信息洪流几乎是不可能的。然而,隐藏在这些非结构化文本中的,正是通往新疗法和治愈方法的关键。 ...

7 分钟 · 3202 字
[BiasWipe: Mitigating Unintended Bias in Text Classifiers through Model Interpretability 🔗](https://aclanthology.org/2024.emnlp-main.1172.pdf)

BiasWipe:如何在无需重新训练的情况下精准剔除 LLM 中的偏见

引言 在社交媒体时代,自动化内容审核已不仅仅是一种奢侈品,而是一种必需品。各大平台依靠复杂的人工智能模型来过滤有毒言论、骚扰和仇恨言论,以维护网络社区的安全。然而,这些数字安全的守护者自身却存在一个隐形缺陷: 它们往往带有偏见。 ...

7 分钟 · 3156 字
[BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs 🔗](https://arxiv.org/abs/2407.10241)

AI 能自我监管吗?深入解析 BiasAlert:一种检测 LLM 社会偏见的新框架

像 GPT-4 和 Llama-2 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。它们帮我们起草邮件、调试代码,并回答我们最复杂的问题。然而,这些模型是其训练数据的镜像——而这些反映互联网的数据,不幸地包含了历史偏见、刻板印象和社会歧视。 ...

2024-07 · 7 分钟 · 3137 字
[Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models 🔗](https://arxiv.org/abs/2406.15718)

打破沉默:全双工模型如何终结回合制 AI 聊天

你有没有尝试过打断语音助手?通常情况是这样的: 你问了一个问题,说到一半意识到自己说错了,但 AI 忽略了你的更正,继续处理你的第一个请求。你不得不等它说完长长的独白,或者疯狂地点击“停止”按钮,才能再次尝试。 ...

2024-06 · 6 分钟 · 2652 字
[Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents 🔗](https://arxiv.org/abs/2409.15594)

打破沉默:SyncLLM 如何教会 AI 同时打断、倾听和说话

引言: “对讲机”难题 如果你曾与 Alexa、Siri 或当前版本的 ChatGPT Voice 等语音助手对话过,你就体验过一种“半双工”交互。就像使用对讲机一样,这种协议是死板的: 你说话,你停止,机器检测到沉默,处理你的请求,最后做出回应。 ...

2024-09 · 7 分钟 · 3185 字
[Beyond Reference: Evaluating High Quality Translations Better than Human References 🔗](https://aclanthology.org/2024.emnlp-main.294.pdf)

当机器战胜大师:用 RESUME 修正翻译指标中的参考偏差

在机器翻译 (Machine Translation, MT) 领域,我们已经到达了一个迷人的转折点。几十年来,翻译系统的目标一直是匹敌人类的表现。如今,随着像 GPT-4 这样的大型语言模型 (LLMs) 的出现,机器生成的翻译质量往往超越了人类编写的参考译文。 ...

6 分钟 · 2686 字
[Beyond Label Attention: Transparency in Language Models for Automated Medical Coding via Dictionary Learning 🔗](https://arxiv.org/abs/2411.00173)

解码黑盒:字典学习如何让医疗 AI 变得透明

在医疗保健这个高风险领域,人工智能正迅速成为不可或缺的工具。医疗领域最关键的后台任务之一是医疗编码——即把非结构化的临床文本 (如医生笔记) 转化为标准化的国际疾病分类 (ICD) 代码。这些代码对于计费、流行病学研究和治疗跟踪至关重要。 ...

2024-11 · 8 分钟 · 3530 字
[Beyond Embeddings: The Promise of Visual Table in Visual Reasoning 🔗](https://arxiv.org/abs/2403.18252)

视觉表:教 AI 像阅读数据库一样“阅读”图像

引言 想象一下,给 AI 展示一张 5 美元纸币的图片。标准的计算机视觉模型会观察像素并识别模式: 它看到了纸张、人脸和数字。它可以告诉你“这是一张钞票”。 但是,如果你问: “画像中的人是谁?他带领国家经历了哪一特定的历史事件?” ...

2024-03 · 6 分钟 · 2868 字
[Beyond Correlation: Interpretable Evaluation of Machine Translation Metric 🔗](https://arxiv.org/abs/2410.05183)

解读评分:一种可解释的机器翻译评估新框架

引言 在机器翻译 (MT) 领域,我们见证了评估指标从基于启发式的 (如 BLEU) 到基于神经网络的 (如 COMET 和 MetricX) 的巨大转变。这些较新的模型在与人类判断的一致性方面表现得更好。然而,它们带来了一个“黑盒”问题。 ...

2024-10 · 7 分钟 · 3348 字
[Benchmarking Vision Language Models for Cultural Understanding 🔗](https://arxiv.org/abs/2407.10920)

AI 能理解文化吗?深入解析 CulturalVQA 基准测试

引言 近年来,多模态视觉-语言模型 (VLMs) ,如 GPT-4V 和 Gemini,在图像解读方面展示了惊人的能力。它们可以识别物体、读取照片中的文字,并描述复杂的场景。然而,识别一场“婚礼”是一回事;理解印度农村的婚礼与埃塞俄比亚的婚礼之间在具体仪式、服饰和传统上的差异,则完全是另一项挑战。 ...

2024-07 · 6 分钟 · 2843 字
[Belief Revision: The Adaptability of Large Language Models Reasoning 🔗](https://arxiv.org/abs/2406.19764)

AI 能改变主意吗?探索大型语言模型中的信念修正

想象一下,有人告诉你“翠儿 (Tweety) 是一只鸟”。根据你的常识,你逻辑地推断出“翠儿会飞”。但片刻之后,你收到了一个新的信息: “翠儿是一只企鹅”。 你的大脑里发生了什么?你立即修正了你的信念。你撤回了翠儿会飞的结论,但你保留了它是一只鸟的前提。你刚刚完成了信念修正 (Belief Revision) ——这是一种当新证据与你之前认为的事实相矛盾或提供新语境时,更新你认知的认知能力。 ...

2024-06 · 7 分钟 · 3429 字
[Be Helpful but Don't Talk too Much - Enhancing Helpfulness in Conversations through Relevance in Multi-Turn Emotional Support 🔗](https://aclanthology.org/2024.emnlp-main.118.pdf)

AI 疗法的金发姑娘原则:在有益性与认知负荷之间取得平衡

想象一下,你度过了糟糕的一天。你向一位朋友倾诉你的压力。作为回应,他们只回复了一个词: “好的。”你会感到被忽视和冷漠。 现在,想象相反的场景。你分享了你的问题,而同一位朋友回应了一段长达十分钟、令人窒息的独白,分析你处境的每一个微小因素,引用历史先例,并同时提供十五种不同的解决方案路径。你会感到不知所措。这不但没有让你感到被支持,反而让你筋疲力尽。 ...

8 分钟 · 3563 字
[Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities 🔗](https://arxiv.org/abs/2404.14716)

反转剧本:贝叶斯逆向推理如何增强上下文学习

引言 在人工智能飞速发展的世界里,大语言模型 (LLMs) 以快速学习者的身份赢得了声誉。具体来说,它们擅长上下文学习 (In-Context Learning, ICL) 。 这是一种仅仅通过在提示词中查看几个示例就能适应新任务的能力,而无需对模型的权重进行任何更新。 ...

2024-04 · 7 分钟 · 3113 字
[Bayesian Calibration of Win Rate Estimation with LLM Evaluators 🔗](https://arxiv.org/abs/2411.04424)

审视裁判——贝叶斯统计如何修正 LLM 评估

审视裁判: 贝叶斯统计如何修正 LLM 评估 如果你玩过 ChatGPT、Claude 或 Llama,你就会知道评估这些模型是很棘手的。与数学测试不同,写诗、总结新闻文章或聊哲学并没有唯一的“正确”答案。 ...

2024-11 · 9 分钟 · 4203 字
[BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting 🔗](https://aclanthology.org/2024.emnlp-main.877.pdf)

愿者上钩:'BaitAttack' 如何诱导大语言模型打破自身规则

随着 GPT-4 和 Llama-2 等大语言模型 (LLMs) 的迅速普及,安全对齐与对抗性攻击之间的“军备竞赛”也在持续升级。我们知道 LLMs 被训练为拒绝有害指令——如果你问模型“我该如何制造炸弹?”,它会礼貌地拒绝。这就是“越狱” (jailbreak) 问题: 寻找绕过这些安全过滤器的方法。 ...

7 分钟 · 3363 字