EMNLP 2024

[Dual-oriented Disentangled Network with Counterfactual Intervention for Multimodal Intent Detection 🔗](https://aclanthology.org/2024.emnlp-main.972.pdf)

揭示意图：因果推理与解耦如何提升多模态 AI

在人类交流中，我们说内容的方式往往比内容本身更重要。像“干得漂亮”这句话，取决于说话者的语调和面部表情，既可以是真诚的赞美，也可以是讽刺的批评。对于人工智能而言，区分这些细微差别是多模态意图检测的圣杯。 ...

[Dual-Space Knowledge Distillation for Large Language Models 🔗](https://arxiv.org/abs/2406.17328)

跨越鸿沟：双空间知识蒸馏如何统一教师与学生大模型

跨越鸿沟: 双空间知识蒸馏如何统一教师与学生大模型当前的人工智能时代是由“缩放定律”定义的。我们已经看到，增加大型语言模型 (LLM) 的参数数量始终能带来更好的泛化和推理能力。然而，这种对智能的追求伴随着昂贵的代价。像 LLaMA-70B 或 GPT-4 这样的模型体量巨大，这使得它们在现实场景中的部署成本极其高昂且运行缓慢。 ...

[Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations 🔗](https://aclanthology.org/2024.emnlp-main.757.pdf)

超越“我不知道”：教导大语言模型解释未知

超越“我不知道”: 教导大语言模型解释未知我们在与大语言模型 (LLM) 交互时都经历过这样的时刻: 你问了一个问题，模型以绝对、坚定不移的自信给出了回答。这听起来合情合理，语法完美，逻辑似乎也无懈可击。但随后你意识到——这完全是瞎编的。 ...

[Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration 🔗](https://aclanthology.org/2024.emnlp-main.976.pdf)

超越排名：为什么你的大模型应该关注奖励值的大小

超越排名: 为什么你的大模型应该关注奖励值的大小如果你玩过 ChatGPT 或 Claude 这样的大语言模型 (LLM) ，你应该知道“对齐 (alignment) ”是其中的秘诀。一个基于互联网数据训练的基座模型只是一个混乱的文本补全引擎；它需要通过基于人类反馈的强化学习 (RLHF) 才能变成一个有用的助手。 ...

[Domain adapted machine translation: What does catastrophic forgetting forget and why? 🔗](https://arxiv.org/abs/2412.17537)

神经机器翻译中的灾难性遗忘：为什么你的医学翻译忘了怎么说“你好”

想象一下，你有一位才华横溢的翻译，他能说一口流利的通用德语和英语。为了让他专攻医学文本，你送他去读了医学院 (用机器学习的术语来说，就是你在医学数据集上对他进行了微调) 。学成归来，他成了“心肌梗死”和“静脉滴注”方面的专家。 ...

[DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging 🔗](https://arxiv.org/abs/2407.01470)

DogeRM：如何在不使用新数据的情况下教会奖励模型新技能

DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能在大语言模型 (LLM) 飞速发展的世界中，我们见证了诸如 GPT-4 和 Gemini 这样的巨头展现出惊人的能力，从创作诗歌到解决复杂的编程问题，无所不能。但仅有原始的智能是不够的；这些模型需要与人类的意图对齐 (aligned) 。我们希望它们不仅有用，而且无害、诚实。 ...

[Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? 🔗](https://arxiv.org/abs/2406.14492)

打破迷思：对象定位真的能修复 LVLM 的幻觉吗？

想象一下，你让一个先进的 AI 描述一张客厅的照片。AI 自信地告诉你: “沙发上睡着一只黑猫。”你看了看照片。有沙发，但绝对没有猫。这种现象被称为对象幻觉 (Object Hallucination) 。这是大型视觉语言模型 (LVLM) 发展中最持久、最令人沮丧的障碍之一。这些为 GPT-4V 或 LLaVA 等工具提供动力的模型，在理解视觉场景方面已经展现出了惊人的能力。然而，它们这种凭空“捏造”物体的倾向侵蚀了用户的信任，并限制了它们在机器人或医学成像等关键领域的应用。 ...

[Does Large Language Model Contain Task-Specific Neurons? 🔗](https://aclanthology.org/2024.emnlp-main.403.pdf)

机器内的大脑：搜寻 LLM 中的任务特定神经元

机器内的大脑: 搜寻 LLM 中的任务特定神经元当我们思考人类大脑时，通常会联想到“分工”的概念。神经科学早已证实，大脑的特定区域负责独特的功能——额叶处理推理和决策，而其他区域则管理语言处理或运动技能。 ...

[DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models 🔗](https://arxiv.org/abs/2410.03061)

教小模型阅读：DocKD 如何利用 LLM 知识蒸馏实现文档理解

引言在人工智能领域，文档理解——即机器阅读、解释并从扫描版 PDF、表格和发票中提取数据的能力——是一个巨大的瓶颈。虽然我们拥有像 GPT-4 或 Claude 这样强大的大型语言模型 (LLM) ，但在数百万份文档上运行它们不仅计算成本高昂，而且速度缓慢。理想情况下，我们需要更小、更快且同样能胜任工作的模型 (学生模型) 。 ...

[DocHieNet: A Large and Diverse Dataset for Document Hierarchy Parsing 🔗](https://aclanthology.org/2024.emnlp-main.65.pdf)

驯服文档丛林：DocHieNet 和 DHFormer 如何解锁 PDF 的层级结构

在当今的数字环境中，我们被文档的海洋所包围。每天都有数以百万计的 PDF、扫描图像和幻灯片被生成。对于人类来说，这些文档具有清晰的结构: 顶部是标题，下面是章节、子章节、段落和图片。我们直观地理解“章节标题”是其下方“段落”的父级。 ...

[DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 🔗](https://arxiv.org/abs/2410.16472)

超越像素编辑：DocEdit-v2 如何利用 LMM 掌握文档结构

你是否尝试过编辑扫描文档或源文件已丢失的 PDF？这通常是一种令人沮丧的体验。你可能想移动一个段落、更改标题级别或更新表格数值。在文字处理软件中，这易如反掌。但在文档图像中，这些元素仅仅是像素而已。 ...

[DocCGen: Document-based Controlled Code Generation 🔗](https://arxiv.org/abs/2406.11925)

驯服幻觉：利用 DocCGen 掌握特定领域的代码生成

引言如果你使用过像 GitHub Copilot 或 Amazon CodeWhisperer 这样的工具，你一定见识过这种魔力: 看着大型语言模型 (LLM) 将简单的注释转化为可运行的 Python 函数或复杂的 Java 类。这些在海量通用代码库上训练出来的模型，已经彻底改变了软件开发。 ...

[Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA 🔗](https://arxiv.org/abs/2410.06524)

超越炒作：用 CAIMIRA 剖析人类与 AI 智力的异同

近年来，关于人工智能的叙事一直被一个响亮的声音所主导: 霸权。我们听到大型语言模型 (LLM) 如 GPT-4 通过了律师资格考试，在医学委员会考试中拿高分，并在 SAT 考试中大杀四方。这其中的暗示是，人工智能不仅追上了人类的智力，而且已经开始将其甩在身后。 ...

[Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation 🔗](https://arxiv.org/abs/2410.08320)

RAG 的现实检验：统计测试如何遏制幻觉

大型语言模型 (LMs) 以自信、善辩且偶尔完全错误而闻名。这种被称为“幻觉”的现象，是阻碍人工智能在医疗保健或金融等安全关键领域部署的重大障碍。为了解决这个问题，业界已广泛采用了检索增强生成 (RAG) 。 ...

[Do We Need Language-Specific Fact-Checking Models? The Case of Chinese 🔗](https://arxiv.org/abs/2401.15498)

迷失在翻译中：为何中文事实核查需要原生 AI

引言在对抗全球“信息疫情 (infodemic) ”的战斗中，自动化事实核查已成为一项必不可少的工具。我们要依靠这些系统在海量数据中筛选信息，以超越人类的速度识别虚假信息。然而，目前的格局存在显著的不平衡: 绝大多数的研究、数据集和模型都是针对英语构建的。 ...

[Do Text-to-Vis Benchmarks Test Real Use of Visualisations? 🔗](https://arxiv.org/abs/2407.19726)

我们对 AI 可视化的测试方法错了吗？Text-to-Vis 基准测试的现实核查

在大型语言模型 (LLM) 飞速发展的世界里，将简单的文本提示转化为可视化图表的能力是一个“杀手级应用”。想象一下，输入“展示过去五年相对于市场营销支出的销售趋势”，然后让 AI 瞬间生成渲染该图表所需的完美 Python 代码。这项任务被称为 Text-to-Vis (文本生成可视化) 。 ...

[Do Large Language Models Know How Much They Know? 🔗](https://arxiv.org/abs/2502.19573)

AI 的元认知：大语言模型知道何时闭嘴吗？

大语言模型 (LLM) 以其渊博的知识而闻名。问它们法国的首都、罗马帝国的历史或 Python 的语法，它们很可能会给出正确的答案。然而，在 AI 安全性和可靠性领域，一个挥之不去的问题不仅是模型知道什么，而是它们是否知道自己知道什么。 ...

[Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations 🔗](https://arxiv.org/abs/2409.18602)

诊断多方对话宿醉：大语言模型能搞定复杂的群聊吗？

我们都有过这种经历: 在一个混乱的 WhatsApp、Slack 或 Discord 群聊中，多场对话同时进行，人们回复着三小时前的消息，用户在讨论中进进出出。要在这种互动网络中游刃有余，不仅需要理解语言，更需要理解结构。你需要知道谁在对谁说话，才能理解“说的是什么”。 ...

[Do LLMs learn a true syntactic universal? 🔗](https://aclanthology.org/2024.emnlp-main.950.pdf)

巴斯克语难题：AI 模型真的理解通用语法吗？

关于人工智能和语言的争论，往往被框定为“先天”与“后天”之争。一方是以诺姆·乔姆斯基 (Noam Chomsky) 等语言学家为代表的历史悠久的天赋论 (nativist) 观点。该观点认为人类生来就具有一种内在的“通用语法” (Universal Grammar) ——这是一套硬连线的约束条件，使儿童能够从相对较少的数据中学习复杂的语言。另一方是目前主导深度学习领域的经验主义 (empiricist) 观点。该观点认为，通用学习算法 (如 Transformer) ，只要给予足够的数据，就能从头开始学习任何东西，包括复杂的句法规则，而无需任何预设的语法知识。 ...

[Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs 🔗](https://aclanthology.org/2024.emnlp-main.1216.pdf)

创造力鸿沟：为何 LLM 难以像人类记者那样进行规划

在生成式 AI 时代，大语言模型 (LLM) 编写流畅文本的能力令人印象深刻。让 ChatGPT 写一篇新闻文章，它能在几秒钟内炮制出语法正确、结构合理的段落。但是，新闻不仅仅是写作；它关乎报道。 ...