[Dual-oriented Disentangled Network with Counterfactual Intervention for Multimodal Intent Detection 🔗](https://aclanthology.org/2024.emnlp-main.972.pdf)

揭示意图:因果推理与解耦如何提升多模态 AI

在人类交流中,我们说内容的方式往往比内容本身更重要。像“干得漂亮”这句话,取决于说话者的语调和面部表情,既可以是真诚的赞美,也可以是讽刺的批评。对于人工智能而言,区分这些细微差别是多模态意图检测的圣杯。 ...

8 分钟 · 3841 字
[Dual-Space Knowledge Distillation for Large Language Models 🔗](https://arxiv.org/abs/2406.17328)

跨越鸿沟:双空间知识蒸馏如何统一教师与学生大模型

跨越鸿沟: 双空间知识蒸馏如何统一教师与学生大模型 当前的人工智能时代是由“缩放定律”定义的。我们已经看到,增加大型语言模型 (LLM) 的参数数量始终能带来更好的泛化和推理能力。然而,这种对智能的追求伴随着昂贵的代价。像 LLaMA-70B 或 GPT-4 这样的模型体量巨大,这使得它们在现实场景中的部署成本极其高昂且运行缓慢。 ...

2024-06 · 8 分钟 · 3601 字
[Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations 🔗](https://aclanthology.org/2024.emnlp-main.757.pdf)

超越“我不知道”:教导大语言模型解释未知

超越“我不知道”: 教导大语言模型解释未知 我们在与大语言模型 (LLM) 交互时都经历过这样的时刻: 你问了一个问题,模型以绝对、坚定不移的自信给出了回答。这听起来合情合理,语法完美,逻辑似乎也无懈可击。但随后你意识到——这完全是瞎编的。 ...

9 分钟 · 4037 字
[Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration 🔗](https://aclanthology.org/2024.emnlp-main.976.pdf)

超越排名:为什么你的大模型应该关注奖励值的大小

超越排名: 为什么你的大模型应该关注奖励值的大小 如果你玩过 ChatGPT 或 Claude 这样的大语言模型 (LLM) ,你应该知道“对齐 (alignment) ”是其中的秘诀。一个基于互联网数据训练的基座模型只是一个混乱的文本补全引擎;它需要通过基于人类反馈的强化学习 (RLHF) 才能变成一个有用的助手。 ...

7 分钟 · 3474 字
[Domain adapted machine translation: What does catastrophic forgetting forget and why? 🔗](https://arxiv.org/abs/2412.17537)

神经机器翻译中的灾难性遗忘:为什么你的医学翻译忘了怎么说“你好”

想象一下,你有一位才华横溢的翻译,他能说一口流利的通用德语和英语。为了让他专攻医学文本,你送他去读了医学院 (用机器学习的术语来说,就是你在医学数据集上对他进行了微调) 。学成归来,他成了“心肌梗死”和“静脉滴注”方面的专家。 ...

2024-12 · 8 分钟 · 3990 字
[DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging 🔗](https://arxiv.org/abs/2407.01470)

DogeRM:如何在不使用新数据的情况下教会奖励模型新技能

DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能 在大语言模型 (LLM) 飞速发展的世界中,我们见证了诸如 GPT-4 和 Gemini 这样的巨头展现出惊人的能力,从创作诗歌到解决复杂的编程问题,无所不能。但仅有原始的智能是不够的;这些模型需要与人类的意图对齐 (aligned) 。 我们希望它们不仅有用,而且无害、诚实。 ...

2024-07 · 7 分钟 · 3178 字
[Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? 🔗](https://arxiv.org/abs/2406.14492)

打破迷思:对象定位真的能修复 LVLM 的幻觉吗?

想象一下,你让一个先进的 AI 描述一张客厅的照片。AI 自信地告诉你: “沙发上睡着一只黑猫。”你看了看照片。有沙发,但绝对没有猫。 这种现象被称为对象幻觉 (Object Hallucination) 。 这是大型视觉语言模型 (LVLM) 发展中最持久、最令人沮丧的障碍之一。这些为 GPT-4V 或 LLaVA 等工具提供动力的模型,在理解视觉场景方面已经展现出了惊人的能力。然而,它们这种凭空“捏造”物体的倾向侵蚀了用户的信任,并限制了它们在机器人或医学成像等关键领域的应用。 ...

2024-06 · 8 分钟 · 3875 字
[Does Large Language Model Contain Task-Specific Neurons? 🔗](https://aclanthology.org/2024.emnlp-main.403.pdf)

机器内的大脑:搜寻 LLM 中的任务特定神经元

机器内的大脑: 搜寻 LLM 中的任务特定神经元 当我们思考人类大脑时,通常会联想到“分工”的概念。神经科学早已证实,大脑的特定区域负责独特的功能——额叶处理推理和决策,而其他区域则管理语言处理或运动技能。 ...

7 分钟 · 3147 字
[DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models 🔗](https://arxiv.org/abs/2410.03061)

教小模型阅读:DocKD 如何利用 LLM 知识蒸馏实现文档理解

引言 在人工智能领域,文档理解——即机器阅读、解释并从扫描版 PDF、表格和发票中提取数据的能力——是一个巨大的瓶颈。虽然我们拥有像 GPT-4 或 Claude 这样强大的大型语言模型 (LLM) ,但在数百万份文档上运行它们不仅计算成本高昂,而且速度缓慢。理想情况下,我们需要更小、更快且同样能胜任工作的模型 (学生模型) 。 ...

2024-10 · 7 分钟 · 3468 字
[DocHieNet: A Large and Diverse Dataset for Document Hierarchy Parsing 🔗](https://aclanthology.org/2024.emnlp-main.65.pdf)

驯服文档丛林:DocHieNet 和 DHFormer 如何解锁 PDF 的层级结构

在当今的数字环境中,我们被文档的海洋所包围。每天都有数以百万计的 PDF、扫描图像和幻灯片被生成。对于人类来说,这些文档具有清晰的结构: 顶部是标题,下面是章节、子章节、段落和图片。我们直观地理解“章节标题”是其下方“段落”的父级。 ...

6 分钟 · 2973 字
[DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding 🔗](https://arxiv.org/abs/2410.16472)

超越像素编辑:DocEdit-v2 如何利用 LMM 掌握文档结构

你是否尝试过编辑扫描文档或源文件已丢失的 PDF?这通常是一种令人沮丧的体验。你可能想移动一个段落、更改标题级别或更新表格数值。在文字处理软件中,这易如反掌。但在文档图像中,这些元素仅仅是像素而已。 ...

2024-10 · 6 分钟 · 2760 字
[DocCGen: Document-based Controlled Code Generation 🔗](https://arxiv.org/abs/2406.11925)

驯服幻觉:利用 DocCGen 掌握特定领域的代码生成

引言 如果你使用过像 GitHub Copilot 或 Amazon CodeWhisperer 这样的工具,你一定见识过这种魔力: 看着大型语言模型 (LLM) 将简单的注释转化为可运行的 Python 函数或复杂的 Java 类。这些在海量通用代码库上训练出来的模型,已经彻底改变了软件开发。 ...

2024-06 · 7 分钟 · 3478 字
[Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA 🔗](https://arxiv.org/abs/2410.06524)

超越炒作:用 CAIMIRA 剖析人类与 AI 智力的异同

近年来,关于人工智能的叙事一直被一个响亮的声音所主导: 霸权 。 我们听到大型语言模型 (LLM) 如 GPT-4 通过了律师资格考试,在医学委员会考试中拿高分,并在 SAT 考试中大杀四方。这其中的暗示是,人工智能不仅追上了人类的智力,而且已经开始将其甩在身后。 ...

2024-10 · 7 分钟 · 3366 字
[Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation 🔗](https://arxiv.org/abs/2410.08320)

RAG 的现实检验:统计测试如何遏制幻觉

大型语言模型 (LMs) 以自信、善辩且偶尔完全错误而闻名。这种被称为“幻觉”的现象,是阻碍人工智能在医疗保健或金融等安全关键领域部署的重大障碍。为了解决这个问题,业界已广泛采用了检索增强生成 (RAG) 。 ...

2024-10 · 8 分钟 · 3551 字
[Do We Need Language-Specific Fact-Checking Models? The Case of Chinese 🔗](https://arxiv.org/abs/2401.15498)

迷失在翻译中:为何中文事实核查需要原生 AI

引言 在对抗全球“信息疫情 (infodemic) ”的战斗中,自动化事实核查已成为一项必不可少的工具。我们要依靠这些系统在海量数据中筛选信息,以超越人类的速度识别虚假信息。然而,目前的格局存在显著的不平衡: 绝大多数的研究、数据集和模型都是针对英语构建的。 ...

2024-01 · 7 分钟 · 3362 字
[Do Text-to-Vis Benchmarks Test Real Use of Visualisations? 🔗](https://arxiv.org/abs/2407.19726)

我们对 AI 可视化的测试方法错了吗?Text-to-Vis 基准测试的现实核查

在大型语言模型 (LLM) 飞速发展的世界里,将简单的文本提示转化为可视化图表的能力是一个“杀手级应用”。想象一下,输入“展示过去五年相对于市场营销支出的销售趋势”,然后让 AI 瞬间生成渲染该图表所需的完美 Python 代码。这项任务被称为 Text-to-Vis (文本生成可视化) 。 ...

2024-07 · 6 分钟 · 2971 字
[Do Large Language Models Know How Much They Know? 🔗](https://arxiv.org/abs/2502.19573)

AI 的元认知:大语言模型知道何时闭嘴吗?

大语言模型 (LLM) 以其渊博的知识而闻名。问它们法国的首都、罗马帝国的历史或 Python 的语法,它们很可能会给出正确的答案。然而,在 AI 安全性和可靠性领域,一个挥之不去的问题不仅是模型知道什么,而是它们是否知道自己知道什么。 ...

2025-02 · 6 分钟 · 2836 字
[Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations 🔗](https://arxiv.org/abs/2409.18602)

诊断多方对话宿醉:大语言模型能搞定复杂的群聊吗?

我们都有过这种经历: 在一个混乱的 WhatsApp、Slack 或 Discord 群聊中,多场对话同时进行,人们回复着三小时前的消息,用户在讨论中进进出出。要在这种互动网络中游刃有余,不仅需要理解语言,更需要理解结构。你需要知道谁在对谁说话,才能理解“说的是什么”。 ...

2024-09 · 6 分钟 · 2819 字
[Do LLMs learn a true syntactic universal? 🔗](https://aclanthology.org/2024.emnlp-main.950.pdf)

巴斯克语难题:AI 模型真的理解通用语法吗?

关于人工智能和语言的争论,往往被框定为“先天”与“后天”之争。一方是以诺姆·乔姆斯基 (Noam Chomsky) 等语言学家为代表的历史悠久的天赋论 (nativist) 观点。该观点认为人类生来就具有一种内在的“通用语法” (Universal Grammar) ——这是一套硬连线的约束条件,使儿童能够从相对较少的数据中学习复杂的语言。另一方是目前主导深度学习领域的经验主义 (empiricist) 观点。该观点认为,通用学习算法 (如 Transformer) ,只要给予足够的数据,就能从头开始学习任何东西,包括复杂的句法规则,而无需任何预设的语法知识。 ...

9 分钟 · 4164 字
[Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs 🔗](https://aclanthology.org/2024.emnlp-main.1216.pdf)

创造力鸿沟:为何 LLM 难以像人类记者那样进行规划

在生成式 AI 时代,大语言模型 (LLM) 编写流畅文本的能力令人印象深刻。让 ChatGPT 写一篇新闻文章,它能在几秒钟内炮制出语法正确、结构合理的段落。但是,新闻不仅仅是 写作;它关乎 报道。 ...

7 分钟 · 3279 字