](https://deep-paper.org/en/paper/file-2984/images/cover.png)
揭示意图:因果推理与解耦如何提升多模态 AI
在人类交流中,我们说内容的方式往往比内容本身更重要。像“干得漂亮”这句话,取决于说话者的语调和面部表情,既可以是真诚的赞美,也可以是讽刺的批评。对于人工智能而言,区分这些细微差别是多模态意图检测的圣杯。 ...
](https://deep-paper.org/en/paper/file-2984/images/cover.png)
在人类交流中,我们说内容的方式往往比内容本身更重要。像“干得漂亮”这句话,取决于说话者的语调和面部表情,既可以是真诚的赞美,也可以是讽刺的批评。对于人工智能而言,区分这些细微差别是多模态意图检测的圣杯。 ...
](https://deep-paper.org/en/paper/2406.17328/images/cover.png)
跨越鸿沟: 双空间知识蒸馏如何统一教师与学生大模型 当前的人工智能时代是由“缩放定律”定义的。我们已经看到,增加大型语言模型 (LLM) 的参数数量始终能带来更好的泛化和推理能力。然而,这种对智能的追求伴随着昂贵的代价。像 LLaMA-70B 或 GPT-4 这样的模型体量巨大,这使得它们在现实场景中的部署成本极其高昂且运行缓慢。 ...
](https://deep-paper.org/en/paper/file-2982/images/cover.png)
超越“我不知道”: 教导大语言模型解释未知 我们在与大语言模型 (LLM) 交互时都经历过这样的时刻: 你问了一个问题,模型以绝对、坚定不移的自信给出了回答。这听起来合情合理,语法完美,逻辑似乎也无懈可击。但随后你意识到——这完全是瞎编的。 ...
](https://deep-paper.org/en/paper/file-2981/images/cover.png)
超越排名: 为什么你的大模型应该关注奖励值的大小 如果你玩过 ChatGPT 或 Claude 这样的大语言模型 (LLM) ,你应该知道“对齐 (alignment) ”是其中的秘诀。一个基于互联网数据训练的基座模型只是一个混乱的文本补全引擎;它需要通过基于人类反馈的强化学习 (RLHF) 才能变成一个有用的助手。 ...
](https://deep-paper.org/en/paper/2412.17537/images/cover.png)
想象一下,你有一位才华横溢的翻译,他能说一口流利的通用德语和英语。为了让他专攻医学文本,你送他去读了医学院 (用机器学习的术语来说,就是你在医学数据集上对他进行了微调) 。学成归来,他成了“心肌梗死”和“静脉滴注”方面的专家。 ...
](https://deep-paper.org/en/paper/2407.01470/images/cover.png)
DogeRM: 如何在不使用新数据的情况下教会奖励模型新技能 在大语言模型 (LLM) 飞速发展的世界中,我们见证了诸如 GPT-4 和 Gemini 这样的巨头展现出惊人的能力,从创作诗歌到解决复杂的编程问题,无所不能。但仅有原始的智能是不够的;这些模型需要与人类的意图对齐 (aligned) 。 我们希望它们不仅有用,而且无害、诚实。 ...
](https://deep-paper.org/en/paper/2406.14492/images/cover.png)
想象一下,你让一个先进的 AI 描述一张客厅的照片。AI 自信地告诉你: “沙发上睡着一只黑猫。”你看了看照片。有沙发,但绝对没有猫。 这种现象被称为对象幻觉 (Object Hallucination) 。 这是大型视觉语言模型 (LVLM) 发展中最持久、最令人沮丧的障碍之一。这些为 GPT-4V 或 LLaVA 等工具提供动力的模型,在理解视觉场景方面已经展现出了惊人的能力。然而,它们这种凭空“捏造”物体的倾向侵蚀了用户的信任,并限制了它们在机器人或医学成像等关键领域的应用。 ...
](https://deep-paper.org/en/paper/file-2977/images/cover.png)
机器内的大脑: 搜寻 LLM 中的任务特定神经元 当我们思考人类大脑时,通常会联想到“分工”的概念。神经科学早已证实,大脑的特定区域负责独特的功能——额叶处理推理和决策,而其他区域则管理语言处理或运动技能。 ...
](https://deep-paper.org/en/paper/2410.03061/images/cover.png)
引言 在人工智能领域,文档理解——即机器阅读、解释并从扫描版 PDF、表格和发票中提取数据的能力——是一个巨大的瓶颈。虽然我们拥有像 GPT-4 或 Claude 这样强大的大型语言模型 (LLM) ,但在数百万份文档上运行它们不仅计算成本高昂,而且速度缓慢。理想情况下,我们需要更小、更快且同样能胜任工作的模型 (学生模型) 。 ...
](https://deep-paper.org/en/paper/file-2974/images/cover.png)
在当今的数字环境中,我们被文档的海洋所包围。每天都有数以百万计的 PDF、扫描图像和幻灯片被生成。对于人类来说,这些文档具有清晰的结构: 顶部是标题,下面是章节、子章节、段落和图片。我们直观地理解“章节标题”是其下方“段落”的父级。 ...
](https://deep-paper.org/en/paper/2410.16472/images/cover.png)
你是否尝试过编辑扫描文档或源文件已丢失的 PDF?这通常是一种令人沮丧的体验。你可能想移动一个段落、更改标题级别或更新表格数值。在文字处理软件中,这易如反掌。但在文档图像中,这些元素仅仅是像素而已。 ...
](https://deep-paper.org/en/paper/2406.11925/images/cover.png)
引言 如果你使用过像 GitHub Copilot 或 Amazon CodeWhisperer 这样的工具,你一定见识过这种魔力: 看着大型语言模型 (LLM) 将简单的注释转化为可运行的 Python 函数或复杂的 Java 类。这些在海量通用代码库上训练出来的模型,已经彻底改变了软件开发。 ...
](https://deep-paper.org/en/paper/2410.06524/images/cover.png)
近年来,关于人工智能的叙事一直被一个响亮的声音所主导: 霸权 。 我们听到大型语言模型 (LLM) 如 GPT-4 通过了律师资格考试,在医学委员会考试中拿高分,并在 SAT 考试中大杀四方。这其中的暗示是,人工智能不仅追上了人类的智力,而且已经开始将其甩在身后。 ...
](https://deep-paper.org/en/paper/2410.08320/images/cover.png)
大型语言模型 (LMs) 以自信、善辩且偶尔完全错误而闻名。这种被称为“幻觉”的现象,是阻碍人工智能在医疗保健或金融等安全关键领域部署的重大障碍。为了解决这个问题,业界已广泛采用了检索增强生成 (RAG) 。 ...
](https://deep-paper.org/en/paper/2401.15498/images/cover.png)
引言 在对抗全球“信息疫情 (infodemic) ”的战斗中,自动化事实核查已成为一项必不可少的工具。我们要依靠这些系统在海量数据中筛选信息,以超越人类的速度识别虚假信息。然而,目前的格局存在显著的不平衡: 绝大多数的研究、数据集和模型都是针对英语构建的。 ...
](https://deep-paper.org/en/paper/2407.19726/images/cover.png)
在大型语言模型 (LLM) 飞速发展的世界里,将简单的文本提示转化为可视化图表的能力是一个“杀手级应用”。想象一下,输入“展示过去五年相对于市场营销支出的销售趋势”,然后让 AI 瞬间生成渲染该图表所需的完美 Python 代码。这项任务被称为 Text-to-Vis (文本生成可视化) 。 ...
](https://deep-paper.org/en/paper/2502.19573/images/cover.png)
大语言模型 (LLM) 以其渊博的知识而闻名。问它们法国的首都、罗马帝国的历史或 Python 的语法,它们很可能会给出正确的答案。然而,在 AI 安全性和可靠性领域,一个挥之不去的问题不仅是模型知道什么,而是它们是否知道自己知道什么。 ...
](https://deep-paper.org/en/paper/2409.18602/images/cover.png)
我们都有过这种经历: 在一个混乱的 WhatsApp、Slack 或 Discord 群聊中,多场对话同时进行,人们回复着三小时前的消息,用户在讨论中进进出出。要在这种互动网络中游刃有余,不仅需要理解语言,更需要理解结构。你需要知道谁在对谁说话,才能理解“说的是什么”。 ...
](https://deep-paper.org/en/paper/file-2965/images/cover.png)
关于人工智能和语言的争论,往往被框定为“先天”与“后天”之争。一方是以诺姆·乔姆斯基 (Noam Chomsky) 等语言学家为代表的历史悠久的天赋论 (nativist) 观点。该观点认为人类生来就具有一种内在的“通用语法” (Universal Grammar) ——这是一套硬连线的约束条件,使儿童能够从相对较少的数据中学习复杂的语言。另一方是目前主导深度学习领域的经验主义 (empiricist) 观点。该观点认为,通用学习算法 (如 Transformer) ,只要给予足够的数据,就能从头开始学习任何东西,包括复杂的句法规则,而无需任何预设的语法知识。 ...
](https://deep-paper.org/en/paper/file-2964/images/cover.png)
在生成式 AI 时代,大语言模型 (LLM) 编写流畅文本的能力令人印象深刻。让 ChatGPT 写一篇新闻文章,它能在几秒钟内炮制出语法正确、结构合理的段落。但是,新闻不仅仅是 写作;它关乎 报道。 ...