](https://deep-paper.org/en/paper/2402.08680/images/cover.png)
MARINE:一种无需训练即可阻止视觉语言模型产生幻觉的框架
引言 像 LLaVA、mPLUG-Owl 和 GPT-4V 这样的大型视觉语言模型 (LVLM) 的迅速崛起,彻底改变了机器理解世界的方式。通过将视觉编码器与强大的大型语言模型 (LLM) 对齐,这些系统可以看图说话、回答关于图像的复杂问题,甚至通过视觉进行推理。然而,尽管它们的能力令人印象深刻,这些模型却存在一个关键且令人尴尬的缺陷: 物体幻觉 (Object Hallucination) 。 ...
](https://deep-paper.org/en/paper/2402.08680/images/cover.png)
引言 像 LLaVA、mPLUG-Owl 和 GPT-4V 这样的大型视觉语言模型 (LVLM) 的迅速崛起,彻底改变了机器理解世界的方式。通过将视觉编码器与强大的大型语言模型 (LLM) 对齐,这些系统可以看图说话、回答关于图像的复杂问题,甚至通过视觉进行推理。然而,尽管它们的能力令人印象深刻,这些模型却存在一个关键且令人尴尬的缺陷: 物体幻觉 (Object Hallucination) 。 ...
](https://deep-paper.org/en/paper/2504.16925/images/cover.png)
引言 在机器人领域,数据就是财富。过去几年里,主要得益于模仿学习 (Imitation Learning, IL) 的推动,机器人策略的能力有了巨大的飞跃。其公式看似简单: 收集大量人类专家执行任务 (如折叠毛巾或开门) 的数据集,然后训练神经网络来复制这些动作。 ...
](https://deep-paper.org/en/paper/2504.08201/images/cover.png)
理解大脑本质上是一个翻译问题。一方面,我们有生物学现实: 神经元以复杂、有节律的模式发放电脉冲。另一方面,我们有可观察到的输出: 运动、选择和行为。 ...
](https://deep-paper.org/en/paper/2502.05749/images/cover.png)
引言 扩散模型已经从根本上改变了生成式人工智能的版图。从 DALL-E 到 Stable Diffusion,从高斯噪声生成高保真图像的能力简直如同魔法一般。然而,标准扩散模型有一个特定的局限性: 它们通常假设从标准高斯分布 (纯噪声) 过渡到数据分布 (图像) 。 ...
](https://deep-paper.org/en/paper/11875_gmail_generative_modalit-1762/images/cover.png)
引言 我们正处于生成式 AI 的“黄金时代”。像 Stable Diffusion 和 DALL-E 3 这样的模型能够在几秒钟内根据简单的文本描述变幻出照片般逼真的图像。对于机器学习研究人员和学生来说,这创造了一个诱人的可能性: 无限的训练数据。 ...
](https://deep-paper.org/en/paper/4514_discovering_a_zero_zero_v-1761/images/cover.png)
引言 在人类的学习方式中,“知道猫是什么”与“知道猫不是什么”之间存在着明显的区别。当你想象一只猫时,你是在识别一组特定的特征——胡须、尖耳朵、尾巴。你并不是通过观察整个宇宙并排除狗、汽车和树木来定义猫的。 ...
](https://deep-paper.org/en/paper/5707_efficient_source_free_unl-1760/images/cover.png)
在人工智能的现代纪元,数据被视为新的石油。但与石油不同,数据往往附带附加条件: 隐私法规。随着欧盟《通用数据保护条例》 (GDPR) 和《加州消费者隐私法案》 (CCPA) 等法律的实施,个人获得了“被遗忘权”。这意味着如果用户要求删除其数据,任何在该数据上训练过的机器学习模型理论上都必须“遗忘”它。 ...
](https://deep-paper.org/en/paper/5576_visual_and_domain_knowled-1759/images/cover.png)
引言 在过去几年中,我们见证了大型视觉语言模型 (Large Vision-Language Models, LVLM) 能力的巨大飞跃。像 GPT-4o 和 Gemini 这样的模型可以描述繁华街道的照片,根据白板草图编写代码,甚至解释梗图。然而,当我们把目光从通用的互联网图片转向高风险的医学领域时,这些“基础模型”往往会碰壁。 ...
](https://deep-paper.org/en/paper/8491_large_language_model_driv-1758/images/cover.png)
在计算机科学和运筹学领域,规模扩展 (Scaling) 是终极挑战。解决十辆送货卡车的物流问题可能只是个作业;但要解决一万辆卡车、不断变化的交通状况和时间窗口限制的问题,简直就是计算噩梦。 ...
](https://deep-paper.org/en/paper/8317_scaling_trends_in_languag-1757/images/cover.png)
AI 军备竞赛: 规模扩大能自动解决鲁棒性问题吗? 大型语言模型 (LLM) 的迅速崛起主要归功于一个简单而强大的概念: 缩放定律 (scaling laws) 。 我们从经验中得知,增加参数、数据和计算量能够持续解锁新的能力。从编写代码到通过律师资格考试,“越大越好”一直是 AI 繁荣时期的黄金法则。 ...
](https://deep-paper.org/en/paper/2412.03719/images/cover.png)
如果你曾经在大型语言模型 (LLM) 之上构建过应用程序,你很可能遇到过某种令人费解的脆弱行为。你构建了一个措辞严谨的提示词 (Prompt) ,得到了很好的结果,然后——也许是不小心——你在提示词末尾添加了一个空格。突然之间,模型的输出完全变了。 ...
](https://deep-paper.org/en/paper/2502.01925/images/cover.png)
大语言模型 (LLM) 的能力在近年来呈爆炸式增长。其中最重要的技术飞跃之一是上下文窗口 (context window) 的扩展——即模型一次能处理的文本量。我们已经从那些仅能记住几个段落的模型,发展到了像 Llama-3 和 Gemini 这样能够在一个提示词中处理整本书或海量代码库的系统。 ...
](https://deep-paper.org/en/paper/2507.08285/images/cover.png)
想象一下,你有一张某人向左看的照片,而你希望他向右看。在现代生成式 AI (特别是“基于拖拽”的编辑) 的加持下,这应该很简单: 你点击鼻子 (手柄点/Handle Point) 并将其向右拖动 (目标点/Target Point) 。 ...
](https://deep-paper.org/en/paper/2411.16829/images/cover.png)
引言 在决策领域,数据为王。但数据也是杂乱、有限且充满噪声的。无论你是管理股票投资组合、为商店备货,还是训练机器学习模型,你很少知道生成数据的真实机制。相反,你必须对其进行估计。 ...
](https://deep-paper.org/en/paper/2506.05035/images/cover.png)
引言 在人工智能快速发展的版图中,时间序列数据是关键行业的命脉。从 ICU 患者的生命体征监测 (医疗健康) ,到预测电网波动 (能源) ,再到检测交通异常 (交通运输) ,深度学习模型正在做出关乎人类安全的决策。 ...
](https://deep-paper.org/en/paper/14278_policy_labeled_preferenc-1750/images/cover.png)
引言 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 无疑改变了人工智能的格局。它是 GPT-4 和 Llama 2 等现代大型语言模型 (LLM) 背后的引擎,使它们能够与人类意图保持一致。RLHF 的标准配方通常包括训练一个奖励模型来模仿人类偏好,然后优化一个策略以最大化该奖励。 ...
](https://deep-paper.org/en/paper/2407.04516/images/cover.png)
引言 在计算科学的世界里,模拟现实就像一种平衡的艺术。无论是预测天气、设计空气动力学汽车,还是模拟结构应力,科学家们都依赖于 有限元方法 (FEM) 。 这些方法将复杂的物理形状分解为由简单的形状 (三角形或四面体) 组成的网格,称之为 网格 (mesh) 。 ...
](https://deep-paper.org/en/paper/2505.03393/images/cover.png)
如果你处理过真实世界的数据集,尤其是在医疗或金融领域,你一定体会过缺失值带来的痛苦。你设计了一个完美的模型,在清洗过的数据上进行了训练,并准备将其部署。但到了“测试阶段” (即模型面对真实用户的时刻) ,问题来了。用户跳过了表单上的某个问题,或者医生没有开具某项特定的检测。突然之间,你的模型就像一只眼睛失明了一样,无法正常工作。 ...
](https://deep-paper.org/en/paper/5715_bridging_layout_and_rtl_k-1747/images/cover.png)
我们能教会 RTL 模型物理知识吗?深入解析 RTLDistil 框架 在现代芯片设计的世界里,速度就是一切——不仅指最终处理器的时钟速度,还指工程师设计它的速度。这在电子设计自动化 (EDA) 中制造了一个根本性的矛盾。一方面,你希望尽可能早地 (在寄存器传输级,即 RTL) 知道你的设计是否满足时序约束。另一方面,除非你完成了包含组件放置和布线在内的物理版图设计,否则你无法真正知晓时序。 ...
](https://deep-paper.org/en/paper/2502.14770/images/cover.png)
引言 像 LLaMA 和 GPT 这样的大型语言模型 (LLMs) 已经彻底改变了自然语言处理领域,但它们伴随着巨大的代价: 体积庞大。拥有数十亿个参数使得在标准硬件上部署这些模型成为一场后勤噩梦,主要是由于高内存占用和计算延迟。这引发了网络稀疏化 (Network Sparsity) 研究的热潮——这类技术旨在从模型中移除“不重要”的参数 (权重) ,使其更小、更快,同时不牺牲智能水平。 ...