](https://deep-paper.org/en/paper/5489_do_we_really_need_message-1647/images/cover.png)
反思脑网络:为什么我们可能误用了图学习
人脑无疑是现存最复杂的网络。为了理解它,研究人员将目光投向了 图神经网络 (GNNs) 和 Transformer 。 这些深度学习架构彻底改变了我们处理图数据的方式,从社交网络到分子结构无所不包。将它们应用于“连接组 (connectome) ”——即大脑中的神经连接图——似乎也是顺理成章的事。 ...
](https://deep-paper.org/en/paper/5489_do_we_really_need_message-1647/images/cover.png)
人脑无疑是现存最复杂的网络。为了理解它,研究人员将目光投向了 图神经网络 (GNNs) 和 Transformer 。 这些深度学习架构彻底改变了我们处理图数据的方式,从社交网络到分子结构无所不包。将它们应用于“连接组 (connectome) ”——即大脑中的神经连接图——似乎也是顺理成章的事。 ...
](https://deep-paper.org/en/paper/12232_axbench_steering_llms_ev-1645/images/cover.png)
大型语言模型 (LLM) 非常强大,但控制它们——确保它们遵循指令、避免有害内容或坚持特定主题——仍然是 AI 安全领域最大的挑战之一。目前,业界主要依赖提示工程 (Prompting) (好言相劝模型) 和微调 (Finetuning) (用新数据重新训练模型) 。虽然这些方法有效,但它们也有明显的缺点: 提示可能会被“越狱 (jailbreaks) ”绕过,而微调则计算昂贵且过程不透明。 ...
](https://deep-paper.org/en/paper/2409.15844/images/cover.png)
引言 想象一下,你训练了一个机器学习模型来执行一项关键任务——也许是识别医学扫描中的肿瘤,或者是控制工厂里的机械臂。在训练期间,模型的表现似乎不错。但是,当安全至关重要时,“似乎表现不错”就足够了吗? ...
](https://deep-paper.org/en/paper/2404.18922/images/cover.png)
人类反馈强化学习 (RLHF) 是现代大语言模型 (LLM) 革命背后的秘诀。正是这一过程将原始的文本预测模型转变为了像 ChatGPT、Claude 或 Gemini 这样乐于助人的助手。 ...
](https://deep-paper.org/en/paper/2164_catch_your_emotion_sharpe-1642/images/cover.png)
简介 在人工智能飞速发展的世界里,多模态大语言模型 (MLLM,如 LLaVA 和 GPT-4V) 在描述世界方面已经变得极其熟练。给它们看一张拥挤街道的照片,它们能列出物体、阅读标志,甚至推断出一天的具体时间。然而,这些强大的模型在一个前沿领域仍然步履维艰: 情感智能 (Emotional Intelligence) 。 ...
](https://deep-paper.org/en/paper/2506.05407/images/cover.png)
在当今的人工智能时代,我们正见证着一个悖论。一方面,我们拥有无比强大的生成式 API (如 Stable Diffusion 或 DALL-E) ,仅凭简单的文本提示就能创造出几乎任何图像。另一方面,最需要这些工具的专业领域——如医疗保健和高精度制造业——却往往因数据匮乏而举步维艰。 ...
](https://deep-paper.org/en/paper/4103_the_number_of_trials_matt-1639/images/cover.png)
在强化学习 (RL) 的世界中,我们通常将问题设定为最大化奖励总和。你采取一个行动,获得奖励,并试图随着时间的推移获得尽可能多的奖励。但是,如果你的目标不仅仅是积累分数呢?如果你希望智能体尽可能多样化地探索环境,或者模仿人类专家的行为分布呢? ...
](https://deep-paper.org/en/paper/2411.19339/images/cover.png)
生成式 AI,特别是像 Stable Diffusion 或 DALL-E 这样的扩散模型,通常感觉像是魔法。你输入噪声 (或许还有一个文本提示) ,然后一个连贯、新颖的图像就蹦出来了。但从数学角度来看,这种“新颖性”其实有点令人费解。 ...
](https://deep-paper.org/en/paper/10862_reducing_variance_of_sto-1636/images/cover.png)
引言 在经济学、计算机科学和人工智能的交叉领域,很少有概念能像纳什均衡 (Nash Equilibrium, NE) 那样举足轻重。它描述了博弈中的一种状态: 在其他所有人都保持策略不变的情况下,没有任何玩家可以通过改变自己的策略来获益。从扑克机器人到自动化金融交易,再到多智能体机器人,找到纳什均衡往往是终极目标。 ...
](https://deep-paper.org/en/paper/6523_towards_robustness_and_ex-1635/images/cover.png)
在计算机科学领域,“没有免费的午餐”定理是一个铁律: 没有一种单一的算法能在所有可能的问题上都表现最好。无论你是要解决旅行商问题、训练神经网络,还是求解 SAT 实例,“最好”的工具完全取决于手头问题的具体特征。 ...
](https://deep-paper.org/en/paper/2503.06893/images/cover.png)
引言 想象一下,你在一条空无一人的模拟道路上训练自动驾驶汽车。汽车学到: 以 80 英里/小时的速度行驶既安全又高效。现在,你将同样的策略部署到交通拥堵的城市中。突然之间,以 80 英里/小时行驶这一“最优”行为不再高效——它变成了灾难。由于环境动力学 (交通密度) 的变化,“安全地快速驾驶”这一状态变得不可达 (inaccessible) 了。 ...
](https://deep-paper.org/en/paper/2176_timebase_the_power_of_min-1631/images/cover.png)
在当前的人工智能领域,主流的信条在很大程度上是“越大越好”。从像 GPT-4 这样的大型语言模型 (LLM) 到大规模视觉 Transformer (ViT) ,趋势是将参数扩展到数十亿,以捕捉复杂的依赖关系。人们很自然地认为这一逻辑也适用于所有领域——包括长期时间序列预测 (Long-term Time Series Forecasting, LTSF) 。 ...
](https://deep-paper.org/en/paper/2505.23557/images/cover.png)
近期生成式 AI 的进展,特别是大型语言模型 (LLM) ,已确立了“从偏好中学习” (例如基于人类反馈的强化学习,即 RLHF) 作为模型训练中的关键步骤。经验告诉我们,告诉模型“回答 A 优于回答 B”往往比仅仅展示“回答 A”作为好例子能产生更好的结果。 ...
](https://deep-paper.org/en/paper/425_which_agent_causes_task_fa-1629/images/cover.png)
引言: AI 开发中的侦探工作 想象一下,你管理着一个由软件开发人员、研究人员和数据分析师组成的团队。你给他们分配了一个复杂的项目——比如分析某个城市的房地产市场——然后等待结果。但当报告交上来时,它是错的。数据是凭空捏造的 (幻觉) ,或者代码根本无法执行。现在,你必须弄清楚团队中谁掉链子了,以及事情具体是什么时候开始出错的。是分析师提取了错误的文件吗?是程序员写了有 bug 的脚本吗?还是经理给出的指令不明确? ...
](https://deep-paper.org/en/paper/2406.09570/images/cover.png)
引言 随着扩散模型的出现,生成式 AI 经历了巨大的变革。这些模型为 Stable Diffusion 和 DALL-E 等工具提供了动力,能够通过逐步从信号中去除噪声来生成令人惊叹的图像。然而,它们面临着一个众所周知的瓶颈: 速度。生成单张图像通常需要数十甚至数百个连续步骤。 ...
](https://deep-paper.org/en/paper/2505.06843/images/cover.png)
引言 在大型语言模型 (LLM) 的世界里,“安全对齐”是一道护栏,防止你的 AI 助手教你如何制造炸弹或洗钱。公司在基于人类反馈的强化学习 (RLHF) 上投入了数百万美元,以确保这些模型能够拒绝有害的请求。 ...
](https://deep-paper.org/en/paper/2506.21490/images/cover.png)
引言 我们正见证着人工智能的黄金时代。从起草电子邮件的大型语言模型 (LLMs) ,到在围棋和 Dota 2 等复杂策略游戏中精通的强化学习智能体,AI 的能力正在飞速提升。然而,在 AI 独立解决问题的能力与协同我们解决问题的能力之间,仍存在着巨大的鸿沟。 ...
](https://deep-paper.org/en/paper/2505.24445/images/cover.png)
引言 大型语言模型 (LLM) 已无处不在,在推理、编程和创意写作方面展现了惊人的能力。然而,这种力量伴随着巨大的“双重用途”风险。同一个能写出有用的医疗摘要的模型,如果受到恶意提示,也可能生成仇恨言论、非法行为指南或生物武器配方。 ...
](https://deep-paper.org/en/paper/2507.08761/images/cover.png)
引言 想象一下,你试图仅仅通过观看职业自行车手的视频来学习骑自行车。你从未亲自踩过踏板。如果你突然跳上一辆自行车,你可能会以为自己能像视频里那样表演独轮特技,但在现实中,你很可能会摔倒。 ...
](https://deep-paper.org/en/paper/2504.14151/images/cover.png)
想象一下,让机器人“把沙发和台灯之间的那个小咖啡桌捡起来”。对于人类来说,这轻而易举。我们会瞬间解析场景,识别出沙发、台灯以及位于它们之间的那张特定桌子。然而,对于 AI 来说,这项任务——被称为 3D 指代定位 (3D Referential Grounding,或 3D-REFEXP) ——却极其困难。 ...