](https://deep-paper.org/en/paper/2501.00316/images/cover.png)
迷失在翻译中:为何基础模型在现实世界地图应用中举步维艰
想象一下你身处一个陌生的城市。你打开地图应用,寻找一家正在营业、步行 10 分钟以内且评分在 4.0 以上的咖啡店。你还需要在一张布满图标和街道名称的地图上找到它的位置。对于人类来说,这是一项标准的导航任务,涉及视觉扫描、空间推理和阅读理解。 ...
](https://deep-paper.org/en/paper/2501.00316/images/cover.png)
想象一下你身处一个陌生的城市。你打开地图应用,寻找一家正在营业、步行 10 分钟以内且评分在 4.0 以上的咖啡店。你还需要在一张布满图标和街道名称的地图上找到它的位置。对于人类来说,这是一项标准的导航任务,涉及视觉扫描、空间推理和阅读理解。 ...
](https://deep-paper.org/en/paper/7905_the_jailbreak_tax_how_use-1720/images/cover.png)
大型语言模型 (LLM) 安全领域常被描述为一场高风险的猫鼠游戏。一方面,开发者构建护栏来对齐模型,防止其生成制造炸弹说明或仇恨言论等有害内容。另一方面,“红队人员”和对手则开发“越狱 (Jailbreaks) ”手段——旨在绕过这些防御措施的巧妙提示词。 ...
](https://deep-paper.org/en/paper/2502.13581/images/cover.png)
引言 在推荐系统领域,我们正见证一场范式转变。该领域正从传统的基于分类的方法——即从巨大的固定池中选择最佳物品——转向生成式推荐 (Generative Recommendation, GR) 。 受 GPT 等大语言模型 (LLM) 成功的启发,GR 模型将用户行为视为一种语言。它们对用户动作进行“分词 (Tokenize)”,并训练模型以自回归的方式预测序列中的下一个 Token。 ...
](https://deep-paper.org/en/paper/11927_functional_alignment_can-1718/images/cover.png)
引言 现代人工智能的一大未解之谜是“黑盒”问题。我们知道深度神经网络行之有效——通常效果惊人——但我们要并不总是知道它们如何表征所处理的数据。模型将一只鸟分类为鸟,是因为它看到了翅膀,听到了歌声,还是因为它检测到了背景中的某种特定纹理? ...
](https://deep-paper.org/en/paper/2502.17427/images/cover.png)
想象一下,你正在为一种新药进行临床试验,或者在一个高流量的电子商务网站上测试一项新功能。在传统的“A/B 测试”世界中,你可能会抛硬币决定: 50% 的人接受治疗,50% 的人作为对照。你将此过程运行一个月,收集数据,然后分析结果。 ...
](https://deep-paper.org/en/paper/2503.18114/images/cover.png)
透视思维: 利用流形几何解锁神经网络动力学 神经网络究竟是如何学习的? 如果你观察原始数据——数十亿个突触权重的变化——你看到的是一场浮点数调整的混沌风暴。如果你观察损失曲线,你看到的是一条向下的线。但这二者都无法告诉你网络如何构建信息。 ...
](https://deep-paper.org/en/paper/2502.19758/images/cover.png)
在自然科学和物理学中,对称性即一切。无论你是在分析分子的能量、流体的动力学,还是晶体的结构,自然界的基本定律通常在某些变换下保持不变——比如旋转、反射或平移。 ...
](https://deep-paper.org/en/paper/2502.03444/images/cover.png)
如果你一直在关注生成式 AI 的爆发,那你一定对潜在扩散模型 (Latent Diffusion Models, LDMs) 并不陌生,它是 Stable Diffusion 等重量级模型背后的架构。LDMs 的秘诀在于效率: 它们不在像素空间逐个像素地生成图像,而是在压缩的“潜在空间 (latent space) ”中进行操作。 ...
](https://deep-paper.org/en/paper/5689_discovering_symbolic_cogn-1711/images/cover.png)
在神经科学和心理学的世界里, 预测与理解之间始终存在着一种张力。 如果你只想单纯预测人类或动物接下来会做什么,你可以在他们的行为数据上训练一个庞大的循环神经网络 (RNN) 。RNN 可能会达到很高的准确率,但它就像一个“黑盒”。它给你答案,却不会告诉你大脑如何解决问题。它无法提供科学理论。 ...
](https://deep-paper.org/en/paper/2506.05584/images/cover.png)
引言 如果你上过机器学习的入门课程,你可能知道表格数据的一条黄金法则: 梯度提升决策树 (GBDT) 为王。 虽然深度学习彻底改变了图像 (CNN、ViT) 和文本 (LLM) 领域,但表格数据——构成商业和医疗数据库绝大多数的行和列——仍然是 XGBoost、LightGBM 和 CatBoost 的坚固堡垒。 ...
](https://deep-paper.org/en/paper/2502.14074/images/cover.png)
石头、剪刀、LLM?为什么 AI 裁判会困惑以及如何修复它 如果你曾经尝试过给创意写作文章打分,你就会知道这有多主观。文章 A 比文章 B 好吗?也许吧。但是如果你把文章 B 和文章 C 比较,然后再把 C 和 A 比较,你可能会发现自己陷入了一个逻辑循环,每一篇文章似乎都在某些特定方面比上一篇更好。这就是非传递性 (non-transitivity) 的问题,事实证明,人工智能也深受其害。 ...
](https://deep-paper.org/en/paper/6011_efficient_and_separate_au-1708/images/cover.png)
想象一下,你想给同事发送一份机密蓝图。你不想使用标准的加密方式,因为一个名为 top_secret_plans.enc 的文件对任何拦截者来说都太显眼了。相反,你决定将蓝图隐藏在一张无害的猫的照片里。这就是隐写术 (Steganography) : 一种在眼皮底下隐藏信息的艺术。 ...
](https://deep-paper.org/en/paper/2506.01054/images/cover.png)
引言 想象这样一个未来: 安全关键型系统——如自动驾驶汽车或医疗诊断工具——由神经网络控制。在这些网络获准上路或进入医院之前,它们要经过一个严格的过程,称为形式化验证 (formal verification) 。 这一过程会生成数学证明,保证即使攻击者试图欺骗网络,网络也能表现正确。 ...
](https://deep-paper.org/en/paper/2412.14803/images/cover.png)
预测未来能教会机器人行动吗?深入解析视频预测策略 (VPP) 在构建能够处理从叠衣服到组装电子产品等各种任务的通用机器人的征途中,视觉至关重要。对于机器人与世界互动而言,它必须能看到这个世界。然而,我们教机器人“看”的方式在很大程度上一直是静态的。我们通常给它们输入单张图像,实际上是要求它们基于冻结在时间中的快照做出复杂的决策。 ...
](https://deep-paper.org/en/paper/2505.04278/images/cover.png)
引言 在时间序列预测的世界里——无论是预测股价、医院入院率还是电力需求——知道将会发生什么仅仅是战斗的一半。另一半,往往也是更关键的一半,是知道我们对这一预测有多大把握。 ...
](https://deep-paper.org/en/paper/2507.01830/images/cover.png)
想象一下,你正在经营一家大型在线商店。每分钟都有新商品加入你的库存。你的目标是根据相似度对这些商品进行分组——将所有的“复古皮夹克”归为一个簇,将“无线游戏鼠标”归为另一个簇。 ...
](https://deep-paper.org/en/paper/2502.16849/images/cover.png)
在深度学习的现代时期,我们通常认为“先预训练再微调”的范式是理所当然的。我们在海量的无标签文本上训练一个巨大的模型 (如 BERT 或 GPT) ,然后在特定任务上使用少量标签数据对其进行微调。从经验上看,我们知道这效果奇佳。它不仅稳定了训练过程,还大幅减少了所需的标签数据量。 ...
](https://deep-paper.org/en/paper/1490_leveraging_diffusion_mode-1695/images/cover.png)
引言: 寻找不存在之物的悖论 想象一下,你是一名保安,任务是抓捕商店扒手。然而,你这辈子从未见过扒手,你只观察过诚实的顾客。这就是图级异常检测 (Graph-Level Anomaly Detection, GLAD) 面临的根本问题。 ...
](https://deep-paper.org/en/paper/8764_counterfactual_graphical_-1694/images/cover.png)
人类推理能力的基石在于我们能够想象从未存在过的世界。当我们回顾一个决定时,我们会问: “如果我当时接受了在伦敦的那份工作会怎样?”或者“如果我们早一周开始治疗,病人还能活下来吗?” ...
](https://deep-paper.org/en/paper/2506.07308/images/cover.png)
引言: AI 时代的隐私困境 想象一下你正在使用语音助手。为了理解你的指令,系统需要分析你说话的内容。然而,你的语音录音包含的不仅仅是你说的词句;它还包含你的性别、口音、大致年龄,甚至可能包含你的身份信息。 ...