](https://deep-paper.org/en/paper/2410.04784/images/cover.png)
为什么 LLM 更信任教科书而非推文:揭示冲突数据中的学习偏好
想象一下,你正在浏览互联网,试图寻找某位历史人物的出生日期。你发现了两个相互冲突的来源。一个是历史学家撰写的学术传记的扫描 PDF。另一个是充斥着拼写错误的社交媒体评论。你信任哪一个? ...
](https://deep-paper.org/en/paper/2410.04784/images/cover.png)
想象一下,你正在浏览互联网,试图寻找某位历史人物的出生日期。你发现了两个相互冲突的来源。一个是历史学家撰写的学术传记的扫描 PDF。另一个是充斥着拼写错误的社交媒体评论。你信任哪一个? ...
](https://deep-paper.org/en/paper/2410.04727/images/cover.png)
在大型语言模型 (LLM) 快速发展的格局中,业界正在大力推动更长的上下文窗口。我们已经从只能处理几段文字的模型,发展到了号称能处理 128k、200k 甚至 100 万 token 的巨兽。但这里有一个关键问题: 仅仅因为模型接受了 100 万个 token,就意味着它真的记住了它们吗? ...
](https://deep-paper.org/en/paper/file-3108/images/cover.png)
人工智能与医疗的融合不再是未来的概念;它正在当下发生。从诊断皮肤病变到预测患者预后,AI 模型正逐渐成为临床医生手中的有力工具。然而,伴随着强大能力而来的是“黑盒”问题。深度学习模型,尤其是在医学影像领域的模型,以其不透明性而闻名。我们要么知道它们决定了什么,却很少知道为什么。 ...
](https://deep-paper.org/en/paper/2406.11030/images/cover.png)
引言: 火锅困境 想象一下,你走进北京的一家餐馆,点了一份“火锅”。端上来的是一个传统的铜锅,里面是清水加姜片,配上切成薄片的羊肉和芝麻蘸酱。现在,再想象一下在重庆做同样的事情。你面前将会是一锅翻滚的牛油,里面塞满了辣椒和花椒,配菜则是鸭肠。同样的名字,却是完全不同的文化体验。 ...
](https://deep-paper.org/en/paper/2408.13987/images/cover.png)
大型语言模型 (LLMs) 彻底改变了人工智能的格局,这在很大程度上归功于它们执行上下文学习 (In-Context Learning, ICL) 的能力。这是一种无需任何参数更新,仅通过观察提示 (Prompt) 中提供的几个例子 (示例/demonstrations) ,模型就能学会解决任务的能力。 ...
](https://deep-paper.org/en/paper/2406.12402/images/cover.png)
如果你曾在社交媒体的评论区花过时间,你很可能遇到过那种让你感觉不对劲的论点。这不一定是因为事实有误,而是因为连接这些事实的逻辑讲不通。 也许有人争辩说: “如果我们不立即禁止所有汽车,地球就完了。”你知道这是一个极端的立场,忽略了中间的解决方案,这是一种典型的虚假两难 (False Dilemma) 。 或者你读到: “我叔叔每天吃培根,活到了 90 岁,所以培根是健康的。”这就是以偏概全 (Faulty Generalization) ——拿单个数据点来套用整个群体。 ...
](https://deep-paper.org/en/paper/2410.00131/images/cover.png)
引言 人工智能领域已经被像 ChatGPT 和 LLaMA 这样的大型语言模型 (LLM) 彻底改变了。这些模型拥有惊人的能力,但它们对数据的渴望也是巨大的。传统上,训练或微调这些庞然大物需要将海量数据集聚合到一个中央服务器中。然而,在现实世界中,数据并不存在于单一的数据中心。它存在于我们的手机、笔记本电脑和去中心化的本地服务器中——通常受到像 GDPR 这样严格的隐私法规保护。 ...
](https://deep-paper.org/en/paper/2406.16078/images/cover.png)
当你面对一个需要多步解决的复杂问题时,你会如何处理? 心理学研究表明,人类通常从“启发式 (heuristics) ”——即心理捷径或浅层联想——开始。如果你在找钥匙,你可能会先看厨房柜台,仅仅因为“钥匙经常放在那里”,而不是因为你记得把它们放在那里。然而,当你排除了选项并接近解决方案时,你的思维会发生转变。你会变得更加理性,推断出你最后一次出现在哪里。 ...
](https://deep-paper.org/en/paper/2402.16315/images/cover.png)
如果你试玩过最近的大型视觉语言模型 (LVLMs) ,比如 GPT-4V、LLaVA 或 InstructBLIP,你可能会印象深刻。你可以上传一张凌乱房间的照片并询问“桌子上有什么?”,或者上传一张梗图并问“这有什么好笑的?”,模型通常能给出极其准确的回答。这些模型已经架起了像素与文本之间的桥梁,实现了高层次的推理和描述。 ...
](https://deep-paper.org/en/paper/2409.14750/images/cover.png)
引言 在人工智能飞速发展的世界里,像 GPT-4V 这样的多模态大语言模型 (MLLM) 以其谈论图像的能力让我们眼花缭乱。你可以上传一张冰箱的照片,模型就能为你推荐食谱。然而,在这种流畅对话的表象之下,隐藏着一个顽疾: 视觉定位 (Visual Grounding) 。 ...
](https://deep-paper.org/en/paper/file-3099/images/cover.png)
大型语言模型 (LLM) 是如饥似渴的阅读者。在预训练阶段,它们吞噬了从开放网络上抓取的海量数据集。虽然这使它们能够学习语法、推理和世界知识,但也意味着它们无意中记住了敏感信息——从个人身份信息 (PII) 到有毒的仇恨言论。 ...
](https://deep-paper.org/en/paper/2312.05934/images/cover.png)
引言 想象一下,你是一名大学生,即将参加一门你从未学过的科目的高难度考试——比如高级天体物理学或者是某个虚构国家的历史。你有两种准备方式。选项 A: 在考前把自己关在房间里一周,背诵教科书里的每一个事实,直到头痛欲裂。选项 B: 完全不复习,但在考试时,允许你把打开的教科书放在桌上,边考边查答案。 ...
](https://deep-paper.org/en/paper/2407.10930/images/cover.png)
引言 在快速发展的大语言模型 (LLM) 领域,工程师和研究人员在试图提升模型性能时,往往面临一个两难的选择: 是应该花时间设计更好的提示 (Prompt Engineering) ,还是应该收集数据来微调模型权重 (Fine-tuning) ? ...
](https://deep-paper.org/en/paper/2404.14122/images/cover.png)
如果你曾经修过神经机器翻译 (NMT) 的课程,你可能学过该领域的“黄金法则”: 数据为王。要构建一个能够进行英德互译的系统,传统上你需要数百万对高质量、对齐的句子。如果你想要一个多语言模型,你需要覆盖每一个你打算支持的翻译方向的海量数据集。 ...
](https://deep-paper.org/en/paper/2410.04484/images/cover.png)
引言 阅读是现代社会生存所需的最基本技能之一,然而,评估一个人对所读内容的理解程度仍然是一个复杂的挑战。传统上,衡量阅读理解能力的唯一实用方法是通过标准化测试——给某人一段文章,然后问他们问题。 ...
](https://deep-paper.org/en/paper/2210.04359/images/cover.png)
社会如何凝聚在一起?在社会学中,答案往往是团结 (Solidarity) ——一种将个体联系在一起的凝聚力。但团结并非一成不变的概念;它随着战争、经济危机和文化变革而发生转变。要理解这些转变,需要分析几十年来人们说过的数百万个词汇,而在过去,对于人类研究人员来说,要在如此大的规模上完成这项任务几乎是不可能的。 ...
](https://deep-paper.org/en/paper/2406.13439/images/cover.png)
AI 法官的崛起 在人工智能飞速发展的格局中,我们面临着一个瓶颈: 评估。随着大型语言模型 (LLM) 的能力越来越强,评估它们的输出对人类来说已经变得极其昂贵且耗时。如果你正在开发一个新模型,你不可能为了给成千上万个回答打分而等待人工标注者数周时间。 ...
](https://deep-paper.org/en/paper/2411.05764/images/cover.png)
引言 我们生活在一个信息爆炸的时代。每天,新闻媒体、社交网络和论坛都充斥着关于公司业绩的各种声明。“X 公司的收入增长了 20%”,或者“Y 公司的债务负担翻了一番”。对于投资者和分析师来说,依据错误信息行事的代价极高。对抗错误信息的解药是验证——即根据原始来源文件 (如提交给美国证券交易委员会 SEC 的 10-K 年度报告和 10-Q 季度报告) 来核对这些声明。 ...
](https://deep-paper.org/en/paper/2410.10864/images/cover.png)
在快速发展的人工智能世界中,我们往往过度迷恋单一指标: 准确率 (accuracy) 。 我们只想知道模型是否给出了正确的答案。但在医疗诊断、法律分析或自动驾驶等高风险环境中,仅仅“正确”是不够的。我们还需要知道模型对其决策有多大的信心 (confident) 。 ...
](https://deep-paper.org/en/paper/file-3089/images/cover.png)
像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 是语言奇才,能够轻松创作诗歌、代码和文章。然而,一旦问它们一个多步骤的小学数学题,它们往往会跌跌撞撞,表现不佳。 解决这个问题的标准方案是 思维链 (Chain-of-Thought, CoT) 提示——在要求模型解答新问题之前,先给它几个逐步解决类似问题的例子。这被称为少样本学习 (few-shot learning)。直觉上,你展示的例子越多,模型的表现应该越好。但这里存在一个硬性上限: 上下文窗口 (context window) 。 ...