](https://deep-paper.org/en/paper/file-3176/images/cover.png)
超越“我不知道”:教 AI 修正我们无法回答的问题
引言 想象一下,你正在阅读一份晦涩难懂的法律合同或一本复杂的医学期刊。你不是这方面的专家,所以你求助于 AI 助手——比如 ChatGPT 或专门的文档阅读器——来帮助你理解。基于你有限的理解,你问了一个问题: “如果租客粉刷墙壁,会有什么惩罚?” ...
](https://deep-paper.org/en/paper/file-3176/images/cover.png)
引言 想象一下,你正在阅读一份晦涩难懂的法律合同或一本复杂的医学期刊。你不是这方面的专家,所以你求助于 AI 助手——比如 ChatGPT 或专门的文档阅读器——来帮助你理解。基于你有限的理解,你问了一个问题: “如果租客粉刷墙壁,会有什么惩罚?” ...
](https://deep-paper.org/en/paper/file-3175/images/cover.png)
像 GPT-4、Claude 和 Gemini 这样的大型语言模型 (LLM) 的爆发,为我们带来了惊人的自然语言处理能力。但伴随着强大能力而来的是一个棘手的问题: 我们如何知道这些模型是否真的表现良好? ...
](https://deep-paper.org/en/paper/2410.17099/images/cover.png)
“群体智慧” (Wisdom of Crowds) 是一个和统计学一样古老的概念。这个想法很简单: 如果你让足够多的人猜测罐子里软糖的数量,他们猜测的平均值往往惊人地接近真实值——甚至比任何单一专家的猜测都要准确。 ...
](https://deep-paper.org/en/paper/2410.10093/images/cover.png)
超越 SFT: 利用广义自模仿学习 (GSIL) 对齐大语言模型 大语言模型 (LLM) 令人印象深刻,但原始的预训练模型就像才华横溢却难以管教的学生。它们对世界了解很多,但并不总是知道如何表现、遵循指令或分步解决复杂问题。为了解决这个问题,我们执行一个称为对齐 (alignment) 的过程。 ...
](https://deep-paper.org/en/paper/2402.02872/images/cover.png)
解构上下文学习: 隐藏在 LLM 内部的双塔机制 像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 展现出一种迷人的涌现能力,即上下文学习 (In-Context Learning, ICL) 。 这种现象是指,当你在提示词中提供少量示例 (演示) 时——比如“英语: Cat,法语: Chat”——模型能够立即学会这种模式并完成一个新的例子,而无需任何参数更新或重新训练。 ...
](https://deep-paper.org/en/paper/2402.11725/images/cover.png)
大语言模型 (LLM) 如 ChatGPT 和 Llama-2 已成为我们的数字对话伙伴,帮助我们起草邮件、总结新闻以及回答复杂问题。但随着我们越来越依赖它们获取信息,一个关键问题随之而来: 模型是否有意识形态?如果有,这种意识形态能否被劫持? ...
](https://deep-paper.org/en/paper/2410.03429/images/cover.png)
想象一下,你正在参加一场历史多项选择题考试。实际上你不懂历史,但你发现了一个规律: 每当答案中包含“从不 (never) ”这个词时,它就是正确选项。于是你拿了满分。但你学会历史了吗?没有。你只是学会了一条统计学捷径。 ...
](https://deep-paper.org/en/paper/2311.09799/images/cover.png)
引言 在人工智能领域,大语言模型 (LLMs) 常被描述为“压缩的知识”。它们吞噬了来自数百万人类作者的各种文本,涵盖了广泛的信仰、文化和价值观。然而,当我们与像 GPT-4 这样的模型聊天时,我们往往会收到一个单一、经过润色且代表“多数人观点”的回答。 ...
](https://deep-paper.org/en/paper/2404.12866/images/cover.png)
简介 在人工智能飞速发展的今天,多模态大语言模型 (Multimodal Large Language Models, MLLMs) ——即能够同时理解文本和图像的模型——已成为新的前沿领域。这些模型的一个关键能力是 上下文学习 (In-Context Learning, ICL) 。 这指的是模型仅通过观察提示 (prompt) 中提供的几个示例,就能学会一项新任务的能力,且无需更新其权重 (即不需要微调) 。 ...
](https://deep-paper.org/en/paper/2410.04545/images/cover.png)
引言 我们已经进入了数字创作的新时代。过去,“写作辅助”仅仅意味着拼写错误单词下的红色波浪线。随着 GPT-4 等大型语言模型 (LLM) 的出现,写作已演变为一个共创过程。人类提示,AI 起草,人类润色,AI 再进行打磨。这种范式的转变引发了关于作者身份、创造力和质量的深刻问题。 ...
](https://deep-paper.org/en/paper/file-3165/images/cover.png)
如果你一直在关注代码专用大语言模型 (LLMs) 的爆发式增长,你可能看过各种排行榜。每周似乎都有一个新的开源模型宣称在 HumanEval 等基准测试上能够匹敌 GPT-4。看起来我们正处于自动编程的黄金时代。 ...
](https://deep-paper.org/en/paper/2402.15729/images/cover.png)
如果你曾让大语言模型 (LLM) 比如 ChatGPT 或 Llama 解决一个复杂的数学应用题,你可能已经注意到了一个令人沮丧的模式。有时,它完全理解逻辑,但在简单的算术上却一败涂地 (比如产生幻觉认为 \(25 \times 14 = 300\)) 。而另一些时候,它编写了一个 Python 脚本来解决问题,但这个脚本解的却是完全错误的方程。 ...
](https://deep-paper.org/en/paper/2409.10053/images/cover.png)
像 Llama 和 Mistral 这样的大型语言模型 (LLM) 是工程学的奇迹,它们具备流畅的推理能力和创造力。然而,它们也容易产生幻觉、偏见和有毒的输出。当我们想要纠正这些行为时,传统的工具箱 (如微调) 可能计算成本高昂,有时甚至会损害模型的通用能力。 ...
](https://deep-paper.org/en/paper/2406.12775/images/cover.png)
大型语言模型 (LLM) 通常让人感觉与魔法无异。它们能写诗,能用 Python 编程,还能总结历史。然而,尽管它们能力超群,却经常在需要简单顺序逻辑的问题上栽跟头——研究人员称之为“多跳查询” (multi-hop queries) 。 ...
](https://deep-paper.org/en/paper/2406.14643/images/cover.png)
引言 想象一下,你让 AI 写一篇关于“如何烘焙酸种面包”的教程。你肯定不希望看到满屏的纯文字;你想要的是分步骤的说明,中间穿插着面团发酵、划痕图案以及最终金黄面包的照片。或者,你可能希望 AI 创作一本儿童读物,每一页的文字和插图都能自然地融合在一起。 ...
](https://deep-paper.org/en/paper/2409.16783/images/cover.png)
随着大型语言模型 (LLM) 不仅融入代码生成,还涉足法律建议等各个领域,安全性的重要性达到了前所未有的高度。我们知道,这些模型是在庞大且未经过滤的互联网数据上训练出来的,这意味着它们本质上“知道”如何生成仇恨言论、非法行为指南或带有偏见的内容。挑战在于如何防止它们输出这些内容。 ...
](https://deep-paper.org/en/paper/2406.19502/images/cover.png)
像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 在回答复杂的科学和数学问题方面已经变得出奇地擅长。如果你问一个 LLM: “为什么 ReLU 激活函数的训练速度比 Sigmoid 快?”,它很可能会给你一段连贯且具有教科书质量的回答,谈论梯度和饱和问题。 ...
](https://deep-paper.org/en/paper/2410.24190/images/cover.png)
人工智能已迅速从新奇事物转变为日常工具。我们使用大语言模型 (LLM) 来起草邮件、总结新闻以及解释复杂的概念。这种使用背后隐含着一种中立性的假设——我们通常将这些模型视为信息的客观合成者。 ...
](https://deep-paper.org/en/paper/2401.15207/images/cover.png)
如果你曾经尝试过微调像 LLaMA 或 RoBERTa 这样的大语言模型 (LLM) ,你很可能撞上过“显存墙”。当你下载好模型,设置好 PyTorch 训练循环,点击运行,结果立刻弹出了令人绝望的 CUDA 显存溢出 (Out of Memory, OOM) 错误。 ...
](https://deep-paper.org/en/paper/2401.06432/images/cover.png)
简介 我们正处于基础模型 (Foundation Models, FMs) 的时代。从聊天机器人到代码助手,大型语言模型 (LLMs) 在零样本和少样本学习中展现了惊人的能力。然而,当前的 AI 生态系统存在一个巨大的摩擦点: 隐私 。 ...