](https://deep-paper.org/en/paper/2410.01490/images/cover.png)
突破长度限制:分布分析如何扩展 LLM 上下文窗口
引言 想象一下,你在读一本悬疑小说,但当你读到最后一章时,却完全忘记了前几页提到的线索。这就是许多大型语言模型 (LLM) 面临的现实。虽然像 LLaMA-2 这样的模型功能强大,但它们通常是在固定的“上下文窗口” (例如 4,000 个 Token) 下训练的。如果让它们处理一份 10,000 个 Token 的文档,它们就会束手无策。 ...
](https://deep-paper.org/en/paper/2410.01490/images/cover.png)
引言 想象一下,你在读一本悬疑小说,但当你读到最后一章时,却完全忘记了前几页提到的线索。这就是许多大型语言模型 (LLM) 面临的现实。虽然像 LLaMA-2 这样的模型功能强大,但它们通常是在固定的“上下文窗口” (例如 4,000 个 Token) 下训练的。如果让它们处理一份 10,000 个 Token 的文档,它们就会束手无策。 ...
](https://deep-paper.org/en/paper/2410.08436/images/cover.png)
引言 在人工智能领域,像 GPT-4 和 Llama-3 这样的大语言模型 (LLM) 就像是聪明但偶尔不靠谱的学生。问它们一个复杂的问题,它们可能会给你正确的答案。但是,如果你问它们是为什么得出这个结论的,解释有时可能是一团混乱的幻觉,或者是逻辑上的凭空跳跃。 ...
](https://deep-paper.org/en/paper/2305.18952/images/cover.png)
在计算机科学研究领域,基准测试通常依赖于“静态”数据。我们在 2018 年的维基百科转储数据上训练模型,测试关于这些数据的问题,然后就大功告成了。但在现实世界中,信息是流动的。突发新闻、法律变更以及新的科学发现每时每刻都在发生。一个擅长检索历史但无法索引今日新闻的搜索引擎,在功能上是无用的。 ...
](https://deep-paper.org/en/paper/2410.00519/images/cover.png)
引言 在当前的人工智能时代,大型语言模型 (LLM) 常被誉为“通用学习器”。我们已经看到它们写代码、创作十四行诗,甚至通过律师资格考试。这种多功能性导致了一个日益普遍的假设: 只要你向 Transformer 投喂足够的数据,它就能学会任何事物的底层模型。 ...
](https://deep-paper.org/en/paper/file-3064/images/cover.png)
如果你让学生解方程 \(x^2 + x = 3\),他们可能会拿出一张纸,使用求根公式,然后给你一个包含平方根的精确无理数。但如果你稍微改动一下问题,变成“求方程 \(x^2 + x = 3\) 的整数解”,学生的行为就会改变。他们会进行求解,意识到结果不是整数,然后正确地回答: “没有整数解。” ...
](https://deep-paper.org/en/paper/file-3063/images/cover.png)
简介 在大型视觉语言模型 (LVLM) 快速发展的世界中,人工智能观察图像并提出智能问题的能力与其回答问题的能力同样重要。我们依靠海量的“视觉问答” (VQA) 对数据集来训练这些模型。然而,存在一个瓶颈: 为图像创建高质量的多项选择题对人类来说是劳动密集型的,而当机器尝试这样做时,它们往往会陷入冗余的循环中。 ...
](https://deep-paper.org/en/paper/2410.09554/images/cover.png)
想象一下,你正在为一家拥有数百万种产品的在线零售商构建搜索系统,或者为包含数十万个类别的维基百科文章构建标签系统。这就是极端多标签分类 (Extreme Multi-label Classification, XMC) 的领域。 ...
](https://deep-paper.org/en/paper/file-3061/images/cover.png)
得益于 ChatGPT 和 Llama 等大语言模型 (LLM) ,自然语言处理 (NLP) 的能力实现了飞跃式提升。我们经常看到这些模型写诗、写代码或轻松总结邮件。然而,当我们将其应用于严谨的信息抽取 (IE) 任务时,缺陷便开始显现。 ...
](https://deep-paper.org/en/paper/2409.05224/images/cover.png)
这就好比拥有了一个“通用翻译器”——一个能够在数百种语言之间流畅翻译的单一 AI 模型,这个梦想从未如此接近现实。诸如 NLLB (No Language Left Behind) 和 M2M-100 等模型已经证明,大规模的预训练 Transformer 模型可以处理令人眼花缭乱的语言对。 ...
](https://deep-paper.org/en/paper/2406.12474/images/cover.png)
引言: 语言的“黑盒” 想象一下,你正在观察一个人工智能的大脑。你问它“阿根廷 (Argentina) ”这个词是什么意思。AI 没有向你展示地图或国旗,而是递给你一张写满数字的纸条: [0.0088871, -0.02218, ...]。 ...
](https://deep-paper.org/en/paper/2410.03594/images/cover.png)
想象一下,你是一名医生,正在阅读一位患者在 Reddit 上发的帖子。患者写道: “我从周四开始就没吃 12mg 的药了……抖得厉害,很痛苦。” 作为人类,你立刻就能明白几件事: ...
](https://deep-paper.org/en/paper/2403.02966/images/cover.png)
让 LLM 更诚实: 总结知识图谱如何提升问答效果 像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们能写诗、写代码,并回答复杂的问题。然而,它们遭受着一个众所周知的缺陷: 幻觉 (Hallucinations) 。 由于它们的知识被“冻结”在训练时的参数中,它们经常弄错事实,尤其是关于那些冷门或不断演变的信息。 ...
](https://deep-paper.org/en/paper/2509.18156/images/cover.png)
引言 “她因为从顶尖大学毕业而获得了一份高薪工作。” 当我们读到这样的句子时,大脑会瞬间建立起因果联系。我们假设学位导致了录用通知。但真的是这样吗?也许她本身就是一位才华横溢的程序员,无论母校是哪里,她都能得到那份工作。为了确定学位是否是真正的原因,理想情况下我们需要观察一个平行宇宙: 在这个宇宙中,她没有去那所大学,但拥有完全相同的技能和背景,看看她是否仍然得到了那份工作。 ...
](https://deep-paper.org/en/paper/2308.10819/images/cover.png)
当智能模型变笨时: 分析 LLM 中的提示注入 想象一下,你聘请了一位高效且极度热情的私人助理。你递给他们一堆文件并说: “总结第 5 页的财务报告。”助理匆忙离开,阅读文件,然后回来。但他们没有给出总结,而是说: “按照要求,我已经删除了你所有的日历预约。” ...
](https://deep-paper.org/en/paper/file-3052/images/cover.png)
你是否有过这样的对话: 你以为对方听懂了你的意思,结果十分钟后发现他们完全不知所云?在人类交流中,为了避免这种情况,需要一个持续、微妙的检查、澄清和确认过程。这被称为 对话共识建立 (Conversational Grounding) 。 ...
](https://deep-paper.org/en/paper/2406.13069/images/cover.png)
引言: 复制粘贴的困境 在生成式 AI 时代,有一个问题或许比其他任何问题都更令人关注: 大型语言模型 (LLM) 究竟是在创造新内容,还是仅仅是一台精密的复制粘贴机器? ...
](https://deep-paper.org/en/paper/2406.13556/images/cover.png)
引言 在自然语言处理 (NLP) 这个快速发展的领域,我们通常将大型语言模型 (LLMs) 视为静态的知识库。我们将它们训练好,冻结参数,然后投入使用。但是,驱动这些模型的数据——特别是从 X (前 Twitter) 等社交媒体平台抓取的数据——绝非一成不变。它是一股鲜活的、不断变化的,且往往充满动荡的人类意识流。 ...
](https://deep-paper.org/en/paper/2404.18533/images/cover.png)
审计审计者: 如何严格度量 AI 概念解释 在飞速发展的大语言模型 (LLM) 世界中,我们要面对一个“黑盒”问题。我们知道这些模型处理海量文本并构建了世界的内部表征,但要理解它们 如何 做到这一点仍然是一个巨大的挑战。当一个 LLM 输出一句关于“计算机安全”的话时,具体是哪些神经元被激活了?模型是真的理解了“安全”这个抽象概念,还是仅仅在进行模式匹配? ...
](https://deep-paper.org/en/paper/2212.10529/images/cover.png)
引言: 超越“脏话” 20世纪60年代,一位名为 Joseph Weizenbaum 的计算机科学家创造了 ELIZA,这是一个旨在模仿心理治疗师的简单聊天机器人。它并不理解语言,只是在匹配模式。然而,用户发现自己在情感上对其产生了依恋,倾诉着自己的秘密。时光飞逝六十年,如今我们拥有了像 GPT-4 和 Llama-2 这样的大语言模型 (LLMs) 。这些模型比 ELIZA 领先光年,能够进行推理、编写代码并进行深度细致的对话。 ...
](https://deep-paper.org/en/paper/file-3047/images/cover.png)
引言 我们生活在一个大型语言模型 (LLM) 的时代,像 GPT-4、LLaMA 和 Mistral 这样的模型正在通过律师资格考试、解决复杂的数学证明题并编写代码。我们根据“排行榜”——即一系列测试其推理能力、世界知识和问题解决能力的大规模基准测试——来评判它们。 ...