](https://deep-paper.org/en/paper/2404.18424/images/cover.png)
PromptReps:如何无需训练将 LLM 转化为检索器
引言 在自然语言处理 (NLP) 飞速发展的今天,像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已成为生成文本、编写代码和回答问题的事实标准。它们理解上下文的能力无与伦比。然而,一个巨大的挑战依然存在: 我们如何在不耗尽预算的情况下,利用这些生成式巨头在海量数据集中有效地查找信息? ...
](https://deep-paper.org/en/paper/2404.18424/images/cover.png)
引言 在自然语言处理 (NLP) 飞速发展的今天,像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已成为生成文本、编写代码和回答问题的事实标准。它们理解上下文的能力无与伦比。然而,一个巨大的挑战依然存在: 我们如何在不耗尽预算的情况下,利用这些生成式巨头在海量数据集中有效地查找信息? ...
](https://deep-paper.org/en/paper/2405.01535/images/cover.png)
大语言模型 (LLMs) 的爆发在人工智能领域制造了一个独特的瓶颈。我们拥有能写诗、写代码和起草法律简报的模型,但我们正逐渐缺乏可靠的方法来为它们评分。 历史上,人类是裁判。但人类不仅速度慢、成本高,而且往往缺乏一致性。为了解决这个问题,行业转向了“大模型即裁判” (LLM-as-a-Judge) 的范式,即使用强大的专有模型 (如 GPT-4) 来评估较小模型的输出。这种方法效果不错,但也引入了新问题: 高昂的成本、缺乏透明度 (闭源) ,以及数据隐私问题。 ...
](https://deep-paper.org/en/paper/2410.08027/images/cover.png)
在高维空间保守秘密: 一种私有词嵌入的新方法 自然语言处理 (NLP) 已经深深融入我们的日常生活,从智能手机上的预测文本到分析医疗记录的大型语言模型 (LLM) 。然而,这些模型往往太擅长记忆了。它们经常会记住训练数据中的具体细节,从而导致一个严重的问题: 隐私泄露。如果一个模型是在敏感的电子邮件或临床笔记上训练的,攻击者就有可能提取出这些私人信息。 ...
](https://deep-paper.org/en/paper/2410.05210/images/cover.png)
引言 人类拥有一种通过多种感官理解世界的先天能力。我们可以毫不费力地结合视觉线索和语言来解读复杂的场景。如果你看到一张“一匹马骑着一个人”的图片,你会立刻识别出这种荒谬感,并将其与“一个人骑着一匹马”区分开来。这种理解不同组成部分 (物体、属性、关系) 如何组合形成意义的能力被称为组合推理 (Compositional Reasoning) 。 ...
](https://deep-paper.org/en/paper/2410.00334/images/cover.png)
想象一下学习骑自行车。现在,再想象一下学会骑车这件事导致你立刻忘记了如何走路。这种荒谬的情况对于许多人工智能模型来说却是现实。这种现象被称为灾难性遗忘 (Catastrophic Forgetting) , 它是持续学习 (Continual Learning, CL) 领域的一个主要障碍,在这个领域中,模型必须学习一系列任务而不清除其先前的知识。 ...
](https://deep-paper.org/en/paper/2408.12163/images/cover.png)
引言 想象一下你是一位教授,要求学生写一篇论文。如果学生只写了一版草稿就立刻上交,质量可能还过得去,但很可能缺少一些深度。现在,想象一下你要求学生先写一版草稿,通读一遍,根据具体标准 (如“更简洁一点”或“增加参考文献”) 批评自己的作品,然后再写出最终版本。结果几乎肯定会更好。 ...
](https://deep-paper.org/en/paper/2408.10764/images/cover.png)
大语言模型 (LLM) 无疑令人印象深刻。它们能写诗、调试代码并总结历史。然而,任何深入使用过它们的人都知道,它们并非完美无缺。它们可能会产生幻觉、生成有害内容,或者在复杂的推理任务中失败。 ...
](https://deep-paper.org/en/paper/2403.16184/images/cover.png)
引言 想象一下走进一个凌乱的客厅。你看到的不仅仅是“沙发”、“猫”和“遥控器”。你瞬间就能理解它们之间错综复杂的联系: 猫睡在沙发上,遥控器在垫子下面,而画挂在墙上。这种对物体及其关系的结构化理解,计算机视觉研究人员称之为场景图 (Scene Graph) 。 ...
](https://deep-paper.org/en/paper/2410.05222/images/cover.png)
引言 在大语言模型 (LLM) 时代,我们热衷于各种基准测试。看着那些庞大的排行榜,看到某个模型“在 MMLU 上达到 85% 的准确率”或“在 HellaSwag 上达到 90%”,这些汇总的数字虽然能让我们对模型能力有个大致了解,但往往掩盖了一个关键问题: 模型并不是在所有方面都同样出色。 ...
](https://deep-paper.org/en/paper/2407.16222/images/cover.png)
像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的,但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”,是自发地通过上下文习得,而不是系统性地学习。 ...
](https://deep-paper.org/en/paper/2311.16201/images/cover.png)
引言: AI 艺术领域的巨大分歧 如果你关注了过去几年 AI 生成图像的爆炸式增长,你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是,在这些模型的底层,存在着根本性的技术分歧。 ...
](https://deep-paper.org/en/paper/file-3496/images/cover.png)
无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义 在过去几年中,自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统,跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ,它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。 ...
](https://deep-paper.org/en/paper/2406.18528/images/cover.png)
在自然语言处理 (NLP) 飞速发展的今天,我们已经到了用人工智能来评估人工智能的阶段。大型语言模型 (LLM) 的能力已经非常强大,研究人员现在使用它们作为“裁判”来对机器翻译 (MT) 和文本摘要的质量进行评分。这就是所谓的基于 LLM 的评估。 ...
](https://deep-paper.org/en/paper/2406.14517/images/cover.png)
大型语言模型 (LLM) 正在重塑互联网。从生成新闻文章到编写代码,机器生成内容的数量正在呈爆炸式增长。但这股能力背后也有阴暗面: 幻觉、偏见,以及大规模制造虚假信息的可能性。如果网络上充斥着数以百万计的 AI 生成文章,我们要如何信任所读到的内容?更进一步说,如果未来的 AI 模型是基于今天 AI 的输出进行训练的,我们不仅会陷入质量退化的反馈循环,还会面临更多问题。 ...
](https://deep-paper.org/en/paper/2404.11216/images/cover.png)
如果你在大语言模型 (LLM) (如 GPT-4 或 Llama 2) 上花过时间,那你很可能熟悉提示工程 (Prompt Engineering) 这一“黑魔法”。我们要花数小时调整措辞,加上“让我们一步步思考 (Let’s think step by step) ”,或者重组段落,只为了让模型输出正确的答案。这个过程感觉不像是工程,更像是在施法——改一个词,魔法生效了;改另一个词,魔法就失效了。 ...
](https://deep-paper.org/en/paper/file-3492/images/cover.png)
想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?” ...
](https://deep-paper.org/en/paper/2410.12011/images/cover.png)
想象一下,不是通过识别字母或单词来阅读一本书,而是通过看页面的连续截图来阅读。这本质上就是 基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同,这些模型将文本视为图像。 ...
](https://deep-paper.org/en/paper/file-3490/images/cover.png)
想象一下,试图阅读一封写于一千年前的信件。纸张破烂不堪,因虫蛀或水渍而缺字少句,而且语法遵循着几个世纪前就不再使用的规则。此外,作者还使用了一个 7 世纪特定小村庄的俚语,而这个词在任何现代字典中都查不到。 ...
](https://deep-paper.org/en/paper/2406.10471/images/cover.png)
引言 想象一下,你有一位私人助理,他读过你写过的每一封邮件,确切地知道你喜欢哪些电影,并且完美地理解你的写作风格。现在,想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...
](https://deep-paper.org/en/paper/2404.06762/images/cover.png)
想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...