](https://deep-paper.org/en/paper/2404.14741/images/cover.png)
超越检索:'Generate-on-Graph' 如何解决知识图谱问答中的缺失环节
像 GPT-4 和 Llama-3 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们能力惊人,但也存在有据可查的缺陷: 它们会产生幻觉 (凭空捏造) ,而且它们的知识是静态的——截止于它们的训练日期。 ...
](https://deep-paper.org/en/paper/2404.14741/images/cover.png)
像 GPT-4 和 Llama-3 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们能力惊人,但也存在有据可查的缺陷: 它们会产生幻觉 (凭空捏造) ,而且它们的知识是静态的——截止于它们的训练日期。 ...
](https://deep-paper.org/en/paper/file-3132/images/cover.png)
引言 在当今的大数据时代,电子健康记录 (EHRs) 是一座巨大的信息宝库。它们掌握着训练 AI 模型的关键,这些模型能够预测疾病、推荐治疗方案并优化医院运营。然而,这些数据被锁在一道巨大的伦理和法律大门之后: 患者隐私。美国的 HIPAA 等法规强制规定,在数据用于二次研究之前,必须严格移除受保护的健康信息 (PHI) ——如姓名、日期、身份证号和地点。 ...
](https://deep-paper.org/en/paper/file-3131/images/cover.png)
简介 想象一下,给 AI 展示一张男人站在海滩上的照片。你问它: “这里发生了什么?”AI 自信地回答: “一个男人站在海滩上,手里拿着冲浪板。” 但有一个问题: 根本就没有冲浪板。 ...
](https://deep-paper.org/en/paper/file-3130/images/cover.png)
想象一下,你正在尝试教计算机在视频中找到特定的时刻——比如“网球挥拍”或“点球”——但你不允许在训练期间向计算机展示这些具体动作的任何视频示例。你只能用文字来描述它们。 ...
](https://deep-paper.org/en/paper/2405.13077/images/cover.png)
简介 想象一下,你有一个被编程为永远不对小偷打开的金库。然而,这个金库也非常聪明。如果一个小偷走上前说: “打开门”,金库会拒绝。但是,如果小偷问: “你为什么不打开门?”金库则会热心地回答: “因为你看起来像个小偷;我只给维修工开门。”于是小偷穿上工作服说: “我是维修工。”金库对自己的逻辑感到满意,便把门打开了。 ...
](https://deep-paper.org/en/paper/2407.04528/images/cover.png)
引言: 寻求高效适配 在当前的人工智能领域,我们正目睹两大主流趋势的剧烈碰撞。一方面是 检索增强生成 (Retrieval-Augmented Generation, RAG) , 这种技术允许大型语言模型 (LLM) 访问外部数据 (如公司的维基百科或书籍库) 以准确回答问题。另一方面是 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) , 这是一套旨在让这些庞大模型适应特定任务的方法,而无需承担从头重新训练的高昂成本。 ...
](https://deep-paper.org/en/paper/file-3127/images/cover.png)
引言 “书籍是人类进步的阶梯。” 当你读到这句话时,你不会想象一个由精装小说堆砌而成的木梯靠在墙上。你会想象出提升、进步的概念,或者是一个人站在书堆上伸手去够灯泡。你的大脑可以毫不费力地处理这个隐喻 。 你理解“书籍” (本体) 与“阶梯” (喻体) 有着共同的特质: 它们都能让你登得更高。 ...
](https://deep-paper.org/en/paper/file-3126/images/cover.png)
如何在没有标准答案的情况下为 LLM 提示词打分: GLaPE 介绍 在大型语言模型 (LLM) 快速发展的世界里,寻找完美的提示词 (Prompt) 就像施展魔法一样。措辞上的细微变化——从“让我们一步步思考 (Let’s think step by step) ”变为“深呼吸,然后解决这个问题”——可能会极大地改变模型输出的准确性。 ...
](https://deep-paper.org/en/paper/file-3125/images/cover.png)
引言 想象一下,你正在一个藏书百万的图书馆里寻找特定的信息。你向图书管理员提出了一个模糊的请求。普通的图书管理员可能会根据关键词给你一份书单。而更优秀的图书管理员可能会先问一些澄清性问题来理解你的意图,然后整理出一份清单,亲自检查这些书以确保它们是相关的,最后进行交叉比对,给你一份终极阅读清单。 ...
](https://deep-paper.org/en/paper/2410.15096/images/cover.png)
逃离模式崩塌: GDPO 如何为 LLM 对齐带来多样性 如果你曾大量使用像 ChatGPT 或 Claude 这样的现代大型语言模型 (LLM) ,你可能已经注意到了一种规律。虽然它们非常有帮助且安全,但它们也可能有些重复。同样的问题问五次,你经常会得到五个大同小异的答案——而且通常是用同样的“安全”、中立的语气写成的。 ...
](https://deep-paper.org/en/paper/2406.11768/images/cover.png)
简介 想象一个自主机器人在城市中穿行。它听到一声响亮的喇叭声,紧接着是轮胎的尖啸声。基础音频系统可能仅将其标记为“车辆喇叭”和“打滑声”。但人类——或真正智能的代理——能理解其中的含义: 可能发生了事故,或者险些相撞。声音不仅仅是一个标签;它是关于一个正在发生的复杂场景的线索。 ...
](https://deep-paper.org/en/paper/2406.12527/images/cover.png)
FuseGen: 协作式 AI 智能体如何生成更优质的训练数据 在当前的人工智能领域,我们正目睹一种“大卫与歌利亚”般的态势。一方面,我们拥有“歌利亚”——像 GPT-4、Llama-2 和 Claude 这样的大型预训练语言模型 (PLM) 。这些模型能力惊人,但计算成本高昂、速度慢,且难以部署在边缘设备或对隐私敏感的环境中。 ...
](https://deep-paper.org/en/paper/2311.07682/images/cover.png)
在快速发展的自然语言处理 (NLP) 世界中,我们通常痴迷于模型学到了什么。我们希望它们学习语法、推理、编程以及关于世界的既定事实。但任何玩过大型语言模型 (LLM) 的人都知道,它们经常也会学到我们不希望它们学到的东西。它们从互联网上通过社会偏见,记住了敏感的训练数据 (如电话号码) ,并且学会了“捷径” (shortcuts) ——即在没有真正理解问题的情况下解决问题的懒惰启发式规则。 ...
](https://deep-paper.org/en/paper/2406.19934/images/cover.png)
引言 想象一下,给电脑看一张厨房乱糟糟的照片,然后问它: “冰箱上贴的日历显示是哪一年?” 对于人类来说,这是一个多步骤的过程。首先,你会扫视房间找到冰箱。其次,你会寻找冰箱上的日历。第三,你会凑近看清上面的文字。最后,你会根据看到的月份和日期推断出年份。 ...
](https://deep-paper.org/en/paper/2407.00361/images/cover.png)
目前让大型语言模型 (LLM) 保持事实准确性的标准是检索增强生成 (Retrieval Augmented Generation) ,简称 RAG。其前提很简单: 在 LLM 回答问题之前,一个独立的“检索器”系统会扫描数据库,找到相关文档,并将它们粘贴到 LLM 的上下文窗口中。 ...
](https://deep-paper.org/en/paper/2407.00263/images/cover.png)
在过去几年里,像 CLIP、BLIP-2 和 GPT-4V 这样的视觉语言模型 (VLMs) 彻底改变了计算机理解世界的方式。它们可以为照片生成标题,回答有关视觉场景的问题,甚至根据文本生成艺术作品。我们通常将它们的成功归功于训练数据的巨大规模——从互联网上抓取的数十亿图像-文本对。 ...
](https://deep-paper.org/en/paper/2406.14859/images/cover.png)
引言 GPT-4 和 Llama 等大型语言模型 (LLM) 的兴起彻底改变了我们与技术交互的方式。我们用它们来编程、写作和分析数据。然而,随着这些模型能力的增强,安全领域的“猫鼠游戏”也在不断升级。用户和研究人员都发现了绕过这些系统内置道德护栏的方法——这一过程被称为越狱 (Jailbreaking) 。 ...
](https://deep-paper.org/en/paper/2406.12618/images/cover.png)
自然语言处理 (NLP) 的当前时代被一个巨大的悖论所定义。我们构建了那些在十年前几乎无法想象的模型——大语言模型 (LLMs) 。它们能写代码、创作诗歌,并能对复杂问题进行推理。然而,在很大程度上,我们几乎不知道它们实际上是 如何 工作的。它们是黑盒。 ...
](https://deep-paper.org/en/paper/2406.13912/images/cover.png)
在计算机视觉飞速发展的世界里,我们通常认为“越多”就意味着“越好”。更多的数据、更多的参数,以及——最近出现的——更多的文字。 多年来,图像描述 (Image Captioning) 模型主要基于像 COCO 这样的数据集进行训练,其中的描述可能仅仅是一句简单的: “一只狗坐在椅子上。” 这很准确,但也同样干瘪。随着大型语言模型 (LLMs) 和多模态模型 (如 GPT-4V) 的兴起,研究人员发现了一个新技巧: 生成式图像描述丰富化 (Generative Caption Enrichment, GCE) 。 与其使用简短的人工撰写描述,不如让 LLM 生成细节详尽、长达一段话的描述。 ...
](https://deep-paper.org/en/paper/file-3113/images/cover.png)
引言: 微调的沉重负担 我们正处于大语言模型 (LLMs) 的黄金时代。从 LLaMA 到 GPT-J,这些模型展示了令人难以置信的生成能力。然而,这里有一个巨大的陷阱: 规模。随着参数量飙升至数十亿,针对特定下游任务 (如数学推理或专业问答) 微调这些庞然大物所需的计算资源,让许多研究人员和学生望尘莫及。 ...