](https://deep-paper.org/en/paper/file-3470/images/cover.png)
信息量过载!为何大模型总是分享太多以及 PANDA 框架如何修复这一问题
引言 想象一下,你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢,我也很喜欢!你最喜欢的作者是谁?” 现在想象一下这位熟人回答道: “我也很喜欢读书!我是一名 35 岁的会计师,住在芝加哥。我有三只猫,分别叫 Mittens、Oreo 和 Luna。我患有焦虑症,每周二下午 6 点去健身房。” ...
](https://deep-paper.org/en/paper/file-3470/images/cover.png)
引言 想象一下,你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢,我也很喜欢!你最喜欢的作者是谁?” 现在想象一下这位熟人回答道: “我也很喜欢读书!我是一名 35 岁的会计师,住在芝加哥。我有三只猫,分别叫 Mittens、Oreo 和 Luna。我患有焦虑症,每周二下午 6 点去健身房。” ...
](https://deep-paper.org/en/paper/2409.19806/images/cover.png)
简介 在快速发展的人工智能领域,多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样,音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。 ...
](https://deep-paper.org/en/paper/file-3468/images/cover.png)
情感分析已经从简单地将电影评论分类为“正面”或“负面”,发展到了如今的细粒度数据分析时代。我们现在的关注点在于基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 。 我们不仅想知道用户是否快乐,还想知道他们对什么感到快乐,他们喜欢哪个具体功能,以及他们使用了什么观点词。 ...
](https://deep-paper.org/en/paper/2403.17146/images/cover.png)
如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过,你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战,威胁着健康的交流并驱赶用户。 ...
](https://deep-paper.org/en/paper/2402.13720/images/cover.png)
大语言模型 (LLMs) 彻底改变了我们与信息交互的方式,但它们长期遭受一个瓶颈的困扰: 延迟。如果你曾看着 ChatGPT 逐字逐句地敲出答案,你就亲身体验过自回归解码的局限性。由于每一个新词元 (token) 都依赖于前一个词元,模型必须按顺序生成输出。这个过程缓慢且计算效率低下,导致昂贵的 GPU 在等待内存访问时处于空闲状态。 ...
](https://deep-paper.org/en/paper/2409.14513/images/cover.png)
大型语言模型 (LLM) 是在从互联网抓取的海量数据集上训练而成的,其中通常包含敏感的个人信息、专有代码或受版权保护的作品。这带来了巨大的隐私风险: 这些模型可能会“记忆”其训练数据。如果攻击者可以查询 LLM 并确定特定文档是否属于其训练集,那么他们就成功发动了成员推断攻击 (Membership Inference Attack, MIA) 。 ...
](https://deep-paper.org/en/paper/file-3463/images/cover.png)
基于人类反馈的强化学习 (RLHF) 是 ChatGPT 和 Llama 等现代大型语言模型 (LLMs) 取得成功的秘诀。正是这一过程将原本单纯的文本预测引擎转变为乐于助人的助手。然而,这一过程中隐藏着一种复杂性: 我们很少希望 AI 只做一件事。 ...
](https://deep-paper.org/en/paper/2406.11695/images/cover.png)
随着大型语言模型 (LM) 的发展,我们正在超越简单的单轮“聊天”界面。如今,自然语言处理 (NLP) 的前沿涉及 语言模型程序 (Language Model Programs) : 即多个 LM 调用被链接在一起以解决复杂任务的精密管道。想象一个系统,它从维基百科检索信息,对其进行摘要,根据摘要进行推理,最后制定出最终答案。每一步都是一个独特的“模块”,需要其自己的提示 (prompt) 。 ...
](https://deep-paper.org/en/paper/file-3461/images/cover.png)
如果你是一名软件开发人员,你的浏览器历史记录里可能充满了像“how to reverse a list in Python (如何在 Python 中反转列表) ”或“pandas dataframe drop duplicates (pandas dataframe 去重) ”这样的搜索记录。这种根据自然语言描述找到合适代码片段的过程,被称为代码检索 (Code Retrieval) 。 ...
](https://deep-paper.org/en/paper/file-3460/images/cover.png)
你是否读过这样的句子: 因为一个生僻词,感觉像撞上了一堵墙?在英语中,你可能会被 “esoteric” 卡住,希望作者直接用 “mysterious”。而在中文里, 成语或快速迭代的网络俚语往往让挑战加倍。 ...
](https://deep-paper.org/en/paper/2406.11016/images/cover.png)
如果你曾盯着闪烁的光标等待大语言模型 (LLM) 完成一个段落,你就已经体会到了自回归生成固有的瓶颈。这些模型一次生成一个 token (词元) ,而对于每一个 token,模型都必须将海量的参数从内存搬运到计算单元。 ...
](https://deep-paper.org/en/paper/2409.19270/images/cover.png)
想象一下,你站在繁华的城市街道中央。耳边充斥着各种嘈杂的声音: 汽车的鸣笛声、孩子的叫喊声、人行道上的脚步声,或许远处还有警笛声。作为人类,你的大脑正在执行一项被称为“鸡尾酒会效应”的奇迹般的任务——你可以专注于孩子的叫喊声,而忽略汽车的喇叭声。你几乎可以瞬间从复杂的混合声音中分离出特定的声音。 ...
](https://deep-paper.org/en/paper/2407.05609/images/cover.png)
想象一下,有人递给你一个庞大的图书馆,让你把书按类别整理好。但有个问题: 你不知道有哪些类别,而且许多书同时属于多个类别 (例如,一本书可能同时关于“历史”、“战争”和“传记”) 。你没有流派清单,没有杜威十进制分类法,也没有贴好标签的样本。你得到的唯一指引只是一句模糊的说明: “把这些书按主题分类。” ...
](https://deep-paper.org/en/paper/2212.10618/images/cover.png)
如果你玩过像《上古卷轴: 天际》、《巫师》或《天外世界》这样的大型开放世界角色扮演游戏 (RPG) ,你就会知道,游戏的沉浸感很大程度上取决于你遇到的人。非玩家角色 (NPC) 是这些世界的生命线。他们给你发布任务,解释这片土地的历史,并对你的决定做出反应。 ...
](https://deep-paper.org/en/paper/2410.07549/images/cover.png)
引言 想象一下,你看到这样一条新闻标题: “Jordan 昨晚打了一场精彩的比赛。” 作为人类,你甚至不用思考就会去寻找上下文。我们是在谈论篮球传奇迈克尔·乔丹 (Michael Jordan) 吗?还是中东国家约旦 (Jordan) ?亦或是当地高中的某个名叫 Jordan 的球员?这种将文本中的提及词 (如“Jordan”) 映射到知识库 (如维基百科页面) 中特定、唯一身份的过程,被称为实体链接 (Entity Linking, EL) 。 ...
](https://deep-paper.org/en/paper/2410.03421/images/cover.png)
在数字信息的浩瀚海洋中,找到你确切需要的内容往往依赖于寥寥数语: 关键短语 (Keyphrases) 。 关键短语生成 (Keyphrase Generation, KPG) 的任务是自动阅读文档并生成一份简洁的短语列表,以概括其核心概念。理想情况下,这些关键短语就像索引一样,有助于信息检索、文本摘要和分类。 ...
](https://deep-paper.org/en/paper/file-3453/images/cover.png)
语言很少是私人的事情。当中士向一个小队大声下达命令,或者广告商向数百万人广播商业广告时,一条单一的信息必须同时被多人理解。然而,在人工智能和“涌现通信 (Emergent Communication) ”领域,我们大多将语言作为一种一对一的游戏来研究: 一个说话者,一个听众。 ...
](https://deep-paper.org/en/paper/2406.16264/images/cover.png)
引言 在大语言模型 (LLM) 的快速演进中,有一个指标已成为主要的炫耀资本: 上下文窗口 。 我们已经从只能记住几个段落的模型,发展到了像 Gemini 1.5 Pro 和 GPT-4o 这样的庞然大物,它们号称能一次性处理数十万甚至数百万个 token。理论上,你现在可以将整本小说喂给 AI 并针对书的内容进行提问。 ...
](https://deep-paper.org/en/paper/2407.08582/images/cover.png)
像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们可以编写代码、总结小说并回答复杂的查询。然而,它们有一个众所周知的缺陷: 幻觉 (Hallucination) 。 LLM 可能会自信地声称埃菲尔铁塔位于柏林,或者编造从未发生过的法庭案件。 ...
](https://deep-paper.org/en/paper/2409.08160/images/cover.png)
如果你曾发现自己不自觉地替别人补全句子的后半部分,你就直观地理解了语言处理是具有预测性的。当我们阅读或聆听时,不仅仅是被动地接收词汇;我们的大脑会根据上下文积极地预测接下来的内容。 ...