](https://deep-paper.org/en/paper/2406.11909/images/cover.png)
解锁 LoRA 的隐藏潜力:子空间混合方法
现代大型语言模型 (LLM) (如 GPT-4 和 LLaMA 3) 的规模令人咋舌。虽然它们的性能令人印象深刻,但为了特定的下游任务去适配这些庞然大物是一场计算噩梦。你根本无法承担为每个新任务更新所有参数的代价。 ...
](https://deep-paper.org/en/paper/2406.11909/images/cover.png)
现代大型语言模型 (LLM) (如 GPT-4 和 LLaMA 3) 的规模令人咋舌。虽然它们的性能令人印象深刻,但为了特定的下游任务去适配这些庞然大物是一场计算噩梦。你根本无法承担为每个新任务更新所有参数的代价。 ...
](https://deep-paper.org/en/paper/2406.08811/images/cover.png)
训练大型语言模型 (LLM) 有点像为一位非常挑剔的食客准备一顿饭。你拥有巨大的食材库——包含数学题、编程挑战、医学文献、日常聊天记录等各种数据集。目标是“烹制”出一个能精通所有这些技能的模型。 ...
](https://deep-paper.org/en/paper/2407.06677/images/cover.png)
引言 Transformer 架构已成为自然语言处理领域无可争议的王者。从最初的《Attention Is All You Need》论文到如今像 GPT-4 这样的大型语言模型 (LLM) ,其基本配方在很大程度上保持不变: 深层堆叠的相同层。数据从底部进入,逐层按顺序处理,直到从顶部输出。 ...
](https://deep-paper.org/en/paper/2410.07054/images/cover.png)
像 LLaMA 和 GPT 这样的大型语言模型 (LLM) 彻底改变了我们进行机器翻译 (MT) 的方式。传统的翻译系统是专门为将语言 A 转换为语言 B 而训练的,与此不同,LLM 本质上是“通晓多种语言”的。你只需让它们翻译一句话,它们通常都能做得不错。这种能力被称为上下文学习 (In-Context Learning, ICL) ,它允许模型仅根据几个示例甚至简单的指令进行翻译。 ...
](https://deep-paper.org/en/paper/2410.10867/images/cover.png)
打破参考摘要的束缚: 一种鲁棒的无参考AI摘要评估指标 在自然语言处理 (NLP) 快速发展的世界中,生成式摘要 (Abstractive Summarization) ——即 AI 阅读文档并撰写简洁、原创摘要的能力——仍然是一项“圣杯”级任务。然而,构建这些系统只是战斗的一半。另一半,往往更加棘手,那就是评估它们。我们要如何知道一篇摘要是否真的好? ...
](https://deep-paper.org/en/paper/2309.06256/images/cover.png)
像 GPT-4 和 Claude 这样的大语言模型 (LLM) 之所以引人注目,不仅因为它们能够生成文本,更因为它们能够遵循指令并遵守人类价值观——这一过程被称为“对齐” (Alignment) 。然而,这种对齐是有隐性成本的。当我们使用基于人类反馈的强化学习 (RLHF) 来教导模型变得“有用、诚实且无害”时,往往会导致灾难性遗忘 (catastrophic forgetting) 。模型可能变得彬彬有礼,但它在翻译、阅读理解或常识推理方面的表现却突然下降了。 ...
](https://deep-paper.org/en/paper/2410.03743/images/cover.png)
在大语言模型 (LLM) 的世界里,有监督微调 (SFT) 是将预训练基础模型适配到特定任务 (无论是数学推理、编程还是遵循指令) 的标准流程。普遍共识是,只要我们打乱训练数据并运行足够的 epoch,模型就能有效地学习。 ...
](https://deep-paper.org/en/paper/2312.03631/images/cover.png)
图像描述 (Image captioning) 是计算机视觉与自然语言处理 (NLP) 最基础的交叉领域之一。它要求机器观察一张图像,并用人类语言描述出来。近年来,像 BLIP 和 GIT 这样的视觉语言模型 (VLMs) 已经变得非常流畅,能够生成细节丰富且语法正确的描述。 ...
](https://deep-paper.org/en/paper/file-3382/images/cover.png)
你是否注意过,你在流媒体服务或购物应用上使用得越多,它似乎越倾向于推荐那几样流行的东西?你看了一部大片,突然间你的整个信息流就被“Top 10”榜单占据,将那些小众的独立电影或独特的商品推向了被遗忘的角落。 ...
](https://deep-paper.org/en/paper/2410.11462/images/cover.png)
引言 想象一下当你读到这句话时: “The Golden Gate Bridge has been obnebulated every morning this week, limiting visibility.” (金门大桥这周每天早上都被obnebulated了,限制了能见度。) 除非你是19世纪文学的狂热读者,否则你可能以前从未遇到过 obnebulated 这个词。然而,你可能完全理解了这句话。你知道它是一个动词 (多亏了“-ed”后缀以及它位于“has been”之后的位置) ,而且关于“visibility” (能见度) 的上下文线索表明它的意思大概是“被云遮挡”或“被雾笼罩”。 ...
](https://deep-paper.org/en/paper/file-3380/images/cover.png)
超越手动词表: 利用连续提示消除 AI 偏见 BERT 和 RoBERTa 等预训练语言模型 (PLMs) 已经彻底改变了自然语言处理 (NLP) 领域。它们是情感分析、仇恨言论检测等各种应用的中坚力量。然而,这些模型背后隐藏着一个巨大的隐患: 它们继承了海量训练数据中存在的人类偏见。 ...
](https://deep-paper.org/en/paper/2410.09949/images/cover.png)
引言 仅仅在十年间,信息消费的架构发生了根本性的变化。我们已经从精心策划的新闻广播时代,进入了算法“过滤气泡 (filter bubbles) ”的时代。在这个时代,社交媒体的信息流不断强化我们要有的信念,并将我们与对立观点隔绝开来。这种环境已被证明是错误信息的温床——那些耸人听闻且往往虚假的故事,传播速度和广度都远超真相。 ...
](https://deep-paper.org/en/paper/2409.13935/images/cover.png)
引言: 未曾诉说之故事的痛苦 玛雅·安杰卢 (Maya Angelou) 曾经写道: “没有什么比心中怀着一个未曾诉说的故事更痛苦的了。”对于数以百万计的读者来说,这种痛苦因缺乏代表性而加剧。当你翻开一本书时,你在寻找一面镜子——一个长得像你、生活像你、面临着你能理解的困境的角色。这些被称为“镜像书籍 (mirror books) ”。它们验证身份,培养归属感,并显著提高阅读参与度,尤其是在教育领域。 ...
](https://deep-paper.org/en/paper/2406.11234/images/cover.png)
引言 在自然语言处理 (NLP) 的世界里,情感分析早已超越了简单地将影评分类为“正面”或“负面”。今天,我们面对的是复杂的句子,其中同时存在关于不同事物的多种观点。试想这句话: “食物很美味,但服务太糟糕了。” (“The food was delicious, but the service was terrible.”) * 如果简单地贴上“中性”的标签,那将是极具误导性的。我们需要知道什么是好的 (食物) ,以及什么*是坏的 (服务) 。 ...
](https://deep-paper.org/en/paper/2404.10774/images/cover.png)
引言 大型语言模型 (LLMs) 彻底改变了我们要交互信息的方式,从总结复杂的报告到回答开放式问题。然而,它们存在一个持久且众所周知的缺陷: 幻觉 (hallucination) 。 LLM 能够自信地生成听起来合理但在事实上错误的陈述。 ...
](https://deep-paper.org/en/paper/2402.14672/images/cover.png)
引言 我们已进入一个大型语言模型 (LLM) (如 GPT-4) 在文本处理上展现出类似人类掌控力的时代。它们可以总结文章、编写代码并流畅地对话。然而,人工智能研究者的野心远不止于处理文本。最终的目标是创造通用智能体 : 一种不仅能说话,还能在现实世界中行动以解决复杂任务的 AI。 ...
](https://deep-paper.org/en/paper/2401.06935/images/cover.png)
想象一下,你读到一个关于你阿姨的孟加拉语故事。原文写道: “莎拉是我的阿姨。我真的很喜欢她的笑话。”为了把这个故事分享给一位说英语的朋友,你把它粘贴到了翻译工具里。结果输出变成了: “莎拉是我的阿姨。我真的很喜欢他的笑话。” ...
](https://deep-paper.org/en/paper/file-3373/images/cover.png)
想象一下,你是一名机器学习工程师,负责为招聘平台部署一个大型语言模型 (LLM)。你运行了一个标准的偏差评估脚本,它返回了一个分数: 0.42 。 现在你该怎么做? ...
](https://deep-paper.org/en/paper/2410.02521/images/cover.png)
想象一下,你正在新加坡听一段对话。你可能会听到这样一句话: “I thought all trains 都是 via Jurong East 去到 Pasir Ris。” 对于单语者来说,这很混乱。但对于双语者来说,这非常自然。这种现象被称为语码转换 (Code-Switching, CS) ——即在一次对话中流畅地在两种或多种语言之间交替。 ...
](https://deep-paper.org/en/paper/2405.13009/images/cover.png)
想象一下你正在备考一门很难的历史考试。你在做练习题时,答错了一道关于法国大革命的题目。你不仅仅是去查那道具体题目的正确答案;你意识到自己对时间线有一个根本性的误解。于是你给自己写了一条笔记: “在确定因果关系之前,一定要检查事件的日期。” ...