](https://deep-paper.org/en/paper/2405.03279/images/cover.png)
LLM 能终身学习吗?深度解析 RECIPE:终身模型编辑的新标准
想象一下,你训练了一个最先进的大型语言模型 (LLM) 。它能说流利的英语,会写 Python 代码,还能理解复杂的逻辑推理。但有一个问题: 它仍然认为英国首相是鲍里斯·约翰逊,或者它不知道昨天发生的重大地缘政治事件。 ...
](https://deep-paper.org/en/paper/2405.03279/images/cover.png)
想象一下,你训练了一个最先进的大型语言模型 (LLM) 。它能说流利的英语,会写 Python 代码,还能理解复杂的逻辑推理。但有一个问题: 它仍然认为英国首相是鲍里斯·约翰逊,或者它不知道昨天发生的重大地缘政治事件。 ...
](https://deep-paper.org/en/paper/2410.08905/images/cover.png)
想象一下,你正在尝试学习一门新语言。你花了几个月的时间精通了法语。然后,你决定学习西班牙语。但问题来了: 当你开始进行西班牙语动词变位时,你莫名其妙地忘记了你学过的所有法语单词。 ...
](https://deep-paper.org/en/paper/2406.13560/images/cover.png)
在自然语言处理 (NLP) 的世界里,我们经常惊叹于 Transformer 等大型语言模型 (LLM) 的复杂架构。我们分析注意力机制、前馈网络和巨大的参数量。然而,我们经常忽略这些模型那个朴实无华的“前门”: 分词 (Tokenization) 。 ...
](https://deep-paper.org/en/paper/file-3310/images/cover.png)
语言充满了玄机。请看这两个句子: She ran to the mountains. (她跑向群山。) She ran in the mountains. (她在群山中奔跑。) 从句法上看,它们几乎一模一样。两者都遵循“主语 + 动词 + 介词短语”的结构。一个基础的解析器可能会看到完全相同的树形结构: 一个名词,一个动词,和一个修饰语。 ...
](https://deep-paper.org/en/paper/2401.07103/images/cover.png)
引言 在人工智能领域,我们见证了机器写作方式的巨大转变。从早期笨拙的聊天机器人,到 GPT-4 和 LLaMA 等模型流畅、富有创意的散文,自然语言生成 (NLG) 的发展速度惊人。但这带来了一个新的、令人困惑的问题: 我们如何知道 AI 写的东西到底“好不好”? ...
](https://deep-paper.org/en/paper/2409.16198/images/cover.png)
在自然语言处理 (NLP) 的现代纪元,我们的选择多得令人眼花缭乱。如果你今天打开 Hugging Face 模型中心,你会看到成千上万的模型。对于试图构建文本排序系统 (如搜索引擎或 RAG 检索增强生成流程) 的学生或从业者来说,这种丰富性创造了一个悖论。 ...
](https://deep-paper.org/en/paper/file-3307/images/cover.png)
如果你是一名软件开发人员,或者正在学习成为一名开发人员,你可能对“周五下午的提交”并不陌生。你刚刚完成了一个复杂的错误修复,身心俱疲,最不想做的事情就是写一段详细的解释,说明 为什么 你修改了这十行代码。于是你输入 git commit -m "fix bug" 然后就下班了。 ...
](https://deep-paper.org/en/paper/file-3306/images/cover.png)
引言 想象一下,你正在浏览 Twitter (现在的 X) 。你看到一个帖子,用户 A 发表了一条关于饮食和锻炼的评论。这看起来似乎无伤大雅。但随后,用户 B 愤怒地回复,声称用户 A 在对其进行身材羞辱 (body-shaming) 。用户 A 感到困惑,回复道: “我不是故意要冒犯你;我只是分享医生告诉我的话。” ...
](https://deep-paper.org/en/paper/file-3305/images/cover.png)
引言 在自然语言处理 (NLP) 领域,我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec,再到像 BERT 这样的 Transformer 模型。通常的假设是,较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义,为什么还要用 TFIDF 来统计词频呢? ...
](https://deep-paper.org/en/paper/file-3304/images/cover.png)
引言 在民主社会中,论辩 (Argumentation) 是决策的基石。无论是政治家倡导政策变革,学生撰写议论文,还是论坛用户试图改变他人的观点,有效辩论的能力都是一项关键素养。 ...
](https://deep-paper.org/en/paper/2407.01906/images/cover.png)
大语言模型 (LLM) 的发展格局目前正受到两股相互冲突力量的定义: 对大规模参数的追求与有限计算资源的制约。我们希望模型无所不知,但我们并不总是有足够的硬件来训练它们。 ...
](https://deep-paper.org/en/paper/2307.00279/images/cover.png)
我们训练大型语言模型 (LLMs) 的方式正在进化。在早期,一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代,我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。 ...
](https://deep-paper.org/en/paper/2410.15148/images/cover.png)
在自然语言处理 (NLP) 的世界里,我们正处于一个资源极其丰富的时代。我们拥有像 BERT 和 RoBERTa 这样的大型预训练模型,也有像 HuggingFace Hub 这样托管着数十万个数据集的平台。 理论上,这是一个金矿。如果你正在构建一个模型来检测推文中的情绪,但手头的标注数据很少,那么直接微调原始的 BERT 模型可能不是最佳选择。相反,你应该寻找一个“垫脚石”——即一个中间任务。也许先在电影评论情感数据集上微调 BERT,然后再在你的推文情绪数据上微调,会产生更好的结果。 ...
](https://deep-paper.org/en/paper/2406.17419/images/cover.png)
大型语言模型 (LLM) 更长上下文窗口的竞赛已成为过去一年的决定性趋势之一。我们从只能阅读几页内容的模型,迅速发展到像 Gemini-1.5-Pro 和 GPT-4o 这样的模型,它们号称拥有 128k、200k 甚至 100 万 token 的上下文窗口。从理论上讲,这使得 AI 能够同时摄入数百份财务报告、法律合同或学术论文,并回答有关它们的复杂问题。 ...
](https://deep-paper.org/en/paper/2411.03550/images/cover.png)
引言: 沟通的隐形节奏 想象一下,你正试图向朋友解释一个复杂的概念。你不会脱口而出一串随机的高密度关键词,而是会控制节奏。你会把复杂的术语与简单的解释混合在一起;你会构建句子结构,让听众能预测你接下来的内容。这种本能的节奏控制正是语言学家所说的信息分布 (Information Distribution) 。 ...
](https://deep-paper.org/en/paper/2406.14739/images/cover.png)
简介 在大语言模型 (LLM) 时代, 上下文学习 (In-Context Learning, ICL) 已成为一种主导范式。其理念看似简单: 你无需微调模型的权重,只需在提示词 (Prompt) 中提供几个例子 (范例) ,模型就能学会其中的模式。 ...
](https://deep-paper.org/en/paper/2411.00324/images/cover.png)
引言 想象一下,你拿到了一份长达 50 页的企业会议记录,并被问到一个问题: “为什么市场部在预算问题上不同意工程部的意见?” 为了回答这个问题,你不会去总结整个会议。你不会关心开场的寒暄、茶歇时的闲聊,或者无关的 IT 更新。你会快速扫描文档,识别出市场部和工程部讨论财务的具体片段,按重要性对它们进行排序,然后综合出一个答案。 ...
](https://deep-paper.org/en/paper/2402.04437/images/cover.png)
在互联网上浩瀚的非结构化文本海洋中——维基百科页面、新闻文章、财务报告——蕴藏着等待被组织的宝贵数据。多年来,信息抽取 (Information Extraction, IE) 领域一直是这个数字时代的“矿工”,通过挖掘段落来寻找事物之间的关系。 ...
](https://deep-paper.org/en/paper/2406.18695/images/cover.png)
简介 在当前的人工智能领域,大型语言模型 (LLM) 如 GPT-4、Claude 和 Gemini 已经变得无处不在。它们拥有令人难以置信的推理能力,但仍然容易出现幻觉、偏见和推理错误。对于研究人员和工程师来说,解决这些错误的标准方案通常是微调或引导模型。 ...
](https://deep-paper.org/en/paper/2406.09330/images/cover.png)
想象你是一家大型电商聚合平台的数据科学家。你拥有一个来自亚马逊的产品数据库,以及另一个来自 Google Shopping 的数据库。你的任务是将它们合并。 一边,你有一条记录: iPhone 13, 128GB, Midnight。 另一边是: Apple iPhone 13 - Black - 128 GB Storage。 ...