](https://deep-paper.org/en/paper/file-3492/images/cover.png)
大语言模型真的能检测仇恨言论吗?行为模式与失效分析
想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?” ...
](https://deep-paper.org/en/paper/file-3492/images/cover.png)
想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?” ...
](https://deep-paper.org/en/paper/2410.12011/images/cover.png)
想象一下,不是通过识别字母或单词来阅读一本书,而是通过看页面的连续截图来阅读。这本质上就是 基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同,这些模型将文本视为图像。 ...
](https://deep-paper.org/en/paper/file-3490/images/cover.png)
想象一下,试图阅读一封写于一千年前的信件。纸张破烂不堪,因虫蛀或水渍而缺字少句,而且语法遵循着几个世纪前就不再使用的规则。此外,作者还使用了一个 7 世纪特定小村庄的俚语,而这个词在任何现代字典中都查不到。 ...
](https://deep-paper.org/en/paper/2406.10471/images/cover.png)
引言 想象一下,你有一位私人助理,他读过你写过的每一封邮件,确切地知道你喜欢哪些电影,并且完美地理解你的写作风格。现在,想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...
](https://deep-paper.org/en/paper/2404.06762/images/cover.png)
想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...
](https://deep-paper.org/en/paper/2411.05045/images/cover.png)
在当前的人工智能领域,我们经常面临一个两难选择: 是选择智能还是效率?像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明,能够理解较小模型无法捕捉的细微差别和语境。然而,它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...
](https://deep-paper.org/en/paper/2407.06004/images/cover.png)
想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠? ...
](https://deep-paper.org/en/paper/2407.15814/images/cover.png)
我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时,你输出的并不是一个精确的数学计算,而是在表达一种模糊的信念程度。值得注意的是,尽管缺乏精确性,人类通常能在这一点上达成共识。我们本能地知道,“很可能 (likely) ”代表的概率比“可能 (possible) ”高,但比“几乎确定 (almost certain) ”低。 ...
](https://deep-paper.org/en/paper/file-3483/images/cover.png)
在人工智能飞速发展的版图中,两大巨头虽各领风骚却鲜有联手: 深度学习推荐模型 (DLRMs) 和 大型语言模型 (LLMs) 。 DLRMs 是你的 TikTok 信息流、亚马逊推荐列表和 Netflix 主页背后的无声引擎。它们擅长“协同过滤”——基于数百万用户的数学模式来预测你可能喜欢什么。然而,它们通常是“黑盒”;它们能告诉你看什么,但很少能用人类的语言解释为什么。 ...
](https://deep-paper.org/en/paper/2407.02352/images/cover.png)
想象一下,你让一个 AI 描述一张你家客厅的照片。模型自信地回答: “有一辆红色的复古摩托车停在咖啡桌旁。”你再次看向照片。根本没有摩托车,只有一盆红色的盆栽。 ...
](https://deep-paper.org/en/paper/2406.09790/images/cover.png)
引言: 遭遇 NLP 的瓶颈 如果你一直关注自然语言处理 (NLP) 的进展,特别是在句向量 (Sentence Embeddings) 领域,你可能已经注意到了一个趋势。我们已经从简单的词向量 (如 GloVe) 发展到复杂的基于 Transformer 的模型 (如 BERT) ,再到现在的大型语言模型 (LLM,如 LLaMA 和 Mistral) 。 ...
](https://deep-paper.org/en/paper/2406.19898/images/cover.png)
引言 “重要的不是你说什么,而是你怎么说。” 这句古老的格言通常适用于人际关系,意味着语气和表达方式与信息本身同样重要。出人意料的是,这条规则同样严格适用于大型语言模型 (LLMs) 。 ...
](https://deep-paper.org/en/paper/2401.02731/images/cover.png)
像 GPT-4 和 Llama 3 这样的大型语言模型 (LLMs) 已经成为自然语言处理领域事实上的“专家”。它们处理复杂语言模式的能力很大程度上归功于其巨大的规模。这一普遍认知被称为缩放定律 (scaling law),它表明要获得更智能的模型,我们只需把它们做得更大。 ...
](https://deep-paper.org/en/paper/2410.01383/images/cover.png)
当你在搜索引擎中输入查询时,你希望立即获得相关的结果。然而,在幕后,速度与准确性之间始终存在着一场拉锯战。现代信息检索 (IR) 系统通常依赖于一个两步流程来平衡这一权衡: 首先是一个快速的“检索器 (Retriever)”来查找广泛的候选文档集,紧接着是一个较慢但更精确的“重排序器 (Reranker)”对它们进行排序。 ...
](https://deep-paper.org/en/paper/2409.14082/images/cover.png)
引言 想象一下你正在复习一场高难度的数学考试。打开课本时,你不会只是按顺序阅读每一页,你会发现章节是按主题划分的: 几何、代数、微积分和统计学。当你在这个几何题型上遇到困难时,你不会通过解微积分方程来练习。相反,你会进行针对性训练 (Targeted Drilling) ——你会找来一组几何题,学习它们所需的特定公式,并反复练习直到掌握这一类题型。 ...
](https://deep-paper.org/en/paper/2505.12423/images/cover.png)
引言 想象一下,你试图总结一本内容密集的小说,但你的记忆一次只能容纳十页。当你读到第三章时,第一章的内容就已经完全忘记了。这就是大型语言模型 (LLM) 在处理有限上下文窗口时面临的根本困境。虽然像 GPT-4 和 LLaMA-2 这样的模型彻底改变了自然语言处理 (NLP) ,但它们处理大量输入 (如整本书或法律资料库) 的能力受到其“上下文窗口”的限制。 ...
](https://deep-paper.org/en/paper/2402.08702/images/cover.png)
超越单步: PROMST 如何掌握多步提示工程 如果你曾经使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ,你应该对提示工程 (Prompt Engineering) 这门“玄学”并不陌生。你在这里改一个词,在那里加一个约束条件,然后祈祷模型能输出你想要的结果。 ...
](https://deep-paper.org/en/paper/file-3474/images/cover.png)
如果你问五个不同的人如何定义“仇恨言论”,你很可能会得到五个略有不同的答案。有人可能关注侮辱性词汇,有人关注历史背景,还有人关注说话者的意图。 ...
](https://deep-paper.org/en/paper/file-3472/images/cover.png)
引言 心理健康是我们这个时代最严峻的公共卫生挑战之一。全球每八个人中就有一人患有心理健康疾病,合格护理的需求远远超过了供应。然而,培训一名心理健康专业人员不仅仅是阅读教科书和通过考试,它还需要掌握微妙、复杂且往往不可预测的人际互动艺术。 ...
](https://deep-paper.org/en/paper/2406.15053/images/cover.png)
引言 在大型语言模型 (LLM) 飞速发展的世界中,基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而,在这片版图中存在一个显眼的盲点: 语言和文化的多样性。 ...