](https://deep-paper.org/en/paper/2404.06762/images/cover.png)
AI 能模拟真实课堂吗?教大语言模型扮演有“个性”的学生
想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...
](https://deep-paper.org/en/paper/2404.06762/images/cover.png)
想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...
](https://deep-paper.org/en/paper/2411.05045/images/cover.png)
在当前的人工智能领域,我们经常面临一个两难选择: 是选择智能还是效率?像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明,能够理解较小模型无法捕捉的细微差别和语境。然而,它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...
](https://deep-paper.org/en/paper/2407.06004/images/cover.png)
想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠? ...
](https://deep-paper.org/en/paper/2407.15814/images/cover.png)
我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时,你输出的并不是一个精确的数学计算,而是在表达一种模糊的信念程度。值得注意的是,尽管缺乏精确性,人类通常能在这一点上达成共识。我们本能地知道,“很可能 (likely) ”代表的概率比“可能 (possible) ”高,但比“几乎确定 (almost certain) ”低。 ...
](https://deep-paper.org/en/paper/file-3483/images/cover.png)
在人工智能飞速发展的版图中,两大巨头虽各领风骚却鲜有联手: 深度学习推荐模型 (DLRMs) 和 大型语言模型 (LLMs) 。 DLRMs 是你的 TikTok 信息流、亚马逊推荐列表和 Netflix 主页背后的无声引擎。它们擅长“协同过滤”——基于数百万用户的数学模式来预测你可能喜欢什么。然而,它们通常是“黑盒”;它们能告诉你看什么,但很少能用人类的语言解释为什么。 ...
](https://deep-paper.org/en/paper/2407.02352/images/cover.png)
想象一下,你让一个 AI 描述一张你家客厅的照片。模型自信地回答: “有一辆红色的复古摩托车停在咖啡桌旁。”你再次看向照片。根本没有摩托车,只有一盆红色的盆栽。 ...
](https://deep-paper.org/en/paper/2406.09790/images/cover.png)
引言: 遭遇 NLP 的瓶颈 如果你一直关注自然语言处理 (NLP) 的进展,特别是在句向量 (Sentence Embeddings) 领域,你可能已经注意到了一个趋势。我们已经从简单的词向量 (如 GloVe) 发展到复杂的基于 Transformer 的模型 (如 BERT) ,再到现在的大型语言模型 (LLM,如 LLaMA 和 Mistral) 。 ...
](https://deep-paper.org/en/paper/2406.19898/images/cover.png)
引言 “重要的不是你说什么,而是你怎么说。” 这句古老的格言通常适用于人际关系,意味着语气和表达方式与信息本身同样重要。出人意料的是,这条规则同样严格适用于大型语言模型 (LLMs) 。 ...
](https://deep-paper.org/en/paper/2401.02731/images/cover.png)
像 GPT-4 和 Llama 3 这样的大型语言模型 (LLMs) 已经成为自然语言处理领域事实上的“专家”。它们处理复杂语言模式的能力很大程度上归功于其巨大的规模。这一普遍认知被称为缩放定律 (scaling law),它表明要获得更智能的模型,我们只需把它们做得更大。 ...
](https://deep-paper.org/en/paper/2410.01383/images/cover.png)
当你在搜索引擎中输入查询时,你希望立即获得相关的结果。然而,在幕后,速度与准确性之间始终存在着一场拉锯战。现代信息检索 (IR) 系统通常依赖于一个两步流程来平衡这一权衡: 首先是一个快速的“检索器 (Retriever)”来查找广泛的候选文档集,紧接着是一个较慢但更精确的“重排序器 (Reranker)”对它们进行排序。 ...
](https://deep-paper.org/en/paper/2409.14082/images/cover.png)
引言 想象一下你正在复习一场高难度的数学考试。打开课本时,你不会只是按顺序阅读每一页,你会发现章节是按主题划分的: 几何、代数、微积分和统计学。当你在这个几何题型上遇到困难时,你不会通过解微积分方程来练习。相反,你会进行针对性训练 (Targeted Drilling) ——你会找来一组几何题,学习它们所需的特定公式,并反复练习直到掌握这一类题型。 ...
](https://deep-paper.org/en/paper/2505.12423/images/cover.png)
引言 想象一下,你试图总结一本内容密集的小说,但你的记忆一次只能容纳十页。当你读到第三章时,第一章的内容就已经完全忘记了。这就是大型语言模型 (LLM) 在处理有限上下文窗口时面临的根本困境。虽然像 GPT-4 和 LLaMA-2 这样的模型彻底改变了自然语言处理 (NLP) ,但它们处理大量输入 (如整本书或法律资料库) 的能力受到其“上下文窗口”的限制。 ...
](https://deep-paper.org/en/paper/2402.08702/images/cover.png)
超越单步: PROMST 如何掌握多步提示工程 如果你曾经使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ,你应该对提示工程 (Prompt Engineering) 这门“玄学”并不陌生。你在这里改一个词,在那里加一个约束条件,然后祈祷模型能输出你想要的结果。 ...
](https://deep-paper.org/en/paper/file-3474/images/cover.png)
如果你问五个不同的人如何定义“仇恨言论”,你很可能会得到五个略有不同的答案。有人可能关注侮辱性词汇,有人关注历史背景,还有人关注说话者的意图。 ...
](https://deep-paper.org/en/paper/file-3472/images/cover.png)
引言 心理健康是我们这个时代最严峻的公共卫生挑战之一。全球每八个人中就有一人患有心理健康疾病,合格护理的需求远远超过了供应。然而,培训一名心理健康专业人员不仅仅是阅读教科书和通过考试,它还需要掌握微妙、复杂且往往不可预测的人际互动艺术。 ...
](https://deep-paper.org/en/paper/2406.15053/images/cover.png)
引言 在大型语言模型 (LLM) 飞速发展的世界中,基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而,在这片版图中存在一个显眼的盲点: 语言和文化的多样性。 ...
](https://deep-paper.org/en/paper/file-3470/images/cover.png)
引言 想象一下,你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢,我也很喜欢!你最喜欢的作者是谁?” 现在想象一下这位熟人回答道: “我也很喜欢读书!我是一名 35 岁的会计师,住在芝加哥。我有三只猫,分别叫 Mittens、Oreo 和 Luna。我患有焦虑症,每周二下午 6 点去健身房。” ...
](https://deep-paper.org/en/paper/2409.19806/images/cover.png)
简介 在快速发展的人工智能领域,多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样,音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。 ...
](https://deep-paper.org/en/paper/file-3468/images/cover.png)
情感分析已经从简单地将电影评论分类为“正面”或“负面”,发展到了如今的细粒度数据分析时代。我们现在的关注点在于基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 。 我们不仅想知道用户是否快乐,还想知道他们对什么感到快乐,他们喜欢哪个具体功能,以及他们使用了什么观点词。 ...
](https://deep-paper.org/en/paper/2403.17146/images/cover.png)
如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过,你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战,威胁着健康的交流并驱赶用户。 ...