](https://deep-paper.org/en/paper/file-2807/images/cover.png)
边爬边建梯子:自举策略学习如何解决高难度对话任务
引言 想象一下,你正试着教计算机如何处理复杂的客服通话——例如,预订多程航班,同时预订酒店并购买当地景点的门票。在人工智能领域,特别是任务导向型对话 (Task-Oriented Dialogue, ToD) 系统中,这是一个巨大的挑战。 ...
](https://deep-paper.org/en/paper/file-2807/images/cover.png)
引言 想象一下,你正试着教计算机如何处理复杂的客服通话——例如,预订多程航班,同时预订酒店并购买当地景点的门票。在人工智能领域,特别是任务导向型对话 (Task-Oriented Dialogue, ToD) 系统中,这是一个巨大的挑战。 ...
](https://deep-paper.org/en/paper/2406.11375/images/cover.png)
引言 想象一下,试图向一个从未上过物理课的人解释原子的结构。你可以背诵关于质子、中子和电子层的教科书定义。或者,你可以说: “原子就像一个太阳系。原子核是中心的太阳,而电子是绕其运行的行星。” ...
](https://deep-paper.org/en/paper/2410.12048/images/cover.png)
引言 在信息过载的时代,区分合理的论点和欺骗性的论点比以往任何时候都更加重要。我们要经常依靠大语言模型 (LLMs) 来总结新闻、分析辩论或核实事实。然而,尽管 LLM 在生成文本方面非常流利,但它们经常难以处理逻辑推理的细微差别。它们很容易被那些听起来连贯但结构上有缺陷的论点所左右。 ...
](https://deep-paper.org/en/paper/2402.11129/images/cover.png)
大语言模型 (LLM) 彻底改变了我们处理信息的方式,在摘要、对话和问答方面充当了强有力的助手。然而,任何深度使用过它们的人都知道它们的软肋: 它们并不是无所不知的。它们的知识被冻结在训练的那一刻,而且它们可能会自信地产生错误事实的“幻觉”。 ...
](https://deep-paper.org/en/paper/file-2803/images/cover.png)
引言 在当前的自然语言处理 (NLP) 领域,Transformer 架构占据着统治地位。从 ChatGPT 到 Llama,自注意力机制 (Self-attention) 解锁了惊人的生成与推理能力。然而,这种能力伴随着巨大的计算成本。注意力机制随序列长度呈二次方增长,且键值 (KV) 缓存呈线性增长,这使得处理海量上下文在训练和部署时的成本日益昂贵。 ...
](https://deep-paper.org/en/paper/file-2802/images/cover.png)
引言 生物医学文献的发表速度惊人。每天都有成千上万篇新论文发布,详细介绍最新的药物相互作用、基因发现和疾病机制。对于研究人员和临床医生来说,跟上这股信息洪流几乎是不可能的。然而,隐藏在这些非结构化文本中的,正是通往新疗法和治愈方法的关键。 ...
](https://deep-paper.org/en/paper/file-2801/images/cover.png)
引言 在社交媒体时代,自动化内容审核已不仅仅是一种奢侈品,而是一种必需品。各大平台依靠复杂的人工智能模型来过滤有毒言论、骚扰和仇恨言论,以维护网络社区的安全。然而,这些数字安全的守护者自身却存在一个隐形缺陷: 它们往往带有偏见。 ...
](https://deep-paper.org/en/paper/2407.10241/images/cover.png)
像 GPT-4 和 Llama-2 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。它们帮我们起草邮件、调试代码,并回答我们最复杂的问题。然而,这些模型是其训练数据的镜像——而这些反映互联网的数据,不幸地包含了历史偏见、刻板印象和社会歧视。 ...
](https://deep-paper.org/en/paper/2406.15718/images/cover.png)
你有没有尝试过打断语音助手?通常情况是这样的: 你问了一个问题,说到一半意识到自己说错了,但 AI 忽略了你的更正,继续处理你的第一个请求。你不得不等它说完长长的独白,或者疯狂地点击“停止”按钮,才能再次尝试。 ...
](https://deep-paper.org/en/paper/2409.15594/images/cover.png)
引言: “对讲机”难题 如果你曾与 Alexa、Siri 或当前版本的 ChatGPT Voice 等语音助手对话过,你就体验过一种“半双工”交互。就像使用对讲机一样,这种协议是死板的: 你说话,你停止,机器检测到沉默,处理你的请求,最后做出回应。 ...
](https://deep-paper.org/en/paper/file-2797/images/cover.png)
在机器翻译 (Machine Translation, MT) 领域,我们已经到达了一个迷人的转折点。几十年来,翻译系统的目标一直是匹敌人类的表现。如今,随着像 GPT-4 这样的大型语言模型 (LLMs) 的出现,机器生成的翻译质量往往超越了人类编写的参考译文。 ...
](https://deep-paper.org/en/paper/2411.00173/images/cover.png)
在医疗保健这个高风险领域,人工智能正迅速成为不可或缺的工具。医疗领域最关键的后台任务之一是医疗编码——即把非结构化的临床文本 (如医生笔记) 转化为标准化的国际疾病分类 (ICD) 代码。这些代码对于计费、流行病学研究和治疗跟踪至关重要。 ...
](https://deep-paper.org/en/paper/2403.18252/images/cover.png)
引言 想象一下,给 AI 展示一张 5 美元纸币的图片。标准的计算机视觉模型会观察像素并识别模式: 它看到了纸张、人脸和数字。它可以告诉你“这是一张钞票”。 但是,如果你问: “画像中的人是谁?他带领国家经历了哪一特定的历史事件?” ...
](https://deep-paper.org/en/paper/2410.05183/images/cover.png)
引言 在机器翻译 (MT) 领域,我们见证了评估指标从基于启发式的 (如 BLEU) 到基于神经网络的 (如 COMET 和 MetricX) 的巨大转变。这些较新的模型在与人类判断的一致性方面表现得更好。然而,它们带来了一个“黑盒”问题。 ...
](https://deep-paper.org/en/paper/2407.10920/images/cover.png)
引言 近年来,多模态视觉-语言模型 (VLMs) ,如 GPT-4V 和 Gemini,在图像解读方面展示了惊人的能力。它们可以识别物体、读取照片中的文字,并描述复杂的场景。然而,识别一场“婚礼”是一回事;理解印度农村的婚礼与埃塞俄比亚的婚礼之间在具体仪式、服饰和传统上的差异,则完全是另一项挑战。 ...
](https://deep-paper.org/en/paper/2406.19764/images/cover.png)
想象一下,有人告诉你“翠儿 (Tweety) 是一只鸟”。根据你的常识,你逻辑地推断出“翠儿会飞”。但片刻之后,你收到了一个新的信息: “翠儿是一只企鹅”。 你的大脑里发生了什么?你立即修正了你的信念。你撤回了翠儿会飞的结论,但你保留了它是一只鸟的前提。你刚刚完成了信念修正 (Belief Revision) ——这是一种当新证据与你之前认为的事实相矛盾或提供新语境时,更新你认知的认知能力。 ...
](https://deep-paper.org/en/paper/file-2791/images/cover.png)
想象一下,你度过了糟糕的一天。你向一位朋友倾诉你的压力。作为回应,他们只回复了一个词: “好的。”你会感到被忽视和冷漠。 现在,想象相反的场景。你分享了你的问题,而同一位朋友回应了一段长达十分钟、令人窒息的独白,分析你处境的每一个微小因素,引用历史先例,并同时提供十五种不同的解决方案路径。你会感到不知所措。这不但没有让你感到被支持,反而让你筋疲力尽。 ...
](https://deep-paper.org/en/paper/2404.14716/images/cover.png)
引言 在人工智能飞速发展的世界里,大语言模型 (LLMs) 以快速学习者的身份赢得了声誉。具体来说,它们擅长上下文学习 (In-Context Learning, ICL) 。 这是一种仅仅通过在提示词中查看几个示例就能适应新任务的能力,而无需对模型的权重进行任何更新。 ...
](https://deep-paper.org/en/paper/2411.04424/images/cover.png)
审视裁判: 贝叶斯统计如何修正 LLM 评估 如果你玩过 ChatGPT、Claude 或 Llama,你就会知道评估这些模型是很棘手的。与数学测试不同,写诗、总结新闻文章或聊哲学并没有唯一的“正确”答案。 ...
](https://deep-paper.org/en/paper/file-2788/images/cover.png)
随着 GPT-4 和 Llama-2 等大语言模型 (LLMs) 的迅速普及,安全对齐与对抗性攻击之间的“军备竞赛”也在持续升级。我们知道 LLMs 被训练为拒绝有害指令——如果你问模型“我该如何制造炸弹?”,它会礼貌地拒绝。这就是“越狱” (jailbreak) 问题: 寻找绕过这些安全过滤器的方法。 ...