](https://deep-paper.org/en/paper/2406.14496/images/cover.png)
为什么你的 AI 会写诗却叫不出鸟名:深入了解 FOCI 基准测试
简介 想象一下,给最先进的 AI 展示一张毛茸茸的灰白色狗狗的照片。模型立即开始运作,描述狗狗的尖耳朵、卷曲的尾巴以及毛发的质感。它甚至可能告诉你这是一种忠诚的伴侣犬。但是当你问: “这具体是什么品种?”时,模型自信地回答: “这是一只萨摩耶。” ...
](https://deep-paper.org/en/paper/2406.14496/images/cover.png)
简介 想象一下,给最先进的 AI 展示一张毛茸茸的灰白色狗狗的照片。模型立即开始运作,描述狗狗的尖耳朵、卷曲的尾巴以及毛发的质感。它甚至可能告诉你这是一种忠诚的伴侣犬。但是当你问: “这具体是什么品种?”时,模型自信地回答: “这是一只萨摩耶。” ...
](https://deep-paper.org/en/paper/file-2726/images/cover.png)
像 GPT-4 和 Llama 3 这样的大型语言模型 (LLM) 已经彻底改变了我们要与文本交互的方式。它们可以总结小说、编写代码,甚至通过律师资格考试。然而,当涉及到特定的医疗诊断时——例如通过语音模式检测痴呆症——这些强大的模型往往会碰壁。 ...
](https://deep-paper.org/en/paper/2310.09505/images/cover.png)
引言 想象一下,你训练了一个最先进的语音识别模型。在实验室安静的环境中,它的表现堪称完美,能够以近乎完美的准确率转录每一个单词。然后,你将它部署到现实世界中。突然间,模型面临着空调的嗡嗡声、非母语说话者独特的节奏,或者是某人一边哼着小曲一边说话。模型的性能瞬间骤降。 ...
](https://deep-paper.org/en/paper/2404.11023/images/cover.png)
人类本质上是社会性生物。我们的历史、文化和生存都依赖于我们要解读扬起的眉毛、理解对话中的停顿或感知房间内氛围的能力。我们将这种能力称为社会智能 (Social Intelligence) 。 ...
](https://deep-paper.org/en/paper/2406.05326/images/cover.png)
引言 在自然语言处理 (NLP) 领域,判断两个句子是否表达相同的意思是一项基石般的任务。这种能力被称为语义文本相似度 (Semantic Textual Similarity, STS) ,它是搜索引擎、推荐系统、抄袭检测和聚类算法背后的核心动力。 ...
](https://deep-paper.org/en/paper/2407.00390/images/cover.png)
如果你曾让像 ChatGPT 这样的大型语言模型 (LLM) 解决过复杂的数学问题,你可能已经注意到了一个有趣的怪现象。有时,模型虽然得出了正确的答案,但理由却是错误的。而另一些时候,它开局完美,却在中间某个逻辑环节滑了一跤,随后陷入幻觉。 ...
](https://deep-paper.org/en/paper/2410.13298/images/cover.png)
大语言模型 (LLM) 彻底改变了我们要去寻求信息的方式。我们不再需要浏览十个不同的搜索结果,而是能立即获得生成的简明摘要。但这其中有一个众所周知的陷阱: 幻觉。LLM 听起来可能极其自信,但事实却完全是编造的。 ...
](https://deep-paper.org/en/paper/2410.04241/images/cover.png)
想象一下,向一个强大的人工智能提问: “谁是美国总统?” 对于一个处理了数百万份互联网文档的人工智能来说,这个看似简单的答案其实并不简单。一份 2008 年的文档可能说是巴拉克·奥巴马 (Barack Obama) 。另一份 2024 年的文档说是乔·拜登 (Joe Biden) 。一份历史文本可能在讨论“POTUS” (美国总统) 的一般权力。当人工智能遇到这种情况时,它通常会强制给出一个单一答案,从而可能在不存在确定性的地方产生确定性的幻觉。 ...
](https://deep-paper.org/en/paper/2406.10991/images/cover.png)
想象一下你正在和朋友聊电影。你问: “谁导演了《盗梦空间》?”你的朋友回答: “克里斯托弗·诺兰。”接着你问: “他还导演过什么?” 你的朋友立刻就知道“他”指的是诺兰。但如果你把“他还导演过什么?” (What else did he direct?) 输入到一个标准的搜索引擎中,结果往往会很糟糕。因为它缺少上下文 。 这就是对话式问答 (Conversational Question Answering, CQA) 面临的根本挑战。为了填补人类对话与搜索引擎之间的鸿沟,我们使用查询重写 (Query Rewriting, QR) 技术。一个 QR 模型会将“他还导演过什么?”翻译成“克里斯托弗·诺兰导演过哪些电影?” ...
](https://deep-paper.org/en/paper/file-2717/images/cover.png)
引言 在自然语言处理 (NLP) 领域,深度神经网络 (DNN) 是当之无愧的霸主。它们驱动着从电商网站的情感分析到社交媒体上的毒性评论检测等一切应用。然而,这些模型有一个巨大的致命弱点: 它们非常脆弱。对输入句子进行微小且通常难以察觉的更改 (称为对抗性攻击) ,就可能导致最先进的模型对文本进行完全错误的分类。 ...
](https://deep-paper.org/en/paper/file-2716/images/cover.png)
引言 语言很少是中立的。当我们谈论或书写不同的社会群体时——无论是按国籍、种族还是性别定义——我们往往依赖于微妙的联想来构建对这些群体的认知。这些联想就是我们所说的社会刻板印象。 ...
](https://deep-paper.org/en/paper/file-2715/images/cover.png)
当你问一位教授一个简单的问题,比如“2 + 2 等于几?”,你期望得到一个简单的回答: “4”。但如果你问,“神经网络是如何学习的?”,你则期望得到一个详细的、分步骤的解释。 ...
](https://deep-paper.org/en/paper/file-2714/images/cover.png)
引言 想象一下,你训练了一个最先进的 AI 模型来对文本进行分类。它在你的测试数据上运行完美。然而,一个恶意攻击者仅仅改变了输入句子中的一个词——把“bad”换成了“not good”——你的模型预测结果就突然完全反转了。这就是对抗性攻击 (Adversarial Attack) , 它是现代自然语言处理 (NLP) 中最大的漏洞之一。 ...
](https://deep-paper.org/en/paper/2410.05581/images/cover.png)
在传统的机器学习世界里,有一条几乎总是成立的黄金法则: 如果你希望模型在特定主题上表现更好,就在该主题的数据上训练它。如果你想让神经网络识别猫,你就给它看更多的猫。如果你想让语言模型理解生物学,你就用生物学论文来训练它。 ...
](https://deep-paper.org/en/paper/2410.00175/images/cover.png)
道德之镜: 如何引导 LLM 为性别歧视辩解 大型语言模型 (LLM) 常被描述为互联网上人类知识的总和。它们阅读过我们的百科全书、代码库和小说。但它们也阅读过我们的评论区、争论和偏见。虽然在“对齐 (aligning) ”这些模型以使其有益、诚实和无害方面投入了大量精力,但底层训练数据仍然包含一系列人类价值观——从进步理想主义到倒退的偏见。 ...
](https://deep-paper.org/en/paper/2406.18060/images/cover.png)
引言 像 Llama-2 和 RoBERTa 这样的大型语言模型 (LLM) 的快速演进彻底改变了自然语言处理领域。然而,将这些庞大的模型适配到特定任务 (即微调过程) 面临着巨大的计算障碍。随着模型规模激增至数十亿参数,通过标准方法训练它们所需的 GPU 显存变得极其昂贵。 ...
](https://deep-paper.org/en/paper/2410.13181/images/cover.png)
当前的人工智能格局给工程师和用户带来了一种令人沮丧的两难境地。一方面,我们拥有基于云的大型语言模型 (LLMs) , 如 GPT-4 或 Claude 3 Opus。它们非常聪明,能够进行复杂的推理,并掌握海量的知识。然而,它们的运行成本高昂,依赖网络延迟,并且引发了数据隐私方面的担忧。 ...
](https://deep-paper.org/en/paper/2410.03907/images/cover.png)
引言 想象一下,你要求一个机器人在客厅里“组装礼品篮”。一个标准的大型语言模型 (LLM) 可能会给你列出一份完美的文字指令: 找到篮子,放入饼干,加上奶酪。但是,如果机器人看向桌子,发现饼干烤焦了怎么办?如果原本用来浇水的水源被切断了怎么办? ...
](https://deep-paper.org/en/paper/2410.12217/images/cover.png)
引言 在自然语言处理 (NLP) 的世界里,我们经常将数据标注视为寻找单一真理的过程。如果我们让五个人将一条评论标记为“有毒 (toxic) ”或“无毒”,其中三个人说有毒,我们通常会采用多数投票的结果,并将反对意见视为噪声丢弃。但这种分歧真的是噪声吗? ...
](https://deep-paper.org/en/paper/file-2707/images/cover.png)
引言: NLP 领域的大卫与歌利亚难题 如果你是当今自然语言处理 (NLP) 领域的学生或研究人员,你可能会感受到来自“规模”的压力。几年前,一个大学实验室利用几块 GPU 就能训练出一个最先进的模型。而今天,排行榜被商业巨头——OpenAI、Google、Anthropic 和 Meta——所主导。这些机构利用学术机构根本无法企及的计算资源和数据集,训练着庞大的通用大型语言模型 (LLM) 。 ...