](https://deep-paper.org/en/paper/2406.12809/images/cover.png)
智能的悖论——为什么大语言模型能解决难题却在简单任务上失败
引言 想象一下,你正在辅导一名学生学习微积分。他们毫不费力地解出了复杂的解高斯积分,表现出对高等数学概念的深刻理解。印象深刻之余,你问了一个后续问题: “17 乘以 8 等于多少?”学生一脸茫然地回答: “106。” ...
](https://deep-paper.org/en/paper/2406.12809/images/cover.png)
引言 想象一下,你正在辅导一名学生学习微积分。他们毫不费力地解出了复杂的解高斯积分,表现出对高等数学概念的深刻理解。印象深刻之余,你问了一个后续问题: “17 乘以 8 等于多少?”学生一脸茫然地回答: “106。” ...
](https://deep-paper.org/en/paper/2410.06022/images/cover.png)
AI 的“Wug”测试: 大语言模型的学习方式像人类吗? 如果你上过语言学导论课,那你很可能对“Wug 测试”并不陌生。1958 年,Jean Berko Gleason 向孩子们展示了一张像鸟一样的生物图片,并说: “这是一只 wug 。 ”然后她展示了两只这样的生物,说道: “现在还有一只。一共有两只。这里有两只……?”孩子们正确地回答了“ wugs ”。 ...
](https://deep-paper.org/en/paper/2409.14037/images/cover.png)
引言 想象这样一个世界: 每位学生,无论身处何地或资源如何,都能拥有一位私人导师。这位导师拥有 Neil deGrasse Tyson 般的知识储备、陶哲轩 (Terence Tao) 般的数学直觉,以及居里夫人 (Marie Curie) 般的化学造诣。这就是 GPT-4 和 Llama-3 等大型语言模型 (LLM) 所承诺的未来。我们已经迅速从使用聊天机器人写邮件,过渡到了依赖它们来总结复杂的研究论文和解释科学概念。 ...
](https://deep-paper.org/en/paper/file-2835/images/cover.png)
引言: 过度自信的机器 想象一下,当你向 AI 助手咨询医疗建议或法律先例时,它给出的回答反应迅速、语法完美,语气也极具权威性。但存在一个问题: 这个答案完全是编造的。 ...
](https://deep-paper.org/en/paper/2402.17302/images/cover.png)
引言: AI 的“下雪”难题 想象一下,你正在训练一个人工智能来理解“常识”。你给它输入了数千个问题来测试它的推理能力。其中一个问题是: “这个男人需要铲自家车道的雪。这是什么季节?” 答案显而易见,是冬天。 ...
](https://deep-paper.org/en/paper/2405.18348/images/cover.png)
在机器翻译 (MT) 飞速发展的今天,我们要迎来一个关键时刻。几年前,翻译系统的目标仅仅是生成可理解的文本。而如今,像 Google Translate、DeepL 和 GPT-4 这样的系统生成的翻译往往与人类的输出难辨真假。我们不再面对“词语堆砌”的乱象;我们面对的是细微差别、风格和高保真的准确性。 ...
](https://deep-paper.org/en/paper/2401.05467/images/cover.png)
驯服噪声: 如何将 LLM Agent 升级为高效、微调的系统 像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 的迅速崛起,普及了“模块化 AI 系统”的概念。想想 LangChain、AutoGPT 或 HuggingGPT 这样的框架。这些系统将多个 LLM 调用串联起来,以执行复杂的任务——如规划旅行、编写代码或分析财务文档。它们之所以极其强大,是因为它们不需要训练;你只需要编写一个提示词 (Prompt) ,系统就能工作。 ...
](https://deep-paper.org/en/paper/2404.02655/images/cover.png)
像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们非常有帮助、无害且富有创造力。然而,它们有一个臭名昭著的缺陷: 它们不知道何时该闭嘴。 ...
](https://deep-paper.org/en/paper/2409.19817/images/cover.png)
大语言模型 (LLM) 彻底改变了人工智能,展示了惊人的流畅度和推理能力。然而,即使是最先进的模型也面临着一个长期存在的问题: 校准 (Calibration) 。 理想情况下,当 LLM 表示它对答案有 80% 的信心时,它应该在 80% 的情况下是正确的。不幸的是,情况很少如此。现代 LLM,尤其是那些经过人类反馈强化学习 (RLHF) 微调的模型,往往表现出臭名昭著的“过度自信”。它们可能会产生完全错误的幻觉 (hallucinate) ,却给出一个 99% 的概率分数。在医学、法律或自动编程等高风险领域,信心与准确性之间的这种脱节是危险的。 ...
](https://deep-paper.org/en/paper/2406.15823/images/cover.png)
大型语言模型 (LLM) 在生成过程性文本方面已经变得异常出色。如果你让最先进的模型生成一份烤蛋糕的食谱,它很可能会生成一份完全连贯的步骤清单: 混合干配料,打鸡蛋,将它们结合,然后在特定温度下烘烤。表面上看,模型似乎理解了这个过程。 ...
](https://deep-paper.org/en/paper/2409.15452/images/cover.png)
LLM 真的懂拼写吗?深入解读 CUTE 基准测试 当我们与 GPT-4 或 Llama 3 等大型语言模型 (LLM) 交互时,我们通常认为它们具有类似人类的读写能力。我们假设,既然模型可以写十四行诗或调试 Python 代码,那么它理解文本的方式一定和我们一样: 逐个字母、逐个单词地理解。 ...
](https://deep-paper.org/en/paper/file-2827/images/cover.png)
超越症状: 语境和不确定性如何改进心理健康 AI 心理健康障碍影响着全球超过十亿人。随着社交媒体的兴起,网络平台已成为人们自我表露的空间,为研究人员提供了海量数据集,以帮助早期发现抑郁症或焦虑症等疾病。 ...
](https://deep-paper.org/en/paper/2410.06944/images/cover.png)
在自然语言处理 (NLP) 的世界里,我们往往认为语序是理所当然的。如果你说英语,“The dog chased the cat” (狗追猫) 和“The cat chased the dog” (猫追狗) 意味着两件完全不同的事情。句法——即句子的结构——是由单词的顺序严格定义的。 ...
](https://deep-paper.org/en/paper/2409.19984/images/cover.png)
大型语言模型 (LLMs) 已成为驱动现代人工智能的引擎,从聊天机器人到代码生成器无处不在。在许多应用中,我们不仅关注模型生成的文本,还关注分数——即模型分配给特定词序列的概率。这些分数被用于检测幻觉、对潜在答案进行排序以及衡量模型的置信度。 ...
](https://deep-paper.org/en/paper/2407.17467/images/cover.png)
引言 像 Llama 或 GPT-4 这样的大型语言模型 (LLM) 堪称数字时代的博学家。它们能写诗、调试代码,并以令人印象深刻的流畅度总结历史。然而,它们广博的知识往往以牺牲深度为代价。当面对高度专业化的任务时——例如解读复杂的金融法规或分析晦涩的学术论文——这些通才模型往往表现不仅如人意。原因很简单: 它们在初始训练中没有见过足够多的特定领域数据。 ...
](https://deep-paper.org/en/paper/2308.08295/images/cover.png)
像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 已经彻底改变了我们要与技术交互的方式。它们能写诗、调试代码,还能总结历史。然而,它们拥有一个显著的缺陷: “垃圾进,垃圾出 (garbage in, garbage out) ”。由于这些模型是在庞大且未经严格过滤的互联网数据上训练的,它们可能会无意中学习并复述有毒内容。 ...
](https://deep-paper.org/en/paper/2406.12018/images/cover.png)
利用 CItruS 解决长上下文大语言模型中的信息忽视问题 像 Llama 2 和 Mistral 这样的大语言模型 (LLM) 彻底改变了我们与文本交互的方式。然而,它们存在一个显著的局限性: 上下文窗口。虽然模型在处理更长序列方面越来越出色,但在处理整本书或海量法律文档时,计算成本依然高昂且占用大量内存。 ...
](https://deep-paper.org/en/paper/2406.05013/images/cover.png)
想象一下你正在和朋友聊电影。你问: “谁执导了《盗梦空间》?”他们回答: “克里斯托弗·诺兰。”然后你问: “他还拍过什么其他电影?” 你的朋友能立刻明白“他”指的是克里斯托弗·诺兰。但对于搜索引擎来说,第二个问题简直是噩梦。“他”可以是任何人。为了得到好的答案,搜索系统需要将你的问题重写成独立的句子,比如“克里斯托弗·诺兰执导过什么其他电影?” ...
](https://deep-paper.org/en/paper/2409.01366/images/cover.png)
在你的笔记本电脑或手机上直接运行强大的大型语言模型 (LLMs) ,如 Llama-3 或 Mistral,而不依赖云端,这个梦想是诱人的。它承诺了隐私、更低的延迟以及离线能力。然而,现实往往是与硬件限制的艰难斗争。这些模型计算量大且极其耗费内存。 ...
](https://deep-paper.org/en/paper/2406.19131/images/cover.png)
想象一下,你正看着一张照片,照片里一位老人坐在窗边的轮椅上。一个孩子问你: “我需要够高处的东西。你能帮我把这把椅子移过来用吗?” 作为人类,你的大脑会瞬间处理这一复杂的因果关系网络。你看到了椅子,看到了老人,并且理解了其中的关系: “椅子支撑着老人。”移动椅子会导致老人摔倒或发生位移。因此,答案显而易见是“不”。 ...