](https://deep-paper.org/en/paper/2402.00658/images/cover.png)
将系统2思维融入大语言模型:离线模拟如何提升推理能力
将系统2思维融入大语言模型: 离线模拟如何提升推理能力 像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而,当涉及到严谨的逻辑推理或复杂的多步数学运算时,它们往往会露出马脚。模型可能会产生事实幻觉,进行不合逻辑的跳跃,或者干脆在不理解“为什么”的情况下猜测最终答案。 ...
](https://deep-paper.org/en/paper/2402.00658/images/cover.png)
将系统2思维融入大语言模型: 离线模拟如何提升推理能力 像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而,当涉及到严谨的逻辑推理或复杂的多步数学运算时,它们往往会露出马脚。模型可能会产生事实幻觉,进行不合逻辑的跳跃,或者干脆在不理解“为什么”的情况下猜测最终答案。 ...
](https://deep-paper.org/en/paper/2310.03304/images/cover.png)
在人工智能领域,我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中,我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢? ...
](https://deep-paper.org/en/paper/2406.19760/images/cover.png)
解锁司法公正: 大语言模型与法律知识如何彻底变革案例检索 在法律界,stare decisis (遵循先例) ——即坚持已决事项——是一个基本原则。对于法官和律师而言,寻找相关先例不仅仅是一项研究任务,更是维护司法公正的关键要求。如果法官无法找到与当前案件相呼应的过往案例,法律的一致性将面临风险。 ...
](https://deep-paper.org/en/paper/2311.01041/images/cover.png)
引言: “自信的骗子”带来的问题 如果你曾花时间与 ChatGPT 或 LLaMA 等大语言模型 (LLM) 互动,你很可能遇到过一种特定且令人沮丧的行为: 自信的幻觉。当你问一个关于小众话题、虚构人物或特定医疗状况的问题时,模型会以绝对肯定的语气回答。听起来合情合理,语法完美,逻辑似乎也无懈可击。但有一个问题——事实完全是编造的。 ...
](https://deep-paper.org/en/paper/2406.12050/images/cover.png)
如果你曾辅导过学生的数学,你就会知道死记硬背和真正理解之间有着明显的区别。 一个死记硬背的学生也许能解出一个特定的一元二次方程,因为他已经看过这种模式五十次了。但如果你问他: “如果系数是负数,这会有什么变化?”或者“你能用不同的方法解这道题吗?”,他们就会崩溃。他们掌握了答案 , 但缺乏推理深度 。 ...
](https://deep-paper.org/en/paper/2410.20008/images/cover.png)
引言 我们已经习惯了大型语言模型 (LLM) 的“魔力”。输入一个提示——无论是请求翻译句子、总结段落,还是分析评论的情感——模型都会照做。但在表面之下,神经网络内部究竟发生了什么? ...
](https://deep-paper.org/en/paper/2309.16289/images/cover.png)
引言 在过去几年里,“AI 通过司法考试”的头条新闻几乎出现在每一家主流科技媒体上。这是一个引人入胜的叙事: 大语言模型 (LLMs) 如 GPT-4 摄取了海量信息,以至于它们在技术上具备了从事法律工作的资格。但任何执业律师都会告诉你,通过标准化考试与应对微妙、高风险的现实法律体系完全是两码事。 ...
](https://deep-paper.org/en/paper/2404.12545/images/cover.png)
引言 深度学习模型,尤其是像 BERT、RoBERTa 和 Llama 这样的大型语言模型 (LLM) ,在大量的自然语言处理 (NLP) 任务中取得了超越人类的表现。然而,尽管它们表现出色,却存在一个重大缺陷: 它们是“黑盒”。我们输入一个句子,模型吐出一个预测,但内部的推理过程在很大程度上仍然是不透明的。 ...
](https://deep-paper.org/en/paper/2402.13446/images/cover.png)
如果你曾经训练过机器学习模型,那你一定深知其中的痛苦。你拥有绝妙的架构和明确的目标,但最终却撞上了不可避免的瓶颈: 数据。特别是带标签的数据。 多年来,获取高质量标签的黄金标准一直是人工标注。无论是依赖昂贵的领域专家 (如医生标注 X 光片) 还是众包平台 (如 Amazon Mechanical Turk) ,这个过程都缓慢、昂贵且往往缺乏一致性。 ...
](https://deep-paper.org/en/paper/2408.12194/images/cover.png)
如果你最近使用过搜索引擎,你很可能已经从稠密检索 (Dense Retrieval) 技术中受益。与 90 年代寻找精确关键词匹配的搜索引擎不同,现代系统试图理解你查询背后的含义。它们将你的文字转化为一串数字 (向量) ,并寻找具有相似向量的文档。 ...
](https://deep-paper.org/en/paper/file-3283/images/cover.png)
想象一下,你正看着一张熙熙攘攘的城市街道照片。在背景中,有一辆巴士。一位朋友问你: “这家巴士公司的名字叫什么?”为了回答这个问题,你的眼睛会立刻过滤掉行人、建筑物、交通信号灯和云彩。你会完全聚焦于印在巴士侧面的标志上。 ...
](https://deep-paper.org/en/paper/2405.14092/images/cover.png)
引言 我们都有过这样的经历。你向大型语言模型 (LLM) 提出了一个复杂的问题——也许是一道棘手的数学应用题,或者是一个冷门的冷知识查询——它自信地给出了答案。看起来合情合理,推理似乎也站得住脚。但当你仔细检查时,却发现答案完全是错的。 ...
](https://deep-paper.org/en/paper/2310.02469/images/cover.png)
引言: 专家级 LLM 的困境 大型语言模型 (LLMs) 的爆发改变了人工智能的格局。我们已经从通用聊天机器人时代迈向了专业专家时代——比如用于金融的 BloombergGPT 或用于医学的 Med-PaLM。为了创造这些专家,我们需要在一个通用模型 (如 LLaMA) 的基础上,使用特定领域的数据进行微调。 ...
](https://deep-paper.org/en/paper/file-3280/images/cover.png)
引言 在过去的一年中,关于大语言模型 (LLMs) 在医疗领域惊人表现的报道占据了各大头条。我们看到许多报告称,AI 以优异成绩通过了美国执业医师资格考试 (USMLE) ,在标准化测试中的表现与人类专家相当,甚至有时更好。看着这些结果,人们很容易认为我们正处于日常临床实践 AI 革命的边缘。 ...
](https://deep-paper.org/en/paper/2407.00869/images/cover.png)
说谎比说实话难。说实话,你只需要回忆一个事实或进行逻辑推演。而要说谎——尤其是令人信服的谎言——你必须知道真相,刻意压制它,编造一个合理的替代方案,并确保编造的内容保持内部一致性。这是一项复杂的认知任务。 ...
](https://deep-paper.org/en/paper/2407.05216/images/cover.png)
引言 想象一下,你是一门大学课程的助教。现在,想象一下 1,028 名学生刚刚提交了论文作业。即使你只花 5 分钟批改每一份作业,那也是超过 85 小时的不间断评分工作。这种可扩展性瓶颈是高等教育中最古老的问题之一。 ...
](https://deep-paper.org/en/paper/file-3277/images/cover.png)
想象一下,你刚刚发布了一个新的软件库或专门的数据库 API。你希望开发人员能够毫不费力地使用它,比如只需输入像“查找昨天注册的所有用户”这样的自然语言命令,而不需要编写复杂的 SQL 查询或函数调用。 ...
](https://deep-paper.org/en/paper/2212.00596/images/cover.png)
简介 近年来,人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时,正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...
](https://deep-paper.org/en/paper/2409.02519/images/cover.png)
简介 内容审核已经取得了长足的进步。如果你在社交媒体上发布诽谤性言论或公然的暴力威胁,很有可能自动化系统会在几小时内将其标记并删除。针对显性关键词训练的算法非常高效。然而,仇恨言论正在演变。它变得更加安静、微妙且阴险。 ...
](https://deep-paper.org/en/paper/2404.02575/images/cover.png)
引言 像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 在生成类人文本、创作诗歌甚至解释复杂的历史事件方面表现得令人难以置信。然而,在某个特定领域,这些模型经常遇到困难: 算法推理 。 ...