](https://deep-paper.org/en/paper/2212.00596/images/cover.png)
不仅仅是预测:为什么语言模型与人脑实际上是一致的
简介 近年来,人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时,正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...
](https://deep-paper.org/en/paper/2212.00596/images/cover.png)
简介 近年来,人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时,正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...
](https://deep-paper.org/en/paper/2409.02519/images/cover.png)
简介 内容审核已经取得了长足的进步。如果你在社交媒体上发布诽谤性言论或公然的暴力威胁,很有可能自动化系统会在几小时内将其标记并删除。针对显性关键词训练的算法非常高效。然而,仇恨言论正在演变。它变得更加安静、微妙且阴险。 ...
](https://deep-paper.org/en/paper/2404.02575/images/cover.png)
引言 像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 在生成类人文本、创作诗歌甚至解释复杂的历史事件方面表现得令人难以置信。然而,在某个特定领域,这些模型经常遇到困难: 算法推理 。 ...
](https://deep-paper.org/en/paper/2403.19827/images/cover.png)
AI 如何学习未见之事: “美好的五天”之谜 想象一下,你正在读一本书,偶然看到了这样一个短语: “a beautiful five days” (美好的五天) 。 对于以英语为母语的人来说,这听起来非常自然。你可能会说: “We spent a beautiful five days in Rome.” (我们在罗马度过了美好的五天) 。但如果你停下来审视一下语法,会发现有些奇怪的事情正在发生。单词 “a” 是一个单数冠词 (用于单个事物,如 “a dog” 一只狗) 。而短语 “five days” (五天) 是复数的。从严格的语法角度来看,将单数冠词与复数名词短语结合应该是一场灾难。我们不会说 “a days” 或 “a five dogs”。然而,这种 “Article + Adjective + Numeral + Noun” (冠词+形容词+数词+名词,简称 AANN) 的构式在英语中却是完全可以接受的。 ...
](https://deep-paper.org/en/paper/file-3272/images/cover.png)
想象一下,你正在寻找一种特定糕点的烘焙说明。你在搜索引擎中输入了查询。在这个世界的某个角落,存在着一份由烘焙大师撰写的完美食谱。然而,那位面包师是用意大利语写的食谱,而你用的是英语搜索。 ...
](https://deep-paper.org/en/paper/2406.15741/images/cover.png)
语言障碍可以说是全球交流的最大阻碍,长期以来,机器翻译 (Machine Translation, MT) 一直是试图打破这一障碍的攻城锤。近年来,像 GPT-4 这样的大语言模型 (LLM) 彻底改变了这一领域,提供了不仅准确而且语境丰富的翻译。 ...
](https://deep-paper.org/en/paper/file-3270/images/cover.png)
想象一下,你试图向一个 5 岁的孩子解释一个复杂的科学概念,然后向一个 10 岁的孩子解释,最后是向一个高中生解释。你会针对每一个“目标”受众改变你的词汇、句子结构和语气。这就是目标级句子简化 (Target-level Sentence Simplification) 的本质。 ...
](https://deep-paper.org/en/paper/2403.20279/images/cover.png)
像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 已经改变了我们与信息交互的方式。我们让它们写邮件、总结复杂的主题,甚至生成历史人物的传记。但这里有一个众所周知的隐患: 幻觉 (hallucinations) 。 大模型可能会在完全捏造事实的同时表现出绝对的自信。 ...
](https://deep-paper.org/en/paper/file-3268/images/cover.png)
引言 在大语言模型 (LLM) 飞速发展的世界里,对“上下文窗口 (context window) ”霸主地位的争夺异常激烈。我们已经从仅能保留少量对话历史的模型,发展到了像 GPT-4 和 Claude 2 这样的巨兽,它们分别号称拥有 128k 和 200k token 的上下文窗口。理想情况下,这意味着你可以把整本小说、法律代码库或巨型技术手册投喂给模型,然后问它任何问题。 ...
](https://deep-paper.org/en/paper/2404.07979/images/cover.png)
小抄策略: LLoCO 如何高效掌握长上下文 想象一下,你是一名正在准备一场覆盖整本教科书的艰难期末考试的学生。你有三种应对方式。 首先是“开卷”法: 你把整本教科书带进考场。你拥有所有信息,但翻阅数千页来寻找一个特定答案非常耗时。其次是“闭卷”法: 你完全依靠记忆。这很快,但如果考试问到第 342 页的具体细节,你就倒霉了。 ...
](https://deep-paper.org/en/paper/2406.16554/images/cover.png)
引言 在当今的人工智能领域,缩放定律 (Scaling Laws) 占据了统治地位: 如果你想要一个更智能的模型,就把通过做大。模型参数量已经从数百万膨胀到数十亿,现在更是达到了万亿级别。然而,我们正在撞上一堵墙。对于许多研究人员和应用来说,运行这些庞大的稠密模型所需的纯粹计算成本正变得不可持续。 ...
](https://deep-paper.org/en/paper/file-3264/images/cover.png)
当我们想到大型语言模型 (LLMs) ,如 LLaMA 或 GPT-4 时,通常会认为它们是语言大师。它们能写诗、总结邮件以及调试代码。但在核心层面,这些模型是序列预测器——它们观察一系列 token,并预测接下来会出现什么。 ...
](https://deep-paper.org/en/paper/2406.16253/images/cover.png)
学术研究领域正面临着一场规模危机。每年,提交给顶级人工智能会议的论文数量都在激增。对于处于接收端的研究人员来说,这意味着堆积如山的论文需要阅读、批评和评审。这种工作量正变得难以为继。 ...
](https://deep-paper.org/en/paper/2406.13476/images/cover.png)
简介 想象一下,你是一名高规格医学会议的同声传译员。演讲者快步走上讲台,开始语速飞快地谈论心脏病学。他们提到了一个患有“PVC”的病人。如果你只是逐字翻译,你可能会卡住。这是指聚氯乙烯 (一种塑料) 吗?不,在这个语境下,它代表的是*室性早搏 (Premature Ventricular Contraction) *。 ...
](https://deep-paper.org/en/paper/file-3260/images/cover.png)
引言 想象你是一名图书管理员,任务是将一大堆书按体裁分类。大多数书都很容易处理: 有宇宙飞船的归入科幻类,有巨龙的归入奇幻类。但是,如果遇到一本关于巨龙驾驶宇宙飞船的书呢?或者一本封面破损、标题模糊的书呢? ...
](https://deep-paper.org/en/paper/2403.05286/images/cover.png)
想象一下,你在服务器上发现了一个旧的可执行文件。它是你公司遗留软件的关键部分,但有一个问题: 源代码丢失了。没有 GitHub 仓库,没有备份的压缩包。只有原始的二进制文件。 ...
](https://deep-paper.org/en/paper/2410.10349/images/cover.png)
想象一下,你是一名母语为日语的英语学习者。你正在和朋友聊天,然后打出了这样一句话: “According to the test, my shortcomings are 靴下 and ご主人様.” (根据测试,我的缺点是靴下和ご主人様。) ...
](https://deep-paper.org/en/paper/file-3257/images/cover.png)
引言 想象一下你正在参加一场高难度的数学考试。在做第一道题时,你很纠结,猜了一个答案,结果错了。但紧接着,你看到了正确的解题过程。当你在五道题后遇到一个类似的问题时,你回忆起之前的解法,运用其中的逻辑,然后做对了。这就是从经验中学习。 ...
](https://deep-paper.org/en/paper/2310.14985/images/cover.png)
引言 近年来,我们见证了人工智能范式的转变。像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 已经超越了简单的文本生成,成为自主智能体的大脑——能够感知环境、做出决策并采取行动的数字实体。我们已经看到智能体模拟软件开发公司,甚至居住在虚拟的“模拟人生式”小镇中。然而,这些模拟大多集中在积极、合作的行为上。 ...
](https://deep-paper.org/en/paper/2402.18216/images/cover.png)
引言 想象一下,你正与朋友深入探讨 19 世纪文学的细微之处。你们正在分析主题、基调和角色发展。突然,没有任何预兆,你的朋友让你解一个复杂的代数方程。那一瞬间,你的大脑可能会卡壳。你为文学构建的认知语境无法转化为数学思维;事实上,它甚至可能成为阻碍。 ...