](https://deep-paper.org/en/paper/2406.11385/images/cover.png)
解决 LLM 合并的三难困境:深入解析 MetaGPT
在人工智能快速发展的格局中,像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 已成为现代自然语言处理 (NLP) 的基石。标准的工作流程大家都很熟悉: 采用一个大规模的预训练基座模型,然后针对特定任务 (无论是编程、数学还是创意写作) 进行微调。这种方法能产生高性能的模型,但也带来了巨大的后勤挑战。对于每一种新能力,你都需要部署一个独立的、庞大的模型。 ...
](https://deep-paper.org/en/paper/2406.11385/images/cover.png)
在人工智能快速发展的格局中,像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 已成为现代自然语言处理 (NLP) 的基石。标准的工作流程大家都很熟悉: 采用一个大规模的预训练基座模型,然后针对特定任务 (无论是编程、数学还是创意写作) 进行微调。这种方法能产生高性能的模型,但也带来了巨大的后勤挑战。对于每一种新能力,你都需要部署一个独立的、庞大的模型。 ...
](https://deep-paper.org/en/paper/file-3369/images/cover.png)
人类是情感复杂的生物。我们不仅仅感到“快乐”或“悲伤”,我们会感到狂喜、满足、极度悲痛、恐惧或忧虑。在自然语言处理 (NLP) 领域,区分这些微妙的细微差别被称为细粒度情感分类 (Fine-grained Emotion Classification, FEC) 。 ...
](https://deep-paper.org/en/paper/2410.09037/images/cover.png)
在当前的人工智能领域,大型语言模型 (LLMs) 如 GPT-4 或 Claude 无疑是重量级选手。它们拥有一种被称为 思维链 (Chain-of-Thought, CoT) 推理的“涌现”能力——即通过逐步分解复杂问题,按照逻辑递进得出正确答案的能力。 ...
](https://deep-paper.org/en/paper/2501.18824/images/cover.png)
大型语言模型 (LLM) 的爆发使强大的 AI 变得触手可及,但定制这些模型仍然是一场硬件噩梦。虽然使用像 Llama-2 或 GPT-3 这样的预训练模型相对便宜,但微调 (Fine-tuning) ——即针对医疗数据、代码生成或特定写作风格对其进行专业化训练——需要巨大的计算资源。 ...
](https://deep-paper.org/en/paper/file-3366/images/cover.png)
“百万级 token 上下文窗口”的时代已经到来。随着 Claude 3 和 Gemini 1.5 等模型的出现,我们正从处理简短的提示词,迈向一次性处理整本书籍、代码库和法律档案的领域。 但这里有一个陷阱: 硬件的发展并没有跟上我们野心的步伐。处理 100 万个 token 的序列需要巨大的计算资源和 GPU 内存。如果你尝试将这么长的文本输入到标准 GPU 中,几乎肯定会在模型生成第一个字之前就遇到“内存溢出” (Out of Memory,OOM) 错误。 ...
](https://deep-paper.org/en/paper/2409.14703/images/cover.png)
引言 在数字时代,Meme (网络迷因/表情包) 不仅仅是有趣的图片;它们本身就是一种复杂的语言。它们可以将复杂的政治观点、社会评论和文化内部笑话提炼成一个单一的、易于分享的单元。然而,这种力量也有其阴暗面。Meme 已成为仇恨言论、网络欺凌和虚假信息的有力载体,往往隐藏在传统内容审核系统难以解析的反讽和挖苦层之下。 ...
](https://deep-paper.org/en/paper/2411.04118/images/cover.png)
人工智能与医学的交叉领域是目前技术界最令人兴奋的前沿之一。每隔几个月,我们就会看到新的头条新闻宣布某种“医疗 LLM”——一种专门为医疗保健量身定制的人工智能。故事几乎总是相同的: 拿一个强大的通用模型 (如 Llama 或 Mistral) ,在海量的医学教科书和 PubMed 文章库上对其进行进一步训练,然后瞧: 你就有了一个表现优于其通用前身的数字医生。 ...
](https://deep-paper.org/en/paper/file-3363/images/cover.png)
2024 年 3 月,弗拉基米尔·普京赢得了俄罗斯总统大选。如果你阅读的是俄罗斯官方支持的媒体报道,你可能会看到关于“合法性”、“国家团结”和“压倒性胜利”的叙述。而如果你阅读的是西方媒体,故事的框架则可能围绕着“选举舞弊”、“打压反对派”以及正在进行的乌克兰战争。 ...
](https://deep-paper.org/en/paper/2410.14204/images/cover.png)
引言 想象这样一个未来: 医生职业倦怠显著减少,患者能够即时获得高质量的医疗分诊服务。这就是医疗任务型对话 (Medical Task-Oriented Dialogue, TOD) 系统的承诺。这些 AI 智能体旨在协助医生收集患者病史、辅助诊断并指导治疗方案的选择。 ...
](https://deep-paper.org/en/paper/2405.02144/images/cover.png)
引言 “如果你无法衡量它,就无法改进它。” 彼得·德鲁克 (Peter Drucker) 的这句名言在医学传播领域尤为真切。我们生活在一个可靠的医学知识对公共卫生至关重要的时代。从维基百科文章到默克诊疗手册 (Merck Manuals) ,从前沿研究论文到患者宣传册,健康信息的传播从未停止。 ...
](https://deep-paper.org/en/paper/2412.13736/images/cover.png)
想象一下,你带着一张复杂的 X 光片去看医生。你问: “有肿瘤吗?”医生只是简单地说“有”,然后就走出了房间。没有解释,没有指出片子上的阴影,也没有讨论他们是如何得出这个结论的。你可能会感到恐惧且充满怀疑。 ...
](https://deep-paper.org/en/paper/2405.03000/images/cover.png)
大语言模型 (LLM) 在生物医学领域的整合前景广阔,从协助复杂诊断到自动化临床笔记记录,其潜力巨大。然而,广泛采用这些模型面临着一个巨大的障碍: 即“资源-隐私-性能”的三难困境。 ...
](https://deep-paper.org/en/paper/file-3358/images/cover.png)
引言 我们已经到了人工智能进化的一个阶段,机器生成的文本在语法上完美无缺,风格上高度一致,而且无可否认地连贯。如果你让 GPT-4 写一首关于烤面包机的十四行诗,它会以令人印象深刻的押韵和格律完成任务。但这其中仍然存在一个难以逾越的边界,一种将技术手册与令人心碎的小说区分开来的特质: 心理深度 (Psychological Depth) 。 ...
](https://deep-paper.org/en/paper/2407.20243/images/cover.png)
在大型语言模型 (LLM) 和信息检索 (IR) 的世界里,“更大”通常意味着“更好”。高维嵌入——那些代表文本语义的长数字向量——能够捕捉到较小向量所遗漏的细微差别。来自 OpenAI 的 3,072 维向量通常比 256 维向量更能理解你的查询。 ...
](https://deep-paper.org/en/paper/2406.12572/images/cover.png)
引言 在人工智能飞速发展的今天,我们已经习惯了这样的头条新闻: 大语言模型 (LLM) 又攻克了一个人类里程碑。我们看到模型通过了律师资格考试,在物理学领域达到研究生水平,甚至能解决复杂的编程挑战。如果你查看流行的排行榜,似乎我们正在接近一个饱和点,即 AI 的能力已经匹配甚至超越了人类专家的表现。 ...
](https://deep-paper.org/en/paper/2406.18530/images/cover.png)
想象一下,当你正在观看一场足球比赛,球已经进网两分钟了,解说员才大喊一声“球进了!”。这不仅让人摸不着头脑,非常恼火,而且基本没什么用处。然而,当我们试图教人工智能理解体育运动时,这正是困扰它的痛点。 ...
](https://deep-paper.org/en/paper/2504.00473/images/cover.png)
引言 想象一下一个正在准备高难度数学考试的学生。他们不仅仅是背诵公式,还会做练习题。当他们正确解决一个问题时,他们会记住自己使用的逻辑。随后,当面对一个类似但全新的问题时,他们会回忆起那个成功的逻辑来指导自己。这个过程——积累经验,过滤掉错误,并回忆起最相关和最复杂的解决方案——是人类学习的基础。 ...
](https://deep-paper.org/en/paper/2406.17404/images/cover.png)
以 GPT-4 和 LLaMA 为代表的大语言模型 (LLM) 彻底改变了人工智能领域。然而,如果你曾观察过 LLM 生成回复的过程,你可能会注意到一个根本性的瓶颈: 文本是一个词接一个词出现的,就像一个打字很慢的人。 ...
](https://deep-paper.org/en/paper/file-3352/images/cover.png)
想象一下你正在分析小说《阿拉丁》。你想追踪文中每一次提到主角的地方,无论是通过他的名字 (“阿拉丁”) ,名词短语 (“那个男孩”) ,还是代词 (“他”) 。 ...
](https://deep-paper.org/en/paper/2409.13609/images/cover.png)
引言 想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。 ...