](https://deep-paper.org/en/paper/2404.16563/images/cover.png)
LLM 能看懂图表吗?大型语言模型时间序列理解能力基准测试
像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 的能力近年来呈爆炸式增长。我们知道它们可以写诗、调试代码和总结历史。但是,它们能否看懂代表股价或病人心率的一串数字,并“理解”正在发生的事情? ...
](https://deep-paper.org/en/paper/2404.16563/images/cover.png)
像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 的能力近年来呈爆炸式增长。我们知道它们可以写诗、调试代码和总结历史。但是,它们能否看懂代表股价或病人心率的一串数字,并“理解”正在发生的事情? ...
](https://deep-paper.org/en/paper/2406.13718/images/cover.png)
这一代的大型语言模型 (LLM) 往往给人一种魔法般的感觉。让 BLOOM 或 GPT-4 这样的模型将法语翻译成英语,结果通常完美无瑕。切换到印地语,它的表现依然令人钦佩。但是,当你稍微踏出这些“高资源语言” (High-Resource Languages, HRLs) 的聚光灯之外,会发生什么呢? ...
](https://deep-paper.org/en/paper/2410.20763/images/cover.png)
你是否尝试过阅读非自己熟悉领域的研究论文?也许你是一位计算机科学家,正试图解析一篇生物学论文;或者你是一位社会学家,正在阅读关于量子力学的文章。你可能遇到过这样的句子: 语法完全看得懂,但某个特定的术语——比如“任意精度算术 (arbitrary-precision arithmetic) ”或“充血 (hyperaemia) ”——让你停下了脚步。 ...
](https://deep-paper.org/en/paper/2406.15267/images/cover.png)
人工智能已经攻占了创意的堡垒。从 DALL-E 生成超现实主义艺术画作,到 ChatGPT 撰写十四行诗,人类与机器创意之间的界限变得愈发模糊。但是,当你要求一个大型语言模型 (LLM) 写一首诗时,它真的在进行创造吗?或者它只是作为一个“随机鹦鹉 (stochastic parrot) ”,在重新排列它在训练中学到的诗句? ...
](https://deep-paper.org/en/paper/2311.08662/images/cover.png)
引言 想象一下,你正在使用一个大型语言模型 (LLM) 来总结一份财务报告。模型运行得非常完美。然后,你修正了输入数据中的一个小拼写错误——将“5000”改为“5,000”或者修正了一个拼写错误的公司名称。突然间,模型的输出完全反转了。它与之前的总结自相矛盾。 ...
](https://deep-paper.org/en/paper/2404.12726/images/cover.png)
如果你玩过“角色扮演智能体” (Role-Playing Agent,简称 RPA) ——也就是那种旨在扮演哈利·波特、夏洛克·福尔摩斯或你最喜欢的动漫角色的 AI 聊天机器人——你可能会对它模仿角色说话风格的能力印象深刻。但你是否想过: AI 真的理解这个角色吗?还是说它只是在机械地模仿口头禅和表面特征? ...
](https://deep-paper.org/en/paper/file-3040/images/cover.png)
想象一下,你正在埃塞俄比亚旅行。你想读一篇当地的新闻文章,翻译路牌,或者用阿姆哈拉语与当地商贩交流。你拿出手机,将句子输入翻译 App。App 运转了一秒钟,吐出了一句翻译。你理所当然地认为它是对的。 ...
](https://deep-paper.org/en/paper/2410.04254/images/cover.png)
想象一下,你正在编辑一篇关于 20 世纪 50 年代女演员的维基百科文章。你想添加一个指向“私立学校 (Private School) ”页面的链接,因为这与她的早年生活相关。你浏览了全文,发现“私立学校”这几个字并未出现在文章中。 ...
](https://deep-paper.org/en/paper/2410.01285/images/cover.png)
像 LLaMA 和 Qwen 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们能够以惊人的熟练度起草邮件、编写代码以及总结复杂的文本。然而,这些模型就像巨大的“黑盒”一样运作。当一个 LLM 生成特定的事实——或者更糟糕的是,产生幻觉——时,要从其海量的训练数据集中准确找出究竟是哪一份文档教会了它这条特定信息,是出了名的困难。 ...
](https://deep-paper.org/en/paper/2402.14798/images/cover.png)
理由正当方为正解: 利用非形式逻辑教 AI 像人类一样论证 试想一下,你问一个学生为什么重力能让月球保持在轨道上。如果他们回答: “因为月球是用奶酪做的”,然后莫名其妙地在选择题试卷上圈出了正确答案“重力”,那么虽然他们答对了题,但他们的推理过程却是灾难性的。 ...
](https://deep-paper.org/en/paper/file-3036/images/cover.png)
引言 如果你关注过 GPT-4 或 Llama 2 等大型语言模型 (LLM) 的爆发,那你一定对 人类反馈强化学习 (RLHF) 这个概念不陌生。它是将一个原始、难以驾驭的文本预测器转变为乐于助人的助手的秘诀。通过使用强化学习 (RL),我们可以让模型与复杂的人类偏好保持一致,而这些偏好通常很难写成简单的代码。 ...
](https://deep-paper.org/en/paper/2409.17073/images/cover.png)
弥合信任鸿沟: 粗粒度分解如何改善 AI 引用 在生成式 AI 飞速发展的今天,信任成为了新的货币。虽然我们惊叹于 GPT-4 或 Claude 等大型语言模型 (LLM) 的流畅表达,但一个挥之不去的阴影始终笼罩着它们的输出: 幻觉 (Hallucinations) 。 当 AI 基于长文档回答复杂问题时,我们如何知道它不是在胡编乱造? ...
](https://deep-paper.org/en/paper/2410.06581/images/cover.png)
如果你曾经尝试过搜索特定的法律先例,你就会知道这并不像谷歌搜索食谱那么简单。法律案例检索 (Legal Case Retrieval, LCR) 是一项高风险、复杂的任务,法官或律师需要输入一段案情描述来寻找历史上相关的案例。 ...
](https://deep-paper.org/en/paper/2406.13230/images/cover.png)
大型语言模型 (LLM) 常被比作自信的学生: 当它们不知道答案时,宁愿编造一个听起来合理的谎言,也不愿承认无知。这种被称为“幻觉”的现象,仍然是将 LLM 部署在医疗、法律或金融等高风险应用中的主要障碍之一。 ...
](https://deep-paper.org/en/paper/file-3032/images/cover.png)
大型语言模型 (LLM) 的训练已经演变成一个复杂的三阶段流程: 预训练 (学习语言) 、监督微调 (学习任务) 和带人类反馈的强化学习 (RLHF) 。虽然前两个阶段建立了模型的能力,但第三个阶段——RLHF——对于安全性与实用性而言,可以说是最关键的。它将模型与人类价值观对齐,确保人工智能是乐于助人而非有害的。 ...
](https://deep-paper.org/en/paper/2409.19979/images/cover.png)
大语言模型 (LLMs) 彻底改变了我们与信息交互的方式。从编写代码到创作诗歌,它们的推理能力毋庸置疑。自然地,研究人员热衷于将这种力量应用于推荐系统 。 毕竟,如果一个 LLM 能够理解电影评论的语义,它肯定能预测你接下来想看什么电影,对吧? ...
](https://deep-paper.org/en/paper/2410.03545/images/cover.png)
引言 在自然语言处理 (NLP) 和计算社会科学 (CSS) 的世界里,我们经常痴迷于“最先进技术” (State of the Art) 。我们追求更高的 F1 分数和准确率百分比,为排行榜上的每一次微小提升而欢呼。但是,如果这些高分只是一种错觉呢?如果我们的模型并没有真正学会理解语言,而仅仅是记住了隐藏在训练集中的重复数据点呢? ...
](https://deep-paper.org/en/paper/2409.13980/images/cover.png)
人工智能在“看”世界方面已经取得了巨大的进步。现代模型可以轻松地识别照片中的猫,或者告诉你这辆车是红色的。这被称为视觉感知 。 然而,如果你给 AI 看一张一个人在熨烫三明治的照片,并问它“这有什么好笑的?”,传统模型往往会束手无策。它们可能看得到熨斗和三明治,但无法理解这种情境的荒谬之处。这就是复杂视觉推理的挑战。 ...
](https://deep-paper.org/en/paper/2410.11009/images/cover.png)
你是否曾打开一封邮件或聊天信息,看到屏幕底部那些小小的“智能回复”气泡?它们提供诸如“听起来不错!”或“我会看看。”这类快速的罐头式回复。 有时,它们很有帮助。但通常情况下,它们完全偏离了重点。你会忽略它们,开始手动输入自己的回复。 ...
](https://deep-paper.org/en/paper/2402.13331/images/cover.png)
神经机器翻译 (NMT) 彻底改变了我们的沟通方式。从 Google 翻译到先进的企业级工具,这些系统已成为现代交流的主角。然而,尽管它们被广泛采用且通常可靠,但 NMT 系统仍深受一种严重病症的困扰: 幻觉 (Hallucinations) 。 ...