](https://deep-paper.org/en/paper/2406.14829/images/cover.png)
超越行与列:评估 AI 生成表格的新方法
引言 想象一下,你要求一个大型语言模型 (LLM) 将一份复杂的财务报告总结成一张整洁易读的表格。模型生成了一个包含数字和表头的网格。乍一看,它看起来很完美。列对齐整齐,格式清晰,表头看起来也很专业。 ...
](https://deep-paper.org/en/paper/2406.14829/images/cover.png)
引言 想象一下,你要求一个大型语言模型 (LLM) 将一份复杂的财务报告总结成一张整洁易读的表格。模型生成了一个包含数字和表头的网格。乍一看,它看起来很完美。列对齐整齐,格式清晰,表头看起来也很专业。 ...
](https://deep-paper.org/en/paper/2410.03466/images/cover.png)
在大型语言模型 (LLM) 快速发展的格局中,存在着两个主要目标之间的持续拉锯战: 让模型有用 (helpful) 和让模型无害 (harmless) 。 我们希望 AI 助手能准确回答我们的问题,但同时也希望确保它们不会输出毒性内容、偏见或危险的指令。 ...
](https://deep-paper.org/en/paper/2402.14016/images/cover.png)
黑客入侵裁判席: 通用对抗攻击如何欺骗 LLM 评估器 在人工智能快速发展的世界中,大型语言模型 (LLM) 承担了一个新角色: 裁判。我们不仅使用 GPT-4 和 Llama 2 等强大的模型来编写代码或诗歌,还使用它们来评估其他模型生成的文本质量。这种被称为“LLM 作为裁判 (LLM-as-a-judge) ”的范式,正成为基准测试甚至批改学生论文或考试的标准。 ...
](https://deep-paper.org/en/paper/2407.00402/images/cover.png)
在大型语言模型 (LLM) 飞速发展的世界中,我们正目睹一场“上下文窗口军备竞赛”。不久前,一个能记住 2000 个单词的模型还令人印象深刻。而今天,我们要面对的是号称拥有 128k、200k 甚至 100 万 token 上下文窗口的模型。 ...
](https://deep-paper.org/en/paper/2406.12822/images/cover.png)
如果你曾经用谷歌翻译来完成西班牙语作业,或者在东京解读菜单,你就会知道结果通常能用,但往往缺乏“灵魂”。语法可能是正确的,但文化细微差别——习语、当地语境、那种独特的氛围——往往丢失了。 ...
](https://deep-paper.org/en/paper/2408.03617/images/cover.png)
数据鸿沟: 语言模型能像儿童一样学习吗? 如果你观察过幼儿学说话,会觉得那简直是个奇迹。到一个孩子 10 岁时,他们听到的单词量大约在 1000 万到 1 亿之间。仅仅依靠这相对较少的数据,他们就掌握了流利的语言能力,理解复杂的语法,并能领会细微的差别。 ...
](https://deep-paper.org/en/paper/2410.07461/images/cover.png)
引言 在当前的人工智能时代,像 Llama 2 和 GPT-4 这样的大型语言模型 (LLMs) 已经彻底改变了我们与技术交互的方式。然而,它们的能力伴随着高昂的代价: 硬件资源。仅仅加载一个 70 亿参数的模型就需要高达 10GB 的内存,这使得大多数消费级边缘设备或手机无法运行它。 ...
](https://deep-paper.org/en/paper/2410.03176/images/cover.png)
想象一下,你让 AI 描述一张客厅的照片。它准确地识别出了沙发、电视和咖啡桌。但随后,它自信地补充道: “地毯上还睡着一只猫。”你仔细看了看。根本没有猫。那里从来就没有过猫。 ...
](https://deep-paper.org/en/paper/2406.14511/images/cover.png)
引言 在当前的大型语言模型 (LLM) 领域,“思维链” (Chain of Thought, CoT) 提示已成为一种主流范式。我们都见证过这种魔力: 如果你要求 GPT-4 这样的模型“一步步地思考”,它解决复杂数学应用题或常识推理任务的能力就会显著提高。 ...
](https://deep-paper.org/en/paper/2402.13703/images/cover.png)
引言 在大型语言模型 (LLM) 飞速发展的格局中,存在着一种明显的不平衡。虽然像 GPT-4 和 Llama 2 这样的模型以其能力令我们惊叹,但它们主要以“英语为中心”。它们在浩瀚的英语文本海洋中训练,而它们遵循其他语言指令的能力往往感觉像是事后的补充——是翻译的副作用,而非核心功能。 ...
](https://deep-paper.org/en/paper/2411.01706/images/cover.png)
想象一下你正在学习一门新语言。你拿起一份报纸开始阅读,突然碰了壁。有一个词你完全不懂。它打断了你的节奏,影响了你的理解。现在,想象有一个计算机系统可以在你阅读之前扫描文本,识别出那些困难的单词,并自动将其替换为更简单的同义词。 ...
](https://deep-paper.org/en/paper/2407.08495/images/cover.png)
引言 在信息过载的时代,做出明智的政治决定正变得越来越困难。在重大政治事件期间,例如 2024 年欧洲议会选举,选民们被各种宣言、辩论和媒体评论狂轰滥炸。为了应对这一局面,许多公民转向了投票建议应用 (Voting Advice Applications,简称 VAAs) 。这些传统的、基于规则的网络应用程序让用户回答一份固定的问卷 (例如,“你支持欧元吗?”) ,然后系统会将他们与观点最相符的政党进行匹配。 ...
](https://deep-paper.org/en/paper/2407.15286/images/cover.png)
大型语言模型 (LLM) 的名声有点问题。虽然它们能写诗和代码,但也容易产生幻觉,更令人担忧的是,它们可能会延续刻板印象、歧视和有害内容。 为了解决这个问题,业界团结在一种被称为内在道德自我修正 (Intrinsic Moral Self-Correction) 的技术周围。这个想法极其简单: 要求模型重新检查自己的工作。通过附加诸如“请确保你的回答没有偏见”之类的指令,模型通常能产生明显更安全的输出。这感觉就像魔法一样——模型似乎在“反思”并自我修复,而不需要任何外部人类反馈或微调。 ...
](https://deep-paper.org/en/paper/2408.15232/images/cover.png)
引言 我们生活在一个答案唾手可得的黄金时代。如果你想知道巴西的人口数量或钨的沸点,只需在 Google 上快速搜索或向 ChatGPT 提问,瞬间就能得到答案。这些系统非常擅长解决 已知的未知 (known unknowns)——即你意识到的、并能用具体问题表达出来的知识缺口。 ...
](https://deep-paper.org/en/paper/2410.15609/images/cover.png)
想象一下,你让智能家居助手“把麦片 (cereal) 加到购物清单里”。结果,它却尽职尽责地把“连续剧 (serial) ”加了进去。虽然这对用户来说只是个小烦恼,但对于底层的人工智能来说,这是理解能力上的灾难性失败。 ...
](https://deep-paper.org/en/paper/2402.15055/images/cover.png)
大型语言模型 (LLM) 的内部常常被描述为一个“黑盒”。我们知道输入是什么 (提示词) ,也知道输出是什么 (连贯的续写) ,但这两者之间数十亿次的计算过程在很大程度上仍然是个谜。 ...
](https://deep-paper.org/en/paper/file-3216/images/cover.png)
引言 想象一下,给目前最先进的 AI 模型看一张马骑在人身上的照片 (确实是一张奇怪的照片) 。然后,你让模型在两个选项中选出正确的标题: “一个人骑着马”和“一匹马骑着人”。 ...
](https://deep-paper.org/en/paper/file-3215/images/cover.png)
像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 常被比作现代百科全书。它们存储着关于世界的通过海量信息,从历史日期到科学常数,无所不包。但这个类比有一个致命的缺陷: 数字百科全书可以通过敲击几下键盘进行更新,而 LLM 却被冻结在时间里。 ...
](https://deep-paper.org/en/paper/2406.12203/images/cover.png)
大型语言模型 (LLM) 已经掌握了对话的艺术。它们可以写诗、调试代码并总结历史。但它们能策略性地撒谎吗?它们能推断出朋友中谁是叛徒吗?它们能理解某人所说的话与其实际意图之间的细微差别吗? ...
](https://deep-paper.org/en/paper/file-3213/images/cover.png)
引言 在自然语言处理 (NLP) 的世界里,理解谁对谁做了什么是至高无上的目标。这一过程被称为信息抽取 (Information Extraction, IE) , 它将非结构化文本——如新闻文章或医疗报告——转化为结构化的数据表。 ...