](https://deep-paper.org/en/paper/2406.17969/images/cover.png)
解开黑盒:为什么单义性是提升大语言模型对齐的关键
引言 想象一下,你试图理解一个复杂的外星大脑是如何运作的。你探测了一个神经元,希望它对应一个特定的想法,比如“快乐”或“红色”。然而,这个神经元却对一团混乱的概念做出反应: 一个特定的介词、关于法国大革命的提及,以及 Python 函数的闭合括号。这就是大语言模型 (LLM) 中多义性 (polysemanticity) 的现实。 ...
](https://deep-paper.org/en/paper/2406.17969/images/cover.png)
引言 想象一下,你试图理解一个复杂的外星大脑是如何运作的。你探测了一个神经元,希望它对应一个特定的想法,比如“快乐”或“红色”。然而,这个神经元却对一团混乱的概念做出反应: 一个特定的介词、关于法国大革命的提及,以及 Python 函数的闭合括号。这就是大语言模型 (LLM) 中多义性 (polysemanticity) 的现实。 ...
](https://deep-paper.org/en/paper/2405.19723/images/cover.png)
想象一下,你正在看一部超级英雄电影。在第一幕中,主角意识到战衣里的某个特定组件正在使他中毒。一小时后,他发现了一种新元素来替代它。在最后的决战中,这种新元素为战衣提供了动力,不仅让他赢得了战斗,还保住了性命。 ...
](https://deep-paper.org/en/paper/file-3023/images/cover.png)
介绍 在数据世界中,电子表格为王。从小型企业到财富 500 强公司,Microsoft Excel 和 Google Sheets 是结构化数据的默认操作系统。然而,尽管它们无处不在,电子表格对于当今最强大的人工智能工具来说,仍然是一个巨大的盲点。 ...
](https://deep-paper.org/en/paper/file-3022/images/cover.png)
数学常被称为通用语言。无论你用英语、中文还是斯瓦希里语来描述问题,像 \(20 - 12 + 5\) 这样的计算结果都是一样的。然而,对于大语言模型 (LLM) 来说,这种通用性并非理所当然。虽然像 GPT-4 这样的模型在英语环境下表现出惊人的推理能力,但当使用低资源语言进行提示时,它们的表现往往会大打折扣。 ...
](https://deep-paper.org/en/paper/2410.00771/images/cover.png)
如果你经常上网,你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流,每天产生的数据量惊人。对于人工智能,特别是 视频问答 (Video Question Answering, VideoQA) 模型而言,这是一个巨大的挑战。 ...
](https://deep-paper.org/en/paper/2410.04439/images/cover.png)
引言 如果你尝试过 Stable Diffusion 或 Midjourney 等文本到图像扩散模型,你很可能遇到过“乱码现象”。你要求生成一个写着“Welcome Home” (欢迎回家) 的牌子,模型却生成了一个漂亮的客厅,里面的牌子上写着“Wleom Hmeo”。 ...
](https://deep-paper.org/en/paper/2312.14069/images/cover.png)
你是否遇到过因为接收者听不到你说话的语气而误解短信的情况?句子 “I never said he stole my bag” (我从没说过他偷了我的包) 根据你重读这七个单词中的哪一个,会有七种完全不同的含义。 ...
](https://deep-paper.org/en/paper/2403.02281/images/cover.png)
引言: “情感大杂烩” 想象一下你今天过得很糟糕。当朋友问你感觉如何时,你会怎么说?你会回答因为项目停滞而感到“沮丧”,因为即将到来的截止日期而感到“焦虑”,还是对同事感到“失望”?或者,你只是简单地说感觉“很糟”或“压力很大”? ...
](https://deep-paper.org/en/paper/2410.00316/images/cover.png)
引言 试着读一下这句莎士比亚的名言: *“生存还是毁灭,这是一个问题。” (To be, or not to be.) * 再读一遍这段文字。它在你脑海中听起来是怎样的?是绝望的低语?是充满哲理的沉思?还是挑衅般的呐喊? ...
](https://deep-paper.org/en/paper/file-3016/images/cover.png)
深入黑盒: 利用梯度和嵌入捕捉 LLM 幻觉 像 GPT-4 和 LLaMa 这样的大型语言模型 (LLM) 已经改变了我们与信息交互的方式。它们能写代码、作诗并回答复杂的问题。但它们有一个臭名昭著的缺陷: 幻觉 (Hallucinations) 。 我们都见过这种情况——LLM 自信地断言一个完全捏造的“事实”,引用不存在的法庭案例或虚构历史事件。 ...
](https://deep-paper.org/en/paper/2403.11747/images/cover.png)
当我们与现代大型语言模型 (LLM) (如 GPT-4 或 Llama) 交互时,我们通常体验到的是一种“流式”格式。文字一个接一个地出现,营造出对话的错觉。但对于构建复杂应用程序 (如自动化事实核查器或知识图谱构建器) 的开发人员和研究人员来说,这种流式文本是一个挑战。 ...
](https://deep-paper.org/en/paper/2406.10957/images/cover.png)
引言 在快速发展的大语言模型 (LLM) 领域,越大并不总是越好——尤其是当涉及到模型回复的长度时。如果你曾与现代聊天机器人互动过,你可能注意到了一个独特的习惯: 它们喜欢喋喋不休。问一个简单的问题,你往往会得到长篇大论。 ...
](https://deep-paper.org/en/paper/2408.04259/images/cover.png)
EfficientRAG: 无需高昂成本即可解决多跳问答难题 在大型语言模型 (LLM) 飞速发展的当下,检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为将 AI 回答建立在现实基础上的黄金标准。通过从外部来源获取相关数据,RAG 减少了幻觉,并使模型能够回答有关特定的、私有的或最新的数据问题。 ...
](https://deep-paper.org/en/paper/file-3011/images/cover.png)
在自然语言处理 (NLP) 领域,像 BERT 和 XLM-R 这样的多语言预训练语言模型 (mPLMs) 堪称 AI 界的“多语言专家”。它们在大约 100 种不同语言的文本上进行训练,从而能够跨越国界执行任务——比如情感分析或主题分类。 ...
](https://deep-paper.org/en/paper/2402.16050/images/cover.png)
引言: “长视频”瓶颈 想象一下要求 AI 观看一部两小时的电影,并回答这个问题: “为什么主角在第二幕开门之前犹豫了?” 对于人类来说,这是一个关于感知和记忆的简单任务。但对于多模态大语言模型 (MLLM) 来说,这是一场计算噩梦。虽然 MLLM 在理解静态图像方面取得了惊人的进步,但将其应用于长视频却面临着巨大的障碍。视频包含成千上万帧图像。将所有这些帧输入到标准 MLLM 中会超出“上下文窗口” (模型一次可以处理的信息量限制) ,甚至让最强大的 GPU 也因过载而崩溃。 ...
](https://deep-paper.org/en/paper/2406.12125/images/cover.png)
引言 在人工智能飞速发展的版图中,大型语言模型 (LLM) 已确立了其在知识和推理领域无可争议的王者地位。从编写代码到总结历史,它们的能力极其广泛。然而,在生成文本与在动态环境中采取最佳行动之间,仍存在显著的差距。 ...
](https://deep-paper.org/en/paper/2409.12656/images/cover.png)
引言 我们正经历着科学研究的爆炸式增长。仅在“计算与语言”领域,每天就有大约 100 篇新论文上传到 arXiv。对于研究人员、学生或从业者来说,跟上这股信息洪流不仅是困难的——这在人力上几乎是不可能的。 ...
](https://deep-paper.org/en/paper/file-3007/images/cover.png)
如果你读到这句话: “迈克尔·乔丹发表了一篇关于机器学习的新论文”,你会想到谁? 如果你像大多数人一样——更重要的是,像大多数机器学习模型一样——你可能立刻想到了那位篮球传奇人物,芝加哥公牛队的 23 号。但你错了。这句话指的是 Michael I. Jordan,加州大学伯克利分校著名的计算机科学教授。 ...
](https://deep-paper.org/en/paper/2405.05894/images/cover.png)
随着大型语言模型 (LLM) 在自然语言处理领域占据主导地位,一个同样困难的次生问题随之出现: 我们该如何评估它们? 当 LLM 生成摘要、故事或一行对话时,很少有一个单一的“正确”答案。传统的指标如 BLEU 或 ROUGE 依赖于与参考文本的词重叠度,往往无法捕捉连贯性、创造力或有用性等细微差别。这导致了 LLM-as-a-judge (LLM 作为裁判) 的兴起,即我们使用更强的模型 (如 GPT-4 或 Llama-2-Chat) 来给其他模型的输出打分。 ...
](https://deep-paper.org/en/paper/file-3005/images/cover.png)
引言 想象一下走进一座收藏了人类历史上所有书籍的图书馆。现在,再想象一下其中数百万本书的页面上充满了乱码。“The cat sat on the mat” (猫坐在垫子上) 可能被显示为“The c@t s4t on tbe mAt”。这就是数字人文领域目前的现状。 ...