[Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing? 🔗](https://arxiv.org/abs/2407.01119)

人机大战:GPT-4 与世界级小说家之间的首次真正创意写作对决

在人工智能的历史长河中,我们通过细数那些被击败的人类冠军来标记进步的刻度。我们记得深蓝 (Deep Blue) 在国际象棋上击败加里·卡斯帕罗夫 (Garry Kasparov) 。我们记得 AlphaGo 震惊了李世石 (Lee Sedol) 。这些都是关键时刻,机器证明了它们能在逻辑和策略的封闭系统中超越最强的人类大脑。 ...

2024-07 · 8 分钟 · 3768 字
[PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval 🔗](https://arxiv.org/abs/2404.18424)

PromptReps:如何无需训练将 LLM 转化为检索器

引言 在自然语言处理 (NLP) 飞速发展的今天,像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已成为生成文本、编写代码和回答问题的事实标准。它们理解上下文的能力无与伦比。然而,一个巨大的挑战依然存在: 我们如何在不耗尽预算的情况下,利用这些生成式巨头在海量数据集中有效地查找信息? ...

2024-04 · 9 分钟 · 4012 字
[PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models 🔗](https://arxiv.org/abs/2405.01535)

我们需要的那位裁判:PROMETHEUS 2 如何通过融合技能在评估能力上匹敌 GPT-4

大语言模型 (LLMs) 的爆发在人工智能领域制造了一个独特的瓶颈。我们拥有能写诗、写代码和起草法律简报的模型,但我们正逐渐缺乏可靠的方法来为它们评分。 历史上,人类是裁判。但人类不仅速度慢、成本高,而且往往缺乏一致性。为了解决这个问题,行业转向了“大模型即裁判” (LLM-as-a-Judge) 的范式,即使用强大的专有模型 (如 GPT-4) 来评估较小模型的输出。这种方法效果不错,但也引入了新问题: 高昂的成本、缺乏透明度 (闭源) ,以及数据隐私问题。 ...

2024-05 · 7 分钟 · 3054 字
[Private Language Models via Truncated Laplacian Mechanism 🔗](https://arxiv.org/abs/2410.08027)

在高维空间保守秘密——一种私有词嵌入的新方法

在高维空间保守秘密: 一种私有词嵌入的新方法 自然语言处理 (NLP) 已经深深融入我们的日常生活,从智能手机上的预测文本到分析医疗记录的大型语言模型 (LLM) 。然而,这些模型往往太擅长记忆了。它们经常会记住训练数据中的具体细节,从而导致一个严重的问题: 隐私泄露。如果一个模型是在敏感的电子邮件或临床笔记上训练的,攻击者就有可能提取出这些私人信息。 ...

2024-10 · 8 分钟 · 3652 字
[Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality 🔗](https://arxiv.org/abs/2410.05210)

AI 能理解语法吗?在不破坏 VLM 的前提下提升其组合性

引言 人类拥有一种通过多种感官理解世界的先天能力。我们可以毫不费力地结合视觉线索和语言来解读复杂的场景。如果你看到一张“一匹马骑着一个人”的图片,你会立刻识别出这种荒谬感,并将其与“一个人骑着一匹马”区分开来。这种理解不同组成部分 (物体、属性、关系) 如何组合形成意义的能力被称为组合推理 (Compositional Reasoning) 。 ...

2024-10 · 7 分钟 · 3412 字
[Preserving Generalization of Language Models in Few-shot Continual Relation Extraction 🔗](https://arxiv.org/abs/2410.00334)

别丢了你的“头”:保留语言模型头如何解决灾难性遗忘

想象一下学习骑自行车。现在,再想象一下学会骑车这件事导致你立刻忘记了如何走路。这种荒谬的情况对于许多人工智能模型来说却是现实。这种现象被称为灾难性遗忘 (Catastrophic Forgetting) , 它是持续学习 (Continual Learning, CL) 领域的一个主要障碍,在这个领域中,模型必须学习一系列任务而不清除其先前的知识。 ...

2024-10 · 6 分钟 · 2613 字
[Preference-Guided Reflective Sampling for Aligning Language Models 🔗](https://arxiv.org/abs/2408.12163)

拒绝盲目猜测:偏好引导的反射式采样如何对齐大语言模型

引言 想象一下你是一位教授,要求学生写一篇论文。如果学生只写了一版草稿就立刻上交,质量可能还过得去,但很可能缺少一些深度。现在,想象一下你要求学生先写一版草稿,通读一遍,根据具体标准 (如“更简洁一点”或“增加参考文献”) 批评自己的作品,然后再写出最终版本。结果几乎肯定会更好。 ...

2024-08 · 7 分钟 · 3397 字
[Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model 🔗](https://arxiv.org/abs/2408.10764)

Otter:通过无损参数插入驯服大语言模型

大语言模型 (LLM) 无疑令人印象深刻。它们能写诗、调试代码并总结历史。然而,任何深入使用过它们的人都知道,它们并非完美无缺。它们可能会产生幻觉、生成有害内容,或者在复杂的推理任务中失败。 ...

2024-08 · 6 分钟 · 2917 字
[Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement 🔗](https://arxiv.org/abs/2403.16184)

驯服偏差:如何将视觉语言模型成功集成到场景图生成中

引言 想象一下走进一个凌乱的客厅。你看到的不仅仅是“沙发”、“猫”和“遥控器”。你瞬间就能理解它们之间错综复杂的联系: 猫睡在沙发上,遥控器在垫子下面,而画挂在墙上。这种对物体及其关系的结构化理解,计算机视觉研究人员称之为场景图 (Scene Graph) 。 ...

2024-03 · 10 分钟 · 4857 字
[Precise Model Benchmarking with Only a Few Observations 🔗](https://arxiv.org/abs/2410.05222)

你的 LLM 在小众话题上表现如何?利用经验贝叶斯解决小样本问题

引言 在大语言模型 (LLM) 时代,我们热衷于各种基准测试。看着那些庞大的排行榜,看到某个模型“在 MMLU 上达到 85% 的准确率”或“在 HellaSwag 上达到 90%”,这些汇总的数字虽然能让我们对模型能力有个大致了解,但往往掩盖了一个关键问题: 模型并不是在所有方面都同样出色。 ...

2024-10 · 7 分钟 · 3358 字
[PREALIGN: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment 🔗](https://arxiv.org/abs/2407.16222)

PreAlign:教大模型在识字前先学会翻译

像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的,但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”,是自发地通过上下文习得,而不是系统性地学习。 ...

2024-07 · 6 分钟 · 2989 字
[Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation 🔗](https://arxiv.org/abs/2311.16201)

为什么你的大语言模型不会画画:自回归图像生成中预训练的局限性

引言: AI 艺术领域的巨大分歧 如果你关注了过去几年 AI 生成图像的爆炸式增长,你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是,在这些模型的底层,存在着根本性的技术分歧。 ...

2023-11 · 8 分钟 · 3812 字
[Pragmatic Norms Are All You Need - Why The Symbol Grounding Problem Does Not Apply to LLMs 🔗](https://aclanthology.org/2024.emnlp-main.651.pdf)

无需实物的意义:为何 LLM 不用亲眼见到狗也能理解“狗”的含义

无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义 在过去几年中,自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统,跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ,它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。 ...

9 分钟 · 4208 字
[PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation 🔗](https://arxiv.org/abs/2406.18528)

PrExMe:揭秘基于 LLM 评估的提示工程之道

在自然语言处理 (NLP) 飞速发展的今天,我们已经到了用人工智能来评估人工智能的阶段。大型语言模型 (LLM) 的能力已经非常强大,研究人员现在使用它们作为“裁判”来对机器翻译 (MT) 和文本摘要的质量进行评分。这就是所谓的基于 LLM 的评估。 ...

2024-06 · 7 分钟 · 3229 字
[POSTMARK: A Robust Blackbox Watermark for Large Language Models 🔗](https://arxiv.org/abs/2406.14517)

无需访问模型也能给 AI 文本加水印?深入解读 POSTMARK

大型语言模型 (LLM) 正在重塑互联网。从生成新闻文章到编写代码,机器生成内容的数量正在呈爆炸式增长。但这股能力背后也有阴暗面: 幻觉、偏见,以及大规模制造虚假信息的可能性。如果网络上充斥着数以百万计的 AI 生成文章,我们要如何信任所读到的内容?更进一步说,如果未来的 AI 模型是基于今天 AI 的输出进行训练的,我们不仅会陷入质量退化的反馈循环,还会面临更多问题。 ...

2024-06 · 8 分钟 · 3657 字
[Position Engineering: Boosting Large Language Models through Positional Information Manipulation 🔗](https://arxiv.org/abs/2404.11216)

超越提示工程:“幽灵 Token”如何释放大语言模型的潜力

如果你在大语言模型 (LLM) (如 GPT-4 或 Llama 2) 上花过时间,那你很可能熟悉提示工程 (Prompt Engineering) 这一“黑魔法”。我们要花数小时调整措辞,加上“让我们一步步思考 (Let’s think step by step) ”,或者重组段落,只为了让模型输出正确的答案。这个过程感觉不像是工程,更像是在施法——改一个词,魔法生效了;改另一个词,魔法就失效了。 ...

2024-04 · 7 分钟 · 3270 字
[Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification 🔗](https://aclanthology.org/2024.emnlp-main.1019.pdf)

大语言模型真的能检测仇恨言论吗?行为模式与失效分析

想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?” ...

7 分钟 · 3056 字
[Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models 🔗](https://arxiv.org/abs/2410.12011)

图像能阅读吗?深度探究像素级模型的语言大脑

想象一下,不是通过识别字母或单词来阅读一本书,而是通过看页面的连续截图来阅读。这本质上就是 基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同,这些模型将文本视为图像。 ...

2024-10 · 6 分钟 · 2545 字
[PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study 🔗](https://aclanthology.org/2024.emnlp-main.163.pdf)

解码过去:PhiloGPT 如何彻底改变中国古代文献研究

想象一下,试图阅读一封写于一千年前的信件。纸张破烂不堪,因虫蛀或水渍而缺字少句,而且语法遵循着几个世纪前就不再使用的规则。此外,作者还使用了一个 7 世纪特定小村庄的俚语,而这个词在任何现代字典中都查不到。 ...

9 分钟 · 4059 字
[PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Efforts 🔗](https://arxiv.org/abs/2406.10471)

打造专属 LLM:Personalized Pieces (PER-PCS) 如何彻底变革模型定制

引言 想象一下,你有一位私人助理,他读过你写过的每一封邮件,确切地知道你喜欢哪些电影,并且完美地理解你的写作风格。现在,想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...

2024-06 · 8 分钟 · 3604 字