EMNLP 2024

[Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing? 🔗](https://arxiv.org/abs/2407.01119)

人机大战：GPT-4 与世界级小说家之间的首次真正创意写作对决

在人工智能的历史长河中，我们通过细数那些被击败的人类冠军来标记进步的刻度。我们记得深蓝 (Deep Blue) 在国际象棋上击败加里·卡斯帕罗夫 (Garry Kasparov) 。我们记得 AlphaGo 震惊了李世石 (Lee Sedol) 。这些都是关键时刻，机器证明了它们能在逻辑和策略的封闭系统中超越最强的人类大脑。 ...

[PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval 🔗](https://arxiv.org/abs/2404.18424)

PromptReps：如何无需训练将 LLM 转化为检索器

引言在自然语言处理 (NLP) 飞速发展的今天，像 GPT-4 和 Llama-3 这样的大型语言模型 (LLM) 已成为生成文本、编写代码和回答问题的事实标准。它们理解上下文的能力无与伦比。然而，一个巨大的挑战依然存在: 我们如何在不耗尽预算的情况下，利用这些生成式巨头在海量数据集中有效地查找信息？ ...

[PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models 🔗](https://arxiv.org/abs/2405.01535)

我们需要的那位裁判：PROMETHEUS 2 如何通过融合技能在评估能力上匹敌 GPT-4

大语言模型 (LLMs) 的爆发在人工智能领域制造了一个独特的瓶颈。我们拥有能写诗、写代码和起草法律简报的模型，但我们正逐渐缺乏可靠的方法来为它们评分。历史上，人类是裁判。但人类不仅速度慢、成本高，而且往往缺乏一致性。为了解决这个问题，行业转向了“大模型即裁判” (LLM-as-a-Judge) 的范式，即使用强大的专有模型 (如 GPT-4) 来评估较小模型的输出。这种方法效果不错，但也引入了新问题: 高昂的成本、缺乏透明度 (闭源) ，以及数据隐私问题。 ...

[Private Language Models via Truncated Laplacian Mechanism 🔗](https://arxiv.org/abs/2410.08027)

在高维空间保守秘密——一种私有词嵌入的新方法

在高维空间保守秘密: 一种私有词嵌入的新方法自然语言处理 (NLP) 已经深深融入我们的日常生活，从智能手机上的预测文本到分析医疗记录的大型语言模型 (LLM) 。然而，这些模型往往太擅长记忆了。它们经常会记住训练数据中的具体细节，从而导致一个严重的问题: 隐私泄露。如果一个模型是在敏感的电子邮件或临床笔记上训练的，攻击者就有可能提取出这些私人信息。 ...

[Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality 🔗](https://arxiv.org/abs/2410.05210)

AI 能理解语法吗？在不破坏 VLM 的前提下提升其组合性

引言人类拥有一种通过多种感官理解世界的先天能力。我们可以毫不费力地结合视觉线索和语言来解读复杂的场景。如果你看到一张“一匹马骑着一个人”的图片，你会立刻识别出这种荒谬感，并将其与“一个人骑着一匹马”区分开来。这种理解不同组成部分 (物体、属性、关系) 如何组合形成意义的能力被称为组合推理 (Compositional Reasoning) 。 ...

[Preserving Generalization of Language Models in Few-shot Continual Relation Extraction 🔗](https://arxiv.org/abs/2410.00334)

别丢了你的“头”：保留语言模型头如何解决灾难性遗忘

想象一下学习骑自行车。现在，再想象一下学会骑车这件事导致你立刻忘记了如何走路。这种荒谬的情况对于许多人工智能模型来说却是现实。这种现象被称为灾难性遗忘 (Catastrophic Forgetting) , 它是持续学习 (Continual Learning, CL) 领域的一个主要障碍，在这个领域中，模型必须学习一系列任务而不清除其先前的知识。 ...

[Preference-Guided Reflective Sampling for Aligning Language Models 🔗](https://arxiv.org/abs/2408.12163)

拒绝盲目猜测：偏好引导的反射式采样如何对齐大语言模型

引言想象一下你是一位教授，要求学生写一篇论文。如果学生只写了一版草稿就立刻上交，质量可能还过得去，但很可能缺少一些深度。现在，想象一下你要求学生先写一版草稿，通读一遍，根据具体标准 (如“更简洁一点”或“增加参考文献”) 批评自己的作品，然后再写出最终版本。结果几乎肯定会更好。 ...

[Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model 🔗](https://arxiv.org/abs/2408.10764)

Otter：通过无损参数插入驯服大语言模型

大语言模型 (LLM) 无疑令人印象深刻。它们能写诗、调试代码并总结历史。然而，任何深入使用过它们的人都知道，它们并非完美无缺。它们可能会产生幻觉、生成有害内容，或者在复杂的推理任务中失败。 ...

[Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement 🔗](https://arxiv.org/abs/2403.16184)

驯服偏差：如何将视觉语言模型成功集成到场景图生成中

引言想象一下走进一个凌乱的客厅。你看到的不仅仅是“沙发”、“猫”和“遥控器”。你瞬间就能理解它们之间错综复杂的联系: 猫睡在沙发上，遥控器在垫子下面，而画挂在墙上。这种对物体及其关系的结构化理解，计算机视觉研究人员称之为场景图 (Scene Graph) 。 ...

[Precise Model Benchmarking with Only a Few Observations 🔗](https://arxiv.org/abs/2410.05222)

你的 LLM 在小众话题上表现如何？利用经验贝叶斯解决小样本问题

引言在大语言模型 (LLM) 时代，我们热衷于各种基准测试。看着那些庞大的排行榜，看到某个模型“在 MMLU 上达到 85% 的准确率”或“在 HellaSwag 上达到 90%”，这些汇总的数字虽然能让我们对模型能力有个大致了解，但往往掩盖了一个关键问题: 模型并不是在所有方面都同样出色。 ...

[PREALIGN: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment 🔗](https://arxiv.org/abs/2407.16222)

PreAlign：教大模型在识字前先学会翻译

像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的，但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”，是自发地通过上下文习得，而不是系统性地学习。 ...

[Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation 🔗](https://arxiv.org/abs/2311.16201)

为什么你的大语言模型不会画画：自回归图像生成中预训练的局限性

引言: AI 艺术领域的巨大分歧如果你关注了过去几年 AI 生成图像的爆炸式增长，你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是，在这些模型的底层，存在着根本性的技术分歧。 ...

[Pragmatic Norms Are All You Need - Why The Symbol Grounding Problem Does Not Apply to LLMs 🔗](https://aclanthology.org/2024.emnlp-main.651.pdf)

无需实物的意义：为何 LLM 不用亲眼见到狗也能理解“狗”的含义

无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义在过去几年中，自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统，跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ，它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。 ...

[PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation 🔗](https://arxiv.org/abs/2406.18528)

PrExMe：揭秘基于 LLM 评估的提示工程之道

在自然语言处理 (NLP) 飞速发展的今天，我们已经到了用人工智能来评估人工智能的阶段。大型语言模型 (LLM) 的能力已经非常强大，研究人员现在使用它们作为“裁判”来对机器翻译 (MT) 和文本摘要的质量进行评分。这就是所谓的基于 LLM 的评估。 ...

[POSTMARK: A Robust Blackbox Watermark for Large Language Models 🔗](https://arxiv.org/abs/2406.14517)

无需访问模型也能给 AI 文本加水印？深入解读 POSTMARK

大型语言模型 (LLM) 正在重塑互联网。从生成新闻文章到编写代码，机器生成内容的数量正在呈爆炸式增长。但这股能力背后也有阴暗面: 幻觉、偏见，以及大规模制造虚假信息的可能性。如果网络上充斥着数以百万计的 AI 生成文章，我们要如何信任所读到的内容？更进一步说，如果未来的 AI 模型是基于今天 AI 的输出进行训练的，我们不仅会陷入质量退化的反馈循环，还会面临更多问题。 ...

[Position Engineering: Boosting Large Language Models through Positional Information Manipulation 🔗](https://arxiv.org/abs/2404.11216)

超越提示工程：“幽灵 Token”如何释放大语言模型的潜力

如果你在大语言模型 (LLM) (如 GPT-4 或 Llama 2) 上花过时间，那你很可能熟悉提示工程 (Prompt Engineering) 这一“黑魔法”。我们要花数小时调整措辞，加上“让我们一步步思考 (Let’s think step by step) ”，或者重组段落，只为了让模型输出正确的答案。这个过程感觉不像是工程，更像是在施法——改一个词，魔法生效了；改另一个词，魔法就失效了。 ...

[Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification 🔗](https://aclanthology.org/2024.emnlp-main.1019.pdf)

大语言模型真的能检测仇恨言论吗？行为模式与失效分析

想象一下，你是一个社交媒体平台的内容审核员，或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地，你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗？” ...

[Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models 🔗](https://arxiv.org/abs/2410.12011)

图像能阅读吗？深度探究像素级模型的语言大脑

想象一下，不是通过识别字母或单词来阅读一本书，而是通过看页面的连续截图来阅读。这本质上就是基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同，这些模型将文本视为图像。 ...

[PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study 🔗](https://aclanthology.org/2024.emnlp-main.163.pdf)

解码过去：PhiloGPT 如何彻底改变中国古代文献研究

想象一下，试图阅读一封写于一千年前的信件。纸张破烂不堪，因虫蛀或水渍而缺字少句，而且语法遵循着几个世纪前就不再使用的规则。此外，作者还使用了一个 7 世纪特定小村庄的俚语，而这个词在任何现代字典中都查不到。 ...

[PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Efforts 🔗](https://arxiv.org/abs/2406.10471)

打造专属 LLM：Personalized Pieces (PER-PCS) 如何彻底变革模型定制

引言想象一下，你有一位私人助理，他读过你写过的每一封邮件，确切地知道你喜欢哪些电影，并且完美地理解你的写作风格。现在，想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...