[Private Language Models via Truncated Laplacian Mechanism 🔗](https://arxiv.org/abs/2410.08027)

在高维空间保守秘密——一种私有词嵌入的新方法

在高维空间保守秘密: 一种私有词嵌入的新方法 自然语言处理 (NLP) 已经深深融入我们的日常生活,从智能手机上的预测文本到分析医疗记录的大型语言模型 (LLM) 。然而,这些模型往往太擅长记忆了。它们经常会记住训练数据中的具体细节,从而导致一个严重的问题: 隐私泄露。如果一个模型是在敏感的电子邮件或临床笔记上训练的,攻击者就有可能提取出这些私人信息。 ...

2024-10 · 8 分钟 · 3652 字
[Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality 🔗](https://arxiv.org/abs/2410.05210)

AI 能理解语法吗?在不破坏 VLM 的前提下提升其组合性

引言 人类拥有一种通过多种感官理解世界的先天能力。我们可以毫不费力地结合视觉线索和语言来解读复杂的场景。如果你看到一张“一匹马骑着一个人”的图片,你会立刻识别出这种荒谬感,并将其与“一个人骑着一匹马”区分开来。这种理解不同组成部分 (物体、属性、关系) 如何组合形成意义的能力被称为组合推理 (Compositional Reasoning) 。 ...

2024-10 · 7 分钟 · 3412 字
[Preserving Generalization of Language Models in Few-shot Continual Relation Extraction 🔗](https://arxiv.org/abs/2410.00334)

别丢了你的“头”:保留语言模型头如何解决灾难性遗忘

想象一下学习骑自行车。现在,再想象一下学会骑车这件事导致你立刻忘记了如何走路。这种荒谬的情况对于许多人工智能模型来说却是现实。这种现象被称为灾难性遗忘 (Catastrophic Forgetting) , 它是持续学习 (Continual Learning, CL) 领域的一个主要障碍,在这个领域中,模型必须学习一系列任务而不清除其先前的知识。 ...

2024-10 · 6 分钟 · 2613 字
[Preference-Guided Reflective Sampling for Aligning Language Models 🔗](https://arxiv.org/abs/2408.12163)

拒绝盲目猜测:偏好引导的反射式采样如何对齐大语言模型

引言 想象一下你是一位教授,要求学生写一篇论文。如果学生只写了一版草稿就立刻上交,质量可能还过得去,但很可能缺少一些深度。现在,想象一下你要求学生先写一版草稿,通读一遍,根据具体标准 (如“更简洁一点”或“增加参考文献”) 批评自己的作品,然后再写出最终版本。结果几乎肯定会更好。 ...

2024-08 · 7 分钟 · 3397 字
[Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model 🔗](https://arxiv.org/abs/2408.10764)

Otter:通过无损参数插入驯服大语言模型

大语言模型 (LLM) 无疑令人印象深刻。它们能写诗、调试代码并总结历史。然而,任何深入使用过它们的人都知道,它们并非完美无缺。它们可能会产生幻觉、生成有害内容,或者在复杂的推理任务中失败。 ...

2024-08 · 6 分钟 · 2917 字
[Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement 🔗](https://arxiv.org/abs/2403.16184)

驯服偏差:如何将视觉语言模型成功集成到场景图生成中

引言 想象一下走进一个凌乱的客厅。你看到的不仅仅是“沙发”、“猫”和“遥控器”。你瞬间就能理解它们之间错综复杂的联系: 猫睡在沙发上,遥控器在垫子下面,而画挂在墙上。这种对物体及其关系的结构化理解,计算机视觉研究人员称之为场景图 (Scene Graph) 。 ...

2024-03 · 10 分钟 · 4857 字
[Precise Model Benchmarking with Only a Few Observations 🔗](https://arxiv.org/abs/2410.05222)

你的 LLM 在小众话题上表现如何?利用经验贝叶斯解决小样本问题

引言 在大语言模型 (LLM) 时代,我们热衷于各种基准测试。看着那些庞大的排行榜,看到某个模型“在 MMLU 上达到 85% 的准确率”或“在 HellaSwag 上达到 90%”,这些汇总的数字虽然能让我们对模型能力有个大致了解,但往往掩盖了一个关键问题: 模型并不是在所有方面都同样出色。 ...

2024-10 · 7 分钟 · 3358 字
[PREALIGN: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment 🔗](https://arxiv.org/abs/2407.16222)

PreAlign:教大模型在识字前先学会翻译

像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的,但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”,是自发地通过上下文习得,而不是系统性地学习。 ...

2024-07 · 6 分钟 · 2989 字
[Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation 🔗](https://arxiv.org/abs/2311.16201)

为什么你的大语言模型不会画画:自回归图像生成中预训练的局限性

引言: AI 艺术领域的巨大分歧 如果你关注了过去几年 AI 生成图像的爆炸式增长,你可能听说过这些大名鼎鼎的名字: DALL-E、Midjourney、Stable Diffusion。但你可能不知道的是,在这些模型的底层,存在着根本性的技术分歧。 ...

2023-11 · 8 分钟 · 3812 字
[Pragmatic Norms Are All You Need - Why The Symbol Grounding Problem Does Not Apply to LLMs 🔗](https://aclanthology.org/2024.emnlp-main.651.pdf)

无需实物的意义:为何 LLM 不用亲眼见到狗也能理解“狗”的含义

无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义 在过去几年中,自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统,跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ,它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。 ...

9 分钟 · 4208 字
[PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation 🔗](https://arxiv.org/abs/2406.18528)

PrExMe:揭秘基于 LLM 评估的提示工程之道

在自然语言处理 (NLP) 飞速发展的今天,我们已经到了用人工智能来评估人工智能的阶段。大型语言模型 (LLM) 的能力已经非常强大,研究人员现在使用它们作为“裁判”来对机器翻译 (MT) 和文本摘要的质量进行评分。这就是所谓的基于 LLM 的评估。 ...

2024-06 · 7 分钟 · 3229 字
[POSTMARK: A Robust Blackbox Watermark for Large Language Models 🔗](https://arxiv.org/abs/2406.14517)

无需访问模型也能给 AI 文本加水印?深入解读 POSTMARK

大型语言模型 (LLM) 正在重塑互联网。从生成新闻文章到编写代码,机器生成内容的数量正在呈爆炸式增长。但这股能力背后也有阴暗面: 幻觉、偏见,以及大规模制造虚假信息的可能性。如果网络上充斥着数以百万计的 AI 生成文章,我们要如何信任所读到的内容?更进一步说,如果未来的 AI 模型是基于今天 AI 的输出进行训练的,我们不仅会陷入质量退化的反馈循环,还会面临更多问题。 ...

2024-06 · 8 分钟 · 3657 字
[Position Engineering: Boosting Large Language Models through Positional Information Manipulation 🔗](https://arxiv.org/abs/2404.11216)

超越提示工程:“幽灵 Token”如何释放大语言模型的潜力

如果你在大语言模型 (LLM) (如 GPT-4 或 Llama 2) 上花过时间,那你很可能熟悉提示工程 (Prompt Engineering) 这一“黑魔法”。我们要花数小时调整措辞,加上“让我们一步步思考 (Let’s think step by step) ”,或者重组段落,只为了让模型输出正确的答案。这个过程感觉不像是工程,更像是在施法——改一个词,魔法生效了;改另一个词,魔法就失效了。 ...

2024-04 · 7 分钟 · 3270 字
[Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification 🔗](https://aclanthology.org/2024.emnlp-main.1019.pdf)

大语言模型真的能检测仇恨言论吗?行为模式与失效分析

想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?” ...

7 分钟 · 3056 字
[Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models 🔗](https://arxiv.org/abs/2410.12011)

图像能阅读吗?深度探究像素级模型的语言大脑

想象一下,不是通过识别字母或单词来阅读一本书,而是通过看页面的连续截图来阅读。这本质上就是 基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同,这些模型将文本视为图像。 ...

2024-10 · 6 分钟 · 2545 字
[PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study 🔗](https://aclanthology.org/2024.emnlp-main.163.pdf)

解码过去:PhiloGPT 如何彻底改变中国古代文献研究

想象一下,试图阅读一封写于一千年前的信件。纸张破烂不堪,因虫蛀或水渍而缺字少句,而且语法遵循着几个世纪前就不再使用的规则。此外,作者还使用了一个 7 世纪特定小村庄的俚语,而这个词在任何现代字典中都查不到。 ...

9 分钟 · 4059 字
[PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Efforts 🔗](https://arxiv.org/abs/2406.10471)

打造专属 LLM:Personalized Pieces (PER-PCS) 如何彻底变革模型定制

引言 想象一下,你有一位私人助理,他读过你写过的每一封邮件,确切地知道你喜欢哪些电影,并且完美地理解你的写作风格。现在,想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...

2024-06 · 8 分钟 · 3604 字
[Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems 🔗](https://arxiv.org/abs/2404.06762)

AI 能模拟真实课堂吗?教大语言模型扮演有“个性”的学生

想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...

2024-04 · 7 分钟 · 3329 字
[Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale 🔗](https://arxiv.org/abs/2411.05045)

蒸馏巨兽——如何利用反馈循环和硬负样本训练高效模型

在当前的人工智能领域,我们经常面临一个两难选择: 是选择智能还是效率?像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明,能够理解较小模型无法捕捉的细微差别和语境。然而,它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...

2024-11 · 5 分钟 · 2395 字
[Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models 🔗](https://arxiv.org/abs/2407.06004)

从看见到相信:大语言模型为何在心智理论上受挫及解决之道

想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠? ...

2024-07 · 6 分钟 · 2796 字