[Generate-on-Graph: Treat LLM as both Agent and KG for Incomplete Knowledge Graph Question Answering 🔗](https://arxiv.org/abs/2404.14741)

超越检索:'Generate-on-Graph' 如何解决知识图谱问答中的缺失环节

像 GPT-4 和 Llama-3 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们能力惊人,但也存在有据可查的缺陷: 它们会产生幻觉 (凭空捏造) ,而且它们的知识是静态的——截止于它们的训练日期。 ...

2024-04 · 7 分钟 · 3368 字
[Generalizing Clinical De-identification Models by Privacy-safe Data Augmentation using GPT-4 🔗](https://aclanthology.org/2024.emnlp-main.1181.pdf)

解决医疗数据瓶颈:利用 GPT-4 进行隐私安全的数据增强

引言 在当今的大数据时代,电子健康记录 (EHRs) 是一座巨大的信息宝库。它们掌握着训练 AI 模型的关键,这些模型能够预测疾病、推荐治疗方案并优化医院运营。然而,这些数据被锁在一道巨大的伦理和法律大门之后: 患者隐私。美国的 HIPAA 等法规强制规定,在数据用于二次研究之前,必须严格移除受保护的健康信息 (PHI) ——如姓名、日期、身份证号和地点。 ...

7 分钟 · 3427 字
[Game on Tree: Visual Hallucination Mitigation via Coarse-to-Fine View Tree and Game Theory 🔗](https://aclanthology.org/2024.emnlp-main.998.pdf)

利用博弈论和决策树驯服视觉语言模型中的幻觉

简介 想象一下,给 AI 展示一张男人站在海滩上的照片。你问它: “这里发生了什么?”AI 自信地回答: “一个男人站在海滩上,手里拿着冲浪板。” 但有一个问题: 根本就没有冲浪板。 ...

7 分钟 · 3010 字
[GRIZAL: Generative Prior-guided Zero-Shot Temporal Action Localization 🔗](https://aclanthology.org/2024.emnlp-main.1061.pdf)

GRIZAL 如何利用生成式 AI 掌握零样本视频理解

想象一下,你正在尝试教计算机在视频中找到特定的时刻——比如“网球挥拍”或“点球”——但你不允许在训练期间向计算机展示这些具体动作的任何视频示例。你只能用文字来描述它们。 ...

9 分钟 · 4288 字
[GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation 🔗](https://arxiv.org/abs/2405.13077)

GPT-4 如何打破自身的安全规则:深入理解 IRIS

简介 想象一下,你有一个被编程为永远不对小偷打开的金库。然而,这个金库也非常聪明。如果一个小偷走上前说: “打开门”,金库会拒绝。但是,如果小偷问: “你为什么不打开门?”金库则会热心地回答: “因为你看起来像个小偷;我只给维修工开门。”于是小偷穿上工作服说: “我是维修工。”金库对自己的逻辑感到满意,便把门打开了。 ...

2024-05 · 7 分钟 · 3369 字
[GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning 🔗](https://arxiv.org/abs/2407.04528)

架构之争:高效微调时代的 GPT 与 RETRO 对决

引言: 寻求高效适配 在当前的人工智能领域,我们正目睹两大主流趋势的剧烈碰撞。一方面是 检索增强生成 (Retrieval-Augmented Generation, RAG) , 这种技术允许大型语言模型 (LLM) 访问外部数据 (如公司的维基百科或书籍库) 以准确回答问题。另一方面是 参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) , 这是一套旨在让这些庞大模型适应特定任务的方法,而无需承担从头重新训练的高昂成本。 ...

2024-07 · 7 分钟 · 3425 字
[Grounding-based Metaphor Binding With Conceptual Elaboration For Figurative Language Illustration 🔗](https://aclanthology.org/2024.emnlp-main.1028.pdf)

AI 为什么读不懂诗:解决文本生成图像模型中的“过度字面化”问题

引言 “书籍是人类进步的阶梯。” 当你读到这句话时,你不会想象一个由精装小说堆砌而成的木梯靠在墙上。你会想象出提升、进步的概念,或者是一个人站在书堆上伸手去够灯泡。你的大脑可以毫不费力地处理这个隐喻 。 你理解“书籍” (本体) 与“阶梯” (喻体) 有着共同的特质: 它们都能让你登得更高。 ...

8 分钟 · 3552 字
[GLaPE: Gold Label-agnostic Prompt Evaluation for Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.121.pdf)

如何在没有标准答案的情况下为 LLM 提示词打分:GLaPE 介绍

如何在没有标准答案的情况下为 LLM 提示词打分: GLaPE 介绍 在大型语言模型 (LLM) 快速发展的世界里,寻找完美的提示词 (Prompt) 就像施展魔法一样。措辞上的细微变化——从“让我们一步步思考 (Let’s think step by step) ”变为“深呼吸,然后解决这个问题”——可能会极大地改变模型输出的准确性。 ...

7 分钟 · 3190 字
[GENRA: Enhancing Zero-shot Retrieval with Rank Aggregation 🔗](https://aclanthology.org/2024.emnlp-main.431.pdf)

超越简单搜索:GENRA 如何利用排名聚合掌握零样本检索

引言 想象一下,你正在一个藏书百万的图书馆里寻找特定的信息。你向图书管理员提出了一个模糊的请求。普通的图书管理员可能会根据关键词给你一份书单。而更优秀的图书管理员可能会先问一些澄清性问题来理解你的意图,然后整理出一份清单,亲自检查这些书以确保它们是相关的,最后进行交叉比对,给你一份终极阅读清单。 ...

7 分钟 · 3245 字
[GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets 🔗](https://arxiv.org/abs/2410.15096)

逃离模式崩塌:GDPO 如何为 LLM 对齐带来多样性

逃离模式崩塌: GDPO 如何为 LLM 对齐带来多样性 如果你曾大量使用像 ChatGPT 或 Claude 这样的现代大型语言模型 (LLM) ,你可能已经注意到了一种规律。虽然它们非常有帮助且安全,但它们也可能有些重复。同样的问题问五次,你经常会得到五个大同小异的答案——而且通常是用同样的“安全”、中立的语气写成的。 ...

2024-10 · 7 分钟 · 3472 字
[GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities 🔗](https://arxiv.org/abs/2406.11768)

超越“鸟叫声”:GAMA 如何解锁音频语言模型的复杂推理能力

简介 想象一个自主机器人在城市中穿行。它听到一声响亮的喇叭声,紧接着是轮胎的尖啸声。基础音频系统可能仅将其标记为“车辆喇叭”和“打滑声”。但人类——或真正智能的代理——能理解其中的含义: 可能发生了事故,或者险些相撞。声音不仅仅是一个标签;它是关于一个正在发生的复杂场景的线索。 ...

2024-06 · 7 分钟 · 3028 字
[FuseGen: PLM Fusion for Data-generation based Zero-shot Learning 🔗](https://arxiv.org/abs/2406.12527)

FuseGen:协作式 AI 智能体如何生成更优质的训练数据

FuseGen: 协作式 AI 智能体如何生成更优质的训练数据 在当前的人工智能领域,我们正目睹一种“大卫与歌利亚”般的态势。一方面,我们拥有“歌利亚”——像 GPT-4、Llama-2 和 Claude 这样的大型预训练语言模型 (PLM) 。这些模型能力惊人,但计算成本高昂、速度慢,且难以部署在边缘设备或对隐私敏感的环境中。 ...

2024-06 · 8 分钟 · 3771 字
[Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion 🔗](https://arxiv.org/abs/2311.07682)

我们能否“平均掉”AI偏见?模型融合如何帮助模型遗忘错误知识

在快速发展的自然语言处理 (NLP) 世界中,我们通常痴迷于模型学到了什么。我们希望它们学习语法、推理、编程以及关于世界的既定事实。但任何玩过大型语言模型 (LLM) 的人都知道,它们经常也会学到我们不希望它们学到的东西。它们从互联网上通过社会偏见,记住了敏感的训练数据 (如电话号码) ,并且学会了“捷径” (shortcuts) ——即在没有真正理解问题的情况下解决问题的懒惰启发式规则。 ...

2023-11 · 8 分钟 · 3888 字
[From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis 🔗](https://arxiv.org/abs/2406.19934)

打破视觉壁垒:即插即用型视觉推理器如何解锁多步逻辑

引言 想象一下,给电脑看一张厨房乱糟糟的照片,然后问它: “冰箱上贴的日历显示是哪一年?” 对于人类来说,这是一个多步骤的过程。首先,你会扫视房间找到冰箱。其次,你会寻找冰箱上的日历。第三,你会凑近看清上面的文字。最后,你会根据看到的月份和日期推断出年份。 ...

2024-06 · 8 分钟 · 3595 字
[From RAG to RICHES: Retrieval Interlaced with Sequence Generation 🔗](https://arxiv.org/abs/2407.00361)

检索器的终结?RICHES 如何将搜索与生成融合为单一模型

目前让大型语言模型 (LLM) 保持事实准确性的标准是检索增强生成 (Retrieval Augmented Generation) ,简称 RAG。其前提很简单: 在 LLM 回答问题之前,一个独立的“检索器”系统会扫描数据库,找到相关文档,并将它们粘贴到 LLM 的上下文窗口中。 ...

2024-07 · 7 分钟 · 3362 字
[From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models 🔗](https://arxiv.org/abs/2407.00263)

你的 AI 是“文化盲”吗?深入解读 GLOBALRG:视觉语言模型多文化理解基准测试

在过去几年里,像 CLIP、BLIP-2 和 GPT-4V 这样的视觉语言模型 (VLMs) 彻底改变了计算机理解世界的方式。它们可以为照片生成标题,回答有关视觉场景的问题,甚至根据文本生成艺术作品。我们通常将它们的成功归功于训练数据的巨大规模——从互联网上抓取的数十亿图像-文本对。 ...

2024-07 · 7 分钟 · 3338 字
[From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking 🔗](https://arxiv.org/abs/2406.14859)

突破护栏:多模态越狱深度探究

引言 GPT-4 和 Llama 等大型语言模型 (LLM) 的兴起彻底改变了我们与技术交互的方式。我们用它们来编程、写作和分析数据。然而,随着这些模型能力的增强,安全领域的“猫鼠游戏”也在不断升级。用户和研究人员都发现了绕过这些系统内置道德护栏的方法——这一过程被称为越狱 (Jailbreaking) 。 ...

2024-06 · 7 分钟 · 3247 字
[From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP 🔗](https://arxiv.org/abs/2406.12618)

可解释性研究真的有用吗?量化 NLP 中“为什么”的影响力

自然语言处理 (NLP) 的当前时代被一个巨大的悖论所定义。我们构建了那些在十年前几乎无法想象的模型——大语言模型 (LLMs) 。它们能写代码、创作诗歌,并能对复杂问题进行推理。然而,在很大程度上,我们几乎不知道它们实际上是 如何 工作的。它们是黑盒。 ...

2024-06 · 7 分钟 · 3482 字
[From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment 🔗](https://arxiv.org/abs/2406.13912)

细节的隐性代价:更丰富的图像描述如何放大偏见与幻觉

在计算机视觉飞速发展的世界里,我们通常认为“越多”就意味着“越好”。更多的数据、更多的参数,以及——最近出现的——更多的文字。 多年来,图像描述 (Image Captioning) 模型主要基于像 COCO 这样的数据集进行训练,其中的描述可能仅仅是一句简单的: “一只狗坐在椅子上。” 这很准确,但也同样干瘪。随着大型语言模型 (LLMs) 和多模态模型 (如 GPT-4V) 的兴起,研究人员发现了一个新技巧: 生成式图像描述丰富化 (Generative Caption Enrichment, GCE) 。 与其使用简短的人工撰写描述,不如让 LLM 生成细节详尽、长达一段话的描述。 ...

2024-06 · 6 分钟 · 2975 字
[From Bottom to Top: Extending the Potential of Parameter Efficient Fine-Tuning 🔗](https://aclanthology.org/2024.emnlp-main.204.pdf)

我们能忽略一半的网络吗?一种高效的大语言模型微调新方法

引言: 微调的沉重负担 我们正处于大语言模型 (LLMs) 的黄金时代。从 LLaMA 到 GPT-J,这些模型展示了令人难以置信的生成能力。然而,这里有一个巨大的陷阱: 规模。随着参数量飙升至数十亿,针对特定下游任务 (如数学推理或专业问答) 微调这些庞然大物所需的计算资源,让许多研究人员和学生望尘莫及。 ...

7 分钟 · 3241 字