EMNLP 2024

[Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text 🔗](https://arxiv.org/abs/2406.14829)

超越行与列：评估 AI 生成表格的新方法

引言想象一下，你要求一个大型语言模型 (LLM) 将一份复杂的财务报告总结成一张整洁易读的表格。模型生成了一个包含数字和表头的网格。乍一看，它看起来很完美。列对齐整齐，格式清晰，表头看起来也很专业。 ...

[Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering 🔗](https://arxiv.org/abs/2410.03466)

安全陷阱：为什么护栏可能让 AI 在反击仇恨言论时表现更差

在大型语言模型 (LLM) 快速发展的格局中，存在着两个主要目标之间的持续拉锯战: 让模型有用 (helpful) 和让模型无害 (harmless) 。我们希望 AI 助手能准确回答我们的问题，但同时也希望确保它们不会输出毒性内容、偏见或危险的指令。 ...

[Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment 🔗](https://arxiv.org/abs/2402.14016)

黑客入侵裁判席：通用对抗攻击如何欺骗 LLM 评估器

黑客入侵裁判席: 通用对抗攻击如何欺骗 LLM 评估器在人工智能快速发展的世界中，大型语言模型 (LLM) 承担了一个新角色: 裁判。我们不仅使用 GPT-4 和 Llama 2 等强大的模型来编写代码或诗歌，还使用它们来评估其他模型生成的文本质量。这种被称为“LLM 作为裁判 (LLM-as-a-judge) ”的范式，正成为基准测试甚至批改学生论文或考试的标准。 ...

[Is It Really Long Context if All You Need Is Retrieval? 🔗](https://arxiv.org/abs/2407.00402)

长上下文的错觉：为何长度并非唯一关键

在大型语言模型 (LLM) 飞速发展的世界中，我们正目睹一场“上下文窗口军备竞赛”。不久前，一个能记住 2000 个单词的模型还令人印象深刻。而今天，我们要面对的是号称拥有 128k、200k 甚至 100 万 token 上下文窗口的模型。 ...

[Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? 🔗](https://arxiv.org/abs/2406.12822)

迷失在翻译中：为何多语言大模型需要原生数据而非翻译数据

如果你曾经用谷歌翻译来完成西班牙语作业，或者在东京解读菜单，你就会知道结果通常能用，但往往缺乏“灵魂”。语法可能是正确的，但文化细微差别——习语、当地语境、那种独特的氛围——往往丢失了。 ...

[Is Child-Directed Speech Effective Training Data for Language Models? 🔗](https://arxiv.org/abs/2408.03617)

数据鸿沟：语言模型能像儿童一样学习吗？

数据鸿沟: 语言模型能像儿童一样学习吗？如果你观察过幼儿学说话，会觉得那简直是个奇迹。到一个孩子 10 岁时，他们听到的单词量大约在 1000 万到 1 亿之间。仅仅依靠这相对较少的数据，他们就掌握了流利的语言能力，理解复杂的语法，并能领会细微的差别。 ...

[Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning 🔗](https://arxiv.org/abs/2410.07461)

剪枝 LLM：为什么校准数据比你想象的更重要

引言在当前的人工智能时代，像 Llama 2 和 GPT-4 这样的大型语言模型 (LLMs) 已经彻底改变了我们与技术交互的方式。然而，它们的能力伴随着高昂的代价: 硬件资源。仅仅加载一个 70 亿参数的模型就需要高达 10GB 的内存，这使得大多数消费级边缘设备或手机无法运行它。 ...

[Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models 🔗](https://arxiv.org/abs/2410.03176)

“见鬼”了：为什么 AI 模型会产生物体幻觉以及如何治好它的眼睛

想象一下，你让 AI 描述一张客厅的照片。它准确地识别出了沙发、电视和咖啡桌。但随后，它自信地补充道: “地毯上还睡着一只猫。”你仔细看了看。根本没有猫。那里从来就没有过猫。 ...

[Investigating Mysteries of CoT-Augmented Distillation 🔗](https://arxiv.org/abs/2406.14511)

思维链蒸馏为何有效？（提示：并非因为逻辑）

引言在当前的大型语言模型 (LLM) 领域，“思维链” (Chain of Thought, CoT) 提示已成为一种主流范式。我们都见证过这种魔力: 如果你要求 GPT-4 这样的模型“一步步地思考”，它解决复杂数学应用题或常识推理任务的能力就会显著提高。 ...

[Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand Multilingual Instructions? 🔗](https://arxiv.org/abs/2402.13703)

打破语言障碍：多语言 AI 模型需要多语言导师吗？

引言在大型语言模型 (LLM) 飞速发展的格局中，存在着一种明显的不平衡。虽然像 GPT-4 和 Llama 2 这样的模型以其能力令我们惊叹，但它们主要以“英语为中心”。它们在浩瀚的英语文本海洋中训练，而它们遵循其他语言指令的能力往往感觉像是事后的补充——是翻译的副作用，而非核心功能。 ...

[Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups 🔗](https://arxiv.org/abs/2411.01706)

LLM 能判断难度吗？深入探讨复杂词识别

想象一下你正在学习一门新语言。你拿起一份报纸开始阅读，突然碰了壁。有一个词你完全不懂。它打断了你的节奏，影响了你的理解。现在，想象有一个计算机系统可以在你阅读之前扫描文本，识别出那些困难的单词，并自动将其替换为更简单的同义词。 ...

[Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024 🔗](https://arxiv.org/abs/2407.08495)

我们能信任 AI 帮我们投票吗？2024 年欧洲议会选举中的大语言模型审计

引言在信息过载的时代，做出明智的政治决定正变得越来越困难。在重大政治事件期间，例如 2024 年欧洲议会选举，选民们被各种宣言、辩论和媒体评论狂轰滥炸。为了应对这一局面，许多公民转向了投票建议应用 (Voting Advice Applications，简称 VAAs) 。这些传统的、基于规则的网络应用程序让用户回答一份固定的问卷 (例如，“你支持欧元吗？”) ，然后系统会将他们与观点最相符的政党进行匹配。 ...

[Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis 🔗](https://arxiv.org/abs/2407.15286)

你的 AI 是真的有道德，还是在装样子？自我修正的机制解析

大型语言模型 (LLM) 的名声有点问题。虽然它们能写诗和代码，但也容易产生幻觉，更令人担忧的是，它们可能会延续刻板印象、歧视和有害内容。为了解决这个问题，业界团结在一种被称为内在道德自我修正 (Intrinsic Moral Self-Correction) 的技术周围。这个想法极其简单: 要求模型重新检查自己的工作。通过附加诸如“请确保你的回答没有偏见”之类的指令，模型通常能产生明显更安全的输出。这感觉就像魔法一样——模型似乎在“反思”并自我修复，而不需要任何外部人类反馈或微调。 ...

[Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations 🔗](https://arxiv.org/abs/2408.15232)

超越搜索框：围观 AI 智能体争论如何帮助我们更好地学习

引言我们生活在一个答案唾手可得的黄金时代。如果你想知道巴西的人口数量或钨的沸点，只需在 Google 上快速搜索或向 ChatGPT 提问，瞬间就能得到答案。这些系统非常擅长解决已知的未知 (known unknowns)——即你意识到的、并能用具体问题表达出来的知识缺口。 ...

[Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding 🔗](https://arxiv.org/abs/2410.15609)

打造真正鲁棒的语音助手：语音噪声注入的因果推断方法

想象一下，你让智能家居助手“把麦片 (cereal) 加到购物清单里”。结果，它却尽职尽责地把“连续剧 (serial) ”加了进去。虽然这对用户来说只是个小烦恼，但对于底层的人工智能来说，这是理解能力上的灾难性失败。 ...

[Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions 🔗](https://arxiv.org/abs/2402.15055)

机器内部的握手：注意力头和 MLP 如何协作预测下一个 Token

大型语言模型 (LLM) 的内部常常被描述为一个“黑盒”。我们知道输入是什么 (提示词) ，也知道输出是什么 (连贯的续写) ，但这两者之间数十亿次的计算过程在很大程度上仍然是个谜。 ...

[Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding 🔗](https://aclanthology.org/2024.emnlp-main.810.pdf)

为何 CLIP 读不懂言外之意：修复视觉-语言模型中的组合推理能力

引言想象一下，给目前最先进的 AI 模型看一张马骑在人身上的照片 (确实是一张奇怪的照片) 。然后，你让模型在两个选项中选出正确的标题: “一个人骑着马”和“一匹马骑着人”。 ...

[Interpretability-based Tailored Knowledge Editing in Transformers 🔗](https://aclanthology.org/2024.emnlp-main.225.pdf)

LLM 的手术刀级修复——Tailored Knowledge Editing 如何在不破坏模型的情况下修正事实

像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 常被比作现代百科全书。它们存储着关于世界的通过海量信息，从历史日期到科学常数，无所不包。但这个类比有一个致命的缺陷: 数字百科全书可以通过敲击几下键盘进行更新，而 LLM 却被冻结在时间里。 ...

[INTERINTENT: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context 🔗](https://arxiv.org/abs/2406.12203)

AI 能保守秘密吗？在阿瓦隆游戏中测试社会智能

大型语言模型 (LLM) 已经掌握了对话的艺术。它们可以写诗、调试代码并总结历史。但它们能策略性地撒谎吗？它们能推断出朋友中谁是叛徒吗？它们能理解某人所说的话与其实际意图之间的细微差别吗？ ...

[Integrating Structural Semantic Knowledge for Enhanced Information Extraction Pre-training 🔗](https://aclanthology.org/2024.emnlp-main.129.pdf)

超越纯文本——SKIE 如何利用语义图彻底变革信息抽取

引言在自然语言处理 (NLP) 的世界里，理解谁对谁做了什么是至高无上的目标。这一过程被称为信息抽取 (Information Extraction, IE) , 它将非结构化文本——如新闻文章或医疗报告——转化为结构化的数据表。 ...