EMNLP 2024

[I Could've Asked That: Reformulating Unanswerable Questions 🔗](https://aclanthology.org/2024.emnlp-main.242.pdf)

超越“我不知道”：教 AI 修正我们无法回答的问题

引言想象一下，你正在阅读一份晦涩难懂的法律合同或一本复杂的医学期刊。你不是这方面的专家，所以你求助于 AI 助手——比如 ChatGPT 或专门的文档阅读器——来帮助你理解。基于你有限的理解，你问了一个问题: “如果租客粉刷墙壁，会有什么惩罚？” ...

[Humans or LLMs as the Judge? A Study on Judgement Bias 🔗](https://aclanthology.org/2024.emnlp-main.474.pdf)

谁来监督守望者？揭开人类与 AI 评审员的偏见

像 GPT-4、Claude 和 Gemini 这样的大型语言模型 (LLM) 的爆发，为我们带来了惊人的自然语言处理能力。但伴随着强大能力而来的是一个棘手的问题: 我们如何知道这些模型是否真的表现良好? ...

[Human-LLM Hybrid Text Answer Aggregation for Crowd Annotations 🔗](https://arxiv.org/abs/2410.17099)

超越群体智慧：人机协作（Human-LLM）混合框架如何彻底变革文本标注

“群体智慧” (Wisdom of Crowds) 是一个和统计学一样古老的概念。这个想法很简单: 如果你让足够多的人猜测罐子里软糖的数量，他们猜测的平均值往往惊人地接近真实值——甚至比任何单一专家的猜测都要准确。 ...

[How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective 🔗](https://arxiv.org/abs/2410.10093)

超越 SFT：利用广义自模仿学习 (GSIL) 对齐大语言模型

超越 SFT: 利用广义自模仿学习 (GSIL) 对齐大语言模型大语言模型 (LLM) 令人印象深刻，但原始的预训练模型就像才华横溢却难以管教的学生。它们对世界了解很多，但并不总是知道如何表现、遵循指令或分步解决复杂问题。为了解决这个问题，我们执行一个称为对齐 (alignment) 的过程。 ...

[How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning 🔗](https://arxiv.org/abs/2402.02872)

解构上下文学习：隐藏在 LLM 内部的双塔机制

解构上下文学习: 隐藏在 LLM 内部的双塔机制像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 展现出一种迷人的涌现能力，即上下文学习 (In-Context Learning, ICL) 。这种现象是指，当你在提示词中提供少量示例 (演示) 时——比如“英语: Cat，法语: Chat”——模型能够立即学会这种模式并完成一个新的例子，而无需任何参数更新或重新训练。 ...

[How Susceptible are Large Language Models to Ideological Manipulation? 🔗](https://arxiv.org/abs/2402.11725)

AI 洗脑：大语言模型有多容易被意识形态操纵？

大语言模型 (LLM) 如 ChatGPT 和 Llama-2 已成为我们的数字对话伙伴，帮助我们起草邮件、总结新闻以及回答复杂问题。但随着我们越来越依赖它们获取信息，一个关键问题随之而来: 模型是否有意识形态？如果有，这种意识形态能否被劫持? ...

[How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics 🔗](https://arxiv.org/abs/2410.03429)

别再作弊了：如何找出 NLI 数据集中的“真”难题

想象一下，你正在参加一场历史多项选择题考试。实际上你不懂历史，但你发现了一个规律: 每当答案中包含“从不 (never) ”这个词时，它就是正确选项。于是你拿了满分。但你学会历史了吗？没有。你只是学会了一条统计学捷径。 ...

[How Far Can We Extract Diverse Perspectives from Large Language Models? 🔗](https://arxiv.org/abs/2311.09799)

打破回声室效应：大语言模型能否模拟多样化的人类视角？

引言在人工智能领域，大语言模型 (LLMs) 常被描述为“压缩的知识”。它们吞噬了来自数百万人类作者的各种文本，涵盖了广泛的信仰、文化和价值观。然而，当我们与像 GPT-4 这样的模型聊天时，我们往往会收到一个单一、经过润色且代表“多数人观点”的回答。 ...

[How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? 🔗](https://arxiv.org/abs/2404.12866)

解锁文本在多模态上下文学习中的力量

简介在人工智能飞速发展的今天，多模态大语言模型 (Multimodal Large Language Models, MLLMs) ——即能够同时理解文本和图像的模型——已成为新的前沿领域。这些模型的一个关键能力是上下文学习 (In-Context Learning, ICL) 。这指的是模型仅通过观察提示 (prompt) 中提供的几个示例，就能学会一项新任务的能力，且无需更新其权重 (即不需要微调) 。 ...

[How Does the Disclosure of AI Assistance Affect the Perceptions of Writing? 🔗](https://arxiv.org/abs/2410.04545)

披露的偏见：得知 AI 协助写作如何改变对你的评价

引言我们已经进入了数字创作的新时代。过去，“写作辅助”仅仅意味着拼写错误单词下的红色波浪线。随着 GPT-4 等大型语言模型 (LLM) 的出现，写作已演变为一个共创过程。人类提示，AI 起草，人类润色，AI 再进行打磨。这种范式的转变引发了关于作者身份、创造力和质量的深刻问题。 ...

[How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with Really Good Data 🔗](https://aclanthology.org/2024.emnlp-main.777.pdf)

能力的幻觉：为什么你的代码大模型可能在作弊（以及如何修复）

如果你一直在关注代码专用大语言模型 (LLMs) 的爆发式增长，你可能看过各种排行榜。每周似乎都有一个新的开源模型宣称在 HumanEval 等基准测试上能够匹敌 GPT-4。看起来我们正处于自动编程的黄金时代。 ...

[How Do Humans Write Code? Large Models Do It the Same Way Too 🔗](https://arxiv.org/abs/2402.15729)

编程前先思考：'人类思维语言'如何修正 LLM 的数学错误

如果你曾让大语言模型 (LLM) 比如 ChatGPT 或 Llama 解决一个复杂的数学应用题，你可能已经注意到了一个令人沮丧的模式。有时，它完全理解逻辑，但在简单的算术上却一败涂地 (比如产生幻觉认为 \(25 \times 14 = 300\)) 。而另一些时候，它编写了一个 Python 脚本来解决问题，但这个脚本解的却是完全错误的方程。 ...

[Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective 🔗](https://arxiv.org/abs/2409.10053)

旋转真相：为何旋转 LLM 激活向量优于引导它们

像 Llama 和 Mistral 这样的大型语言模型 (LLM) 是工程学的奇迹，它们具备流畅的推理能力和创造力。然而，它们也容易产生幻觉、偏见和有毒的输出。当我们想要纠正这些行为时，传统的工具箱 (如微调) 可能计算成本高昂，有时甚至会损害模型的通用能力。 ...

[Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries 🔗](https://arxiv.org/abs/2406.12775)

时钟在滴答作响：为什么 LLM 在多步推理中屡屡受挫

大型语言模型 (LLM) 通常让人感觉与魔法无异。它们能写诗，能用 Python 编程，还能总结历史。然而，尽管它们能力超群，却经常在需要简单顺序逻辑的问题上栽跟头——研究人员称之为“多跳查询” (multi-hop queries) 。 ...

[Holistic Evaluation for Interleaved Text-and-Image Generation 🔗](https://arxiv.org/abs/2406.14643)

超越文生图：如何评估那些用图片讲故事的 AI？

引言想象一下，你让 AI 写一篇关于“如何烘焙酸种面包”的教程。你肯定不希望看到满屏的纯文字；你想要的是分步骤的说明，中间穿插着面团发酵、划痕图案以及最终金黄面包的照片。或者，你可能希望 AI 创作一本儿童读物，每一页的文字和插图都能自然地融合在一起。 ...

[Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction 🔗](https://arxiv.org/abs/2409.16783)

不破不立：HARM 如何实现自动化红队测试以构建更安全的 LLM

随着大型语言模型 (LLM) 不仅融入代码生成，还涉足法律建议等各个领域，安全性的重要性达到了前所未有的高度。我们知道，这些模型是在庞大且未经过滤的互联网数据上训练出来的，这意味着它们本质上“知道”如何生成仇恨言论、非法行为指南或带有偏见的内容。挑战在于如何防止它们输出这些内容。 ...

[Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization 🔗](https://arxiv.org/abs/2406.19502)

AI 真的会推理吗？从基础到策略解构 LLM 的知识

像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 在回答复杂的科学和数学问题方面已经变得出奇地擅长。如果你问一个 LLM: “为什么 ReLU 激活函数的训练速度比 Sigmoid 快？”，它很可能会给你一段连贯且具有教科书质量的回答，谈论梯度和饱和问题。 ...

[Hidden Persuaders: LLMs' Political Leaning and Their Influence on Voters 🔗](https://arxiv.org/abs/2410.24190)

AI 选票：大语言模型如何偏向左派并说服选民

人工智能已迅速从新奇事物转变为日常工具。我们使用大语言模型 (LLM) 来起草邮件、总结新闻以及解释复杂的概念。这种使用背后隐含着一种中立性的假设——我们通常将这些模型视为信息的客观合成者。 ...

[HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy 🔗](https://arxiv.org/abs/2401.15207)

突破 GPU 显存墙：HiFT 如何在消费级硬件上实现全参数微调

如果你曾经尝试过微调像 LLaMA 或 RoBERTa 这样的大语言模型 (LLM) ，你很可能撞上过“显存墙”。当你下载好模型，设置好 PyTorch 训练循环，点击运行，结果立刻弹出了令人绝望的 CUDA 显存溢出 (Out of Memory, OOM) 错误。 ...

[Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation Models 🔗](https://arxiv.org/abs/2401.06432)

驯服边缘端——HETLORA 如何让基础模型适应异构设备

简介我们正处于基础模型 (Foundation Models, FMs) 的时代。从聊天机器人到代码助手，大型语言模型 (LLMs) 在零样本和少样本学习中展现了惊人的能力。然而，当前的 AI 生态系统存在一个巨大的摩擦点: 隐私。 ...