EMNLP 2024

[Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? 🔗](https://arxiv.org/abs/2406.12809)

智能的悖论——为什么大语言模型能解决难题却在简单任务上失败

引言想象一下，你正在辅导一名学生学习微积分。他们毫不费力地解出了复杂的解高斯积分，表现出对高等数学概念的深刻理解。印象深刻之余，你问了一个后续问题: “17 乘以 8 等于多少？”学生一脸茫然地回答: “106。” ...

[Can Language Models Induce Grammatical Knowledge from Indirect Evidence? 🔗](https://arxiv.org/abs/2410.06022)

AI 的“Wug”测试：大语言模型的学习方式像人类吗？

AI 的“Wug”测试: 大语言模型的学习方式像人类吗？如果你上过语言学导论课，那你很可能对“Wug 测试”并不陌生。1958 年，Jean Berko Gleason 向孩子们展示了一张像鸟一样的生物图片，并说: “这是一只 wug 。 ”然后她展示了两只这样的生物，说道: “现在还有一只。一共有两只。这里有两只……？”孩子们正确地回答了“ wugs ”。 ...

[Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators 🔗](https://arxiv.org/abs/2409.14037)

产生幻觉的教授：为什么 LLM 可能还没准备好教授科学

引言想象这样一个世界: 每位学生，无论身处何地或资源如何，都能拥有一位私人导师。这位导师拥有 Neil deGrasse Tyson 般的知识储备、陶哲轩 (Terence Tao) 般的数学直觉，以及居里夫人 (Marie Curie) 般的化学造诣。这就是 GPT-4 和 Llama-3 等大型语言模型 (LLM) 所承诺的未来。我们已经迅速从使用聊天机器人写邮件，过渡到了依赖它们来总结复杂的研究论文和解释科学概念。 ...

[Can LLMs Learn Uncertainty on Their Own? Expressing Uncertainty Effectively in a Self-Training Manner 🔗](https://aclanthology.org/2024.emnlp-main.1205.pdf)

教会 LLM 质疑自己：自训练如何修正 AI 的过度自信

引言: 过度自信的机器想象一下，当你向 AI 助手咨询医疗建议或法律先例时，它给出的回答反应迅速、语法完美，语气也极具权威性。但存在一个问题: 这个答案完全是编造的。 ...

[Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese 🔗](https://arxiv.org/abs/2402.17302)

AI 能理解文化吗？深入探讨低资源语言的合成数据

引言: AI 的“下雪”难题想象一下，你正在训练一个人工智能来理解“常识”。你给它输入了数千个问题来测试它的推理能力。其中一个问题是: “这个男人需要铲自家车道的雪。这是什么季节？” 答案显而易见，是冬天。 ...

[Can Automatic Metrics Assess High-Quality Translations? 🔗](https://arxiv.org/abs/2405.18348)

“足够好”的陷阱——为什么 AI 指标在评估高质量翻译时会失效

在机器翻译 (MT) 飞速发展的今天，我们要迎来一个关键时刻。几年前，翻译系统的目标仅仅是生成可理解的文本。而如今，像 Google Translate、DeepL 和 GPT-4 这样的系统生成的翻译往往与人类的输出难辨真假。我们不再面对“词语堆砌”的乱象；我们面对的是细微差别、风格和高保真的准确性。 ...

[Can Active Label Correction Improve LLM-based Modular AI Systems? 🔗](https://arxiv.org/abs/2401.05467)

驯服噪声：如何将 LLM Agent 升级为高效、微调的系统

驯服噪声: 如何将 LLM Agent 升级为高效、微调的系统像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 的迅速崛起，普及了“模块化 AI 系统”的概念。想想 LangChain、AutoGPT 或 HuggingGPT 这样的框架。这些系统将多个 LLM 调用串联起来，以执行复杂的任务——如规划旅行、编写代码或分析财务文档。它们之所以极其强大，是因为它们不需要训练；你只需要编写一个提示词 (Prompt) ，系统就能工作。 ...

[Calibrating the Confidence of Large Language Models by Eliciting Fidelity 🔗](https://arxiv.org/abs/2404.02655)

LLM 为何盲目自信：UF 校准法介绍

像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们非常有帮助、无害且富有创造力。然而，它们有一个臭名昭著的缺陷: 它们不知道何时该闭嘴。 ...

[Calibrating Language Models with Adaptive Temperature Scaling 🔗](https://arxiv.org/abs/2409.19817)

利用自适应温度缩放修复大语言模型的过度自信问题

大语言模型 (LLM) 彻底改变了人工智能，展示了惊人的流畅度和推理能力。然而，即使是最先进的模型也面临着一个长期存在的问题: 校准 (Calibration) 。理想情况下，当 LLM 表示它对答案有 80% 的信心时，它应该在 80% 的情况下是正确的。不幸的是，情况很少如此。现代 LLM，尤其是那些经过人类反馈强化学习 (RLHF) 微调的模型，往往表现出臭名昭著的“过度自信”。它们可能会产生完全错误的幻觉 (hallucinate) ，却给出一个 99% 的概率分数。在医学、法律或自动编程等高风险领域，信心与准确性之间的这种脱节是危险的。 ...

[CAT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans 🔗](https://arxiv.org/abs/2406.15823)

LLM 真的理解计划吗？用 CAT-BENCH 评估因果推理能力

大型语言模型 (LLM) 在生成过程性文本方面已经变得异常出色。如果你让最先进的模型生成一份烤蛋糕的食谱，它很可能会生成一份完全连贯的步骤清单: 混合干配料，打鸡蛋，将它们结合，然后在特定温度下烘烤。表面上看，模型似乎理解了这个过程。 ...

[CUTE: Measuring LLMs' Understanding of Their Tokens 🔗](https://arxiv.org/abs/2409.15452)

LLM 真的懂拼写吗？深入解读 CUTE 基准测试

LLM 真的懂拼写吗？深入解读 CUTE 基准测试当我们与 GPT-4 或 Llama 3 等大型语言模型 (LLM) 交互时，我们通常认为它们具有类似人类的读写能力。我们假设，既然模型可以写十四行诗或调试 Python 代码，那么它理解文本的方式一定和我们一样: 逐个字母、逐个单词地理解。 ...

[CURE: Context- and Uncertainty-Aware Mental Disorder Detection 🔗](https://aclanthology.org/2024.emnlp-main.994.pdf)

超越症状：语境和不确定性如何改进心理健康 AI

超越症状: 语境和不确定性如何改进心理健康 AI 心理健康障碍影响着全球超过十亿人。随着社交媒体的兴起，网络平台已成为人们自我表露的空间，为研究人员提供了海量数据集，以帮助早期发现抑郁症或焦虑症等疾病。 ...

[CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free-Word-Ordered and Morphologically-Rich Low-Resource Languages 🔗](https://arxiv.org/abs/2410.06944)

驯服自由语序：对比学习如何提升形态丰富语言的句法分析

在自然语言处理 (NLP) 的世界里，我们往往认为语序是理所当然的。如果你说英语，“The dog chased the cat” (狗追猫) 和“The cat chased the dog” (猫追狗) 意味着两件完全不同的事情。句法——即句子的结构——是由单词的顺序严格定义的。 ...

[CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models 🔗](https://arxiv.org/abs/2409.19984)

是概率还是瞎猜？探究大型语言模型的一致性

大型语言模型 (LLMs) 已成为驱动现代人工智能的引擎，从聊天机器人到代码生成器无处不在。在许多应用中，我们不仅关注模型生成的文本，还关注分数——即模型分配给特定词序列的概率。这些分数被用于检测幻觉、对潜在答案进行排序以及衡量模型的置信度。 ...

[CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models 🔗](https://arxiv.org/abs/2407.17467)

平衡的艺术：如何在不遗忘旧知识的前提下教会 LLM 新技能

引言像 Llama 或 GPT-4 这样的大型语言模型 (LLM) 堪称数字时代的博学家。它们能写诗、调试代码，并以令人印象深刻的流畅度总结历史。然而，它们广博的知识往往以牺牲深度为代价。当面对高度专业化的任务时——例如解读复杂的金融法规或分析晦涩的学术论文——这些通才模型往往表现不仅如人意。原因很简单: 它们在初始训练中没有见过足够多的特定领域数据。 ...

[CMD: a framework for Context-aware Model self-Detoxification 🔗](https://arxiv.org/abs/2308.08295)

大语言模型能自我修复吗？深入解读上下文感知模型自解毒（CMD）框架

像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 已经彻底改变了我们要与技术交互的方式。它们能写诗、调试代码，还能总结历史。然而，它们拥有一个显著的缺陷: “垃圾进，垃圾出 (garbage in, garbage out) ”。由于这些模型是在庞大且未经严格过滤的互联网数据上训练的，它们可能会无意中学习并复述有毒内容。 ...

[CItruS Chunked Instruction-aware State Eviction 🔗](https://arxiv.org/abs/2406.12018)

利用 CItruS 解决长上下文大语言模型中的信息忽视问题

利用 CItruS 解决长上下文大语言模型中的信息忽视问题像 Llama 2 和 Mistral 这样的大语言模型 (LLM) 彻底改变了我们与文本交互的方式。然而，它们存在一个显著的局限性: 上下文窗口。虽然模型在处理更长序列方面越来越出色，但在处理整本书或海量法律文档时，计算成本依然高昂且占用大量内存。 ...

[CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search 🔗](https://arxiv.org/abs/2406.05013)

开源模型能在搜索领域击败 ChatGPT 吗？深入解读 CHIQ 的历史增强策略

想象一下你正在和朋友聊电影。你问: “谁执导了《盗梦空间》？”他们回答: “克里斯托弗·诺兰。”然后你问: “他还拍过什么其他电影？” 你的朋友能立刻明白“他”指的是克里斯托弗·诺兰。但对于搜索引擎来说，第二个问题简直是噩梦。“他”可以是任何人。为了得到好的答案，搜索系统需要将你的问题重写成独立的句子，比如“克里斯托弗·诺兰执导过什么其他电影？” ...

[CHESS : Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification 🔗](https://arxiv.org/abs/2409.01366)

让 LLM 在边缘设备上运行得更快：深入解析 CHESS

在你的笔记本电脑或手机上直接运行强大的大型语言模型 (LLMs) ，如 Llama-3 或 Mistral，而不依赖云端，这个梦想是诱人的。它承诺了隐私、更低的延迟以及离线能力。然而，现实往往是与硬件限制的艰难斗争。这些模型计算量大且极其耗费内存。 ...

[CELLO: Causal Evaluation of Large Vision-Language Models 🔗](https://arxiv.org/abs/2406.19131)

AI 真的能理解因果关系吗？深入了解 CELLO，一个新的视觉语言模型基准

想象一下，你正看着一张照片，照片里一位老人坐在窗边的轮椅上。一个孩子问你: “我需要够高处的东西。你能帮我把这把椅子移过来用吗？” 作为人类，你的大脑会瞬间处理这一复杂的因果关系网络。你看到了椅子，看到了老人，并且理解了其中的关系: “椅子支撑着老人。”移动椅子会导致老人摔倒或发生位移。因此，答案显而易见是“不”。 ...