EMNLP 2024

[Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems 🔗](https://arxiv.org/abs/2404.06762)

AI 能模拟真实课堂吗？教大语言模型扮演有“个性”的学生

想象一下，如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...

[Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale 🔗](https://arxiv.org/abs/2411.05045)

蒸馏巨兽——如何利用反馈循环和硬负样本训练高效模型

在当前的人工智能领域，我们经常面临一个两难选择: 是选择智能还是效率？像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明，能够理解较小模型无法捕捉的细微差别和语境。然而，它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...

[Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models 🔗](https://arxiv.org/abs/2407.06004)

从看见到相信：大语言模型为何在心智理论上受挫及解决之道

想象一下，你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里，然后离开房间。在她离开期间，另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时，她会去哪里找她的弹珠？ ...

[Perceptions of Linguistic Uncertainty by Language Models and Humans 🔗](https://arxiv.org/abs/2407.15814)

当“可能”意味着“为真”：大语言模型如何在心智理论上陷入挣扎

我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时，你输出的并不是一个精确的数学计算，而是在表达一种模糊的信念程度。值得注意的是，尽管缺乏精确性，人类通常能在这一点上达成共识。我们本能地知道，“很可能 (likely) ”代表的概率比“可能 (possible) ”高，但比“几乎确定 (almost certain) ”低。 ...

[PepRec: Progressive Enhancement of Prompting for Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.995.pdf)

LLM 能掌握协同过滤吗？深入解析 PepRec

在人工智能飞速发展的版图中，两大巨头虽各领风骚却鲜有联手: 深度学习推荐模型 (DLRMs) 和大型语言模型 (LLMs) 。 DLRMs 是你的 TikTok 信息流、亚马逊推荐列表和 Netflix 主页背后的无声引擎。它们擅长“协同过滤”——基于数百万用户的数学模式来预测你可能喜欢什么。然而，它们通常是“黑盒”；它们能告诉你看什么，但很少能用人类的语言解释为什么。 ...

[Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification 🔗](https://arxiv.org/abs/2407.02352)

消除视觉幻觉：Pelican 如何利用 Python 核查 AI 视觉模型

想象一下，你让一个 AI 描述一张你家客厅的照片。模型自信地回答: “有一辆红色的复古摩托车停在咖啡桌旁。”你再次看向照片。根本没有摩托车，只有一盆红色的盆栽。 ...

[PCC-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity 🔗](https://arxiv.org/abs/2406.09790)

打破玻璃天花板：Pcc-tuning 如何解锁 NLP 中对比学习的极限

引言: 遭遇 NLP 的瓶颈如果你一直关注自然语言处理 (NLP) 的进展，特别是在句向量 (Sentence Embeddings) 领域，你可能已经注意到了一个趋势。我们已经从简单的词向量 (如 GloVe) 发展到复杂的基于 Transformer 的模型 (如 BERT) ，再到现在的大型语言模型 (LLM，如 LLaMA 和 Mistral) 。 ...

[Paraphrase Types Elicit Prompt Engineering Capabilities 🔗](https://arxiv.org/abs/2406.19898)

关键不在问什么，而在怎么问：提示词改写背后的科学

引言 “重要的不是你说什么，而是你怎么说。” 这句古老的格言通常适用于人际关系，意味着语气和表达方式与信息本身同样重要。出人意料的是，这条规则同样严格适用于大型语言模型 (LLMs) 。 ...

[Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks 🔗](https://arxiv.org/abs/2401.02731)

如何利用 PESC 将稠密 LLM 转化为高效的混合专家模型 (Mixture-of-Experts)

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLMs) 已经成为自然语言处理领域事实上的“专家”。它们处理复杂语言模式的能力很大程度上归功于其巨大的规模。这一普遍认知被称为缩放定律 (scaling law)，它表明要获得更智能的模型，我们只需把它们做得更大。 ...

[PAIRDISTILL: Pairwise Relevance Distillation for Dense Retrieval 🔗](https://arxiv.org/abs/2410.01383)

超越单点：成对比较如何彻底改变搜索 AI

当你在搜索引擎中输入查询时，你希望立即获得相关的结果。然而，在幕后，速度与准确性之间始终存在着一场拉锯战。现代信息检索 (IR) 系统通常依赖于一个两步流程来平衡这一权衡: 首先是一个快速的“检索器 (Retriever)”来查找广泛的候选文档集，紧接着是一个较慢但更精确的“重排序器 (Reranker)”对它们进行排序。 ...

[PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL 🔗](https://arxiv.org/abs/2409.14082)

像教人类学生一样教 LLM：PTD-SQL 框架详解

引言想象一下你正在复习一场高难度的数学考试。打开课本时，你不会只是按顺序阅读每一页，你会发现章节是按主题划分的: 几何、代数、微积分和统计学。当你在这个几何题型上遇到困难时，你不会通过解微积分方程来练习。相反，你会进行针对性训练 (Targeted Drilling) ——你会找来一组几何题，学习它们所需的特定公式，并反复练习直到掌握这一类题型。 ...

[PSC: Extending Context Window of Large Language Models via Phase Shift Calibration 🔗](https://arxiv.org/abs/2505.12423)

校准指南针：相位偏移校准如何扩展 LLM 上下文窗口

引言想象一下，你试图总结一本内容密集的小说，但你的记忆一次只能容纳十页。当你读到第三章时，第一章的内容就已经完全忘记了。这就是大型语言模型 (LLM) 在处理有限上下文窗口时面临的根本困境。虽然像 GPT-4 和 LLaMA-2 这样的模型彻底改变了自然语言处理 (NLP) ，但它们处理大量输入 (如整本书或法律资料库) 的能力受到其“上下文窗口”的限制。 ...

[Prompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling 🔗](https://arxiv.org/abs/2402.08702)

超越单步：PROMST 如何掌握多步提示工程

超越单步: PROMST 如何掌握多步提示工程如果你曾经使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ，你应该对提示工程 (Prompt Engineering) 这门“玄学”并不陌生。你在这里改一个词，在那里加一个约束条件，然后祈祷模型能输出你想要的结果。 ...

[PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection 🔗](https://aclanthology.org/2024.emnlp-main.1166.pdf)

AI 能通过辩论做出更好的决策吗？解决仇恨言论的主观性难题

如果你问五个不同的人如何定义“仇恨言论”，你很可能会得到五个略有不同的答案。有人可能关注侮辱性词汇，有人关注历史背景，还有人关注说话者的意图。 ...

[PATIENT-Ψ: Using Large Language Models to Simulate Patients for Training Mental Health Professionals 🔗](https://aclanthology.org/2024.emnlp-main.711.pdf)

超越角色扮演：PATIENT-Ψ 如何利用认知模型培训下一代治疗师

引言心理健康是我们这个时代最严峻的公共卫生挑战之一。全球每八个人中就有一人患有心理健康疾病，合格护理的需求远远超过了供应。然而，培训一名心理健康专业人员不仅仅是阅读教科书和通过考试，它还需要掌握微妙、复杂且往往不可预测的人际互动艺术。 ...

[PARIKSHA: Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data 🔗](https://arxiv.org/abs/2406.15053)

PARIKSHA：揭示多语言 LLM 评估的真相

引言在大型语言模型 (LLM) 飞速发展的世界中，基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而，在这片版图中存在一个显眼的盲点: 语言和文化的多样性。 ...

[PANDA: Persona Attributes Navigation for Detecting and Alleviating Overuse Problem in Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.670.pdf)

信息量过载！为何大模型总是分享太多以及 PANDA 框架如何修复这一问题

引言想象一下，你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢，我也很喜欢！你最喜欢的作者是谁？” 现在想象一下这位熟人回答道: “我也很喜欢读书！我是一名 35 岁的会计师，住在芝加哥。我有三只猫，分别叫 Mittens、Oreo 和 Luna。我患有焦虑症，每周二下午 6 点去健身房。” ...

[PALM: Few-Shot Prompt Learning for Audio Language Models 🔗](https://arxiv.org/abs/2409.19806)

超越手工提示词：利用 PALM 优化音频语言模型

简介在快速发展的人工智能领域，多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样，音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。 ...

[Overcome Noise and Bias: Segmentation-Aided Multi-Granularity Denoising and Debiasing for Enhanced Quadruples Extraction in Dialogue 🔗](https://aclanthology.org/2024.emnlp-main.49.pdf)

驯服混乱：如何在没有噪声和偏差的情况下从杂乱的对话中提取情感四元组

情感分析已经从简单地将电影评论分类为“正面”或“负面”，发展到了如今的细粒度数据分析时代。我们现在的关注点在于基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 。我们不仅想知道用户是否快乐，还想知道他们对什么感到快乐，他们喜欢哪个具体功能，以及他们使用了什么观点词。 ...

[Outcome-Constrained Large Language Models for Countering Hate Speech 🔗](https://arxiv.org/abs/2403.17146)

超越礼貌——教人工智能缓和仇恨言论

如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过，你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战，威胁着健康的交流并驱赶用户。 ...