EMNLP 2024

[Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification 🔗](https://aclanthology.org/2024.emnlp-main.1019.pdf)

大语言模型真的能检测仇恨言论吗？行为模式与失效分析

想象一下，你是一个社交媒体平台的内容审核员，或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地，你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗？” ...

[Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models 🔗](https://arxiv.org/abs/2410.12011)

图像能阅读吗？深度探究像素级模型的语言大脑

想象一下，不是通过识别字母或单词来阅读一本书，而是通过看页面的连续截图来阅读。这本质上就是基于像素的语言模型 (Pixel-based Language Models) 的工作原理。与 BERT 或 GPT 等模型将文本分解为“标记 (tokens) ” (如子词或字符) 的词表不同，这些模型将文本视为图像。 ...

[PhiloGPT: A Philology-Oriented Large Language Model for Ancient Chinese Manuscripts with Dunhuang as Case Study 🔗](https://aclanthology.org/2024.emnlp-main.163.pdf)

解码过去：PhiloGPT 如何彻底改变中国古代文献研究

想象一下，试图阅读一封写于一千年前的信件。纸张破烂不堪，因虫蛀或水渍而缺字少句，而且语法遵循着几个世纪前就不再使用的规则。此外，作者还使用了一个 7 世纪特定小村庄的俚语，而这个词在任何现代字典中都查不到。 ...

[PERSONALIZED PIECES: Efficient Personalized Large Language Models through Collaborative Efforts 🔗](https://arxiv.org/abs/2406.10471)

打造专属 LLM：Personalized Pieces (PER-PCS) 如何彻底变革模型定制

引言想象一下，你有一位私人助理，他读过你写过的每一封邮件，确切地知道你喜欢哪些电影，并且完美地理解你的写作风格。现在，想象一下尝试使用当今的大型语言模型 (LLM) 来构建这样一个助理。你会面临一个两难的困境。 ...

[Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems 🔗](https://arxiv.org/abs/2404.06762)

AI 能模拟真实课堂吗？教大语言模型扮演有“个性”的学生

想象一下，如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...

[Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale 🔗](https://arxiv.org/abs/2411.05045)

蒸馏巨兽——如何利用反馈循环和硬负样本训练高效模型

在当前的人工智能领域，我们经常面临一个两难选择: 是选择智能还是效率？像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明，能够理解较小模型无法捕捉的细微差别和语境。然而，它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...

[Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models 🔗](https://arxiv.org/abs/2407.06004)

从看见到相信：大语言模型为何在心智理论上受挫及解决之道

想象一下，你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里，然后离开房间。在她离开期间，另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时，她会去哪里找她的弹珠？ ...

[Perceptions of Linguistic Uncertainty by Language Models and Humans 🔗](https://arxiv.org/abs/2407.15814)

当“可能”意味着“为真”：大语言模型如何在心智理论上陷入挣扎

我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时，你输出的并不是一个精确的数学计算，而是在表达一种模糊的信念程度。值得注意的是，尽管缺乏精确性，人类通常能在这一点上达成共识。我们本能地知道，“很可能 (likely) ”代表的概率比“可能 (possible) ”高，但比“几乎确定 (almost certain) ”低。 ...

[PepRec: Progressive Enhancement of Prompting for Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.995.pdf)

LLM 能掌握协同过滤吗？深入解析 PepRec

在人工智能飞速发展的版图中，两大巨头虽各领风骚却鲜有联手: 深度学习推荐模型 (DLRMs) 和大型语言模型 (LLMs) 。 DLRMs 是你的 TikTok 信息流、亚马逊推荐列表和 Netflix 主页背后的无声引擎。它们擅长“协同过滤”——基于数百万用户的数学模式来预测你可能喜欢什么。然而，它们通常是“黑盒”；它们能告诉你看什么，但很少能用人类的语言解释为什么。 ...

[Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification 🔗](https://arxiv.org/abs/2407.02352)

消除视觉幻觉：Pelican 如何利用 Python 核查 AI 视觉模型

想象一下，你让一个 AI 描述一张你家客厅的照片。模型自信地回答: “有一辆红色的复古摩托车停在咖啡桌旁。”你再次看向照片。根本没有摩托车，只有一盆红色的盆栽。 ...

[PCC-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity 🔗](https://arxiv.org/abs/2406.09790)

打破玻璃天花板：Pcc-tuning 如何解锁 NLP 中对比学习的极限

引言: 遭遇 NLP 的瓶颈如果你一直关注自然语言处理 (NLP) 的进展，特别是在句向量 (Sentence Embeddings) 领域，你可能已经注意到了一个趋势。我们已经从简单的词向量 (如 GloVe) 发展到复杂的基于 Transformer 的模型 (如 BERT) ，再到现在的大型语言模型 (LLM，如 LLaMA 和 Mistral) 。 ...

[Paraphrase Types Elicit Prompt Engineering Capabilities 🔗](https://arxiv.org/abs/2406.19898)

关键不在问什么，而在怎么问：提示词改写背后的科学

引言 “重要的不是你说什么，而是你怎么说。” 这句古老的格言通常适用于人际关系，意味着语气和表达方式与信息本身同样重要。出人意料的是，这条规则同样严格适用于大型语言模型 (LLMs) 。 ...

[Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks 🔗](https://arxiv.org/abs/2401.02731)

如何利用 PESC 将稠密 LLM 转化为高效的混合专家模型 (Mixture-of-Experts)

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLMs) 已经成为自然语言处理领域事实上的“专家”。它们处理复杂语言模式的能力很大程度上归功于其巨大的规模。这一普遍认知被称为缩放定律 (scaling law)，它表明要获得更智能的模型，我们只需把它们做得更大。 ...

[PAIRDISTILL: Pairwise Relevance Distillation for Dense Retrieval 🔗](https://arxiv.org/abs/2410.01383)

超越单点：成对比较如何彻底改变搜索 AI

当你在搜索引擎中输入查询时，你希望立即获得相关的结果。然而，在幕后，速度与准确性之间始终存在着一场拉锯战。现代信息检索 (IR) 系统通常依赖于一个两步流程来平衡这一权衡: 首先是一个快速的“检索器 (Retriever)”来查找广泛的候选文档集，紧接着是一个较慢但更精确的“重排序器 (Reranker)”对它们进行排序。 ...

[PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL 🔗](https://arxiv.org/abs/2409.14082)

像教人类学生一样教 LLM：PTD-SQL 框架详解

引言想象一下你正在复习一场高难度的数学考试。打开课本时，你不会只是按顺序阅读每一页，你会发现章节是按主题划分的: 几何、代数、微积分和统计学。当你在这个几何题型上遇到困难时，你不会通过解微积分方程来练习。相反，你会进行针对性训练 (Targeted Drilling) ——你会找来一组几何题，学习它们所需的特定公式，并反复练习直到掌握这一类题型。 ...

[PSC: Extending Context Window of Large Language Models via Phase Shift Calibration 🔗](https://arxiv.org/abs/2505.12423)

校准指南针：相位偏移校准如何扩展 LLM 上下文窗口

引言想象一下，你试图总结一本内容密集的小说，但你的记忆一次只能容纳十页。当你读到第三章时，第一章的内容就已经完全忘记了。这就是大型语言模型 (LLM) 在处理有限上下文窗口时面临的根本困境。虽然像 GPT-4 和 LLaMA-2 这样的模型彻底改变了自然语言处理 (NLP) ，但它们处理大量输入 (如整本书或法律资料库) 的能力受到其“上下文窗口”的限制。 ...

[Prompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling 🔗](https://arxiv.org/abs/2402.08702)

超越单步：PROMST 如何掌握多步提示工程

超越单步: PROMST 如何掌握多步提示工程如果你曾经使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ，你应该对提示工程 (Prompt Engineering) 这门“玄学”并不陌生。你在这里改一个词，在那里加一个约束条件，然后祈祷模型能输出你想要的结果。 ...

[PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection 🔗](https://aclanthology.org/2024.emnlp-main.1166.pdf)

AI 能通过辩论做出更好的决策吗？解决仇恨言论的主观性难题

如果你问五个不同的人如何定义“仇恨言论”，你很可能会得到五个略有不同的答案。有人可能关注侮辱性词汇，有人关注历史背景，还有人关注说话者的意图。 ...

[PATIENT-Ψ: Using Large Language Models to Simulate Patients for Training Mental Health Professionals 🔗](https://aclanthology.org/2024.emnlp-main.711.pdf)

超越角色扮演：PATIENT-Ψ 如何利用认知模型培训下一代治疗师

引言心理健康是我们这个时代最严峻的公共卫生挑战之一。全球每八个人中就有一人患有心理健康疾病，合格护理的需求远远超过了供应。然而，培训一名心理健康专业人员不仅仅是阅读教科书和通过考试，它还需要掌握微妙、复杂且往往不可预测的人际互动艺术。 ...

[PARIKSHA: Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data 🔗](https://arxiv.org/abs/2406.15053)

PARIKSHA：揭示多语言 LLM 评估的真相

引言在大型语言模型 (LLM) 飞速发展的世界中，基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而，在这片版图中存在一个显眼的盲点: 语言和文化的多样性。 ...