EMNLP 2024

[A Usage-centric Take on Intent Understanding in E-Commerce 🔗](https://arxiv.org/abs/2402.14901)

超越“购买此商品的顾客也买了”：解锁电商中真正的用户意图

你是否曾在线搜索过“露营炉”，将其加入购物车，然后就被铺天盖地的推荐淹没——而且全是……更多的露营炉？虽然现代电商推荐系统非常强大，但它们往往在根本上误解了用户购物的原因。它们擅长识别产品相似性 (“你喜欢这个炉子，这是另一个炉子”) 或连带购买模式 (“买了这炉子的人也买了这罐燃料”) 。然而，它们难以捕捉更广泛的用户意图 (User Intent) 。 ...

[A Two-Step Approach for Data-Efficient French Pronunciation Learning 🔗](https://arxiv.org/abs/2410.05698)

解码法语语流——一种数据高效的发音学习方法

解码法语语流: 一种数据高效的发音学习方法如果你尝试过学习法语，你可能遇到过一种特别的挫败感。你学会了一个单词，记住了它的发音，然后当你听到母语者在句子里说这个词时，它听起来完全变了样。 ...

[A Thorough Examination of Decoding Methods in the Era of LLMs 🔗](https://arxiv.org/abs/2402.06925)

破解代码——深入探究 LLM 解码方法

当我们与 ChatGPT 或 Llama 等大型语言模型 (LLM) 交互时，我们要么把它们视为神奇的黑盒: 输入提示词，连贯的回答就出现了。然而，在底层，这些模型本质上是下一个 Token 预测器。它们输出的是词表中成千上万个 Token 的概率分布。 ...

[A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations 🔗](https://arxiv.org/abs/2407.04069)

LLM 评估的狂野西部：为什么你的基准测试可能是错的（以及如何修复它们）

引言我们正处于大语言模型 (LLM) 的黄金时代。每周都有新模型发布——声称比前代更快、更聪明、更强大。我们看到各种图表展示着巨大的柱状图、更高的数值，并声称在 MMLU 或 HumanEval 等基准测试中达到了“SOTA (最先进) ”的性能。 ...

[A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences 🔗](https://arxiv.org/abs/2406.11341)

AI 真的会推理吗？深度解析大语言模型的逻辑能力

引言自 Transformer 和 GPT-4、LLaMA 等大语言模型 (LLM) 问世以来，一个核心问题一直主导着自然语言处理 (NLP) 领域: 这些模型是真的在推理，还只是老练的“鹦鹉学舌”? ...

[A Survey on In-context Learning 🔗](https://arxiv.org/abs/2301.00234)

掌握上下文学习：大语言模型如何通过类比学习

引言近年来，自然语言处理 (NLP) 领域经历了一场范式转变。我们已经从为特定任务训练特定模型，转向利用像 GPT-4 和 Llama 这样的大规模、通用型大语言模型 (LLMs) 。这些模型真正的革命性之处不仅在于其规模，更在于它们仅通过观察少量示例就能学习新任务的能力，且无需更新其内部参数。这种现象被称为上下文学习 (In-Context Learning, ICL) 。 ...

[A Survey of Ontology Expansion for Conversational Understanding 🔗](https://arxiv.org/abs/2410.15019)

超越脚本化聊天机器人：AI 如何学会扩展自己的宇宙

如果你曾与客户服务聊天机器人互动过，你可能遇到过这种情况。你问了一个问题，也许措辞与机器人预期的略有不同，或者涉及的话题虽然相关但在技术上属于“新”内容，然后你就会收到那句令人沮丧的回复: “对不起，我没听懂。” ...

[A Survey of AMR Applications 🔗](https://aclanthology.org/2024.emnlp-main.390.pdf)

超越黑盒：抽象语义表示如何重塑 NLP

在当今的自然语言处理 (NLP) 时代，大型语言模型 (LLMs) 常常给人一种魔法般的感觉。你输入一个句子，它就能输出翻译、摘要甚至一首诗。然而，尽管这些神经模型能力超群，它们本质上仍然是“黑盒”。它们依赖统计概率而非明确的理解，这可能导致幻觉、逻辑不一致或缺乏可解释性。 ...

[A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers 🔗](https://arxiv.org/abs/2407.01834)

你的名字会让 AI 生气吗？理解 NLP 模型中的国籍偏见与困惑度

在现代数字环境中，人工智能不再仅仅是一个未来的概念；它已经成为一个积极的把关人。算法决定哪些社交媒体评论被标记为“仇恨言论”，哪些客户服务工单根据“情感”被优先处理，有时甚至决定哪些简历能被人类招聘人员看到。 ...

[A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models 🔗](https://arxiv.org/abs/2410.04027)

回归本源：无需训练或提示词的中文拼写纠错

你是否有过这样的经历: 匆忙打字发送消息，按下发送键后才发现，手机的自动纠错功能把原本真诚的赞美变成了一句胡言乱语？在英语中，拼写错误通常只是字母排列的问题。但在中文里，由于语言的特性，这个问题要复杂得多。因为中文输入法严重依赖拼音 (语音输入) ，手指的一点偏差或发音相似的音节，都可能导致打出一个完全不同且含义天差地别的汉字。 ...

[A Simple and Effective L2 Norm-Based Strategy for KV Cache Compression 🔗](https://aclanthology.org/2024.emnlp-main.1027.pdf)

少即是多：利用简单的 L2 范数压缩 LLM 内存

大型语言模型 (LLM) 更大上下文窗口的竞赛是目前 AI 领域最令人兴奋的发展之一。我们已经迅速从那些只能记住寥寥数段的模型，迈向了像 GPT-4 和 Gemini 1.5 这样能够通过单个提示处理整本小说、代码库或法律合同的系统。 ...

[A Simple LLM Framework for Long-Range Video Question-Answering 🔗](https://arxiv.org/abs/2312.17235)

LLoVi：通过“阅读”电影解决长时视频理解问题

简介想象一下，你正在观看一段三分钟的视频，视频内容是一个人组装一件复杂的家具。看完后，我问你: “这个人拿起的第一个工具是什么？”要回答这个问题，你需要回忆视频的开头，理解动作的顺序，并识别出那个物体。 ...

[A SMART Mnemonic Sounds like 'Glue Tonic': Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick 🔗](https://arxiv.org/abs/2406.15352)

让知识粘在脑海里：SMART 如何利用学生反馈对齐 LLM 以生成更好的助记符

词汇习得往往是学生们的梦魇。无论是准备 GRE、学习一门新语言，还是掌握医学术语，海量的新词汇都让人不堪重负。认知科学早已提供了一个解决方案: 关键词助记法 (keyword mnemonics) 。这是一种令人难忘的语言链接，它将一个新的、复杂的术语与一个更简单、熟悉的关键词联系起来，随后通过解释将两者架起桥梁。 ...

[A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners 🔗](https://arxiv.org/abs/2406.11050)

逻辑的假象：为什么改个名字就会让 LLM 翻车

像 GPT-4 和 Claude 3 这样的大型语言模型 (LLM) 以其编写代码、创作诗歌和解决复杂问题的能力震惊了世界。当我们看到 LLM 正确回答经典的谜语或逻辑谜题时，很容易将类似人类的推理能力归功于机器。我们假设模型“理解”了其中的逻辑。 ...

[A New Pipeline for Knowledge Graph Reasoning Enhanced by Large Language Models Without Fine-Tuning 🔗](https://aclanthology.org/2024.emnlp-main.81.pdf)

跨越鸿沟：如何在不微调的情况下利用 LLM 增强知识图谱推理

引言在人工智能不断演变的版图中，我们经常发现自己需要管理两种截然不同的“大脑”。一方面，我们有知识图谱 (Knowledge Graphs, KGs) 。它们是将世界映射为实体 (节点) 和关系 (边) 的结构化逻辑数据库。它们精确且基于事实，但往往很脆弱；如果缺少连接，系统就无法看到其中的关系。另一方面，我们有大型语言模型 (Large Language Models, LLMs) , 如 GPT-4 或 Llama 3。它们拥有广博的通用世界知识，可以生成类似人类的文本，但它们容易产生“幻觉”，且更新或微调的计算成本高昂。 ...

[A Multi-Perspective Analysis of Memorization in Large Language Models 🔗](https://arxiv.org/abs/2405.11577)

揭秘黑盒：大语言模型如何以及为何记忆训练数据

像 GPT-4 或 LLaMA 这样的大语言模型 (LLMs) 通常被描述为具有“涌现能力”——即随着模型规模扩大而出现的能力。在这些行为中，最令人着迷但也最具争议的之一就是记忆 (Memorization) 。 ...

[A Morphology-Based Investigation of Positional Encodings 🔗](https://arxiv.org/abs/2404.04530)

所有的语言都需要词序吗？为什么 Transformer 可能过度设计了语法

如果你读到句子“The dog bit the man” (狗咬了人) ，你很清楚谁遭殃了。如果你把词序换成“The man bit the dog” (人咬了狗) ，意思就完全反转了。这是因为英语严重依赖词序来传达意义。要理解这个句子，你不仅需要知道出现了什么词，还需要知道它们位于哪里。 ...

[A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models 🔗](https://arxiv.org/abs/2410.04103)

逃离更新陷阱：学习率路径切换如何保持 LLM 的新鲜与高效

在人工智能飞速发展的世界里，大型语言模型 (LLM) 往往受限于其最新数据的时效性。当我们询问聊天机器人最近发生的事件，却被告知“我的知识截止日期是……”时，那种挫败感大家都深有体会。 ...

[A Generic Method for Fine-grained Category Discovery in Natural Language Texts 🔗](https://arxiv.org/abs/2406.13103)

STAR：利用综合语义相似度照亮文本中的隐藏类别

引言想象一下，你正在构建一个数字生活助手。用户输入: “我想买一辆适合周末野外探险的车。” 你的系统基于广泛的类别进行训练，成功将意图识别为 “购买车辆” 。基于此，它推荐了一辆时髦的高速敞篷跑车。 ...

[A Fast and Sound Tagging Method for Discontinuous Named-Entity Recognition 🔗](https://aclanthology.org/2024.emnlp-main.1087.pdf)

驯服断裂的链条——一种快速且合理的非连续命名实体识别方法

引言在自然语言处理 (NLP) 的世界中，命名实体识别 (NER) 是一项基石任务。我们通常要求模型阅读一个句子并高亮显示特定的项目——人名、组织、地点或医疗症状。多年来，标准的方法是将这些实体视为完整的文本块。如果你看到 “New York City” (纽约市) ，你会在三个连续的单词周围画一个框。 ...