EMNLP 2024

[Hateful Word in Context Classification 🔗](https://aclanthology.org/2024.emnlp-main.10.pdf)

语境至关重要——为什么仅靠字典不足以检测仇恨言论

在自然语言处理 (NLP) 快速发展的领域中，仇恨言论检测 (HSD) 已成为内容审核的基石。我们已经非常擅长训练模型来标记明显的恶意评论。如果一句话充满了攻击性的脏话或明确的威胁，现代算法能以很高的准确率将其捕捉。 ...

[Hate Personified: Investigating the role of LLMs in content moderation 🔗](https://arxiv.org/abs/2410.02657)

AI 真的能理解仇恨吗？地理位置、角色设定和偏见如何重塑 LLM 内容审核

AI 真的能理解仇恨吗？地理位置、角色设定和偏见如何重塑 LLM 内容审核内容审核是现代互联网面临的最困难的挑战之一。每天有数十亿条帖子生成，平台面临着迅速删除仇恨言论的巨大压力。传统的解决方案是混合使用关键词过滤器和庞大的人工审核团队。但人工审核速度慢，给工作人员带来精神创伤，而且——关键是——具有主观性。 ...

[HalluMeasure: Fine-grained Hallucination Measurement Using Chain-of-Thought Reasoning 🔗](https://aclanthology.org/2024.emnlp-main.837.pdf)

如何捕捉撒谎的 AI：深入解析 HalluMeasure 的思维链方法

引言想象一下，一位律师走进法庭，对自己的案件充满信心，结果却因为引用的法律判例根本不存在而受到法官的制裁。或者试想一家公司的股票市值瞬间蒸发 1000 亿美元，只因为其 AI 演示错误地声称詹姆斯·韦伯太空望远镜拍摄了第一张系外行星的照片 (事实并非如此) 。 ...

[HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding 🔗](https://arxiv.org/abs/2409.20429)

治愈多模态幻觉：深入解析 HELPD

简介想象一下，给 AI 展示一张白雪皑皑的森林照片，让它描述所看到的内容。模型自信地描述了雪、树木，然后补充道: “……还有一只松鼠正在树枝上吃坚果。”你仔细一看，确实有一只松鼠，但它是跳跃状态，并没有在吃东西。而且它是在地面上，不是在树枝上。 ...

[HEART-felt Narratives: Tracing Empathy and Narrative Style in Personal Stories with LLMs 🔗](https://arxiv.org/abs/2405.17633)

叙事风格如何驱动共情：介绍 HEART 分类法

为什么有的故事让你泪流满面，而另一个描述类似悲剧的故事却让你无动于衷？对于心理学家和计算机科学家来说，共情是一个迷人且复杂的机制。它是亲社会行为的基石——是驱动我们帮助他人、建立社区的引擎。传统上，我们认为共情是由内容触发的: 悲惨的损失、胜利的喜悦或引人共鸣的挣扎。但直觉告诉我们，故事的讲述方式——即叙事风格——在其中起着巨大的作用。 ...

[GuardBench: A Large-Scale Benchmark for Guardrail Models 🔗](https://aclanthology.org/2024.emnlp-main.1022.pdf)

守护 AI：深入剖析 GuardBench 与大语言模型安全现状

引言大语言模型 (LLM) 的快速部署彻底改变了我们要与技术交互的方式，从代码助手到创意写作伙伴，无处不在。然而，这种能力的爆发也伴随着明显的“阴暗面”。如果没有适当的对齐和安全措施，这些强大的模型可能会被滥用于生成仇恨言论、提供非法行为的指令，或输出有害的医疗建议。 ...

[Grounding Language in Multi-Perspective Referential Communication 🔗](https://arxiv.org/abs/2410.03959)

你能看到我所看到的吗？教 AI 进行跨视角的沟通

想象一下，你正在帮朋友找丢失的钥匙。你站在门口，而朋友在厨房岛台后面。你看到钥匙就在台面上，但从朋友的角度看，钥匙被一个水果盘挡住了。如果你仅仅说: “就在台面上”，他们可能根本看不到。但如果你说: “在你左边，苹果后面”，他们马上就能找到。 ...

[Grasping the Essentials: Tailoring Large Language Models for Zero-Shot Relation Extraction 🔗](https://arxiv.org/abs/2402.11142)

AI 能仅凭定义学会关系抽取吗？深入解析 REPAL 框架

在自然语言处理 (NLP) 的世界里，教会机器阅读文本是一回事；教会它们理解实体之间的联系完全是另一回事。这项任务被称为关系抽取 (Relation Extraction, RE) 。想象一下，你正在构建一个分析新闻文章的系统。你不只是希望计算机识别出“史蒂夫·乔布斯 (Steve Jobs) ”和“苹果 (Apple) ”这两个词。你希望它能提取出两者之间具体的关系: *FounderOf (创始人) *。 ...

[Granular Privacy Control for Geolocation with Vision Language Models 🔗](https://arxiv.org/abs/2407.04952)

当 AI 知道你在哪里——控制视觉语言模型中的地理定位隐私

简介想象一下，你把午餐的照片上传到社交媒体上。你希望朋友们知道你正在巴黎享受旅行，但你绝对不希望陌生人弄清楚你站在哪个具体的街角，更不用说通过特定的餐厅推断出你酒店的位置了。 ...

[GOLD COIN: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory 🔗](https://arxiv.org/abs/2406.11149)

教 AI 判决隐私：情境完整性理论如何让 LLM 在法律中落地

隐私问题很少是非黑即白的。试想一条简单的信息: 一份验血结果。如果医生将结果发给专科医生寻求第二意见，这是标准的医疗做法。然而，如果同一位医生将同样的结果发给一家营销公司，那就是严重的隐私侵犯。 ...

[Vocabulary: An Adaptive Method for Vocabulary Expansion of Domain-Specific LLMs 🔗](https://arxiv.org/abs/2410.01188)

分词器里的淘金热：一种面向领域专用大模型的自适应词表扩展方法

引言像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 是通才。它们能写诗、解数学题，或者像模像样地总结历史课。然而，当你把这些通才模型投入到高度专业化的环境中——比如律师事务所或医院——它们往往会碰壁。它们缺乏生成精确法律合同或医疗诊断所需的特定行话和深厚的领域知识。 ...

[GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed Text 🔗](https://arxiv.org/abs/2403.06399)

GlossLM：弥合 NLP 与濒危语言记录之间的鸿沟

现今世界上大约有 7,000 种语言。遗憾的是，其中近一半被认为处于濒危状态。虽然社区和语言学家正在不知疲倦地努力保护和振兴这些语言，但语言记录的过程却以缓慢和劳动密集著称。 ...

[Global Reward to Local Rewards: Multimodal-Guided Decomposition for Improving Dialogue Agents 🔗](https://aclanthology.org/2024.emnlp-main.881.pdf)

从点头示意到竖起大拇指：多模态信号如何教会 AI 更好地对话

引言: “长对话”难题想象一下，你正在教朋友如何讲故事。如果你每听到一个句子就打断他们说“讲得好”或“这句很无聊”，对话的流程就会被破坏。这很不自然。相反，你通常会听完整个故事，最后给出一个反应——也许是一次大笑、一声叹息，或者一句赞美，比如“这故事太棒了！” ...

[Getting the Most Out of Your Training Data: Exploring Unsupervised Tasks for Morphological Inflection 🔗](https://aclanthology.org/2024.emnlp-main.1055.pdf)

压榨数据的潜能：无监督任务如何利用有限数据提升形态变化推断

引言在自然语言处理 (NLP) 领域，我们已经习惯了“越大越好”的范式。像 BERT 或 GPT 这样的大型模型，实际上是在整个互联网的数据上进行训练的，它们在接触具体任务之前就已经学习了语言的统计模式。但是，当我们从句子和段落的层面缩小到单个字符的层面时会发生什么？更重要的是，当我们没有针对某种特定语言的互联网级海量数据时，又该怎么办？ ...

[Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners 🔗](https://arxiv.org/abs/2405.13816)

以少胜多：大语言模型如何自发成为多语言专家

像 GPT-4、LLaMA 和 Mistral 这样的大语言模型 (LLM) 已经彻底改变了自然语言处理领域。如果你说英语，这些工具感觉简直像魔法一样。然而，如果你切换到一种低资源语言——比如斯瓦希里语或孟加拉语——这种“魔法”往往就会消失。高资源语言 (如英语和中文) 与低资源语言之间的性能差距，仍然是 AI 公平性面临的一个巨大障碍。 ...

[GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation 🔗](https://arxiv.org/abs/2406.11503)

教 AI 学几何：GeoGPT4V 如何解决视觉数学难题

简介如果你曾经上过几何课，你就会知道，如果没有旁边的图解，题目中的文字往往毫无用处。“求边 \(AC\) 的长度”这句话，如果你看不到三角形，就没有任何意义。这种对视觉辅助的依赖使得几何学成为人工智能最具挑战性的前沿领域之一。 ...

[Generative Subgraph Retrieval for Knowledge Graph–Grounded Dialog Generation 🔗](https://arxiv.org/abs/2410.09350)

如何终结 LLM 幻觉——深入解析 DialogGSR 与生成式子图检索

引言我们正处于大语言模型 (LLM) 的黄金时代。从 ChatGPT 到 Claude，这些模型能够以惊人的流畅度写诗、编写代码以及进行日常对话。然而，任何用过它们进行事实性研究的人都知道它们那不可告人的秘密: 幻觉 (Hallucinations) 。由于 LLM 是基于统计可能性而非事实数据库来生成文本的，它们有时会自信满满地胡说八道。 ...

[Generative Models for Automatic Medical Decision Rule Extraction from Text 🔗](https://aclanthology.org/2024.emnlp-main.399.pdf)

从教科书到诊疗方案——利用生成式 AI 自动化构建医疗决策树

想象一下，医生面对一位症状复杂的患者。为了开出正确的药物，医生需要在脑海中遍历一个流程图: 病情是轻度还是重度？如果是重度，是否有并发症？如果有，使用药物 A；否则，使用药物 B。 ...

[Generation with Dynamic Vocabulary 🔗](https://arxiv.org/abs/2410.08481)

超越静态 Token：动态词表如何革新语言模型

介绍在快速发展的大型语言模型 (LLM) 领域，我们往往关注模型的规模——在数万亿词上训练的数十亿参数。然而，这些模型中有一个基本组件却出奇地僵化: 词表 (Vocabulary) 。 ...

[Generating Demonstrations for In-Context Compositional Generalization in Grounded Language Learning 🔗](https://aclanthology.org/2024.emnlp-main.893.pdf)

何必检索？自创示范即可：通过生成示范解决具身语言学习中的组合泛化问题

人类是“组合泛化 (compositional generalization) ”的大师。如果你知道“旋转 (spinning) ”意味着什么，也知道“拉动红色拉杆 (pulling a red lever) ”意味着什么，那么即使你从未亲手执行过这个特定的动作组合，你也能立刻理解“在旋转时拉动红色拉杆”这条指令。你不需要看遍每一个单词和动作组合的教程；你理解各个组件以及将它们组合起来的规则。 ...