EMNLP 2024

[MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic 🔗](https://arxiv.org/abs/2406.11385)

解决 LLM 合并的三难困境：深入解析 MetaGPT

在人工智能快速发展的格局中，像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 已成为现代自然语言处理 (NLP) 的基石。标准的工作流程大家都很熟悉: 采用一个大规模的预训练基座模型，然后针对特定任务 (无论是编程、数学还是创意写作) 进行微调。这种方法能产生高性能的模型，但也带来了巨大的后勤挑战。对于每一种新能力，你都需要部署一个独立的、庞大的模型。 ...

[Message Passing on Semantic-Anchor-Graphs for Fine-grained Emotion Representation Learning and Classification 🔗](https://aclanthology.org/2024.emnlp-main.162.pdf)

锚定情绪：SEAN-GNN 如何捕捉文本中的微妙情感

人类是情感复杂的生物。我们不仅仅感到“快乐”或“悲伤”，我们会感到狂喜、满足、极度悲痛、恐惧或忧虑。在自然语言处理 (NLP) 领域，区分这些微妙的细微差别被称为细粒度情感分类 (Fine-grained Emotion Classification, FEC) 。 ...

[Mentor-KD: Making Small Language Models Better Multi-step Reasoners 🔗](https://arxiv.org/abs/2410.09037)

跨越鸿沟：'导师'模型如何教导小型 AI 像巨人一样推理

在当前的人工智能领域，大型语言模型 (LLMs) 如 GPT-4 或 Claude 无疑是重量级选手。它们拥有一种被称为思维链 (Chain-of-Thought, CoT) 推理的“涌现”能力——即通过逐步分解复杂问题，按照逻辑递进得出正确答案的能力。 ...

[Memory-Efficient Fine-Tuning of Transformers via Token Selection 🔗](https://arxiv.org/abs/2501.18824)

TokenTune：通过忽略 Token 将大型语言模型挤进更小的 GPU

大型语言模型 (LLM) 的爆发使强大的 AI 变得触手可及，但定制这些模型仍然是一场硬件噩梦。虽然使用像 Llama-2 或 GPT-3 这样的预训练模型相对便宜，但微调 (Fine-tuning) ——即针对医疗数据、代码生成或特定写作风格对其进行专业化训练——需要巨大的计算资源。 ...

[Memorize Step by Step: Efficient Long-Context Prefilling with Incremental Memory and Decremental Chunk 🔗](https://aclanthology.org/2024.emnlp-main.1169.pdf)

Memorize Step by Step：一种处理 LLM 长上下文的更智能方法

“百万级 token 上下文窗口”的时代已经到来。随着 Claude 3 和 Gemini 1.5 等模型的出现，我们正从处理简短的提示词，迈向一次性处理整本书籍、代码库和法律档案的领域。但这里有一个陷阱: 硬件的发展并没有跟上我们野心的步伐。处理 100 万个 token 的序列需要巨大的计算资源和 GPU 内存。如果你尝试将这么长的文本输入到标准 GPU 中，几乎肯定会在模型生成第一个字之前就遇到“内存溢出” (Out of Memory，OOM) 错误。 ...

[MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification 🔗](https://arxiv.org/abs/2409.14703)

解码 Meme：MemeCLIP 和 PrideMM 如何改变多模态内容审核

引言在数字时代，Meme (网络迷因/表情包) 不仅仅是有趣的图片；它们本身就是一种复杂的语言。它们可以将复杂的政治观点、社会评论和文化内部笑话提炼成一个单一的、易于分享的单元。然而，这种力量也有其阴暗面。Meme 已成为仇恨言论、网络欺凌和虚假信息的有力载体，往往隐藏在传统内容审核系统难以解析的反讽和挖苦层之下。 ...

[Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? 🔗](https://arxiv.org/abs/2411.04118)

医疗 AI 的海市蜃楼：为何专用模型可能并不优于通用模型

人工智能与医学的交叉领域是目前技术界最令人兴奋的前沿之一。每隔几个月，我们就会看到新的头条新闻宣布某种“医疗 LLM”——一种专门为医疗保健量身定制的人工智能。故事几乎总是相同的: 拿一个强大的通用模型 (如 Llama 或 Mistral) ，在海量的医学教科书和 PubMed 文章库上对其进行进一步训练，然后瞧: 你就有了一个表现优于其通用前身的数字医生。 ...

[Media Attitude Detection via Framing Analysis with Events and their Relations 🔗](https://aclanthology.org/2024.emnlp-main.954.pdf)

超越用词选择——通过事件框架与因果叙事检测媒体偏见

2024 年 3 月，弗拉基米尔·普京赢得了俄罗斯总统大选。如果你阅读的是俄罗斯官方支持的媒体报道，你可能会看到关于“合法性”、“国家团结”和“压倒性胜利”的叙述。而如果你阅读的是西方媒体，故事的框架则可能围绕着“选举舞弊”、“打压反对派”以及正在进行的乌克兰战争。 ...

[MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations 🔗](https://arxiv.org/abs/2410.14204)

为何医疗 AI 需要更好的数据：MediTOD 与 CMAS 本体论介绍

引言想象这样一个未来: 医生职业倦怠显著减少，患者能够即时获得高质量的医疗分诊服务。这就是医疗任务型对话 (Medical Task-Oriented Dialogue, TOD) 系统的承诺。这些 AI 智能体旨在协助医生收集患者病史、辅助诊断并指导治疗方案的选择。 ...

[MEDREADME: A Systematic Study for Fine-grained Sentence Readability in Medical Domain 🔗](https://arxiv.org/abs/2405.02144)

解读医学术语：我们如何衡量和提高医疗保健领域的可读性

引言 “如果你无法衡量它，就无法改进它。” 彼得·德鲁克 (Peter Drucker) 的这句名言在医学传播领域尤为真切。我们生活在一个可靠的医学知识对公共卫生至关重要的时代。从维基百科文章到默克诊疗手册 (Merck Manuals) ，从前沿研究论文到患者宣传册，健康信息的传播从未停止。 ...

[MedCoT: Medical Chain of Thought via Hierarchical Expert 🔗](https://arxiv.org/abs/2412.13736)

为什么两个医生胜过一个：解读用于医疗 AI 的 MedCoT

想象一下，你带着一张复杂的 X 光片去看医生。你问: “有肿瘤吗？”医生只是简单地说“有”，然后就走出了房间。没有解释，没有指出片子上的阴影，也没有讨论他们是如何得出这个结论的。你可能会感到恐惧且充满怀疑。 ...

[MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning 🔗](https://arxiv.org/abs/2405.03000)

跨越鸿沟：MedAdapter 如何在经济高效的前提下优化医学大语言模型

大语言模型 (LLM) 在生物医学领域的整合前景广阔，从协助复杂诊断到自动化临床笔记记录，其潜力巨大。然而，广泛采用这些模型面临着一个巨大的障碍: 即“资源-隐私-性能”的三难困境。 ...

[Measuring Psychological Depth in Language Models 🔗](https://aclanthology.org/2024.emnlp-main.953.pdf)

AI 能让你流泪吗？衡量 LLM 生成故事的心理深度

引言我们已经到了人工智能进化的一个阶段，机器生成的文本在语法上完美无缺，风格上高度一致，而且无可否认地连贯。如果你让 GPT-4 写一首关于烤面包机的十四行诗，它会以令人印象深刻的押韵和格律完成任务。但这其中仍然存在一个难以逾越的边界，一种将技术手册与令人心碎的小说区分开来的特质: 心理深度 (Psychological Depth) 。 ...

[Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding Dimensions 🔗](https://arxiv.org/abs/2407.20243)

缩小巨人：Matryoshka-Adaptor 如何让 LLM 嵌入更小、更快、更便宜

在大型语言模型 (LLM) 和信息检索 (IR) 的世界里，“更大”通常意味着“更好”。高维嵌入——那些代表文本语义的长数字向量——能够捕捉到较小向量所遗漏的细微差别。来自 OpenAI 的 3,072 维向量通常比 256 维向量更能理解你的查询。 ...

[Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models 🔗](https://arxiv.org/abs/2406.12572)

你比三年级小学生更聪明吗？为什么大语言模型在 Mathador 挑战中惨败

引言在人工智能飞速发展的今天，我们已经习惯了这样的头条新闻: 大语言模型 (LLM) 又攻克了一个人类里程碑。我们看到模型通过了律师资格考试，在物理学领域达到研究生水平，甚至能解决复杂的编程挑战。如果你查看流行的排行榜，似乎我们正在接近一个饱和点，即 AI 的能力已经匹配甚至超越了人类专家的表现。 ...

[MatchTime: Towards Automatic Soccer Game Commentary Generation 🔗](https://arxiv.org/abs/2406.18530)

为什么 AI 解说员总掉链子（以及 'MatchTime' 如何解决这个问题）

想象一下，当你正在观看一场足球比赛，球已经进网两分钟了，解说员才大喊一声“球进了！”。这不仅让人摸不着头脑，非常恼火，而且基本没什么用处。然而，当我们试图教人工智能理解体育运动时，这正是困扰它的痛点。 ...

[Making Large Language Models Better Reasoners with Orchestrated Streaming Experiences 🔗](https://arxiv.org/abs/2504.00473)

RoSE：LLM 如何通过编排流式经验实现自我提升

引言想象一下一个正在准备高难度数学考试的学生。他们不仅仅是背诵公式，还会做练习题。当他们正确解决一个问题时，他们会记住自己使用的逻辑。随后，当面对一个类似但全新的问题时，他们会回忆起那个成功的逻辑来指导自己。这个过程——积累经验，过滤掉错误，并回忆起最相关和最复杂的解决方案——是人类学习的基础。 ...

[Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training 🔗](https://arxiv.org/abs/2406.17404)

免费为 LLM 提速：“Make Some Noise” 训练框架

以 GPT-4 和 LLaMA 为代表的大语言模型 (LLM) 彻底改变了人工智能领域。然而，如果你曾观察过 LLM 生成回复的过程，你可能会注意到一个根本性的瓶颈: 文本是一个词接一个词出现的，就像一个打字很慢的人。 ...

[Major Entity Identification: A Generalizable Alternative to Coreference Resolution 🔗](https://aclanthology.org/2024.emnlp-main.652.pdf)

为何我们要停止聚类并开始识别：指代消解的新方法

想象一下你正在分析小说《阿拉丁》。你想追踪文中每一次提到主角的地方，无论是通过他的名字 (“阿拉丁”) ，名词短语 (“那个男孩”) ，还是代词 (“他”) 。 ...

[MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension 🔗](https://arxiv.org/abs/2409.13609)

MaPPER 如何实现高效视觉定位：深入解析先验引导的微调技术

引言想象一下，你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间，你的大脑处理了语言，扫描了图像，过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”，并锁定了特定的目标。 ...