[MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic 🔗](https://arxiv.org/abs/2406.11385)

解决 LLM 合并的三难困境:深入解析 MetaGPT

在人工智能快速发展的格局中,像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 已成为现代自然语言处理 (NLP) 的基石。标准的工作流程大家都很熟悉: 采用一个大规模的预训练基座模型,然后针对特定任务 (无论是编程、数学还是创意写作) 进行微调。这种方法能产生高性能的模型,但也带来了巨大的后勤挑战。对于每一种新能力,你都需要部署一个独立的、庞大的模型。 ...

2024-06 · 6 分钟 · 2779 字
[Message Passing on Semantic-Anchor-Graphs for Fine-grained Emotion Representation Learning and Classification 🔗](https://aclanthology.org/2024.emnlp-main.162.pdf)

锚定情绪:SEAN-GNN 如何捕捉文本中的微妙情感

人类是情感复杂的生物。我们不仅仅感到“快乐”或“悲伤”,我们会感到狂喜、满足、极度悲痛、恐惧或忧虑。在自然语言处理 (NLP) 领域,区分这些微妙的细微差别被称为细粒度情感分类 (Fine-grained Emotion Classification, FEC) 。 ...

8 分钟 · 3767 字
[Mentor-KD: Making Small Language Models Better Multi-step Reasoners 🔗](https://arxiv.org/abs/2410.09037)

跨越鸿沟:'导师'模型如何教导小型 AI 像巨人一样推理

在当前的人工智能领域,大型语言模型 (LLMs) 如 GPT-4 或 Claude 无疑是重量级选手。它们拥有一种被称为 思维链 (Chain-of-Thought, CoT) 推理的“涌现”能力——即通过逐步分解复杂问题,按照逻辑递进得出正确答案的能力。 ...

2024-10 · 7 分钟 · 3321 字
[Memory-Efficient Fine-Tuning of Transformers via Token Selection 🔗](https://arxiv.org/abs/2501.18824)

TokenTune:通过忽略 Token 将大型语言模型挤进更小的 GPU

大型语言模型 (LLM) 的爆发使强大的 AI 变得触手可及,但定制这些模型仍然是一场硬件噩梦。虽然使用像 Llama-2 或 GPT-3 这样的预训练模型相对便宜,但微调 (Fine-tuning) ——即针对医疗数据、代码生成或特定写作风格对其进行专业化训练——需要巨大的计算资源。 ...

2025-01 · 7 分钟 · 3128 字
[Memorize Step by Step: Efficient Long-Context Prefilling with Incremental Memory and Decremental Chunk 🔗](https://aclanthology.org/2024.emnlp-main.1169.pdf)

Memorize Step by Step:一种处理 LLM 长上下文的更智能方法

“百万级 token 上下文窗口”的时代已经到来。随着 Claude 3 和 Gemini 1.5 等模型的出现,我们正从处理简短的提示词,迈向一次性处理整本书籍、代码库和法律档案的领域。 但这里有一个陷阱: 硬件的发展并没有跟上我们野心的步伐。处理 100 万个 token 的序列需要巨大的计算资源和 GPU 内存。如果你尝试将这么长的文本输入到标准 GPU 中,几乎肯定会在模型生成第一个字之前就遇到“内存溢出” (Out of Memory,OOM) 错误。 ...

6 分钟 · 2916 字
[MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification 🔗](https://arxiv.org/abs/2409.14703)

解码 Meme:MemeCLIP 和 PrideMM 如何改变多模态内容审核

引言 在数字时代,Meme (网络迷因/表情包) 不仅仅是有趣的图片;它们本身就是一种复杂的语言。它们可以将复杂的政治观点、社会评论和文化内部笑话提炼成一个单一的、易于分享的单元。然而,这种力量也有其阴暗面。Meme 已成为仇恨言论、网络欺凌和虚假信息的有力载体,往往隐藏在传统内容审核系统难以解析的反讽和挖苦层之下。 ...

2024-09 · 8 分钟 · 3570 字
[Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? 🔗](https://arxiv.org/abs/2411.04118)

医疗 AI 的海市蜃楼:为何专用模型可能并不优于通用模型

人工智能与医学的交叉领域是目前技术界最令人兴奋的前沿之一。每隔几个月,我们就会看到新的头条新闻宣布某种“医疗 LLM”——一种专门为医疗保健量身定制的人工智能。故事几乎总是相同的: 拿一个强大的通用模型 (如 Llama 或 Mistral) ,在海量的医学教科书和 PubMed 文章库上对其进行进一步训练,然后瞧: 你就有了一个表现优于其通用前身的数字医生。 ...

2024-11 · 7 分钟 · 3332 字
[Media Attitude Detection via Framing Analysis with Events and their Relations 🔗](https://aclanthology.org/2024.emnlp-main.954.pdf)

超越用词选择——通过事件框架与因果叙事检测媒体偏见

2024 年 3 月,弗拉基米尔·普京赢得了俄罗斯总统大选。如果你阅读的是俄罗斯官方支持的媒体报道,你可能会看到关于“合法性”、“国家团结”和“压倒性胜利”的叙述。而如果你阅读的是西方媒体,故事的框架则可能围绕着“选举舞弊”、“打压反对派”以及正在进行的乌克兰战争。 ...

7 分钟 · 3408 字
[MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations 🔗](https://arxiv.org/abs/2410.14204)

为何医疗 AI 需要更好的数据:MediTOD 与 CMAS 本体论介绍

引言 想象这样一个未来: 医生职业倦怠显著减少,患者能够即时获得高质量的医疗分诊服务。这就是医疗任务型对话 (Medical Task-Oriented Dialogue, TOD) 系统的承诺。这些 AI 智能体旨在协助医生收集患者病史、辅助诊断并指导治疗方案的选择。 ...

2024-10 · 9 分钟 · 4284 字
[MEDREADME: A Systematic Study for Fine-grained Sentence Readability in Medical Domain 🔗](https://arxiv.org/abs/2405.02144)

解读医学术语:我们如何衡量和提高医疗保健领域的可读性

引言 “如果你无法衡量它,就无法改进它。” 彼得·德鲁克 (Peter Drucker) 的这句名言在医学传播领域尤为真切。我们生活在一个可靠的医学知识对公共卫生至关重要的时代。从维基百科文章到默克诊疗手册 (Merck Manuals) ,从前沿研究论文到患者宣传册,健康信息的传播从未停止。 ...

2024-05 · 7 分钟 · 3372 字
[MedCoT: Medical Chain of Thought via Hierarchical Expert 🔗](https://arxiv.org/abs/2412.13736)

为什么两个医生胜过一个:解读用于医疗 AI 的 MedCoT

想象一下,你带着一张复杂的 X 光片去看医生。你问: “有肿瘤吗?”医生只是简单地说“有”,然后就走出了房间。没有解释,没有指出片子上的阴影,也没有讨论他们是如何得出这个结论的。你可能会感到恐惧且充满怀疑。 ...

2024-12 · 7 分钟 · 3112 字
[MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning 🔗](https://arxiv.org/abs/2405.03000)

跨越鸿沟:MedAdapter 如何在经济高效的前提下优化医学大语言模型

大语言模型 (LLM) 在生物医学领域的整合前景广阔,从协助复杂诊断到自动化临床笔记记录,其潜力巨大。然而,广泛采用这些模型面临着一个巨大的障碍: 即“资源-隐私-性能”的三难困境。 ...

2024-05 · 7 分钟 · 3432 字
[Measuring Psychological Depth in Language Models 🔗](https://aclanthology.org/2024.emnlp-main.953.pdf)

AI 能让你流泪吗?衡量 LLM 生成故事的心理深度

引言 我们已经到了人工智能进化的一个阶段,机器生成的文本在语法上完美无缺,风格上高度一致,而且无可否认地连贯。如果你让 GPT-4 写一首关于烤面包机的十四行诗,它会以令人印象深刻的押韵和格律完成任务。但这其中仍然存在一个难以逾越的边界,一种将技术手册与令人心碎的小说区分开来的特质: 心理深度 (Psychological Depth) 。 ...

8 分钟 · 3668 字
[Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding Dimensions 🔗](https://arxiv.org/abs/2407.20243)

缩小巨人:Matryoshka-Adaptor 如何让 LLM 嵌入更小、更快、更便宜

在大型语言模型 (LLM) 和信息检索 (IR) 的世界里,“更大”通常意味着“更好”。高维嵌入——那些代表文本语义的长数字向量——能够捕捉到较小向量所遗漏的细微差别。来自 OpenAI 的 3,072 维向量通常比 256 维向量更能理解你的查询。 ...

2024-07 · 5 分钟 · 2438 字
[Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models 🔗](https://arxiv.org/abs/2406.12572)

你比三年级小学生更聪明吗?为什么大语言模型在 Mathador 挑战中惨败

引言 在人工智能飞速发展的今天,我们已经习惯了这样的头条新闻: 大语言模型 (LLM) 又攻克了一个人类里程碑。我们看到模型通过了律师资格考试,在物理学领域达到研究生水平,甚至能解决复杂的编程挑战。如果你查看流行的排行榜,似乎我们正在接近一个饱和点,即 AI 的能力已经匹配甚至超越了人类专家的表现。 ...

2024-06 · 7 分钟 · 3197 字
[MatchTime: Towards Automatic Soccer Game Commentary Generation 🔗](https://arxiv.org/abs/2406.18530)

为什么 AI 解说员总掉链子(以及 'MatchTime' 如何解决这个问题)

想象一下,当你正在观看一场足球比赛,球已经进网两分钟了,解说员才大喊一声“球进了!”。这不仅让人摸不着头脑,非常恼火,而且基本没什么用处。然而,当我们试图教人工智能理解体育运动时,这正是困扰它的痛点。 ...

2024-06 · 7 分钟 · 3146 字
[Making Large Language Models Better Reasoners with Orchestrated Streaming Experiences 🔗](https://arxiv.org/abs/2504.00473)

RoSE:LLM 如何通过编排流式经验实现自我提升

引言 想象一下一个正在准备高难度数学考试的学生。他们不仅仅是背诵公式,还会做练习题。当他们正确解决一个问题时,他们会记住自己使用的逻辑。随后,当面对一个类似但全新的问题时,他们会回忆起那个成功的逻辑来指导自己。这个过程——积累经验,过滤掉错误,并回忆起最相关和最复杂的解决方案——是人类学习的基础。 ...

2025-04 · 8 分钟 · 3962 字
[Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training 🔗](https://arxiv.org/abs/2406.17404)

免费为 LLM 提速:“Make Some Noise” 训练框架

以 GPT-4 和 LLaMA 为代表的大语言模型 (LLM) 彻底改变了人工智能领域。然而,如果你曾观察过 LLM 生成回复的过程,你可能会注意到一个根本性的瓶颈: 文本是一个词接一个词出现的,就像一个打字很慢的人。 ...

2024-06 · 8 分钟 · 3857 字
[Major Entity Identification: A Generalizable Alternative to Coreference Resolution 🔗](https://aclanthology.org/2024.emnlp-main.652.pdf)

为何我们要停止聚类并开始识别:指代消解的新方法

想象一下你正在分析小说《阿拉丁》。你想追踪文中每一次提到主角的地方,无论是通过他的名字 (“阿拉丁”) ,名词短语 (“那个男孩”) ,还是代词 (“他”) 。 ...

6 分钟 · 2949 字
[MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension 🔗](https://arxiv.org/abs/2409.13609)

MaPPER 如何实现高效视觉定位:深入解析先验引导的微调技术

引言 想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。 ...

2024-09 · 7 分钟 · 3496 字