EMNLP 2024

[MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension 🔗](https://arxiv.org/abs/2409.13609)

MaPPER 如何实现高效视觉定位：深入解析先验引导的微调技术

引言想象一下，你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间，你的大脑处理了语言，扫描了图像，过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”，并锁定了特定的目标。 ...

[MTLS: Making Texts into Linguistic Symbols 🔗](https://aclanthology.org/2024.emnlp-main.206.pdf)

超越词表：教会 AI “看”字如何解锁多语言能力

语言是一件奇妙的事物。如果你说英语，“Love” 是由四个字母组成的熟悉序列。如果你说希腊语，“αγάπη” 承载着同样的情感分量，但看起来却完全不同。如果你说中文，“爱”则是一个独特的表意文字。 ...

[MTA4DPR: Multi-Teaching-Assistants Based Iterative Knowledge Distillation for Dense Passage Retrieval 🔗](https://aclanthology.org/2024.emnlp-main.336.pdf)

为什么一位老师还不够：利用多助教蒸馏提升密集检索性能

引言在信息检索 (Information Retrieval, IR) 的世界里，我们一直在权衡一个难题: 准确性与速度。我们希望搜索引擎能像庞大的大型语言模型 (LLM) 一样理解人类语言的细微差别，但同时又希望它能像简单的关键词搜索一样在毫秒级内返回结果。 ...

[MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models 🔗](https://arxiv.org/abs/2401.16745)

第一句提示词之外：利用 MT-Eval 评估 LLM 如何处理长对话

引言我们正处于大语言模型 (LLM) 的“黄金时代”。从起草电子邮件到生成代码片段，像 GPT-4 和 Llama-2 这样的模型已经融入了我们的日常工作流程中。然而，当我们对这些模型进行基准测试时，我们通常将它们视为搜索引擎: 提出一个问题，得到一个答案，然后对结果进行评分。 ...

[MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making 🔗](https://arxiv.org/abs/2409.16686)

打造更智能的机器人：多尺度洞察如何解决具身智能中的记忆难题

引言想象一下，你正在教一个机器人在厨房里导航。第一天，你教它如何做沙拉。它学到了宝贵的一课: “用碗来装食材。”第二天，你让机器人给植物浇水。渴望运用过往知识的机器人记起了“碗”的概念和“装水”的动作。然而，由于记忆混乱，它可能会错误地尝试“切”水，或者把植物和调料混合在一起，因为它把碗和烹饪联系在了一起。 ...

[MQuinE: a cure for Z-paradox in knowledge graph embedding models 🔗](https://arxiv.org/abs/2402.03583)

Z-悖论：为何你的知识图谱模型会“产生幻觉”（以及 MQuinE 如何修复它）

引言在人工智能的世界里，知识图谱 (Knowledge Graphs, KGs) 是幕后的无名英雄。它们为你谷歌搜索的侧边栏提供支持，驱动亚马逊的产品推荐，并帮助复杂系统理解“巴黎”是“法国”的首都。为了让机器学习利用这些图谱，我们使用知识图谱嵌入 (Knowledge Graph Embedding, KGE) 模型。这些模型将实体 (如“巴黎”) 和关系 (如“是…的首都”) 转化为数学向量和矩阵。 ...

[MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs 🔗](https://arxiv.org/abs/2403.05814)

掌握对话的艺术：MP2D 如何利用知识图谱教 AI 转换话题

你有没有注意到大多数聊天机器人都让人感觉很死板？你问天气，它们就报预报。你问餐馆，它们就给菜单。但是，如果你试图顺势从那家餐馆聊到该菜系的历史，然后再聊到做这道菜的名厨，机器人往往会卡壳。它要么丢失上下文，要么将新话题视为一个完全孤立的查询。 ...

[MOSEL: Inference Serving Using Dynamic Modality Selection 🔗](https://arxiv.org/abs/2310.18481)

少即是多：利用动态模态选择加速多模态 AI (MOSEL)

引言我们正处于大规模人工智能的时代。近年来，深度学习模型——尤其是 Transformers——在计算机视觉和自然语言处理领域打破了无数记录。我们已经从简单的图像分类器迈向了能够同时理解视频、音频和文本的复杂多模态系统。然而，这种能力的代价是高昂的。 ...

[MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages 🔗](https://arxiv.org/abs/2410.01036)

跨越鸿沟：MOSEL 如何为语音 AI 带来真正的开源

引言在人工智能飞速发展的世界里，“开源”已成为一个热门词汇。从大型语言模型 (LLM) 到语音基础模型 (SFM) ，开发者和研究人员被层出不穷的声称是“开放”的新模型所淹没。但如果你透过表面深入观察，就会发现一个复杂的问题: 开源洗白 (Open Washing) 。 ...

[MORPHEUS: Modeling Role from Personalized Dialogue History by Exploring and Utilizing Latent Space 🔗](https://arxiv.org/abs/2407.02345)

超越硬编码画像：MORPHEUS 如何利用潜在空间生成个性化对话

想象一下，你正在与一个复杂的人工智能聊天。你问: “你这周末做了什么？”它回答: “我和我的狗去徒步旅行了。”十分钟后，你提到你热爱大自然，它却回答: “我讨厌户外活动，我更喜欢电子游戏。” ...

[MMOE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts 🔗](https://arxiv.org/abs/2311.09580)

为什么你的多模态 AI 听不懂笑话：多模态交互专家混合模型（MMOE）介绍

引言想象一下，你正在浏览社交媒体，看到一张房间乱七八糟、一片狼藉的照片，配文却是: “过着我最好的生活 (Living my best life) ”。作为人类，你立刻就能识别出其中的讽刺意味。图像 (混乱) 和文本 (“最好的生活”) 相互矛盾，而这种矛盾创造了意义。 ...

[MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language 🔗](https://arxiv.org/abs/2406.13698)

迷失在翻译中：为何 AI 难以处理隐喻以及我们如何解决它

引言: 房间里的“粉红色大象” 想象一下，你试图告诉朋友你昨晚喝得酩酊大醉。如果你说的是英语，你可能会说自己“seeing pink elephants” (看见粉红色的大象了) 。现在，想象一下把这句话输入翻译引擎去和一位中国朋友交流。如果 AI 按字面意思翻译，你的中国朋友可能会困惑你为什么在动物园。在中国文化中，表达喝得烂醉的一个常见隐喻对应词是“烂醉如泥” (collapsed like quagmire) 。 ...

[MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model 🔗](https://arxiv.org/abs/2406.11193)

深入多模态模型的大脑：利用 MMNeuron 追踪领域特定神经元

引言大型语言模型 (LLM) 是如何“看”到图像的？当我们把一张胸部 X 光片或城市的卫星俯视图输入到像 LLaVA 或 InstructBLIP 这样的多模态大型语言模型 (MLLM) 中时，我们知道其架构原理: 图像编码器将视觉信息分解为特征，投影器将其映射到语言空间，然后 LLM 生成回答。但是，从最初的投影到最终的回答，在隐藏层之间究竟发生了什么？ ...

[MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance 🔗](https://arxiv.org/abs/2401.02906)

被光蒙蔽双眼：利用 MLLM-Protector 保护多模态 AI 免受视觉越狱攻击

引言: 多模态 AI 的新漏洞人工智能的快速演进已将我们从基于文本的大型语言模型 (LLMs，如 GPT-3) 带入了多模态大型语言模型 (MLLMs，如 LLaVA 和 GPT-4V) 的时代。这些较新的模型拥有非凡的“视觉”能力——它们可以结合图像和文本来回答复杂的查询。这种飞跃开启了无数的应用场景，从医学影像分析到辅助视障人士。 ...

[MIPD: Exploring Manipulation and Intention In a Novel Corpus of Polish Disinformation 🔗](https://aclanthology.org/2024.emnlp-main.1103.pdf)

超越假新闻：解读虚假信息背后的意图与操纵手段

“假新闻”一词已成为现代词汇中的常客，但对于一个需要精准应对的问题来说，它是一个笨拙的工具。虚假信息不仅仅关乎真与假；它关乎造成伤害的意图以及用于欺骗的手段。无论是否认气候变化还是在疫情期间破坏公共卫生，虚假信息都是一种旨在改变公众认知的精心计算的行为。 ...

[MIND: Multimodal Shopping Intention Distillation from Large Vision-Language Models for E-commerce Purchase Understanding 🔗](https://arxiv.org/abs/2406.10701)

你为什么买那个？利用多模态 AI 解读购物意图

简介想象一下，你走进一家商店买了一个无线鼠标。几分钟后，你又拿了一个太阳能键盘。对于人类观察者来说，这其中的联系显而易见: 你很可能正在搭建一个环保且整洁的家庭办公环境。 ...

[MIBench: Evaluating Multimodal Large Language Models over Multiple Images 🔗](https://arxiv.org/abs/2407.15272)

超越单帧：为什么多模态大语言模型在多图场景中举步维艰

引言多模态大语言模型 (MLLMs) 如 GPT-4V、LLaVA 和 mPLUG-Owl 的兴起彻底改变了人工智能感知世界的方式。这些模型可以描述照片，回答有关图表的问题，甚至根据白板草图编写代码。然而，在这些基准测试成就与现实世界的实用性之间存在着巨大的鸿沟。 ...

[MEANT: Multimodal Encoder for Antecedent Information 🔗](https://arxiv.org/abs/2411.06616)

解读市场：MEANT 如何结合图像、推文和时间进行股票预测

股票市场是一个混乱、嘈杂的环境。要理解它，人类交易员不仅仅只看一个数字。他们会查看价格图表 (视觉信息) ，阅读新闻和社交媒体 (文本信息) ，并分析量化指标 (数值信息) 。至关重要的是，他们不仅关注当下，还会观察过去几天或几周的趋势。这种随时间变化的多种数据类型的组合，研究人员称之为时序多模态数据 (temporal multimodal data) 。 ...

[MAGIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration 🔗](https://arxiv.org/abs/2311.08562)

AI 懂社交吗？大型语言模型社会智能基准测试

引言: AI 拼图中缺失的“社交”一角我们都见证了像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 的飞速崛起。我们知道它们能写代码、作诗，甚至通过律师资格考试。它们拥有令人难以置信的推理能力、记忆力和工具使用能力。但在这些数字全才面前，还有一个领域尚未被充分探索，且出人意料地困难: 社会智能 (Social Intelligence) 。 ...

[MASIVE: Open-Ended Affective State Identification in English and Spanish 🔗](https://arxiv.org/abs/2407.12196)

超越快乐与悲伤：教 AI 理解复杂的人类情感

如果让你描述一下，在经历了漫长艰难的一周并最终取得小胜后的感受，你大概不会只说“快乐”或“悲伤”。你可能会说你感到如释重负、精疲力竭、成就感满满或者苦乐参半。 ...