[MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension 🔗](https://arxiv.org/abs/2409.13609)

MaPPER 如何实现高效视觉定位:深入解析先验引导的微调技术

引言 想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。 ...

2024-09 · 7 分钟 · 3496 字
[MTLS: Making Texts into Linguistic Symbols 🔗](https://aclanthology.org/2024.emnlp-main.206.pdf)

超越词表:教会 AI “看”字如何解锁多语言能力

语言是一件奇妙的事物。如果你说英语,“Love” 是由四个字母组成的熟悉序列。如果你说希腊语,“αγάπη” 承载着同样的情感分量,但看起来却完全不同。如果你说中文,“爱”则是一个独特的表意文字。 ...

8 分钟 · 3553 字
[MTA4DPR: Multi-Teaching-Assistants Based Iterative Knowledge Distillation for Dense Passage Retrieval 🔗](https://aclanthology.org/2024.emnlp-main.336.pdf)

为什么一位老师还不够:利用多助教蒸馏提升密集检索性能

引言 在信息检索 (Information Retrieval, IR) 的世界里,我们一直在权衡一个难题: 准确性与速度。我们希望搜索引擎能像庞大的大型语言模型 (LLM) 一样理解人类语言的细微差别,但同时又希望它能像简单的关键词搜索一样在毫秒级内返回结果。 ...

7 分钟 · 3112 字
[MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models 🔗](https://arxiv.org/abs/2401.16745)

第一句提示词之外:利用 MT-Eval 评估 LLM 如何处理长对话

引言 我们正处于大语言模型 (LLM) 的“黄金时代”。从起草电子邮件到生成代码片段,像 GPT-4 和 Llama-2 这样的模型已经融入了我们的日常工作流程中。然而,当我们对这些模型进行基准测试时,我们通常将它们视为搜索引擎: 提出一个问题,得到一个答案,然后对结果进行评分。 ...

2024-01 · 7 分钟 · 3504 字
[MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making 🔗](https://arxiv.org/abs/2409.16686)

打造更智能的机器人:多尺度洞察如何解决具身智能中的记忆难题

引言 想象一下,你正在教一个机器人在厨房里导航。第一天,你教它如何做沙拉。它学到了宝贵的一课: “用碗来装食材。”第二天,你让机器人给植物浇水。渴望运用过往知识的机器人记起了“碗”的概念和“装水”的动作。然而,由于记忆混乱,它可能会错误地尝试“切”水,或者把植物和调料混合在一起,因为它把碗和烹饪联系在了一起。 ...

2024-09 · 7 分钟 · 3476 字
[MQuinE: a cure for Z-paradox in knowledge graph embedding models 🔗](https://arxiv.org/abs/2402.03583)

Z-悖论:为何你的知识图谱模型会“产生幻觉”(以及 MQuinE 如何修复它)

引言 在人工智能的世界里,知识图谱 (Knowledge Graphs, KGs) 是幕后的无名英雄。它们为你谷歌搜索的侧边栏提供支持,驱动亚马逊的产品推荐,并帮助复杂系统理解“巴黎”是“法国”的首都。为了让机器学习利用这些图谱,我们使用知识图谱嵌入 (Knowledge Graph Embedding, KGE) 模型。这些模型将实体 (如“巴黎”) 和关系 (如“是…的首都”) 转化为数学向量和矩阵。 ...

2024-02 · 8 分钟 · 3936 字
[MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs 🔗](https://arxiv.org/abs/2403.05814)

掌握对话的艺术:MP2D 如何利用知识图谱教 AI 转换话题

你有没有注意到大多数聊天机器人都让人感觉很死板?你问天气,它们就报预报。你问餐馆,它们就给菜单。但是,如果你试图顺势从那家餐馆聊到该菜系的历史,然后再聊到做这道菜的名厨,机器人往往会卡壳。它要么丢失上下文,要么将新话题视为一个完全孤立的查询。 ...

2024-03 · 7 分钟 · 3113 字
[MOSEL: Inference Serving Using Dynamic Modality Selection 🔗](https://arxiv.org/abs/2310.18481)

少即是多:利用动态模态选择加速多模态 AI (MOSEL)

引言 我们正处于大规模人工智能的时代。近年来,深度学习模型——尤其是 Transformers——在计算机视觉和自然语言处理领域打破了无数记录。我们已经从简单的图像分类器迈向了能够同时理解视频、音频和文本的复杂多模态系统。然而,这种能力的代价是高昂的。 ...

2023-10 · 9 分钟 · 4301 字
[MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages 🔗](https://arxiv.org/abs/2410.01036)

跨越鸿沟:MOSEL 如何为语音 AI 带来真正的开源

引言 在人工智能飞速发展的世界里,“开源”已成为一个热门词汇。从大型语言模型 (LLM) 到语音基础模型 (SFM) ,开发者和研究人员被层出不穷的声称是“开放”的新模型所淹没。但如果你透过表面深入观察,就会发现一个复杂的问题: 开源洗白 (Open Washing) 。 ...

2024-10 · 7 分钟 · 3321 字
[MORPHEUS: Modeling Role from Personalized Dialogue History by Exploring and Utilizing Latent Space 🔗](https://arxiv.org/abs/2407.02345)

超越硬编码画像:MORPHEUS 如何利用潜在空间生成个性化对话

想象一下,你正在与一个复杂的人工智能聊天。你问: “你这周末做了什么?”它回答: “我和我的狗去徒步旅行了。”十分钟后,你提到你热爱大自然,它却回答: “我讨厌户外活动,我更喜欢电子游戏。” ...

2024-07 · 9 分钟 · 4106 字
[MMOE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts 🔗](https://arxiv.org/abs/2311.09580)

为什么你的多模态 AI 听不懂笑话:多模态交互专家混合模型(MMOE)介绍

引言 想象一下,你正在浏览社交媒体,看到一张房间乱七八糟、一片狼藉的照片,配文却是: “过着我最好的生活 (Living my best life) ”。作为人类,你立刻就能识别出其中的讽刺意味。图像 (混乱) 和文本 (“最好的生活”) 相互矛盾,而这种矛盾创造了意义。 ...

2023-11 · 7 分钟 · 3096 字
[MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language 🔗](https://arxiv.org/abs/2406.13698)

迷失在翻译中:为何 AI 难以处理隐喻以及我们如何解决它

引言: 房间里的“粉红色大象” 想象一下,你试图告诉朋友你昨晚喝得酩酊大醉。如果你说的是英语,你可能会说自己“seeing pink elephants” (看见粉红色的大象了) 。现在,想象一下把这句话输入翻译引擎去和一位中国朋友交流。如果 AI 按字面意思翻译,你的中国朋友可能会困惑你为什么在动物园。在中国文化中,表达喝得烂醉的一个常见隐喻对应词是“烂醉如泥” (collapsed like quagmire) 。 ...

2024-06 · 7 分钟 · 3275 字
[MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model 🔗](https://arxiv.org/abs/2406.11193)

深入多模态模型的大脑:利用 MMNeuron 追踪领域特定神经元

引言 大型语言模型 (LLM) 是如何“看”到图像的?当我们把一张胸部 X 光片或城市的卫星俯视图输入到像 LLaVA 或 InstructBLIP 这样的多模态大型语言模型 (MLLM) 中时,我们知道其架构原理: 图像编码器将视觉信息分解为特征,投影器将其映射到语言空间,然后 LLM 生成回答。但是,从最初的投影到最终的回答,在隐藏层之间究竟发生了什么? ...

2024-06 · 8 分钟 · 3663 字
[MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance 🔗](https://arxiv.org/abs/2401.02906)

被光蒙蔽双眼:利用 MLLM-Protector 保护多模态 AI 免受视觉越狱攻击

引言: 多模态 AI 的新漏洞 人工智能的快速演进已将我们从基于文本的大型语言模型 (LLMs,如 GPT-3) 带入了多模态大型语言模型 (MLLMs,如 LLaVA 和 GPT-4V) 的时代。这些较新的模型拥有非凡的“视觉”能力——它们可以结合图像和文本来回答复杂的查询。这种飞跃开启了无数的应用场景,从医学影像分析到辅助视障人士。 ...

2024-01 · 7 分钟 · 3145 字
[MIPD: Exploring Manipulation and Intention In a Novel Corpus of Polish Disinformation 🔗](https://aclanthology.org/2024.emnlp-main.1103.pdf)

超越假新闻:解读虚假信息背后的意图与操纵手段

“假新闻”一词已成为现代词汇中的常客,但对于一个需要精准应对的问题来说,它是一个笨拙的工具。虚假信息不仅仅关乎真与假;它关乎造成伤害的意图以及用于欺骗的手段 。 无论是否认气候变化还是在疫情期间破坏公共卫生,虚假信息都是一种旨在改变公众认知的精心计算的行为。 ...

6 分钟 · 2943 字
[MIND: Multimodal Shopping Intention Distillation from Large Vision-Language Models for E-commerce Purchase Understanding 🔗](https://arxiv.org/abs/2406.10701)

你为什么买那个?利用多模态 AI 解读购物意图

简介 想象一下,你走进一家商店买了一个无线鼠标。几分钟后,你又拿了一个太阳能键盘。对于人类观察者来说,这其中的联系显而易见: 你很可能正在搭建一个环保且整洁的家庭办公环境。 ...

2024-06 · 7 分钟 · 3275 字
[MIBench: Evaluating Multimodal Large Language Models over Multiple Images 🔗](https://arxiv.org/abs/2407.15272)

超越单帧:为什么多模态大语言模型在多图场景中举步维艰

引言 多模态大语言模型 (MLLMs) 如 GPT-4V、LLaVA 和 mPLUG-Owl 的兴起彻底改变了人工智能感知世界的方式。这些模型可以描述照片,回答有关图表的问题,甚至根据白板草图编写代码。然而,在这些基准测试成就与现实世界的实用性之间存在着巨大的鸿沟。 ...

2024-07 · 7 分钟 · 3149 字
[MEANT: Multimodal Encoder for Antecedent Information 🔗](https://arxiv.org/abs/2411.06616)

解读市场:MEANT 如何结合图像、推文和时间进行股票预测

股票市场是一个混乱、嘈杂的环境。要理解它,人类交易员不仅仅只看一个数字。他们会查看价格图表 (视觉信息) ,阅读新闻和社交媒体 (文本信息) ,并分析量化指标 (数值信息) 。至关重要的是,他们不仅关注当下,还会观察过去几天或几周的趋势。这种随时间变化的多种数据类型的组合,研究人员称之为时序多模态数据 (temporal multimodal data) 。 ...

2024-11 · 8 分钟 · 3865 字
[MAGIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration 🔗](https://arxiv.org/abs/2311.08562)

AI 懂社交吗?大型语言模型社会智能基准测试

引言: AI 拼图中缺失的“社交”一角 我们都见证了像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 的飞速崛起。我们知道它们能写代码、作诗,甚至通过律师资格考试。它们拥有令人难以置信的推理能力、记忆力和工具使用能力。但在这些数字全才面前,还有一个领域尚未被充分探索,且出人意料地困难: 社会智能 (Social Intelligence) 。 ...

2023-11 · 8 分钟 · 3717 字
[MASIVE: Open-Ended Affective State Identification in English and Spanish 🔗](https://arxiv.org/abs/2407.12196)

超越快乐与悲伤:教 AI 理解复杂的人类情感

如果让你描述一下,在经历了漫长艰难的一周并最终取得小胜后的感受,你大概不会只说“快乐”或“悲伤”。你可能会说你感到如释重负、精疲力竭、成就感满满或者苦乐参半。 ...

2024-07 · 8 分钟 · 3601 字