](https://deep-paper.org/en/paper/2409.13609/images/cover.png)
MaPPER 如何实现高效视觉定位:深入解析先验引导的微调技术
引言 想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。 ...
](https://deep-paper.org/en/paper/2409.13609/images/cover.png)
引言 想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。 ...
](https://deep-paper.org/en/paper/file-3350/images/cover.png)
语言是一件奇妙的事物。如果你说英语,“Love” 是由四个字母组成的熟悉序列。如果你说希腊语,“αγάπη” 承载着同样的情感分量,但看起来却完全不同。如果你说中文,“爱”则是一个独特的表意文字。 ...
](https://deep-paper.org/en/paper/file-3349/images/cover.png)
引言 在信息检索 (Information Retrieval, IR) 的世界里,我们一直在权衡一个难题: 准确性与速度。我们希望搜索引擎能像庞大的大型语言模型 (LLM) 一样理解人类语言的细微差别,但同时又希望它能像简单的关键词搜索一样在毫秒级内返回结果。 ...
](https://deep-paper.org/en/paper/2401.16745/images/cover.png)
引言 我们正处于大语言模型 (LLM) 的“黄金时代”。从起草电子邮件到生成代码片段,像 GPT-4 和 Llama-2 这样的模型已经融入了我们的日常工作流程中。然而,当我们对这些模型进行基准测试时,我们通常将它们视为搜索引擎: 提出一个问题,得到一个答案,然后对结果进行评分。 ...
](https://deep-paper.org/en/paper/2409.16686/images/cover.png)
引言 想象一下,你正在教一个机器人在厨房里导航。第一天,你教它如何做沙拉。它学到了宝贵的一课: “用碗来装食材。”第二天,你让机器人给植物浇水。渴望运用过往知识的机器人记起了“碗”的概念和“装水”的动作。然而,由于记忆混乱,它可能会错误地尝试“切”水,或者把植物和调料混合在一起,因为它把碗和烹饪联系在了一起。 ...
](https://deep-paper.org/en/paper/2402.03583/images/cover.png)
引言 在人工智能的世界里,知识图谱 (Knowledge Graphs, KGs) 是幕后的无名英雄。它们为你谷歌搜索的侧边栏提供支持,驱动亚马逊的产品推荐,并帮助复杂系统理解“巴黎”是“法国”的首都。为了让机器学习利用这些图谱,我们使用知识图谱嵌入 (Knowledge Graph Embedding, KGE) 模型。这些模型将实体 (如“巴黎”) 和关系 (如“是…的首都”) 转化为数学向量和矩阵。 ...
](https://deep-paper.org/en/paper/2403.05814/images/cover.png)
你有没有注意到大多数聊天机器人都让人感觉很死板?你问天气,它们就报预报。你问餐馆,它们就给菜单。但是,如果你试图顺势从那家餐馆聊到该菜系的历史,然后再聊到做这道菜的名厨,机器人往往会卡壳。它要么丢失上下文,要么将新话题视为一个完全孤立的查询。 ...
](https://deep-paper.org/en/paper/2310.18481/images/cover.png)
引言 我们正处于大规模人工智能的时代。近年来,深度学习模型——尤其是 Transformers——在计算机视觉和自然语言处理领域打破了无数记录。我们已经从简单的图像分类器迈向了能够同时理解视频、音频和文本的复杂多模态系统。然而,这种能力的代价是高昂的。 ...
](https://deep-paper.org/en/paper/2410.01036/images/cover.png)
引言 在人工智能飞速发展的世界里,“开源”已成为一个热门词汇。从大型语言模型 (LLM) 到语音基础模型 (SFM) ,开发者和研究人员被层出不穷的声称是“开放”的新模型所淹没。但如果你透过表面深入观察,就会发现一个复杂的问题: 开源洗白 (Open Washing) 。 ...
](https://deep-paper.org/en/paper/2407.02345/images/cover.png)
想象一下,你正在与一个复杂的人工智能聊天。你问: “你这周末做了什么?”它回答: “我和我的狗去徒步旅行了。”十分钟后,你提到你热爱大自然,它却回答: “我讨厌户外活动,我更喜欢电子游戏。” ...
](https://deep-paper.org/en/paper/2311.09580/images/cover.png)
引言 想象一下,你正在浏览社交媒体,看到一张房间乱七八糟、一片狼藉的照片,配文却是: “过着我最好的生活 (Living my best life) ”。作为人类,你立刻就能识别出其中的讽刺意味。图像 (混乱) 和文本 (“最好的生活”) 相互矛盾,而这种矛盾创造了意义。 ...
](https://deep-paper.org/en/paper/2406.13698/images/cover.png)
引言: 房间里的“粉红色大象” 想象一下,你试图告诉朋友你昨晚喝得酩酊大醉。如果你说的是英语,你可能会说自己“seeing pink elephants” (看见粉红色的大象了) 。现在,想象一下把这句话输入翻译引擎去和一位中国朋友交流。如果 AI 按字面意思翻译,你的中国朋友可能会困惑你为什么在动物园。在中国文化中,表达喝得烂醉的一个常见隐喻对应词是“烂醉如泥” (collapsed like quagmire) 。 ...
](https://deep-paper.org/en/paper/2406.11193/images/cover.png)
引言 大型语言模型 (LLM) 是如何“看”到图像的?当我们把一张胸部 X 光片或城市的卫星俯视图输入到像 LLaVA 或 InstructBLIP 这样的多模态大型语言模型 (MLLM) 中时,我们知道其架构原理: 图像编码器将视觉信息分解为特征,投影器将其映射到语言空间,然后 LLM 生成回答。但是,从最初的投影到最终的回答,在隐藏层之间究竟发生了什么? ...
](https://deep-paper.org/en/paper/2401.02906/images/cover.png)
引言: 多模态 AI 的新漏洞 人工智能的快速演进已将我们从基于文本的大型语言模型 (LLMs,如 GPT-3) 带入了多模态大型语言模型 (MLLMs,如 LLaVA 和 GPT-4V) 的时代。这些较新的模型拥有非凡的“视觉”能力——它们可以结合图像和文本来回答复杂的查询。这种飞跃开启了无数的应用场景,从医学影像分析到辅助视障人士。 ...
](https://deep-paper.org/en/paper/file-3337/images/cover.png)
“假新闻”一词已成为现代词汇中的常客,但对于一个需要精准应对的问题来说,它是一个笨拙的工具。虚假信息不仅仅关乎真与假;它关乎造成伤害的意图以及用于欺骗的手段 。 无论是否认气候变化还是在疫情期间破坏公共卫生,虚假信息都是一种旨在改变公众认知的精心计算的行为。 ...
](https://deep-paper.org/en/paper/2406.10701/images/cover.png)
简介 想象一下,你走进一家商店买了一个无线鼠标。几分钟后,你又拿了一个太阳能键盘。对于人类观察者来说,这其中的联系显而易见: 你很可能正在搭建一个环保且整洁的家庭办公环境。 ...
](https://deep-paper.org/en/paper/2407.15272/images/cover.png)
引言 多模态大语言模型 (MLLMs) 如 GPT-4V、LLaVA 和 mPLUG-Owl 的兴起彻底改变了人工智能感知世界的方式。这些模型可以描述照片,回答有关图表的问题,甚至根据白板草图编写代码。然而,在这些基准测试成就与现实世界的实用性之间存在着巨大的鸿沟。 ...
](https://deep-paper.org/en/paper/2411.06616/images/cover.png)
股票市场是一个混乱、嘈杂的环境。要理解它,人类交易员不仅仅只看一个数字。他们会查看价格图表 (视觉信息) ,阅读新闻和社交媒体 (文本信息) ,并分析量化指标 (数值信息) 。至关重要的是,他们不仅关注当下,还会观察过去几天或几周的趋势。这种随时间变化的多种数据类型的组合,研究人员称之为时序多模态数据 (temporal multimodal data) 。 ...
](https://deep-paper.org/en/paper/2311.08562/images/cover.png)
引言: AI 拼图中缺失的“社交”一角 我们都见证了像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 的飞速崛起。我们知道它们能写代码、作诗,甚至通过律师资格考试。它们拥有令人难以置信的推理能力、记忆力和工具使用能力。但在这些数字全才面前,还有一个领域尚未被充分探索,且出人意料地困难: 社会智能 (Social Intelligence) 。 ...
](https://deep-paper.org/en/paper/2407.12196/images/cover.png)
如果让你描述一下,在经历了漫长艰难的一周并最终取得小胜后的感受,你大概不会只说“快乐”或“悲伤”。你可能会说你感到如释重负、精疲力竭、成就感满满或者苦乐参半。 ...