[EMERGENT HIERARCHICAL REASONING IN LLMS THROUGH REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/2509.03646)

大型语言模型如何学会思考——解析人工智能中的层次化推理

强化学习 (RL) 已成为大型语言模型 (LLM) 的颠覆性技术,极大地提升了它们解决复杂推理问题的能力。随着模型的进步,一个根本性问题仍未得到解答: 这种提升究竟是如何发生的? ...

2025-09 · 5 分钟 · 2505 字
[SINO: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights 🔗](https://arxiv.org/abs/2509.22944)

超越单尺度:解析 SINQ,实现更好、更快的大语言模型量化

大语言模型 (LLM) 已经改变了人工智能,在文本生成、推理和理解方面展现出惊人的能力。但这种强大能力的背后是沉重的代价: 巨大的模型规模、高昂的内存需求和可观的计算成本。如何高效部署这些模型——尤其是在受限硬件上——是一个重大的工程挑战。 ...

2025-09 · 5 分钟 · 2488 字
[SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents 🔗](https://arxiv.org/abs/2509.06283)

超越聊天机器人:强化学习如何打造自主 AI 研究员

我们正处在一个大语言模型 (LLM) 日益强大的时代。然而,对许多用户来说,与它们互动依然像简单的问答: 你提问,它回答。 但如果 AI 能走得更远呢?想象一下,你提出一个复杂的问题——比如*“量子计算对金融业的长期经济影响是什么?”*——然后 AI 能够自主地研究这个问题,浏览相关来源,分析数据,并呈现一份全面、有证据支撑的报告。 ...

2025-09 · 6 分钟 · 2686 字
[Aligning Generalisation Between Humans and Machines 🔗](https://arxiv.org/abs/2411.15626)

为什么 AI 不像我们一样“懂”:对齐人类与机器的泛化方式

引言: 一个我们谈论得不够的对齐问题 我们生活在一个 AI 技术令人惊叹的时代。生成式模型可以写诗、创作令人震撼的艺术作品,甚至帮助科学家发现新药。这些强大的工具正日益被定位为人机团队中的合作伙伴,增强我们解决复杂问题的能力。但任何团队要成功合作,成员之间必须达成共识。在 AI 领域,这被称为对齐问题: 确保 AI 系统的行为符合我们的目标和偏好。 ...

2024-11 · 7 分钟 · 3349 字
[A Neural Algorithm of Artistic Style 🔗](https://arxiv.org/abs/1508.06576)

内容与风格:教会计算机像梵高一样绘画的算法

你是否曾凝视过梵高的画作,并好奇是什么让它如此具有他个人的鲜明特色?不仅仅是主题——那些旋转的星夜或充满活力的向日葵——更是笔触、色彩和质感,定义了他的作品。这种独立于题材之外的精髓,我们称之为“风格”。 ...

2015-08 · 6 分钟 · 2697 字
[Neural Style Transfer: A Review 🔗](https://arxiv.org/abs/1705.04058)

从像素到毕加索:深入探索神经风格迁移

如果你能将最喜欢的度假照片用梵高的《星夜》风格重新绘制,会是怎样一番景象?或者将一幅简单的肖像转变成堪比毕加索的立体主义杰作?这并非科幻小说——这正是**神经风格迁移 **(Neural Style Transfer, NST) 的魔力。这是一种革命性的计算机视觉技术,它能将一张图像的内容与另一张图像的艺术风格融为一体。 ...

2017-05 · 5 分钟 · 2331 字
[How transferable are features in deep neural networks? 🔗](https://arxiv.org/abs/1411.1792)

通用 vs. 专用:深入探究神经网络特征的可迁移性

如果你曾经花时间为图像任务训练过卷积神经网络 (CNN) ,或许会注意到一个有趣的现象: 无论是在对猫进行分类、检测汽车,还是分割医学影像,第一层学到的滤波器通常都极为相似——一组边缘检测器、颜色斑块以及类似 Gabor 的纹理模式。 ...

2014-11 · 6 分钟 · 2781 字
[A Comprehensive Survey on Transfer Learning 🔗](https://arxiv.org/abs/1911.02685)

能教会老模型新把戏吗?深入探究迁移学习

能教会老模型新把戏吗?深入探究迁移学习 引言 —— 数据困境 在现代机器学习中,更多的标注数据通常意味着更好的模型。然而,收集和标注海量数据集不仅成本高昂、耗时漫长,有时甚至根本无法实现。这让从业者陷入困境: 当目标任务只有少量标注样本时,该如何构建高精度的模型? ...

2019-11 · 9 分钟 · 4269 字

告别从零开始:迁移学习如何革新机器学习

想象一下,你花了几个月的时间训练了一个复杂的机器学习模型,用来识别图像中不同类型的汽车。它在区分轿车和 SUV 方面表现出色。现在,你接到了一个新项目: 识别卡车。 ...

7 分钟 · 3035 字
[Attention Is All You Need 🔗](https://arxiv.org/abs/1706.03762)

剖析 Transformer:这篇论文彻底改变了 NLP

在自然语言处理 (NLP) 的世界里,有些研究成果的诞生如同地震。它们不仅动摇了基础,更是重塑了整个格局。2017 年的论文 《Attention Is All You Need》 就是这样一个震撼时刻。它引入了一种架构,此后几乎成为了所有最先进 NLP 模型 (从 GPT-3 到 BERT) 的基石。这个架构就是 Transformer。 ...

2017-06 · 6 分钟 · 3004 字
[Mask R-CNN 🔗](https://arxiv.org/abs/1703.06870)

超越边界框:深入解析 Mask R-CNN

计算机视觉在教机器“看”这个领域取得了惊人的进步。我们已经从简单地对整张图片进行分类 (“这是一只猫”) 发展到检测其中的单个物体 (“这里有一只猫,那里有一只狗”) 。但如果我们需要更多细节呢?如果我们不只是想在猫周围画一个框,而是想知道哪些像素精确地属于这只猫呢? ...

2017-03 · 7 分钟 · 3057 字
[V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation 🔗](https://arxiv.org/abs/1606.04797)

超越切片:V-Net 如何彻底改变 3D 医学图像分割

想象一下,一位放射科医生正在一丝不苟地翻阅数百张 MRI 切片,试图描绘出肿瘤或器官的精确边界。这个过程被称为“分割” (segmentation) ,是医学诊断、治疗计划和科研的基础。同时,这项工作也极其耗时、枯燥,并且容易出现人为错误。多年来,计算机科学家们一直在寻求将这项任务自动化,但 3D 医学数据 (如 MRI 和 CT 扫描) 的复杂性始终是一个重大挑战。 ...

2016-06 · 5 分钟 · 2447 字
[U-Net: Convolutional Networks for Biomedical Image Segmentation 🔗](https://arxiv.org/abs/1505.04597)

U-Net: 用小数据实现精准分割的深度学习架构

我们如何能教会计算机像生物学家一样观察——不仅仅是识别出图像中含有细胞,而是要精确地勾勒出每一个细胞的边界? 这项任务被称为图像分割 (image segmentation),是生物医学研究和诊断的基石。它能自动化分析成千上万张显微镜图像,帮助追踪癌症进展,并绘制整个神经回路图。 ...

2015-05 · 5 分钟 · 2452 字
[Fully Convolutional Networks for Semantic Segmentation 🔗](https://arxiv.org/abs/1411.4038)

FCN: 让 CNN 实现像素级语义分割的开创性工作

多年来,卷积神经网络 (CNN) 一直是图像分类领域无可争议的王者。给 CNN 一张图片,它就能以惊人的准确度告诉你,这是一只猫、一只狗,还是一辆汽车。 但如果你想知道猫在图片中的具体位置——不仅仅是一个边界框,而是它逐像素的精确轮廓呢?这就是**语义分割 **(semantic segmentation) 的任务,它使问题从分类的“是什么”,跃升到了更深层次的“是什么 以及 在哪里”。 ...

2014-11 · 5 分钟 · 2439 字
[Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 🔗](https://arxiv.org/abs/1506.01497)

Faster R-CNN: 让实时目标检测成为可能的突破性技术

目标检测是计算机视觉中的基础任务之一。它赋予了计算机一种能力,不仅能看到图像,更能理解图像中有什么——定位并识别场景中的每一辆车、每一个人、每一只鸟和每一个咖啡杯。多年来,R-CNN 系列模型一直处于该领域的前沿。从 R-CNN 起步,到速度更快的 Fast R-CNN,这些模型不断推动着准确率的极限。 ...

2015-06 · 5 分钟 · 2182 字

Fast R-CNN: 让目标检测又快又准的突破性进展

在计算机视觉领域,**目标检测 **(即在图像中识别并定位物体的任务) 是需要解读视觉数据的系统所面临的一项核心挑战。 在 2015 年之前,主流的深度学习目标检测方法虽然准确,但出了名地缓慢和笨重。它们涉及复杂的多阶段训练流程,难以优化且运行速度极慢。这一切都随着 Ross Girshick 发表的 Fast R-CNN 论文而改变。 ...

5 分钟 · 2129 字
[Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 🔗](https://arxiv.org/abs/1406.4729)

打破固定尺寸限制:SPP-net 如何让 CNN 快 100 倍

在 21 世纪 10 年代初,像 AlexNet 这样的深度卷积神经网络 (CNN) 在计算机视觉领域掀起了一场革命,打破了图像分类的各项纪录。然而,在这一突破背后,有一个出人意料且严格的限制束缚了这些强大的模型: 它们要求每一张输入图像都必须是完全相同的尺寸——通常是 224×224 像素。 ...

2014-06 · 5 分钟 · 2500 字
[Rich feature hierarchies for accurate object detection and semantic segmentation 🔗](https://arxiv.org/abs/1311.2524)

R-CNN: 深度学习如何彻底革新目标检测

多年来,计算机视觉领域一直由精心设计的手工特征主导。像 SIFT 和 HOG 这样的算法是无可争议的霸主,构成了几乎所有顶尖目标检测系统的支柱。但到了 2012 年,进展开始放缓。在基准测试 PASCAL VOC 挑战赛上的性能已经达到瓶颈,研究社区似乎在从现有方法中挤出最后一点性能。人们亟需一次真正的突破。 ...

2013-11 · 6 分钟 · 2691 字
[You Only Look Once: Unified, Real-Time Object Detection 🔗](https://arxiv.org/abs/1506.02640)

YOLO:让计算机视觉实现实时检测的革命性突破

当你瞥一眼照片时,大脑会在毫秒之间完成一项非凡的壮举。你看到的不仅仅是像素的集合——你会瞬间识别出物体、它们的位置以及它们之间的关系。你可能注意到一个人在遛狗、一辆车停在消防栓旁边,或者一只猫正躺在沙发上睡觉。几十年来,让计算机能够以同样的速度和准确度完成这项任务,一直是计算机视觉领域的巨大挑战。 ...

2015-06 · 6 分钟 · 2549 字
[YOLOv12: Attention-Centric Real-Time Object Detectors 🔗](https://arxiv.org/abs/2502.12524)

YOLOv12: 打破CNN垄断的注意力机制实时检测器

十多年来,实时目标检测领域一直由一个模型家族所主导:** YOLO** (You Only Look Once)。从自动驾驶汽车到零售数据分析,YOLO在速度与准确率之间实现了卓越平衡,使其成为高速、实际应用中检测物体的首选方案。YOLO生态系统的进步得益于不断的创新——但几乎所有的架构改进都集中在卷积神经网络 (CNN) 之上。 ...

2025-02 · 6 分钟 · 2699 字