ACL 2025

[Can Community Notes Replace Professional Fact-Checkers? 🔗](https://arxiv.org/abs/2502.14132)

隐形的脊梁——为什么“社区笔记”需要专业事实核查员

隐形的脊梁: 为什么“社区笔记”需要专业事实核查员在不断演变的社交媒体格局中，反虚假信息的斗争出现了一个有趣的转折。多年来，像 Facebook 和 Twitter (现在的 X) 这样的平台依靠与专业事实核查机构 (如 Snopes、PolitiFact 和路透社) 的付费合作来标记虚假主张。然而，最近这种趋势已转向“社区治理”。 ...

[Call for Rigor in Reporting Quality of Instruction Tuning Data 🔗](https://arxiv.org/abs/2503.04807)

超参数彩票：为什么我们可能误判了 LLM 数据质量

引言在当前的大语言模型 (LLM) 发展格局中，数据就是新的黄金。但我们并非痴迷于任何数据，而是特别专注于指令微调 (Instruction Tuning, IT) 数据。正是这种数据集，将原本只能进行原始文本预测的基础模型，转变为能够回答问题、总结邮件和编写代码的有用聊天机器人。 ...

[CHEER-Ekman: Fine-grained Embodied Emotion Classification 🔗](https://arxiv.org/abs/2506.01047)

解读文本中的肢体语言：大语言模型如何学会“感知”

引言当你读到“她的心跳加速”这句话时，你理解到了什么？根据上下文的不同，她可能是在害怕一只蜘蛛，也可能是看到了她的一生挚爱。这就是具身情绪 (Embodied Emotion) 的挑战。情绪不仅仅是我们大脑中的抽象概念；它们是物理体验。我们在愤怒时握紧拳头，在厌恶时胃里翻江倒海，在惊讶时睁大双眼。在自然语言处理 (NLP) 中，检测显性情绪 (例如，“我很开心”) 已经是一个被解决的问题。然而，检测情绪的微妙生理表现——并正确地将其分类——仍然是一个巨大的障碍。 ...

[BQA: Body Language Question Answering Dataset for Video Large Language Models 🔗](https://arxiv.org/abs/2410.13206)

AI 能否察言观色？通过全新的 BQA 数据集解码肢体语言

引言我们都有过这样的经历: 朋友嘴上说着“我没事”，但他们交叉的双臂、回避的眼神和僵硬的姿态却在呐喊着截然相反的信息。作为人类，我们沟通的很大一部分依赖于这些非语言线索。我们不仅仅通过倾听话语，还通过“察言观色”来解读意图、情感和社交动态。 ...

[Automatic detection of dyslexia based on eye movements during reading in Russian 🔗](https://aclanthology.org/2025.acl-short.5.pdf)

跃然纸上的目光——利用 LSTM 通过注视模式检测阅读障碍

阅读障碍 (Dyslexia) 是最常见的学习障碍之一，估计影响着 9% 到 12% 的人口。它不是视力问题，也与智力无关；确切地说，它是语音解码 (将声音映射到字母) 方面的困难。虽然这种情况是终身的，但早期诊断是确保孩子在教育系统中不掉队的单一最关键因素。 ...

[Are Optimal Algorithms Still Optimal? Rethinking Sorting in LLM-Based Pairwise Ranking with Batching and Caching 🔗](https://arxiv.org/abs/2505.24643)

为什么大 O 符号欺骗了你：重新思考 LLM 重排序中的排序算法

引言如果你上过计算机科学算法课程，你就知道那个套路。当被问到“什么是高效的排序算法？”时，答案几乎是条件反射式的“归并排序”、“堆排序”或“快速排序”。为什么？因为大 O 符号 (Big O notation) 。我们被教导说，$O(n \log n)$ 是基于比较的排序的金标准，而像冒泡排序 ($O(n^2)$) 这样的算法则被扔进了“永远不要在生产环境中使用”的垃圾桶。 ...

[An Effective Curriculum Learning for Sequence Labeling Incorporating Heterogeneous Knowledge 🔗](https://arxiv.org/abs/2402.13534)

像人类一样学习：利用双阶段课程学习加速序列标注

引言试想一下教孩子读书的过程。你不会一开始就扔给他们一份复杂的法律合同或莎士比亚的一页著作。相反，你会从简单的句子开始: “猫坐在垫子上 (The cat sat on the mat) 。”一旦他们掌握了基础知识，你才会逐渐引入更复杂的语法、词汇和句式结构。这种直观的循序渐进——先学简单的，再学难的——正是人工智能中课程学习 (Curriculum Learning, CL) 的基础。 ...

[Acoustic Individual Identification of White-Faced Capuchin Monkeys Using Joint Multi-Species Embeddings 🔗](https://aclanthology.org/2025.acl-short.51.pdf)

解码丛林：鸟类与人类 AI 模型如何联手识别猴子

想象一下，站在哥斯达黎加茂密的热带森林中。空气中弥漫着潮湿的气息，周围的声景是由昆虫的嗡嗡声、鸟叫声、风吹过树叶的沙沙声以及远处的隆隆声交织而成的混沌交响乐。在这场声学风暴 (即“鸡尾酒会效应”) 中，一只白脸卷尾猴发出了一声呼唤。 ...

[Accelerating Dense LLMs via L0-regularized Mixture-of-Experts 🔗](https://aclanthology.org/2025.acl-short.39.pdf)

如何将笨重的稠密 LLM 转化为快速的稀疏专家模型 —— L0-MoE 深度解析

引言: 效率瓶颈我们正处于“缩放定律 (Scaling Law) ”的时代。过去几年推动 AI 发展的逻辑很简单: 模型越大，性能越好。无论是 Llama-3、Qwen2 还是 Mistral，增加参数数量始终能解锁推理、编码和通用知识方面的新能力。 ...

[A Variational Approach for Mitigating Entity Bias in Relation Extraction 🔗](https://arxiv.org/abs/2506.11381)

打破惯性：变分信息瓶颈如何减少关系抽取中的实体偏差

引言想象一下，你正在阅读一条财经新闻标题: “Microsoft invests $10 billion in…” (微软向…投资了 100 亿美元) 甚至在你读完这句话之前，你的大脑可能就已经用“OpenAI”填补了空白。你不需要阅读剩下的文本，因为你依赖于对相关实体的先验知识。虽然这种启发式思维对人类很有用，但对于人工智能来说，这是一个重大问题。 ...

[A Measure of the System Dependence of Automated Metrics 🔗](https://arxiv.org/abs/2412.03152)

你的 AI 指标公平吗？为什么我们需要衡量机器翻译中的系统依赖性

想象一下，如果你是一个制作桌子的木匠。你有一把尺子用来测量你的作品长度。但这把尺子有个奇怪的特性: 当你测量橡木做的桌子时，一英寸正好是 2.54 厘米。但当你测量松木做的桌子时，这把尺子会神奇地“缩短”，这时的一“英寸”只有 2 厘米。结果就是，你的松木桌子得到了虚高的测量数据，而橡木桌子却受到了惩罚。 ...

[A Little Human Data Goes A Long Way 🔗](https://arxiv.org/abs/2410.13098)

2.5% 法则：为何合成数据仍需人工干预

引言在当前的人工智能领域，数据就是新时代的石油，但油井正趋于干涸。从 BERT 的早期时代到 GPT-4 的大规模应用，语言模型 (LM) 的增长一直依赖于训练数据的指数级增加。然而，我们正逼近一个关键的瓶颈: 高质量的人工标注数据昂贵、生产缓慢，且难以针对专业任务进行规模化扩展。 ...