[Zero-Shot Text-to-Speech for Vietnamese 🔗](https://arxiv.org/abs/2506.01322)

PhoAudiobook:填补越南语零样本语音合成的空白

引言 在生成式人工智能飞速发展的今天,文本转语音 (Text-to-Speech, TTS) 技术早已超越了过去那种生硬的机械音。我们已经进入了 零样本 TTS (Zero-Shot TTS) 的时代。这项技术允许系统仅利用几秒钟的参考音频就能克隆出说话人的声音,而无需针对该特定声音进行任何事先训练。虽然像 VALL-E 和 XTTS 这样的模型已经彻底改变了英语领域的 TTS,但低资源语言往往被甩在后面。 ...

2025-06 · 6 分钟 · 2985 字
[WinSpot: GUI Grounding Benchmark with Multimodal Large Language Models 🔗](https://aclanthology.org/2025.acl-short.85.pdf)

驯服桌面:WinSpot 如何将 AI 智能体带入 Windows

想象一下,一个数字助手不仅能陪你聊天,还能真正使用你的电脑。你告诉它: “打开设置,把我的默认浏览器改成 Edge”,它就能像人类一样浏览菜单、找到正确的按钮并点击它们。 ...

7 分钟 · 3010 字
[WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging 🔗](https://arxiv.org/abs/2502.18316)

为何“以上皆非”是 LLM 的终极考验:WiCkeD 介绍

引言 在大型语言模型 (LLM) 飞速发展的今天,我们撞上了一堵奇怪的墙: 考生比考题更聪明了。曾经被认为很难的基准测试——涵盖从高中化学到专业法律考试的各类内容——现在正逐渐“饱和”。模型的分数越来越高,以至于越来越难以区分优秀的模型和卓越的模型。 ...

2025-02 · 8 分钟 · 3593 字
[Using Subtext to Enhance Generative IDRR 🔗](https://aclanthology.org/2025.acl-short.35.pdf)

读懂言外之意:潜台词如何增强大模型的隐式语篇关系识别

我们在沟通时,很少会把意思完全直白地表达出来。我们依赖听者去填补空白。如果有人说: “新费率将于 2 月 15 日支付,”紧接着说: “登记日期尚未确定,”人类能立刻理解其中的联系。这里存在冲突: 支付日期已定,但必要的登记日期却没定。我们推断出一种 让步 (Concession) 关系 (例如“然而”) 。 ...

7 分钟 · 3254 字
[Unique Hard Attention: A Tale of Two Sides 🔗](https://arxiv.org/abs/2503.14615)

左与右:微不足道的平局决胜选择如何定义 Transformer 的表达能力

如果你一直在关注 Transformer 理论研究的爆发,你会知道,理解这些模型实际上 能 计算什么,与看着它们的损失曲线下降同样重要。我们经常将 Transformer 理想化以便于数学研究。一种常见的简化是 唯一硬注意力 (Unique Hard Attention, UHA) 。 ...

2025-03 · 7 分钟 · 3314 字
[TREECUT: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation 🔗](https://arxiv.org/abs/2502.13442)

当 LLM 无法说“我不知道”时:深入解读 TREECUT 数据集

引言 如果你用过最近的大型语言模型 (LLM) ,比如 GPT-4o 或 o3-mini,你会知道它们在数学方面已经变得非常精通。在 GSM8K (小学数学) 或更高级的 MATH 数据集等标准基准测试中,这些模型通常能达到接近人类甚至超越人类的表现。它们可以解复杂的方程,通过多步骤的应用题进行推理,并写出它们的“思维链”来论证答案。 ...

2025-02 · 7 分钟 · 3021 字
[Transferring Textual Preferences to Vision-Language Understanding through Model Merging 🔗](https://arxiv.org/abs/2502.13487)

科学怪人式的裁判:如何通过模型合并在零训练下构建更好的视觉语言评估器

在人工智能飞速发展的世界里,我们已经习惯了模型能够写诗、写代码,甚至以惊人的准确度描述图像。像 GPT-4V 或 Llama-Vision 这样的大型视觉语言模型 (Large Vision-Language Models, LVLMs) 彻底改变了机器感知世界的方式。然而,在生成内容与评估内容之间存在着明显的差距。 ...

2025-02 · 8 分钟 · 3545 字
[Towards LLM-powered Attentive Listener: A Pragmatic Approach through Quantity Self-Repair 🔗](https://aclanthology.org/2025.acl-short.1.pdf)

修复空洞的机器人:通过自我修复教 LLM 像人类一样倾听

引言 我们都有过这样的经历。你向一个聊天机器人倾诉——也许是为了测试它的能力,或者只是想找个倾诉对象——你说: “我对我的工作量感到非常焦虑。”机器人回答: “听到你对工作量感到焦虑,我很难过。压力确实让人难受。” ...

6 分钟 · 2893 字
[Towards Geo-Culturally Grounded LLM Generations 🔗](https://arxiv.org/abs/2502.13497)

RAG 能教会 LLM 文化吗?知识库与谷歌搜索之战

大语言模型 (LLM) 常被誉为通用工具,能够翻译语言并回答关于世界的各种问题。然而,任何深度使用过这些模型的人都知道,“通用”往往实际上意味着“西方”。 ...

2025-02 · 8 分钟 · 3736 字
[TigerLLM - A Family of Bangla Large Language Models 🔗](https://arxiv.org/abs/2503.10995)

TigerLLM:高质量数据如何让小模型在孟加拉语中发出虎啸

引言: AI 领域的语言鸿沟 当前的人工智能领域正经历着巨大的语言差异。虽然像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 彻底改变了我们与技术互动的方式,但它们的能力严重偏向于高资源语言——主要是英语。 ...

2025-03 · 5 分钟 · 2498 字
[The Role of Abstract Representations and Observed Preferences in the Ordering of Binomials in Large Language Models 🔗](https://aclanthology.org/2025.acl-short.55.pdf)

LLM 是遵循规则还是仅靠统计?探究二项式排序

LLM 是遵循规则还是仅靠统计?探究二项式排序 你有没有停下来想过,为什么你会说 “bread and butter” (黄油面包) 而不是 “butter and bread”?或者为什么 “ladies and gentlemen” (女士们先生们) 听起来很自然,而 “gentlemen and ladies” 感觉有点刺耳? ...

7 分钟 · 3426 字
[That doesn't sound right: Evaluating speech transcription quality in field linguistics corpora 🔗](https://aclanthology.org/2025.acl-short.49.pdf)

消除噪声:如何通过自动质量控制改进濒危语言的语音识别

引言 想象一下,你正试图教会计算机理解一种仅有几百人使用的语言。你没有数百万小时完美转录的 YouTube 视频或有声读物。相反,你只有一个装满了语言学家在过去二十年间收集的田野录音的硬盘: 在多风的村庄里的采访,被公鸡打鸣打断的故事讲述,以及经常不完整或夹杂着研究笔记的转录文本。 ...

7 分钟 · 3285 字
[SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement 🔗](https://arxiv.org/abs/2504.03561)

SynWorld:教 AI 智能体通过“做梦”来精通技能

想象一下你正在学习如何驾驶飞机。你可以阅读飞行手册,背下每一个开关和仪表的功能,然后祈祷进入驾驶舱时一切顺利。或者,你可以在飞行模拟器中花费数小时,在真正离地之前先面对风暴、引擎故障和棘手的着陆挑战。 ...

2025-04 · 7 分钟 · 3293 字
[Subword models struggle with word learning, but surprisal hides it 🔗](https://arxiv.org/abs/2502.12835)

LLM 真的知道什么是“词”吗?子词分词中隐藏的缺陷

当一个孩子学习语言时,他们不会一开始就说出语法复杂的完整句子。他们是从单词开始的。婴儿早在理解像“狗狗在玩球”这样的句子之前,就学会了将“狗狗”或“球”识别为独特且有意义的单位。在发展心理学中,词汇学习先于句法学习。 ...

2025-02 · 7 分钟 · 3384 字
[State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models 🔗](https://arxiv.org/abs/2503.03499)

为什么 Prompt 在 Mamba 上会失效:介绍 State-offset Tuning

如果你一直在关注序列建模的最新进展,你很可能听说过 Mamba 和 状态空间模型 (State Space Models, SSMs) 。 这些架构作为 Transformer 的强力替代者已经崭露头角,承诺解决困扰标准注意力机制 (Attention mechanisms) 的可怕的二次计算成本问题。 ...

2025-03 · 6 分钟 · 2907 字
[Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models 🔗](https://arxiv.org/abs/2506.00134)

当 AI 妄下结论:临床文本分析中的捷径学习与偏见

大型语言模型 (LLM) 正迅速进入医疗保健领域。我们要么用它们来总结就诊记录,要么回答医学问题,或是从杂乱的临床笔记中提取结构化数据。其前景是巨大的: 自动化系统可以阅读成千上万的历史档案,识别出因健康的社会决定因素 (SDOH) 而面临风险的患者。 ...

2025-06 · 7 分钟 · 3160 字
[Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs 🔗](https://arxiv.org/abs/2505.19155)

免费为 Video-LLM 提速:深入理解 Sparse-to-Dense 解码

近年来,大语言模型 (LLM) 的能力大幅扩展,已从单纯的文本处理迈向了多模态理解。在这些进步中,Video-LLM (视频大语言模型) 因其能够观看、分析并回答有关视频内容的问题而脱颖而出。然而,这种能力的代价是巨大的计算成本。 ...

2025-05 · 7 分钟 · 3192 字
[Should I Believe in What Medical AI Says? A Chinese Benchmark for Medication Based on Knowledge and Reasoning 🔗](https://aclanthology.org/2025.acl-short.91.pdf)

AI 能成为你的药剂师吗?解构 ChiDrug 基准测试

想象一下你感觉不舒服。你头痛,有点发烧,而且有哮喘病史。你打开一个功能强大的 AI 助手的聊天窗口,问道: “这种情况我能吃点什么药?”AI 自信地推荐了几种药片的组合。 ...

7 分钟 · 3502 字
[Seeking Rational Demonstrations for Large Language Models: A Domain Generalization Approach to Unsupervised Cross-Domain Keyphrase Generation 🔗](https://aclanthology.org/2025.acl-short.31.pdf)

跨越鸿沟:域泛化如何助力大语言模型掌握新领域的关键短语

跨越鸿沟: 域泛化如何助力大语言模型掌握新领域的关键短语 在浩瀚的数字信息海洋中, 关键短语生成 (Keyphrase Generation, KPG) 就像一座至关重要的灯塔。它将冗长的文档浓缩为几个简短有力、具有代表性的短语,用以总结核心内容。这项技术支撑着搜索引擎、文档聚类和推荐系统的运作。 ...

7 分钟 · 3104 字
[ScanEZ: Integrating Cognitive Models with Self-Supervised Learning for Spatiotemporal Scanpath Prediction 🔗](https://aclanthology.org/2025.acl-short.89.pdf)

AI 如何像人类一样阅读:深入解析 ScanEZ

引言 阅读感觉像是一个连续、流畅的过程。当你的眼睛扫过这句话时,你似乎瞬间吸收了其中的含义——或者说,这是你的感觉。实际上,人类的阅读是一场跳跃且不稳定的“芭蕾”。你的眼睛进行着快速的移动,称为扫视 (saccades) , 并在特定的点短暂亦停留,称为注视 (fixations) 。 你可能会跳过像“the”这样常见的单词,在“spatiotemporal (时空的) ”这样复杂的单词上停留更久,甚至回跳 (回视) 去重读一个令人困惑的短语。 ...

8 分钟 · 3669 字