[Enhancing Retrieval Systems with Inference-Time Logical Reasoning 🔗](https://arxiv.org/abs/2503.17860)

当向量搜索失效时:教检索系统进行逻辑思考

当向量搜索失效时: 教检索系统进行逻辑思考 如果你构建过搜索引擎或 RAG (检索增强生成) 管道,那你一定熟悉向量嵌入 (vector embeddings) 的魔力。你将用户的查询压缩成一个稠密向量,然后在高维空间中搜索与该向量“接近”的文档。这很高效,可扩展,而且通常在语义相似性方面表现良好。 ...

2025-03 · 7 分钟 · 3479 字
[Enhancing NER by Harnessing Multiple Datasets with Conditional Variational Autoencoders 🔗](https://aclanthology.org/2025.acl-short.87.pdf)

跨越鸿沟——CVAE 如何助力跨冲突数据集的 NER 模型训练

简介 在自然语言处理 (NLP) 的世界里,数据就是燃料。对于像命名实体识别 (NER) 这样的任务——即识别并分类化学品、疾病或基因等术语——其性能严格取决于高质量标注训练数据的数量。虽然大型语言模型 (LLMs) 已经展示了令人印象深刻的零样本能力,但在生物医学等专业领域,全量微调 (full fine-tuning) 或监督学习仍然是实现顶尖准确率的黄金标准。 ...

7 分钟 · 3226 字
[Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding 🔗](https://arxiv.org/abs/2502.13738)

别再无视提示词:利用对比解码提升上下文学习效果

别再无视提示词: 利用对比解码提升上下文学习效果 像 GPT-4 和 Llama-3 这样的大语言模型 (LLMs) 彻底改变了我们处理自然语言处理 (NLP) 的方式。它们最强大的功能之一就是 上下文学习 (In-Context Learning, ICL) 。 你无需为了某个特定数据集花费数小时微调模型,只需在提示词中提供几个例子 (演示) ,模型就能找出规律。 ...

2025-02 · 8 分钟 · 3515 字
[Efficient Knowledge Editing via Minimal Precomputation 🔗](https://arxiv.org/abs/2506.04226)

FastMEMIT:如何在几分钟内编辑大模型,而不是几小时

想象一下,你刚刚部署了一个庞大的大语言模型 (LLM) 。它运行得很完美,直到有用户问: “英国首相是谁?”模型自信地回答了一位三年前就已经离任的政治家的名字。 ...

2025-06 · 7 分钟 · 3279 字
[Dynamical Order Template Prediction for Generative Aspect-Based Sentiment Analysis 🔗](https://arxiv.org/abs/2406.11130)

超越静态提示——利用动态顺序模板实现高效情感分析

引言 想象一下,你正在构建一个 AI 来分析一家餐厅的顾客评论。你收到了这样的反馈: “牛排棒极了,但服务慢得让人痛苦。” 如果你使用的是标准的情感分析,模型可能只会输出“混合”或“中性”。但这并没有太大帮助。你需要具体知道食物是正面的,而服务是负面的。这就是基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 的领域。 ...

2024-06 · 8 分钟 · 3780 字
[Doc-React: Multi-page Heterogeneous Document Question-answering 🔗](https://aclanthology.org/2025.acl-short.6.pdf)

超越简单的 RAG:Doc-React 如何解决复杂的多模态问答

引言 想象一下,你是一名金融分析师,任务是根据一份长达 100 页的年度报告回答一个具体问题。这份报告不仅仅是文字;它是散落在不同页面上的段落、柱状图、散点图和信息图表的混乱混合体。要回答这个问题,你不能仅仅依靠找到某一个句子。你可能需要查看第 5 页的图表来确定某个特定区域,然后利用该区域的信息在第 12 页的表格中找到相应的收入数据。 ...

6 分钟 · 2737 字
[Do Multimodal Large Language Models Truly See What We Point At? Investigating Indexical, Iconic, and Symbolic Gesture Comprehension 🔗](https://aclanthology.org/2025.acl-short.40.pdf)

指向难题:为什么 AI 难以理解你的手指指向

引言 想象你正站在一个拥挤的博物馆里。你指着远处的一件展品对朋友说: “看那个!”你的朋友会立刻转头,顺着你手指的方向,在众多物体中识别出那个特定的目标,并完全理解你的意思。这种对人类来说瞬间完成且毫不费力的互动,实际上是多模态处理的杰作。它涉及将视觉数据、空间推理和语言整合为对世界的连贯理解。 ...

7 分钟 · 3033 字
[Diffusion Directed Acyclic Transformer for Non-Autoregressive Machine Translation 🔗](https://aclanthology.org/2025.acl-short.64.pdf)

速度与质量的桥梁:Diff-DAT 如何将扩散模型引入非自回归翻译

引言: 速度与质量的博弈 在自然语言处理 (NLP) 的世界里,Transformer 架构占据着统治地位。特别是对于机器翻译等任务,自回归 (Autoregressive, AR) Transformer 树立了质量的黄金标准。它们逐个生成单词,利用先前生成的单词作为上下文来生成下一个。这种顺序特性确保了高度的连贯性,但也制造了一个巨大的瓶颈: 延迟 (latency) 。 生成一个长句子需要很长时间,因为在计算出第 9 个单词之前,你无法计算第 10 个单词。 ...

7 分钟 · 3418 字
[Different Speech Translation Models Encode and Translate Speaker Gender Differently 🔗](https://arxiv.org/abs/2506.02172)

默认男性化:为何现代语音翻译模型在性别处理上陷入挣扎

想象一下,你正在使用一款实时翻译应用。你对着麦克风说: “I was born in London.” (我出生在伦敦。) 假设你是一位女性。该应用将你的句子翻译成法语。 ...

2025-06 · 7 分钟 · 3428 字
[Decoder-Only LLMs can be Masked Auto-Encoders 🔗](https://aclanthology.org/2025.acl-short.57.pdf)

统一生成与嵌入:UniMAE 如何变革仅解码器 LLM

在自然语言处理 (NLP) 快速发展的当下,我们正面临一个“双模型问题”。如果你正在构建一个检索增强生成 (RAG) 系统,通常需要两种截然不同的架构: 一个检索器 (通常是像 BERT 这样的双向编码器) 来处理嵌入和搜索,以及一个生成器 (像 GPT 或 Llama 这样的仅解码器 LLM) 来合成答案。 ...

3 分钟 · 1003 字
[Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 🔗](https://arxiv.org/abs/2506.01675)

单行道:为何文化知识在 LLM 中并不总是自由流动

引言 大型语言模型 (LLM) 在语言翻译方面已经取得了显著的熟练度。你可以要求模型将一句话从英语翻译成藏语,它通常能做得还算过得去。但语言不仅仅是语法和词汇;它是文化的载体。 ...

2025-06 · 7 分钟 · 3168 字
[Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning 🔗](https://arxiv.org/abs/2505.13628)

眼见即翻译:图像如何教会 AI 说低资源语言

引言: AI 领域的巴别塔难题 想象一下,你正试图学习一门完全陌生的语言——比如克丘亚语 (Quechua) 或斯瓦希里语 (Swahili) ——而且你手头没有字典。不过,你有一本相册。你指着一张狗的照片,当地人说“allqu” (克丘亚语) 。你指着一张太阳的照片,他们说“inti”。最终,在没有看到任何直接的英语翻译的情况下,你开始通过视觉世界的共享现实来理解这门语言。 ...

2025-05 · 9 分钟 · 4158 字
[Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models 🔗](https://arxiv.org/abs/2502.11425)

修正时间线:反事实如何教会大模型理解时间

GPT-4 和 Llama-3 等大型语言模型 (LLM) 是令人印象深刻的博学者。它们能写诗、调试代码并总结历史。但尽管它们如此复杂,它们常常难以掌握小学生凭直觉就能理解的概念: 时间 。 ...

2025-02 · 7 分钟 · 3122 字
[ConECT Dataset: Overcoming Data Scarcity in Context-Aware E-Commerce MT 🔗](https://arxiv.org/abs/2506.04929)

超越文本:图像和元数据如何彻底变革电商翻译

想象一下,走进一家商店,看到一个标签上只写着 “Pen”。 如果你站在文具通道,你立刻就知道这是一支书写工具 (钢笔/圆珠笔) 。但如果你站在农业用品区,同样的单词——“Pen”——很可能指的是一种动物围栏。单词没有变,但语境完全改变了它的含义。 ...

2025-06 · 8 分钟 · 3701 字
[Combining Domain and Alignment Vectors Provides Better Knowledge-Safety Trade-offs in LLMs 🔗](https://aclanthology.org/2025.acl-short.22.pdf)

MERGEALIGN:如何在无需支付“对齐税”的情况下构建安全专家型 LLM

简介 在大型语言模型 (LLM) 快速发展的格局中,我们正在见证从通用聊天机器人向高度专业化的“领域专家”转变。现在,我们拥有专门针对金融、医学、编程和法律进行微调的模型。这些专家可以通过执业资格考试,并以远超标准 GPT-4 或 Llama-3 模型的准确度分析复杂的财务报告。 ...

8 分钟 · 3578 字
[CoRet: Improved Retriever for Code Editing 🔗](https://aclanthology.org/2025.acl-short.62.pdf)

CoRet 如何彻底改变 AI 代理的代码导航能力

想象一下,你是一名软件工程师,刚刚加入一个首次接触的庞大遗留代码库。你收到一张工单: “修复仪表盘上用户登录超时的错误。”你的第一个挑战不是修复代码,而是从成千上万个文件和数万个函数中找到该代码究竟在哪里 。 ...

6 分钟 · 2744 字
[ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events 🔗](https://arxiv.org/abs/2501.03040)

AI 知道现在几点了吗?揭秘 ChronoSense 与大语言模型的时间推理能力

引言 想象一下,你正在阅读一本历史书。书中写道,“第四次霍乱大流行”持续时间为 1863 年至 1875 年,而“第二次世界大战”发生在 1939 年至 1945 年。如果有人问你: “大流行是在二战之前发生的吗?”答案是显而易见的。你不需要进行复杂的微积分运算;你只需要比较一下时间线。这种对时间直观的掌握——理解事件有持续时间,它们可以重叠、同时开始或通过先后顺序相连——是人类认知的基石。 ...

2025-01 · 8 分钟 · 3862 字
[Can Uniform Meaning Representation Help GPT-4 Translate from Indigenous Languages? 🔗](https://arxiv.org/abs/2502.08900)

跨越鸿沟:语义图能否教会 GPT-4 土著语言?

引言 在大型语言模型 (LLMs) 时代,人们很容易认为人工智能已经“解决”了语言问题。我们可以打开 ChatGPT,输入一个英语句子,然后立即得到流畅的法语、西班牙语或日语翻译。然而,这种表面的精通掩盖了一个巨大的数字鸿沟。虽然像 GPT-4 这样的模型在高资源语言 (即互联网上有数十亿词汇文本的语言) 上表现出色,但在处理低资源语言,特别是土著语言 (Indigenous languages) 时,它们往往会失败。 ...

2025-02 · 7 分钟 · 3249 字
[Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs 🔗](https://arxiv.org/abs/2506.00304)

用语言模型读取肌肉信号:LLM 如何解码无声语音

引言: 听不见的声音 想象一下,你试图说话,但发不出任何声音。你的嘴在构词,舌头在移动,下颚在配合,但声带却保持沉默。对于数百万患有语言障碍的人来说——例如那些接受过喉切除术的人——这就是他们的日常现实。 ...

2025-06 · 8 分钟 · 3519 字
[Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure 🔗](https://arxiv.org/abs/2506.12278)

AI 能黑掉你的代码吗?介绍用于 LLM 测试生成的 TestCase-Eval

像 GPT-4 和 Qwen 这样的大型语言模型 (LLM) 的兴起彻底改变了我们编写代码的方式。我们现在可以提示模型生成复杂的算法,解决竞赛编程问题,甚至搭建整个应用程序的框架。但任何有经验的软件工程师都知道,编写代码只是战斗的一半。另一半——往往是更艰难的一半——是测试它。 ...

2025-06 · 7 分钟 · 3157 字