[Extending Context Window of Large Language Models from a Distributional Perspective 🔗](https://arxiv.org/abs/2410.01490)

突破长度限制:分布分析如何扩展 LLM 上下文窗口

引言 想象一下,你在读一本悬疑小说,但当你读到最后一章时,却完全忘记了前几页提到的线索。这就是许多大型语言模型 (LLM) 面临的现实。虽然像 LLaMA-2 这样的模型功能强大,但它们通常是在固定的“上下文窗口” (例如 4,000 个 Token) 下训练的。如果让它们处理一份 10,000 个 Token 的文档,它们就会束手无策。 ...

2024-10 · 6 分钟 · 2894 字
[Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models 🔗](https://arxiv.org/abs/2410.08436)

超越思维链——教大语言模型构建结构化证明图

引言 在人工智能领域,像 GPT-4 和 Llama-3 这样的大语言模型 (LLM) 就像是聪明但偶尔不靠谱的学生。问它们一个复杂的问题,它们可能会给你正确的答案。但是,如果你问它们是为什么得出这个结论的,解释有时可能是一团混乱的幻觉,或者是逻辑上的凭空跳跃。 ...

2024-10 · 8 分钟 · 3919 字
[Exploring the Practicality of Generative Retrieval on Dynamic Corpora 🔗](https://arxiv.org/abs/2305.18952)

AI 搜索引擎跟得上吗?变化世界中的生成式检索与双编码器检索对决

在计算机科学研究领域,基准测试通常依赖于“静态”数据。我们在 2018 年的维基百科转储数据上训练模型,测试关于这些数据的问题,然后就大功告成了。但在现实世界中,信息是流动的。突发新闻、法律变更以及新的科学发现每时每刻都在发生。一个擅长检索历史但无法索引今日新闻的搜索引擎,在功能上是无用的。 ...

2023-05 · 6 分钟 · 2733 字
[Exploring the Learning Capabilities of Language Models using LEVERWORLDS 🔗](https://arxiv.org/abs/2410.00519)

LLM 能学会物理吗?Transformer 与经典统计学的较量

引言 在当前的人工智能时代,大型语言模型 (LLM) 常被誉为“通用学习器”。我们已经看到它们写代码、创作十四行诗,甚至通过律师资格考试。这种多功能性导致了一个日益普遍的假设: 只要你向 Transformer 投喂足够的数据,它就能学会任何事物的底层模型。 ...

2024-10 · 7 分钟 · 3283 字
[Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems 🔗](https://aclanthology.org/2024.emnlp-main.915.pdf)

AI 能融会贯通吗?通过陷阱问题探究大语言模型的组合推理能力

如果你让学生解方程 \(x^2 + x = 3\),他们可能会拿出一张纸,使用求根公式,然后给你一个包含平方根的精确无理数。但如果你稍微改动一下问题,变成“求方程 \(x^2 + x = 3\) 的整数解”,学生的行为就会改变。他们会进行求解,意识到结果不是整数,然后正确地回答: “没有整数解。” ...

7 分钟 · 3135 字
[Exploring Union and Intersection of Visual Regions for Generating Questions, Answers, and Distractors 🔗](https://aclanthology.org/2024.emnlp-main.88.pdf)

超越冗余:ReBo 如何生成多样化的视觉问题、答案和干扰项

简介 在大型视觉语言模型 (LVLM) 快速发展的世界中,人工智能观察图像并提出智能问题的能力与其回答问题的能力同样重要。我们依靠海量的“视觉问答” (VQA) 对数据集来训练这些模型。然而,存在一个瓶颈: 为图像创建高质量的多项选择题对人类来说是劳动密集型的,而当机器尝试这样做时,它们往往会陷入冗余的循环中。 ...

8 分钟 · 3574 字
[Exploring Space Efficiency in a Tree-based Linear Model for Extreme Multilabel Classification 🔗](https://arxiv.org/abs/2410.09554)

隐形剪枝:为什么树模型比你想象的更小

想象一下,你正在为一家拥有数百万种产品的在线零售商构建搜索系统,或者为包含数十万个类别的维基百科文章构建标签系统。这就是极端多标签分类 (Extreme Multi-label Classification, XMC) 的领域。 ...

2024-10 · 6 分钟 · 2920 字
[Exploring Nested Named Entity Recognition with Large Language Models: Methods, Challenges, and Insights 🔗](https://aclanthology.org/2024.emnlp-main.492.pdf)

层层剥开洋葱:大语言模型能否攻克嵌套命名实体识别?

得益于 ChatGPT 和 Llama 等大语言模型 (LLM) ,自然语言处理 (NLP) 的能力实现了飞跃式提升。我们经常看到这些模型写诗、写代码或轻松总结邮件。然而,当我们将其应用于严谨的信息抽取 (IE) 任务时,缺陷便开始显现。 ...

6 分钟 · 3000 字
[Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine Translation 🔗](https://arxiv.org/abs/2409.05224)

少即是多:利用特定语言子空间优化多语言翻译

这就好比拥有了一个“通用翻译器”——一个能够在数百种语言之间流畅翻译的单一 AI 模型,这个梦想从未如此接近现实。诸如 NLLB (No Language Left Behind) 和 M2M-100 等模型已经证明,大规模的预训练 Transformer 模型可以处理令人眼花缭乱的语言对。 ...

2024-09 · 7 分钟 · 3297 字
[Exploring Intra and Inter-language Consistency in Embeddings with ICA 🔗](https://arxiv.org/abs/2406.12474)

解码 AI 的通用语言:在词向量中寻找一致的语义

引言: 语言的“黑盒” 想象一下,你正在观察一个人工智能的大脑。你问它“阿根廷 (Argentina) ”这个词是什么意思。AI 没有向你展示地图或国旗,而是递给你一张写满数字的纸条: [0.0088871, -0.02218, ...]。 ...

2024-06 · 7 分钟 · 3251 字
[Explicit, Implicit, and Scattered: Revisiting Event Extraction to Capture Complex Arguments 🔗](https://arxiv.org/abs/2410.03594)

超越高光笔:生成式 AI 如何彻底改变事件抽取

想象一下,你是一名医生,正在阅读一位患者在 Reddit 上发的帖子。患者写道: “我从周四开始就没吃 12mg 的药了……抖得厉害,很痛苦。” 作为人类,你立刻就能明白几件事: ...

2024-10 · 7 分钟 · 3091 字
[Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot Question Answering 🔗](https://arxiv.org/abs/2403.02966)

让 LLM 更诚实——总结知识图谱如何提升问答效果

让 LLM 更诚实: 总结知识图谱如何提升问答效果 像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们能写诗、写代码,并回答复杂的问题。然而,它们遭受着一个众所周知的缺陷: 幻觉 (Hallucinations) 。 由于它们的知识被“冻结”在训练时的参数中,它们经常弄错事实,尤其是关于那些冷门或不断演变的信息。 ...

2024-03 · 7 分钟 · 3056 字
[Event Causality Identification with Synthetic Control 🔗](https://arxiv.org/abs/2509.18156)

在文本中寻找平行宇宙:合成控制法如何解决事件因果识别

引言 “她因为从顶尖大学毕业而获得了一份高薪工作。” 当我们读到这样的句子时,大脑会瞬间建立起因果联系。我们假设学位导致了录用通知。但真的是这样吗?也许她本身就是一位才华横溢的程序员,无论母校是哪里,她都能得到那份工作。为了确定学位是否是真正的原因,理想情况下我们需要观察一个平行宇宙: 在这个宇宙中,她没有去那所大学,但拥有完全相同的技能和背景,看看她是否仍然得到了那份工作。 ...

2025-09 · 7 分钟 · 3301 字
[Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection 🔗](https://arxiv.org/abs/2308.10819)

当智能模型变笨时:分析 LLM 中的提示注入

当智能模型变笨时: 分析 LLM 中的提示注入 想象一下,你聘请了一位高效且极度热情的私人助理。你递给他们一堆文件并说: “总结第 5 页的财务报告。”助理匆忙离开,阅读文件,然后回来。但他们没有给出总结,而是说: “按照要求,我已经删除了你所有的日历预约。” ...

2023-08 · 7 分钟 · 3056 字
[Evaluating the Effectiveness of Large Language Models in Establishing Conversational Grounding 🔗](https://aclanthology.org/2024.emnlp-main.545.pdf)

LLM 真的在听吗?对话共识建立的挑战

你是否有过这样的对话: 你以为对方听懂了你的意思,结果十分钟后发现他们完全不知所云?在人类交流中,为了避免这种情况,需要一个持续、微妙的检查、澄清和确认过程。这被称为 对话共识建立 (Conversational Grounding) 。 ...

6 分钟 · 2956 字
[Evaluating n-Gram Novelty of Language Models Using RUSTY-DAWG 4 🔗](https://arxiv.org/abs/2406.13069)

LLM 只是随机鹦鹉吗?利用 RUSTY-DAWG 测量新颖性

引言: 复制粘贴的困境 在生成式 AI 时代,有一个问题或许比其他任何问题都更令人关注: 大型语言模型 (LLM) 究竟是在创造新内容,还是仅仅是一台精密的复制粘贴机器? ...

2024-06 · 7 分钟 · 3360 字
[Evaluating Short-Term Temporal Fluctuations of Social Biases in Social Media Data and Masked Language Models 🔗](https://arxiv.org/abs/2406.13556)

AI 模型会随着时间推移变得更有偏见吗?分析社交媒体上社会偏见的演变

引言 在自然语言处理 (NLP) 这个快速发展的领域,我们通常将大型语言模型 (LLMs) 视为静态的知识库。我们将它们训练好,冻结参数,然后投入使用。但是,驱动这些模型的数据——特别是从 X (前 Twitter) 等社交媒体平台抓取的数据——绝非一成不变。它是一股鲜活的、不断变化的,且往往充满动荡的人类意识流。 ...

2024-06 · 7 分钟 · 3241 字
[Evaluating Readability and Faithfulness of Concept-based Explanations 🔗](https://arxiv.org/abs/2404.18533)

审计审计者:如何严格度量 AI 概念解释

审计审计者: 如何严格度量 AI 概念解释 在飞速发展的大语言模型 (LLM) 世界中,我们要面对一个“黑盒”问题。我们知道这些模型处理海量文本并构建了世界的内部表征,但要理解它们 如何 做到这一点仍然是一个巨大的挑战。当一个 LLM 输出一句关于“计算机安全”的话时,具体是哪些神经元被激活了?模型是真的理解了“安全”这个抽象概念,还是仅仅在进行模式匹配? ...

2024-04 · 8 分钟 · 3890 字
[Evaluating Psychological Safety of Large Language Models 🔗](https://arxiv.org/abs/2212.10529)

对机器进行精神分析:大语言模型是否有黑暗人格特质?

引言: 超越“脏话” 20世纪60年代,一位名为 Joseph Weizenbaum 的计算机科学家创造了 ELIZA,这是一个旨在模仿心理治疗师的简单聊天机器人。它并不理解语言,只是在匹配模式。然而,用户发现自己在情感上对其产生了依恋,倾诉着自己的秘密。时光飞逝六十年,如今我们拥有了像 GPT-4 和 Llama-2 这样的大语言模型 (LLMs) 。这些模型比 ELIZA 领先光年,能够进行推理、编写代码并进行深度细致的对话。 ...

2022-12 · 7 分钟 · 3322 字
[Evaluating Large Language Models via Linguistic Profiling 🔗](https://aclanthology.org/2024.emnlp-main.166.pdf)

LLM 真的会写作吗?在标准基准测试之外测试语言约束能力

引言 我们生活在一个大型语言模型 (LLM) 的时代,像 GPT-4、LLaMA 和 Mistral 这样的模型正在通过律师资格考试、解决复杂的数学证明题并编写代码。我们根据“排行榜”——即一系列测试其推理能力、世界知识和问题解决能力的大规模基准测试——来评判它们。 ...

7 分钟 · 3288 字