EMNLP 2024

[Language models and brains align due to more than next-word prediction and word-level information 🔗](https://arxiv.org/abs/2212.00596)

不仅仅是预测：为什么语言模型与人脑实际上是一致的

简介近年来，人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时，正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...

[Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven Prompts 🔗](https://arxiv.org/abs/2409.02519)

读懂言外之意：大型语言模型能否检测隐性厌女症？

简介内容审核已经取得了长足的进步。如果你在社交媒体上发布诽谤性言论或公然的暴力威胁，很有可能自动化系统会在几小时内将其标记并删除。针对显性关键词训练的算法非常高效。然而，仇恨言论正在演变。它变得更加安静、微妙且阴险。 ...

[Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models 🔗](https://arxiv.org/abs/2404.02575)

像编译器一样思考如何提升 AI 推理能力

引言像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 在生成类人文本、创作诗歌甚至解释复杂的历史事件方面表现得令人难以置信。然而，在某个特定领域，这些模型经常遇到困难: 算法推理。 ...

[Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs 🔗](https://arxiv.org/abs/2403.19827)

AI 如何学习未见之事：“美好的五天”之谜

AI 如何学习未见之事: “美好的五天”之谜想象一下，你正在读一本书，偶然看到了这样一个短语: “a beautiful five days” (美好的五天) 。对于以英语为母语的人来说，这听起来非常自然。你可能会说: “We spent a beautiful five days in Rome.” (我们在罗马度过了美好的五天) 。但如果你停下来审视一下语法，会发现有些奇怪的事情正在发生。单词 “a” 是一个单数冠词 (用于单个事物，如 “a dog” 一只狗) 。而短语 “five days” (五天) 是复数的。从严格的语法角度来看，将单数冠词与复数名词短语结合应该是一场灾难。我们不会说 “a days” 或 “a five dogs”。然而，这种 “Article + Adjective + Numeral + Noun” (冠词+形容词+数词+名词，简称 AANN) 的构式在英语中却是完全可以接受的。 ...

[Language Concept Erasure for Language-invariant Dense Retrieval 🔗](https://aclanthology.org/2024.emnlp-main.736.pdf)

打破语言障碍：LANCER 如何教会模型忽略语言身份

想象一下，你正在寻找一种特定糕点的烘焙说明。你在搜索引擎中输入了查询。在这个世界的某个角落，存在着一份由烘焙大师撰写的完美食谱。然而，那位面包师是用意大利语写的食谱，而你用的是英语搜索。 ...

[Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level 🔗](https://arxiv.org/abs/2406.15741)

还能拯救糟糕的翻译吗？介绍 MT-Ladder：大语言模型翻译器的“拼写检查器”

语言障碍可以说是全球交流的最大阻碍，长期以来，机器翻译 (Machine Translation, MT) 一直是试图打破这一障碍的攻城锤。近年来，像 GPT-4 这样的大语言模型 (LLM) 彻底改变了这一领域，提供了不仅准确而且语境丰富的翻译。 ...

[Label Confidence Weighted Learning for Target-level Sentence Simplification 🔗](https://aclanthology.org/2024.emnlp-main.999.pdf)

从噪声中理出头绪：标签置信度加权学习如何彻底变革文本简化

想象一下，你试图向一个 5 岁的孩子解释一个复杂的科学概念，然后向一个 10 岁的孩子解释，最后是向一个高中生解释。你会针对每一个“目标”受众改变你的词汇、句子结构和语气。这就是目标级句子简化 (Target-level Sentence Simplification) 的本质。 ...

[LUQ: Long-text Uncertainty Quantification for LLMs 🔗](https://arxiv.org/abs/2403.20279)

当大模型开始“胡扯”：测量长文本生成中的不确定性

像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 已经改变了我们与信息交互的方式。我们让它们写邮件、总结复杂的主题，甚至生成历史人物的传记。但这里有一个众所周知的隐患: 幻觉 (hallucinations) 。大模型可能会在完全捏造事实的同时表现出绝对的自信。 ...

[LONGAGENT: Achieving Question Answering for 128k-Token-Long Documents through Multi-Agent Collaboration 🔗](https://aclanthology.org/2024.emnlp-main.912.pdf)

多智能体协作如何在长文档任务上击败 GPT-4：深入解析 LONGAGENT

引言在大语言模型 (LLM) 飞速发展的世界里，对“上下文窗口 (context window) ”霸主地位的争夺异常激烈。我们已经从仅能保留少量对话历史的模型，发展到了像 GPT-4 和 Claude 2 这样的巨兽，它们分别号称拥有 128k 和 200k token 的上下文窗口。理想情况下，这意味着你可以把整本小说、法律代码库或巨型技术手册投喂给模型，然后问它任何问题。 ...

[LLoCO: Learning Long Contexts Offline 🔗](https://arxiv.org/abs/2404.07979)

小抄策略：LLoCO 如何高效掌握长上下文

小抄策略: LLoCO 如何高效掌握长上下文想象一下，你是一名正在准备一场覆盖整本教科书的艰难期末考试的学生。你有三种应对方式。首先是“开卷”法: 你把整本教科书带进考场。你拥有所有信息，但翻阅数千页来寻找一个特定答案非常耗时。其次是“闭卷”法: 你完全依靠记忆。这很快，但如果考试问到第 342 页的具体细节，你就倒霉了。 ...

[LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training 🔗](https://arxiv.org/abs/2406.16554)

化巨人为专家：如何基于 LLaMA 构建混合专家模型

引言在当今的人工智能领域，缩放定律 (Scaling Laws) 占据了统治地位: 如果你想要一个更智能的模型，就把通过做大。模型参数量已经从数百万膨胀到数十亿，现在更是达到了万亿级别。然而，我们正在撞上一堵墙。对于许多研究人员和应用来说，运行这些庞大的稠密模型所需的纯粹计算成本正变得不可持续。 ...

[LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law 🔗](https://aclanthology.org/2024.emnlp-main.842.pdf)

LLM 能学会物理吗？揭秘上下文神经缩放定律

当我们想到大型语言模型 (LLMs) ，如 LLaMA 或 GPT-4 时，通常会认为它们是语言大师。它们能写诗、总结邮件以及调试代码。但在核心层面，这些模型是序列预测器——它们观察一系列 token，并预测接下来会出现什么。 ...

[LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing 🔗](https://arxiv.org/abs/2406.16253)

AI 能给 AI 打分吗？揭秘 LLM 在同行评审中的真相

学术研究领域正面临着一场规模危机。每年，提交给顶级人工智能会议的论文数量都在激增。对于处于接收端的研究人员来说，这意味着堆积如山的论文需要阅读、批评和评审。这种工作量正变得难以为继。 ...

[LLMs Are Zero-Shot Context-Aware Simultaneous Translators 🔗](https://arxiv.org/abs/2406.13476)

上下文为王：现成的大型语言模型如何掌握同声传译

简介想象一下，你是一名高规格医学会议的同声传译员。演讲者快步走上讲台，开始语速飞快地谈论心脏病学。他们提到了一个患有“PVC”的病人。如果你只是逐字翻译，你可能会卡住。这是指聚氯乙烯 (一种塑料) 吗？不，在这个语境下，它代表的是*室性早搏 (Premature Ventricular Contraction) *。 ...

[LLMEdgeRefine: Enhancing Text Clustering with LLM-Based Boundary Point Refinement 🔗](https://aclanthology.org/2024.emnlp-main.1025.pdf)

驯服离群点：LLMEdgeRefine 如何彻底变革文本聚类

引言想象你是一名图书管理员，任务是将一大堆书按体裁分类。大多数书都很容易处理: 有宇宙飞船的归入科幻类，有巨龙的归入奇幻类。但是，如果遇到一本关于巨龙驾驶宇宙飞船的书呢？或者一本封面破损、标题模糊的书呢？ ...

[LLM4Decompile: Decompiling Binary Code with Large Language Models 🔗](https://arxiv.org/abs/2403.05286)

从二进制到 C：LLM4Decompile 如何彻底改变逆向工程

想象一下，你在服务器上发现了一个旧的可执行文件。它是你公司遗留软件的关键部分，但有一个问题: 源代码丢失了。没有 GitHub 仓库，没有备份的压缩包。只有原始的二进制文件。 ...

[LLM-based Code-Switched Text Generation for Grammatical Error Correction 🔗](https://arxiv.org/abs/2410.10349)

修复不可修复之物：LLM 如何教 AI 修正语码转换文本

想象一下，你是一名母语为日语的英语学习者。你正在和朋友聊天，然后打出了这样一句话: “According to the test, my shortcomings are 靴下 and ご主人様.” (根据测试，我的缺点是靴下和ご主人様。) ...

[LLM-Evolve: Evaluation for LLM's Evolving Capability on Benchmarks 🔗](https://aclanthology.org/2024.emnlp-main.940.pdf)

大语言模型能从经验中学习吗？深入解析 LLM-Evolve 框架

引言想象一下你正在参加一场高难度的数学考试。在做第一道题时，你很纠结，猜了一个答案，结果错了。但紧接着，你看到了正确的解题过程。当你在五道题后遇到一个类似的问题时，你回忆起之前的解法，运用其中的逻辑，然后做对了。这就是从经验中学习。 ...

[LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay 🔗](https://arxiv.org/abs/2310.14985)

AI 会撒谎、领导和欺骗吗？深入探究 LLM 智能体在阿瓦隆游戏中的社会思维

引言近年来，我们见证了人工智能范式的转变。像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 已经超越了简单的文本生成，成为自主智能体的大脑——能够感知环境、做出决策并采取行动的数字实体。我们已经看到智能体模拟软件开发公司，甚至居住在虚拟的“模拟人生式”小镇中。然而，这些模拟大多集中在积极、合作的行为上。 ...

[LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational History 🔗](https://arxiv.org/abs/2402.18216)

分心的 AI：任务切换如何让大语言模型脱轨

引言想象一下，你正与朋友深入探讨 19 世纪文学的细微之处。你们正在分析主题、基调和角色发展。突然，没有任何预兆，你的朋友让你解一个复杂的代数方程。那一瞬间，你的大脑可能会卡壳。你为文学构建的认知语境无法转化为数学思维；事实上，它甚至可能成为阻碍。 ...