EMNLP 2024

[On the Role of Context in Reading Time Prediction 🔗](https://arxiv.org/abs/2409.08160)

上下文被高估了吗？重新思考阅读时间预测中的惊奇理论

如果你曾发现自己不自觉地替别人补全句子的后半部分，你就直观地理解了语言处理是具有预测性的。当我们阅读或聆听时，不仅仅是被动地接收词汇；我们的大脑会根据上下文积极地预测接下来的内容。 ...

[On the Robustness of Editing Large Language Models 🔗](https://arxiv.org/abs/2402.05827)

AI 的脆弱记忆：为什么编辑 LLM 比看起来更难

想象一下，你正在培训一名新员工。你告诉他们: “项目经理不再是 Alice 了，现在是 Bob。”人类员工会立即更新他们的心理模型。他们不会在午休时意外地称呼 Alice 为经理，也不会在你稍微换个说法问“谁是项目负责人？”时感到困惑。 ...

[On the Relationship between Truth and Political Bias in Language Models 🔗](https://arxiv.org/abs/2409.05283)

真相悖论：为什么教 AI 诚实可能会让它产生党派偏见

引言: 对齐的三难困境在人工智能领域，研究人员一直在追寻对齐 (Alignment) 的“圣杯”。我们希望像 ChatGPT 或 Claude 这样的大型语言模型 (LLM) 具备三个核心属性: 我们希望它们是有用 (helpful) 的，希望它们是无害 (harmless) 的，还希望它们是诚实 (truthful) 的。 ...

[Marginalizing Out Tokenization in Surprisal-Based Psycholinguistic Predictive Modeling 🔗](https://arxiv.org/abs/2410.02691)

超越 Token：重新思考如何用 AI 建模人类阅读

像 GPT-4 或 Llama 这样的语言模型 (LMs) 彻底改变了自然语言处理，但对于一个截然不同的领域——计算心理语言学 (Computational Psycholinguistics) ——来说，它们也已成为不可或缺的工具。研究人员使用这些模型来测试关于人类大脑如何处理语言的理论。该领域的主流理论是惊奇理论 (Surprisal Theory) , 该理论认为处理一个单词的难度与大脑看到它的“惊奇”程度成正比。如果一个语言模型给某个单词分配的概率很低，那么它的惊奇值就很高，理论认为，人类阅读它所需的时间就会更长。 ...

[On the Influence of Gender and Race in Romantic Relationship Prediction from Large Language Models 🔗](https://arxiv.org/abs/2410.03996)

名字意味着什么？LLM 如何在关系预测中暴露异性恋规范和种族偏见

引言 “名字意味着什么？”这个问题几个世纪以来一直在文学作品中回响。在人类互动的语境中，名字往往承载着关于性别、种族和族裔的信号——人类有时会潜意识地使用这些信号来对名字背后的人做出假设。随着大型语言模型 (LLM) 日益融入社会计算任务，一个关键问题随之产生: 这些模型在解读这些信号时，是否会反映出我们社会的偏见？ ...

[On the In-context Generation of Language Models 🔗](https://aclanthology.org/2024.emnlp-main.568.pdf)

解码上下文生成：大语言模型如何学会创造新模式

如果你玩过像 GPT-4 或 Llama 这样的大语言模型 (LLM) ，你应该非常熟悉它们遵循模式的能力。你只需提供几个例子——比如一串后面跟着表情符号的电影标题——模型就能领会其中的“氛围”，生成完美符合该模式的新例子。这种现象通常被归类为上下文学习 (In-Context Learning, ICL) 。 ...

[On the Fragility of Active Learners for Text Classification 🔗](https://arxiv.org/abs/2403.15744)

主动学习真的值得吗？文本分类领域的现实检验

如果你曾在专业环境中从事过监督式机器学习项目，你很可能遇到过标注瓶颈 (labeling bottleneck) 。你手头有海量的原始文本数据——客户评论、医学摘要或新闻文章——但你用于人工标注的预算却少得可怜。你根本负担不起标注 100,000 个样本的费用。 ...

[On Training Data Influence of GPT Models 🔗](https://arxiv.org/abs/2404.07840)

解开黑盒——特定训练数据如何塑造 GPT 的性能

像 GPT-4、Llama 和 Mistral 这样的大型语言模型 (LLMs) 的能力在近年来呈爆炸式增长。我们惊叹于它们编写代码、总结各种文本以及回答复杂问题的能力。然而，尽管它们功能强大，其训练过程在很大程度上仍然是一个“黑盒”。 ...

[On Sensitivity of Learning with Limited Labelled Data to the Effects of Randomness: Impact of Interactions and Systematic Choices 🔗](https://arxiv.org/abs/2402.12817)

NLP 中的蝴蝶效应：厘清少样本学习中的随机性

在机器学习领域，尤其是自然语言处理 (NLP) 中，我们经常追求在基准测试中获得最高的准确率分数。但这台机器中潜藏着一个幽灵: 随机性。想象一下，你正在用非常有限的数据训练一个模型——也许是一个少样本分类任务。你运行实验并获得了 85% 的 F1 分数。你欣喜若狂。但是，当你更改了“随机种子” (控制数据洗牌或权重初始化的简单整数) 并再次运行它时，分数掉到了 60%。 ...

[On Mitigating Performance Disparities in Multilingual Speech Recognition 🔗](https://aclanthology.org/2024.emnlp-main.323.pdf)

鱼与熊掌兼得：利用 Adapter Fusion 平衡 ASR 的准确性与公平性

引言想象一下，你使用的语音助手能完美理解你哥哥说的话，但当你说话时，它却连一个简单的句子都听不懂。对于数百万用户来说，这并非假设的场景，而是与现代 AI 交互时的真实写照。 ...

[On Fake News Detection with LLM Enhanced Semantics Mining 🔗](https://aclanthology.org/2024.emnlp-main.31.pdf)

LLM 能揪出假新闻吗？为什么语义比文风更重要

在数字时代，信息的快速传播是一把双刃剑。虽然我们可以即时获取新闻，但也同样遭到错误信息的轰炸。检测假新闻已成为计算机科学和社交媒体分析中最关键的挑战之一。 ...

[On Eliciting Syntax from Language Models via Hashing 🔗](https://arxiv.org/abs/2410.04074)

破解句法：哈希与对比学习如何揭示 LLM 中的语法奥秘

如果你玩过 Word2Vec 或早期的语言模型，你可能对 NLP 中那个著名的代数奇迹并不陌生: King - Man + Woman = Queen。这种向量运算表明，语言模型 (LM) 不仅仅是在死记硬背文本；它们隐式地学习了语义和句法结构。 ...

[On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning 🔗](https://arxiv.org/abs/2406.11823)

打破分辨率魔咒：ELVA 如何实现视觉语言模型的高效化

引言: 看清事物的代价在人工智能飞速发展的世界里，多模态大语言模型 (MLLMs) ——即能看又能说的模型——已成为新的前沿领域。像 GPT-4V 这样的系统展示了惊人的能力，能够描述复杂的场景并回答有关图像的问题。然而，一个显著的瓶颈依然存在: 效率。 ...

[OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer 🔗](https://arxiv.org/abs/2406.16620)

OmAgent 如何通过分治法和递归倒带解决“长视频”难题

想象一下，你正试图在一份 24 小时的监控录像或一部信息量巨大的三小时电影中寻找一个特定的细节——也许是角色把香烟掉在地上的那一刻，或者是仅仅出现两秒钟的汽车车牌。作为人类，你不会记住视频的每一个像素。相反，你会观看视频，对情节形成大致印象，当被问及具体问题时，你会拖动时间轴，“倒带”到相关部分去检查细节。 ...

[Oddballs and Misfits: Detecting Implicit Abuse in Which Identity Groups are Depicted as Deviating from the Norm 🔗](https://aclanthology.org/2024.emnlp-main.132.pdf)

当“正常”成为武器：检测 NLP 中的隐性辱骂与常态偏离

引言在内容审核的早期，检测辱骂性语言主要是一场关键词匹配的游戏。如果一条评论包含种族歧视字眼、脏话或明确的威胁，它就会被标记。但随着自然语言处理 (NLP) 的进步，网络辱骂的隐蔽性也在不断升级。 ...

[ORPO: Monolithic Preference Optimization without Reference Model 🔗](https://arxiv.org/abs/2403.07691)

一步到位实现对齐：深入理解 ORPO

大型语言模型 (LLM) 令人印象深刻，但原始的预训练模型就像未经雕琢的璞玉。它们可以预测下一个 token，但往往难以遵循指令或遵守人类的安全标准。为了解决这个问题，我们通常依赖一个多阶段的训练流程: 预训练、监督微调 (SFT) ，以及最后的偏好对齐 (使用 RLHF 或 DPO 等方法) 。 ...

[OATH-Framess: Characterizing Online Attitudes Towards Homelessness with LLM Assistants 🔗](https://arxiv.org/abs/2406.14883)

超越情感分析：LLM 如何协助揭示关于无家可归问题的网络舆论细节

社交媒体平台已成为 21 世纪事实上的城市广场。它们是公众舆论的宝库，为研究人员提供了社会如何看待关键问题的大量数据集。然而，对于社会科学家来说，这种规模也带来了一个悖论: 数据量虽然巨大，但要进行细粒度的理解却异常困难。 ...

[Numerologic: Number Encoding for Enhanced LLMs' Numerical Reasoning 🔗](https://arxiv.org/abs/2404.00459)

为什么 LLM 不会数数：用 NumeroLogic 修复数值推理能力

这是现代人工智能最大的讽刺之一: 像 GPT-4 这样的大型语言模型 (LLM) 可以像莎士比亚那样写十四行诗，调试复杂的 Python 代码，并通过律师资格考试，但在被要求计算两个三位数的乘法时却经常栽跟头。 ...

[Null-Shot Prompting: Rethinking Prompting Large Language Models With Hallucination 🔗](https://aclanthology.org/2024.emnlp-main.740.pdf)

匹诺曹策略：通过鼓励幻觉来提升大模型性能

在大型语言模型 (LLM) 的世界里，“幻觉” (Hallucination) 通常是一个贬义词。它指的是 AI 自信地断言月亮是用绿奶酪做的，或者编造从未发生过的历史事件。研究人员花费数百万美元和无数小时，试图阻止模型产生幻觉。 ...

[NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data 🔗](https://arxiv.org/abs/2402.15343)

如何训练微型 NER 模型以匹敌 LLM：NuNER 深度解析

命名实体识别 (NER) 是自然语言处理中最基础的任务之一。无论是从财经新闻中提取股票代码，识别生物医学论文中的蛋白质，还是解析法律合同中的日期，NER 无处不在。 ...