EMNLP 2024

[Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective 🔗](https://arxiv.org/abs/2406.17969)

解开黑盒：为什么单义性是提升大语言模型对齐的关键

引言想象一下，你试图理解一个复杂的外星大脑是如何运作的。你探测了一个神经元，希望它对应一个特定的想法，比如“快乐”或“红色”。然而，这个神经元却对一团混乱的概念做出反应: 一个特定的介词、关于法国大革命的提及，以及 Python 函数的闭合括号。这就是大语言模型 (LLM) 中多义性 (polysemanticity) 的现实。 ...

[Encoding and Controlling Global Semantics for Long-form Video Question Answering 🔗](https://arxiv.org/abs/2405.19723)

超越片段：利用门控状态空间模型掌握长视频理解

想象一下，你正在看一部超级英雄电影。在第一幕中，主角意识到战衣里的某个特定组件正在使他中毒。一小时后，他发现了一种新元素来替代它。在最后的决战中，这种新元素为战衣提供了动力，不仅让他赢得了战斗，还保住了性命。 ...

[Encoding Spreadsheets for Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.1154.pdf)

超越网格：SHEETENCODER 如何教会大语言模型阅读 Excel

介绍在数据世界中，电子表格为王。从小型企业到财富 500 强公司，Microsoft Excel 和 Google Sheets 是结构化数据的默认操作系统。然而，尽管它们无处不在，电子表格对于当今最强大的人工智能工具来说，仍然是一个巨大的盲点。 ...

[Empowering Multi-step Reasoning across Languages via Program-Aided Language Models 🔗](https://aclanthology.org/2024.emnlp-main.678.pdf)

打破 AI 数学的语言障碍：Cross-PAL 简介

数学常被称为通用语言。无论你用英语、中文还是斯瓦希里语来描述问题，像 \(20 - 12 + 5\) 这样的计算结果都是一样的。然而，对于大语言模型 (LLM) 来说，这种通用性并非理所当然。虽然像 GPT-4 这样的模型在英语环境下表现出惊人的推理能力，但当使用低资源语言进行提示时，它们的表现往往会大打折扣。 ...

[Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting 🔗](https://arxiv.org/abs/2410.00771)

AI 能记住它看了什么吗？解决视频问答中的灾难性遗忘问题

如果你经常上网，你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流，每天产生的数据量惊人。对于人工智能，特别是视频问答 (Video Question Answering, VideoQA) 模型而言，这是一个巨大的挑战。 ...

[Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training 🔗](https://arxiv.org/abs/2410.04439)

教扩散模型拼写：深入解析输入粒度与字形感知训练

引言如果你尝试过 Stable Diffusion 或 Midjourney 等文本到图像扩散模型，你很可能遇到过“乱码现象”。你要求生成一个写着“Welcome Home” (欢迎回家) 的牌子，模型却生成了一个漂亮的客厅，里面的牌子上写着“Wleom Hmeo”。 ...

[EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models 🔗](https://arxiv.org/abs/2312.14069)

不仅仅是文字：语音到语音 AI 中的重音基准测试

你是否遇到过因为接收者听不到你说话的语气而误解短信的情况？句子 “I never said he stole my bag” (我从没说过他偷了我的包) 根据你重读这七个单词中的哪一个，会有七种完全不同的含义。 ...

[Emotion Granularity from Text: An Aggregate-Level Indicator of Mental Health 🔗](https://arxiv.org/abs/2403.02281)

解码心理健康：社交媒体文本如何揭示情绪粒度

引言: “情感大杂烩” 想象一下你今天过得很糟糕。当朋友问你感觉如何时，你会怎么说？你会回答因为项目停滞而感到“沮丧”，因为即将到来的截止日期而感到“焦虑”，还是对同事感到“失望”？或者，你只是简单地说感觉“很糟”或“压力很大”？ ...

[EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control 🔗](https://arxiv.org/abs/2410.00316)

EmoKnob：向量运算如何为 AI 语音赋予灵魂

引言试着读一下这句莎士比亚的名言: *“生存还是毁灭，这是一个问题。” (To be, or not to be.) * 再读一遍这段文字。它在你脑海中听起来是怎样的？是绝望的低语？是充满哲理的沉思？还是挑衅般的呐喊？ ...

[Embedding and Gradient Say Wrong: A White-Box Method for Hallucination Detection 🔗](https://aclanthology.org/2024.emnlp-main.116.pdf)

深入黑盒：利用梯度和嵌入捕捉 LLM 幻觉

深入黑盒: 利用梯度和嵌入捕捉 LLM 幻觉像 GPT-4 和 LLaMa 这样的大型语言模型 (LLM) 已经改变了我们与信息交互的方式。它们能写代码、作诗并回答复杂的问题。但它们有一个臭名昭著的缺陷: 幻觉 (Hallucinations) 。我们都见过这种情况——LLM 自信地断言一个完全捏造的“事实”，引用不存在的法庭案例或虚构历史事件。 ...

[Embedded Named Entity Recognition using Probing Classifiers 🔗](https://arxiv.org/abs/2403.11747)

流式 NER：如何在不微调的情况下从 LLM 实时提取实体

当我们与现代大型语言模型 (LLM) (如 GPT-4 或 Llama) 交互时，我们通常体验到的是一种“流式”格式。文字一个接一个地出现，营造出对话的错觉。但对于构建复杂应用程序 (如自动化事实核查器或知识图谱构建器) 的开发人员和研究人员来说，这种流式文本是一个挑战。 ...

[Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence 🔗](https://arxiv.org/abs/2406.10957)

质量胜于数量：用 SamPO 解决 LLM 对齐中的冗长陷阱

引言在快速发展的大语言模型 (LLM) 领域，越大并不总是越好——尤其是当涉及到模型回复的长度时。如果你曾与现代聊天机器人互动过，你可能注意到了一个独特的习惯: 它们喜欢喋喋不休。问一个简单的问题，你往往会得到长篇大论。 ...

[EfficientRAG: Efficient Retriever for Multi-Hop Question Answering 🔗](https://arxiv.org/abs/2408.04259)

EfficientRAG：无需高昂成本即可解决多跳问答难题

EfficientRAG: 无需高昂成本即可解决多跳问答难题在大型语言模型 (LLM) 飞速发展的当下，检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为将 AI 回答建立在现实基础上的黄金标准。通过从外部来源获取相关数据，RAG 减少了幻觉，并使模型能够回答有关特定的、私有的或最新的数据问题。 ...

[Efficient Unseen Language Adaptation for Multilingual Pre-Trained Language Models 🔗](https://aclanthology.org/2024.emnlp-main.1057.pdf)

打破语言障碍：软提示（Soft Prompts）如何让 AI 高效学习未见过的语言

在自然语言处理 (NLP) 领域，像 BERT 和 XLM-R 这样的多语言预训练语言模型 (mPLMs) 堪称 AI 界的“多语言专家”。它们在大约 100 种不同语言的文本上进行训练，从而能够跨越国界执行任务——比如情感分析或主题分类。 ...

[Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge 🔗](https://arxiv.org/abs/2402.16050)

TGB：弥合 MLLM 在长视频理解中的鸿沟

引言: “长视频”瓶颈想象一下要求 AI 观看一部两小时的电影，并回答这个问题: “为什么主角在第二幕开门之前犹豫了？” 对于人类来说，这是一个关于感知和记忆的简单任务。但对于多模态大语言模型 (MLLM) 来说，这是一场计算噩梦。虽然 MLLM 在理解静态图像方面取得了惊人的进步，但将其应用于长视频却面临着巨大的障碍。视频包含成千上万帧图像。将所有这些帧输入到标准 MLLM 中会超出“上下文窗口” (模型一次可以处理的信息量限制) ，甚至让最强大的 GPU 也因过载而崩溃。 ...

[Efficient Sequential Decision Making with Large Language Models 🔗](https://arxiv.org/abs/2406.12125)

两全其美：结合 LLM 与上下文多臂老虎机实现高效决策

引言在人工智能飞速发展的版图中，大型语言模型 (LLM) 已确立了其在知识和推理领域无可争议的王者地位。从编写代码到总结历史，它们的能力极其广泛。然而，在生成文本与在动态环境中采取最佳行动之间，仍存在显著的差距。 ...

[Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards 🔗](https://arxiv.org/abs/2409.12656)

AI 能追踪自身的进步吗？利用大语言模型自动构建科学排行榜

引言我们正经历着科学研究的爆炸式增长。仅在“计算与语言”领域，每天就有大约 100 篇新论文上传到 arXiv。对于研究人员、学生或从业者来说，跟上这股信息洪流不仅是困难的——这在人力上几乎是不可能的。 ...

[Efficient Overshadowed Entity Disambiguation by Mitigating Shortcut Learning 🔗](https://aclanthology.org/2024.emnlp-main.855.pdf)

打破习惯——反事实训练如何修复实体消歧

如果你读到这句话: “迈克尔·乔丹发表了一篇关于机器学习的新论文”，你会想到谁？如果你像大多数人一样——更重要的是，像大多数机器学习模型一样——你可能立刻想到了那位篮球传奇人物，芝加哥公牛队的 23 号。但你错了。这句话指的是 Michael I. Jordan，加州大学伯克利分校著名的计算机科学教授。 ...

[Efficient LLM Comparative Assessment: A Product of Experts Framework for Pairwise Comparisons 🔗](https://arxiv.org/abs/2405.05894)

LLM 评判 LLM：如何利用专家乘积框架高效地对文本进行排名

随着大型语言模型 (LLM) 在自然语言处理领域占据主导地位，一个同样困难的次生问题随之出现: 我们该如何评估它们? 当 LLM 生成摘要、故事或一行对话时，很少有一个单一的“正确”答案。传统的指标如 BLEU 或 ROUGE 依赖于与参考文本的词重叠度，往往无法捕捉连贯性、创造力或有用性等细微差别。这导致了 LLM-as-a-judge (LLM 作为裁判) 的兴起，即我们使用更强的模型 (如 GPT-4 或 Llama-2-Chat) 来给其他模型的输出打分。 ...

[Effective Synthetic Data and Test-Time Adaptation for OCR Correction 🔗](https://aclanthology.org/2024.emnlp-main.862.pdf)

修复历史的错别字——合成数据与自校正如何彻底改变 OCR

引言想象一下走进一座收藏了人类历史上所有书籍的图书馆。现在，再想象一下其中数百万本书的页面上充满了乱码。“The cat sat on the mat” (猫坐在垫子上) 可能被显示为“The c@t s4t on tbe mAt”。这就是数字人文领域目前的现状。 ...