[Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective 🔗](https://arxiv.org/abs/2406.17969)

解开黑盒:为什么单义性是提升大语言模型对齐的关键

引言 想象一下,你试图理解一个复杂的外星大脑是如何运作的。你探测了一个神经元,希望它对应一个特定的想法,比如“快乐”或“红色”。然而,这个神经元却对一团混乱的概念做出反应: 一个特定的介词、关于法国大革命的提及,以及 Python 函数的闭合括号。这就是大语言模型 (LLM) 中多义性 (polysemanticity) 的现实。 ...

2024-06 · 9 分钟 · 4089 字
[Encoding and Controlling Global Semantics for Long-form Video Question Answering 🔗](https://arxiv.org/abs/2405.19723)

超越片段:利用门控状态空间模型掌握长视频理解

想象一下,你正在看一部超级英雄电影。在第一幕中,主角意识到战衣里的某个特定组件正在使他中毒。一小时后,他发现了一种新元素来替代它。在最后的决战中,这种新元素为战衣提供了动力,不仅让他赢得了战斗,还保住了性命。 ...

2024-05 · 7 分钟 · 3429 字
[Encoding Spreadsheets for Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.1154.pdf)

超越网格:SHEETENCODER 如何教会大语言模型阅读 Excel

介绍 在数据世界中,电子表格为王。从小型企业到财富 500 强公司,Microsoft Excel 和 Google Sheets 是结构化数据的默认操作系统。然而,尽管它们无处不在,电子表格对于当今最强大的人工智能工具来说,仍然是一个巨大的盲点。 ...

7 分钟 · 3322 字
[Empowering Multi-step Reasoning across Languages via Program-Aided Language Models 🔗](https://aclanthology.org/2024.emnlp-main.678.pdf)

打破 AI 数学的语言障碍:Cross-PAL 简介

数学常被称为通用语言。无论你用英语、中文还是斯瓦希里语来描述问题,像 \(20 - 12 + 5\) 这样的计算结果都是一样的。然而,对于大语言模型 (LLM) 来说,这种通用性并非理所当然。虽然像 GPT-4 这样的模型在英语环境下表现出惊人的推理能力,但当使用低资源语言进行提示时,它们的表现往往会大打折扣。 ...

7 分钟 · 3260 字
[Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting 🔗](https://arxiv.org/abs/2410.00771)

AI 能记住它看了什么吗?解决视频问答中的灾难性遗忘问题

如果你经常上网,你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流,每天产生的数据量惊人。对于人工智能,特别是 视频问答 (Video Question Answering, VideoQA) 模型而言,这是一个巨大的挑战。 ...

2024-10 · 6 分钟 · 2946 字
[Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training 🔗](https://arxiv.org/abs/2410.04439)

教扩散模型拼写:深入解析输入粒度与字形感知训练

引言 如果你尝试过 Stable Diffusion 或 Midjourney 等文本到图像扩散模型,你很可能遇到过“乱码现象”。你要求生成一个写着“Welcome Home” (欢迎回家) 的牌子,模型却生成了一个漂亮的客厅,里面的牌子上写着“Wleom Hmeo”。 ...

2024-10 · 7 分钟 · 3387 字
[EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models 🔗](https://arxiv.org/abs/2312.14069)

不仅仅是文字:语音到语音 AI 中的重音基准测试

你是否遇到过因为接收者听不到你说话的语气而误解短信的情况?句子 “I never said he stole my bag” (我从没说过他偷了我的包) 根据你重读这七个单词中的哪一个,会有七种完全不同的含义。 ...

2023-12 · 6 分钟 · 2971 字
[Emotion Granularity from Text: An Aggregate-Level Indicator of Mental Health 🔗](https://arxiv.org/abs/2403.02281)

解码心理健康:社交媒体文本如何揭示情绪粒度

引言: “情感大杂烩” 想象一下你今天过得很糟糕。当朋友问你感觉如何时,你会怎么说?你会回答因为项目停滞而感到“沮丧”,因为即将到来的截止日期而感到“焦虑”,还是对同事感到“失望”?或者,你只是简单地说感觉“很糟”或“压力很大”? ...

2024-03 · 8 分钟 · 3995 字
[EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control 🔗](https://arxiv.org/abs/2410.00316)

EmoKnob:向量运算如何为 AI 语音赋予灵魂

引言 试着读一下这句莎士比亚的名言: *“生存还是毁灭,这是一个问题。” (To be, or not to be.) * 再读一遍这段文字。它在你脑海中听起来是怎样的?是绝望的低语?是充满哲理的沉思?还是挑衅般的呐喊? ...

2024-10 · 7 分钟 · 3287 字
[Embedding and Gradient Say Wrong: A White-Box Method for Hallucination Detection 🔗](https://aclanthology.org/2024.emnlp-main.116.pdf)

深入黑盒:利用梯度和嵌入捕捉 LLM 幻觉

深入黑盒: 利用梯度和嵌入捕捉 LLM 幻觉 像 GPT-4 和 LLaMa 这样的大型语言模型 (LLM) 已经改变了我们与信息交互的方式。它们能写代码、作诗并回答复杂的问题。但它们有一个臭名昭著的缺陷: 幻觉 (Hallucinations) 。 我们都见过这种情况——LLM 自信地断言一个完全捏造的“事实”,引用不存在的法庭案例或虚构历史事件。 ...

7 分钟 · 3476 字
[Embedded Named Entity Recognition using Probing Classifiers 🔗](https://arxiv.org/abs/2403.11747)

流式 NER:如何在不微调的情况下从 LLM 实时提取实体

当我们与现代大型语言模型 (LLM) (如 GPT-4 或 Llama) 交互时,我们通常体验到的是一种“流式”格式。文字一个接一个地出现,营造出对话的错觉。但对于构建复杂应用程序 (如自动化事实核查器或知识图谱构建器) 的开发人员和研究人员来说,这种流式文本是一个挑战。 ...

2024-03 · 7 分钟 · 3442 字
[Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence 🔗](https://arxiv.org/abs/2406.10957)

质量胜于数量:用 SamPO 解决 LLM 对齐中的冗长陷阱

引言 在快速发展的大语言模型 (LLM) 领域,越大并不总是越好——尤其是当涉及到模型回复的长度时。如果你曾与现代聊天机器人互动过,你可能注意到了一个独特的习惯: 它们喜欢喋喋不休。问一个简单的问题,你往往会得到长篇大论。 ...

2024-06 · 6 分钟 · 2880 字
[EfficientRAG: Efficient Retriever for Multi-Hop Question Answering 🔗](https://arxiv.org/abs/2408.04259)

EfficientRAG:无需高昂成本即可解决多跳问答难题

EfficientRAG: 无需高昂成本即可解决多跳问答难题 在大型语言模型 (LLM) 飞速发展的当下,检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为将 AI 回答建立在现实基础上的黄金标准。通过从外部来源获取相关数据,RAG 减少了幻觉,并使模型能够回答有关特定的、私有的或最新的数据问题。 ...

2024-08 · 7 分钟 · 3109 字
[Efficient Unseen Language Adaptation for Multilingual Pre-Trained Language Models 🔗](https://aclanthology.org/2024.emnlp-main.1057.pdf)

打破语言障碍:软提示(Soft Prompts)如何让 AI 高效学习未见过的语言

在自然语言处理 (NLP) 领域,像 BERT 和 XLM-R 这样的多语言预训练语言模型 (mPLMs) 堪称 AI 界的“多语言专家”。它们在大约 100 种不同语言的文本上进行训练,从而能够跨越国界执行任务——比如情感分析或主题分类。 ...

6 分钟 · 2999 字
[Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge 🔗](https://arxiv.org/abs/2402.16050)

TGB:弥合 MLLM 在长视频理解中的鸿沟

引言: “长视频”瓶颈 想象一下要求 AI 观看一部两小时的电影,并回答这个问题: “为什么主角在第二幕开门之前犹豫了?” 对于人类来说,这是一个关于感知和记忆的简单任务。但对于多模态大语言模型 (MLLM) 来说,这是一场计算噩梦。虽然 MLLM 在理解静态图像方面取得了惊人的进步,但将其应用于长视频却面临着巨大的障碍。视频包含成千上万帧图像。将所有这些帧输入到标准 MLLM 中会超出“上下文窗口” (模型一次可以处理的信息量限制) ,甚至让最强大的 GPU 也因过载而崩溃。 ...

2024-02 · 7 分钟 · 3281 字
[Efficient Sequential Decision Making with Large Language Models 🔗](https://arxiv.org/abs/2406.12125)

两全其美:结合 LLM 与上下文多臂老虎机实现高效决策

引言 在人工智能飞速发展的版图中,大型语言模型 (LLM) 已确立了其在知识和推理领域无可争议的王者地位。从编写代码到总结历史,它们的能力极其广泛。然而,在生成文本与在动态环境中采取最佳行动之间,仍存在显著的差距。 ...

2024-06 · 7 分钟 · 3455 字
[Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards 🔗](https://arxiv.org/abs/2409.12656)

AI 能追踪自身的进步吗?利用大语言模型自动构建科学排行榜

引言 我们正经历着科学研究的爆炸式增长。仅在“计算与语言”领域,每天就有大约 100 篇新论文上传到 arXiv。对于研究人员、学生或从业者来说,跟上这股信息洪流不仅是困难的——这在人力上几乎是不可能的。 ...

2024-09 · 8 分钟 · 3787 字
[Efficient Overshadowed Entity Disambiguation by Mitigating Shortcut Learning 🔗](https://aclanthology.org/2024.emnlp-main.855.pdf)

打破习惯——反事实训练如何修复实体消歧

如果你读到这句话: “迈克尔·乔丹发表了一篇关于机器学习的新论文”,你会想到谁? 如果你像大多数人一样——更重要的是,像大多数机器学习模型一样——你可能立刻想到了那位篮球传奇人物,芝加哥公牛队的 23 号。但你错了。这句话指的是 Michael I. Jordan,加州大学伯克利分校著名的计算机科学教授。 ...

7 分钟 · 3372 字
[Efficient LLM Comparative Assessment: A Product of Experts Framework for Pairwise Comparisons 🔗](https://arxiv.org/abs/2405.05894)

LLM 评判 LLM:如何利用专家乘积框架高效地对文本进行排名

随着大型语言模型 (LLM) 在自然语言处理领域占据主导地位,一个同样困难的次生问题随之出现: 我们该如何评估它们? 当 LLM 生成摘要、故事或一行对话时,很少有一个单一的“正确”答案。传统的指标如 BLEU 或 ROUGE 依赖于与参考文本的词重叠度,往往无法捕捉连贯性、创造力或有用性等细微差别。这导致了 LLM-as-a-judge (LLM 作为裁判) 的兴起,即我们使用更强的模型 (如 GPT-4 或 Llama-2-Chat) 来给其他模型的输出打分。 ...

2024-05 · 7 分钟 · 3166 字
[Effective Synthetic Data and Test-Time Adaptation for OCR Correction 🔗](https://aclanthology.org/2024.emnlp-main.862.pdf)

修复历史的错别字——合成数据与自校正如何彻底改变 OCR

引言 想象一下走进一座收藏了人类历史上所有书籍的图书馆。现在,再想象一下其中数百万本书的页面上充满了乱码。“The cat sat on the mat” (猫坐在垫子上) 可能被显示为“The c@t s4t on tbe mAt”。这就是数字人文领域目前的现状。 ...

8 分钟 · 3607 字