[Mixture-of-Subspaces in Low-Rank Adaptation 🔗](https://arxiv.org/abs/2406.11909)

解锁 LoRA 的隐藏潜力:子空间混合方法

现代大型语言模型 (LLM) (如 GPT-4 和 LLaMA 3) 的规模令人咋舌。虽然它们的性能令人印象深刻,但为了特定的下游任务去适配这些庞然大物是一场计算噩梦。你根本无法承担为每个新任务更新所有参数的代价。 ...

2024-06 · 7 分钟 · 3120 字
[MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models 🔗](https://arxiv.org/abs/2406.08811)

超越启发式:强化学习如何通过 Mixture-of-Skills 优化 LLM 微调

训练大型语言模型 (LLM) 有点像为一位非常挑剔的食客准备一顿饭。你拥有巨大的食材库——包含数学题、编程挑战、医学文献、日常聊天记录等各种数据集。目标是“烹制”出一个能精通所有这些技能的模型。 ...

2024-06 · 6 分钟 · 2786 字
[MIXTURE-OF-MODULES: REINVENTING TRANSFORMERS AS DYNAMIC ASSEMBLIES OF MODULES 🔗](https://arxiv.org/abs/2407.06677)

打破堆叠:混合模块(Mixture-of-Modules)如何重塑 Transformer

引言 Transformer 架构已成为自然语言处理领域无可争议的王者。从最初的《Attention Is All You Need》论文到如今像 GPT-4 这样的大型语言模型 (LLM) ,其基本配方在很大程度上保持不变: 深层堆叠的相同层。数据从底部进入,逐层按顺序处理,直到从顶部输出。 ...

2024-07 · 8 分钟 · 3786 字
[Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing 🔗](https://arxiv.org/abs/2410.07054)

对 LLM 进行“脑部手术”以修复翻译故障

像 LLaMA 和 GPT 这样的大型语言模型 (LLM) 彻底改变了我们进行机器翻译 (MT) 的方式。传统的翻译系统是专门为将语言 A 转换为语言 B 而训练的,与此不同,LLM 本质上是“通晓多种语言”的。你只需让它们翻译一句话,它们通常都能做得不错。这种能力被称为上下文学习 (In-Context Learning, ICL) ,它允许模型仅根据几个示例甚至简单的指令进行翻译。 ...

2024-10 · 7 分钟 · 3401 字
[Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics 🔗](https://arxiv.org/abs/2410.10867)

打破参考摘要的束缚——一种鲁棒的无参考AI摘要评估指标

打破参考摘要的束缚: 一种鲁棒的无参考AI摘要评估指标 在自然语言处理 (NLP) 快速发展的世界中,生成式摘要 (Abstractive Summarization) ——即 AI 阅读文档并撰写简洁、原创摘要的能力——仍然是一项“圣杯”级任务。然而,构建这些系统只是战斗的一半。另一半,往往更加棘手,那就是评估它们。我们要如何知道一篇摘要是否真的好? ...

2024-10 · 10 分钟 · 4561 字
[Mitigating the Alignment Tax of RLHF 🔗](https://arxiv.org/abs/2309.06256)

礼貌的代价:如何在不让 LLM 遗忘的情况下进行对齐

像 GPT-4 和 Claude 这样的大语言模型 (LLM) 之所以引人注目,不仅因为它们能够生成文本,更因为它们能够遵循指令并遵守人类价值观——这一过程被称为“对齐” (Alignment) 。然而,这种对齐是有隐性成本的。当我们使用基于人类反馈的强化学习 (RLHF) 来教导模型变得“有用、诚实且无害”时,往往会导致灾难性遗忘 (catastrophic forgetting) 。模型可能变得彬彬有礼,但它在翻译、阅读理解或常识推理方面的表现却突然下降了。 ...

2023-09 · 6 分钟 · 2936 字
[Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging 🔗](https://arxiv.org/abs/2410.03743)

数据顺序重要吗?利用参数选择合并提升 LLM 性能

在大语言模型 (LLM) 的世界里,有监督微调 (SFT) 是将预训练基础模型适配到特定任务 (无论是数学推理、编程还是遵循指令) 的标准流程。普遍共识是,只要我们打乱训练数据并运行足够的 epoch,模型就能有效地学习。 ...

2024-10 · 8 分钟 · 3592 字
[Mitigating Open-Vocabulary Caption Hallucinations 🔗](https://arxiv.org/abs/2312.03631)

视觉语言模型中的信任危机:MOCHa 与 OpenCHAIR 如何解决 AI 幻觉问题

图像描述 (Image captioning) 是计算机视觉与自然语言处理 (NLP) 最基础的交叉领域之一。它要求机器观察一张图像,并用人类语言描述出来。近年来,像 BLIP 和 GIT 这样的视觉语言模型 (VLMs) 已经变得非常流畅,能够生成细节丰富且语法正确的描述。 ...

2023-12 · 7 分钟 · 3464 字
[Mitigating Matthew Effect: Multi-Hypergraph Boosted Multi-Interest Self-Supervised Learning for Conversational Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.86.pdf)

打破回声室效应:HiCore 如何解决对话式 AI 中的马太效应

你是否注意过,你在流媒体服务或购物应用上使用得越多,它似乎越倾向于推荐那几样流行的东西?你看了一部大片,突然间你的整个信息流就被“Top 10”榜单占据,将那些小众的独立电影或独特的商品推向了被遗忘的角落。 ...

8 分钟 · 3972 字
[Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing 🔗](https://arxiv.org/abs/2410.11462)

句法平滑能否解决大语言模型中的罕见词问题?

引言 想象一下当你读到这句话时: “The Golden Gate Bridge has been obnebulated every morning this week, limiting visibility.” (金门大桥这周每天早上都被obnebulated了,限制了能见度。) 除非你是19世纪文学的狂热读者,否则你可能以前从未遇到过 obnebulated 这个词。然而,你可能完全理解了这句话。你知道它是一个动词 (多亏了“-ed”后缀以及它位于“has been”之后的位置) ,而且关于“visibility” (能见度) 的上下文线索表明它的意思大概是“被云遮挡”或“被雾笼罩”。 ...

2024-10 · 7 分钟 · 3487 字
[Mitigate Extrinsic Social Bias in Pre-trained Language Models via Continuous Prompts Adjustment 🔗](https://aclanthology.org/2024.emnlp-main.620.pdf)

超越手动词表:利用连续提示消除 AI 偏见

超越手动词表: 利用连续提示消除 AI 偏见 BERT 和 RoBERTa 等预训练语言模型 (PLMs) 已经彻底改变了自然语言处理 (NLP) 领域。它们是情感分析、仇恨言论检测等各种应用的中坚力量。然而,这些模型背后隐藏着一个巨大的隐患: 它们继承了海量训练数据中存在的人类偏见。 ...

8 分钟 · 3730 字
[MisinfoEval: Generative AI in the Era of 'Alternative Facts' 🔗](https://arxiv.org/abs/2410.09949)

AI 能解决假新闻吗?深入解读 MisinfoEval 与个性化事实核查的力量

引言 仅仅在十年间,信息消费的架构发生了根本性的变化。我们已经从精心策划的新闻广播时代,进入了算法“过滤气泡 (filter bubbles) ”的时代。在这个时代,社交媒体的信息流不断强化我们要有的信念,并将我们与对立观点隔绝开来。这种环境已被证明是错误信息的温床——那些耸人听闻且往往虚假的故事,传播速度和广度都远超真相。 ...

2024-10 · 7 分钟 · 3438 字
[MIRRORSTORIES: Reflecting Diversity through Personalized Narrative Generation with Large Language Models 🔗](https://arxiv.org/abs/2409.13935)

AI 能为你书写人生故事吗?MIRRORSTORIES 如何实现文学的个性化

引言: 未曾诉说之故事的痛苦 玛雅·安杰卢 (Maya Angelou) 曾经写道: “没有什么比心中怀着一个未曾诉说的故事更痛苦的了。”对于数以百万计的读者来说,这种痛苦因缺乏代表性而加剧。当你翻开一本书时,你在寻找一面镜子——一个长得像你、生活像你、面临着你能理解的困境的角色。这些被称为“镜像书籍 (mirror books) ”。它们验证身份,培养归属感,并显著提高阅读参与度,尤其是在教育领域。 ...

2024-09 · 7 分钟 · 3050 字
[MiniConGTS: A Near Ultimate Minimalist Contrastive Grid Tagging Scheme for Aspect Sentiment Triplet Extraction 🔗](https://arxiv.org/abs/2406.11234)

少即是多:MiniConGTS 如何利用极简主义和对比学习彻底变革情感分析

引言 在自然语言处理 (NLP) 的世界里,情感分析早已超越了简单地将影评分类为“正面”或“负面”。今天,我们面对的是复杂的句子,其中同时存在关于不同事物的多种观点。试想这句话: “食物很美味,但服务太糟糕了。” (“The food was delicious, but the service was terrible.”) * 如果简单地贴上“中性”的标签,那将是极具误导性的。我们需要知道什么是好的 (食物) ,以及什么*是坏的 (服务) 。 ...

2024-06 · 7 分钟 · 3213 字
[MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents 🔗](https://arxiv.org/abs/2404.10774)

MiniCheck:以极低成本实现 GPT-4 级的事实查核

引言 大型语言模型 (LLMs) 彻底改变了我们要交互信息的方式,从总结复杂的报告到回答开放式问题。然而,它们存在一个持久且众所周知的缺陷: 幻觉 (hallucination) 。 LLM 能够自信地生成听起来合理但在事实上错误的陈述。 ...

2024-04 · 8 分钟 · 3848 字
[MiddleWare for LLMs: Tools Are Instrumental for Language Agents in Complex Environments 🔗](https://arxiv.org/abs/2402.14672)

为什么 LLM 需要中间件:弥合智能体与海量数据之间的鸿沟

引言 我们已进入一个大型语言模型 (LLM) (如 GPT-4) 在文本处理上展现出类似人类掌控力的时代。它们可以总结文章、编写代码并流畅地对话。然而,人工智能研究者的野心远不止于处理文本。最终的目标是创造通用智能体 : 一种不仅能说话,还能在现实世界中行动以解决复杂任务的 AI。 ...

2024-02 · 8 分钟 · 3514 字
[MiTTenS: A Dataset for Measuring Gender Mistranslation Harms 🔗](https://arxiv.org/abs/2401.06935)

迷失在翻译中:在这个基础模型时代,我们如何衡量性别偏见

想象一下,你读到一个关于你阿姨的孟加拉语故事。原文写道: “莎拉是我的阿姨。我真的很喜欢她的笑话。”为了把这个故事分享给一位说英语的朋友,你把它粘贴到了翻译工具里。结果输出变成了: “莎拉是我的阿姨。我真的很喜欢他的笑话。” ...

2024-01 · 7 分钟 · 3396 字
[Metrics for What, Metrics for Whom: Assessing Actionability of Bias Evaluation Metrics in NLP 🔗](https://aclanthology.org/2024.emnlp-main.1207.pdf)

NLP 中的偏差度量指标已支离破碎:为何“可行动性”是缺失的一环

想象一下,你是一名机器学习工程师,负责为招聘平台部署一个大型语言模型 (LLM)。你运行了一个标准的偏差评估脚本,它返回了一个分数: 0.42 。 现在你该怎么做? ...

9 分钟 · 4164 字
[Methods for Automatic Matrix Language Determination of Code-Switched Speech 🔗](https://arxiv.org/abs/2410.02521)

解码矩阵——AI 如何确定语码转换语音中的主导语法

想象一下,你正在新加坡听一段对话。你可能会听到这样一句话: “I thought all trains 都是 via Jurong East 去到 Pasir Ris。” 对于单语者来说,这很混乱。但对于双语者来说,这非常自然。这种现象被称为语码转换 (Code-Switching, CS) ——即在一次对话中流畅地在两种或多种语言之间交替。 ...

2024-10 · 8 分钟 · 3551 字
[METAREFLECTION: Learning Instructions for Language Agents using Past Reflections 🔗](https://arxiv.org/abs/2405.13009)

代理如何从错误中学习:METAREFLECTION 介绍

想象一下你正在备考一门很难的历史考试。你在做练习题时,答错了一道关于法国大革命的题目。你不仅仅是去查那道具体题目的正确答案;你意识到自己对时间线有一个根本性的误解。于是你给自己写了一条笔记: “在确定因果关系之前,一定要检查事件的日期。” ...

2024-05 · 7 分钟 · 3040 字