[ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator 🔗](https://arxiv.org/abs/2405.18111)

如何驯服噪声:利用对抗性多智能体微调打造鲁棒的 RAG 系统

引言 在当前的人工智能领域,像 GPT-4 和 Llama 这样的大型语言模型 (LLMs) 展现了极其强大的能力。然而,它们都有一个众所周知的缺陷: 幻觉 (hallucinations) 。当 LLM 不知道答案时,它往往会编造一个。为了解决这个问题,业界采用了检索增强生成 (Retrieval-Augmented Generation, RAG) 技术。 ...

2024-05 · 7 分钟 · 3432 字
[ATAP: Automatic Template-Augmented Commonsense Knowledge Graph Completion via Pre-Trained Language Models 🔗](https://aclanthology.org/2024.emnlp-main.919.pdf)

跨越鸿沟:ATAP 如何利用连续提示自动化常识推理

引言 想象一下教计算机“雨伞是用来挡雨的”。对人类来说,这显而易见——这是常识。但对计算机来说,这种关系必须被明确教授或推断出来。我们通常将这类信息存储在常识知识图谱 (Commonsense Knowledge Graphs, CKGs) 中,它将数据结构化为类似 (雨伞, UsedFor, 雨) 的三元组。 ...

7 分钟 · 3162 字
[ASL STEM Wiki: Dataset and Benchmark for Interpreting STEM Articles 🔗](https://arxiv.org/abs/2411.05783)

填补鸿沟:AI、ASL 与 STEM 教育的挑战

试想一下,当你试图学习高等量子物理或有机化学时,每当出现“电磁学”或“光合作用”这样的专业术语时,你的老师就会停下来,一个字母一个字母地慢慢拼写出这个单词。这正是许多失聪和听力障碍 (DHH) 学生面临的现实。虽然美国手语 (ASL) 是一种丰富且表现力强的语言,但它在 STEM 教育中面临着一个巨大的瓶颈: 缺乏针对技术概念的标准化手语。 ...

2024-11 · 6 分钟 · 2931 字
[ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings 🔗](https://arxiv.org/abs/2402.16006)

打破常规:如何通过翻译嵌入创建流畅的 LLM 越狱攻击

引言 像 ChatGPT、Llama 和 Vicuna 这样的大型语言模型 (LLMs) 的迅速崛起,彻底改变了自动文本生成的格局。然而,能力越大,漏洞也越大。这些模型经过训练,拥有拒绝有害指令的安全护栏——这一过程被称为对齐 (alignment) 。对于安全研究人员来说,目标是通过“越狱”攻击来测试这些护栏,探索是否能诱导模型生成危险内容。 ...

2024-02 · 6 分钟 · 2821 字
[ARM: An Alignment-and-Replacement Module for Chinese Spelling Check Based on LLMs 🔗](https://aclanthology.org/2024.emnlp-main.567.pdf)

驯服 LLM:ARM 如何将大型语言模型整合进中文拼写纠错

简介 想象一下你正在用中文给朋友发短信。你想说“我睡得太熟了”,但你不小心打错了一个字,这个字听起来很像但意思完全不同。在中文里,成千上万的汉字拥有相似的发音 (同音字) 或视觉结构,这是一种持续存在的困扰。这就是中文拼写纠错 (Chinese Spelling Check, CSC) 的领域。 ...

8 分钟 · 3854 字
[APPLS: Evaluating Evaluation Metrics for Plain Language Summarization 🔗](https://arxiv.org/abs/2305.14341)

AI 能判断“简单”吗?深入解读平实语言摘要评估平台 APPLS

科学界存在沟通难题。虽然研究人员正以前所未有的速度取得突破,但由此产生的论文往往晦涩难懂、充满术语,令普通大众望而却步。这种鸿沟催生了平实语言摘要 (Plain Language Summarization, PLS) 的任务——将复杂的科学摘要重写为非专业人士也能理解的清晰、易懂的语言。 ...

2023-05 · 6 分钟 · 2675 字
[AMR-Evol: Adaptive Modular Response Evolution Elicits Better Knowledge Distillation for Large Language Models in Code Generation 🔗](https://arxiv.org/abs/2410.00558)

打造更好的代码模型:AMR-Evol 如何修正知识蒸馏

引言 在当前的人工智能领域,GPT-4、Gemini 和 Claude 等专有大型语言模型 (LLMs) 在排行榜上独占鳌头,尤其是在代码生成方面。它们编写复杂 Python 脚本或调试软件的能力令人印象深刻。然而,它们的闭源性质引发了关于数据隐私、成本和可访问性的担忧。 ...

2024-10 · 7 分钟 · 3148 字
[AMPO: Automatic Multi-Branched Prompt Optimization 🔗](https://arxiv.org/abs/2410.08696)

超越线性思维:AMPO 如何利用多分支逻辑彻底变革提示工程

引言: “一刀切”的问题 在大语言模型 (LLM) 飞速发展的今天,提示工程 (Prompt Engineering) 已然成为一门艺术。我们花费数小时精心打磨完美的指令,微调形容词,加上“让我们一步步思考 (Let’s think step by step) ”,只为从 GPT-4 等模型中榨取更好的性能。 ...

2024-10 · 7 分钟 · 3205 字
[ALVIN: Active Learning Via INterpolation 🔗](https://arxiv.org/abs/2410.08972)

打破捷径:ALVIN 如何通过插值彻底变革主动学习

引言 在大语言模型 (LLM) 时代,我们经常惊叹于其零样本 (zero-shot) 能力。然而,对于关键应用而言,有监督微调仍然是黄金标准。挑战一如既往,在于数据。收集高质量的标注数据既昂贵、缓慢,又是劳动密集型的工作。这种“标注瓶颈”正是主动学习 (Active Learning, AL) 背后的主要驱动力。 ...

2024-10 · 7 分钟 · 3451 字
[AKEW: Assessing Knowledge Editing in the Wild 🔗](https://arxiv.org/abs/2402.18909)

野外环境下的知识编辑:为何对大模型进行“手术”比预想中更难

大型语言模型 (LLMs) 仿佛被冻结在时间的长河中。当像 GPT-4 或 Llama 2 这样的模型完成训练时,它们对世界的认知就锁定在了那一刻。但世界并没有停下脚步。总统更迭、公司合并、科学发现推翻旧理论,时刻都在发生。 ...

2024-02 · 8 分钟 · 3520 字
[AGRAME: Any-Granularity Ranking with Multi-Vector Embeddings 🔗](https://arxiv.org/abs/2405.15028)

放大细节:AGRAME 如何利用单层级编码实现多粒度搜索

搜索引擎已经发生了巨大的演变,但它们经常遭受“分辨率”问题的困扰。想象一下你在大海捞针。大多数现代检索系统非常擅长把干草堆 (文档或段落) 交给你,但如果不进行昂贵的重新索引,它们很难精确定位那根针 (特定的句子或事实) 。 ...

2024-05 · 7 分钟 · 3026 字
[ACE: A LLM-based Negotiation Coaching System 🔗](https://arxiv.org/abs/2410.01555)

掌握成交之道:AI 如何学会教授谈判技巧

谈判是现代生活中压力最大但也最不可或缺的技能之一。无论是买车、谈薪水,还是商定房租,直接为自己争取利益的能力将直接影响你的财务状况。 遗憾的是,学校里很少教授有效的谈判技巧。这是一种“条件反射式的行为习惯”,通常只能通过昂贵的 MBA 研讨会、角色扮演和专家指导来磨练。这种排他性造成了一个鸿沟: 那些最能从这些技能中受益的人群——例如女性和少数族裔,统计数据显示他们往往不习惯自我倡导——却缺乏获得高质量培训的途径。 ...

2024-10 · 6 分钟 · 2919 字
[ABSEval: An Agent-based Framework for Script Evaluation 🔗](https://aclanthology.org/2024.emnlp-main.691.pdf)

LLM 真的会规划吗?介绍 ABSEval:用于评估脚本生成的多智能体框架

大型语言模型 (LLM) 已经征服了对话领域。它们可以写诗、调试代码并总结历史。但是,如果要求 LLM 规划一系列行动——比如“如何在不弄乱的情况下用勺子打开罐头?”——你就进入了一个完全不同的领域。这就是脚本规划 (Script Planning) 的范畴。 ...

6 分钟 · 2957 字
[ABLE: Personalized Disability Support with Politeness and Empathy Integration 🔗](https://aclanthology.org/2024.emnlp-main.1252.pdf)

超越通用聊天机器人:ABLE 如何利用强化学习为残障支持带来同理心与个性化

引言 想象一下,在一个并非为你设计的世界中前行。对于全球超过十亿生活在某种形式的身体残疾中的人来说,这就是日常的现实。无论是寻找无障碍住房、管理慢性疼痛,还是应对身体受限常伴随的社交孤立,对可靠支持的需求是巨大的。 ...

7 分钟 · 3251 字
[A linguistically-motivated evaluation methodology for unraveling model's abilities in reading comprehension tasks 🔗](https://arxiv.org/abs/2501.17569)

超越排行榜:为什么大型语言模型在阅读理解上依然受挫

在自然语言处理 (NLP) 飞速发展的世界里,我们常常被现代模型的巨大规模所震撼。从 GPT-4 到 LLaMA,头条新闻总是聚焦于参数量——数十亿甚至数万亿——以及它们在标准化排行榜上的统治地位。但在该领域中,存在一个安静却持久的问题: 评估的“黑盒”性质。 ...

2025-01 · 7 分钟 · 3445 字
[A User-Centric Multi-Intent Benchmark for Evaluating Large Language Models 🔗](https://arxiv.org/abs/2404.13940)

超越标准测试:基于用户真实需求评估大语言模型

引言 想象一名学生,他在历史、数学和计算机科学的笔试中都能拿满分,但却难以进行正常的对话,无法给朋友提供建议,也想不出有创意的礼物点子。在人工智能领域,这是一个普遍存在的悖论。我们拥有的大语言模型 (LLM) 在律师资格考试或数学奥林匹克等标准化测试中能取得近乎完美的成绩,但它们有时却无法满足简单、繁杂、真实世界的用户请求。 ...

2024-04 · 7 分钟 · 3109 字
[A Usage-centric Take on Intent Understanding in E-Commerce 🔗](https://arxiv.org/abs/2402.14901)

超越“购买此商品的顾客也买了”:解锁电商中真正的用户意图

你是否曾在线搜索过“露营炉”,将其加入购物车,然后就被铺天盖地的推荐淹没——而且全是……更多的露营炉? 虽然现代电商推荐系统非常强大,但它们往往在根本上误解了用户购物的原因。它们擅长识别产品相似性 (“你喜欢这个炉子,这是另一个炉子”) 或连带购买模式 (“买了这炉子的人也买了这罐燃料”) 。然而,它们难以捕捉更广泛的用户意图 (User Intent) 。 ...

2024-02 · 7 分钟 · 3088 字
[A Two-Step Approach for Data-Efficient French Pronunciation Learning 🔗](https://arxiv.org/abs/2410.05698)

解码法语语流——一种数据高效的发音学习方法

解码法语语流: 一种数据高效的发音学习方法 如果你尝试过学习法语,你可能遇到过一种特别的挫败感。你学会了一个单词,记住了它的发音,然后当你听到母语者在句子里说这个词时,它听起来完全变了样。 ...

2024-10 · 7 分钟 · 3320 字
[A Thorough Examination of Decoding Methods in the Era of LLMs 🔗](https://arxiv.org/abs/2402.06925)

破解代码——深入探究 LLM 解码方法

当我们与 ChatGPT 或 Llama 等大型语言模型 (LLM) 交互时,我们要么把它们视为神奇的黑盒: 输入提示词,连贯的回答就出现了。然而,在底层,这些模型本质上是下一个 Token 预测器 。 它们输出的是词表中成千上万个 Token 的概率分布。 ...

2024-02 · 1 分钟 · 382 字
[A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations 🔗](https://arxiv.org/abs/2407.04069)

LLM 评估的狂野西部:为什么你的基准测试可能是错的(以及如何修复它们)

引言 我们正处于大语言模型 (LLM) 的黄金时代。每周都有新模型发布——声称比前代更快、更聪明、更强大。我们看到各种图表展示着巨大的柱状图、更高的数值,并声称在 MMLU 或 HumanEval 等基准测试中达到了“SOTA (最先进) ”的性能。 ...

2024-07 · 7 分钟 · 3046 字