[Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning 🔗](https://arxiv.org/abs/2405.03279)

LLM 能终身学习吗?深度解析 RECIPE:终身模型编辑的新标准

想象一下,你训练了一个最先进的大型语言模型 (LLM) 。它能说流利的英语,会写 Python 代码,还能理解复杂的逻辑推理。但有一个问题: 它仍然认为英国首相是鲍里斯·约翰逊,或者它不知道昨天发生的重大地缘政治事件。 ...

2024-05 · 9 分钟 · 4054 字
[Lifelong Event Detection via Optimal Transport 🔗](https://arxiv.org/abs/2410.08905)

最优传输如何防止 AI 遗忘——深入解读 LEDOT

想象一下,你正在尝试学习一门新语言。你花了几个月的时间精通了法语。然后,你决定学习西班牙语。但问题来了: 当你开始进行西班牙语动词变位时,你莫名其妙地忘记了你学过的所有法语单词。 ...

2024-10 · 8 分钟 · 3516 字
[Lexically Grounded Subword Segmentation 🔗](https://arxiv.org/abs/2406.13560)

让分词回归语义:一种基于词汇语义的方法

在自然语言处理 (NLP) 的世界里,我们经常惊叹于 Transformer 等大型语言模型 (LLM) 的复杂架构。我们分析注意力机制、前馈网络和巨大的参数量。然而,我们经常忽略这些模型那个朴实无华的“前门”: 分词 (Tokenization) 。 ...

2024-06 · 7 分钟 · 3177 字
[Leveraging pre-trained language models for linguistic analysis: A case of argument structure constructions 🔗](https://aclanthology.org/2024.emnlp-main.415.pdf)

AI 能解决语言歧义难题吗?语言学分析中的 RoBERTa 对决 GPT-4

语言充满了玄机。请看这两个句子: She ran to the mountains. (她跑向群山。) She ran in the mountains. (她在群山中奔跑。) 从句法上看,它们几乎一模一样。两者都遵循“主语 + 动词 + 介词短语”的结构。一个基础的解析器可能会看到完全相同的树形结构: 一个名词,一个动词,和一个修饰语。 ...

6 分钟 · 2858 字
[Leveraging Large Language Models for NLG Evaluation: Advances and Challenges 🔗](https://arxiv.org/abs/2401.07103)

AI 裁判:大语言模型如何彻底变革文本评估

引言 在人工智能领域,我们见证了机器写作方式的巨大转变。从早期笨拙的聊天机器人,到 GPT-4 和 LLaMA 等模型流畅、富有创意的散文,自然语言生成 (NLG) 的发展速度惊人。但这带来了一个新的、令人困惑的问题: 我们如何知道 AI 写的东西到底“好不好”? ...

2024-01 · 7 分钟 · 3413 字
[Leveraging Estimated Transferability Over Human Intuition for Model Selection in Text Ranking 🔗](https://arxiv.org/abs/2409.16198)

超越直觉:AiRTran 如何解决文本排序中的模型选择危机

在自然语言处理 (NLP) 的现代纪元,我们的选择多得令人眼花缭乱。如果你今天打开 Hugging Face 模型中心,你会看到成千上万的模型。对于试图构建文本排序系统 (如搜索引擎或 RAG 检索增强生成流程) 的学生或从业者来说,这种丰富性创造了一个悖论。 ...

2024-09 · 7 分钟 · 3323 字
[Leveraging Context-Aware Prompting for Commit Message Generation 🔗](https://aclanthology.org/2024.emnlp-main.749.pdf)

超越 Diff:基于图的上下文如何改进自动生成的提交信息

如果你是一名软件开发人员,或者正在学习成为一名开发人员,你可能对“周五下午的提交”并不陌生。你刚刚完成了一个复杂的错误修复,身心俱疲,最不想做的事情就是写一段详细的解释,说明 为什么 你修改了这十行代码。于是你输入 git commit -m "fix bug" 然后就下班了。 ...

8 分钟 · 3571 字
[Leveraging Conflicts in Social Media Posts: Unintended Offense Dataset 🔗](https://aclanthology.org/2024.emnlp-main.259.pdf)

超越脏话:教 AI 检测社交媒体中的非故意冒犯

引言 想象一下,你正在浏览 Twitter (现在的 X) 。你看到一个帖子,用户 A 发表了一条关于饮食和锻炼的评论。这看起来似乎无伤大雅。但随后,用户 B 愤怒地回复,声称用户 A 在对其进行身材羞辱 (body-shaming) 。用户 A 感到困惑,回复道: “我不是故意要冒犯你;我只是分享医生告诉我的话。” ...

9 分钟 · 4012 字
[Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training 🔗](https://aclanthology.org/2024.emnlp-main.828.pdf)

两全其美:融合 BERT 和 TFIDF 实现卓越的短文本聚类

引言 在自然语言处理 (NLP) 领域,我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec,再到像 BERT 这样的 Transformer 模型。通常的假设是,较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义,为什么还要用 TFIDF 来统计词频呢? ...

7 分钟 · 3112 字
[Let’s discuss! Quality Dimensions and Annotated Datasets for Computational Argument Quality Assessment 🔗](https://aclanthology.org/2024.emnlp-main.1155.pdf)

解码说服力:深入探究计算论辩质量评估

引言 在民主社会中,论辩 (Argumentation) 是决策的基石。无论是政治家倡导政策变革,学生撰写议论文,还是论坛用户试图改变他人的观点,有效辩论的能力都是一项关键素养。 ...

8 分钟 · 3664 字
[Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models 🔗](https://arxiv.org/abs/2407.01906)

LLM 的精准手术:专家专用微调如何彻底改变 MoE 适配

大语言模型 (LLM) 的发展格局目前正受到两股相互冲突力量的定义: 对大规模参数的追求与有限计算资源的制约。我们希望模型无所不知,但我们并不总是有足够的硬件来训练它们。 ...

2024-07 · 8 分钟 · 3699 字
[Let Me Teach You: Pedagogical Foundations of Feedback for Language Models 🔗](https://arxiv.org/abs/2307.00279)

从训练到教学:将教育科学应用于 LLM 反馈机制

我们训练大型语言模型 (LLMs) 的方式正在进化。在早期,一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代,我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。 ...

2023-07 · 7 分钟 · 3281 字
[Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning 🔗](https://arxiv.org/abs/2410.15148)

解决迁移学习悖论:嵌入空间映射如何在几秒钟内找到完美任务

在自然语言处理 (NLP) 的世界里,我们正处于一个资源极其丰富的时代。我们拥有像 BERT 和 RoBERTa 这样的大型预训练模型,也有像 HuggingFace Hub 这样托管着数十万个数据集的平台。 理论上,这是一个金矿。如果你正在构建一个模型来检测推文中的情绪,但手头的标注数据很少,那么直接微调原始的 BERT 模型可能不是最佳选择。相反,你应该寻找一个“垫脚石”——即一个中间任务。也许先在电影评论情感数据集上微调 BERT,然后再在你的推文情绪数据上微调,会产生更好的结果。 ...

2024-10 · 7 分钟 · 3330 字
[Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA 🔗](https://arxiv.org/abs/2406.17419)

超越大海捞针:为何当前长上下文 LLM 难以胜任现实世界的多文档任务

大型语言模型 (LLM) 更长上下文窗口的竞赛已成为过去一年的决定性趋势之一。我们从只能阅读几页内容的模型,迅速发展到像 Gemini-1.5-Pro 和 GPT-4o 这样的模型,它们号称拥有 128k、200k 甚至 100 万 token 的上下文窗口。从理论上讲,这使得 AI 能够同时摄入数百份财务报告、法律合同或学术论文,并回答有关它们的复杂问题。 ...

2024-06 · 6 分钟 · 2995 字
[Learning to Write Rationally: How Information Is Distributed in Non-Native Speakers’ Essays 🔗](https://arxiv.org/abs/2411.03550)

解码非母语者的思维:我们在学习新语言时如何分配信息?

引言: 沟通的隐形节奏 想象一下,你正试图向朋友解释一个复杂的概念。你不会脱口而出一串随机的高密度关键词,而是会控制节奏。你会把复杂的术语与简单的解释混合在一起;你会构建句子结构,让听众能预测你接下来的内容。这种本能的节奏控制正是语言学家所说的信息分布 (Information Distribution) 。 ...

2024-11 · 3 分钟 · 1170 字
[Learning to Retrieve Iteratively for In-Context Learning 🔗](https://arxiv.org/abs/2406.14739)

超越 Top-K:利用迭代检索与强化学习构建更好的提示词

简介 在大语言模型 (LLM) 时代, 上下文学习 (In-Context Learning, ICL) 已成为一种主导范式。其理念看似简单: 你无需微调模型的权重,只需在提示词 (Prompt) 中提供几个例子 (范例) ,模型就能学会其中的模式。 ...

2024-06 · 7 分钟 · 3326 字
[Learning to Rank Salient Content for Query-focused Summarization 🔗](https://arxiv.org/abs/2411.00324)

排名至关重要——学习排序如何改进面向查询的摘要生成

引言 想象一下,你拿到了一份长达 50 页的企业会议记录,并被问到一个问题: “为什么市场部在预算问题上不同意工程部的意见?” 为了回答这个问题,你不会去总结整个会议。你不会关心开场的寒暄、茶歇时的闲聊,或者无关的 IT 更新。你会快速扫描文档,识别出市场部和工程部讨论财务的具体片段,按重要性对它们进行排序,然后综合出一个答案。 ...

2024-11 · 8 分钟 · 3964 字
[Learning to Extract Structured Entities Using Language Models 🔗](https://arxiv.org/abs/2402.04437)

超越三元组:利用结构化实体和 MuSEE 彻底变革信息抽取

在互联网上浩瀚的非结构化文本海洋中——维基百科页面、新闻文章、财务报告——蕴藏着等待被组织的宝贵数据。多年来,信息抽取 (Information Extraction, IE) 领域一直是这个数字时代的“矿工”,通过挖掘段落来寻找事物之间的关系。 ...

2024-02 · 8 分钟 · 3841 字
[Learning to Correct for QA Reasoning with Black-box LLMs 🔗](https://arxiv.org/abs/2406.18695)

CoBB:如何在不访问权重的情况下修复黑盒 LLM 的错误

简介 在当前的人工智能领域,大型语言模型 (LLM) 如 GPT-4、Claude 和 Gemini 已经变得无处不在。它们拥有令人难以置信的推理能力,但仍然容易出现幻觉、偏见和推理错误。对于研究人员和工程师来说,解决这些错误的标准方案通常是微调或引导模型。 ...

2024-06 · 7 分钟 · 3333 字
[Learning from Natural Language Explanations for Generalizable Entity Matching 🔗](https://arxiv.org/abs/2406.09330)

解释能教会小模型泛化吗?实体匹配深度解析

想象你是一家大型电商聚合平台的数据科学家。你拥有一个来自亚马逊的产品数据库,以及另一个来自 Google Shopping 的数据库。你的任务是将它们合并。 一边,你有一条记录: iPhone 13, 128GB, Midnight。 另一边是: Apple iPhone 13 - Black - 128 GB Storage。 ...

2024-06 · 7 分钟 · 3413 字