[Leveraging pre-trained language models for linguistic analysis: A case of argument structure constructions 🔗](https://aclanthology.org/2024.emnlp-main.415.pdf)

AI 能解决语言歧义难题吗?语言学分析中的 RoBERTa 对决 GPT-4

语言充满了玄机。请看这两个句子: She ran to the mountains. (她跑向群山。) She ran in the mountains. (她在群山中奔跑。) 从句法上看,它们几乎一模一样。两者都遵循“主语 + 动词 + 介词短语”的结构。一个基础的解析器可能会看到完全相同的树形结构: 一个名词,一个动词,和一个修饰语。 ...

6 分钟 · 2858 字
[Leveraging Large Language Models for NLG Evaluation: Advances and Challenges 🔗](https://arxiv.org/abs/2401.07103)

AI 裁判:大语言模型如何彻底变革文本评估

引言 在人工智能领域,我们见证了机器写作方式的巨大转变。从早期笨拙的聊天机器人,到 GPT-4 和 LLaMA 等模型流畅、富有创意的散文,自然语言生成 (NLG) 的发展速度惊人。但这带来了一个新的、令人困惑的问题: 我们如何知道 AI 写的东西到底“好不好”? ...

2024-01 · 7 分钟 · 3413 字
[Leveraging Estimated Transferability Over Human Intuition for Model Selection in Text Ranking 🔗](https://arxiv.org/abs/2409.16198)

超越直觉:AiRTran 如何解决文本排序中的模型选择危机

在自然语言处理 (NLP) 的现代纪元,我们的选择多得令人眼花缭乱。如果你今天打开 Hugging Face 模型中心,你会看到成千上万的模型。对于试图构建文本排序系统 (如搜索引擎或 RAG 检索增强生成流程) 的学生或从业者来说,这种丰富性创造了一个悖论。 ...

2024-09 · 7 分钟 · 3323 字
[Leveraging Context-Aware Prompting for Commit Message Generation 🔗](https://aclanthology.org/2024.emnlp-main.749.pdf)

超越 Diff:基于图的上下文如何改进自动生成的提交信息

如果你是一名软件开发人员,或者正在学习成为一名开发人员,你可能对“周五下午的提交”并不陌生。你刚刚完成了一个复杂的错误修复,身心俱疲,最不想做的事情就是写一段详细的解释,说明 为什么 你修改了这十行代码。于是你输入 git commit -m "fix bug" 然后就下班了。 ...

8 分钟 · 3571 字
[Leveraging Conflicts in Social Media Posts: Unintended Offense Dataset 🔗](https://aclanthology.org/2024.emnlp-main.259.pdf)

超越脏话:教 AI 检测社交媒体中的非故意冒犯

引言 想象一下,你正在浏览 Twitter (现在的 X) 。你看到一个帖子,用户 A 发表了一条关于饮食和锻炼的评论。这看起来似乎无伤大雅。但随后,用户 B 愤怒地回复,声称用户 A 在对其进行身材羞辱 (body-shaming) 。用户 A 感到困惑,回复道: “我不是故意要冒犯你;我只是分享医生告诉我的话。” ...

9 分钟 · 4012 字
[Leveraging BERT and TFIDF Features for Short Text Clustering via Alignment-Promoting Co-Training 🔗](https://aclanthology.org/2024.emnlp-main.828.pdf)

两全其美:融合 BERT 和 TFIDF 实现卓越的短文本聚类

引言 在自然语言处理 (NLP) 领域,我们通常将进步视为一条直线: 从词袋模型 (Bag-of-Words) 到 Word2Vec,再到像 BERT 这样的 Transformer 模型。通常的假设是,较新的模型会淘汰旧的技术。既然 BERT 能够理解深层的上下文语义,为什么还要用 TFIDF 来统计词频呢? ...

7 分钟 · 3112 字
[Let’s discuss! Quality Dimensions and Annotated Datasets for Computational Argument Quality Assessment 🔗](https://aclanthology.org/2024.emnlp-main.1155.pdf)

解码说服力:深入探究计算论辩质量评估

引言 在民主社会中,论辩 (Argumentation) 是决策的基石。无论是政治家倡导政策变革,学生撰写议论文,还是论坛用户试图改变他人的观点,有效辩论的能力都是一项关键素养。 ...

8 分钟 · 3664 字
[Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models 🔗](https://arxiv.org/abs/2407.01906)

LLM 的精准手术:专家专用微调如何彻底改变 MoE 适配

大语言模型 (LLM) 的发展格局目前正受到两股相互冲突力量的定义: 对大规模参数的追求与有限计算资源的制约。我们希望模型无所不知,但我们并不总是有足够的硬件来训练它们。 ...

2024-07 · 8 分钟 · 3699 字
[Let Me Teach You: Pedagogical Foundations of Feedback for Language Models 🔗](https://arxiv.org/abs/2307.00279)

从训练到教学:将教育科学应用于 LLM 反馈机制

我们训练大型语言模型 (LLMs) 的方式正在进化。在早期,一切都是关于海量数据集上的下一个 Token 预测 (next-token prediction) 。随后是对齐 (alignment) 时代,我们开始主要通过基于人类反馈的强化学习 (RLHF) 告诉模型我们实际上希望它们做什么。 ...

2023-07 · 7 分钟 · 3281 字
[Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning 🔗](https://arxiv.org/abs/2410.15148)

解决迁移学习悖论:嵌入空间映射如何在几秒钟内找到完美任务

在自然语言处理 (NLP) 的世界里,我们正处于一个资源极其丰富的时代。我们拥有像 BERT 和 RoBERTa 这样的大型预训练模型,也有像 HuggingFace Hub 这样托管着数十万个数据集的平台。 理论上,这是一个金矿。如果你正在构建一个模型来检测推文中的情绪,但手头的标注数据很少,那么直接微调原始的 BERT 模型可能不是最佳选择。相反,你应该寻找一个“垫脚石”——即一个中间任务。也许先在电影评论情感数据集上微调 BERT,然后再在你的推文情绪数据上微调,会产生更好的结果。 ...

2024-10 · 7 分钟 · 3330 字
[Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA 🔗](https://arxiv.org/abs/2406.17419)

超越大海捞针:为何当前长上下文 LLM 难以胜任现实世界的多文档任务

大型语言模型 (LLM) 更长上下文窗口的竞赛已成为过去一年的决定性趋势之一。我们从只能阅读几页内容的模型,迅速发展到像 Gemini-1.5-Pro 和 GPT-4o 这样的模型,它们号称拥有 128k、200k 甚至 100 万 token 的上下文窗口。从理论上讲,这使得 AI 能够同时摄入数百份财务报告、法律合同或学术论文,并回答有关它们的复杂问题。 ...

2024-06 · 6 分钟 · 2995 字
[Learning to Write Rationally: How Information Is Distributed in Non-Native Speakers’ Essays 🔗](https://arxiv.org/abs/2411.03550)

解码非母语者的思维:我们在学习新语言时如何分配信息?

引言: 沟通的隐形节奏 想象一下,你正试图向朋友解释一个复杂的概念。你不会脱口而出一串随机的高密度关键词,而是会控制节奏。你会把复杂的术语与简单的解释混合在一起;你会构建句子结构,让听众能预测你接下来的内容。这种本能的节奏控制正是语言学家所说的信息分布 (Information Distribution) 。 ...

2024-11 · 3 分钟 · 1170 字
[Learning to Retrieve Iteratively for In-Context Learning 🔗](https://arxiv.org/abs/2406.14739)

超越 Top-K:利用迭代检索与强化学习构建更好的提示词

简介 在大语言模型 (LLM) 时代, 上下文学习 (In-Context Learning, ICL) 已成为一种主导范式。其理念看似简单: 你无需微调模型的权重,只需在提示词 (Prompt) 中提供几个例子 (范例) ,模型就能学会其中的模式。 ...

2024-06 · 7 分钟 · 3326 字
[Learning to Rank Salient Content for Query-focused Summarization 🔗](https://arxiv.org/abs/2411.00324)

排名至关重要——学习排序如何改进面向查询的摘要生成

引言 想象一下,你拿到了一份长达 50 页的企业会议记录,并被问到一个问题: “为什么市场部在预算问题上不同意工程部的意见?” 为了回答这个问题,你不会去总结整个会议。你不会关心开场的寒暄、茶歇时的闲聊,或者无关的 IT 更新。你会快速扫描文档,识别出市场部和工程部讨论财务的具体片段,按重要性对它们进行排序,然后综合出一个答案。 ...

2024-11 · 8 分钟 · 3964 字
[Learning to Extract Structured Entities Using Language Models 🔗](https://arxiv.org/abs/2402.04437)

超越三元组:利用结构化实体和 MuSEE 彻底变革信息抽取

在互联网上浩瀚的非结构化文本海洋中——维基百科页面、新闻文章、财务报告——蕴藏着等待被组织的宝贵数据。多年来,信息抽取 (Information Extraction, IE) 领域一直是这个数字时代的“矿工”,通过挖掘段落来寻找事物之间的关系。 ...

2024-02 · 8 分钟 · 3841 字
[Learning to Correct for QA Reasoning with Black-box LLMs 🔗](https://arxiv.org/abs/2406.18695)

CoBB:如何在不访问权重的情况下修复黑盒 LLM 的错误

简介 在当前的人工智能领域,大型语言模型 (LLM) 如 GPT-4、Claude 和 Gemini 已经变得无处不在。它们拥有令人难以置信的推理能力,但仍然容易出现幻觉、偏见和推理错误。对于研究人员和工程师来说,解决这些错误的标准方案通常是微调或引导模型。 ...

2024-06 · 7 分钟 · 3333 字
[Learning from Natural Language Explanations for Generalizable Entity Matching 🔗](https://arxiv.org/abs/2406.09330)

解释能教会小模型泛化吗?实体匹配深度解析

想象你是一家大型电商聚合平台的数据科学家。你拥有一个来自亚马逊的产品数据库,以及另一个来自 Google Shopping 的数据库。你的任务是将它们合并。 一边,你有一条记录: iPhone 13, 128GB, Midnight。 另一边是: Apple iPhone 13 - Black - 128 GB Storage。 ...

2024-06 · 7 分钟 · 3413 字
[Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing 🔗](https://arxiv.org/abs/2402.00658)

将系统2思维融入大语言模型:离线模拟如何提升推理能力

将系统2思维融入大语言模型: 离线模拟如何提升推理能力 像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而,当涉及到严谨的逻辑推理或复杂的多步数学运算时,它们往往会露出马脚。模型可能会产生事实幻觉,进行不合逻辑的跳跃,或者干脆在不理解“为什么”的情况下猜测最终答案。 ...

2024-02 · 6 分钟 · 2980 字
[Learning Personalized Alignment in Evaluating Open-ended Text Generation 🔗](https://arxiv.org/abs/2310.03304)

超越平均用户:PERSE 如何教会 AI 像人类一样评估文本

在人工智能领域,我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中,我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢? ...

2023-10 · 7 分钟 · 3292 字
[Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case Reformulation 🔗](https://arxiv.org/abs/2406.19760)

解锁司法公正:大语言模型与法律知识如何彻底变革案例检索

解锁司法公正: 大语言模型与法律知识如何彻底变革案例检索 在法律界,stare decisis (遵循先例) ——即坚持已决事项——是一个基本原则。对于法官和律师而言,寻找相关先例不仅仅是一项研究任务,更是维护司法公正的关键要求。如果法官无法找到与当前案件相呼应的过往案例,法律的一致性将面临风险。 ...

2024-06 · 8 分钟 · 3890 字