[DEM: Distribution Edited Model for Training with Mixed Data Distributions 🔗](https://arxiv.org/abs/2406.15570)

停止混合数据:为什么编辑模型权重是多任务 LLM 的未来

如果你曾尝试过训练一个“全能”的大型语言模型 (LLM) ,你就知道这有多么艰难。你想要一个既能解数学题,又能写 Python 代码,还能随意聊天并进行逻辑推理的模型。 ...

2024-06 · 7 分钟 · 3488 字
[DEFT-UCS: Data Efficient Fine-Tuning for Pre-Trained Language Models via Unsupervised Core-Set Selection for Text-Editing 🔗](https://aclanthology.org/2024.emnlp-main.1132.pdf)

少即是多:DEFT-UCS 如何用少 70% 的数据微调大语言模型

引言 在当前的人工智能领域,“越大越好”往往是人们的信条。我们构建更大的模型,并投喂海量的数据。例如,微调像 Alpaca 这样的模型需要 5.2 万条指令样本;像 MetaMath 这样的数学推理模型则使用了近 40 万条样本。 ...

7 分钟 · 3132 字
[Decor: Improving Coherence in L2 English Writing with a Novel Benchmark for Incoherence Detection, Reasoning, and Rewriting 🔗](https://arxiv.org/abs/2406.19650)

超越语法:利用 DECOR 教 AI 修正学生写作中的连贯性问题

引言 试想一下,你正在阅读一篇作文,里面的每一个句子在语法上都完美无缺,但这整段话读起来却让人一头雾水。观点跳跃不定,代词似乎指代不明,论证缺乏逻辑流畅性。这就是连贯性 (Coherence) 的缺失。 ...

2024-06 · 7 分钟 · 3217 字
[DC-Instruct: An Effective Framework for Generative Multi-intent Spoken Language Understanding 🔗](https://aclanthology.org/2024.emnlp-main.804.pdf)

DC-Instruct 如何教导 LLM 在多意图口语理解中进行推理

在快节奏的对话式人工智能世界中,系统理解人类语言的能力至关重要。当我们与 Siri、Alexa 或客户服务机器人等数字助理交谈时,我们要么很少使用简单的单一指令。我们往往会组合请求、增加限制条件并在句中切换上下文。对于机器来说,将“预订去纽约的航班”与“预订去纽约的航班,并帮我在机场附近找一家酒店”区分开来,涉及复杂的推理。 ...

8 分钟 · 3670 字
[DAMRO: Dive into the Attention Mechanism of LVLM to Reduce Object Hallucination 🔗](https://arxiv.org/abs/2410.04514)

修复视觉语言幻觉:深度探究注意力机制 (DAMRO)

在快速发展的人工智能领域,大型视觉语言模型 (LVLM) 如 LLaVA 和 InstructBLIP 已成为超级明星。它们能够观察图像、理解内容,并用流畅的自然语言进行描述。如果你让它们描述一个厨房,它们会告诉你关于冰箱、炉灶和果盘的信息。 ...

2024-10 · 6 分钟 · 2921 字
[DA³: A Distribution-Aware Adversarial Attack against Language Models 🔗](https://aclanthology.org/2024.emnlp-main.107.pdf)

隐形攻击者:DA³ 如何生成难以检测的对抗样本

语言模型 (LMs) 已经无处不在,从客户服务聊天机器人到代码生成工具,它们为各种应用提供动力。然而,尽管能力惊人,它们却有一个显著的弱点: 对抗攻击 (adversarial attacks) 。 通过对输入句子进行细微的更改——这些更改通常是人类难以察觉的——攻击者可以诱骗模型做出完全错误的预测。 ...

7 分钟 · 3342 字
[DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models 🔗](https://arxiv.org/abs/2410.07331)

AI 能成为你的数据科学家吗?深入解析 DA-Code 基准测试

数据科学家的角色常被戏称为“21世纪最性感的职业”。它需要一种独特的技能组合: 统计学知识、编程能力 (通常是 Python 或 SQL) 、商业敏锐度,以及将混乱的非结构化数据整理成可操作洞察的能力。 ...

2024-10 · 8 分钟 · 3517 字
[D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation 🔗](https://arxiv.org/abs/2404.10857)

超越多数票原则:文化与道德如何塑造我们对冒犯性的认知

想象一下,你正刷着社交媒体,看到一条关于敏感政治话题的评论。你可能会耸耸肩,觉得这不过是个无伤大雅的观点。然而,你的朋友可能会觉得它极具冒犯性。现在,再想象一下,第三个人正在开罗的咖啡馆、东京的地铁或圣保罗的客厅里阅读同一条评论。 ...

2024-04 · 7 分钟 · 3384 字
[Curriculum Consistency Learning for Conditional Sentence Generation 🔗](https://aclanthology.org/2024.emnlp-main.768.pdf)

攻克难题:课程一致性学习如何优化AI训练

引言 在人类教育的世界里,我们不会教幼儿园的孩子微积分。我们遵循课程 (Curriculum) : 一种结构化的路径,从简单的概念开始,随着学生熟练程度的提高逐渐引入复杂性。这种方法确保学习者在解决难题之前建立坚实的基础。 ...

7 分钟 · 3235 字
[Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting 🔗](https://arxiv.org/abs/2406.11661)

你的 LLM 是有文化偏见还是单纯困惑?AI 提示中的安慰剂效应

你的 LLM 是有文化偏见还是单纯困惑?AI 提示中的安慰剂效应 大型语言模型 (LLM) 是现代互联网的引擎,但它们有一个众所周知的问题: 它们倾向于透过西方、盎格鲁中心的视角来看待世界。如果你让一个 LLM 评判某种社交场合或写一个故事,它通常会默认采用美国或欧洲的规范。 ...

2024-06 · 8 分钟 · 3512 字
[CryptoTrade: A Reflective LLM-based Agent to Guide Zero-shot Cryptocurrency Trading 🔗](https://aclanthology.org/2024.emnlp-main.63.pdf)

LLM 能战胜加密市场吗?深入解析 CryptoTrade 智能体

加密货币世界通常被形容为金融界的“狂野西部”。它的特点是极端波动、全天候的新闻周期,以及被称为“链上数据”的独特透明层。对于研究人员和交易员来说,圣杯一直是如何预测这些市场走势。 ...

8 分钟 · 3527 字
[Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages 🔗](https://arxiv.org/abs/2410.03197)

打破语言障碍:QuIST 如何教 AI 用任何语言提问

引言 在自然语言处理 (NLP) 飞速发展的今天,我们往往认为数据的丰富性是理所当然的——尤其是对于英语而言。如果你想训练一个聊天机器人来回答有关英语历史、科学或流行文化的问题,你可以利用 SQuAD 或 HotpotQA 这样的大型数据集。但是,如果你想为斯瓦希里语、芬兰语或孟加拉语构建同样的系统,会发生什么呢? ...

2024-10 · 8 分钟 · 3894 字
[Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing 🔗](https://arxiv.org/abs/2410.00513)

利用跨语言反向解析打破语义解析的语言障碍

想象一下,你构建了一个复杂的 AI 助手,它能够查询复杂的数据库。当你问它: “告诉我距离 Melania 最近的酒店”时,它会将你的英文请求转换成精确的数据库查询语句 (如 SQL) 并检索答案。这项技术被称为语义解析 (Semantic Parsing, SP) 。 ...

2024-10 · 6 分钟 · 2894 字
[Cross-domain NER with Generated Task-Oriented Knowledge: An Empirical Study from Information Density Perspective 🔗](https://aclanthology.org/2024.emnlp-main.95.pdf)

教模型学会推理:LLM 生成的知识如何解决跨域 NER 问题

教模型学会推理: LLM 生成的知识如何解决跨域 NER 问题 想象一下,你训练了一个聪明的助手,让他阅读《纽约时报》并高亮标出政治家和公司的名字。他们对此非常擅长。然后,你递给他们一篇关于量子物理的技术论文,或者一个关于 K-Pop 的粉丝论坛,要求他们做同样的事情。突然间,他们不知所措了。“‘叠加态 (superposition) ’是一个地点吗?‘BTS’是一个组织还是一场运动?” ...

8 分钟 · 3837 字
[Cross-Domain Audio Deepfake Detection: Dataset and Analysis 🔗](https://arxiv.org/abs/2404.04904)

我们能相信自己的耳朵吗?对抗零样本音频 Deepfake 的新浪潮

引言 想象一下,你收到家人的语音留言寻求帮助,或者在一个社交媒体片段中听到政治人物宣战。这个声音听起来无比真实——语调、音色、甚至呼吸声都完美无缺。但这一切都是假的。 ...

2024-04 · 8 分钟 · 3670 字
[Crafting Personalized Agents through Retrieval-Augmented Generation on Editability Memory Graphs 🔗](https://arxiv.org/abs/2409.19401)

为 AI 助手打造“大脑”:深入解析 EMG-RAG

想象一下,如果有一个真正了解你的 AI 助手。不是那种只知道你名字的助手,而是记得你老板下周要飞往阿姆斯特丹、记得你偏好靠过道座位,并且当航班时间变更时会自动更新你日历的助手。 ...

2024-09 · 7 分钟 · 3379 字
[CoverICL: Selective Annotation for In-Context Learning via Active Graph Coverage 🔗](https://aclanthology.org/2024.emnlp-main.1185.pdf)

如何选择完美的少样本示例:深入剖析 CoverICL

大型语言模型 (LLMs) 彻底改变了我们处理自然语言处理 (NLP) 的方式。其中最强大的功能之一就是上下文学习 (In-Context Learning, ICL) 。 你不再需要微调模型的数十亿个参数——这既昂贵又计算量大——只需在提示 (prompt) 中提供几个任务示例即可。例如,要教模型进行情感分类,你可以在要求它分类新评论之前,先提供三个带有标签的电影评论示例。 ...

8 分钟 · 3832 字
[CorrSynth - A Correlated Sampling Method for Diverse Dataset Generation from LLMs 🔗](https://arxiv.org/abs/2411.08553)

解决合成数据的多样性危机:深入剖析 CorrSynth

大语言模型 (LLMs) 的时代彻底改变了我们进行机器学习的方式。我们已经从一个“匮乏思维”——即标注数据昂贵且稀缺的时代,迈入了一个“富足思维”的时代——像 GPT-4 或 Mixtal 这样的模型可以生成无限量的文本。这催生了 知识蒸馏 (Knowledge Distillation) 的兴起: 利用一个庞大的“教师”LLM 生成合成数据集,然后用这些数据来训练针对特定任务的更小、更高效的“学生”模型 (如 BERT 或 DistilBERT) 。 ...

2024-11 · 7 分钟 · 3412 字
[COPYBENCH: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation 🔗](https://arxiv.org/abs/2407.07087)

超越逐字逐句:揭示 LLM 如何复制情节与角色

引言 在生成式 AI 飞速发展的格局中,一场关于版权的重大法律和道德风暴正在酝酿。我们知道,大语言模型 (LLM) 是在海量数据集上训练出来的,其中包括受版权保护的书籍、文章和创意写作。对于研究人员、律师和内容创作者来说,一个核心问题是: 这些模型在多大程度上再现了受保护的内容? ...

2024-07 · 7 分钟 · 3359 字
[Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment 🔗](https://arxiv.org/abs/2402.19085)

驯服对齐税:可控偏好优化如何平衡有用性、诚实性和无害性

驯服对齐税: 可控偏好优化如何平衡有用性、诚实性和无害性 如果你广泛使用过大型语言模型 (LLMs) ,你很可能遇到过“拒绝”现象。当你向模型请教一个复杂的话题时——也许是严格的事实性问题但稍微有点敏感——它会礼貌地拒绝,或者给出一个被稀释的、过度谨慎的回答。这通常是安全对齐的结果。 ...

2024-02 · 7 分钟 · 3425 字