[Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment 🔗](https://arxiv.org/abs/2406.12606)

少即是多:为什么剪枝神经元能提升 LLM 对齐效果

自从 Transformer 架构凭借那篇著名的论文《Attention Is All You Need》横空出世以来,深度学习领域的理念往往倾向于“越多越好”。更多的数据、更多的层数、更多的参数。然而,当涉及到对齐 (alignment) ——即确保大型语言模型 (LLM) 有用、诚实且无害的过程时——事实证明,使用所有参数实际上可能才是问题所在。 ...

2024-06 · 7 分钟 · 3098 字
[Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation 🔗](https://arxiv.org/abs/2404.06809)

AI 的信任危机:可信度感知生成如何修复 RAG 的最大缺陷

引言 检索增强生成 (Retrieval-Augmented Generation, RAG) 已成为构建知识型 AI 系统的事实标准。通过将大型语言模型 (LLM) 连接到外部数据库,我们承诺解决幻觉和知识截止这两大难题。其逻辑很简单: 如果模型不知道答案,就让它去查。 ...

2024-04 · 7 分钟 · 3151 字
[NOISEBENCH: Benchmarking the Impact of Real Label Noise on Named Entity Recognition 🔗](https://arxiv.org/abs/2405.07609)

为什么你的模型会信以为真:NER 中标签噪声的真相

在监督机器学习的世界里,我们通常基于一个舒适的假设进行操作: 即“真值 (Ground Truth) ”是真的。我们假设我们的训练数据集——无论是人工精心标注的还是从可靠来源抓取的——都是准确的。但任何仔细观察过大型数据集的人都知道这只是一个神话。数据集是混乱的。它们包含错误、不一致以及研究人员所说的标签噪声 (label noise) 。 ...

2024-05 · 7 分钟 · 3435 字
[Noise, Novels, Numbers. A Framework for Detecting and Categorizing Noise in Danish and Norwegian Literature 🔗](https://aclanthology.org/2024.emnlp-main.196.pdf)

聆听过去:AI 如何揭示 19 世纪文学的声景

引言 当我们回想历史时,我们通常会将其可视化。我们会联想到 19 世纪后期的泛黄照片、不断扩张的城市的工业烟雾,或者是维多利亚时代的时尚。但是,你是否曾停下来想过,过去听起来是什么样的? ...

8 分钟 · 3684 字
[No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages 🔗](https://arxiv.org/abs/2411.03769)

AI 能感受到艺术吗?教视觉模型理解 28 种语言背后的文化

引言 在人工智能的世界里,计算机视觉历来痴迷于客观性。给模型看一张公园的照片,它会尽职地报告: “一只狗在绿草地上奔跑。”这令人印象深刻,但它遗漏了人类经验的一个基础层面: 主观性和情感。当我们欣赏一幅画——比如《星月夜》——我们看到的不仅仅是“蓝色背景上的黄色圆圈”。我们会感到敬畏、忧郁或兴奋。 ...

2024-11 · 7 分钟 · 3015 字
[Neuron-Level Knowledge Attribution in Large Language Models 🔗](https://arxiv.org/abs/2312.12141)

深入黑盒 —— 绘制大语言模型中的知识神经元图谱

深入黑盒: 绘制大语言模型中的知识神经元图谱 像 GPT-4 和 Llama 这样的大语言模型 (LLM) 展现出了惊人的存储和回忆事实知识的能力。当你问 LLM“法国的首都是哪里?”时,它能毫不费力地检索出“巴黎”。但这些信息究竟存储在哪里?“巴黎”是存储在特定的神经元簇中吗?如果是,模型又是如何知道何时激活它们的? ...

2023-12 · 7 分钟 · 3298 字
[Neuron Specialization: Leveraging Intrinsic Task Modularity for Multilingual Machine Translation 🔗](https://arxiv.org/abs/2404.11201)

神经元特化:解锁多语言模型的内在模块化特性

“通用翻译器”的梦想——一个能流利说几十种甚至上百种语言的人工智能模型——是自然语言处理 (NLP) 领域的圣杯之一。各大公司和研究人员正在竞相构建大规模多语言模型,试图实现英语到法语、中文到斯瓦希里语等任意语言间的翻译。 ...

2024-04 · 7 分钟 · 3300 字
[NeuroTrialNER: An Annotated Corpus for Neurological Diseases and Therapies in Clinical Trial Registries 🔗](https://aclanthology.org/2024.emnlp-main.1050.pdf)

解锁大脑:人工智能与新数据集如何解码临床试验

引言 开发新药众所周知地困难,而在神经学领域,这种挣扎尤为明显。例如,阿尔茨海默病临床试验的失败率历史上一直徘徊在 99% 以上。数十亿美元的资金和几十年的研究往往未能带来可行的治疗方法。然而,即便是失败的试验也包含着数据金矿。每一个注册的试验都代表了一个假设、一种方法论,以及针对特定人群测试的特定干预措施。 ...

7 分钟 · 3423 字
[Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing Agent 🔗](https://arxiv.org/abs/2402.13717)

初识 Neeko:掌握多角色扮演的变形 AI

引言 想象一下,你正与哈利·波特讨论他的第一场魁地奇比赛,紧接着,在无需切换应用程序或重新加载模型的情况下,你转身与伏地魔探讨黑魔法。虽然像 ChatGPT 这样的大型语言模型 (LLM) 已经掌握了开放域聊天,但让它们真正“保持角色设定”——尤其是同时扮演多个不同的角色——仍然是一个巨大的障碍。 ...

2024-02 · 7 分钟 · 3108 字
[Nash CoT: Multi-Path Inference with Preference Equilibrium 🔗](https://arxiv.org/abs/2407.07099)

博弈论遇上 LLM:Nash CoT 如何优化推理

在大语言模型 (LLM) 快速发展的格局中,一个反复出现的挑战始终存在: 我们如何在不耗尽预算的情况下让模型“思考”得更好? 我们知道 LLM 能够完成令人印象深刻的壮举,但它们经常在涉及数学、逻辑或符号操作的复杂推理任务上受挫。为了应对这一问题,研究人员开发了 思维链 (Chain-of-Thought, CoT) 提示——要求模型“一步一步地思考”。为了使其更加稳健,我们通常使用 自洽性 (Self-Consistency) , 即多次询问模型同一个问题 (多路径推理) ,并投票选出最常见的答案。 ...

2024-07 · 6 分钟 · 2795 字
[NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian 🔗](https://arxiv.org/abs/2312.01314)

AI 真的会说“挪威语”吗?为低资源语言构建生成式模型

如果你关注人工智能目前的发展轨迹,你可能会认为大型语言模型 (LLMs) 已经攻克了自然语言处理的难题。像 GPT-4 这样的模型可以轻松地写诗、用 Python 编程,甚至总结法律文件。然而,在 AI 领域中存在着一种隐性的不平等: 英语的主导地位。 ...

2023-12 · 7 分钟 · 3115 字
[Multiples Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing 🔗](https://arxiv.org/abs/2406.11085)

用 AI 拯救语言:大语言模型与翻译如何助力低资源跨行对译

引言 想象一下,你是一名语言学家,试图记录一种地球上只剩下几十个人还在使用的语言。时间紧迫。据估计,高达 90% 的世界语言在下个世纪面临消失的风险。保存它们不仅仅是录制音频;它涉及一个被称为 跨行对译文本 (Interlinear Glossed Text, IGT) 的艰苦过程。这需要转录语音、翻译、将单词切分为最小的表义单元 (语素) ,并对每一个部分进行语法标注。 ...

2024-06 · 7 分钟 · 3199 字
[Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model 🔗](https://arxiv.org/abs/2407.07053)

为什么 AI 看不懂时钟:利用合成数据解决抽象图像认知差距

引言 我们正处于大型多模态模型 (LMMs) 的黄金时代。像 GPT-4V 和 Claude-3 这样的模型展示了惊人的能力: 它们可以描述繁忙街道的复杂照片,解释迷因图 (Meme) ,或者从模糊的照片中识别狗的品种。对于普通观察者来说,“计算机视觉”的问题似乎在很大程度上已经解决了。 ...

2024-07 · 8 分钟 · 3669 字
[Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation Inference 🔗](https://arxiv.org/abs/2410.07673)

揭开变色龙的面具:因果推断如何检测不断演变的标题党

引言: 陷阱的进化 我们都有过这样的经历。当你浏览社交媒体动态时,看到一张名人的照片,配上一个令人震惊的标题: “你绝对想不到艾玛·沃特森发生了什么!” 好奇心战胜了理智。你点了进去。 ...

2024-10 · 7 分钟 · 3414 字
[Multilingual Topic Classification in X: Dataset and Analysis 🔗](https://arxiv.org/abs/2410.03075)

打破语言障碍:深入解析 X-Topic——多语言社交媒体分类的新基准

像 X (前身为 Twitter) 这样的社交媒体平台是现代世界的“城市广场”。这里是新闻爆发、潮流诞生以及人们记录日常生活的地方。然而,这个广场是全球化的、混乱的,且极其嘈杂。对于研究人员、数据科学家和企业来说,理解这些数据——将其组织成连贯的主题——是一个巨大的挑战。 ...

2024-10 · 8 分钟 · 3992 字
[Multi-pass Decoding for Grammatical Error Correction 🔗](https://aclanthology.org/2024.emnlp-main.553.pdf)

NLP 中的迭代优化:多遍解码与源信息融合如何提升语法纠错性能

引言 语法纠错 (Grammatical Error Correction, GEC) 是自然语言处理中最实用的应用之一。无论是学生润色论文,还是专业人士起草邮件,我们都依赖这些系统来修正语法、拼写和流畅度错误。 ...

7 分钟 · 3220 字
[Multi-expert Prompting Improves Reliability, Safety and Usefulness of Large Language Models 🔗](https://arxiv.org/abs/2411.00492)

人造群体的智慧:多专家提示如何修复大模型幻觉

引言 我们经常把大语言模型 (LLM) 当作全知全能的神谕。我们在 ChatGPT 或 Claude 中输入一个问题,然后期待得到一个唯一的、权威的、正确的答案。但在底层,这些模型是概率引擎。当你提出一个开放式问题——比如“吃肉合乎道德吗?”或“我们该如何解决气候变化?”——模型通常会根据其训练数据默认生成最可能的续写。这可能导致通用的、片面的甚至带有偏见的回答。 ...

2024-11 · 8 分钟 · 3511 字
[MULTI-NEWS+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation 🔗](https://arxiv.org/abs/2404.09682)

清理混乱:LLM 如何自动修复噪声数据集

引言: “垃圾进,垃圾出”的困境 在机器学习领域,有一句每个学生在第一学期都会学到的老话: “垃圾进,垃圾出” (Garbage In, Garbage Out) 。 无论你的神经网络架构多么复杂——无论是极其先进的 Transformer 还是庞大的大型语言模型 (LLM) ——如果喂给它的数据是有缺陷的,它就无法有效地学习。 ...

2024-04 · 8 分钟 · 3677 字
[Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models 🔗](https://arxiv.org/abs/2406.17169)

AI 能深度思考吗?解析 Multi-LogiEval 与 LLM 逻辑推理的极限

引言: 智能的幻觉 像 GPT-4 和 Gemini 这样的大型语言模型 (LLM) 以其编写代码、创作诗歌并通过标准化考试的能力迷住了全世界。当你与这些模型聊天时,它们流畅的语言很容易被误认为是深刻的理解力。它们似乎在推理、辩论和演绎。但它们是在真正地进行逻辑推理,还是仅仅作为出色的模式匹配器在模仿论证的结构? ...

2024-06 · 7 分钟 · 3202 字
[Multi-Level Cross-Modal Alignment for Speech Relation Extraction 🔗](https://aclanthology.org/2024.emnlp-main.668.pdf)

跨越语音与知识的鸿沟:一种多层次对齐方法

在自然语言处理 (NLP) 领域,从非结构化文本中提取结构化知识——例如实体间的关系——是一个非常成熟的领域。我们拥有复杂的模型,可以阅读“史蒂夫·乔布斯联合创立了苹果公司”这样的句子,并提取出三元组 (史蒂夫·乔布斯, 创始人, 苹果公司)。 ...

8 分钟 · 3798 字