[Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text 🔗](https://arxiv.org/abs/2406.14829)

超越行与列:评估 AI 生成表格的新方法

引言 想象一下,你要求一个大型语言模型 (LLM) 将一份复杂的财务报告总结成一张整洁易读的表格。模型生成了一个包含数字和表头的网格。乍一看,它看起来很完美。列对齐整齐,格式清晰,表头看起来也很专业。 ...

2024-06 · 7 分钟 · 3146 字
[Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering 🔗](https://arxiv.org/abs/2410.03466)

安全陷阱:为什么护栏可能让 AI 在反击仇恨言论时表现更差

在大型语言模型 (LLM) 快速发展的格局中,存在着两个主要目标之间的持续拉锯战: 让模型有用 (helpful) 和让模型无害 (harmless) 。 我们希望 AI 助手能准确回答我们的问题,但同时也希望确保它们不会输出毒性内容、偏见或危险的指令。 ...

2024-10 · 7 分钟 · 3276 字
[Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment 🔗](https://arxiv.org/abs/2402.14016)

黑客入侵裁判席:通用对抗攻击如何欺骗 LLM 评估器

黑客入侵裁判席: 通用对抗攻击如何欺骗 LLM 评估器 在人工智能快速发展的世界中,大型语言模型 (LLM) 承担了一个新角色: 裁判。我们不仅使用 GPT-4 和 Llama 2 等强大的模型来编写代码或诗歌,还使用它们来评估其他模型生成的文本质量。这种被称为“LLM 作为裁判 (LLM-as-a-judge) ”的范式,正成为基准测试甚至批改学生论文或考试的标准。 ...

2024-02 · 8 分钟 · 3661 字
[Is It Really Long Context if All You Need Is Retrieval? 🔗](https://arxiv.org/abs/2407.00402)

长上下文的错觉:为何长度并非唯一关键

在大型语言模型 (LLM) 飞速发展的世界中,我们正目睹一场“上下文窗口军备竞赛”。不久前,一个能记住 2000 个单词的模型还令人印象深刻。而今天,我们要面对的是号称拥有 128k、200k 甚至 100 万 token 上下文窗口的模型。 ...

2024-07 · 5 分钟 · 2465 字
[Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? 🔗](https://arxiv.org/abs/2406.12822)

迷失在翻译中:为何多语言大模型需要原生数据而非翻译数据

如果你曾经用谷歌翻译来完成西班牙语作业,或者在东京解读菜单,你就会知道结果通常能用,但往往缺乏“灵魂”。语法可能是正确的,但文化细微差别——习语、当地语境、那种独特的氛围——往往丢失了。 ...

2024-06 · 7 分钟 · 3030 字
[Is Child-Directed Speech Effective Training Data for Language Models? 🔗](https://arxiv.org/abs/2408.03617)

数据鸿沟:语言模型能像儿童一样学习吗?

数据鸿沟: 语言模型能像儿童一样学习吗? 如果你观察过幼儿学说话,会觉得那简直是个奇迹。到一个孩子 10 岁时,他们听到的单词量大约在 1000 万到 1 亿之间。仅仅依靠这相对较少的数据,他们就掌握了流利的语言能力,理解复杂的语法,并能领会细微的差别。 ...

2024-08 · 6 分钟 · 2941 字
[Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning 🔗](https://arxiv.org/abs/2410.07461)

剪枝 LLM:为什么校准数据比你想象的更重要

引言 在当前的人工智能时代,像 Llama 2 和 GPT-4 这样的大型语言模型 (LLMs) 已经彻底改变了我们与技术交互的方式。然而,它们的能力伴随着高昂的代价: 硬件资源。仅仅加载一个 70 亿参数的模型就需要高达 10GB 的内存,这使得大多数消费级边缘设备或手机无法运行它。 ...

2024-10 · 7 分钟 · 3225 字
[Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models 🔗](https://arxiv.org/abs/2410.03176)

“见鬼”了:为什么 AI 模型会产生物体幻觉以及如何治好它的眼睛

想象一下,你让 AI 描述一张客厅的照片。它准确地识别出了沙发、电视和咖啡桌。但随后,它自信地补充道: “地毯上还睡着一只猫。”你仔细看了看。根本没有猫。那里从来就没有过猫。 ...

2024-10 · 7 分钟 · 3372 字
[Investigating Mysteries of CoT-Augmented Distillation 🔗](https://arxiv.org/abs/2406.14511)

思维链蒸馏为何有效?(提示:并非因为逻辑)

引言 在当前的大型语言模型 (LLM) 领域,“思维链” (Chain of Thought, CoT) 提示已成为一种主流范式。我们都见证过这种魔力: 如果你要求 GPT-4 这样的模型“一步步地思考”,它解决复杂数学应用题或常识推理任务的能力就会显著提高。 ...

2024-06 · 8 分钟 · 3735 字
[Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand Multilingual Instructions? 🔗](https://arxiv.org/abs/2402.13703)

打破语言障碍:多语言 AI 模型需要多语言导师吗?

引言 在大型语言模型 (LLM) 飞速发展的格局中,存在着一种明显的不平衡。虽然像 GPT-4 和 Llama 2 这样的模型以其能力令我们惊叹,但它们主要以“英语为中心”。它们在浩瀚的英语文本海洋中训练,而它们遵循其他语言指令的能力往往感觉像是事后的补充——是翻译的副作用,而非核心功能。 ...

2024-02 · 8 分钟 · 3836 字
[Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups 🔗](https://arxiv.org/abs/2411.01706)

LLM 能判断难度吗?深入探讨复杂词识别

想象一下你正在学习一门新语言。你拿起一份报纸开始阅读,突然碰了壁。有一个词你完全不懂。它打断了你的节奏,影响了你的理解。现在,想象有一个计算机系统可以在你阅读之前扫描文本,识别出那些困难的单词,并自动将其替换为更简单的同义词。 ...

2024-11 · 6 分钟 · 2931 字
[Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024 🔗](https://arxiv.org/abs/2407.08495)

我们能信任 AI 帮我们投票吗?2024 年欧洲议会选举中的大语言模型审计

引言 在信息过载的时代,做出明智的政治决定正变得越来越困难。在重大政治事件期间,例如 2024 年欧洲议会选举,选民们被各种宣言、辩论和媒体评论狂轰滥炸。为了应对这一局面,许多公民转向了投票建议应用 (Voting Advice Applications,简称 VAAs) 。这些传统的、基于规则的网络应用程序让用户回答一份固定的问卷 (例如,“你支持欧元吗?”) ,然后系统会将他们与观点最相符的政党进行匹配。 ...

2024-07 · 7 分钟 · 3121 字
[Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis 🔗](https://arxiv.org/abs/2407.15286)

你的 AI 是真的有道德,还是在装样子?自我修正的机制解析

大型语言模型 (LLM) 的名声有点问题。虽然它们能写诗和代码,但也容易产生幻觉,更令人担忧的是,它们可能会延续刻板印象、歧视和有害内容。 为了解决这个问题,业界团结在一种被称为内在道德自我修正 (Intrinsic Moral Self-Correction) 的技术周围。这个想法极其简单: 要求模型重新检查自己的工作。通过附加诸如“请确保你的回答没有偏见”之类的指令,模型通常能产生明显更安全的输出。这感觉就像魔法一样——模型似乎在“反思”并自我修复,而不需要任何外部人类反馈或微调。 ...

2024-07 · 6 分钟 · 2644 字
[Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations 🔗](https://arxiv.org/abs/2408.15232)

超越搜索框:围观 AI 智能体争论如何帮助我们更好地学习

引言 我们生活在一个答案唾手可得的黄金时代。如果你想知道巴西的人口数量或钨的沸点,只需在 Google 上快速搜索或向 ChatGPT 提问,瞬间就能得到答案。这些系统非常擅长解决 已知的未知 (known unknowns)——即你意识到的、并能用具体问题表达出来的知识缺口。 ...

2024-08 · 6 分钟 · 2760 字
[Interventional Speech Noise Injection for ASR Generalizable Spoken Language Understanding 🔗](https://arxiv.org/abs/2410.15609)

打造真正鲁棒的语音助手:语音噪声注入的因果推断方法

想象一下,你让智能家居助手“把麦片 (cereal) 加到购物清单里”。结果,它却尽职尽责地把“连续剧 (serial) ”加了进去。虽然这对用户来说只是个小烦恼,但对于底层的人工智能来说,这是理解能力上的灾难性失败。 ...

2024-10 · 7 分钟 · 3391 字
[Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions 🔗](https://arxiv.org/abs/2402.15055)

机器内部的握手:注意力头和 MLP 如何协作预测下一个 Token

大型语言模型 (LLM) 的内部常常被描述为一个“黑盒”。我们知道输入是什么 (提示词) ,也知道输出是什么 (连贯的续写) ,但这两者之间数十亿次的计算过程在很大程度上仍然是个谜。 ...

2024-02 · 8 分钟 · 3621 字
[Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding 🔗](https://aclanthology.org/2024.emnlp-main.810.pdf)

为何 CLIP 读不懂言外之意:修复视觉-语言模型中的组合推理能力

引言 想象一下,给目前最先进的 AI 模型看一张马骑在人身上的照片 (确实是一张奇怪的照片) 。然后,你让模型在两个选项中选出正确的标题: “一个人骑着马”和“一匹马骑着人”。 ...

8 分钟 · 3918 字
[Interpretability-based Tailored Knowledge Editing in Transformers 🔗](https://aclanthology.org/2024.emnlp-main.225.pdf)

LLM 的手术刀级修复——Tailored Knowledge Editing 如何在不破坏模型的情况下修正事实

像 GPT-4 或 LLaMA 这样的大型语言模型 (LLM) 常被比作现代百科全书。它们存储着关于世界的通过海量信息,从历史日期到科学常数,无所不包。但这个类比有一个致命的缺陷: 数字百科全书可以通过敲击几下键盘进行更新,而 LLM 却被冻结在时间里。 ...

7 分钟 · 3243 字
[INTERINTENT: Investigating Social Intelligence of LLMs via Intention Understanding in an Interactive Game Context 🔗](https://arxiv.org/abs/2406.12203)

AI 能保守秘密吗?在阿瓦隆游戏中测试社会智能

大型语言模型 (LLM) 已经掌握了对话的艺术。它们可以写诗、调试代码并总结历史。但它们能策略性地撒谎吗?它们能推断出朋友中谁是叛徒吗?它们能理解某人所说的话与其实际意图之间的细微差别吗? ...

2024-06 · 6 分钟 · 2739 字
[Integrating Structural Semantic Knowledge for Enhanced Information Extraction Pre-training 🔗](https://aclanthology.org/2024.emnlp-main.129.pdf)

超越纯文本——SKIE 如何利用语义图彻底变革信息抽取

引言 在自然语言处理 (NLP) 的世界里,理解谁对谁做了什么是至高无上的目标。这一过程被称为信息抽取 (Information Extraction, IE) , 它将非结构化文本——如新闻文章或医疗报告——转化为结构化的数据表。 ...

7 分钟 · 3141 字