[Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? 🔗](https://arxiv.org/abs/2406.12809)

智能的悖论——为什么大语言模型能解决难题却在简单任务上失败

引言 想象一下,你正在辅导一名学生学习微积分。他们毫不费力地解出了复杂的解高斯积分,表现出对高等数学概念的深刻理解。印象深刻之余,你问了一个后续问题: “17 乘以 8 等于多少?”学生一脸茫然地回答: “106。” ...

2024-06 · 7 分钟 · 3293 字
[Can Language Models Induce Grammatical Knowledge from Indirect Evidence? 🔗](https://arxiv.org/abs/2410.06022)

AI 的“Wug”测试:大语言模型的学习方式像人类吗?

AI 的“Wug”测试: 大语言模型的学习方式像人类吗? 如果你上过语言学导论课,那你很可能对“Wug 测试”并不陌生。1958 年,Jean Berko Gleason 向孩子们展示了一张像鸟一样的生物图片,并说: “这是一只 wug 。 ”然后她展示了两只这样的生物,说道: “现在还有一只。一共有两只。这里有两只……?”孩子们正确地回答了“ wugs ”。 ...

2024-10 · 7 分钟 · 3235 字
[Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators 🔗](https://arxiv.org/abs/2409.14037)

产生幻觉的教授:为什么 LLM 可能还没准备好教授科学

引言 想象这样一个世界: 每位学生,无论身处何地或资源如何,都能拥有一位私人导师。这位导师拥有 Neil deGrasse Tyson 般的知识储备、陶哲轩 (Terence Tao) 般的数学直觉,以及居里夫人 (Marie Curie) 般的化学造诣。这就是 GPT-4 和 Llama-3 等大型语言模型 (LLM) 所承诺的未来。我们已经迅速从使用聊天机器人写邮件,过渡到了依赖它们来总结复杂的研究论文和解释科学概念。 ...

2024-09 · 8 分钟 · 3705 字
[Can LLMs Learn Uncertainty on Their Own? Expressing Uncertainty Effectively in a Self-Training Manner 🔗](https://aclanthology.org/2024.emnlp-main.1205.pdf)

教会 LLM 质疑自己:自训练如何修正 AI 的过度自信

引言: 过度自信的机器 想象一下,当你向 AI 助手咨询医疗建议或法律先例时,它给出的回答反应迅速、语法完美,语气也极具权威性。但存在一个问题: 这个答案完全是编造的。 ...

7 分钟 · 3350 字
[Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese 🔗](https://arxiv.org/abs/2402.17302)

AI 能理解文化吗?深入探讨低资源语言的合成数据

引言: AI 的“下雪”难题 想象一下,你正在训练一个人工智能来理解“常识”。你给它输入了数千个问题来测试它的推理能力。其中一个问题是: “这个男人需要铲自家车道的雪。这是什么季节?” 答案显而易见,是冬天。 ...

2024-02 · 7 分钟 · 3491 字
[Can Automatic Metrics Assess High-Quality Translations? 🔗](https://arxiv.org/abs/2405.18348)

“足够好”的陷阱——为什么 AI 指标在评估高质量翻译时会失效

在机器翻译 (MT) 飞速发展的今天,我们要迎来一个关键时刻。几年前,翻译系统的目标仅仅是生成可理解的文本。而如今,像 Google Translate、DeepL 和 GPT-4 这样的系统生成的翻译往往与人类的输出难辨真假。我们不再面对“词语堆砌”的乱象;我们面对的是细微差别、风格和高保真的准确性。 ...

2024-05 · 7 分钟 · 3478 字
[Can Active Label Correction Improve LLM-based Modular AI Systems? 🔗](https://arxiv.org/abs/2401.05467)

驯服噪声:如何将 LLM Agent 升级为高效、微调的系统

驯服噪声: 如何将 LLM Agent 升级为高效、微调的系统 像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 的迅速崛起,普及了“模块化 AI 系统”的概念。想想 LangChain、AutoGPT 或 HuggingGPT 这样的框架。这些系统将多个 LLM 调用串联起来,以执行复杂的任务——如规划旅行、编写代码或分析财务文档。它们之所以极其强大,是因为它们不需要训练;你只需要编写一个提示词 (Prompt) ,系统就能工作。 ...

2024-01 · 8 分钟 · 3584 字
[Calibrating the Confidence of Large Language Models by Eliciting Fidelity 🔗](https://arxiv.org/abs/2404.02655)

LLM 为何盲目自信:UF 校准法介绍

像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们非常有帮助、无害且富有创造力。然而,它们有一个臭名昭著的缺陷: 它们不知道何时该闭嘴。 ...

2024-04 · 8 分钟 · 3780 字
[Calibrating Language Models with Adaptive Temperature Scaling 🔗](https://arxiv.org/abs/2409.19817)

利用自适应温度缩放修复大语言模型的过度自信问题

大语言模型 (LLM) 彻底改变了人工智能,展示了惊人的流畅度和推理能力。然而,即使是最先进的模型也面临着一个长期存在的问题: 校准 (Calibration) 。 理想情况下,当 LLM 表示它对答案有 80% 的信心时,它应该在 80% 的情况下是正确的。不幸的是,情况很少如此。现代 LLM,尤其是那些经过人类反馈强化学习 (RLHF) 微调的模型,往往表现出臭名昭著的“过度自信”。它们可能会产生完全错误的幻觉 (hallucinate) ,却给出一个 99% 的概率分数。在医学、法律或自动编程等高风险领域,信心与准确性之间的这种脱节是危险的。 ...

2024-09 · 7 分钟 · 3320 字
[CAT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans 🔗](https://arxiv.org/abs/2406.15823)

LLM 真的理解计划吗?用 CAT-BENCH 评估因果推理能力

大型语言模型 (LLM) 在生成过程性文本方面已经变得异常出色。如果你让最先进的模型生成一份烤蛋糕的食谱,它很可能会生成一份完全连贯的步骤清单: 混合干配料,打鸡蛋,将它们结合,然后在特定温度下烘烤。表面上看,模型似乎理解了这个过程。 ...

2024-06 · 8 分钟 · 3613 字
[CUTE: Measuring LLMs' Understanding of Their Tokens 🔗](https://arxiv.org/abs/2409.15452)

LLM 真的懂拼写吗?深入解读 CUTE 基准测试

LLM 真的懂拼写吗?深入解读 CUTE 基准测试 当我们与 GPT-4 或 Llama 3 等大型语言模型 (LLM) 交互时,我们通常认为它们具有类似人类的读写能力。我们假设,既然模型可以写十四行诗或调试 Python 代码,那么它理解文本的方式一定和我们一样: 逐个字母、逐个单词地理解。 ...

2024-09 · 8 分钟 · 3801 字
[CURE: Context- and Uncertainty-Aware Mental Disorder Detection 🔗](https://aclanthology.org/2024.emnlp-main.994.pdf)

超越症状:语境和不确定性如何改进心理健康 AI

超越症状: 语境和不确定性如何改进心理健康 AI 心理健康障碍影响着全球超过十亿人。随着社交媒体的兴起,网络平台已成为人们自我表露的空间,为研究人员提供了海量数据集,以帮助早期发现抑郁症或焦虑症等疾病。 ...

7 分钟 · 3172 字
[CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free-Word-Ordered and Morphologically-Rich Low-Resource Languages 🔗](https://arxiv.org/abs/2410.06944)

驯服自由语序:对比学习如何提升形态丰富语言的句法分析

在自然语言处理 (NLP) 的世界里,我们往往认为语序是理所当然的。如果你说英语,“The dog chased the cat” (狗追猫) 和“The cat chased the dog” (猫追狗) 意味着两件完全不同的事情。句法——即句子的结构——是由单词的顺序严格定义的。 ...

2024-10 · 7 分钟 · 3161 字
[CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models 🔗](https://arxiv.org/abs/2409.19984)

是概率还是瞎猜?探究大型语言模型的一致性

大型语言模型 (LLMs) 已成为驱动现代人工智能的引擎,从聊天机器人到代码生成器无处不在。在许多应用中,我们不仅关注模型生成的文本,还关注分数——即模型分配给特定词序列的概率。这些分数被用于检测幻觉、对潜在答案进行排序以及衡量模型的置信度。 ...

2024-09 · 6 分钟 · 3003 字
[CMR Scaling Law: Predicting Critical Mixture Ratios for Continual Pre-training of Language Models 🔗](https://arxiv.org/abs/2407.17467)

平衡的艺术:如何在不遗忘旧知识的前提下教会 LLM 新技能

引言 像 Llama 或 GPT-4 这样的大型语言模型 (LLM) 堪称数字时代的博学家。它们能写诗、调试代码,并以令人印象深刻的流畅度总结历史。然而,它们广博的知识往往以牺牲深度为代价。当面对高度专业化的任务时——例如解读复杂的金融法规或分析晦涩的学术论文——这些通才模型往往表现不仅如人意。原因很简单: 它们在初始训练中没有见过足够多的特定领域数据。 ...

2024-07 · 7 分钟 · 3233 字
[CMD: a framework for Context-aware Model self-Detoxification 🔗](https://arxiv.org/abs/2308.08295)

大语言模型能自我修复吗?深入解读上下文感知模型自解毒(CMD)框架

像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 已经彻底改变了我们要与技术交互的方式。它们能写诗、调试代码,还能总结历史。然而,它们拥有一个显著的缺陷: “垃圾进,垃圾出 (garbage in, garbage out) ”。由于这些模型是在庞大且未经严格过滤的互联网数据上训练的,它们可能会无意中学习并复述有毒内容。 ...

2023-08 · 7 分钟 · 3033 字
[CItruS Chunked Instruction-aware State Eviction 🔗](https://arxiv.org/abs/2406.12018)

利用 CItruS 解决长上下文大语言模型中的信息忽视问题

利用 CItruS 解决长上下文大语言模型中的信息忽视问题 像 Llama 2 和 Mistral 这样的大语言模型 (LLM) 彻底改变了我们与文本交互的方式。然而,它们存在一个显著的局限性: 上下文窗口。虽然模型在处理更长序列方面越来越出色,但在处理整本书或海量法律文档时,计算成本依然高昂且占用大量内存。 ...

2024-06 · 8 分钟 · 3855 字
[CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search 🔗](https://arxiv.org/abs/2406.05013)

开源模型能在搜索领域击败 ChatGPT 吗?深入解读 CHIQ 的历史增强策略

想象一下你正在和朋友聊电影。你问: “谁执导了《盗梦空间》?”他们回答: “克里斯托弗·诺兰。”然后你问: “他还拍过什么其他电影?” 你的朋友能立刻明白“他”指的是克里斯托弗·诺兰。但对于搜索引擎来说,第二个问题简直是噩梦。“他”可以是任何人。为了得到好的答案,搜索系统需要将你的问题重写成独立的句子,比如“克里斯托弗·诺兰执导过什么其他电影?” ...

2024-06 · 6 分钟 · 2990 字
[CHESS : Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification 🔗](https://arxiv.org/abs/2409.01366)

让 LLM 在边缘设备上运行得更快:深入解析 CHESS

在你的笔记本电脑或手机上直接运行强大的大型语言模型 (LLMs) ,如 Llama-3 或 Mistral,而不依赖云端,这个梦想是诱人的。它承诺了隐私、更低的延迟以及离线能力。然而,现实往往是与硬件限制的艰难斗争。这些模型计算量大且极其耗费内存。 ...

2024-09 · 6 分钟 · 2626 字
[CELLO: Causal Evaluation of Large Vision-Language Models 🔗](https://arxiv.org/abs/2406.19131)

AI 真的能理解因果关系吗?深入了解 CELLO,一个新的视觉语言模型基准

想象一下,你正看着一张照片,照片里一位老人坐在窗边的轮椅上。一个孩子问你: “我需要够高处的东西。你能帮我把这把椅子移过来用吗?” 作为人类,你的大脑会瞬间处理这一复杂的因果关系网络。你看到了椅子,看到了老人,并且理解了其中的关系: “椅子支撑着老人。”移动椅子会导致老人摔倒或发生位移。因此,答案显而易见是“不”。 ...

2024-06 · 8 分钟 · 3520 字