EMNLP 2024

[Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing 🔗](https://arxiv.org/abs/2402.00658)

将系统2思维融入大语言模型：离线模拟如何提升推理能力

将系统2思维融入大语言模型: 离线模拟如何提升推理能力像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而，当涉及到严谨的逻辑推理或复杂的多步数学运算时，它们往往会露出马脚。模型可能会产生事实幻觉，进行不合逻辑的跳跃，或者干脆在不理解“为什么”的情况下猜测最终答案。 ...

[Learning Personalized Alignment in Evaluating Open-ended Text Generation 🔗](https://arxiv.org/abs/2310.03304)

超越平均用户：PERSE 如何教会 AI 像人类一样评估文本

在人工智能领域，我们已经非常擅长生成文本。像 GPT-4 和 LLaMA-2 这样的模型可以轻松地写诗、编写代码和创作短篇小说。然而, 评估这些文本仍然是一个巨大的障碍。在翻译或摘要等客观任务中，我们有标准答案 (Ground Truths) 来进行对比。但在创意写作中呢？ ...

[Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case Reformulation 🔗](https://arxiv.org/abs/2406.19760)

解锁司法公正：大语言模型与法律知识如何彻底变革案例检索

解锁司法公正: 大语言模型与法律知识如何彻底变革案例检索在法律界，stare decisis (遵循先例) ——即坚持已决事项——是一个基本原则。对于法官和律师而言，寻找相关先例不仅仅是一项研究任务，更是维护司法公正的关键要求。如果法官无法找到与当前案件相呼应的过往案例，法律的一致性将面临风险。 ...

[Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism 🔗](https://arxiv.org/abs/2311.01041)

学会说“我不知道”的艺术：L2R 如何让大语言模型更可靠

引言: “自信的骗子”带来的问题如果你曾花时间与 ChatGPT 或 LLaMA 等大语言模型 (LLM) 互动，你很可能遇到过一种特定且令人沮丧的行为: 自信的幻觉。当你问一个关于小众话题、虚构人物或特定医疗状况的问题时，模型会以绝对肯定的语气回答。听起来合情合理，语法完美，逻辑似乎也无懈可击。但有一个问题——事实完全是编造的。 ...

[Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning 🔗](https://arxiv.org/abs/2406.12050)

深度训练：反思性增强如何教会大语言模型去理解，而不仅仅是解题

如果你曾辅导过学生的数学，你就会知道死记硬背和真正理解之间有着明显的区别。一个死记硬背的学生也许能解出一个特定的一元二次方程，因为他已经看过这种模式五十次了。但如果你问他: “如果系数是负数，这会有什么变化？”或者“你能用不同的方法解这道题吗？”，他们就会崩溃。他们掌握了答案 , 但缺乏推理深度。 ...

[Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models 🔗](https://arxiv.org/abs/2410.20008)

深入黑盒：指令微调如何重塑 LLM 的层级结构

引言我们已经习惯了大型语言模型 (LLM) 的“魔力”。输入一个提示——无论是请求翻译句子、总结段落，还是分析评论的情感——模型都会照做。但在表面之下，神经网络内部究竟发生了什么？ ...

[LawBench: Benchmarking Legal Knowledge of Large Language Models 🔗](https://arxiv.org/abs/2309.16289)

AI 能取代律师吗？深入解读 LawBench——中国法律大模型的终极测试

引言在过去几年里，“AI 通过司法考试”的头条新闻几乎出现在每一家主流科技媒体上。这是一个引人入胜的叙事: 大语言模型 (LLMs) 如 GPT-4 摄取了海量信息，以至于它们在技术上具备了从事法律工作的资格。但任何执业律师都会告诉你，通过标准化考试与应对微妙、高风险的现实法律体系完全是两码事。 ...

[Latent Concept-based Explanation of NLP Models 🔗](https://arxiv.org/abs/2404.12545)

超越单词高亮：利用潜在概念解锁 NLP 黑盒

引言深度学习模型，尤其是像 BERT、RoBERTa 和 Llama 这样的大型语言模型 (LLM) ，在大量的自然语言处理 (NLP) 任务中取得了超越人类的表现。然而，尽管它们表现出色，却存在一个重大缺陷: 它们是“黑盒”。我们输入一个句子，模型吐出一个预测，但内部的推理过程在很大程度上仍然是不透明的。 ...

[Large Language Models for Data Annotation and Synthesis: A Survey 🔗](https://arxiv.org/abs/2402.13446)

人工标注的终结？大语言模型如何彻底变革数据标注

如果你曾经训练过机器学习模型，那你一定深知其中的痛苦。你拥有绝妙的架构和明确的目标，但最终却撞上了不可避免的瓶颈: 数据。特别是带标签的数据。多年来，获取高质量标签的黄金标准一直是人工标注。无论是依赖昂贵的领域专家 (如医生标注 X 光片) 还是众包平台 (如 Amazon Mechanical Turk) ，这个过程都缓慢、昂贵且往往缺乏一致性。 ...

[Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment 🔗](https://arxiv.org/abs/2408.12194)

LLM 能否拯救搜索体验？深入解读下一代稠密检索

如果你最近使用过搜索引擎，你很可能已经从稠密检索 (Dense Retrieval) 技术中受益。与 90 年代寻找精确关键词匹配的搜索引擎不同，现代系统试图理解你查询背后的含义。它们将你的文字转化为一串数字 (向量) ，并寻找具有相似向量的文档。 ...

[Large Language Models Know What is Key Visual Entity: An LLM-assisted Multimodal Retrieval for VQA 🔗](https://aclanthology.org/2024.emnlp-main.613.pdf)

LLM 化身视觉侦探：聚焦关键实体如何解决复杂视觉问题

想象一下，你正看着一张熙熙攘攘的城市街道照片。在背景中，有一辆巴士。一位朋友问你: “这家巴士公司的名字叫什么？”为了回答这个问题，你的眼睛会立刻过滤掉行人、建筑物、交通信号灯和云彩。你会完全聚焦于印在巴士侧面的标志上。 ...

[Large Language Models Can Self-Correct with Key Condition Verification 🔗](https://arxiv.org/abs/2405.14092)

LLM 能给自己的作业评分吗？利用 PROCO 解锁自我修正能力

引言我们都有过这样的经历。你向大型语言模型 (LLM) 提出了一个复杂的问题——也许是一道棘手的数学应用题，或者是一个冷门的冷知识查询——它自信地给出了答案。看起来合情合理，推理似乎也站得住脚。但当你仔细检查时，却发现答案完全是错的。 ...

[PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners 🔗](https://arxiv.org/abs/2310.02469)

我们能教会 LLM 保守秘密吗？深入解读 PrivacyMind

引言: 专家级 LLM 的困境大型语言模型 (LLMs) 的爆发改变了人工智能的格局。我们已经从通用聊天机器人时代迈向了专业专家时代——比如用于金融的 BloombergGPT 或用于医学的 Med-PaLM。为了创造这些专家，我们需要在一个通用模型 (如 LLaMA) 的基础上，使用特定领域的数据进行微调。 ...

[Large Language Models Are Poor Clinical Decision-Makers: A Comprehensive Benchmark 🔗](https://aclanthology.org/2024.emnlp-main.759.pdf)

超越执业考试：为何大语言模型难以应对真实临床决策

引言在过去的一年中，关于大语言模型 (LLMs) 在医疗领域惊人表现的报道占据了各大头条。我们看到许多报告称，AI 以优异成绩通过了美国执业医师资格考试 (USMLE) ，在标准化测试中的表现与人类专家相当，甚至有时更好。看着这些结果，人们很容易认为我们正处于日常临床实践 AI 革命的边缘。 ...

[Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks 🔗](https://arxiv.org/abs/2407.00869)

真相伤人：利用 LLM 的“非自愿诚实”攻破安全护栏

说谎比说实话难。说实话，你只需要回忆一个事实或进行逻辑推演。而要说谎——尤其是令人信服的谎言——你必须知道真相，刻意压制它，编造一个合理的替代方案，并确保编造的内容保持内部一致性。这是一项复杂的认知任务。 ...

[Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course 🔗](https://arxiv.org/abs/2407.05216)

大规模评分：让 GPT-4 给 1000 名学生打分会发生什么？

引言想象一下，你是一门大学课程的助教。现在，想象一下 1,028 名学生刚刚提交了论文作业。即使你只花 5 分钟批改每一份作业，那也是超过 85 小时的不间断评分工作。这种可扩展性瓶颈是高等教育中最古老的问题之一。 ...

[Language-to-Code Translation with a Single Labeled Example 🔗](https://aclanthology.org/2024.emnlp-main.462.pdf)

如何仅用一个示例教会 LLM 写代码——深入解析 ICIP

想象一下，你刚刚发布了一个新的软件库或专门的数据库 API。你希望开发人员能够毫不费力地使用它，比如只需输入像“查找昨天注册的所有用户”这样的自然语言命令，而不需要编写复杂的 SQL 查询或函数调用。 ...

[Language models and brains align due to more than next-word prediction and word-level information 🔗](https://arxiv.org/abs/2212.00596)

不仅仅是预测：为什么语言模型与人脑实际上是一致的

简介近年来，人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时，正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...

[Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven Prompts 🔗](https://arxiv.org/abs/2409.02519)

读懂言外之意：大型语言模型能否检测隐性厌女症？

简介内容审核已经取得了长足的进步。如果你在社交媒体上发布诽谤性言论或公然的暴力威胁，很有可能自动化系统会在几小时内将其标记并删除。针对显性关键词训练的算法非常高效。然而，仇恨言论正在演变。它变得更加安静、微妙且阴险。 ...

[Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models 🔗](https://arxiv.org/abs/2404.02575)

像编译器一样思考如何提升 AI 推理能力

引言像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 在生成类人文本、创作诗歌甚至解释复杂的历史事件方面表现得令人难以置信。然而，在某个特定领域，这些模型经常遇到困难: 算法推理。 ...