EMNLP 2024

[An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare Records 🔗](https://arxiv.org/abs/2406.08958)

揭开黑盒：如何在没有昂贵人工标注的情况下解释医疗 AI

在风险极高的医疗领域，准确性至关重要。但当人工智能 (AI) 介入时，仅有准确性是不够的——信任才是真正的硬通货。设想这样一个场景: 一个机器学习模型分析了一位患者的出院小结，并预测了一个特定的医疗代码用于计费和统计追踪。预测是正确的，但医生问: “为什么？”如果 AI 无法指出文本中导致该决定的具体症状或医疗程序，医生就不太可能信任它。 ...

[An LLM Feature-based Framework for Dialogue Constructiveness Assessment 🔗](https://arxiv.org/abs/2406.14760)

打破黑盒：一种分析对话建设性的混合方法

你有没有读过互联网上的评论区，然后心想: “哇，这真是一场富有成效的对话”？这种情况很少见。大多数网络争论最终都会演变成互相叫嚷。但在自然语言处理 (NLP) 和社会科学领域的研究人员看来，理解是什么让一段对话具有“建设性”——即参与者能够敞开心扉、达成共识，或者仅仅是礼貌地表达不同意见——是一个巨大且复杂的谜题。 ...

[An L* Algorithm for Deterministic Weighted Regular Languages 🔗](https://arxiv.org/abs/2411.06228)

揭开黑盒的面纱：一种学习确定性加权自动机的新算法

揭开黑盒的面纱: 一种学习确定性加权自动机的新算法在计算机科学和自然语言处理 (NLP) 领域，我们经常面对强大的“黑盒”模型。我们给它们一个输入，它们会给出一个输出——通常是一个概率分数或分类。但要理解它们如何得出这个结论却极其困难。这就是自动机提取的领域: 将复杂模型逆向工程为更简单、可解释的有限状态自动机 (FSA) 的过程。 ...

[An Experimental Analysis on Evaluating Patent Citations 🔗](https://aclanthology.org/2024.emnlp-main.23.pdf)

预测下一个重大发明——图神经网络如何分析专利引用

预测下一个重大发明: 图神经网络如何分析专利引用创新是现代经济的引擎，而专利制度则是其燃料。每年都有数十万项专利获得授权，代表着数十亿美元的研发投入。但这里有一个价值万亿美元的问题: 这些专利中，究竟哪些才真正重要? ...

[An Empirical Study of Multilingual Reasoning Distillation for Question Answering 🔗](https://aclanthology.org/2024.emnlp-main.442.pdf)

错误答案能帮助模型学习吗？深入剖析多语言推理蒸馏

引言在人工智能飞速发展的世界中，像 GPT-4 这样的大型语言模型 (LLMs) 树立了极高的性能标杆。它们最令人印象深刻的功能之一是执行思维链 (Chain-of-Thought, CoT) 推理的能力——即在得出答案之前，将复杂问题分解为一步步的逻辑解释。这种能力彻底改变了模型处理数学应用题、符号逻辑和多步规划的方式。 ...

[An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models 🔗](https://arxiv.org/abs/2411.06048)

为什么 GPT-4o 分不清左右？深入剖析大模型的多模态空间推理能力

引言想象一下你坐在餐桌旁。一位朋友问: “盐在哪儿？”你扫视了一下桌子回答道: “就在你杯子的右边。”这种互动看起来毫不费力。它只需要你识别物体，从朋友的视角理解场景，并清晰地表达出空间关系。 ...

[An Electoral Approach to Diversify LLM-based Multi-Agent Collective Decision-Making 🔗](https://arxiv.org/abs/2410.15168)

AI 的民主化：为什么 LLM 智能体需要更好的投票系统

AI 的民主化: 为什么 LLM 智能体需要更好的投票系统想象一场董事会会议。与会者不是人类，而是先进的大型语言模型 (LLMs) ，每一个都作为自主智能体 (Agent) 行动。它们的任务是解决一个复杂的医疗诊断问题，或者是调试一个庞大的软件代码库。每个智能体都对问题进行了推理并提出了解决方案。但问题就在这里: 它们意见不一。 ...

[An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification 🔗](https://arxiv.org/abs/2409.03203)

DiffusionCLS：利用扩散模型掌握低资源情感分析

DiffusionCLS: 利用扩散模型掌握低资源情感分析在大语言模型 (LLM) 时代，人们很容易认为自然语言处理 (NLP) 已是一个被解决的问题。我们拥有的模型可以写诗、用 Python 编程，甚至总结历史书籍。然而，在这些模型的实际应用中，仍存在一个巨大的鸿沟: 数据稀缺。 ...

[An Audit on the Perspectives and Challenges of Hallucinations in NLP 🔗](https://arxiv.org/abs/2404.07461)

AI 界的巴别塔：为什么我们无法就‘幻觉’的定义达成一致

如果你曾大量使用过 ChatGPT、Gemini 或任何现代大型语言模型 (LLM) ，你很可能遇到过这种情况: 机器自信地断言某些实际上不真实的事情。它可能会编造一个从未发生过的法庭案件，将名言归因于错误的历史人物，或者生成一个无法访问的网址。 ...

[An Analysis of Multilingual FActScore 🔗](https://arxiv.org/abs/2406.19415)

迷失在翻译中？为什么跨语言评估 AI 真实性比你想象的更难

GPT-4 和 Gemini 等大型语言模型 (LLM) 的兴起彻底改变了我们与信息交互的方式。我们提出复杂的问题，而这些模型能生成流畅、类似人类的回答。然而，机器中存在一个幽灵: 幻觉 (Hallucination) 。众所周知，LLM 经常自信满满地将虚假信息陈述为事实。 ...

[Altogether: Image Captioning via Re-aligning Alt-text 🔗](https://arxiv.org/abs/2410.17251)

停止单纯生成，开始重对齐：一种更优的合成图像字幕方法

对通用人工智能 (AGI) 的追求往往感觉像是一场硬件竞赛——更大的集群，更多的 GPU。但资深研究人员都知道，瓶颈正日益变成数据质量。为了构建超越人类平均智力的 AI 智能体，我们需要包含超人类知识的训练数据。 ...

[AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality 🔗](https://arxiv.org/abs/2410.10054)

别再瞎猜了：利用 AlphaLoRA 优化 LoRA-MoE

大型语言模型 (LLMs) 的发展正受到一个巨大的限制: 规模。为了让模型更智能，它们变得越来越大，这使得针对特定任务对它们进行微调在计算上变得极其昂贵。为了解决这个问题，社区采用了参数高效微调 (PEFT) 方法，其中 LoRA (低秩适应) 是其中的明星技术。LoRA 冻结了庞大的预训练模型，并注入微小的、可训练的适配器。它效果显著，但也有上限。由于 LoRA 的参数非常少，它们有时难以捕捉复杂的新行为。 ...

[Alignment-Enhanced Decoding: Defending Jailbreaks via Token-Level Adaptive Refining of Probability Distributions 🔗](https://aclanthology.org/2024.emnlp-main.164.pdf)

解决 AI 的拉锯战：对齐增强解码如何阻止越狱攻击

大型语言模型 (LLMs) 已变得无处不在，它们充当着代码助手、创意作家和通用聊天机器人的角色。为了使这些模型能够安全地向公众发布，开发者在“对齐 (Alignment) ”上投入了大量资源——训练模型在提供帮助的同时，严格拒绝生成有害内容，例如违法行为指南或仇恨言论。 ...

[Aligning Translation-Specific Understanding to General Understanding in Large Language Models 🔗](https://arxiv.org/abs/2401.05072)

迷失在翻译中？DUAT 如何对齐 LLM 的理解能力以实现更好的机器翻译

引言像 GPT-4 这样的大型语言模型 (LLM) 彻底改变了我们与文本交互的方式。我们将它们视为无所不知的先知——能够回答复杂问题、编写代码并总结小说。自然地，我们期望它们也是杰出的翻译家。如果一个 LLM 在问答环节中知道某个特定的名人是谁，那么当要求它翻译包含该名人名字的句子时，它理应能做到，对吧？ ...

[Aligning Large Language Models with Diverse Political Viewpoints 🔗](https://arxiv.org/abs/2406.14155)

跨越偏见：如何教 AI 表达多元政治观点

引言如果你曾经向像 ChatGPT 这样的大型语言模型 (LLM) 询问过一个有争议的政治话题，你很可能遇到过一种非常特定的回答。它可能是平淡的拒绝回答，一种毫无实质内容的“两边不得罪”的含糊其辞，或者——正如最近的研究越来越多地显示的——一种微妙地 (或明显地) 倾向于特定社会政治世界观的回答。 ...

[Aligning Language Models to Explicitly Handle Ambiguity 🔗](https://arxiv.org/abs/2404.11972)

言之有物：利用感知歧义性教导 LLM 提出澄清性问题

自信陷阱想象一下你问一位朋友: “谁赢得了冠军？” 如果你的朋友是个网球狂热粉，他们可能会立刻说: “诺瓦克·德约科维奇。”如果他们喜欢高尔夫，可能会说: “斯科蒂·舍夫勒。”但如果他们对所有领域都略知一二，他们会停顿一下，然后问你: “你指的是哪项运动，哪一年的冠军？” ...

[AlignCap: Aligning Speech Emotion Captioning to Human Preferences 🔗](https://arxiv.org/abs/2410.19134)

超越标签：利用 AlignCap 教 AI 生成语音情感描述

想象一下，一位朋友对你说: “我没事。”根据他们的语气、音高和语速，这可能意味着他们真的很高兴，或者无所谓，甚至可能非常愤怒。长期以来，人工智能一直将语音情感视为一个分类任务——仅仅将音频片段归类为“悲伤”、“快乐”或“愤怒”等类别。 ...

[AGENTREVIEW: Exploring Peer Review Dynamics with LLM Agents 🔗](https://arxiv.org/abs/2406.12708)

揭开审稿人的面具：LLM 智能体如何模拟同行评审过程

引言: 学术出版的黑箱如果你是一名学生或研究人员，你很可能体会过点击会议论文“提交”按钮后的那种焦虑。在接下来的几个月里，你的工作进入了一个“黑箱”。在这个黑箱里，匿名的审稿人会评判你的方法，争论你的发现，并最终决定你研究的命运。 ...

[African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification 🔗](https://arxiv.org/abs/2406.14496)

为什么你的 AI 会写诗却叫不出鸟名：深入了解 FOCI 基准测试

简介想象一下，给最先进的 AI 展示一张毛茸茸的灰白色狗狗的照片。模型立即开始运作，描述狗狗的尖耳朵、卷曲的尾巴以及毛发的质感。它甚至可能告诉你这是一种忠诚的伴侣犬。但是当你问: “这具体是什么品种？”时，模型自信地回答: “这是一只萨摩耶。” ...

[Adversarial Text Generation using Large Language Models for Dementia Detection 🔗](https://aclanthology.org/2024.emnlp-main.1222.pdf)

用 LLM 解码痴呆症——对抗性文本生成如何解锁隐藏的语言标记

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLM) 已经彻底改变了我们要与文本交互的方式。它们可以总结小说、编写代码，甚至通过律师资格考试。然而，当涉及到特定的医疗诊断时——例如通过语音模式检测痴呆症——这些强大的模型往往会碰壁。 ...