EMNLP 2024

[ANALOBENCH: Benchmarking the Identification of Abstract and Long-context Analogies 🔗](https://arxiv.org/abs/2402.12370)

AI 能读懂字里行间的意思吗？对 LLM 抽象和长上下文类比能力的基准测试

引言: “空杯”难题艾萨克·牛顿曾有一句名言: “如果说我看得更远，那是因为我站在巨人的肩膀上。”他并不是字面意义上站在别人身上；他是在用一个类比来描述科学进步是如何建立在前人发现的基础之上的。 ...

[An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance 🔗](https://arxiv.org/abs/2404.01247)

超越翻译：AI 能为不同文化调整图像吗？

我们都听过这句习语: “一图胜千言”。这是关于视觉传播力量的普遍真理。但有一个我们很少讨论的隐忧: 每个人是否都以同样的方式聆听那张图像？在我们日益全球化的世界中，我们消费来自各地的通过内容。一部在美国制作的电影在日本上映；一份在印度制作的教育练习题可能会在尼日利亚使用。虽然我们在使用机器翻译翻译文本 (文字) 方面已经做得很好，但我们经常忽视视觉。 ...

[An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare Records 🔗](https://arxiv.org/abs/2406.08958)

揭开黑盒：如何在没有昂贵人工标注的情况下解释医疗 AI

在风险极高的医疗领域，准确性至关重要。但当人工智能 (AI) 介入时，仅有准确性是不够的——信任才是真正的硬通货。设想这样一个场景: 一个机器学习模型分析了一位患者的出院小结，并预测了一个特定的医疗代码用于计费和统计追踪。预测是正确的，但医生问: “为什么？”如果 AI 无法指出文本中导致该决定的具体症状或医疗程序，医生就不太可能信任它。 ...

[An LLM Feature-based Framework for Dialogue Constructiveness Assessment 🔗](https://arxiv.org/abs/2406.14760)

打破黑盒：一种分析对话建设性的混合方法

你有没有读过互联网上的评论区，然后心想: “哇，这真是一场富有成效的对话”？这种情况很少见。大多数网络争论最终都会演变成互相叫嚷。但在自然语言处理 (NLP) 和社会科学领域的研究人员看来，理解是什么让一段对话具有“建设性”——即参与者能够敞开心扉、达成共识，或者仅仅是礼貌地表达不同意见——是一个巨大且复杂的谜题。 ...

[An L* Algorithm for Deterministic Weighted Regular Languages 🔗](https://arxiv.org/abs/2411.06228)

揭开黑盒的面纱：一种学习确定性加权自动机的新算法

揭开黑盒的面纱: 一种学习确定性加权自动机的新算法在计算机科学和自然语言处理 (NLP) 领域，我们经常面对强大的“黑盒”模型。我们给它们一个输入，它们会给出一个输出——通常是一个概率分数或分类。但要理解它们如何得出这个结论却极其困难。这就是自动机提取的领域: 将复杂模型逆向工程为更简单、可解释的有限状态自动机 (FSA) 的过程。 ...

[An Experimental Analysis on Evaluating Patent Citations 🔗](https://aclanthology.org/2024.emnlp-main.23.pdf)

预测下一个重大发明——图神经网络如何分析专利引用

预测下一个重大发明: 图神经网络如何分析专利引用创新是现代经济的引擎，而专利制度则是其燃料。每年都有数十万项专利获得授权，代表着数十亿美元的研发投入。但这里有一个价值万亿美元的问题: 这些专利中，究竟哪些才真正重要? ...

[An Empirical Study of Multilingual Reasoning Distillation for Question Answering 🔗](https://aclanthology.org/2024.emnlp-main.442.pdf)

错误答案能帮助模型学习吗？深入剖析多语言推理蒸馏

引言在人工智能飞速发展的世界中，像 GPT-4 这样的大型语言模型 (LLMs) 树立了极高的性能标杆。它们最令人印象深刻的功能之一是执行思维链 (Chain-of-Thought, CoT) 推理的能力——即在得出答案之前，将复杂问题分解为一步步的逻辑解释。这种能力彻底改变了模型处理数学应用题、符号逻辑和多步规划的方式。 ...

[An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models 🔗](https://arxiv.org/abs/2411.06048)

为什么 GPT-4o 分不清左右？深入剖析大模型的多模态空间推理能力

引言想象一下你坐在餐桌旁。一位朋友问: “盐在哪儿？”你扫视了一下桌子回答道: “就在你杯子的右边。”这种互动看起来毫不费力。它只需要你识别物体，从朋友的视角理解场景，并清晰地表达出空间关系。 ...

[An Electoral Approach to Diversify LLM-based Multi-Agent Collective Decision-Making 🔗](https://arxiv.org/abs/2410.15168)

AI 的民主化：为什么 LLM 智能体需要更好的投票系统

AI 的民主化: 为什么 LLM 智能体需要更好的投票系统想象一场董事会会议。与会者不是人类，而是先进的大型语言模型 (LLMs) ，每一个都作为自主智能体 (Agent) 行动。它们的任务是解决一个复杂的医疗诊断问题，或者是调试一个庞大的软件代码库。每个智能体都对问题进行了推理并提出了解决方案。但问题就在这里: 它们意见不一。 ...

[An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification 🔗](https://arxiv.org/abs/2409.03203)

DiffusionCLS：利用扩散模型掌握低资源情感分析

DiffusionCLS: 利用扩散模型掌握低资源情感分析在大语言模型 (LLM) 时代，人们很容易认为自然语言处理 (NLP) 已是一个被解决的问题。我们拥有的模型可以写诗、用 Python 编程，甚至总结历史书籍。然而，在这些模型的实际应用中，仍存在一个巨大的鸿沟: 数据稀缺。 ...

[An Audit on the Perspectives and Challenges of Hallucinations in NLP 🔗](https://arxiv.org/abs/2404.07461)

AI 界的巴别塔：为什么我们无法就‘幻觉’的定义达成一致

如果你曾大量使用过 ChatGPT、Gemini 或任何现代大型语言模型 (LLM) ，你很可能遇到过这种情况: 机器自信地断言某些实际上不真实的事情。它可能会编造一个从未发生过的法庭案件，将名言归因于错误的历史人物，或者生成一个无法访问的网址。 ...

[An Analysis of Multilingual FActScore 🔗](https://arxiv.org/abs/2406.19415)

迷失在翻译中？为什么跨语言评估 AI 真实性比你想象的更难

GPT-4 和 Gemini 等大型语言模型 (LLM) 的兴起彻底改变了我们与信息交互的方式。我们提出复杂的问题，而这些模型能生成流畅、类似人类的回答。然而，机器中存在一个幽灵: 幻觉 (Hallucination) 。众所周知，LLM 经常自信满满地将虚假信息陈述为事实。 ...

[Altogether: Image Captioning via Re-aligning Alt-text 🔗](https://arxiv.org/abs/2410.17251)

停止单纯生成，开始重对齐：一种更优的合成图像字幕方法

对通用人工智能 (AGI) 的追求往往感觉像是一场硬件竞赛——更大的集群，更多的 GPU。但资深研究人员都知道，瓶颈正日益变成数据质量。为了构建超越人类平均智力的 AI 智能体，我们需要包含超人类知识的训练数据。 ...

[AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality 🔗](https://arxiv.org/abs/2410.10054)

别再瞎猜了：利用 AlphaLoRA 优化 LoRA-MoE

大型语言模型 (LLMs) 的发展正受到一个巨大的限制: 规模。为了让模型更智能，它们变得越来越大，这使得针对特定任务对它们进行微调在计算上变得极其昂贵。为了解决这个问题，社区采用了参数高效微调 (PEFT) 方法，其中 LoRA (低秩适应) 是其中的明星技术。LoRA 冻结了庞大的预训练模型，并注入微小的、可训练的适配器。它效果显著，但也有上限。由于 LoRA 的参数非常少，它们有时难以捕捉复杂的新行为。 ...

[Alignment-Enhanced Decoding: Defending Jailbreaks via Token-Level Adaptive Refining of Probability Distributions 🔗](https://aclanthology.org/2024.emnlp-main.164.pdf)

解决 AI 的拉锯战：对齐增强解码如何阻止越狱攻击

大型语言模型 (LLMs) 已变得无处不在，它们充当着代码助手、创意作家和通用聊天机器人的角色。为了使这些模型能够安全地向公众发布，开发者在“对齐 (Alignment) ”上投入了大量资源——训练模型在提供帮助的同时，严格拒绝生成有害内容，例如违法行为指南或仇恨言论。 ...

[Aligning Translation-Specific Understanding to General Understanding in Large Language Models 🔗](https://arxiv.org/abs/2401.05072)

迷失在翻译中？DUAT 如何对齐 LLM 的理解能力以实现更好的机器翻译

引言像 GPT-4 这样的大型语言模型 (LLM) 彻底改变了我们与文本交互的方式。我们将它们视为无所不知的先知——能够回答复杂问题、编写代码并总结小说。自然地，我们期望它们也是杰出的翻译家。如果一个 LLM 在问答环节中知道某个特定的名人是谁，那么当要求它翻译包含该名人名字的句子时，它理应能做到，对吧？ ...

[Aligning Large Language Models with Diverse Political Viewpoints 🔗](https://arxiv.org/abs/2406.14155)

跨越偏见：如何教 AI 表达多元政治观点

引言如果你曾经向像 ChatGPT 这样的大型语言模型 (LLM) 询问过一个有争议的政治话题，你很可能遇到过一种非常特定的回答。它可能是平淡的拒绝回答，一种毫无实质内容的“两边不得罪”的含糊其辞，或者——正如最近的研究越来越多地显示的——一种微妙地 (或明显地) 倾向于特定社会政治世界观的回答。 ...

[Aligning Language Models to Explicitly Handle Ambiguity 🔗](https://arxiv.org/abs/2404.11972)

言之有物：利用感知歧义性教导 LLM 提出澄清性问题

自信陷阱想象一下你问一位朋友: “谁赢得了冠军？” 如果你的朋友是个网球狂热粉，他们可能会立刻说: “诺瓦克·德约科维奇。”如果他们喜欢高尔夫，可能会说: “斯科蒂·舍夫勒。”但如果他们对所有领域都略知一二，他们会停顿一下，然后问你: “你指的是哪项运动，哪一年的冠军？” ...

[AlignCap: Aligning Speech Emotion Captioning to Human Preferences 🔗](https://arxiv.org/abs/2410.19134)

超越标签：利用 AlignCap 教 AI 生成语音情感描述

想象一下，一位朋友对你说: “我没事。”根据他们的语气、音高和语速，这可能意味着他们真的很高兴，或者无所谓，甚至可能非常愤怒。长期以来，人工智能一直将语音情感视为一个分类任务——仅仅将音频片段归类为“悲伤”、“快乐”或“愤怒”等类别。 ...

[AGENTREVIEW: Exploring Peer Review Dynamics with LLM Agents 🔗](https://arxiv.org/abs/2406.12708)

揭开审稿人的面具：LLM 智能体如何模拟同行评审过程

引言: 学术出版的黑箱如果你是一名学生或研究人员，你很可能体会过点击会议论文“提交”按钮后的那种焦虑。在接下来的几个月里，你的工作进入了一个“黑箱”。在这个黑箱里，匿名的审稿人会评判你的方法，争论你的发现，并最终决定你研究的命运。 ...