EMNLP 2024

[ASSISTANTBENCH: Can Web Agents Solve Realistic and Time-Consuming Tasks? 🔗](https://arxiv.org/abs/2407.15711)

AI 智能体真能畅游网络吗？介绍 AssistantBench 和 SPA

简介想象一下，你正计划搬到一个新城市。你需要在一个特定的社区找到一套高层公寓，且该公寓在 2021 年的售价需要在某个特定范围内。或者，也许你是一个正在纽约旅游的健身爱好者，你需要找到 Tompkins Square Park 附近一家在早上 7:00 之前提供课程的健身房。 ...

[Assessing "Implicit" Retrieval Robustness of Large Language Models 🔗](https://arxiv.org/abs/2406.18134)

LLM 能学会忽略错误的建议吗？论隐式检索鲁棒性

大型语言模型 (LLM) 彻底改变了我们与信息交互的方式，但它们有一个众所周知的缺陷: 它们的知识是静态的。它们只知道训练时接触过的内容，这意味着它们无法回答关于时事或私有企业数据的问题。 ...

[Assessing and Verifying Task Utility in LLM-Powered Applications 🔗](https://arxiv.org/abs/2405.02178)

告别“能不能用？”：利用 AgentEval 衡量 LLM 应用的真实效用

大型语言模型 (LLM) 的爆发式增长改变了软件开发的格局。我们不再仅仅是在构建聊天机器人；我们在构建智能体 (Agent) ——那些能够规划、编写代码并协作解决复杂问题的应用程序。从解复杂的数学方程到在模拟环境中管理家庭物流，这些智能体正变得越来越自主。 ...

[ARXIVDIGESTABLES: Synthesizing Scientific Literature into Tables using Language Models 🔗](https://arxiv.org/abs/2410.22360)

AI 能帮你写文献综述吗？深入了解 ARXIVDIGESTABLES 框架

如果你是一名学生或研究人员，你可能很熟悉那种面对如山论文时的窒息感。科学出版物的数量正呈指数级增长。紧跟领域前沿不仅仅意味着阅读；它意味着综合。你需要阅读几十篇论文，识别共同主题，比较方法论，并对比结果。 ...

[Argument Relation Classification through Discourse Markers and Adversarial Training 🔗](https://aclanthology.org/2024.emnlp-main.1054.pdf)

AI 掌握辩论之道：话语标记与对抗训练如何提升关系分类

引言想象一下，你正在阅读一份激烈的政治辩论记录，或者正在分析一个复杂的法律案件。你的大脑会自然地对陈述进行分类。当演讲者说: “这个项目造价昂贵，”紧接着说: “然而，其长期效益是不可否认的，”你会立即识别出一种冲突，或者说对第一个前提的“反驳 (attack) ”。相反，如果他们说: “因此，我们要继续推进，”你会识别出这是“支持 (support) ”。 ...

[Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions 🔗](https://arxiv.org/abs/2410.02028)

超越聊天机器人：解锁大语言模型隐藏的分类能力

超越聊天机器人: 解锁大语言模型隐藏的分类能力当我们提到像 GPT-4 或 Llama 这样的大语言模型 (LLM) 时，我们通常会想到生成。我们会用它们来写邮件、调试代码或创作诗歌。但在自然语言处理 (NLP) 领域，有一个庞大的子集，其核心不在于生成，而在于精准度: 分类。 ...

[Are Large Language Models Capable of Generating Human-Level Narratives? 🔗](https://arxiv.org/abs/2407.13248)

为什么 AI 故事感觉平淡无奇——叙事语篇分析深度剖析

引言我们正处于自动化文本生成的黄金时代。随着 GPT-4 和 Claude 等大型语言模型 (LLM) 的兴起，生成一个流畅、语法完美的故事只需几秒钟。然而，如果你曾让 AI 写过剧本或小说，你可能注意到缺了点什么。文本是可读的，但故事的灵魂往往感觉空洞。情节可能游离不定，情感风险感觉很低，或者结局显得匆忙且缺乏铺垫。 ...

[Are LLMs Good Zero-Shot Fallacy Classifiers? 🔗](https://arxiv.org/abs/2410.15050)

AI 能检测逻辑漏洞吗？探索大语言模型的零样本谬误分类能力

“我是一位伟大的领导者，因为我做出了伟大的领导决策。” 乍一看，这句话听起来充满自信。但如果你仔细观察，就会发现它是空洞的。这是一个典型的循环论证 (Circular Reasoning) 示例——结论仅仅是前提的重述。 ...

[Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation? 🔗](https://arxiv.org/abs/2407.02062)

信心检查：数据增强能否修复 NER 模型中的过度自信问题？

信心检查: 数据增强能否修复 NER 模型中的过度自信问题？设想一位医生使用 AI 助手扫描病历以查找患者的过敏史。AI 以 99% 的置信度标记了“青霉素”。医生相信了它。但如果 AI 漏掉了一个罕见的药物名称，或者更糟糕的是，以同样的 99% 置信度将一种维生素误认为是危险的过敏原呢？ ...

[ArMeme: Propagandistic Content in Arabic Memes 🔗](https://arxiv.org/abs/2406.03916)

笑声背后：利用 AI 检测阿拉伯语模因中的宣传内容

当你滚动浏览社交媒体动态时，你很可能会在某个模因 (Meme) 上停下来。这往往是为了那一瞬间的欢笑——一张配有有趣文字的熟悉图片，随即被你转发给朋友。但模因已经演变成一种远比简单的网络幽默更有力的东西。它们已成为文化表达、政治竞选，以及日益增长的宣传工具。 ...

[Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation 🔗](https://arxiv.org/abs/2406.00787)

迷失在翻译中：从词嵌入中去除偏见真能修复机器翻译吗？

简介想象一下，在翻译引擎中输入以下句子: “The doctor asked the nurse to help her in the procedure.” (医生请护士在手术中协助她。) 如果你将其翻译成具有语法性别的语言——如西班牙语、德语或希伯来语——模型必须做出选择。医生是男是女？护士是男是女？历史上，自然语言处理 (NLP) 模型严重依赖训练数据中的刻板印象。因此，即使句子中明确使用了代词 “her” (她) 来指代医生，模型仍经常将 “doctor” 翻译为男性，将 “nurse” 翻译为女性。 ...

[Applying Contrastive Learning to Code Vulnerability Type Classification 🔗](https://aclanthology.org/2024.emnlp-main.666.pdf)

超越二元分类：利用层次化对比学习对软件漏洞进行分类

引言在现代数字环境中，软件几乎渗透到了我们日常生活的方方面面。随着这些系统的规模和复杂性不断增长，其中包含的安全漏洞种类也日益繁多。对于安全分析师而言，需要审查的代码量是惊人的。仅在 2023 年，国家漏洞数据库 (NVD) 就发布了超过 28,900 个新的通用漏洞披露 (CVE) 条目。令人不安的是，其中超过 4,000 个案例在很长一段时间内仍未被归类为具体的类型。 ...

[AppBench: Planning of Multiple APIs from Various Apps for Complex User Instruction 🔗](https://arxiv.org/abs/2410.19743)

超越简单工具：大语言模型能否掌控多应用规划的复杂性？

引言: “元规划者”的梦想想象一下，你让你的数字助手规划一次周末旅行。你说: “帮我找一趟下周六从波特兰出发去温哥华的火车，然后在温哥华预订一间适合两人居住且评分至少为 4.2 的酒店。” ...

[ApiQ: Finetuning of 2-Bit Quantized Large Language Model 🔗](https://arxiv.org/abs/2402.05147)

我们能微调 2-Bit LLM 吗？ApiQ 深度解析

简介扩展大型语言模型 (LLM) 的竞赛撞上了一堵物理高墙: GPU 显存。随着模型参数量如今已成常态地超过 500 亿，针对特定任务微调这些模型所需的计算资源是天文数字般的。例如，一个 65B 参数的模型，别说是训练了，就算是加载到标准消费级 GPU 上也是极其困难的。 ...

[Annotator-Centric Active Learning for Subjective NLP Tasks 🔗](https://arxiv.org/abs/2404.15720)

超越“金标准”：如何利用主观的人类观点训练 AI

在自然语言处理 (NLP) 的世界里，我们经常执着于一个令人宽慰的神话: “金标签” (Gold Label) 神话。想象一下，你正在训练一个 AI 来检测仇恨言论。你把一句话展示给三位人类标注者。两个人说它是冒犯性的；一个人说它是讽刺。在传统的机器学习中，我们会采取多数投票的方式，将这句话标记为“冒犯性”，然后继续。那个反对的声音被视为噪声——一种需要被平滑掉的错误。 ...

[Annotation alignment: Comparing LLM and human annotations of conversational safety 🔗](https://arxiv.org/abs/2406.06369)

AI 能判断安全性吗？衡量 LLM 与人类标注者之间的对齐度

随着大型语言模型 (LLM) 成为我们数字交互的核心，“安全性”问题已从理论关注转变为现实必要。我们不仅依赖这些模型进行聊天，还越来越多地使用它们来评估其他系统的安全性。这就产生了一个循环怪圈: AI 正被用来监管 AI。 ...

[Analyzing Key Factors Influencing Emotion Prediction Performance of VLLMs in Conversational Contexts 🔗](https://aclanthology.org/2024.emnlp-main.331.pdf)

AI 能理解你的感受吗？用《老友记》角色评估视觉-语言模型

AI 能理解你的感受吗？用《老友记》角色评估视觉-语言模型情商 (Emotional Intelligence, EI) 通常被认为是人工智能的最后一道难关。我们已经有了可以写代码、作诗和通过律师资格考试的模型，但它们能理解朋友失望时微妙的叹息，或者同事讽刺性的翻白眼吗？ ...

[Analysis of Plan-based Retrieval for Grounded Text Generation 🔗](https://arxiv.org/abs/2408.10490)

别再瞎猜了，开始规划吧：蓝图如何解决 LLM 幻觉问题

别再瞎猜了，开始规划吧: 蓝图如何解决 LLM 幻觉问题我们都见过这种情况。你让大型语言模型 (LLM) 写一篇关于小众作家的传记，或者总结最近的新闻事件。输出看起来很完美——语法无懈可击，语气权威，结构逻辑严密。但仔细一看，你就会发现模型编造了一个作者从未获得的大学学位，或者引用了一个不存在的奖项。 ...

[ANALOBENCH: Benchmarking the Identification of Abstract and Long-context Analogies 🔗](https://arxiv.org/abs/2402.12370)

AI 能读懂字里行间的意思吗？对 LLM 抽象和长上下文类比能力的基准测试

引言: “空杯”难题艾萨克·牛顿曾有一句名言: “如果说我看得更远，那是因为我站在巨人的肩膀上。”他并不是字面意义上站在别人身上；他是在用一个类比来描述科学进步是如何建立在前人发现的基础之上的。 ...

[An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance 🔗](https://arxiv.org/abs/2404.01247)

超越翻译：AI 能为不同文化调整图像吗？

我们都听过这句习语: “一图胜千言”。这是关于视觉传播力量的普遍真理。但有一个我们很少讨论的隐忧: 每个人是否都以同样的方式聆听那张图像？在我们日益全球化的世界中，我们消费来自各地的通过内容。一部在美国制作的电影在日本上映；一份在印度制作的教育练习题可能会在尼日利亚使用。虽然我们在使用机器翻译翻译文本 (文字) 方面已经做得很好，但我们经常忽视视觉。 ...