EMNLP 2024

[Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark 🔗](https://arxiv.org/abs/2404.16563)

LLM 能看懂图表吗？大型语言模型时间序列理解能力基准测试

像 GPT-4 和 Llama 2 这样的大型语言模型 (LLM) 的能力近年来呈爆炸式增长。我们知道它们可以写诗、调试代码和总结历史。但是，它们能否看懂代表股价或病人心率的一串数字，并“理解”正在发生的事情？ ...

[Evaluating Large Language Models along Dimensions of Language Variation: A Systematic Investigation of Cross-lingual Generalization 🔗](https://arxiv.org/abs/2406.13718)

打破语言障碍：模拟方言以对 LLM 进行压力测试

这一代的大型语言模型 (LLM) 往往给人一种魔法般的感觉。让 BLOOM 或 GPT-4 这样的模型将法语翻译成英语，结果通常完美无瑕。切换到印地语，它的表现依然令人钦佩。但是，当你稍微踏出这些“高资源语言” (High-Resource Languages, HRLs) 的聚光灯之外，会发生什么呢？ ...

[Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts 🔗](https://arxiv.org/abs/2410.20763)

超越“像对五岁孩子解释那样”：大语言模型如何帮助我们阅读复杂的科学文本

你是否尝试过阅读非自己熟悉领域的研究论文？也许你是一位计算机科学家，正试图解析一篇生物学论文；或者你是一位社会学家，正在阅读关于量子力学的文章。你可能遇到过这样的句子: 语法完全看得懂，但某个特定的术语——比如“任意精度算术 (arbitrary-precision arithmetic) ”或“充血 (hyperaemia) ”——让你停下了脚步。 ...

[Evaluating Diversity in Automatic Poetry Generation 🔗](https://arxiv.org/abs/2406.15267)

超越图灵测试：AI 诗歌是真的富有创意，还是仅仅在机械重复？

人工智能已经攻占了创意的堡垒。从 DALL-E 生成超现实主义艺术画作，到 ChatGPT 撰写十四行诗，人类与机器创意之间的界限变得愈发模糊。但是，当你要求一个大型语言模型 (LLM) 写一首诗时，它真的在进行创造吗？或者它只是作为一个“随机鹦鹉 (stochastic parrot) ”，在重新排列它在训练中学到的诗句？ ...

[Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets 🔗](https://arxiv.org/abs/2311.08662)

打破并修复语言模型：并发鲁棒性指南

引言想象一下，你正在使用一个大型语言模型 (LLM) 来总结一份财务报告。模型运行得非常完美。然后，你修正了输入数据中的一个小拼写错误——将“5000”改为“5,000”或者修正了一个拼写错误的公司名称。突然间，模型的输出完全反转了。它与之前的总结自相矛盾。 ...

[Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works 🔗](https://arxiv.org/abs/2404.12726)

LLM 真的理解虚构角色吗？AI 角色侧写艺术

如果你玩过“角色扮演智能体” (Role-Playing Agent，简称 RPA) ——也就是那种旨在扮演哈利·波特、夏洛克·福尔摩斯或你最喜欢的动漫角色的 AI 聊天机器人——你可能会对它模仿角色说话风格的能力印象深刻。但你是否想过: AI 真的理解这个角色吗？还是说它只是在机械地模仿口头禅和表面特征？ ...

[Error Analysis of Multilingual Language Models in Machine Translation: A Case Study of English-Amharic Translation 🔗](https://aclanthology.org/2024.emnlp-main.1102.pdf)

翻译迷局：AI 能否精通阿姆哈拉语？

想象一下，你正在埃塞俄比亚旅行。你想读一篇当地的新闻文章，翻译路牌，或者用阿姆哈拉语与当地商贩交流。你拿出手机，将句子输入翻译 App。App 运转了一秒钟，吐出了一句翻译。你理所当然地认为它是对的。 ...

[Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia 🔗](https://arxiv.org/abs/2410.04254)

超越 Ctrl+F：AI 如何解决维基百科中的“实体插入”难题

想象一下，你正在编辑一篇关于 20 世纪 50 年代女演员的维基百科文章。你想添加一个指向“私立学校 (Private School) ”页面的链接，因为这与她的早年生活相关。你浏览了全文，发现“私立学校”这几个字并未出现在文章中。 ...

[Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration 🔗](https://arxiv.org/abs/2410.01285)

揭开黑盒的面纱：如何精准追溯 LLM 知识的源头数据

像 LLaMA 和 Qwen 这样的大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。它们能够以惊人的熟练度起草邮件、编写代码以及总结复杂的文本。然而，这些模型就像巨大的“黑盒”一样运作。当一个 LLM 生成特定的事实——或者更糟糕的是，产生幻觉——时，要从其海量的训练数据集中准确找出究竟是哪一份文档教会了它这条特定信息，是出了名的困难。 ...

[Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic 🔗](https://arxiv.org/abs/2402.14798)

理由正当方为正解：利用非形式逻辑教 AI 像人类一样论证

理由正当方为正解: 利用非形式逻辑教 AI 像人类一样论证试想一下，你问一个学生为什么重力能让月球保持在轨道上。如果他们回答: “因为月球是用奶酪做的”，然后莫名其妙地在选择题试卷上圈出了正确答案“重力”，那么虽然他们答对了题，但他们的推理过程却是灾难性的。 ...

[Enhancing Reinforcement Learning with Dense Rewards from Language Model Critic 🔗](https://aclanthology.org/2024.emnlp-main.515.pdf)

突破瓶颈：LLM 评论家如何解决强化学习中的稀疏奖励问题

引言如果你关注过 GPT-4 或 Llama 2 等大型语言模型 (LLM) 的爆发，那你一定对人类反馈强化学习 (RLHF) 这个概念不陌生。它是将一个原始、难以驾驭的文本预测器转变为乐于助人的助手的秘诀。通过使用强化学习 (RL)，我们可以让模型与复杂的人类偏好保持一致，而这些偏好通常很难写成简单的代码。 ...

[Enhancing Post-Hoc Attributions in Long Document Comprehension via Coarse Grained Answer Decomposition 🔗](https://arxiv.org/abs/2409.17073)

弥合信任鸿沟：粗粒度分解如何改善 AI 引用

弥合信任鸿沟: 粗粒度分解如何改善 AI 引用在生成式 AI 飞速发展的今天，信任成为了新的货币。虽然我们惊叹于 GPT-4 或 Claude 等大型语言模型 (LLM) 的流畅表达，但一个挥之不去的阴影始终笼罩着它们的输出: 幻觉 (Hallucinations) 。当 AI 基于长文档回答复杂问题时，我们如何知道它不是在胡编乱造？ ...

[Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs 🔗](https://arxiv.org/abs/2410.06581)

解决法律数据瓶颈：如何利用合成数据训练 AI 法官

如果你曾经尝试过搜索特定的法律先例，你就会知道这并不像谷歌搜索食谱那么简单。法律案例检索 (Legal Case Retrieval, LCR) 是一项高风险、复杂的任务，法官或律师需要输入一段案情描述来寻找历史上相关的案例。 ...

[Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided Decoding 🔗](https://arxiv.org/abs/2406.13230)

探索模型思维：利用 ACTCAB 和 CODEC 提高 LLM 的真实性

大型语言模型 (LLM) 常被比作自信的学生: 当它们不知道答案时，宁愿编造一个听起来合理的谎言，也不愿承认无知。这种被称为“幻觉”的现象，仍然是将 LLM 部署在医疗、法律或金融等高风险应用中的主要障碍之一。 ...

[Enhancing Language Model Alignment: A Confidence-Based Approach to Label Smoothing 🔗](https://aclanthology.org/2024.emnlp-main.1189.pdf)

平滑对齐之路：置信度感知标签平滑如何改进 DPO

大型语言模型 (LLM) 的训练已经演变成一个复杂的三阶段流程: 预训练 (学习语言) 、监督微调 (学习任务) 和带人类反馈的强化学习 (RLHF) 。虽然前两个阶段建立了模型的能力，但第三个阶段——RLHF——对于安全性与实用性而言，可以说是最关键的。它将模型与人类价值观对齐，确保人工智能是乐于助人而非有害的。 ...

[Enhancing High-order Interaction Awareness in LLM-based Recommender Model 🔗](https://arxiv.org/abs/2409.19979)

跨越鸿沟：ELMRec 如何教大语言模型理解用户-物品图谱

大语言模型 (LLMs) 彻底改变了我们与信息交互的方式。从编写代码到创作诗歌，它们的推理能力毋庸置疑。自然地，研究人员热衷于将这种力量应用于推荐系统。毕竟，如果一个 LLM 能够理解电影评论的语义，它肯定能预测你接下来想看什么电影，对吧？ ...

[Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research 🔗](https://arxiv.org/abs/2410.03545)

重复数据的困境：为什么你的社交媒体数据集可能在欺骗你

引言在自然语言处理 (NLP) 和计算社会科学 (CSS) 的世界里，我们经常痴迷于“最先进技术” (State of the Art) 。我们追求更高的 F1 分数和准确率百分比，为排行榜上的每一次微小提升而欢呼。但是，如果这些高分只是一种错觉呢？如果我们的模型并没有真正学会理解语言，而仅仅是记住了隐藏在训练集中的重复数据点呢？ ...

[Enhancing Advanced Visual Reasoning Ability of Large Language Models 🔗](https://arxiv.org/abs/2409.13980)

透过文字看世界：CVR-LLM 如何解锁复杂视觉推理

人工智能在“看”世界方面已经取得了巨大的进步。现代模型可以轻松地识别照片中的猫，或者告诉你这辆车是红色的。这被称为视觉感知。然而，如果你给 AI 看一张一个人在熨烫三明治的照片，并问它“这有什么好笑的？”，传统模型往往会束手无策。它们可能看得到熨斗和三明治，但无法理解这种情境的荒谬之处。这就是复杂视觉推理的挑战。 ...

[Enhancing AI Assisted Writing with One-Shot Implicit Negative Feedback 🔗](https://arxiv.org/abs/2410.11009)

NIFTY：如何利用被拒绝的智能回复增强 AI 写作能力

你是否曾打开一封邮件或聊天信息，看到屏幕底部那些小小的“智能回复”气泡？它们提供诸如“听起来不错！”或“我会看看。”这类快速的罐头式回复。有时，它们很有帮助。但通常情况下，它们完全偏离了重点。你会忽略它们，开始手动输入自己的回复。 ...

[Enhanced Hallucination Detection in Neural Machine Translation through Simple Detector Aggregation 🔗](https://arxiv.org/abs/2402.13331)

强强联手：聚合检测器如何解决神经机器翻译中的幻觉问题

神经机器翻译 (NMT) 彻底改变了我们的沟通方式。从 Google 翻译到先进的企业级工具，这些系统已成为现代交流的主角。然而，尽管它们被广泛采用且通常可靠，但 NMT 系统仍深受一种严重病症的困扰: 幻觉 (Hallucinations) 。 ...