EMNLP 2024

[Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation 🔗](https://arxiv.org/abs/2402.18191)

数据更少，模型更强：“聚类与排序”如何彻底变革指令微调

引言: 质量与数量的困境在当前大语言模型 (LLM) 的发展格局中，普遍存在一种假设，即“越多越好”。我们通常认为，要让模型更聪明，就必须给它投喂更多的 token、更多的文档和更多的指令。这在预训练阶段通常是正确的，因为模型在这一阶段学习语言的统计结构。然而，在指令微调 (Instruction Tuning, IT) 阶段——即教导模型充当有用助手的最后润色阶段，规则发生了显著变化。 ...

[Cluster-Norm for Unsupervised Probing of Knowledge 🔗](https://arxiv.org/abs/2407.18712)

净化信号：Cluster-Norm 如何改进大语言模型中的无监督知识发现

大型语言模型 (LLM) 令人印象深刻，但它们也是黑盒。当 LLM 输出一段陈述时，它到底是“相信”该陈述为真，还是仅仅在模拟一个会说出该陈述的角色？随着我们使用人类偏好对模型进行微调，我们面临着将其训练成“应声虫”的风险——即告诉我们需要听到的内容，而不是事实。 ...

[Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions 🔗](https://aclanthology.org/2024.emnlp-main.928.pdf)

AI 能学会教学吗？利用模拟学生训练反馈生成器

引言: 教师的困境如果你曾经教过课或指导过年轻同事，你就会明白其中的挣扎: 提供好的反馈很难。而大规模地提供好的反馈几乎是不可能的。在教育界，反馈是进步的引擎。学生写文章，收到评论，然后 (希望如此) 修改作品使其变得更好。这个循环帮助学生培养批判性思维、自我评估能力以及对学科的掌握。然而，对于教育工作者来说，为几十甚至上百名学生提供详细、可执行且个性化的反馈是一个巨大的时间黑洞。 ...

[ClimRetrieve: A Benchmarking Dataset for Information Retrieval from Corporate Climate Disclosures 🔗](https://arxiv.org/abs/2406.09818)

为什么 RAG 在气候报告中步履维艰：介绍 ClimRetrieve

简介气候变化可以说是我们这个时代最紧迫的挑战。为了解企业界如何适应这一变化，从投资者到监管机构的利益相关者都严重依赖企业可持续发展报告。这些文件篇幅巨大、性质定性且内容复杂，往往将有关气候风险和战略的关键数据隐藏在密集的文本叙述中。 ...

[CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios 🔗](https://arxiv.org/abs/2410.03502)

超越执业考试：为何中国医疗 AI 需要真实临床测试

超越执业考试: 为何中国医疗 AI 需要真实临床测试我们生活在一个人工智能可以高分通过医疗执照考试的时代。头条新闻经常吹捧大语言模型 (LLM) 能够在 USMLE 或中国同类考试中取得及格成绩。这引发了关于“AI 医生”即将到来的兴奋——以及炒作。 ...

[CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models 🔗](https://arxiv.org/abs/2406.12257)

解锁安全 AI：CLEANGEN 如何消除大语言模型中的后门攻击

像 GPT-4、Llama 3 和 Claude 3 这样的大语言模型 (LLMs) 的能力彻底改变了我们与技术互动的方式。从编写代码到充当个人助理，这些模型正变得无处不在。然而，这种快速的应用伴随着一个巨大的安全盲点。 ...

[ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval 🔗](https://arxiv.org/abs/2404.13556)

LLM 能取代搜索栏吗？带你了解 ChatRetriever

想象一下你正在和朋友聊电影。你问: “谁导演了《盗梦空间》？”他们回答: “克里斯托弗·诺兰。”然后你问: “他还拍过什么电影？” 对人类来说，“他”显然指的是克里斯托弗·诺兰。但对标准搜索引擎来说，“他”这个指代是模棱两可的。这就是对话式搜索面临的根本挑战。用户自然地使用代词、省略号和依赖上下文的措辞，并假设系统能记住对话的历史。 ...

[ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context 🔗](https://aclanthology.org/2024.emnlp-main.363.pdf)

为何 ChatGPT 可能会无视你：AI 护栏背后隐藏的偏见

引言想象一下，你正在向 AI 助手咨询如何合法进口一种珍稀植物。如果你告诉 AI 你是费城老鹰队 (Philadelphia Eagles) 的粉丝，它会给你列出一份有用的许可证和法规清单。但如果你提到你支持洛杉矶闪电队 (Los Angeles Chargers) ，AI 却会拒绝你，声称它无法协助该请求。 ...

[Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models 🔗](https://arxiv.org/abs/2311.09210)

当 RAG 出错时：'Chain-of-Note' 如何教会 AI 忽略糟糕的数据

引言我们正处于检索增强生成 (Retrieval-Augmented Generation, RAG) 的“黄金时代”。如果你最近使用过大型语言模型 (LLMs) ，你应该熟悉这个流程: LLMs 非常聪明，但它们可能会遗忘、过时，或者容易自信地胡说八道——这种现象被称为“幻觉”。 ...

[Chain-of-Dictionary Prompting Elicits Translation in Large Language Models 🔗](https://arxiv.org/abs/2305.06575)

解锁低资源翻译——字典链提示如何增强大语言模型

简介我们通常认为像 ChatGPT 这样的大语言模型 (LLM) 是通用的翻译器。如果你要求现代 LLM 将英语翻译成法语或西班牙语，结果往往流畅且准确。然而，这种表现并非在所有语言上都一样。当我们离开高资源语言，尝试翻译成“低资源”语言——那些在互联网上训练数据明显较少的语言——时，模型往往会表现不佳。它们会产生幻觉、遗漏关键术语，或者完全无法生成连贯的文本。 ...

[Chain and Causal Attention for Efficient Entity Tracking 🔗](https://arxiv.org/abs/2410.05565)

解开记忆迷宫：链式因果注意力 (ChaCAL) 如何彻底变革 LLM 中的实体追踪

想象一下你正在读一本复杂的悬疑小说。在第 10 页，侦探把一把钥匙放进了口袋。在第 50 页，他把钥匙转移到了一个抽屉里。在第 200 页，他把抽屉里的东西给了他的搭档。最后，在第 300 页，搭档用这把钥匙打开了一扇门。要理解这一幕，你需要追踪这把钥匙在数百页内容和多次状态变化中的位置。 ...

[CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures 🔗](https://arxiv.org/abs/2410.05235)

超越诊断：利用 CasiMedicos-Arg 教 AI 像医生一样辩论

想象一下你是一名繁忙急诊室里的住院医师。你检查了一位病人，查看了他们的生命体征，然后转向你的主治医师给出了诊断。“是肺炎，”你说。主治医师看着你，问出了医学教育中最令人恐惧的问题: “为什么？” ...

[Casablanca: Data and Models for Multidialectal Arabic Speech Recognition 🔗](https://arxiv.org/abs/2410.04527)

超越现代标准语：'Casablanca' 如何彻底变革阿拉伯语语音识别

引言: “语音鸿沟” 如果你正在读这篇文章，那你很可能使用过 Siri、Alexa 或 Google Assistant 等语音助手。你甚至可能惊叹于 YouTube 上的自动字幕变得多么准确。对于讲英语、法语或西班牙语的人来说，我们正生活在自动语音识别 (ASR) 的黄金时代。大型语言模型和自监督学习 (SSL) 已经解决了这些“资源丰富”语言的大部分转录问题。 ...

[CareCorpus+: Expanding and Augmenting Caregiver Strategy Data to Support Pediatric Rehabilitation 🔗](https://aclanthology.org/2024.emnlp-main.392.pdf)

儿科护理的革命：合成数据与 LLM 如何解锁照护者策略

引言在全球范围内，有超过 5000 万名 0-5 岁的儿童经历着某种形式的残疾。对于这些孩子和他们的家庭来说，儿科康复不仅仅意味着临床就诊；它更关乎应对日常生活的点点滴滴。这包括寻找参与家庭聚餐、在公园玩耍或管理学校生活常规的方法。在这个背景下，照护者——即父母和监护人——是无名专家。他们制定了独特、个性化的“策略”来帮助孩子取得成功。 ...

[Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! 🔗](https://arxiv.org/abs/2410.01023)

如果 AI 能解释笑话，它真的懂了吗？利用视觉双关语测试多模态识读能力

当朋友一边眨眼一边对你说: “我今天肯定会坚持节食”时，你立刻就能明白他们的意思可能恰恰相反。你不仅仅处理了文本 (这句话) ，你还结合了视觉线索 (眨眼) 来消除陈述中的歧义。 ...

[Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization? 🔗](https://arxiv.org/abs/2406.17274)

信任的动摇：为何文本摘要中的不确定性评估比我们想象的更难

在自然语言生成 (NLG) 飞速发展的世界里，我们见证了大型语言模型 (LLM) 展现出了十年前被视为科幻小说的壮举。从总结复杂的财务报告到压缩医疗记录，生成式文本摘要正在重塑各个行业。 ...

[Can Transformers Learn n-gram Language Models? 🔗](https://arxiv.org/abs/2410.03001)

炒作之外——Transformer 真的擅长学习基础的 N-gram 吗？

如果你关注了近年来自然语言处理 (NLP) 的爆发式增长，你一定知道 Transformer 架构是这场革命背后的引擎。从 GPT-4 到 Claude，Transformer 似乎已经掌握了复杂的推理、编程和创意写作。但在研究界，一个根本性的问题仍然存在: 我们真的理解它们是如何学习的吗? ...

[Can Large Language Models Learn Independent Causal Mechanisms? 🔗](https://arxiv.org/abs/2402.02636)

超越随机鹦鹉——教会 LLM 使用独立因果机制进行思考

引言我们正处于大语言模型 (LLMs) 的黄金时代。像 GPT-4 和 LLaMA 这样的系统彻底改变了我们与技术互动的方式，展现出的语言能力往往让人感觉像是真正的智能。然而，“机器中存在幽灵”。尽管它们流利顺畅，但当面对需要严格逻辑一致性的任务，或者当数据分布与训练期间看到的数据稍有偏差时，这些模型往往会遭遇惨败。 ...

[Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? 🔗](https://arxiv.org/abs/2405.16908)

为什么你的 LLM 即使错了也听起来如此自信：忠实表达不确定性的挑战

引言我们都有过这样的经历: 你向大型语言模型 (LLM) 询问一个具体的事实性问题——也许是关于一个晦涩的历史人物，或者是一个特定的代码错误——它以绝对的信念做出了回答。语法完美，语气权威，传达得斩钉截铁。 ...

[Can Large Language Models Enhance Predictions of Disease Progression? Investigating Through Disease Network Link Prediction 🔗](https://aclanthology.org/2024.emnlp-main.980.pdf)

ComLLM：大语言模型与图技术如何彻底改变疾病预测

引言医疗保健的数字化转型为我们提供了海量的数据。电子健康记录 (EHR) 追踪从常规检查到危重诊断的方方面面，建立了丰富的患者健康档案。然而，拥有数据与有效地利用数据预测未来是两码事。现代医学 AI 面临的最严峻挑战之一就是预测疾病进展和共病 (comorbidity) ——即患有一种疾病 (如糖尿病) 的患者患上另一种疾病 (如心脏病) 的可能性。 ...