[Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation 🔗](https://arxiv.org/abs/2402.18191)

数据更少,模型更强:“聚类与排序”如何彻底变革指令微调

引言: 质量与数量的困境 在当前大语言模型 (LLM) 的发展格局中,普遍存在一种假设,即“越多越好”。我们通常认为,要让模型更聪明,就必须给它投喂更多的 token、更多的文档和更多的指令。这在预训练阶段通常是正确的,因为模型在这一阶段学习语言的统计结构。然而,在指令微调 (Instruction Tuning, IT) 阶段——即教导模型充当有用助手的最后润色阶段,规则发生了显著变化。 ...

2024-02 · 9 分钟 · 4225 字
[Cluster-Norm for Unsupervised Probing of Knowledge 🔗](https://arxiv.org/abs/2407.18712)

净化信号:Cluster-Norm 如何改进大语言模型中的无监督知识发现

大型语言模型 (LLM) 令人印象深刻,但它们也是黑盒。当 LLM 输出一段陈述时,它到底是“相信”该陈述为真,还是仅仅在模拟一个会说出该陈述的角色?随着我们使用人类偏好对模型进行微调,我们面临着将其训练成“应声虫”的风险——即告诉我们需要听到的内容,而不是事实。 ...

2024-07 · 8 分钟 · 3594 字
[Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions 🔗](https://aclanthology.org/2024.emnlp-main.928.pdf)

AI 能学会教学吗?利用模拟学生训练反馈生成器

引言: 教师的困境 如果你曾经教过课或指导过年轻同事,你就会明白其中的挣扎: 提供好的反馈很难。而大规模地提供好的反馈几乎是不可能的。 在教育界,反馈是进步的引擎。学生写文章,收到评论,然后 (希望如此) 修改作品使其变得更好。这个循环帮助学生培养批判性思维、自我评估能力以及对学科的掌握。然而,对于教育工作者来说,为几十甚至上百名学生提供详细、可执行且个性化的反馈是一个巨大的时间黑洞。 ...

8 分钟 · 3631 字
[ClimRetrieve: A Benchmarking Dataset for Information Retrieval from Corporate Climate Disclosures 🔗](https://arxiv.org/abs/2406.09818)

为什么 RAG 在气候报告中步履维艰:介绍 ClimRetrieve

简介 气候变化可以说是我们这个时代最紧迫的挑战。为了解企业界如何适应这一变化,从投资者到监管机构的利益相关者都严重依赖企业可持续发展报告。这些文件篇幅巨大、性质定性且内容复杂,往往将有关气候风险和战略的关键数据隐藏在密集的文本叙述中。 ...

2024-06 · 6 分钟 · 2885 字
[CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios 🔗](https://arxiv.org/abs/2410.03502)

超越执业考试:为何中国医疗 AI 需要真实临床测试

超越执业考试: 为何中国医疗 AI 需要真实临床测试 我们生活在一个人工智能可以高分通过医疗执照考试的时代。头条新闻经常吹捧大语言模型 (LLM) 能够在 USMLE 或中国同类考试中取得及格成绩。这引发了关于“AI 医生”即将到来的兴奋——以及炒作。 ...

2024-10 · 6 分钟 · 2853 字
[CLEANGEN: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models 🔗](https://arxiv.org/abs/2406.12257)

解锁安全 AI:CLEANGEN 如何消除大语言模型中的后门攻击

像 GPT-4、Llama 3 和 Claude 3 这样的大语言模型 (LLMs) 的能力彻底改变了我们与技术互动的方式。从编写代码到充当个人助理,这些模型正变得无处不在。然而,这种快速的应用伴随着一个巨大的安全盲点。 ...

2024-06 · 6 分钟 · 2953 字
[ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval 🔗](https://arxiv.org/abs/2404.13556)

LLM 能取代搜索栏吗?带你了解 ChatRetriever

想象一下你正在和朋友聊电影。你问: “谁导演了《盗梦空间》?”他们回答: “克里斯托弗·诺兰。”然后你问: “他还拍过什么电影?” 对人类来说,“他”显然指的是克里斯托弗·诺兰。但对标准搜索引擎来说,“他”这个指代是模棱两可的。这就是对话式搜索面临的根本挑战。用户自然地使用代词、省略号和依赖上下文的措辞,并假设系统能记住对话的历史。 ...

2024-04 · 6 分钟 · 2806 字
[ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context 🔗](https://aclanthology.org/2024.emnlp-main.363.pdf)

为何 ChatGPT 可能会无视你:AI 护栏背后隐藏的偏见

引言 想象一下,你正在向 AI 助手咨询如何合法进口一种珍稀植物。如果你告诉 AI 你是费城老鹰队 (Philadelphia Eagles) 的粉丝,它会给你列出一份有用的许可证和法规清单。但如果你提到你支持洛杉矶闪电队 (Los Angeles Chargers) ,AI 却会拒绝你,声称它无法协助该请求。 ...

7 分钟 · 3384 字
[Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models 🔗](https://arxiv.org/abs/2311.09210)

当 RAG 出错时:'Chain-of-Note' 如何教会 AI 忽略糟糕的数据

引言 我们正处于检索增强生成 (Retrieval-Augmented Generation, RAG) 的“黄金时代”。如果你最近使用过大型语言模型 (LLMs) ,你应该熟悉这个流程: LLMs 非常聪明,但它们可能会遗忘、过时,或者容易自信地胡说八道——这种现象被称为“幻觉”。 ...

2023-11 · 7 分钟 · 3281 字
[Chain-of-Dictionary Prompting Elicits Translation in Large Language Models 🔗](https://arxiv.org/abs/2305.06575)

解锁低资源翻译——字典链提示如何增强大语言模型

简介 我们通常认为像 ChatGPT 这样的大语言模型 (LLM) 是通用的翻译器。如果你要求现代 LLM 将英语翻译成法语或西班牙语,结果往往流畅且准确。然而,这种表现并非在所有语言上都一样。当我们离开高资源语言,尝试翻译成“低资源”语言——那些在互联网上训练数据明显较少的语言——时,模型往往会表现不佳。它们会产生幻觉、遗漏关键术语,或者完全无法生成连贯的文本。 ...

2023-05 · 7 分钟 · 3071 字
[Chain and Causal Attention for Efficient Entity Tracking 🔗](https://arxiv.org/abs/2410.05565)

解开记忆迷宫:链式因果注意力 (ChaCAL) 如何彻底变革 LLM 中的实体追踪

想象一下你正在读一本复杂的悬疑小说。在第 10 页,侦探把一把钥匙放进了口袋。在第 50 页,他把钥匙转移到了一个抽屉里。在第 200 页,他把抽屉里的东西给了他的搭档。最后,在第 300 页,搭档用这把钥匙打开了一扇门。要理解这一幕,你需要追踪这把钥匙在数百页内容和多次状态变化中的位置。 ...

2024-10 · 7 分钟 · 3334 字
[CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures 🔗](https://arxiv.org/abs/2410.05235)

超越诊断:利用 CasiMedicos-Arg 教 AI 像医生一样辩论

想象一下你是一名繁忙急诊室里的住院医师。你检查了一位病人,查看了他们的生命体征,然后转向你的主治医师给出了诊断。“是肺炎,”你说。主治医师看着你,问出了医学教育中最令人恐惧的问题: “为什么?” ...

2024-10 · 7 分钟 · 3043 字
[Casablanca: Data and Models for Multidialectal Arabic Speech Recognition 🔗](https://arxiv.org/abs/2410.04527)

超越现代标准语:'Casablanca' 如何彻底变革阿拉伯语语音识别

引言: “语音鸿沟” 如果你正在读这篇文章,那你很可能使用过 Siri、Alexa 或 Google Assistant 等语音助手。你甚至可能惊叹于 YouTube 上的自动字幕变得多么准确。对于讲英语、法语或西班牙语的人来说,我们正生活在自动语音识别 (ASR) 的黄金时代。大型语言模型和自监督学习 (SSL) 已经解决了这些“资源丰富”语言的大部分转录问题。 ...

2024-10 · 8 分钟 · 3749 字
[CareCorpus+: Expanding and Augmenting Caregiver Strategy Data to Support Pediatric Rehabilitation 🔗](https://aclanthology.org/2024.emnlp-main.392.pdf)

儿科护理的革命:合成数据与 LLM 如何解锁照护者策略

引言 在全球范围内,有超过 5000 万名 0-5 岁的儿童经历着某种形式的残疾。对于这些孩子和他们的家庭来说,儿科康复不仅仅意味着临床就诊;它更关乎应对日常生活的点点滴滴。这包括寻找参与家庭聚餐、在公园玩耍或管理学校生活常规的方法。在这个背景下,照护者——即父母和监护人——是无名专家。他们制定了独特、个性化的“策略”来帮助孩子取得成功。 ...

8 分钟 · 3788 字
[Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! 🔗](https://arxiv.org/abs/2410.01023)

如果 AI 能解释笑话,它真的懂了吗?利用视觉双关语测试多模态识读能力

当朋友一边眨眼一边对你说: “我今天肯定会坚持节食”时,你立刻就能明白他们的意思可能恰恰相反。你不仅仅处理了文本 (这句话) ,你还结合了视觉线索 (眨眼) 来消除陈述中的歧义。 ...

2024-10 · 8 分钟 · 3767 字
[Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization? 🔗](https://arxiv.org/abs/2406.17274)

信任的动摇:为何文本摘要中的不确定性评估比我们想象的更难

在自然语言生成 (NLG) 飞速发展的世界里,我们见证了大型语言模型 (LLM) 展现出了十年前被视为科幻小说的壮举。从总结复杂的财务报告到压缩医疗记录,生成式文本摘要正在重塑各个行业。 ...

2024-06 · 10 分钟 · 4648 字
[Can Transformers Learn n-gram Language Models? 🔗](https://arxiv.org/abs/2410.03001)

炒作之外——Transformer 真的擅长学习基础的 N-gram 吗?

如果你关注了近年来自然语言处理 (NLP) 的爆发式增长,你一定知道 Transformer 架构是这场革命背后的引擎。从 GPT-4 到 Claude,Transformer 似乎已经掌握了复杂的推理、编程和创意写作。但在研究界,一个根本性的问题仍然存在: 我们真的理解它们是如何学习的吗? ...

2024-10 · 2 分钟 · 602 字
[Can Large Language Models Learn Independent Causal Mechanisms? 🔗](https://arxiv.org/abs/2402.02636)

超越随机鹦鹉——教会 LLM 使用独立因果机制进行思考

引言 我们正处于大语言模型 (LLMs) 的黄金时代。像 GPT-4 和 LLaMA 这样的系统彻底改变了我们与技术互动的方式,展现出的语言能力往往让人感觉像是真正的智能。然而,“机器中存在幽灵”。尽管它们流利顺畅,但当面对需要严格逻辑一致性的任务,或者当数据分布与训练期间看到的数据稍有偏差时,这些模型往往会遭遇惨败。 ...

2024-02 · 7 分钟 · 3082 字
[Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? 🔗](https://arxiv.org/abs/2405.16908)

为什么你的 LLM 即使错了也听起来如此自信:忠实表达不确定性的挑战

引言 我们都有过这样的经历: 你向大型语言模型 (LLM) 询问一个具体的事实性问题——也许是关于一个晦涩的历史人物,或者是一个特定的代码错误——它以绝对的信念做出了回答。语法完美,语气权威,传达得斩钉截铁。 ...

2024-05 · 8 分钟 · 3741 字
[Can Large Language Models Enhance Predictions of Disease Progression? Investigating Through Disease Network Link Prediction 🔗](https://aclanthology.org/2024.emnlp-main.980.pdf)

ComLLM:大语言模型与图技术如何彻底改变疾病预测

引言 医疗保健的数字化转型为我们提供了海量的数据。电子健康记录 (EHR) 追踪从常规检查到危重诊断的方方面面,建立了丰富的患者健康档案。然而,拥有数据与有效地利用数据预测未来是两码事。现代医学 AI 面临的最严峻挑战之一就是预测疾病进展和共病 (comorbidity) ——即患有一种疾病 (如糖尿病) 的患者患上另一种疾病 (如心脏病) 的可能性。 ...

7 分钟 · 3251 字