[Delving into Qualitative Implications of Synthetic Data for Hate Speech Detection 🔗](https://aclanthology.org/2024.emnlp-main.1099.pdf)

被净化的网络:拆解合成数据在仇恨言论检测中的风险

生成式 AI 的爆发为研究人员和工程师提供了一根数据创造的“魔杖”。面临训练数据短缺的问题?只需让大语言模型 (LLM) 为你生成即可。这种提供无限、符合隐私法规且低成本数据的承诺,正在彻底改变自然语言处理 (NLP) 领域。 ...

8 分钟 · 3756 字
[Defining Knowledge: Bridging Epistemology and Large Language Models 🔗](https://arxiv.org/abs/2410.02499)

GPT-4 真的“知道”任何事情吗?连接 AI 与认识论

如果你问一个大型语言模型 (LLM) 像 GPT-4 这样的问题: “地球是圆的吗?”,它会自信地回答: “是的。”如果你问它德国的首都是哪里,它会说“柏林”。在自然语言处理 (NLP) 领域,我们经常说模型“知道”这些事实。我们要衡量这种“知识”,通常是通过测试模型能正确回答多少个问题来实现的。 ...

2024-10 · 8 分钟 · 3764 字
[Defending Jailbreak Prompts via In-Context Adversarial Game 🔗](https://arxiv.org/abs/2402.13148)

玩转系统:对抗性 AI 智能体如何在无需微调的情况下学会保卫 LLM

引言 大型语言模型 (LLM) 彻底改变了我们与信息交互的方式。从编写代码到总结历史,它们的能力似乎无穷无尽。然而,伴随着强大的能力而来的是一个巨大的漏洞: 越狱 (Jailbreaking) 。 ...

2024-02 · 7 分钟 · 3152 字
[DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models 🔗](https://arxiv.org/abs/2410.05639)

DecorateLM:如何通过“装饰”数据构建更好的大语言模型

在大语言模型 (LLM) 飞速发展的世界里,有一句被奉为圭臬的名言: “数据是新时代的石油”。但任何与引擎打交道的人都知道,你不能直接把原油倒进法拉利里还指望它赢得比赛。石油需要经过提炼。 ...

2024-10 · 7 分钟 · 3239 字
[Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison 🔗](https://arxiv.org/abs/2407.07840)

信任但要核实:如何利用 DeCC 衡量视觉语言模型的可靠性

想象一下,你正在使用最先进的 AI 来分析医疗 X 光片或为自动驾驶汽车导航。你向模型询问关于图像的问题,它立即给出了一个自信的答案。但这里有一个关键问题: 你怎么知道模型是真正正确的,还是仅仅在自信地产生幻觉? ...

2024-07 · 7 分钟 · 3379 字
[Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach 🔗](https://arxiv.org/abs/2311.09630)

AI 能预测谁会轻信假新闻吗?通过机器学习解读易感性

引言 我们生活在一个信息过载的时代,但更危险的是,这是一个信息失序的时代。虚假主张、阴谋论和伪科学建议——尤其是关于 COVID-19 的内容——像野火一样通过社交媒体网络蔓延。虽然我们要么关注虚假信息的内容,要么关注放大这些信息的算法,但这个生态系统中还有一个关键的组成部分: 人的因素 。 ...

2023-11 · 8 分钟 · 3999 字
[Decoding Matters: Addressing Amplification Bias and Homogeneity Issue for LLM-based Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.589.pdf)

设计缺陷:为何标准 LLM 解码在推荐系统中失效(及其修复之道)

在人工智能飞速发展的世界中,大型语言模型 (LLM) 似乎已成为解决万物的“锤子”。自然而然地,研究人员将目光投向了推荐系统 (RecSys) 。其前提令人兴奋: 如果不只是预测产品的 ID,而是让 LLM 通过自然语言理解用户意图并“生成”推荐,会怎么样? ...

7 分钟 · 3399 字
[Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models 🔗](https://arxiv.org/abs/2410.05162)

深入 RAG 的大脑:模型如何在记忆与上下文之间做选择

在大型语言模型 (LLM) 的世界里,一场无声的战役正在两种记忆之间持续进行。一方是模型的内部训练——它在创建过程中背诵的事实( 参数化记忆 )。另一方是通过检索到的文档实时提供给它的新信息( 非参数化记忆 )。 ...

2024-10 · 6 分钟 · 2873 字
[Deciphering Rumors: A Multi-Task Learning Approach with Intent-aware Hierarchical Contrastive Learning 🔗](https://aclanthology.org/2024.emnlp-main.256.pdf)

超越事实核查:AI 如何通过理解用户意图来检测谣言

社交媒体从根本上改变了我们获取信息的方式。这是一把双刃剑: 它在让信息民主化的同时,也成为了谣言和虚假信息滋生的温床。在这个“后真相”时代,挑战不仅仅在于识别错误的陈述,更在于如何在充满噪音、主观性和恶意意图的混乱环境中导航。 ...

8 分钟 · 3857 字
[Deciphering Cognitive Distortions in Patient-Doctor Mental Health Conversations: A Multimodal LLM-Based Detection and Reasoning Framework 🔗](https://aclanthology.org/2024.emnlp-main.1256.pdf)

超越文本:多模态 AI 如何解释心理健康困扰背后的“原因”

想象一下,你的朋友告诉你: “我跟邻居挥手,但他没回我。他一定很讨厌我。”作为人类,你可能会意识到这在逻辑上有点跳跃——也许邻居只是没看见。在心理学中,这被称为认知扭曲 (Cognitive Distortion, CoD) ——一种夸大或非理性的思维模式,它会延续负面情绪,通常与焦虑和抑郁有关。 ...

6 分钟 · 2993 字
[De-Identification of Sensitive Personal Data in Datasets Derived from IIT-CDIP 🔗](https://aclanthology.org/2024.emnlp-main.1198.pdf)

藏木于林:深入探究敏感文档数据集的去标识化

引言 在大语言模型和多模态深度学习时代,数据是推动创新的燃料。研究人员和学生往往依赖海量的公开数据集来对新架构进行基准测试。我们通常假设这些数据集是无害的——是为科学进步而整理的无毒文本和图像集合。但当我们凑近观察时会发生什么? ...

8 分钟 · 3841 字
[DATATALES: A Benchmark for Real-World Intelligent Data Narration 🔗](https://arxiv.org/abs/2410.17859)

LLM 能看懂股市吗?深入解读 DATATALES 基准测试

大型语言模型 (LLM) 已经精通写诗、生成代码和总结邮件。但是,如果你把一张原始股市数据的电子表格交给 LLM,问它: “这里面有什么故事?”,结果往往令人大跌眼镜。 ...

2024-10 · 7 分钟 · 3227 字
[DATANARRATIVE: Automated Data-Driven Storytelling with Visualizations and Texts 🔗](https://arxiv.org/abs/2408.05346)

AI 能写出数据故事吗?深入解读 DATANARRATIVE 智能体框架

引言 我们都见识过优秀数据叙事者的魔力。想想汉斯·罗斯林 (Hans Rosling) 用气泡图生动地解释全球人口增长,或者《纽约时报》上一篇深度调查报道,其中的文字与交互式可视化完美交织。这些叙事不仅仅是把数字堆砌在页面上;它们将数据语境化,强调趋势和因果关系,从而传达明确的信息。 ...

2024-08 · 7 分钟 · 3140 字
[Data, Data Everywhere: A Guide for Pretraining Dataset Construction 🔗](https://arxiv.org/abs/2407.06380)

缺失的手册:如何构建万亿词元的预训练数据集

如果你回顾一下大型语言模型 (LLM) 的近期发展史——从 GPT-3 到 Llama 3 再到 Mistral——你会发现一件有趣的事情。模型架构并没有发生太大的变化。它们大多是 Transformer 解码器的变体。真正发生变化的,是规模,以及更重要的——数据 。 ...

2024-07 · 7 分钟 · 3396 字
[Data Contamination Can Cross Language Barriers 🔗](https://arxiv.org/abs/2406.13236)

悄无声息的泄露:数据污染如何藏身于语言障碍之后

悄无声息的泄露: 数据污染如何藏身于语言障碍之后 大型语言模型 (LLM) 的最先进水平 (SOTA) 竞赛从未停歇。每隔几周,就会有一个新模型爬上排行榜,在 MMLU (大规模多任务语言理解) 或 GSM8K (数学推理) 等基准测试中吹嘘自己取得了更高的分数。但随着这些分数逐渐逼近 100%,一个充满怀疑的问题笼罩着 AI 社区: 这些模型是真的变得更聪明了,还是仅仅记住了考试答案? ...

2024-06 · 9 分钟 · 4014 字
[DATA ADVISOR: Dynamic Data Curation for Safety Alignment of Large Language Models 🔗](https://arxiv.org/abs/2410.05269)

超越随机生成:DATA ADVISOR 如何修复 LLM 安全训练

引言 在构建能力更强的大型语言模型 (LLM) 的竞赛中,数据就是燃料。但高质量的人工标注数据是一种有限且昂贵的资源。为了绕过这一瓶颈,研究人员转向了一种聪明且略带递归性质的解决方案: 使用 LLM 生成数据来训练其他 LLM。这项技术通常被称为“Self-Instruct (自我指导) ”,它实现了大规模的可扩展性。 ...

2024-10 · 7 分钟 · 3222 字
[Dancing in Chains: Reconciling Instruction Following and Faithfulness in Language Models 🔗](https://arxiv.org/abs/2407.21417)

幻觉权衡:大语言模型能否兼顾实用性与诚实性?

简介 在当前的大语言模型 (LLMs) 领域,我们正目睹两种极具吸引力的特质之间的一场“拔河比赛”。一方面,我们要的是有用且健谈的模型——它们能遵循开放式指令、创作诗歌,并像人类一样聊天。另一方面,我们要的是忠实且有据可依的模型——当给定特定文档或上下文时,它们能仅根据该信息回答问题,而不凭空捏造。 ...

2024-07 · 8 分钟 · 3647 字
[DVD: Dynamic Contrastive Decoding for Knowledge Amplification in Multi-Document Question Answering 🔗](https://aclanthology.org/2024.emnlp-main.266.pdf)

超越检索:动态对比解码(DVD)如何增强 LLM 的知识

引言 大型语言模型 (LLM) 彻底改变了我们与信息交互的方式,但它们存在一个顽固的缺陷: 幻觉。当 LLM 不知道答案时,它往往会编造一个。对此,行业标准的解决方案是检索增强生成 (RAG) 。 在 RAG 系统中,模型从外部数据库检索相关文档,并将其用作回答用户问题的上下文。 ...

3 分钟 · 1121 字
[DKEC: Domain Knowledge Enhanced Multi-Label Classification for Diagnosis Prediction 🔗](https://arxiv.org/abs/2310.07059)

弥合 AI 诊断的差距:知识图谱如何赋能小模型处理罕见病

在医疗人工智能 (AI) 领域,“模型看到的”与“模型知道的”之间长期存在着一种张力。 试想一位刚在急诊室上岗的住院医生。当一名患者表现出普通的流感症状时,医生凭经验就能立即做出诊断——因为这种病例他们已经见过上百次了。但是,如果一名患者表现出一组罕见的症状,指向某种特定的、鲜为人知的挤压综合征 (crush syndrome) 呢?如果在轮转期间没有见过具体的病例,这位住院医生可能会漏诊。 ...

2023-10 · 7 分钟 · 3214 字
[DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers 🔗](https://arxiv.org/abs/2410.22239)

用 AI 调试 AI:DISCERN 如何利用语言修复分类器偏差

引言 想象一下,有一位学生在历史考试中总是能拿到 95% 的高分。表面上看,他似乎精通这门学科。然而,仔细观察就会发现一个奇怪的规律: 他能答对所有关于 19 世纪的问题,却在所有涉及工业革命的问题上失分。这个学生不仅仅是知识有漏洞,而是存在系统性偏差 。 ...

2024-10 · 8 分钟 · 3574 字