EMNLP 2024

[CARER - Clinical Reasoning-Enhanced Representation for Temporal Health Risk Prediction 🔗](https://aclanthology.org/2024.emnlp-main.580.pdf)

教 AI 像医生一样思考：深入解析 CARER 框架

想象一位经验丰富的医生正在查看病人的档案。他们不仅仅是看一堆数字——血压 140/90，心率 100——然后从统计学上计算心脏病发作的几率。相反，他们会进行临床推理。他们综合分散的数据点，运用几十年来学到的外部医学知识，并构建关于病人主要生理进展的叙述。他们可能会想: “病人的肌酐在升高，同时血压不稳定，考虑到他们的糖尿病史，这表明急性肾损伤正在使心血管状况复杂化。” ...

[C3PA: An Open Dataset of Expert-Annotated and Regulation-Aware Privacy Policies to Enable Scalable Regulatory Compliance Audits 🔗](https://arxiv.org/abs/2410.03925)

解码法律术语：C3PA 数据集如何彻底改变自动隐私合规性

引言如果你曾经在没有阅读任何一个字的情况下点击了“我同意”隐私政策，那么你属于绝大多数人。这些文件因篇幅冗长、内容密集且充斥着复杂的法律术语而臭名昭著。然而，对于监管机构和隐私倡导者来说，这些文件是了解公司如何处理我们个人数据的第一道防线。 ...

[C-LLM: Learn to Check Chinese Spelling Errors Character by Character 🔗](https://arxiv.org/abs/2406.16536)

为何 LLM 在中文拼写纠错上表现挣扎（以及字符级分词如何解决这一问题）

像 GPT-4 和 Qwen 这样的大型语言模型 (LLM) 彻底改变了我们与文本交互的方式。它们可以写诗、生成代码，并总结复杂的文档。然而，在一个看似简单的具体任务上，这些巨头经常跌跟头: 中文拼写纠错 (CSC) 。 ...

[By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting 🔗](https://arxiv.org/abs/2407.10385)

别再给 LLM 喂数字了：为什么可视化传感器数据是 AI 感知的未来

像 GPT-4 这样的大型语言模型 (LLM) 已经征服了文本世界。它们能写诗、调试代码并总结历史。然而，物理世界并不总是用文字说话；它用传感器数据说话。从智能手表中追踪步数的加速度计，到监测病人节律的心电图 (ECG) ，无处不在的传感技术产生了海量的数值数据流。将这些数据应用于 AI 的传统方法是直接将原始数字输入模型。但是，如果你曾试着阅读包含 10,000 行浮点数的电子表格，你就知道问题所在: 它令人难以招架，处理成本高昂，且难以解释。 ...

[Building Resources for Emakhuwa: Machine Translation and News Classification Benchmarks 🔗](https://aclanthology.org/2024.emnlp-main.824.pdf)

打破沉默：为莫桑比克埃马库瓦语构建 NLP 资源

在人工智能飞速发展的世界里，我们要么惊叹于大语言模型 (LLM) 能用英语写诗，要么看着它们用 Python 调试代码，或者以近乎人类的准确度将法语翻译成德语。然而，这场技术革命的分配并不均匀。对于数十亿人来说，数字世界在他们的母语中仍然基本无法触及。 ...

[Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning 🔗](https://arxiv.org/abs/2410.05600)

文本能否教会 AI 识别仇恨？跨越推文与模因之间的鸿沟

互联网是一个战场。虽然社交媒体平台多年来一直在改进算法以检测仇恨文本，但对手也在不断进化。仇恨言论不再仅仅是输入到状态更新中的恶毒文字；它已经转移到了视觉领域。互联网模因 (Memes) ——覆盖着文字的图片——已成为传播敌意的主要载体，往往能避开传统的文本过滤器。 ...

[Bridging Local Details and Global Context in Text-Attributed Graphs 🔗](https://arxiv.org/abs/2406.12608)

超越节点与边：GraphBridge 如何在图学习中统一文本与结构

超越节点与边: GraphBridge 如何在图学习中统一文本与结构在机器学习不断发展的格局中，我们经常发现自己将数据分类为不同的类型。我们有用于文本的自然语言处理 (NLP) 和用于网络化结构的图神经网络 (GNN) 。但现实世界很少如此泾渭分明。实际上，数据往往是这两者杂乱而美妙的结合。 ...

[Bridging Cultures in the Kitchen: A Framework and Benchmark for Cross-Cultural Recipe Retrieval 🔗](https://aclanthology.org/2024.emnlp-main.61.pdf)

用 AI 烹饪：为何在跨文化厨房中检索优于生成

食物或许是我们拥有的最通用的语言，但它也被文化、地理和历史的方言深深割裂。如果你曾尝试利用当地现有的食材去复刻一道异国料理，你一定体会过其中的艰难。这不仅仅是一个翻译问题，更是一个文化适应问题。 ...

[Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models 🔗](https://arxiv.org/abs/2401.10440)

破除诅咒：X-ELM 如何让多语言 AI 走向大众化

破除诅咒: X-ELM 如何让多语言 AI 走向大众化想象一下，你正试图收拾一个要去环球旅行的行李箱。你需要准备去俄罗斯的冬装、去埃及的轻薄亚麻衣服，以及去伦敦的雨具。如果你只有一个行李箱，空间迟早会不够用。你不得不做出妥协——也许得把雨伞留下，或者带一件薄一点的外套。这就是多语言的诅咒 (Curse of Multilinguality) 。 ...

[Breaking ReLU Barrier: Generalized MoEfication for Dense Pretrained Models 🔗](https://aclanthology.org/2024.emnlp-main.563.pdf)

打破 ReLU 壁垒：如何将任意稠密模型转化为高效的混合专家模型

大型语言模型 (LLM) 的规模正在爆炸式增长。从 GPT-4 到 Llama，模型变得越来越大，越来越聪明，但关键是——运行成本也越来越高。造成这种成本的主要罪魁祸首是这些架构的稠密 (dense) 特性: 每当你问一个问题，模型中的每一个参数都会被激活来计算答案。 ...

[Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale 🔗](https://arxiv.org/abs/2407.02118)

别从零开始：跨语言持续预训练背后的科学

如果你曾尝试从头开始训练大型语言模型 (LLM) ，你一定深知其中的痛苦。这需要海量的计算资源、庞大的数据量，以及通常只有科技巨头才拥有的预算。但有一个问题一直困扰着研究人员: 既然我们已经拥有了精通英语的优秀模型 (如 LLaMA) ，为什么还要花费数百万美元从头训练新模型，仅仅是为了教它们一门新语言 (比如中文) 呢？ ...

[Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping 🔗](https://aclanthology.org/2024.emnlp-main.263.pdf)

边爬边建梯子：自举策略学习如何解决高难度对话任务

引言想象一下，你正试着教计算机如何处理复杂的客服通话——例如，预订多程航班，同时预订酒店并购买当地景点的门票。在人工智能领域，特别是任务导向型对话 (Task-Oriented Dialogue, ToD) 系统中，这是一个巨大的挑战。 ...

[Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models? 🔗](https://arxiv.org/abs/2406.11375)

AI 能教 AI 吗？利用类比提升语言模型的科学理解能力

引言想象一下，试图向一个从未上过物理课的人解释原子的结构。你可以背诵关于质子、中子和电子层的教科书定义。或者，你可以说: “原子就像一个太阳系。原子核是中心的太阳，而电子是绕其运行的行星。” ...

[Boosting Logical Fallacy Reasoning in LLMs via Logical Structure Tree 🔗](https://arxiv.org/abs/2410.12048)

揭开错误逻辑的面纱——结构树如何帮助大语言模型检测谬误

引言在信息过载的时代，区分合理的论点和欺骗性的论点比以往任何时候都更加重要。我们要经常依靠大语言模型 (LLMs) 来总结新闻、分析辩论或核实事实。然而，尽管 LLM 在生成文本方面非常流利，但它们经常难以处理逻辑推理的细微差别。它们很容易被那些听起来连贯但结构上有缺陷的论点所左右。 ...

[BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering 🔗](https://arxiv.org/abs/2402.11129)

超越简单 RAG：利用 BlendFilter 驾驭复杂查询

大语言模型 (LLM) 彻底改变了我们处理信息的方式，在摘要、对话和问答方面充当了强有力的助手。然而，任何深度使用过它们的人都知道它们的软肋: 它们并不是无所不知的。它们的知识被冻结在训练的那一刻，而且它们可能会自信地产生错误事实的“幻觉”。 ...

[Birdie: Advancing State Space Language Modeling with Dynamic Mixtures of Training Objectives 🔗](https://aclanthology.org/2024.emnlp-main.541.pdf)

教状态空间模型去记忆：'Birdie' 如何缩小与 Transformer 的检索差距

引言在当前的自然语言处理 (NLP) 领域，Transformer 架构占据着统治地位。从 ChatGPT 到 Llama，自注意力机制 (Self-attention) 解锁了惊人的生成与推理能力。然而，这种能力伴随着巨大的计算成本。注意力机制随序列长度呈二次方增长，且键值 (KV) 缓存呈线性增长，这使得处理海量上下文在训练和部署时的成本日益昂贵。 ...

[Bio-RFX: Refining Biomedical Extraction via Advanced Relation Classification and Structural Constraints 🔗](https://aclanthology.org/2024.emnlp-main.588.pdf)

AI 读医学期刊比我们更强吗？深入解读 Bio-RFX

引言生物医学文献的发表速度惊人。每天都有成千上万篇新论文发布，详细介绍最新的药物相互作用、基因发现和疾病机制。对于研究人员和临床医生来说，跟上这股信息洪流几乎是不可能的。然而，隐藏在这些非结构化文本中的，正是通往新疗法和治愈方法的关键。 ...

[BiasWipe: Mitigating Unintended Bias in Text Classifiers through Model Interpretability 🔗](https://aclanthology.org/2024.emnlp-main.1172.pdf)

BiasWipe：如何在无需重新训练的情况下精准剔除 LLM 中的偏见

引言在社交媒体时代，自动化内容审核已不仅仅是一种奢侈品，而是一种必需品。各大平台依靠复杂的人工智能模型来过滤有毒言论、骚扰和仇恨言论，以维护网络社区的安全。然而，这些数字安全的守护者自身却存在一个隐形缺陷: 它们往往带有偏见。 ...

[BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs 🔗](https://arxiv.org/abs/2407.10241)

AI 能自我监管吗？深入解析 BiasAlert：一种检测 LLM 社会偏见的新框架

像 GPT-4 和 Llama-2 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。它们帮我们起草邮件、调试代码，并回答我们最复杂的问题。然而，这些模型是其训练数据的镜像——而这些反映互联网的数据，不幸地包含了历史偏见、刻板印象和社会歧视。 ...

[Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models 🔗](https://arxiv.org/abs/2406.15718)

打破沉默：全双工模型如何终结回合制 AI 聊天

你有没有尝试过打断语音助手？通常情况是这样的: 你问了一个问题，说到一半意识到自己说错了，但 AI 忽略了你的更正，继续处理你的第一个请求。你不得不等它说完长长的独白，或者疯狂地点击“停止”按钮，才能再次尝试。 ...