[Personality-aware Student Simulation for Conversational Intelligent Tutoring Systems 🔗](https://arxiv.org/abs/2404.06762)

AI 能模拟真实课堂吗?教大语言模型扮演有“个性”的学生

想象一下,如果你要培训一位新老师。你肯定不希望他们的第一次教学互动就是面对一个需要细致、特殊关照的“困难学生”。你希望他们先进行练习。同样的逻辑也适用于 智能辅导系统 (Intelligent Tutoring Systems, ITS) ——这种旨在提供个性化教学的 AI 驱动的教育工具。 ...

2024-04 · 7 分钟 · 3329 字
[Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale 🔗](https://arxiv.org/abs/2411.05045)

蒸馏巨兽——如何利用反馈循环和硬负样本训练高效模型

在当前的人工智能领域,我们经常面临一个两难选择: 是选择智能还是效率?像 GPT-4 或 Claude 这样的大语言模型 (LLMs) 非常聪明,能够理解较小模型无法捕捉的细微差别和语境。然而,它们也速度缓慢、昂贵且计算量大——通常对于高吞吐量的生产环境来说过于沉重。 ...

2024-11 · 5 分钟 · 2395 字
[Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models 🔗](https://arxiv.org/abs/2407.06004)

从看见到相信:大语言模型为何在心智理论上受挫及解决之道

想象一下,你正在看一个叫 Sally 的孩子把一颗弹珠放进篮子里,然后离开房间。在她离开期间,另一个孩子 Anne 把弹珠移到了一个盒子里。当 Sally 回来时,她会去哪里找她的弹珠? ...

2024-07 · 6 分钟 · 2796 字
[Perceptions of Linguistic Uncertainty by Language Models and Humans 🔗](https://arxiv.org/abs/2407.15814)

当“可能”意味着“为真”:大语言模型如何在心智理论上陷入挣扎

我们每天都在使用模糊的词汇。当你告诉朋友“明天可能 (likely) 要下雨”或者“我未必 (doubtful) 能参加聚会”时,你输出的并不是一个精确的数学计算,而是在表达一种模糊的信念程度。值得注意的是,尽管缺乏精确性,人类通常能在这一点上达成共识。我们本能地知道,“很可能 (likely) ”代表的概率比“可能 (possible) ”高,但比“几乎确定 (almost certain) ”低。 ...

2024-07 · 9 分钟 · 4047 字
[PepRec: Progressive Enhancement of Prompting for Recommendation 🔗](https://aclanthology.org/2024.emnlp-main.995.pdf)

LLM 能掌握协同过滤吗?深入解析 PepRec

在人工智能飞速发展的版图中,两大巨头虽各领风骚却鲜有联手: 深度学习推荐模型 (DLRMs) 和 大型语言模型 (LLMs) 。 DLRMs 是你的 TikTok 信息流、亚马逊推荐列表和 Netflix 主页背后的无声引擎。它们擅长“协同过滤”——基于数百万用户的数学模式来预测你可能喜欢什么。然而,它们通常是“黑盒”;它们能告诉你看什么,但很少能用人类的语言解释为什么。 ...

8 分钟 · 3735 字
[Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification 🔗](https://arxiv.org/abs/2407.02352)

消除视觉幻觉:Pelican 如何利用 Python 核查 AI 视觉模型

想象一下,你让一个 AI 描述一张你家客厅的照片。模型自信地回答: “有一辆红色的复古摩托车停在咖啡桌旁。”你再次看向照片。根本没有摩托车,只有一盆红色的盆栽。 ...

2024-07 · 8 分钟 · 3912 字
[PCC-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity 🔗](https://arxiv.org/abs/2406.09790)

打破玻璃天花板:Pcc-tuning 如何解锁 NLP 中对比学习的极限

引言: 遭遇 NLP 的瓶颈 如果你一直关注自然语言处理 (NLP) 的进展,特别是在句向量 (Sentence Embeddings) 领域,你可能已经注意到了一个趋势。我们已经从简单的词向量 (如 GloVe) 发展到复杂的基于 Transformer 的模型 (如 BERT) ,再到现在的大型语言模型 (LLM,如 LLaMA 和 Mistral) 。 ...

2024-06 · 7 分钟 · 3450 字
[Paraphrase Types Elicit Prompt Engineering Capabilities 🔗](https://arxiv.org/abs/2406.19898)

关键不在问什么,而在怎么问:提示词改写背后的科学

引言 “重要的不是你说什么,而是你怎么说。” 这句古老的格言通常适用于人际关系,意味着语气和表达方式与信息本身同样重要。出人意料的是,这条规则同样严格适用于大型语言模型 (LLMs) 。 ...

2024-06 · 7 分钟 · 3190 字
[Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks 🔗](https://arxiv.org/abs/2401.02731)

如何利用 PESC 将稠密 LLM 转化为高效的混合专家模型 (Mixture-of-Experts)

像 GPT-4 和 Llama 3 这样的大型语言模型 (LLMs) 已经成为自然语言处理领域事实上的“专家”。它们处理复杂语言模式的能力很大程度上归功于其巨大的规模。这一普遍认知被称为缩放定律 (scaling law),它表明要获得更智能的模型,我们只需把它们做得更大。 ...

2024-01 · 7 分钟 · 3216 字
[PAIRDISTILL: Pairwise Relevance Distillation for Dense Retrieval 🔗](https://arxiv.org/abs/2410.01383)

超越单点:成对比较如何彻底改变搜索 AI

当你在搜索引擎中输入查询时,你希望立即获得相关的结果。然而,在幕后,速度与准确性之间始终存在着一场拉锯战。现代信息检索 (IR) 系统通常依赖于一个两步流程来平衡这一权衡: 首先是一个快速的“检索器 (Retriever)”来查找广泛的候选文档集,紧接着是一个较慢但更精确的“重排序器 (Reranker)”对它们进行排序。 ...

2024-10 · 7 分钟 · 3083 字
[PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL 🔗](https://arxiv.org/abs/2409.14082)

像教人类学生一样教 LLM:PTD-SQL 框架详解

引言 想象一下你正在复习一场高难度的数学考试。打开课本时,你不会只是按顺序阅读每一页,你会发现章节是按主题划分的: 几何、代数、微积分和统计学。当你在这个几何题型上遇到困难时,你不会通过解微积分方程来练习。相反,你会进行针对性训练 (Targeted Drilling) ——你会找来一组几何题,学习它们所需的特定公式,并反复练习直到掌握这一类题型。 ...

2024-09 · 8 分钟 · 3572 字
[PSC: Extending Context Window of Large Language Models via Phase Shift Calibration 🔗](https://arxiv.org/abs/2505.12423)

校准指南针:相位偏移校准如何扩展 LLM 上下文窗口

引言 想象一下,你试图总结一本内容密集的小说,但你的记忆一次只能容纳十页。当你读到第三章时,第一章的内容就已经完全忘记了。这就是大型语言模型 (LLM) 在处理有限上下文窗口时面临的根本困境。虽然像 GPT-4 和 LLaMA-2 这样的模型彻底改变了自然语言处理 (NLP) ,但它们处理大量输入 (如整本书或法律资料库) 的能力受到其“上下文窗口”的限制。 ...

2025-05 · 7 分钟 · 3326 字
[Prompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling 🔗](https://arxiv.org/abs/2402.08702)

超越单步:PROMST 如何掌握多步提示工程

超越单步: PROMST 如何掌握多步提示工程 如果你曾经使用过像 GPT-4 或 Claude 这样的大型语言模型 (LLM) ,你应该对提示工程 (Prompt Engineering) 这门“玄学”并不陌生。你在这里改一个词,在那里加一个约束条件,然后祈祷模型能输出你想要的结果。 ...

2024-02 · 8 分钟 · 3511 字
[PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection 🔗](https://aclanthology.org/2024.emnlp-main.1166.pdf)

AI 能通过辩论做出更好的决策吗?解决仇恨言论的主观性难题

如果你问五个不同的人如何定义“仇恨言论”,你很可能会得到五个略有不同的答案。有人可能关注侮辱性词汇,有人关注历史背景,还有人关注说话者的意图。 ...

7 分钟 · 3476 字
[PATIENT-Ψ: Using Large Language Models to Simulate Patients for Training Mental Health Professionals 🔗](https://aclanthology.org/2024.emnlp-main.711.pdf)

超越角色扮演:PATIENT-Ψ 如何利用认知模型培训下一代治疗师

引言 心理健康是我们这个时代最严峻的公共卫生挑战之一。全球每八个人中就有一人患有心理健康疾病,合格护理的需求远远超过了供应。然而,培训一名心理健康专业人员不仅仅是阅读教科书和通过考试,它还需要掌握微妙、复杂且往往不可预测的人际互动艺术。 ...

7 分钟 · 3250 字
[PARIKSHA: Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data 🔗](https://arxiv.org/abs/2406.15053)

PARIKSHA:揭示多语言 LLM 评估的真相

引言 在大型语言模型 (LLM) 飞速发展的世界中,基准测试 (Benchmarks) 是我们衡量进步的指南针。我们通过排行榜来判断哪个模型更“聪明”、更“快”或更“安全”。然而,在这片版图中存在一个显眼的盲点: 语言和文化的多样性。 ...

2024-06 · 6 分钟 · 2985 字
[PANDA: Persona Attributes Navigation for Detecting and Alleviating Overuse Problem in Large Language Models 🔗](https://aclanthology.org/2024.emnlp-main.670.pdf)

信息量过载!为何大模型总是分享太多以及 PANDA 框架如何修复这一问题

引言 想象一下,你正在与一位新认识的熟人聊天。你提到你喜欢读悬疑小说。一个正常的反应可能是: “噢,我也很喜欢!你最喜欢的作者是谁?” 现在想象一下这位熟人回答道: “我也很喜欢读书!我是一名 35 岁的会计师,住在芝加哥。我有三只猫,分别叫 Mittens、Oreo 和 Luna。我患有焦虑症,每周二下午 6 点去健身房。” ...

8 分钟 · 3617 字
[PALM: Few-Shot Prompt Learning for Audio Language Models 🔗](https://arxiv.org/abs/2409.19806)

超越手工提示词:利用 PALM 优化音频语言模型

简介 在快速发展的人工智能领域,多模态模型——能够理解和处理文本、图像和音频等多种类型数据的系统——正在开辟新的天地。正如 CLIP 等视觉-语言模型 (VLMs) 通过连接图像与自然语言彻底改变了计算机视觉一样,音频-语言模型 (ALMs) 也正在为声音领域带来同样的变革。 ...

2024-09 · 6 分钟 · 2643 字
[Overcome Noise and Bias: Segmentation-Aided Multi-Granularity Denoising and Debiasing for Enhanced Quadruples Extraction in Dialogue 🔗](https://aclanthology.org/2024.emnlp-main.49.pdf)

驯服混乱:如何在没有噪声和偏差的情况下从杂乱的对话中提取情感四元组

情感分析已经从简单地将电影评论分类为“正面”或“负面”,发展到了如今的细粒度数据分析时代。我们现在的关注点在于基于方面的情感分析 (Aspect-Based Sentiment Analysis, ABSA) 。 我们不仅想知道用户是否快乐,还想知道他们对什么感到快乐,他们喜欢哪个具体功能,以及他们使用了什么观点词。 ...

8 分钟 · 3601 字
[Outcome-Constrained Large Language Models for Countering Hate Speech 🔗](https://arxiv.org/abs/2403.17146)

超越礼貌——教人工智能缓和仇恨言论

如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过,你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战,威胁着健康的交流并驱赶用户。 ...

2024-03 · 7 分钟 · 3436 字