[Language models and brains align due to more than next-word prediction and word-level information 🔗](https://arxiv.org/abs/2212.00596)

不仅仅是预测:为什么语言模型与人脑实际上是一致的

简介 近年来,人工智能与神经科学之间出现了一个令人着迷的交叉领域。大型语言模型 (LMs) ——即 GPT 等系统背后的技术——展现出了预测人类大脑活动的惊人能力。当人类在 fMRI 扫描仪中阅读书籍时,正在处理相同文本的 LM 的内部激活可以令人惊讶地很好地映射到人类大脑中的生物信号上。 ...

2022-12 · 7 分钟 · 3371 字
[Language is Scary when Over-Analyzed: Unpacking Implied Misogynistic Reasoning with Argumentation Theory-Driven Prompts 🔗](https://arxiv.org/abs/2409.02519)

读懂言外之意:大型语言模型能否检测隐性厌女症?

简介 内容审核已经取得了长足的进步。如果你在社交媒体上发布诽谤性言论或公然的暴力威胁,很有可能自动化系统会在几小时内将其标记并删除。针对显性关键词训练的算法非常高效。然而,仇恨言论正在演变。它变得更加安静、微妙且阴险。 ...

2024-09 · 6 分钟 · 2818 字
[Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models 🔗](https://arxiv.org/abs/2404.02575)

像编译器一样思考如何提升 AI 推理能力

引言 像 GPT-4 和 Claude 这样的大型语言模型 (LLM) 在生成类人文本、创作诗歌甚至解释复杂的历史事件方面表现得令人难以置信。然而,在某个特定领域,这些模型经常遇到困难: 算法推理 。 ...

2024-04 · 8 分钟 · 3673 字
[Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs 🔗](https://arxiv.org/abs/2403.19827)

AI 如何学习未见之事:“美好的五天”之谜

AI 如何学习未见之事: “美好的五天”之谜 想象一下,你正在读一本书,偶然看到了这样一个短语: “a beautiful five days” (美好的五天) 。 对于以英语为母语的人来说,这听起来非常自然。你可能会说: “We spent a beautiful five days in Rome.” (我们在罗马度过了美好的五天) 。但如果你停下来审视一下语法,会发现有些奇怪的事情正在发生。单词 “a” 是一个单数冠词 (用于单个事物,如 “a dog” 一只狗) 。而短语 “five days” (五天) 是复数的。从严格的语法角度来看,将单数冠词与复数名词短语结合应该是一场灾难。我们不会说 “a days” 或 “a five dogs”。然而,这种 “Article + Adjective + Numeral + Noun” (冠词+形容词+数词+名词,简称 AANN) 的构式在英语中却是完全可以接受的。 ...

2024-03 · 7 分钟 · 3228 字
[Language Concept Erasure for Language-invariant Dense Retrieval 🔗](https://aclanthology.org/2024.emnlp-main.736.pdf)

打破语言障碍:LANCER 如何教会模型忽略语言身份

想象一下,你正在寻找一种特定糕点的烘焙说明。你在搜索引擎中输入了查询。在这个世界的某个角落,存在着一份由烘焙大师撰写的完美食谱。然而,那位面包师是用意大利语写的食谱,而你用的是英语搜索。 ...

8 分钟 · 3935 字
[Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level 🔗](https://arxiv.org/abs/2406.15741)

还能拯救糟糕的翻译吗?介绍 MT-Ladder:大语言模型翻译器的“拼写检查器”

语言障碍可以说是全球交流的最大阻碍,长期以来,机器翻译 (Machine Translation, MT) 一直是试图打破这一障碍的攻城锤。近年来,像 GPT-4 这样的大语言模型 (LLM) 彻底改变了这一领域,提供了不仅准确而且语境丰富的翻译。 ...

2024-06 · 8 分钟 · 3609 字
[Label Confidence Weighted Learning for Target-level Sentence Simplification 🔗](https://aclanthology.org/2024.emnlp-main.999.pdf)

从噪声中理出头绪:标签置信度加权学习如何彻底变革文本简化

想象一下,你试图向一个 5 岁的孩子解释一个复杂的科学概念,然后向一个 10 岁的孩子解释,最后是向一个高中生解释。你会针对每一个“目标”受众改变你的词汇、句子结构和语气。这就是目标级句子简化 (Target-level Sentence Simplification) 的本质。 ...

6 分钟 · 2566 字
[LUQ: Long-text Uncertainty Quantification for LLMs 🔗](https://arxiv.org/abs/2403.20279)

当大模型开始“胡扯”:测量长文本生成中的不确定性

像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 已经改变了我们与信息交互的方式。我们让它们写邮件、总结复杂的主题,甚至生成历史人物的传记。但这里有一个众所周知的隐患: 幻觉 (hallucinations) 。 大模型可能会在完全捏造事实的同时表现出绝对的自信。 ...

2024-03 · 7 分钟 · 3041 字
[LONGAGENT: Achieving Question Answering for 128k-Token-Long Documents through Multi-Agent Collaboration 🔗](https://aclanthology.org/2024.emnlp-main.912.pdf)

多智能体协作如何在长文档任务上击败 GPT-4:深入解析 LONGAGENT

引言 在大语言模型 (LLM) 飞速发展的世界里,对“上下文窗口 (context window) ”霸主地位的争夺异常激烈。我们已经从仅能保留少量对话历史的模型,发展到了像 GPT-4 和 Claude 2 这样的巨兽,它们分别号称拥有 128k 和 200k token 的上下文窗口。理想情况下,这意味着你可以把整本小说、法律代码库或巨型技术手册投喂给模型,然后问它任何问题。 ...

7 分钟 · 3416 字
[LLoCO: Learning Long Contexts Offline 🔗](https://arxiv.org/abs/2404.07979)

小抄策略:LLoCO 如何高效掌握长上下文

小抄策略: LLoCO 如何高效掌握长上下文 想象一下,你是一名正在准备一场覆盖整本教科书的艰难期末考试的学生。你有三种应对方式。 首先是“开卷”法: 你把整本教科书带进考场。你拥有所有信息,但翻阅数千页来寻找一个特定答案非常耗时。其次是“闭卷”法: 你完全依靠记忆。这很快,但如果考试问到第 342 页的具体细节,你就倒霉了。 ...

2024-04 · 7 分钟 · 3367 字
[LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training 🔗](https://arxiv.org/abs/2406.16554)

化巨人为专家:如何基于 LLaMA 构建混合专家模型

引言 在当今的人工智能领域,缩放定律 (Scaling Laws) 占据了统治地位: 如果你想要一个更智能的模型,就把通过做大。模型参数量已经从数百万膨胀到数十亿,现在更是达到了万亿级别。然而,我们正在撞上一堵墙。对于许多研究人员和应用来说,运行这些庞大的稠密模型所需的纯粹计算成本正变得不可持续。 ...

2024-06 · 7 分钟 · 3323 字
[LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law 🔗](https://aclanthology.org/2024.emnlp-main.842.pdf)

LLM 能学会物理吗?揭秘上下文神经缩放定律

当我们想到大型语言模型 (LLMs) ,如 LLaMA 或 GPT-4 时,通常会认为它们是语言大师。它们能写诗、总结邮件以及调试代码。但在核心层面,这些模型是序列预测器——它们观察一系列 token,并预测接下来会出现什么。 ...

7 分钟 · 3254 字
[LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing 🔗](https://arxiv.org/abs/2406.16253)

AI 能给 AI 打分吗?揭秘 LLM 在同行评审中的真相

学术研究领域正面临着一场规模危机。每年,提交给顶级人工智能会议的论文数量都在激增。对于处于接收端的研究人员来说,这意味着堆积如山的论文需要阅读、批评和评审。这种工作量正变得难以为继。 ...

2024-06 · 8 分钟 · 3722 字
[LLMs Are Zero-Shot Context-Aware Simultaneous Translators 🔗](https://arxiv.org/abs/2406.13476)

上下文为王:现成的大型语言模型如何掌握同声传译

简介 想象一下,你是一名高规格医学会议的同声传译员。演讲者快步走上讲台,开始语速飞快地谈论心脏病学。他们提到了一个患有“PVC”的病人。如果你只是逐字翻译,你可能会卡住。这是指聚氯乙烯 (一种塑料) 吗?不,在这个语境下,它代表的是*室性早搏 (Premature Ventricular Contraction) *。 ...

2024-06 · 7 分钟 · 3258 字
[LLMEdgeRefine: Enhancing Text Clustering with LLM-Based Boundary Point Refinement 🔗](https://aclanthology.org/2024.emnlp-main.1025.pdf)

驯服离群点:LLMEdgeRefine 如何彻底变革文本聚类

引言 想象你是一名图书管理员,任务是将一大堆书按体裁分类。大多数书都很容易处理: 有宇宙飞船的归入科幻类,有巨龙的归入奇幻类。但是,如果遇到一本关于巨龙驾驶宇宙飞船的书呢?或者一本封面破损、标题模糊的书呢? ...

7 分钟 · 3282 字
[LLM4Decompile: Decompiling Binary Code with Large Language Models 🔗](https://arxiv.org/abs/2403.05286)

从二进制到 C:LLM4Decompile 如何彻底改变逆向工程

想象一下,你在服务器上发现了一个旧的可执行文件。它是你公司遗留软件的关键部分,但有一个问题: 源代码丢失了。没有 GitHub 仓库,没有备份的压缩包。只有原始的二进制文件。 ...

2024-03 · 7 分钟 · 3272 字
[LLM-based Code-Switched Text Generation for Grammatical Error Correction 🔗](https://arxiv.org/abs/2410.10349)

修复不可修复之物:LLM 如何教 AI 修正语码转换文本

想象一下,你是一名母语为日语的英语学习者。你正在和朋友聊天,然后打出了这样一句话: “According to the test, my shortcomings are 靴下 and ご主人様.” (根据测试,我的缺点是靴下和ご主人様。) ...

2024-10 · 8 分钟 · 3686 字
[LLM-Evolve: Evaluation for LLM's Evolving Capability on Benchmarks 🔗](https://aclanthology.org/2024.emnlp-main.940.pdf)

大语言模型能从经验中学习吗?深入解析 LLM-Evolve 框架

引言 想象一下你正在参加一场高难度的数学考试。在做第一道题时,你很纠结,猜了一个答案,结果错了。但紧接着,你看到了正确的解题过程。当你在五道题后遇到一个类似的问题时,你回忆起之前的解法,运用其中的逻辑,然后做对了。这就是从经验中学习。 ...

6 分钟 · 2991 字
[LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay 🔗](https://arxiv.org/abs/2310.14985)

AI 会撒谎、领导和欺骗吗?深入探究 LLM 智能体在阿瓦隆游戏中的社会思维

引言 近年来,我们见证了人工智能范式的转变。像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 已经超越了简单的文本生成,成为自主智能体的大脑——能够感知环境、做出决策并采取行动的数字实体。我们已经看到智能体模拟软件开发公司,甚至居住在虚拟的“模拟人生式”小镇中。然而,这些模拟大多集中在积极、合作的行为上。 ...

2023-10 · 7 分钟 · 3433 字
[LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational History 🔗](https://arxiv.org/abs/2402.18216)

分心的 AI:任务切换如何让大语言模型脱轨

引言 想象一下,你正与朋友深入探讨 19 世纪文学的细微之处。你们正在分析主题、基调和角色发展。突然,没有任何预兆,你的朋友让你解一个复杂的代数方程。那一瞬间,你的大脑可能会卡壳。你为文学构建的认知语境无法转化为数学思维;事实上,它甚至可能成为阻碍。 ...

2024-02 · 8 分钟 · 3617 字