EMNLP 2024

[A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery 🔗](https://arxiv.org/abs/2406.10833)

超越聊天机器人——大语言模型如何重塑科学研究方法

引言在过去几年里，“大语言模型” (LLM) 一词已成为聊天机器人的代名词，它们能写邮件、调试代码，甚至创作诗歌。然而，在对人类进步更为关键的一个领域——自然科学中，一场悄然的革命正在发生。 ...

[A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives 🔗](https://arxiv.org/abs/2407.15489)

迷失在翻译中？为什么机器翻译可能是多语言 AI 的秘密武器

迷失在翻译中？为什么机器翻译可能是多语言 AI 的秘密武器如果你一直在关注自然语言处理 (NLP) 近年来的爆发，你可能对这些重量级选手并不陌生: BERT、GPT 和 T5。这些模型彻底改变了机器理解人类语言的方式。最近，焦点已经转移到了多语言模型上——这些系统能够同时理解和生成数十种甚至数百种语言的文本。 ...

[A Closer Look at Multidimensional Online Political Incivility 🔗](https://aclanthology.org/2024.emnlp-main.827.pdf)

风格 vs. 实质：解码社交媒体政治毒性的双重面孔

引言如果你在选举季花时间上过 Twitter (现在的 X) ，你会知道那里的讨论可能会变得非常不堪。但“不堪”是一个模糊的词。一条针对参议员使用脏话的推文，和一条冷静地指责特定人群是“国家叛徒”的推文，性质是一样的吗？ ...

[A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution 🔗](https://arxiv.org/abs/2410.21716)

风格指纹：利用贝叶斯 LLM 解决作者归属问题

想象一下，你发现了一份丢失的手稿，据称是简·奥斯汀被遗忘的作品，或者你需要识别社交媒体上协同虚假信息传播背后的匿名始作俑者。这些场景都依赖于作者归属 (Authorship Attribution) ——这是一门依据语言模式确定特定文本作者的计算科学。 ...

[1 + 1 > 2 : Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? 🔗](https://arxiv.org/abs/2406.14721)

打破语言障碍：跨语言知识聚合如何让大语言模型更智能

引言试想一下，如果你向一位博学的教授请教关于唐朝历史的问题。如果你用英语问，他们可能会给你一个模糊且稍微有些不准确的总结。但如果你用中文问完全相同的问题，他们却能提供丰富、详细且事实完美的叙述。 ...

[YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models 🔗](https://arxiv.org/abs/2409.13592)

AI 懂笑话吗？利用 YesBut 数据集评估视觉-语言模型的讽刺理解能力

AI 懂笑话吗？利用 YesBut 数据集评估视觉-语言模型的讽刺理解能力人工智能在观察和描述世界方面取得了巨大进步。现代视觉-语言 (VL) 模型可以看着厨房的照片列出柜台上的食材，或者看着街道场景描述交通状况。但它们能理解幽默吗？具体来说，它们能领会讽刺这种辛辣的嘲讽吗？ ...