EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

该研究通过对比实验证实,在胰腺癌分期任务中,采用检索增强生成(RAG)技术的 NotebookLM 模型(准确率 70%)显著优于其内部基础模型 Gemini 2.0 Flash(准确率 35%-38%),表明 RAG 不仅能提升大语言模型的分期准确性,还能通过提供可追溯的检索依据增强临床诊断的透明度。

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

本文提出了一种利用大语言模型提取陈述并比对知识图谱以半自动量化气候变化新闻科学准确性的方法,经专家与用户评估证实该工具有效,但受限于当前知识图谱的不足及处理规模,仍需构建更完善的 FAIR 基础数据以支持公民 discourse。

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

本文提出了基于日本十年财报构建的开源基准 EDINET-Bench,用于评估大语言模型在欺诈检测等复杂金融任务上的表现,研究发现当前最先进的模型在该领域仅略优于传统逻辑回归,表明单纯提供报告文本不足以解决问题,亟需引入更贴近专业场景的推理支持框架。

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本文从数据视角出发,通过引入拼图任务并分析学习动态,揭示了强化微调(RFT)相较于监督微调(SFT)在适应新任务时能更好地保留先验知识,其核心原因在于 RFT 通过强化与基座模型概率分布自然对齐的样本,减小了对先验知识的干扰,而基于 RFT 模拟轨迹的数据分布优化也能显著提升 SFT 的知识保留能力。

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

本文介绍了"La Leaderboard",这是首个专注于评估生成式大语言模型在西班牙及拉丁美洲多种语言及其变体(包括巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体)能力的开源社区驱动项目,旨在通过整合 66 个数据集和 50 个模型的评估结果,确立评估标准并推动西班牙语社区大语言模型的多样化发展。

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs