InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本文提出了名为 InfinityStory 的新框架、数据集及模型,通过引入背景一致性生成流程、多主体过渡感知合成模块以及包含 1 万条序列的合成数据集,有效解决了长篇幅叙事视频中背景连贯性、多主体镜头切换及长时扩展性三大挑战,并在 VBench 评测中实现了背景与主体一致性的最优表现。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

本文提出了基于隐式神经表示(INR)的 WSI-INR 框架,通过构建从空间坐标直接映射到组织语义的连续函数并引入多分辨率哈希网格编码,有效解决了传统补丁法破坏空间连续性的问题,实现了在保持跨分辨率鲁棒性的同时显著提升了对高度异质性病理病灶的分割性能。

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

本文提出了知识增强的细粒度推理代理(KFRA),通过构建包含开放词汇检测、判别性区域定位及多模态证据整合的三阶段闭环推理机制,实现了在开放集条件下具备可解释性和事实依据的细粒度视觉理解,并在自建的 FGExpertBench 基准测试中显著超越了现有模型。

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs