MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation
本文提出了首个面向多镜头视频生成的综合基准 MSVBench,通过引入分层脚本与混合评估框架,不仅揭示了当前模型缺乏世界建模能力的局限,还验证了其评估结果与人类判断的高度一致性,并展示了其作为监督信号提升模型性能的有效性。
8926 篇论文
本文提出了首个面向多镜头视频生成的综合基准 MSVBench,通过引入分层脚本与混合评估框架,不仅揭示了当前模型缺乏世界建模能力的局限,还验证了其评估结果与人类判断的高度一致性,并展示了其作为监督信号提升模型性能的有效性。
本文提出了首个大规模美学指导数据集 AesGuide 及两阶段框架 Venus,通过增强多模态大语言模型的美学指导能力,显著提升了其在摄影建议生成与美学裁剪任务中的表现。
本文提出了 MINT 框架,通过三阶段跨模态知识迁移将 MRI 影像的生物标志物结构融入语音编码器,从而在无需神经影像设备的情况下,实现了基于生物基础且具备高可靠性的阿尔茨海默病早期筛查。
本文提出了名为 MIGM-Shortcut 的新方法,通过引入一个融合历史特征与采样 token 的轻量级模型来学习特征演化的平均速度场,从而在保持生成质量的同时显著加速了掩码图像生成模型(如在 Lumina-DiMOO 上实现超 4 倍加速),有效解决了现有缓存方案在激进加速下误差过大的问题。
本文提出了一种序数潜在扩散模型,通过将糖尿病视网膜病变的严重程度建模为连续标量而非独立类别,成功生成了具有更高视觉真实性和临床一致性的眼底图像,有效捕捉了疾病进展的连续谱系。
本文提出了一种名为 DeBiasLens 的可解释性模型无关框架,利用稀疏自编码器在无需社会属性标签的情况下定位并选择性抑制视觉 - 语言模型中与社会偏见相关的神经元,从而在保留语义知识的同时有效缓解社会偏见。
SR3R 提出了一种前馈框架,通过直接从稀疏低分辨率视图预测高分辨率 3D 高斯泼溅表示,并引入高斯偏移学习与特征细化技术,显著提升了 3D 超分辨率的重建保真度、跨场景泛化能力及实时性。
本文提出了名为 SteerVAD 的干预框架,通过无梯度分析识别潜在异常专家并设计分层元控制器,对冻结多模态大语言模型的潜在表示流形进行动态各向异性缩放与校正,从而在仅需 1% 训练数据的情况下实现了无需全量微调的视频异常检测最先进性能。
本文提出了 GuardAlign,一种无需训练的防御框架,通过结合基于最优传输的图像安全检测与跨模态注意力校准策略,在无需额外计算成本的情况下显著提升了多模态大语言模型在复杂场景中的安全性,同时保持了其原有任务效用。
本文提出了一种名为自适应视觉增强(AIR)的无需训练的框架,通过基于原型的令牌压缩和最优传输引导的补丁强化机制,选择性地整合关键视觉信息以抑制背景干扰,从而在多模态大语言模型中有效缓解幻觉问题。
该论文提出了一种结合隐式缝纫图案与生成式扩散模型的统一框架,通过建立图像像素、UV 图案坐标与 3D 几何之间的映射关系,实现了从单张图像及视频中高保真、时序一致的 3D 服装重建,且在合成数据训练下仍能泛化至真实场景并优于现有方法。
本文提出了 Quant Experts (QE) 方法,通过结合针对全局误差的共享专家与针对特定 Token 局部误差的路由专家,实现了大视觉语言模型在无需重训练情况下的自适应误差补偿与高效量化。
本文提出了一种结合神经符号验证与 SMT 求解器的框架,通过将放射学报告自动形式化并验证诊断结论的逻辑必然性,有效解决了视觉语言模型在临床推理中存在的幻觉与逻辑不一致问题,从而显著提升了生成式临床助手的诊断可靠性。
本文提出了 AgenticOCR,一种将 OCR 从静态全量处理转变为查询驱动的按需提取的动态解析范式,通过智能识别并仅提取感兴趣区域,有效解决了视觉文档检索增强生成(RAG)中因页面级检索导致的上下文冗余与幻觉问题,从而显著提升了长文档理解的效率与准确性。
该论文提出了一种结合自适应修剪策略与 3D 高斯差分原语的紧凑化 3D 高斯泼溅方法,通过动态优化修剪时机及利用正负密度联合建模,在显著减少高斯数量(最高达 90%)的同时保持了甚至提升了渲染质量。
本文提出了一种名为 TASOT 的无监督方法,通过将视频帧与文本信息结合并构建多模态最优传输问题,在不依赖大规模预训练或外部监督的情况下,显著提升了手术机器人视频中的时序分割性能。
本文提出了 HumanOrbit,一种基于视频扩散模型的单图 360°环绕视频生成方法,能够生成几何一致且保持身份特征的连续视角图像,并据此重建出高保真、高完整度的 3D 纹理网格。
本文提出了一种名为 RAViT 的分辨率自适应视觉 Transformer 框架,该框架通过多分支网络处理不同分辨率的图像副本并结合早期退出机制,在保持与经典 Vision Transformer 相当精度的同时,显著降低了计算成本(仅需约 70% 的 FLOPs)。
该论文提出了一种在构建过程中兼顾高维属性流形与空间布局的超像素层次结构,解决了现有方法因忽视空间信息而导致图像区域与属性抽象不一致的问题,从而实现了对高维图像在图像空间与属性空间中的协同探索。
该论文提出了一种名为“全食视觉编码器”的新框架,通过联合优化多模态特征对齐与知识蒸馏目标,使原本在跨模态表征上表现不佳的 DINO 模型能够学习模态无关的特征空间,从而实现对 RGB、深度图等不同输入模态的一致且强大的场景理解。