VINCIE: Unlocking In-context Image Editing from Video
本文提出了一种名为 VINCIE 的模型,通过从视频中学习并采用块因果扩散变换器架构,实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力,并在多项基准测试中取得了最先进成果。
4155 篇论文
本文提出了一种名为 VINCIE 的模型,通过从视频中学习并采用块因果扩散变换器架构,实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力,并在多项基准测试中取得了最先进成果。
本文介绍了 NIC-RobustBench,这是一个开源工具包,旨在填补现有基准在神经图像压缩(NIC)对抗鲁棒性评估方面的空白,通过集成多种攻击与防御策略、压缩模型及下游任务影响分析工具,对现代 NIC 方法在对抗场景下的鲁棒性进行了全面的实证研究。
该论文提出了一种名为 ConCM 的框架,通过受海马体联想记忆启发的记忆感知原型校准与动态结构匹配,从特征 - 结构双重一致性视角解决少样本类增量学习中的知识冲突问题,并在多个基准测试中取得了最先进的性能。
本文针对现有大视觉语言模型中基于文本引导的视觉 Token 剪枝方法因跨模态不对齐而失效的问题,提出了一种无需训练、仅依赖视觉模态内部注意力机制的 VisionDrop 框架,通过多阶段渐进式剪枝与融合策略,在显著降低推理延迟和计算量的同时保持了模型的高性能。
EchoMimicV3 是一个仅需 13 亿参数的高效统一框架,通过“任务汤”、“模态汤”架构及创新的训练推理策略,在克服传统方法计算成本高和推理慢的局限的同时,实现了多任务、多模态的高质量人类动画生成。
该论文提出了一种名为 CLiFT 的神经渲染方法,通过将场景表示为压缩光场令牌,利用多视图编码、潜空间聚类及令牌压缩技术,实现了在单一训练网络下根据计算预算自适应调整令牌数量,从而在显著降低数据量的同时保持高质量渲染并灵活平衡数据规模、画质与速度。
本文提出了名为 SeC 的概念驱动视频对象分割框架,利用大视觉语言模型构建高级对象表征,并发布了 SeCVOS 基准测试,在复杂语义场景下显著超越了包括 SAM 2 在内的现有最先进方法。
本文提出了一种统一的闭环数字与机器人孪生框架,通过结合快速仿真环境与斯坦福实验室的硬件测试平台,对航天器交会、近距离操作及编队飞行的制导导航与控制(GNC)系统进行了端到端的验证与评估,证明了该混合孪生流程在模拟与硬件测试间的一致性及其作为可靠验证框架的有效性。
该论文提出了 MonoFusion,一种通过融合多路独立单目重建结果来解决稀疏视角动态场景重建问题的方法,旨在以低成本的多相机设置实现高质量的新视角渲染,其性能在 PanopticStudio 和 Ego-Exo4D 数据集上优于现有方法。
本文提出了一种名为 HGTS-Former 的新型分层超图 Transformer 架构,通过结合多尺度自注意力机制与超图结构来有效建模多元时间序列中的复杂耦合关系,并在包括核聚变边缘局域模识别在内的多项任务中取得了最先进的性能。
该研究提出了一种基于分组等色团的磁共振模拟新方法,通过合并具有相同位置及弛豫特性的等色团计算,将 FSE 和 EPI 序列的模拟速度提升了 3 至 72 倍。
本文提出了一种无需额外监督的因果 Delta 嵌入方法,通过在学习潜在空间中表示仅影响特定因果变量的干预操作,显著提升了模型在分布外场景下的鲁棒性。
本文提出了 Uni-CoT 框架,通过引入宏观任务规划与微观子任务执行的两级推理范式及结构化训练策略,在单一大模型中实现了高效且连贯的图文统一链式推理,并在多项基准测试中取得了领先性能。
本文提出了 ImagiDrive,一种将视觉语言模型驱动的决策智能体与驾驶世界模型驱动的场景想象器相结合的统一框架,通过“想象 - 规划”闭环迭代优化自动驾驶决策,并在 nuScenes 和 NAVSIM 数据集上验证了其优越性。
本文提出了 CineTrans 框架,通过构建 Cine250K 数据集并利用扩散模型注意力图与镜头边界的对应关系设计免训练掩码控制机制,实现了高质量且风格连贯的电影级多镜头视频生成。
本文提出了首个基于生成式多模态大语言模型(MLLM)的电商产品理解模型 MOON,通过引入引导式混合专家模块、核心语义区域检测及专用负采样策略解决现有挑战,并发布了大规模多模态基准 MBE,在多项下游任务中展现了卓越的泛化能力。
本文提出了一种名为“下一视觉粒度(NVG)”的新型图像生成框架,通过将图像分解为具有不同唯一标记数量的结构化序列,实现了从全局布局到精细细节的渐进式生成,并在 ImageNet 数据集上展现出优于 VAR 系列的生成性能。
本文提出了面向开放型医学视觉问答的自适应强化学习框架 ARMed,通过结合思维链监督微调与自适应语义奖励机制,有效解决了现有方法中奖励坍缩问题,显著提升了医学推理模型的准确性与泛化能力。
该论文提出了一种解耦多模态学习框架,通过解耦肿瘤与微环境子空间、跨尺度基因表达一致性对齐、子空间知识蒸馏以及信息令牌聚合等策略,有效解决了组织病理学与转录组数据整合中的异质性、多尺度融合不足及配对数据依赖问题,显著提升了癌症诊断、预后及生存预测的性能。
该论文提出了 TADSR 网络,通过引入时间感知 VAE 编码器和时间感知 VSD 损失函数,解决了现有单步扩散方法因固定时间步而难以充分利用预训练模型生成先验的问题,从而在单次推理中实现了兼具最优性能与可调节保真度 - 真实感权衡的实时图像超分辨率。