Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models
该论文通过系统探测视觉基础模型,发现 DINO 编码的几何结构与 Flux 生成的交互先验是构成 affordance(功能 affordance)理解的互补要素,并证明通过零样本融合这两者即可实现媲美弱监督方法的 affordance 估计。
2725 篇论文
该论文通过系统探测视觉基础模型,发现 DINO 编码的几何结构与 Flux 生成的交互先验是构成 affordance(功能 affordance)理解的互补要素,并证明通过零样本融合这两者即可实现媲美弱监督方法的 affordance 估计。
StoryTailor 是一个在单张 RTX 4090 上运行的零样本流水线,通过高斯中心注意力、动作增强奇异值重加权及选择性遗忘缓存三大协同模块,实现了无需微调即可生成动作忠实、主体一致且背景连贯的多帧视觉叙事。
本文提出了专为评估视频基础模型而设计的 UniVBench 基准,通过引入包含 200 个高质量多镜头视频及 UniV-Eval 统一智能评估系统,首次实现了对视频理解、生成、编辑及新提出的重建任务这四大核心能力的综合、公平且可扩展的评估。
本文提出了一种结合几何先验的图神经网络自编码器方法,通过引入可微分的冷冻电镜前向模型和几何正则化,实现了在未知取向下对蛋白质构象异质性的高精度三维重建。
该论文提出了名为 DPCache 的免训练加速框架,通过将扩散模型采样加速建模为全局路径规划问题,利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列,从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。
本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER,通过全自动流水线构建包含数百万对象与关系的时空图数据,并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。
该论文提出了一种结合任务反馈闭环与文本指令引导的自适应动态去雾框架,能够在无需重新训练的情况下,根据下游任务表现和用户指令实时调整去雾效果,从而灵活满足多样化下游任务的特定需求。
该论文针对现有全色锐化方法在高分辨率场景下泛化能力不足的问题,提出了首个跨尺度数据集 PanScale 与基准 PanScale-Bench,并设计了名为 ScaleFormer 的新型架构,通过将图像分辨率泛化转化为序列长度泛化,实现了在未见尺度下的高质量融合与卓越泛化性能。
本文提出了 Mobile-VTON,一种基于教师 - 服装 - 试穿网络(TGT)架构的隐私保护框架,通过特征引导对抗蒸馏等创新技术,在普通移动设备上实现了无需云端上传、兼具高保真度与低计算开销的离线虚拟试穿。
该论文提出了一种基于隐式神经表示和重参数化策略的张量环函数分解方法,通过引入可学习潜张量与固定基的混合结构来优化频谱特性并改善训练动态,从而在图像修复、去噪、超分辨率及点云恢复等多维数据恢复任务中实现了优于现有方法的性能。
本文提出了 FastLightGen 算法,通过构建最优教师模型并在协同框架下同时蒸馏模型规模与推理步数,成功将大型视频生成模型转化为仅需 4 步采样和 30% 参数剪枝即可达到最优视觉质量的高效轻量级模型,从而在受限推理预算下确立了新的视频生成效率标杆。
本文提出了 VSearcher,一种通过强化学习将静态多模态模型转化为具备长程多轮工具调用能力的搜索智能体,并构建了高质量合成数据与专用基准 MM-SearchExam,使其在多模态网络搜索任务中表现优于现有模型及多个专有模型。
该论文提出了名为“边看边想”(TaYS)的统一框架,通过并行化思维链生成、流式约束训练及双 KV 缓存等机制,解决了大视觉语言模型在视频流数据上无法实时并发推理的问题,显著提升了推理性能并降低了延迟。
CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。
RoboLayout 通过引入可微分的可达性约束和局部细化优化机制,扩展了 LayoutVLM 框架,使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。
本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。
本文提出了一种结合临床特征注入 Transformer 与领域自适应掩码自编码器的多模态计算病理框架,仅利用常规 PAS 染色活检和临床数据,在儿童狼疮性肾炎预后预测中实现了高达 90.1% 的三类准确率。
该论文提出了一种名为 SKETCHGAIT 的鲁棒步态识别框架,通过引入无需标签的“素描”(SKETCH)模态来提取高频结构线索,并结合多模态解耦融合策略,有效克服了传统轮廓和解析方法在判别力与稳定性上的局限,在多个数据集上取得了领先的识别性能。
本文提出了一种基于数字孪生的 V2X 轨迹预测框架,通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标,在确保预测精度的同时有效降低了交通违规和碰撞风险,从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。
AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构,有效解决了多模态文档问答中的长上下文与信息过载难题,在显著降低推理成本的同时实现了新的最先进性能。