Locating and Editing Figure-Ground Organization in Vision Transformers
该研究通过合成形状冲突实验发现,BEiT 模型在早期和中间层对凸凹补全存在感知模糊,而图底组织偏好最终在深层由注意力头 L0H9 主导确立,且通过下调该头可逆转模型的凸性偏好。
2424 篇论文
该研究通过合成形状冲突实验发现,BEiT 模型在早期和中间层对凸凹补全存在感知模糊,而图底组织偏好最终在深层由注意力头 L0H9 主导确立,且通过下调该头可逆转模型的凸性偏好。
该论文提出了物理模拟器内循环视频生成(PSIVG)框架,通过将物理模拟器与视频扩散过程相结合,利用模拟的 4D 场景轨迹引导生成过程,并辅以测试时纹理一致性优化技术,从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。
该论文提出了一种结合 YOLOv11-Pose 姿态估计与折射感知立体视觉的非侵入式方法,通过校正水族箱中空气 - 玻璃 - 水界面的折射畸变并过滤低质量检测,实现了对小型淡水鱼体长的精准监测。
本文提出了 CLoPA 策略,通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调,无需引入新参数或改变推理流程,即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。
该论文提出了首个面向无需主动探索的情境推理的大规模数据集"WanderDream",通过构建包含 1.58 万段全景视频和 15.8 万组问答对的数据集,使智能体能够利用世界模型在有限观测下通过“心理模拟”想象未来轨迹,从而有效回答空间类“如果”问题并显著提升现实场景中的推理能力。
本文提出了 CaTok,这是一种结合 MeanFlow 解码器与 REPA-A 正则化的一维因果图像分词器,旨在解决现有视觉分词方法缺乏因果性的问题,从而在 ImageNet 重建任务中实现了优于现有技术的 FID、PSNR 和 SSIM 指标,并支持高效的自回归生成。
本文介绍了 Pinterest 为应对严格产品需求而构建的大规模图像生成系统 Canvas,该系统通过“基础模型预训练结合任务特定微调”的架构,在背景增强、画幅扩展等多个实际场景中显著提升了用户参与度并优于第三方模型。
该论文通过系统性数值研究,深入分析了去噪生成模型(特别是流匹配)中损失加权与输出参数化(如噪声、清晰图像及速度)的选择如何与数据流形内在维度、模型架构及数据集规模相互作用,旨在厘清关键训练因素并为设计决策提供实用见解。
该论文通过探针实验证明,冻结的视觉 - 语言模型底层特征中蕴含的连续几何信息远超其文本输出能力,且这种“表示 - 表达”差距源于训练路径而非表征缺失,不同架构的编码器虽表征相似性低却实现了功能收敛,表明无需微调即可利用冻结骨干网络作为多任务几何传感器。
本文提出了名为 GreenRFM 的资源高效放射学基础模型预训练框架,通过创新的“更多蒸馏、无处不在、语义强化及任务对齐(MUST)”监督设计,在显著降低计算资源需求(仅需单张消费级显卡)的同时实现了超越现有复杂模型的性能,并证明了其在不同模态和机构数据上的泛化能力。
Match4Annotate 提出了一种轻量级框架,通过测试时拟合基于 SIREN 的隐式神经表示来传播稀疏视频标注,有效解决了医学影像等特定领域中跨视频与视频内点及掩码标注的泛化与平滑难题,并在临床超声数据集上实现了最先进的性能。
该论文提出了名为 Self-Flow 的自监督流匹配范式,通过双时间步调度机制在生成框架内强制模型学习强语义表征,从而摆脱对外部模型的依赖,实现了跨模态的扩展性训练及更优的多模态生成效果。
本文提出了 SG-DOR 框架,通过构建包含方向条件遮挡推理的场景图,有效识别密集胡椒植株中遮挡目标果实的器官,从而为机器人采摘规划提供关键的结构化关系信号。
该研究提出了一种基于超过 4.5 万张超声图像训练的人工智能系统,其诊断胎儿口面裂的准确率媲美资深放射科医生,不仅能显著提升初级医生的诊断敏感性,还能加速罕见病临床专家的培养,为医疗资源匮乏地区提供了兼顾精准诊断与专业教育的可扩展解决方案。
本文提出了一种名为 SCAN 的通用框架,该框架基于自编码器重构中间层特征并受信息瓶颈原理指导,能够生成高分辨率的高置信度热力图,从而在保持高保真度的同时解决现有视觉解释方法在架构通用性与解释清晰度之间的权衡难题。
本文提出了 AV-Unified 框架,通过将多种音频 - 视觉场景理解任务统一为离散 Token 序列并引入多尺度时空感知与跨模态引导模块,实现了在单一架构下对复杂动态场景的联合学习与全面理解。
该论文提出了一种针对漫反射直接飞行时间(dToF)LiDAR 的简单空间标定方法,通过扫描后向反射贴片并执行背景减法,为每个 LiDAR 像素在共置 RGB 图像平面上重建响应图,从而实现了跨模态对齐与融合。
该论文提出了一种名为 NEGATE 的训练无关方法,通过将语言否定建模为扩散动力学中的结构化可行性约束,利用凸集投影技术在不微调预训练模型的情况下,实现了对文本到视频生成中各类否定语义的精准控制。
本文提出了 SurgFormer,这是一种基于多分辨率门控 Transformer 的可扩展深度学习框架,它通过在 XFEM 生成的手术数据集上进行训练,能够利用统一的模型同时实现大规模体网格上的软组织实时变形预测及包含切除操作(如胆囊切除术和阑尾切除术)的拓扑改变模拟。
该论文通过 nuScenes 和 Argoverse 2 数据集建模并量化了自动驾驶多源多模态数据中的冗余性,发现选择性去除冗余标签不仅能显著降低数据量,还能提升 YOLOv8 目标检测任务的性能,从而确立了冗余性作为关键数据质量因素在自动驾驶感知中的重要作用。