Flatness Guided Test-Time Adaptation for Vision-Language Models
本文提出了一种名为 FGA 的平坦度引导测试时适应框架,通过利用锐度感知提示微调获取的平坦极小值几何线索来指导测试样本选择,从而在不进行昂贵参数更新的情况下,有效统一了视觉语言模型的训练与测试过程并显著提升了跨域性能。
2790 篇论文
本文提出了一种名为 FGA 的平坦度引导测试时适应框架,通过利用锐度感知提示微调获取的平坦极小值几何线索来指导测试样本选择,从而在不进行昂贵参数更新的情况下,有效统一了视觉语言模型的训练与测试过程并显著提升了跨域性能。
本文提出了一种将 3D 世界建模与策略学习无缝融合的 3D 动力学感知操作框架,通过引入三个自监督学习任务赋予策略模型 3D 预见能力,从而在不牺牲推理速度的前提下显著提升了涉及深度运动的机器人操作性能。
本文提出了 MedFuncta,这是一个针对大规模医学数据集的统一神经场训练框架,它通过共享元学习神经场和 1D 潜在向量实现跨实例泛化,并引入了改进的 SIREN 激活频率调度与稀疏监督策略以提升效率,同时发布了包含超过 50 万个潜在向量的首个大规模医学神经场数据集 MedNF。
本文提出了一种名为 RapidPoseTriangulation 的新算法,能够在毫秒级时间内实现多视角、多人的全身姿态三角测量,具备出色的泛化能力并支持面部及手指等细节的精准捕捉。
本文提出了一种名为 Noise2Ghost 的自监督深度学习鬼成像重建方法,该方法无需清洁参考数据即可在低信噪比条件下实现卓越的图像重建质量,特别适用于微纳尺度 X 射线荧光成像等对剂量敏感的生物及电池样本的在体与原位研究。
本文提出了 LMPOcc 框架,通过设计高效的当前 - 先验融合模块与模型无关的先验格式,实现了局部 3D 语义 occupancy 预测与全局 occupancy 建图的协同学习,在提升复杂场景下预测精度的同时支持大规模 crowdsourcing 建图及开放词汇 3D 地图构建。
本文提出了 PhysLLM 框架,通过文本原型引导策略、双域平稳算法及任务特定提示机制,将大语言模型与 rPPG 领域知识深度融合,有效解决了光照变化和运动伪影等挑战,在远程生理信号感知任务中实现了最先进的精度与鲁棒性。
ReactDance 是一种基于扩散框架的舞蹈生成方法,通过引入分层有限标量量化(HFSQ)实现精细的空间控制,并利用分块局部上下文(BLC)策略高效生成具有长期时间一致性的高质量长序列反应式舞蹈。
本文提出了 RESAR-BEV,一种基于可解释性渐进残差自回归学习的相机 - 雷达融合框架,通过 Drive-Transformer 与 Modifier-Transformer 的级联架构实现从粗到细的 BEV 语义分割,在 nuScenes 数据集上以 54.0% 的 mIoU 和 14.6 FPS 的实时性能实现了最先进的感知效果。
本文提出了 DHECA-SuperGaze 方法,通过结合超分辨率技术与双路头眼交叉注意力机制,并修正了 Gaze360 数据集的标注错误,显著提升了非受控环境下视线估计的精度与泛化能力。
本文提出了 OSPO(面向对象的自改进偏好优化)框架,通过构建无需外部依赖的对象级偏好数据并结合注意力掩码与加权损失函数,有效解决了多模态大模型在文本生成图像时细粒度对齐困难及物体幻觉问题,显著提升了生成质量。
本文提出了一种名为 EDITOR 的可解释性提示词反演方法,通过结合预训练图像描述模型、潜在空间逆向工程及嵌入转文本技术,在图像相似度、文本对齐度及可解释性等方面超越了现有方法,并展示了其在跨概念合成、概念操控及无监督分割等任务中的应用潜力。
本文提出了 HypeVPR,一种利用双曲空间固有层级特性来组织特征聚合的框架,旨在通过统一全景与视角图像的层级表示,高效解决视角到全景的视觉地点识别问题,并在保持匹配鲁棒性的同时显著提升检索速度并降低存储需求。
法国国家地理与林业信息研究所(IGN)推出了名为 FLAIR-HUB 的大规模多模态数据集,该数据集整合了六种对齐的遥感数据模态并覆盖法国 2528 平方公里区域,旨在通过大规模标注支持高精度的土地覆盖与作物类型制图研究。
本文提出了名为 Poly2Graph 的高效开源工具,构建了包含 1700 万张空间多重图的 HSG-12M 数据集,首次将非厄米晶体能谱自动转化为几何图数据,填补了现有图基准缺乏空间几何信息的空白,并为凝聚态物理的数据驱动发现及几何感知图学习开辟了新途径。
本文提出了 InterActHuman 框架,通过引入布局对齐的音频条件及掩码预测器,实现了多概念(包括多人与物体)在视频中的精确区域绑定与高质量交互动画生成,有效解决了现有方法无法处理多主体复杂交互的局限。
本文提出了 AutoV 框架,通过利用预训练大模型预测损失来构建无监督的视觉提示排序机制,实现了针对特定实例自适应检索最优视觉提示,从而显著提升了大视觉语言模型在多种任务中的性能。
本文提出了用于评估视觉定位推理能力的诊断基准 TreeBench 以及结合强化学习的 Traceable Evidence Enhanced Visual Grounded Reasoning (TreeVGR) 训练范式,通过引入可追溯证据和联合监督机制,显著提升了模型在复杂场景下的定位精度与推理可解释性。
本文提出了一种名为 GMLN-BTS 的图基多模态轻量级网络,通过模态感知自适应编码器、图基多模态协同交互模块及体素细化上采样模块,在仅需 4.58M 参数(比主流 3D Transformer 减少 98%)的情况下,于 BraTS 多个基准测试中实现了兼具高精度与低资源消耗的脑肿瘤分割。
本文提出了 EDA 框架,通过统一任意噪声扩散模型的理论设计空间,在保持模块化且无额外计算开销的前提下,有效解决了 EDM 强制注入高斯噪声对图像恢复任务造成的负面影响,并在多种医学与自然图像恢复任务中展现出卓越的泛化能力。