Visual Instruction Pretraining for Domain-Specific Foundation Models
本文提出了视觉指令预训练(ViTP)框架,通过结合视觉语言模型与视觉鲁棒性学习(VRL),利用目标领域的推理数据增强基础感知模型,从而在遥感与医学成像等多个下游任务中实现了新的最先进性能。
9033 篇论文
本文提出了视觉指令预训练(ViTP)框架,通过结合视觉语言模型与视觉鲁棒性学习(VRL),利用目标领域的推理数据增强基础感知模型,从而在遥感与医学成像等多个下游任务中实现了新的最先进性能。
本文提出了首个基于大规模原生 3D 数据训练的提示性部件分割模型 PartSAM,它通过三平面双分支编码器架构和自研的模型循环标注管线,克服了现有基于 2D 迁移方法的局限,实现了对 3D 物体表面及内部结构的高精度开放世界部件分割。
本文提出了一种基于扩散模型的首个可逆人脸匿名化框架,通过秘密密钥条件化机制,在确保生成图像高质量的同时,实现了仅授权方可进行精确身份恢复的安全匿名化方案。
该论文提出了一种异步扩散模型框架,通过为不同像素分配独立的去噪时间步,使提示相关区域能利用更清晰的上下文信息,从而显著提升了文本到图像生成的对齐效果。
该研究利用预训练的多模态大语言模型,通过分析奥地利 2022 至 2024 年间社交媒体上的 474 张冰雹图像,证明了无需微调即可结合参考物体提示策略以约 1.12 厘米的平均绝对误差自动估算冰雹直径,从而为传统冰雹传感器提供了补充性的空间密集数据源。
该论文提出了名为 FlowRVS 的新框架,通过将指代视频分割任务重构为从视频整体表征到目标掩码的语言引导连续形变问题,利用预训练文生视频模型的优势克服传统级联方法的局限,并在多个基准测试中取得了最先进的性能。
G4Splat 提出了一种利用生成先验进行 3D 场景重建的新方法,通过利用平面结构推导精确的度量深度图作为几何监督,并结合视频扩散模型解决多视图不一致问题,从而在单视图输入和无姿态视频等复杂场景下实现了高质量且几何准确的场景补全。
本文提出了利用场景图引导大语言模型作为裁判的 PoSh 指标,并发布了包含艺术领域专家标注的 DOCENT 数据集,以解决现有评估方法难以衡量长文本图像描述中细粒度属性与关系错误的难题,从而更准确地评估视觉语言模型在复杂场景下的描述能力。
该研究提出了一种基于自监督深度学习的标签高效方法,利用仅 1,000 个标注样本和大量未标记的 1 米分辨率航空影像预训练模型,成功实现了美国密西西比州大范围的高精度土地覆盖分类,有效克服了高分辨率制图中标注数据稀缺的瓶颈。
本文针对低比特量化在目标检测和图像分割任务中因特征融合阶段梯度失衡导致的性能下降问题,提出了包含量化感知梯度平衡融合(Q-GBFusion)与量化感知注意力分布对齐(Q-ADA)的 Q框架,通过动态重平衡梯度贡献及重构监督分布,在不增加推理开销的前提下显著提升了量化模型的检测与分割精度。
本文提出了 USF-Net,一种集成自适应大核卷积与低复杂度注意力机制的统一时空融合网络,旨在解决现有地面云图序列外推方法在特征提取、长程时空依赖建模及计算效率方面的局限,并通过发布 ASI-CIS 数据集验证了其在预测精度与效率上的优越性。
该论文揭示了现有 MKB-VQA 基准测试中存在的“视觉捷径”缺陷,提出了自动构建的 RETINA 基准以消除该偏差,并设计了 MIMIR 模型通过引入多相关实体图像增强文档表征,从而有效提升了多模态知识问答在复杂场景下的性能。
本文提出了一种名为 MedSegLatDiff 的潜在空间扩散模型框架,通过结合变分自编码器与加权交叉熵损失,在显著降低计算成本的同时实现了高效且多样化的医学图像分割,从而在多个数据集上达到了最先进的性能并提升了临床诊断的可解释性与可靠性。
本文提出了名为 ClimaDrive 的语义引导图像生成框架及由此构建的大规模 ClimaOoD 基准,通过合成物理真实且天气多样的异常驾驶数据,显著提升了开放世界场景下异常分割模型的泛化能力与鲁棒性。
本文提出了 VLM-Pruner,一种无需训练的离心式令牌剪枝算法,通过引入空间稀疏缓冲(BSS)准则和并行贪婪策略,在平衡冗余度与空间分布的同时保留细粒度物体细节,从而在多个视觉语言模型上实现了高达 88.9% 的剪枝率并提升了端到端推理速度。
本文提出了 TIMAR 框架,通过因果交错掩码自回归机制建模对话中的音频 - 视觉上下文,实现了能够捕捉双向动态协调与表达变化的 3D 会话头部生成,并在 DualTalk 基准测试中显著优于现有方法。
本文提出了首个基于推理增强的大规模多模态模型(LMM)的词汇无关细粒度识别框架 FiNDR,通过“推理生成候选标签 - 视觉语言模型筛选排序 - 构建轻量级分类器”的自动化三步流程,在无需预定义标签集的情况下实现了超越现有方法及零-shot 基线的最先进性能。
本文提出了 UniPath 框架,通过利用成熟的病理诊断理解模型生成诊断语义 Token 并结合原型控制,有效解决了计算病理中图像生成面临的语义控制不足、术语异构及数据稀缺等挑战,实现了具备细粒度语义控制能力的病理图像生成。
本文提出了 WebGym,这是一个包含近 30 万个真实网站任务的大规模开源训练环境,通过高效的异步回滚系统和强化学习微调,使基于 Qwen-3-VL-8B 的视觉智能体在未见过的真实网站任务上取得了超越 GPT-4o 等专有模型的显著性能提升。
本文提出了 ThinkRL-Edit,一种通过解耦视觉推理与图像合成、引入思维链采样规划反思机制、采用无偏奖励分组策略及二元检查表奖励,从而显著提升推理密集型图像编辑性能的新框架。