PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues
该论文提出了名为 PatchCue 的新范式,通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理,结合两阶段训练策略,显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。
2211 篇论文
该论文提出了名为 PatchCue 的新范式,通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理,结合两阶段训练策略,显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。
该论文提出了一种名为 MemSeg-Agent 的记忆增强智能体,通过将医学图像分割的适应过程从权重空间转移到记忆空间,利用静态、少样本和测试时工作记忆在无需微调的情况下实现了高效的联邦学习、少样本适应及跨域鲁棒性。
该论文利用五个公共视频地点识别数据库和七种图像相似度方法,系统评估了合成新视角对视频地点识别的影响,发现少量合成视角能提升识别效果,而在大规模添加时,视角变化的幅度不如添加视角的数量和数据集图像类型重要。
本文提出了 CylinderSplat,一种基于新型圆柱体三平面表示的双分支前馈框架,旨在解决全景图像中遮挡和稀疏视角下的几何重建难题,并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。
PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。
本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。
该论文针对概念瓶颈模型(CBM)在图像分类中存在的概念信息泄露及性别偏见问题,提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术,显著提升了模型在公平性与性能之间的权衡,推动了可解释且公平图像分类的发展。
该论文提出了一种名为 CollabOD 的轻量级协同检测框架,通过结构细节保持、跨路径特征对齐及定位感知轻量化设计,有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。
该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题,提出了以“艺术视差合成”为核心的新范式及 Art3D 框架,通过解耦全局深度意图与局部艺术笔触,实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。
Pano3DComposer 是一种高效的单全景图前馈框架,通过引入可插拔的“对象 - 世界变换预测器”和粗到细对齐机制,实现了从单张全景图快速生成高保真、几何精确的 360 度完整 3D 场景。
该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K,并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架,通过从监督微调(SFT)到 GRPO 的渐进式训练策略,显著提升了复杂病灶分割的精度与逻辑可解释性。
本文提出了名为 BlackMirror 的通用无训练黑盒检测框架,通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性,从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。
本文提出了一种受整流流启发的 RAC 模型,通过利用整流流的直线路径实现可修正的多步解码与双向推理,在降低约 41% 参数和 70% 计算成本的同时,显著超越了现有最先进 VAE 的重建与生成性能。
本文提出了名为 RAID 的大规模驾驶场景数据集及一种弱监督风险感知框架,通过建模驾驶员意图与响应关系来识别潜在风险源,并在 RAID 和 HDDS 数据集上显著提升了风险识别性能。
本文提出了 TAR-ViTPose,一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer,通过引入关节中心时序聚合(JTA)和全局恢复注意力(GRA)机制,有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题,从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。
FTSplat 提出了一种前馈三角形点阵网络,通过从多视图图像直接预测连续三角形表面,实现了无需单场景优化即可生成适用于机器人仿真的高保真、流形几何 3D 重建。
本文提出了名为 OD-RASE 的框架,通过结合领域本体、大型视觉语言模型与扩散模型,主动识别导致交通事故的道路结构并生成相应的基础设施改进方案及可视化图像,从而提升自动驾驶系统的安全性与适应性。
该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络,利用分割网络优化特征图以增强注意力机制,从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。
本文提出了 SLER-IR 框架,通过球面分层专家路由、基于对比学习的球面均匀退化嵌入以及全局 - 局部粒度融合模块,有效解决了统一图像恢复中的特征干扰与专家专业化不足问题,并在多项基准测试中取得了优于现有最先进方法的性能。
该论文提出了一种基于二维离散傅里叶幅度谱自适应径向投影的文档图像倾斜估计新方法,并发布了 DISE-2021 数据集以验证其性能,结果表明该方法在鲁棒性和准确性上均优于现有技术。