Image Captioning via Compact Bidirectional Architecture
本文提出了一种紧凑的双向 Transformer 模型,通过紧密耦合左至右和右至左流并采用句子级集成策略,在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。
1390 篇论文
本文提出了一种紧凑的双向 Transformer 模型,通过紧密耦合左至右和右至左流并采用句子级集成策略,在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。
本文提出了一种名为 PnLCalib 的基于点和线优化的体育场地注册方法,通过结合 3D 足球场模型、关键点检测及非线性线条优化模块,有效克服了传统方法在复杂广播场景下的局限,显著提升了多视角与单视角下的摄像机标定精度与鲁棒性。
本文提出了名为 TIMotion 的高效框架,通过因果交互注入、角色演化扫描和局部模式放大三个核心模块,解决了现有双人运动生成方法在时序建模与交互混合方面的不足,从而在 InterHuman 和 InterX 数据集上实现了更优越的性能。
该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。
本文提出了利用特权信息(如特征标签或注意力标签)进行辅助监督的 DRUPI 方法,通过合成额外信息来增强数据集压缩效果,并在多个基准数据集上显著提升了模型性能。
本文提出了一种完全无监督的表示学习方法,通过将潜在变量的概率流模型分解为稀疏激活的旋转场和势场,从而学习出由独立变换基元构成的解耦表示,并在序列变换数据集上实现了领先的数据似然度和近似等变性误差表现。
该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。
该论文提出了一种基于视觉语言模型先验的预算高效主动提示学习框架,通过类引导聚类和自适应类阈值选择策略,在主动学习场景下实现了比现有基线更优的少样本分类性能。
该论文提出了 ARSGaussian 方法,通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失,有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题,并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。
该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统,通过编码多样化的物体关系并实现主动交互,有效克服了现有方法在大规模移动探索空间中的局限性,并在泛化性和性能上超越了仅依赖视觉语言模型的方法。
该论文提出了一种名为 iMarkers 的创新型隐形基准标记,旨在解决传统可见标记破坏环境美观的问题,通过专为机器人和 AR 设备设计的硬件与开源算法,实现了在保持视觉隐蔽性的同时具备高灵活性、鲁棒性及广泛适用性的导航与识别功能。
这篇综述论文系统回顾了 200 多篇关于 Wi-Fi 感知泛化性的文献,构建了涵盖从实验设置到模型部署的完整分类体系,深入分析了域适应、元学习等关键技术,总结了相关数据集,并提出了未来研究方向及数据集共享平台,旨在为提升 Wi-Fi 感知系统的泛化能力提供全面指南。
本文提出了识别协同场景文本编辑(RS-STE)方法,通过构建统一框架将文本识别与编辑深度融合,利用多模态并行解码器和无监督循环自监督微调策略,在简化架构的同时实现了优于现有方法的场景文本编辑效果,并提升了下游识别任务性能。
本文提出了一种基于去噪扩散概率模型(DDPM)与师生协同训练框架的半监督生物医学图像分割新方法,通过无监督预训练生成语义掩码并结合多轮伪标签迭代策略,在标注数据有限的情况下显著提升了分割性能并超越了现有最先进技术。
该论文针对现有局部 AI 生成图像检测数据集缺乏场景级编辑覆盖的局限,提出了包含 15 万张图像的大规模场景感知数据集 BR-Gen,并设计了基于噪声指纹引导的特征放大机制 NFA-ViT,通过增强异常特征与正常特征的交互显著提升了局部伪造检测的鲁棒性与泛化能力。
该论文针对现有单源遥感目标检测在复杂环境下的局限性,提出了包含近百万标注实例的多分辨率、多极化、多场景、多源光学-SAR 融合数据集 M4-SAR,并配套开发了统一评测工具包及新型端到端融合检测框架 E2E-OSDet,显著提升了复杂场景下的检测精度。
本文提出了 MARRS 框架,通过结合独立编码身体与手部单元的 UD-VAE、基于随机掩码的 Action-Conditioned Fusion 以及促进单元间交互的 Adaptive Unit Modulation,利用连续表示和扩散模型实现了高质量的细粒度人类动作反应合成。
本文提出了基于扩散变换器(DiT)的 EasyText 框架,通过字符定位编码与位置编码插值技术,结合大规模多语言合成数据集,实现了高质量、可控且布局感知的多语言文本渲染。
本文提出了名为 SpikeSMOKE 的架构,通过引入受生物突触过滤机制启发的跨尺度门控编码(CSGC)和轻量级残差块,成功将低功耗的脉冲神经网络应用于单目 3D 目标检测,在 KITTI 等数据集上显著提升了检测精度并大幅降低了能耗与计算量。
本文提出了名为 FieldLVLM 的新框架,通过结合物理特征提取的领域感知语言生成策略与数据压缩的多模态模型微调,显著提升了大型视觉语言模型对流场等科学领域数据的理解能力。