cs.CV 篇论文 | Gist.Science

Image Captioning via Compact Bidirectional Architecture

本文提出了一种紧凑的双向 Transformer 模型，通过紧密耦合左至右和右至左流并采用句子级集成策略，在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

本文提出了一种名为 PnLCalib 的基于点和线优化的体育场地注册方法，通过结合 3D 足球场模型、关键点检测及非线性线条优化模块，有效克服了传统方法在复杂广播场景下的局限，显著提升了多视角与单视角下的摄像机标定精度与鲁棒性。

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

本文提出了名为 TIMotion 的高效框架，通过因果交互注入、角色演化扫描和局部模式放大三个核心模块，解决了现有双人运动生成方法在时序建模与交互混合方面的不足，从而在 InterHuman 和 InterX 数据集上实现了更优越的性能。

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架，通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径，从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题，实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

本文提出了利用特权信息（如特征标签或注意力标签）进行辅助监督的 DRUPI 方法，通过合成额外信息来增强数据集压缩效果，并在多个基准数据集上显著提升了模型性能。

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

本文提出了一种完全无监督的表示学习方法，通过将潜在变量的概率流模型分解为稀疏激活的旋转场和势场，从而学习出由独立变换基元构成的解耦表示，并在序列变换数据集上实现了领先的数据似然度和近似等变性误差表现。

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

该论文提出了一种利用先验任务信息和训练好的新视图合成模型，通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术，旨在解决水下遥控机器人实时视觉反馈的带宽受限问题，并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

该论文提出了一种基于视觉语言模型先验的预算高效主动提示学习框架，通过类引导聚类和自适应类阈值选择策略，在主动学习场景下实现了比现有基线更优的少样本分类性能。

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

该论文提出了 ARSGaussian 方法，通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失，有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题，并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统，通过编码多样化的物体关系并实现主动交互，有效克服了现有方法在大规模移动探索空间中的局限性，并在泛化性和性能上超越了仅依赖视觉语言模型的方法。

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

该论文提出了一种名为 iMarkers 的创新型隐形基准标记，旨在解决传统可见标记破坏环境美观的问题，通过专为机器人和 AR 设备设计的硬件与开源算法，实现了在保持视觉隐蔽性的同时具备高灵活性、鲁棒性及广泛适用性的导航与识别功能。

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

这篇综述论文系统回顾了 200 多篇关于 Wi-Fi 感知泛化性的文献，构建了涵盖从实验设置到模型部署的完整分类体系，深入分析了域适应、元学习等关键技术，总结了相关数据集，并提出了未来研究方向及数据集共享平台，旨在为提升 Wi-Fi 感知系统的泛化能力提供全面指南。

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

本文提出了识别协同场景文本编辑（RS-STE）方法，通过构建统一框架将文本识别与编辑深度融合，利用多模态并行解码器和无监督循环自监督微调策略，在简化架构的同时实现了优于现有方法的场景文本编辑效果，并提升了下游识别任务性能。

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

本文提出了一种基于去噪扩散概率模型（DDPM）与师生协同训练框架的半监督生物医学图像分割新方法，通过无监督预训练生成语义掩码并结合多轮伪标签迭代策略，在标注数据有限的情况下显著提升了分割性能并超越了现有最先进技术。

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

该论文针对现有局部 AI 生成图像检测数据集缺乏场景级编辑覆盖的局限，提出了包含 15 万张图像的大规模场景感知数据集 BR-Gen，并设计了基于噪声指纹引导的特征放大机制 NFA-ViT，通过增强异常特征与正常特征的交互显著提升了局部伪造检测的鲁棒性与泛化能力。

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

该论文针对现有单源遥感目标检测在复杂环境下的局限性，提出了包含近百万标注实例的多分辨率、多极化、多场景、多源光学-SAR 融合数据集 M4-SAR，并配套开发了统一评测工具包及新型端到端融合检测框架 E2E-OSDet，显著提升了复杂场景下的检测精度。

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

cs.CV