When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验(即“语义回退”)而泛化性不足的问题,提出了一种无需参数的几何语义解耦(GSD)模块,通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹,从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

该研究提出了一种结合预训练与定制神经网络的单模型方法,通过数据增强、图像归一化和迁移学习等技术,利用 GTSRB 及 Udacity 模拟器等多源数据集,系统性地实现了交通标志识别、车辆与车道检测及行为克隆,从而提升了自动驾驶系统的感知能力与决策可靠性。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性(如情绪效价、唤醒度、支配性及图像记忆性)之间鸿沟的框架,它通过建立认知空间与语义流形之间的映射,利用认知锚点重构流匹配过程中的速度场,从而实现了对生成图像认知特性的连续、多维且精细的干预。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本文提出了名为 IntroSVG 的生成框架,通过构建一个兼具生成与批判双重角色的统一视觉语言模型,利用监督微调、直接偏好优化以及“生成 - 审查 - 优化”的迭代闭环机制,将渲染后的视觉反馈融入训练过程,从而显著提升了文本到矢量图形(SVG)生成的质量、语义对齐度及可编辑性。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

本文提出了名为 SpaceSense-Bench 的大规模多模态基准数据集,该数据集基于虚幻引擎 5 生成,包含 136 种卫星模型的高保真同步 RGB、深度及 LiDAR 数据与精细标注,旨在解决航天器感知与位姿估计中真实数据匮乏的问题,并通过基准测试揭示了小部件感知与零样本泛化等关键挑战及数据规模对性能提升的重要性。

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度,发现现有模型表现远逊于人类,并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

本文提出了 STAR 基准,这是一个基于多智能体零和博弈的评估框架,旨在揭示大型语言模型在静态推理之外,将战略深度转化为实时决策执行能力时存在的显著差距,并强调在动态对抗环境中平衡推理质量与响应速度的重要性。

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI