cs.CV 篇论文 | Gist.Science

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验（即“语义回退”）而泛化性不足的问题，提出了一种无需参数的几何语义解耦（GSD）模块，通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹，从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR)，通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案，在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

该研究提出了一种结合预训练与定制神经网络的单模型方法，通过数据增强、图像归一化和迁移学习等技术，利用 GTSRB 及 Udacity 模拟器等多源数据集，系统性地实现了交通标志识别、车辆与车道检测及行为克隆，从而提升了自动驾驶系统的感知能力与决策可靠性。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

本文提出了一种名为 DiP 的新型多模态图表示学习框架，通过引入模态特定伪节点和动态信息路径，实现了自适应、稀疏且高效的跨模态消息传递，从而在多个基准测试中显著优于现有基线方法。

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架，通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性，从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

本文提出了名为 ForgeDreamer 的新框架，通过多专家 LoRA 集成机制解决工业领域的类别知识干扰问题，并利用跨视图超图几何增强方法捕捉高阶结构依赖，从而显著提升了工业文本到 3D 生成的语义泛化能力与几何精度。

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

该论文提出了一种通过定期重置高斯尺度、引入熵约束优化混合权重以及结合渐进式分辨率调度，从而显著缩短渲染所需高斯列表长度，在保持渲染质量的同时大幅提升 3D 高斯泼溅（3DGS）训练效率的新方法。

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

本文提出了名为 SVOR 的鲁棒框架，通过掩码并集策略、去噪感知分割头及两阶段课程训练，有效解决了真实场景下阴影、剧烈运动及掩码缺陷导致的视频物体移除难题，实现了无闪烁且时序稳定的移除效果。

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Learning Convex Decomposition via Feature Fields

该论文提出了一种基于特征场学习的新方法，通过自监督几何目标将 3D 形状分解为凸体集合，首次实现了面向开放世界的、可泛化至多种 3D 表示形式的高质量前馈凸分解模型。

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas SharpWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender 是一个旨在弥合文本到图像生成中语义内容与认知属性（如情绪效价、唤醒度、支配性及图像记忆性）之间鸿沟的框架，它通过建立认知空间与语义流形之间的映射，利用认知锚点重构流匹配过程中的速度场，从而实现了对生成图像认知特性的连续、多维且精细的干预。

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

本文提出了名为 MDTrack 的新型多模态目标跟踪框架，通过为不同模态分配专用专家实现模态感知融合，并利用解耦的状态空间模型与交叉注意力机制进行独立且协同的时序传播，从而在五个基准测试中取得了最先进的性能。

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

该论文提出了 DenoiseSplat，一种针对含噪多视图图像的自监督前馈 3D 高斯泼溅方法，通过在大规模构建的 RE10K 噪声基准上仅利用干净 2D 渲染进行端到端训练，实现了在噪声环境下优于现有基线的 3D 场景重建与新颖视图合成性能。

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”（SPR）的进度感知视觉 - 语言 - 动作框架，该框架通过将语言指令动态转化为空间子目标序列，并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态，从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

本文提出了名为 IntroSVG 的生成框架，通过构建一个兼具生成与批判双重角色的统一视觉语言模型，利用监督微调、直接偏好优化以及“生成 - 审查 - 优化”的迭代闭环机制，将渲染后的视觉反馈融入训练过程，从而显著提升了文本到矢量图形（SVG）生成的质量、语义对齐度及可编辑性。

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

本文提出了 CLoE 框架，通过引入模态专家与区域专家的双重一致性学习目标及可靠性感知特征重校准机制，有效解决了多模态医学图像分割中因模态缺失导致的专家分歧与融合不稳定问题，显著提升了模型在缺失模态场景下的性能及临床关键结构的鲁棒性。

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

本文提出了 NLiPsCalib 框架，通过结合可控近场光源与近场光度立体视觉技术，仅需少量日常物体接触即可高效校准弯曲视觉触觉传感器，从而显著降低高保真 3D 重建的门槛并提升其重建精度。

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

本文提出了名为 SpaceSense-Bench 的大规模多模态基准数据集，该数据集基于虚幻引擎 5 生成，包含 136 种卫星模型的高保真同步 RGB、深度及 LiDAR 数据与精细标注，旨在解决航天器感知与位姿估计中真实数据匮乏的问题，并通过基准测试揭示了小部件感知与零样本泛化等关键挑战及数据规模对性能提升的重要性。

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度，发现现有模型表现远逊于人类，并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

本文提出了 STAR 基准，这是一个基于多智能体零和博弈的评估框架，旨在揭示大型语言模型在静态推理之外，将战略深度转化为实时决策执行能力时存在的显著差距，并强调在动态对抗环境中平衡推理质量与响应速度的重要性。

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

本文提出了一种名为预测谱校准（PSC）的无源测试时适应框架，通过扩展子空间对齐至块谱匹配，在无需源数据的情况下有效提升了图像回归模型在分布偏移下的性能。

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy HieuWed, 11 Ma💻 cs

← 上一页下一页 →