When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

이 논문은 생성형 AI 에 의해 생성된 이미지의 검출 성능을 향상시키기 위해 사전 학습된 의미적 편향을 제거하고 포렌식 증거에 집중하도록 하는 '기하학적 의미 분해 (GSD)' 모듈을 제안하여 다양한 미지의 생성 방식에 대한 일반화 능력을 크게 개선했습니다.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

이 논문은 고해상도 입력과 경량 실시간 추론 간의 상충 관계를 해결하기 위해, 밀집 픽셀 예측 대신 극좌표 표현을 통한 희소 정점 회귀로 인스턴스 분할을 재정의한 'Poly-DETR'을 제안하고, 다양한 데이터셋에서 기존 마스크 기반 방법보다 뛰어난 성능과 효율성을 입증합니다.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

이 논문은 교통 표지판, 차량, 차선 감지 및 행동 모방을 위한 사전 학습 및 맞춤형 신경망을 통합한 다중 모델 접근법을 제안하여 자율 주행 차량의 인식 및 의사결정 성능을 향상시키는 방법을 종합적으로 연구합니다.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

이 논문은 이질적인 노드 특징을 가진 멀티모달 그래프 학습의 유연성과 표현력을 향상시키기 위해, 모달리티별 가상 노드를 도입하여 동적 정보 경로를 통해 적응적이고 희소한 메시지 전파를 가능하게 하는 새로운 프레임워크인 DiP 를 제안하고 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

이 논문은 웹 기반 실내 투어 비디오에서 3D 재구성 없이 RGB 프레임으로부터 암시적 기하 표현을 추출하여 시뮬레이터 데이터의 한계를 극복하고, 다양한 벤치마크에서 새로운 최첨단 성능과 강력한 제로샷 내비게이션 능력을 달성하는 대규모 비전 - 언어 내비게이션 프레임워크를 제안합니다.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

이 논문은 그림자, 급격한 움직임, 결함이 있는 마스크와 같은 현실 세계의 불완전한 조건에서도 안정적인 비디오 객체 제거를 가능하게 하는 세 가지 핵심 설계 (MUSE, DA-Seg, 커리큘럼 2 단계 학습) 를 통해 새로운 최첨단 성능을 달성한 'Stable Video Object Removal (SVOR)' 프레임워크를 제안합니다.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

이 논문은 다양한 모달리티 간의 고유한 차이를 고려한 모달리티 인식 퓨전과 RGB 및 X 모달 스트림의 시계열 정보를 독립적으로 처리하는 분해된 시간 전파 메커니즘을 도입하여, 다섯 가지 멀티모달 추적 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크 MDTrack 을 제안합니다.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

이 논문은 작업 진행 상황을 명시적인 마일스톤으로 감지하고 실패 시 복구하는 'See, Plan, Rewind (SPR)' 프레임워크를 제안하여, 추가 학습 없이도 LIBERO 및 LIBERO-Plus 벤치마크에서 기존 모델보다 뛰어난 강건성과 일반화 성능을 달성함을 보여줍니다.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

이 논문은 생성된 SVG 의 렌더링 결과를 시각적으로 피드백하여 생성기와 비판가가 상호작용하는 '생성 - 검토 - 정제' 루프를 통해 텍스트 기반 SVG 생성의 품질과 복잡성을 획기적으로 향상시킨 'IntroSVG' 프레임워크를 제안합니다.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

이 논문은 Unreal Engine 5 기반의 고충실도 시뮬레이션으로 생성된 136 개의 위성 모델을 포함하는 대규모 다중 모달 벤치마크 'SpaceSense-Bench'를 제안하여, 궤도상 자율 우주 임무를 위한 정밀한 우주선 인식 및 자세 추정 연구의 한계를 극복하고 데이터 확장성의 중요성을 입증했습니다.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

이 논문은 MLLM 의 정밀한 시각적 불일치 감지 능력을 평가하기 위한 'OddGridBench' 벤치마크를 제안하고, 커리큘럼 학습과 거리 기반 보상을 결합한 강화학습 프레임워크 'OddGrid-GRPO' 를 통해 해당 능력을 획기적으로 향상시키는 방법을 제시합니다.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

이 논문은 정적 추론을 넘어 경쟁적이고 시간 제약이 있는 환경에서의 LLM 전략적 의사결정 능력을 평가하기 위해 1 대 1 제로섬 상호작용을 기반으로 한 'STAR' 벤치마크를 제안하고, 추론의 깊이뿐만 아니라 신속한 실행 능력이 전략적 지능에 필수적임을 규명합니다.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI