When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Cette étude propose une approche multi-modèle basée sur l'apprentissage profond et la vision par ordinateur pour améliorer la sécurité et la fiabilité des véhicules autonomes en intégrant la détection de panneaux, de véhicules et de voies ainsi que l'apprentissage comportemental via des réseaux de neurones pré-entraînés et des techniques d'augmentation de données.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Ce papier propose DiP, un cadre novateur d'apprentissage de représentations pour les graphes multimodaux qui utilise des nœuds pseudo-spécifiques et des voies d'information dynamiques pour réaliser une propagation de messages adaptative, expressive et parcimonieuse avec une complexité linéaire, surpassant ainsi les méthodes existantes sur diverses tâches.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer est un nouveau cadre de génération textuelle vers 3D conçu pour les applications industrielles qui surmonte les limites des méthodes actuelles grâce à un mécanisme d'ensemble LoRA multi-experts pour une généralisation inter-catégories et une approche d'amélioration géométrique par hypergraphe croisé pour assurer une cohérence structurelle de précision.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Cet article propose de nouvelles stratégies d'entraînement et des pertes pour accélérer l'apprentissage du splatting gaussien 3D en raccourcissant les listes de gaussiennes nécessaires au rendu, grâce à un rétrécissement régulier des échelles et une contrainte d'entropie, tout en intégrant un planificateur de résolution progressive pour améliorer l'efficacité sans sacrifier la qualité.

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Le papier présente CogBlender, un cadre innovant permettant une intervention continue et multidimensionnelle des propriétés cognitives (telles que la valence, l'éveil, la dominance et la mémorabilité) lors de la génération d'images à partir de texte, en reliant l'espace cognitif au manifold sémantique via des ancres cognitives et un champ de vitesse interpolé.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Le papier présente SPR, un cadre vision-langage-action progressif qui améliore la robustesse de la manipulation robotique en ancrant les instructions dans des sous-objectifs spatiaux et en permettant une récupération automatique des échecs via un cycle de rétroaction, surpassant ainsi les méthodes de référence sur les benchmarks LIBERO.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

L'article présente IntroSVG, un cadre génératif introspectif qui améliore la création d'images SVG à partir de texte en bouclant un modèle unique agissant à la fois comme générateur et critique pour intégrer un feedback visuel explicite et affiner les résultats via un processus itératif de génération, d'évaluation et de correction.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Le papier présente NLiPsCalib, un cadre de calibration efficace et physiquement cohérent pour les capteurs visuotactiles courbes, qui utilise la stéréophotométrie à source lumineuse proche (NLiPs) pour permettre une reconstruction 3D haute fidélité via une procédure de calibration simplifiée avec des objets quotidiens.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Ce papier présente SpaceSense-Bench, un benchmark multi-modal à grande échelle généré par simulation haute fidélité pour l'apprentissage de la perception et de l'estimation de pose des engins spatiaux, mettant en évidence l'importance cruciale de la diversité des données pour surmonter les limitations actuelles des méthodes face à de nouvelles cibles et à des composants de petite taille.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Ce papier présente OddGridBench, un benchmark contrôlé révélant les lacunes des modèles de langage multimodaux dans la détection de discrepancies visuelles fines, et propose OddGrid-GRPO, un cadre d'apprentissage par renforcement qui améliore significativement cette capacité grâce à un curriculum et des récompenses spatiales.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Ce papier présente le benchmark STAR, un cadre d'évaluation multi-agents en environnement zéro somme qui révèle que la supériorité stratégique des LLMs dépend d'un équilibre critique entre la profondeur du raisonnement et la rapidité d'exécution, les modèles plus rapides surpassant souvent les modèles de raisonnement dans les scénarios en temps réel.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Cet article propose la calibration spectrale prédictive (PSC), un cadre sans source qui améliore l'adaptation à l'heure de test pour la régression d'images en alignant les caractéristiques cibles sur le support prédictif source et en calibrant les résidus spectraux dans le complément orthogonal, surpassant ainsi les méthodes existantes sous des décalages de distribution sévères.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy HieuWed, 11 Ma💻 cs