When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Este artículo presenta Geometric Semantic Decoupling (GSD), un módulo sin parámetros que mejora la generalización de los detectores de imágenes generadas por IA al eliminar las dependencias de priores semánticos dominantes y forzar al modelo a centrarse en evidencia forense invariante.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

El artículo presenta Poly-DETR, un transformador de detección de polígonos que reformula la segmentación de instancias mediante regresión de vértices en representación polar para resolver el conflicto entre entradas de alta resolución y la inferencia en tiempo real, logrando mejoras significativas en precisión y eficiencia en comparación con los métodos basados en máscaras.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudio presenta un enfoque de múltiples modelos basado en redes neuronales preentrenadas y personalizadas, junto con técnicas de aumento de datos y aprendizaje por transferencia, para mejorar la detección de señales de tráfico, vehículos y carriles, así como la clonación de comportamiento, con el fin de aumentar la robustez y fiabilidad de los sistemas de conducción autónoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

El artículo presenta DiP, un nuevo marco de aprendizaje de representaciones para grafos multimodales que utiliza nodos pseudo específicos de cada modalidad y rutas de información dinámicas para lograr una propagación de mensajes adaptativa, expresiva y eficiente con complejidad lineal, superando consistentemente a los métodos existentes en diversas tareas y benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

El artículo presenta ForgeDreamer, un marco innovador para la generación industrial de texto a 3D que supera las limitaciones actuales mediante un mecanismo de ensamblaje LoRA multiexperto para evitar interferencias de conocimiento y una mejora geométrica basada en hipergrafos de vistas cruzadas para garantizar consistencia estructural de nivel de fabricación.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

El artículo presenta SVOR, un marco robusto que logra la eliminación estable de objetos en videos bajo condiciones imperfectas mediante tres diseños clave: MUSE para el manejo de movimientos abruptos, DA-Seg para la localización consciente del desruido y un entrenamiento curricular en dos etapas, superando así los límites de los modelos existentes y alcanzando resultados de vanguardia en escenarios del mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

El artículo presenta CogBlender, un marco que permite la intervención continua y multidimensional de propiedades cognitivas (como valencia, excitación, dominio y memorabilidad) en la generación de imágenes a partir de texto, logrando alinear el contenido visual con la intención psicológica mediante la interpolación de campos de velocidad en un espacio cognitivo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

El artículo presenta MDTrack, un marco novedoso para el seguimiento de objetos multimodal que supera las limitaciones de las estrategias de fusión uniformes mediante una fusión adaptativa basada en expertos y una propagación temporal desacoplada utilizando modelos de espacio de estado, logrando así un rendimiento superior en cinco benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

El marco See, Plan, Rewind (SPR) mejora la manipulación robótica al medir el progreso mediante hitos espaciales, permitiendo la planificación de trayectorias y la recuperación automática de errores mediante un ciclo cerrado que supera a los modelos existentes en robustez y generalización.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

El artículo presenta IntroSVG, un marco generativo introspectivo que utiliza un modelo de lenguaje visual unificado en un bucle cerrado de "generar-revisar-refinar" con retroalimentación visual y optimización directa de preferencias para superar las limitaciones de los métodos actuales y producir gráficos vectoriales escalables (SVG) de mayor calidad, complejidad y alineación semántica.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

El artículo presenta NLiPsCalib, un marco de calibración eficiente y consistente con la física que utiliza estereofotometría de luz cercana para lograr una reconstrucción 3D de alta fidelidad en sensores visuotáctiles curvos mediante contactos simples con objetos cotidianos, eliminando la necesidad de dispositivos de calibración costosos y laboriosos.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Este artículo presenta SpaceSense-Bench, un nuevo benchmark de percepción espacial a gran escala y multimodal que ofrece datos sintéticos de alta fidelidad con anotaciones precisas para superar las limitaciones de los conjuntos de datos existentes y mejorar la navegación relativa y el entendimiento semántico de satélites.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Este trabajo presenta OddGridBench, un nuevo benchmark que revela la deficiente sensibilidad a discrepancias visuales de los modelos de lenguaje multimodal actuales, y propone OddGrid-GRPO, un marco de aprendizaje por refuerzo que mejora significativamente esta capacidad mediante aprendizaje curricular y recompensas conscientes de la distancia espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artículo presenta STAR, un nuevo marco de evaluación multiagente que demuestra que la inteligencia estratégica en entornos competitivos y dinámicos depende no solo de la profundidad del razonamiento, sino también de la capacidad de ejecutar planes de manera oportuna, revelando una brecha significativa entre el rendimiento en escenarios por turnos y en tiempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI