RiO-DETR: DETR for Real-time Oriented Object Detection

El artículo presenta RiO-DETR, el primer transformador de detección en tiempo real para objetos orientados, que supera los desafíos de la periodicidad angular y la convergencia mediante diseños nativos como la estimación de ángulos impulsada por contenido y una refinación periódica desacoplada, logrando un nuevo equilibrio entre velocidad y precisión en conjuntos de datos de detección aérea.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

El artículo presenta CIGPose, un marco basado en redes neuronales gráficas e intervención causal que elimina las correlaciones espurias del contexto visual mediante la sustitución de representaciones de keypoints confundidas, logrando así un nuevo estado del arte en la estimación de poses corporales completas con mayor robustez y plausibilidad anatómica.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

First Steps towards Categorical Algebraic Artificial Chemistry

Este artículo presenta la construcción de un functor que asigna dinámica a un modelo algebraico de componentes interactivos, generalizando el modelo computacional AlChemy de Fontana y Buss mediante el cálculo lambda y explorando el uso de la teoría de categorías para formalizar la conexión entre los aspectos algebraicos y dinámicos de la química artificial.

Joe Pratt-Johns (Edinburgh Napier University), Toby St. Clere Smithe (Kodamai Ltd), Chris Guiver (Edinburgh Napier University), Kevin Hughes (Edinburgh Napier University), Peter Andras (Edinburgh Napier University)2026-03-11💻 cs

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

El artículo "ShapeMark" presenta un método de marca de agua robusto y que preserva la diversidad para modelos de difusión, el cual codifica la información en patrones de ruido estructurados en lugar de valores individuales para superar las limitaciones de las técnicas existentes y garantizar la protección de la propiedad intelectual sin comprometer la calidad de la generación.

Yuqi Qian, Yun Cao, Haocheng Fu, Meiyang Lv, Meineng Zhu2026-03-11💻 cs

Stein Variational Ergodic Surface Coverage with SE(3) Constraints

Este trabajo introduce un enfoque de descenso de gradiente variacional de Stein (SVGD) precondicionado en SE(3) para la optimización de trayectorias ergódicas, permitiendo a los robots generar trayectorias que cubren eficazmente superficies complejas en 3D mientras mantienen poses precisas del efector final y respetan las restricciones geométricas.

Jiayun Li, Yufeng Jin, Sangli Teng, Dejian Gong, Georgia Chalvatzaki2026-03-11💻 cs

SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments

El artículo presenta SEA-Nav, un marco de aprendizaje por refuerzo que combina funciones de barrera diferenciables, un mecanismo de replay adaptativo y restricciones cinemáticas para lograr una navegación ágil y segura de robots cuadrúpedos en entornos densamente obstruidos, logrando su despliegue físico tras solo minutos de entrenamiento.

Shiyi Chen, Mingye Yang, Haiyan Mao, Jiaqi Zhang, Haiyi Liu, Shuheng He, Debing Zhang, Zihao Qiu, Chun Zhang2026-03-11💻 cs

TopoOR: A Unified Topological Scene Representation for the Operating Room

El artículo presenta TopoOR, un nuevo paradigma que representa las salas de operaciones mediante estructuras topológicas de alto orden para preservar las relaciones grupales y la geometría multimodal, superando así las limitaciones de los grafos tradicionales y mejorando tareas críticas como la detección de violaciones de esterilidad y la predicción de fases quirúrgicas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Este informe de experiencia detalla el desarrollo de tres currículos de ingeniería de software para profesionales y propone principios y un enfoque sistemático basado en el mapeo de contenidos para integrar eficazmente cursos de ingeniería de requisitos en dichos programas dinámicos y modulares.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide Fucci2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artículo presenta el Corpus Patrologia Graeca, el primer recurso abierto a gran escala que combina reconocimiento óptico de caracteres (OCR) y anotación lingüística para las ediciones griegas del siglo XIX, logrando una precisión superior a la de los sistemas existentes y proporcionando un corpus de seis millones de tokens para el entrenamiento de modelos futuros.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

El artículo presenta MORE-R1, un modelo innovador que utiliza aprendizaje por refuerzo y un proceso de entrenamiento en dos etapas para dotar a los Grandes Modelos Visuales-Lingüísticos de capacidades de razonamiento paso a paso y lograr un rendimiento superior en la tarea de extracción de relaciones multimodales entre objetos y entidades.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong Mo2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

El artículo presenta StyleVLA, un modelo de visión-lenguaje-acción (VLA) basado en física y entrenado con un nuevo conjunto de datos a gran escala, que supera a los modelos propietarios y de última generación al generar trayectorias de conducción autónoma que no solo evitan colisiones, sino que también se adaptan a diversos estilos de conducción y garantizan la viabilidad cinemática.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs