Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

El artículo presenta Splat2Real, un marco de preentrenamiento de profundidad monoculares que utiliza 3D Gaussian Splatting y un currículo de selección de vistas basado en cobertura y novedad (CN-Coverage) para mejorar la robustez ante cambios de perspectiva en la IA física, demostrando que la calidad de las vistas seleccionadas es más crítica que la cantidad bruta para la estabilidad del rendimiento.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

How To Embed Matters: Evaluation of EO Embedding Design Choices

Este artículo presenta un análisis sistemático de las decisiones de diseño en la creación de representaciones incrustadas para modelos fundacionales geoespaciales, demostrando que es posible generar representaciones fijas más de 500 veces más pequeñas que los datos brutos sin sacrificar el rendimiento en diversas tareas de observación terrestre.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

El paper presenta A²-Edit, un marco unificado de inpainting que permite editar objetos arbitrarios utilizando solo una máscara aproximada, respaldado por el nuevo dataset UniEdit-500K, un módulo Mixture of Transformer para manejar la diversidad de categorías y una estrategia de entrenamiento con annealing de máscaras para mejorar la robustez.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

El artículo presenta MapGCLR, un enfoque semi-supervisado que mejora la construcción de mapas HD vectorizados en línea mediante aprendizaje contrastivo auto-supervisado que aprovecha la consistencia geoespacial entre superposiciones de características en vista de pájaro, logrando un rendimiento superior al de los métodos supervisados convencionales.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

El artículo presenta UniCom, un marco unificado que supera las limitaciones de los tokenizadores visuales discretos mediante representaciones semánticas continuas comprimidas, logrando un rendimiento de vanguardia en la generación y edición de imágenes con una convergencia rápida y una consistencia superior.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Este artículo presenta CTCNet, un nuevo enfoque de red neuronal que integra conocimiento regulatorio y compensación espectral cruzada para mejorar la comprensión del tráfico aéreo en condiciones adversas, junto con la creación de Traffic-VQA, el primer conjunto de datos de referencia a gran escala óptico-térmico para esta tarea.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Este artículo presenta el conjunto de datos eLasmobranc, una colección pública y curada de imágenes de siete especies de elasmobranquios del Mediterráneo español, obtenidas principalmente fuera del agua bajo protocolos estandarizados para facilitar la clasificación de especies a nivel morfológico y apoyar el monitoreo de la biodiversidad y la conservación.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Este trabajo propone un sistema de estereofotometría basado en eventos que utiliza una única fuente de luz rotatoria y una red neuronal ligera por píxel para estimar normales de superficie sin calibración, logrando mayor precisión y robustez ante iluminación ambiental y especularidad en comparación con métodos existentes.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

El artículo "CodePercept" identifica que las limitaciones en el razonamiento visual STEM de los modelos de lenguaje multimodal (MLLM) se deben principalmente a deficiencias perceptivas, proponiendo un nuevo paradigma que utiliza código ejecutable como medio de percepción para generar el dataset ICC-1M y el benchmark STEM2Code-Eval, logrando así una comprensión visual más precisa y verificable.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Este artículo presenta LGA-RCM-YOLO, un modelo de segmentación de instancias de interfaz de fase basado en YOLO11m que, junto con el nuevo conjunto de datos CTG 2.0, supera los desafíos de monitoreo visual en vidrio transparente para lograr una automatización de laboratorio precisa y en tiempo real.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Este trabajo propone la Alineación de Granularidad Semántica (SGA), un método que aprovecha una perspectiva geométrica basada en el Kernel Tangente Neural para mitigar conflictos de gradientes en el ajuste fino de modelos de flujo, logrando así una convergencia más rápida y una mejor integridad estructural en la síntesis de imágenes a partir de texto.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs