cs.CV artículos | Gist.Science

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

El artículo presenta Splat2Real, un marco de preentrenamiento de profundidad monoculares que utiliza 3D Gaussian Splatting y un currículo de selección de vistas basado en cobertura y novedad (CN-Coverage) para mejorar la robustez ante cambios de perspectiva en la IA física, demostrando que la calidad de las vistas seleccionadas es más crítica que la cantidad bruta para la estabilidad del rendimiento.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

El artículo presenta SLiM, un marco unificado innovador que elimina el decodificador en el aprendizaje de representaciones esqueléticas mediante una combinación de modelado enmascarado y aprendizaje contrastivo, logrando un rendimiento superior al estado del arte con una reducción significativa en los costos computacionales.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

El artículo presenta ROVA, un nuevo marco de entrenamiento que mejora la robustez de los modelos de razonamiento video-lingüístico ante perturbaciones del mundo real mediante una recompensa de consistencia y una estrategia de dificultad adaptativa, validado mediante el nuevo benchmark PVRBench que demuestra reducciones significativas en la degradación del rendimiento.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

Este artículo presenta un análisis sistemático de las decisiones de diseño en la creación de representaciones incrustadas para modelos fundacionales geoespaciales, demostrando que es posible generar representaciones fijas más de 500 veces más pequeñas que los datos brutos sin sacrificar el rendimiento en diversas tareas de observación terrestre.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Este artículo presenta un diseño eficiente y pipeline en FPGA para el módulo de búsqueda de vectores de desplazamiento de la herramienta de Copia de Patrón Intrínseco (IPC) en JPEG XS, logrando un alto rendimiento y bajo consumo energético que facilita su implementación práctica en hardware.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

El paper presenta A²-Edit, un marco unificado de inpainting que permite editar objetos arbitrarios utilizando solo una máscara aproximada, respaldado por el nuevo dataset UniEdit-500K, un módulo Mixture of Transformer para manejar la diversidad de categorías y una estrategia de entrenamiento con annealing de máscaras para mejorar la robustez.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

El artículo presenta MapGCLR, un enfoque semi-supervisado que mejora la construcción de mapas HD vectorizados en línea mediante aprendizaje contrastivo auto-supervisado que aprovecha la consistencia geoespacial entre superposiciones de características en vista de pájaro, logrando un rendimiento superior al de los métodos supervisados convencionales.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

El artículo presenta BorderNet, una arquitectura de red neuronal convolucional inspirada en el modelo matemático de la corteza visual para completar bordes en imágenes ocluidas, la cual demuestra un rendimiento superior en conjuntos de datos como MNIST, Fashion-MNIST y EMNIST frente a oclusiones tipo rayas y cuadrículas.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

El artículo propone RandMark, un método de marcaje de agua aleatorio que utiliza una pequeña red codificadora-decodificadora para incrustar marcas de agua en representaciones internas de modelos fundacionales visuales, permitiendo verificar su propiedad y detectar copias funcionales con baja probabilidad de falsos positivos y negativos.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

El artículo presenta UniCom, un marco unificado que supera las limitaciones de los tokenizadores visuales discretos mediante representaciones semánticas continuas comprimidas, logrando un rendimiento de vanguardia en la generación y edición de imágenes con una convergencia rápida y una consistencia superior.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

El artículo presenta WalkGPT, un modelo de lenguaje-vision grounded que integra razonamiento conversacional, segmentación y estimación de profundidad para guiar la navegación peatonal accesible, junto con el nuevo benchmark PAVE para evaluar estas capacidades.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Este artículo presenta CTCNet, un nuevo enfoque de red neuronal que integra conocimiento regulatorio y compensación espectral cruzada para mejorar la comprensión del tráfico aéreo en condiciones adversas, junto con la creación de Traffic-VQA, el primer conjunto de datos de referencia a gran escala óptico-térmico para esta tarea.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Este artículo presenta el conjunto de datos eLasmobranc, una colección pública y curada de imágenes de siete especies de elasmobranquios del Mediterráneo español, obtenidas principalmente fuera del agua bajo protocolos estandarizados para facilitar la clasificación de especies a nivel morfológico y apoyar el monitoreo de la biodiversidad y la conservación.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Este trabajo presenta Just-in-Time (JiT), un marco de aceleración espacial sin entrenamiento para Transformadores de Difusión que, mediante la selección dinámica de tokens ancla y un flujo micro determinista, logra una aceleración de hasta 7 veces en el modelo FLUX.1-dev manteniendo una fidelidad de generación casi sin pérdidas.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Este trabajo propone un sistema de estereofotometría basado en eventos que utiliza una única fuente de luz rotatoria y una red neuronal ligera por píxel para estimar normales de superficie sin calibración, logrando mayor precisión y robustez ante iluminación ambiental y especularidad en comparación con métodos existentes.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

El artículo "CodePercept" identifica que las limitaciones en el razonamiento visual STEM de los modelos de lenguaje multimodal (MLLM) se deben principalmente a deficiencias perceptivas, proponiendo un nuevo paradigma que utiliza código ejecutable como medio de percepción para generar el dataset ICC-1M y el benchmark STEM2Code-Eval, logrando así una comprensión visual más precisa y verificable.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

Este artículo presenta la Guía de Degradación de Condiciones (CDG), un método plug-and-play que mejora la precisión de los modelos de difusión al reemplazar el prompt nulo con una condición semánticamente degradada, logrando así una mayor fidelidad en tareas de composición compleja sin costo computacional significativo.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Taking Shortcuts for Categorical VQA Using Super Neurons

El artículo presenta "Super Neurons", un método de sondeo que utiliza activaciones escalares en las capas superficiales de los modelos de lenguaje visual para lograr clasificadores precisos con una aceleración de hasta 5,10 veces mediante la salida temprana del modelo.

Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park2026-03-12🤖 cs.AI

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Este artículo presenta LGA-RCM-YOLO, un modelo de segmentación de instancias de interfaz de fase basado en YOLO11m que, junto con el nuevo conjunto de datos CTG 2.0, supera los desafíos de monitoreo visual en vidrio transparente para lograr una automatización de laboratorio precisa y en tiempo real.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Este trabajo propone la Alineación de Granularidad Semántica (SGA), un método que aprovecha una perspectiva geométrica basada en el Kernel Tangente Neural para mitigar conflictos de gradientes en el ajuste fino de modelos de flujo, logrando así una convergencia más rápida y una mejor integridad estructural en la síntesis de imágenes a partir de texto.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

← Anterior Siguiente →

cs.CV