cs.CV artículos | Gist.Science

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

El artículo presenta DenoiseSplat, un método de proyección gaussiana 3D de alimentación directa que supera a enfoques existentes en la reconstrucción de escenas ruidosas mediante el uso de un nuevo conjunto de datos de referencia ruidoso-limpio y un entrenamiento supervisado únicamente con renderizados 2D limpios.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

El marco See, Plan, Rewind (SPR) mejora la manipulación robótica al medir el progreso mediante hitos espaciales, permitiendo la planificación de trayectorias y la recuperación automática de errores mediante un ciclo cerrado que supera a los modelos existentes en robustez y generalización.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

El artículo presenta IntroSVG, un marco generativo introspectivo que utiliza un modelo de lenguaje visual unificado en un bucle cerrado de "generar-revisar-refinar" con retroalimentación visual y optimización directa de preferencias para superar las limitaciones de los métodos actuales y producir gráficos vectoriales escalables (SVG) de mayor calidad, complejidad y alineación semántica.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

El artículo presenta CLoE, un marco de aprendizaje de consistencia que mejora la segmentación de imágenes médicas multimodales con modalidades faltantes al controlar la concordancia entre expertos a nivel de decisión y región, asignando pesos de fiabilidad dinámicos para lograr una fusión robusta y generalizable.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

El artículo presenta NLiPsCalib, un marco de calibración eficiente y consistente con la física que utiliza estereofotometría de luz cercana para lograr una reconstrucción 3D de alta fidelidad en sensores visuotáctiles curvos mediante contactos simples con objetos cotidianos, eliminando la necesidad de dispositivos de calibración costosos y laboriosos.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Este artículo presenta SpaceSense-Bench, un nuevo benchmark de percepción espacial a gran escala y multimodal que ofrece datos sintéticos de alta fidelidad con anotaciones precisas para superar las limitaciones de los conjuntos de datos existentes y mejorar la navegación relativa y el entendimiento semántico de satélites.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Este trabajo presenta OddGridBench, un nuevo benchmark que revela la deficiente sensibilidad a discrepancias visuales de los modelos de lenguaje multimodal actuales, y propone OddGrid-GRPO, un marco de aprendizaje por refuerzo que mejora significativamente esta capacidad mediante aprendizaje curricular y recompensas conscientes de la distancia espacial.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artículo presenta STAR, un nuevo marco de evaluación multiagente que demuestra que la inteligencia estratégica en entornos competitivos y dinámicos depende no solo de la profundidad del razonamiento, sino también de la capacidad de ejecutar planes de manera oportuna, revelando una brecha significativa entre el rendimiento en escenarios por turnos y en tiempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Este trabajo propone la Calibración Espectral Predictiva (PSC), un marco libre de fuentes que mejora la adaptación en tiempo de prueba para regresión de imágenes mediante la alineación de subespacios y la calibración espectral residual, logrando mejoras consistentes sobre métodos existentes bajo cambios de distribución severos.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

El artículo propone un marco de esteganografía de imágenes robusto y con seguridad demostrable basado en la optimización iterativa en el espacio latente, que mejora significativamente la precisión de extracción de mensajes bajo compresión y procesamiento de imágenes sin comprometer la seguridad teórica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

El artículo presenta EPPINN, un marco de aprendizaje profundo evidencial basado en redes neuronales informadas por física que mejora la precisión y fiabilidad de la estimación de parámetros de perfusión en la tomografía computarizada para el ictus isquémico agudo al cuantificar la incertidumbre aleatoria y epistémica sin necesidad de muestreo bayesiano.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

El artículo presenta M3GCLR, un marco de aprendizaje contrastivo basado en teoría de juegos que aborda las limitaciones de los métodos existentes mediante un modelo de juego infinito de datos esqueléticos y un optimizador de equilibrio dual, logrando un rendimiento superior en la reconocimiento de acciones basado en esqueletos.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

El artículo presenta MIL-PF, un marco escalable que combina codificadores de modelos fundacionales congelados con un cabezal de aprendizaje de múltiples instancias ligero para lograr un rendimiento de clasificación de mamografías de vanguardia de manera eficiente, evitando el costoso ajuste fino de modelos completos.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo es un marco innovador que utiliza un aprendizaje discriminativo dual y una estrategia de aprendizaje curricular para permitir que un único modelo logre una geo-localización cruzada robusta y adaptable a diversas condiciones de campo de visión, superando el estado del arte en múltiples conjuntos de datos.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

El artículo presenta EventVGGT, un marco innovador que mejora la estimación de profundidad basada en eventos mediante la distilación de conocimientos espaciotemporales y geométricos del modelo VGGT, superando las limitaciones de consistencia temporal y precisión de los métodos anteriores al tratar las secuencias de eventos como videos coherentes en lugar de fotogramas independientes.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

El artículo presenta MIDAS, un marco de esteganografía sin entrenamiento basado en difusión que permite ocultar múltiples imágenes con control de acceso específico para cada usuario mediante fusión a nivel latente, superando a los métodos existentes en calidad, robustez y resistencia al análisis.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

El artículo presenta YOLO-NAS-Bench, el primer benchmark sustituto diseñado para la búsqueda de arquitecturas de YOLO, que emplea un mecanismo de autoevolución para refinar un predictor basado en LightGBM y descubrir arquitecturas de detección de objetos que superan a los modelos oficiales en el conjunto de datos COCO-mini.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

El artículo presenta RiO-DETR, el primer transformador de detección en tiempo real para objetos orientados, que supera los desafíos de la periodicidad angular y la convergencia mediante diseños nativos como la estimación de ángulos impulsada por contenido y una refinación periódica desacoplada, logrando un nuevo equilibrio entre velocidad y precisión en conjuntos de datos de detección aérea.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

← Anterior Siguiente →