cs.CV artículos | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabajo propone una descomposición funcional de anillo tensorial reparametrizada que utiliza representaciones neuronales implícitas y un análisis en el dominio de la frecuencia para superar las limitaciones de los métodos tradicionales, logrando así una recuperación superior de datos multidimensionales tanto en mallas como fuera de ellas.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

El artículo presenta FastLightGen, un algoritmo que transforma modelos de generación de video grandes en versiones ligeras y rápidas mediante la distilación simultánea del tamaño del modelo y los pasos de inferencia, logrando un nuevo estado del arte en eficiencia sin sacrificar la calidad visual.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

El artículo presenta VSearcher, un agente de búsqueda multimodal de largo alcance que, mediante un proceso de síntesis de datos y aprendizaje por refuerzo, transforma modelos estáticos en sistemas capaces de utilizar herramientas web en tiempo real, superando el rendimiento de modelos propietarios en tareas de búsqueda multimodal.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

El artículo presenta "Think-as-You-See" (TaYS), un marco unificado que permite el razonamiento concurrente en modelos de lenguaje-visión grandes mediante la generación paralela de cadenas de pensamiento y mecanismos de atención adaptados a flujos de video, superando así a los enfoques por lotes e intercalados en rendimiento y velocidad de respuesta.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ es un marco de edición de imágenes basado en instrucciones y libre de entrenamiento que, mediante un razonamiento cognitivo estructurado en dos etapas y un mecanismo de autoselección reflexiva, logra un rendimiento superior en consistencia visual y seguimiento de instrucciones en comparación con modelos de código abierto y cerrado.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

El artículo presenta RoboLayout, una extensión de LayoutVLM que genera diseños de escenas 3D semánticamente coherentes y físicamente viables para agentes encarnados mediante la integración de restricciones de alcanzabilidad diferenciables y un proceso de refinamiento local que adapta el entorno a las capacidades físicas de diversos agentes.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

El artículo presenta Omni-C, un único codificador Transformer denso que comprime modalidades heterogéneas en representaciones compartidas mediante preentrenamiento contrastivo, logrando un rendimiento competitivo y una mayor eficiencia de memoria al eliminar la necesidad de arquitecturas complejas como la de expertos múltiples (MoE) o supervisiones emparejadas.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Este estudio presenta el primer marco de patología computacional multimodal, basado en un Transformer de inyección clínica y un MAE adaptado al dominio, que logra una alta precisión (90,1%) en la predicción del pronóstico de nefritis lúpica pediátrica utilizando únicamente biopsias teñidas con PAS y datos clínicos estructurados.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

El artículo presenta SKETCHGAIT, un marco de reconocimiento de la marcha que introduce el nuevo modo visual "Sketch" para extraer estructuras densas y libres de etiquetas directamente de imágenes RGB, logrando un rendimiento superior al combinarlo con representaciones de parsing en un sistema multimodal jerárquico.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Este artículo presenta un pipeline de predicción de trayectorias impulsado por gemelos digitales para intersecciones urbanas V2X, que combina percepción cooperativa y una función de pérdida innovadora para generar trayectorias precisas, diversas y estrictamente conformes a las normas de tráfico y seguridad.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

El artículo presenta AutoThinkRAG, un marco que mejora la respuesta a preguntas en documentos complejos mediante un enrutador de complejidad de consultas y una arquitectura de desacoplamiento funcional que combina un modelo visual pequeño con un LLM, logrando un rendimiento superior y menores costos de inferencia.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Este trabajo presenta BISE, una estrategia que identifica y extrae subredes libres de sesgo de modelos preentrenados convencionales mediante poda, logrando mitigar los sesgos algorítmicos sin necesidad de reentrenamiento ni datos adicionales.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Este artículo presenta "Thinking with Spatial Code", un marco que transforma videos RGB en representaciones 3D explícitas y coherentes mediante un codificador espacial y un ajuste fino con aprendizaje por refuerzo, logrando un nuevo estado del arte en razonamiento físico al superar a modelos de visión-lingüística propietarios en la prueba VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Este trabajo presenta el primer marco de verificación de robustez acoplada para detectores de keypoints basados en mapas de calor, que mediante un programa lineal entero mixto garantiza la robustez conjunta de todas las keypoints al considerar sus interdependencias, superando así las limitaciones conservadoras de los métodos decoupled anteriores.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

El artículo presenta DreamCAD, un marco generativo multimodal que produce modelos CAD editables (BRep) a partir de supervisión a nivel de puntos sin necesidad de anotaciones específicas, aprovechando millones de mallas 3D no anotadas y un nuevo dataset masivo de descripciones (CADCap-1M) para lograr un rendimiento superior en benchmarks existentes.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Este trabajo presenta ABRA, un nuevo enfoque de generalización de dominio que utiliza aumentos de representación adversaria para mitigar efectos de lote biológico en imágenes de cribado de alto contenido, logrando un estado del arte en la clasificación de perturbaciones de ARN de interferencia sin depender de conocimientos previos.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

El artículo presenta el Estabilizador de Fusión Posterior (PFS), un módulo ligero que mejora la robustez de los detectores 3D multimodales existentes frente a cambios de dominio y fallos de sensores mediante la estabilización de características en la vista cenital, logrando un rendimiento superior sin requerir reentrenamiento ni modificar la arquitectura base.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

El artículo presenta CBM-Suite, un marco metodológico que aborda las limitaciones fundamentales de los Modelos de Embudo de Conceptos (CBM) mediante una métrica de entropía para evaluar conceptos, una capa no lineal para resolver el problema de linealidad, una función de pérdida de destilación para cerrar la brecha de precisión y un análisis exhaustivo de los componentes del modelo, logrando así sistemas más precisos e interpretables.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Este artículo propone el FID interpolado (iFID), una métrica sencilla que interpola las representaciones latentes de un VAE y su vecino más cercano, logrando por primera vez una fuerte correlación con el FID de generación de modelos de difusión, a diferencia del FID de reconstrucción tradicional.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Este artículo propone el Recuento de Errores Implícito (IEC), un método de aprendizaje por refuerzo sin referencias que enumera y penaliza errores específicos en lugar de depender de rúbricas basadas en respuestas ideales, logrando así un rendimiento superior en la tarea de probador virtual donde existen múltiples soluciones válidas.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← Anterior Siguiente →