cs.CV artículos | Gist.Science

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Este trabajo presenta un marco de aprendizaje profundo eficiente y preciso para la superresolución de imágenes de resonancia magnética (MRI) mediante un modelo híbrido de escaneo selectivo (MHSSM) y MLP de canales, que logra un rendimiento superior al estado del arte con una reducción drástica de parámetros y costos computacionales, facilitando su integración clínica.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

El artículo presenta DrivingGen, el primer benchmark integral para modelos de mundo generativos en conducción autónoma, que aborda las limitaciones actuales mediante un conjunto de datos diverso y nuevas métricas para evaluar de forma rigurosa la realismo visual, la plausibilidad de las trayectorias, la coherencia temporal y el control en la simulación de escenarios de conducción.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabajo presenta un marco ligero y explicable de visión-linguaje basado en dos etapas que combina un codificador Swin Transformer preentrenado multitarea con decodificadores de lenguaje para lograr un rendimiento casi perfecto en la identificación de enfermedades de cultivos y la generación de respuestas explicativas a preguntas visuales.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

El artículo presenta R^4, un marco de agentes auto-mejorables que descompone el análisis de imágenes médicas en cuatro etapas coordinadas (enrutamiento, recuperación, reflexión y reparación) para generar informes clínicos y localizaciones más precisos y seguros sin necesidad de ajuste fino basado en gradientes.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Este estudio audita y realiza una etnografía del predictor LAION-Aesthetics, revelando que su enfoque algorítmico de la calidad estética refuerza sesgos occidentales, masculinos e imperiales al filtrar desproporcionadamente imágenes que representan a mujeres y personas LGBTQ+, lo que subraya la necesidad de transitar hacia evaluaciones más plurales en lugar de medidas prescriptivas de "estética".

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

El artículo presenta S2DiT, un modelo de Transformador de Difusión en sándwich optimizado para generar video de alta fidelidad en tiempo real en dispositivos móviles mediante mecanismos de atención eficientes y un marco de destilación, logrando más de 10 FPS en un iPhone con calidad comparable a los modelos de servidor más avanzados.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

El artículo presenta ReViP, un marco de modelos de visión-idioma-acción que mitiga las "completaciones falsas" mediante un reequilibrio entre visión y propiocepción, utilizando señales visuales conscientes del progreso para mejorar la robustez y el rendimiento en tareas de manipulación robótica.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Este artículo presenta ScenePilot-Bench, un nuevo benchmark a gran escala basado en el dataset ScenePilot-4K diseñado para evaluar y analizar las capacidades de los modelos de visión-linguaje en la comprensión, percepción espacial y planificación de movimiento para la conducción autónoma.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Este trabajo presenta QSTar, un nuevo método de interacción espacial-temporal-frecuencial guiado por consultas que integra información textual desde etapas tempranas y explota las características de frecuencia del audio para superar las limitaciones de los enfoques existentes en la respuesta a preguntas audiovisuales (AVQA), logrando mejoras significativas en diversos benchmarks.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

El artículo presenta MeanCache, un marco de caché sin entrenamiento que acelera la inferencia de Flow Matching al utilizar velocidades promedio derivadas de productos Jacobiano-vector en lugar de velocidades instantáneas, logrando mejoras significativas en la velocidad y la calidad de generación en modelos como FLUX.1, Qwen-Image y HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape es un solucionador híbrido neural-físico que integra una red neuronal informada por física con un solver de proyección diferenciable para resolver el conflicto entre la viabilidad geométrica y la plausibilidad física en el drapeado de prendas, logrando un manejo robusto de colisiones y un equilibrio cuasi-estático mediante fuerzas explícitas y restricciones geométricas estrictas.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

El artículo presenta FlowAdapt, un marco de adaptación de dominio eficiente en parámetros basado en la teoría del transporte óptimo que, mediante una muestreo selectivo y una transferencia progresiva de conocimiento, supera las limitaciones de la adaptación directa en sistemas de percepción colaborativa V2X logrando un rendimiento de vanguardia con solo el 1% de parámetros entrenables.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

El marco SToRM propone un método de reducción supervisada de tokens para modelos de lenguaje multimodal que permite una conducción autónoma de extremo a extremo eficiente, reduciendo los costos computacionales hasta en un 30x sin sacrificar el rendimiento en comparación con el uso de todos los tokens.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

El artículo presenta 3DMedAgent, un agente unificado que habilita a modelos de lenguaje multimodal 2D para realizar análisis médicos 3D mediante la descomposición progresiva de tareas complejas y el uso de una memoria estructurada, superando así las limitaciones de los enfoques existentes y logrando un rendimiento superior en más de 40 tareas de análisis de tomografía computarizada.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Este artículo presenta arquitecturas que aprenden operadores equivariantes en un espacio latente para mejorar el reconocimiento de objetos ante transformaciones simétricas no vistas durante el entrenamiento, demostrando su eficacia en conjuntos de datos simples como MNIST ruidoso y rotado, aunque advierte sobre los desafíos de escalar estas soluciones a conjuntos de datos más complejos.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

El artículo presenta OVerSeeC, un marco modular de cero disparos que combina modelos de lenguaje y segmentación de visión abierta para generar mapas de costos globales adaptativos a misiones a partir de imágenes satelitales y descripciones en lenguaje natural, permitiendo la planificación de rutas para entidades y reglas desconocidas sin ontologías predefinidas.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este artículo introduce el nuevo paradigma de generalización de dominio de vocabulario abierto en segmentación semántica (OVDG-SS) para entornos urbanos, presentando un primer benchmark y proponiendo el mecanismo S2-Corr para mitigar las distorsiones en las correlaciones texto-imagen causadas por cambios de dominio y mejorar la robustez en escenarios no vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

El artículo presenta UniMatch, un marco de aprendizaje profundo que establece correspondencias densas semánticas entre formas 3D no isométricas de diferentes categorías mediante un enfoque de dos etapas que combina segmentación semántica agnóstica a la clase, orientación mediante modelos de lenguaje multimodal y un esquema de aprendizaje contrastivo basado en rangos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR es un enfoque de superresolución basado en difusión que utiliza la fusión de corrección de varianza y la corrección de varianza desacoplada espacialmente para lograr una superresolución de imágenes de tamaño arbitrario sin costuras ni inconsistencias espaciales, eliminando así los límites de memoria y permitiendo inferencia distribuida eficiente.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Este artículo propone un esquema de descomposición y recomposición en línea de objetos, escenas y cámaras para generar datos de entrenamiento sintéticos diversos y eficientes, mejorando así la detección 3D de objetos monocular con menos datos y anotaciones.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

← Anterior Siguiente →