cs.CV artículos | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Este trabajo presenta Probe-Select, un módulo que permite evaluar y seleccionar la calidad de las imágenes generadas por modelos de difusión texto-a-imagen en etapas tempranas del proceso, reduciendo los costos computacionales en más de un 60% sin alterar el modelo subyacente.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Este trabajo generaliza la técnica de 3D Gaussian Splatting a modelos de radiación no exponenciales, logrando una calidad de renderizado similar a la original pero reduciendo significativamente los sobredibujos y acelerando la velocidad de procesamiento hasta en un 4x en escenas complejas.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

El paper presenta TRACE, un marco que unifica el razonamiento generativo con el aprendizaje de representaciones discriminativas mediante la generación y compresión de cadenas de pensamiento, logrando así un nuevo estado del arte en la recuperación multimodal universal con capacidades de adaptación automática a la complejidad de la consulta y transferencia cero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

MoECLIP es un nuevo enfoque para la detección de anomalías sin entrenamiento previo que supera las limitaciones de los métodos actuales al utilizar una arquitectura de mezcla de expertos con adaptadores LoRA especializados por parche, regulados mediante separación ortogonal de características y una pérdida de marco equiangular, logrando un rendimiento superior en 14 conjuntos de datos industriales y médicos.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

El artículo presenta ProSMA-UNet, una arquitectura que reformula el gating de conexiones de salto como un problema de selección de características dispersas condicionado por el decodificador, utilizando un operador de proximidad $\ell_1$ para eliminar activaciones irrelevantes y lograr un rendimiento superior en tareas de segmentación médica, especialmente en escenarios 3D desafiantes.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Este trabajo presenta SpeciaRL, un marco de aprendizaje por refuerzo consciente de la especificidad que ajusta modelos de lenguaje multimodal para lograr un equilibrio óptimo entre precisión y especificidad en la clasificación de imágenes de granularidad fina en entornos de mundo abierto.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Este artículo presenta una encuesta exhaustiva sobre el modelado 3D basado en bocetos profundo (DS-3DM), introduciendo el nuevo espacio de diseño MORPHEUS para categorizar los avances recientes, identificar limitaciones y destacar oportunidades de investigación interdisciplinaria que priorizan la intención del usuario y la adaptabilidad de las interfaces.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Este estudio demuestra que la transferencia de aprendizaje basada en la iconicidad entre pares de lenguas de señas (chino-árabe y griego-flamenco) mejora significativamente el reconocimiento, logrando un aumento del 7,02% en árabe y del 1,07% en flamenco al utilizar Mediapipe para extraer características espaciotemporales.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Este artículo presenta mHC-HSI, un modelo de clasificación de imágenes hiperespectrales basado en Mamba que utiliza conexiones hiperconectadas guiadas por agrupamiento y conocimiento espectral físico para mejorar tanto la precisión como la interpretabilidad.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Este estudio introduce un marco de evaluación contrafactual que revela que, aunque el aprendizaje por refuerzo basado solo en texto mejora la precisión en tareas de razonamiento médico multimodal, degrada la dependencia visual real y fomenta alucinaciones, lo que demuestra la necesidad de protocolos de evaluación que prioricen la fundamentación visual sobre la mera exactitud.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

El artículo presenta Proact-VL, un marco general para agentes de lenguaje multimodal proactivos y en tiempo real que supera los desafíos de latencia y control de respuestas mediante el nuevo Live Gaming Benchmark y demostraciones en escenarios de videojuegos.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Este estudio analiza el impacto de diversos errores de localización en la calidad de las etiquetas para la construcción de mapas HD en línea, demostrando que los errores de orientación degradan el rendimiento del modelo más que los errores de posición y que la precisión disminuye de forma no lineal a medida que aumenta el ruido en los datos.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

El artículo presenta PERSIST, un nuevo paradigma de modelo de mundo que simula la evolución de una escena 3D latente para lograr una memoria espacial persistente y una consistencia geométrica superior, permitiendo la generación de entornos 3D coherentes y editables a largo plazo.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

El artículo presenta Phys4D, un pipeline de tres etapas que transforma modelos de difusión de video en representaciones 4D consistentes con la física mediante preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo, logrando una mayor coherencia física y temporal sin sacrificar el rendimiento generativo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Este estudio presenta un enfoque novedoso basado en un Transformer Bayesiano de alta resolución y aprendizaje débilmente supervisado geográficamente ponderado que fusiona datos de Sentinel-1, RCM y AMSR2 para generar mapas de concentración de hielo marino a 200 metros en el Ártico con estimaciones de incertidumbre mejoradas.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

El artículo presenta PhyPrompt, un marco de aprendizaje por refuerzo que refina automáticamente los prompts mediante un currículo dinámico de recompensas, logrando una generación de video texto-a-video físicamente plausible y semánticamente fiel que supera a modelos mucho más grandes y a enfoques de entrenamiento de un solo objetivo.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

El artículo presenta PinCLIP, un enfoque de aprendizaje de representación visual multimodal a gran escala desarrollado por Pinterest que, mediante una arquitectura híbrida de Vision Transformer y objetivos de alineación innovadores, supera a los modelos existentes en tareas de recuperación y mejora significativamente el compromiso de los usuarios y la distribución de contenido nuevo.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

El artículo presenta PolyV, un modelo unificado de visión grande que logra una sinergia cruzada entre imágenes, video y datos 3D mediante una arquitectura de mezcla de expertos dispersa y un paradigma de entrenamiento consciente de la sinergia, superando significativamente a los modelos existentes en diversas tareas de razonamiento visual.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Este artículo presenta un marco novedoso para la estimación de profundidad monoculares en cirugía mínimamente invasiva que mejora la precisión y la fiabilidad clínica al generar mapas de confianza que permiten identificar y priorizar píxeles fiables frente a artefactos como humo o reflejos.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

El artículo presenta L2G-Det, un marco de detección de instancias novedosas en entornos abiertos que supera los métodos basados en propuestas al utilizar coincidencias densas a nivel de parche para generar y refinar puntos candidatos que guían un modelo SAM mejorado hacia la reconstrucción precisa de máscaras de objetos.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

← Anterior Siguiente →