cs.CV artículos | Gist.Science

Latent 3D Brain MRI Counterfactual

Este artículo propone un método de dos etapas que construye un Modelo Causal Estructural en el espacio latente mediante un VQ-VAE y un modelo lineal generalizado para generar contrafactuales de resonancia magnética cerebral 3D de alta calidad y diversidad, superando las limitaciones de los modelos generativos actuales en datos de neuroimagen.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

El artículo presenta MV-Adapter, un módulo de atención adaptativa a canales que mejora el rendimiento de la segmentación de instancias submarinas al abordar dinámicamente desafíos como la atenuación lumínica y la distorsión de color dentro de la arquitectura USIS-SAM.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

El artículo presenta XPoint, un marco de coincidencia de imágenes multispectrales auto-supervisado y modular basado en VMamba que supera a los métodos actuales al permitir una adaptación rápida a diversas modalidades espectrales mediante la generación de pseudoground truth y la regresión de homografía sin depender de datos etiquetados costosos.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

El artículo presenta EchoMimicV2, un método de animación humana semicuerpo que logra resultados impactantes y simplificados mediante una estrategia de armonización dinámica de audio y pose, técnicas de atención parcial para aprovechar datos de retratos y una pérdida de desruido específica por fase, superando así a los métodos existentes al eliminar condiciones redundantes y limitaciones de región.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Este artículo presenta MFP3D, un nuevo marco que estima con precisión el tamaño de las porciones de comida y su contenido energético a partir de una única imagen monocromática mediante la reconstrucción de nubes de puntos 3D y la extracción combinada de características, superando las limitaciones de los métodos existentes que requieren objetos de referencia o múltiples vistas.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Este trabajo introduce el paradigma "grounding-IQA" para la evaluación de calidad de imágenes mediante modelos de lenguaje multimodal, presentando un nuevo conjunto de datos (GIQA-160K) y un benchmark (GIQA-Bench) que permiten una percepción de calidad más detallada y localizada mediante tareas de descripción con referencias espaciales y preguntas de respuesta visual.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

El artículo presenta DAWN-FM, un método de Flow Matching que integra incrustaciones de datos y ruido para resolver problemas inversos mal planteados con mayor robustez y cuantificación de incertidumbre mediante la generación de múltiples soluciones plausibles.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

El artículo presenta FiLo++, un método de detección y localización de anomalías en escenarios de cero o pocos ejemplos que mejora la precisión mediante descripciones de texto granulares fusionadas generadas por modelos de lenguaje y una localización deformable que integra Grounding DINO con interacción multimodal multiescala.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Este estudio demuestra que el uso de inferencia generativa profunda sobre mapas de perfusión computados a partir de angiografías por tomografía computarizada (CTA) permite localizar con alta fidelidad anatómica los sustratos neurales de los déficits en el ictus isquémico agudo, ofreciendo una herramienta valiosa para la fenotipificación clínica y científica sin necesidad de conocer las lesiones parenquimatosas.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Este trabajo demuestra que, aunque CLIP falla en la alineación cruzada de atributos y objetos, la información de unión ya está codificada en sus representaciones unimodales y puede recuperarse eficazmente mediante una transformación lineal simple sin necesidad de reentrenar el modelo.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

El artículo presenta WorldSense, el primer benchmark diseñado para evaluar la comprensión multimodal de video en escenarios reales mediante la integración sinérgica de audio, video y texto, revelando a través de sus rigurosas anotaciones y diversas tareas que los modelos actuales aún enfrentan desafíos significativos en este dominio.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

El artículo demuestra que menos del 1% de los parámetros de los modelos de difusión, ubicados exclusivamente en sus capas de atención, son responsables de la generación de texto, lo que permite optimizar la eficiencia, mejorar la capacidad de generación mediante fine-tuning selectivo, editar contenido textual y prevenir la generación de texto tóxico de manera costo-efectiva en diversas arquitecturas.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Este artículo propone un marco de adaptación robusto para modelos multimodales grandes que mejora la detección de memes odiosos, logrando un rendimiento superior al estado del arte, una mayor generalización entre dominios y una mejor interpretabilidad en comparación con métodos existentes.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

El artículo presenta "Jumbo", un token global ancho y eficiente que acelera los Vision Transformers (ViTs) sin sacrificar su generalidad ni precisión, superando a los modelos ViT existentes y a arquitecturas no-ViT especializadas en diversas tareas como clasificación, segmentación y adaptación en tiempo de prueba.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Este trabajo presenta MemeIntel, un enfoque que introduce el primer dataset a gran escala con explicaciones para memes propagandísticos y de odio, y propone un método de optimización multi-etapa que mejora significativamente la detección y la generación de justificaciones en comparación con el estado del arte.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

El artículo presenta OpenFly, una plataforma integral para la navegación aérea visión-idioma que incluye un motor de simulación avanzado, una herramienta automatizada para la recolección de datos, un conjunto de datos a gran escala con 100.000 trayectorias y un agente especializado, todo ello diseñado para abordar la falta de investigación y benchmarks en este dominio.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

El paper presenta LLaVE, un marco de aprendizaje contrastivo ponderado por la dificultad que entrena modelos de incrustación multimodal capaces de superar el estado del arte en múltiples tareas de recuperación y agrupamiento, logrando un rendimiento superior con modelos más pequeños y demostrando una fuerte generalización cero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

El artículo presenta Vision-R1, un modelo de lenguaje multimodal que mejora las capacidades de razonamiento mediante el aprendizaje por refuerzo, utilizando un conjunto de datos de cadena de pensamiento generado automáticamente y una estrategia de supresión progresiva del pensamiento para alcanzar un rendimiento competitivo en benchmarks matemáticos multimodales.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

El artículo presenta SemHiTok, un tokenizador de imágenes unificado que utiliza un código jerárquico guiado semánticamente para lograr un equilibrio óptimo entre la comprensión multimodal y la generación de imágenes al decoupling la estructura y el entrenamiento de las características semánticas y de píxeles.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← Anterior Siguiente →