cs.CV artículos | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Este artículo presenta IB-IUMAD, un marco novedoso de detección de anomalías multimodales incremental que aborda el olvido catastrófico mediante un decodificador Mamba y un módulo de cuello de botella de información para eliminar características espurias y redundantes, mejorando así el rendimiento en la detección de anomalías unificadas.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

El artículo presenta SEP-YOLO, un marco innovador que integra un mecanismo colaborativo de doble dominio y anotaciones de alta calidad para el dataset Trans10K, logrando un rendimiento superior en la segmentación de instancias de objetos transparentes al superar las limitaciones de los métodos existentes mediante la mejora de detalles en el dominio de la frecuencia y el refinamiento espacial multiescala.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

El artículo presenta OmniFashion, un marco unificado de visión y lenguaje basado en el nuevo conjunto de datos FashionX, diseñado para superar la fragmentación actual en la inteligencia de moda mediante la integración de múltiples tareas y el diálogo interactivo en un sistema generalista.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Este artículo presenta M3IRT, un marco basado en la teoría de respuesta al ítem que descompone la capacidad y la dificultad en componentes unimodales y cruzados para identificar y priorizar preguntas genuinamente multimodales, permitiendo así evaluar de manera más fiable y eficiente el razonamiento cruzado de los modelos de lenguaje multimodal.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

El paper presenta DREAM, un marco unificado que combina el aprendizaje de representaciones visuales y la generación de imágenes a partir de texto mediante técnicas como el "Masking Warmup" y la "Semantically Aligned Decoding", logrando un rendimiento superior en tareas de comprensión visual y generación sin necesidad de reordenadores externos.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

El artículo presenta VisionCreator, un modelo agente nativo de generación visual que integra comprensión, pensamiento, planificación y creación mediante un marco de aprendizaje integral, datos especializados y técnicas de entrenamiento avanzadas para superar las limitaciones de los modelos existentes en tareas creativas complejas.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

El artículo presenta ReCo-Diff, un marco de difusión determinista condicionado por residuos que mejora la reconstrucción de CT con vistas escasas al utilizar correcciones continuas basadas en los residuos de observación, logrando mayor precisión y estabilidad que los métodos existentes.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

FiDeSR es un marco de superresolución basado en difusión de un solo paso que logra una reconstrucción de alta fidelidad y preservación de detalles mediante una estrategia de ponderación sensible a los detalles, potenciadores adaptativos de frecuencias y un refinamiento de ruido residual.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

El artículo presenta ShareVerse, un marco de generación de video que utiliza un modelo preentrenado con mecanismos de atención cruzada y una estrategia de concatenación espacial para lograr una modelación consistente de un mundo compartido entre múltiples agentes, respaldado por un nuevo conjunto de datos de simulación CARLA con vistas múltiples y trayectorias interactivas.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Los autores presentan GTDoctor, un modelo de aprendizaje profundo visual-lingüístico, y su sistema clínico GTDiagnosis, que mejoran significativamente la precisión, la consistencia y la velocidad del diagnóstico patológico de las enfermedades trofoblásticas gestacionales al ofrecer segmentación de lesiones, conclusiones diagnósticas y análisis personalizados.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

El artículo presenta MiM-DiT, un marco unificado de restauración de imágenes que combina una arquitectura de doble nivel de Mezcla de Expertos (MoE) con un modelo de difusión preentrenado para adaptar dinámicamente estrategias de restauración a diversos tipos de degradación y variaciones intraclase, logrando un rendimiento superior al estado del arte en múltiples tareas.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

El artículo presenta CoR-Painter, un marco innovador que supera las limitaciones de los métodos actuales de generación de imágenes autoregresiva al introducir un razonamiento con restricciones que primero deduce "cómo" estructurar la imagen mediante reglas espaciales y composicionales antes de definir "qué" dibujar, logrando así un rendimiento superior en la coherencia espacial y la calidad visual.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

El artículo presenta TenExp, un marco de búsqueda de estructuras de descomposición tensorial basado en una mezcla de expertos que permite seleccionar y activar dinámicamente descomposiciones individuales o combinadas de forma no supervisada, superando las limitaciones de los métodos actuales y demostrando su superioridad teórica y experimental.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Este artículo presenta la Red de Mejora de Dominio Espacial y Frecuencial (SFDE), una arquitectura ligera de tres ramas que combina representaciones espaciales y de frecuencia para superar los desafíos de la geo-localización entre vistas cruzadas, logrando un rendimiento competitivo y superior al estado del arte mediante la alineación de contextos semánticos, estructuras geométricas y estabilidad estadística.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Este artículo presenta RSHBench, un protocolo de evaluación para diagnosticar alucinaciones en modelos de lenguaje multimodal aplicados a teledetección, y propone RADAR, un método de inferencia sin entrenamiento que utiliza la atención intrínseca para mejorar la localización y el razonamiento local, reduciendo así significativamente las alucinaciones factuales y lógicas.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

El artículo presenta HiLoRA, un marco de adaptación jerárquica de bajo rango que mejora el aprendizaje federado personalizado en Vision Transformers mediante la organización de adaptadores en tres niveles (raíz, clúster y hoja) y un mecanismo de agrupación adaptativa basado en la similitud de subespacios para capturar eficazmente conocimientos globales, de subgrupos y específicos de cada cliente.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

El artículo presenta UNICORN, un nuevo benchmark público y unificado que evalúa modelos fundamentales médicos mediante un protocolo estandarizado de adaptación con pocos ejemplos, integrando datos de más de 2.400 pacientes en múltiples modalidades de imagen y regiones anatómicas para permitir comparaciones directas y reproducibles de rendimiento.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

El artículo presenta R3GW, un método novedoso que genera una representación de Gaussians 3D relightable para escenas exteriores en entornos naturales, separando el primer plano reflectante del fondo no reflectante para lograr una síntesis de vistas nuevas fotorrealista bajo condiciones de iluminación arbitrarias.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

El artículo presenta NOVA, un marco de edición de video sin pares que combina control semántico disperso mediante fotogramas clave editados por el usuario con síntesis densa de movimiento y textura, eliminando la necesidad de datos apareados mediante una estrategia de entrenamiento con simulación de degradación.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Este artículo presenta un corpus sintético y un conjunto de datos reales para evaluar modelos de lenguaje visual en la transcripción de ediciones críticas del griego antiguo, demostrando que, aunque los enfoques *zero-shot* tienen limitaciones, el modelo Qwen3VL-8B fine-tuneado alcanza un rendimiento de vanguardia con una tasa de error de caracteres del 1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← Anterior Siguiente →