Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Este artículo presenta IB-IUMAD, un marco novedoso de detección de anomalías multimodales incremental que aborda el olvido catastrófico mediante un decodificador Mamba y un módulo de cuello de botella de información para eliminar características espurias y redundantes, mejorando así el rendimiento en la detección de anomalías unificadas.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

El artículo presenta SEP-YOLO, un marco innovador que integra un mecanismo colaborativo de doble dominio y anotaciones de alta calidad para el dataset Trans10K, logrando un rendimiento superior en la segmentación de instancias de objetos transparentes al superar las limitaciones de los métodos existentes mediante la mejora de detalles en el dominio de la frecuencia y el refinamiento espacial multiescala.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Este artículo presenta M3IRT, un marco basado en la teoría de respuesta al ítem que descompone la capacidad y la dificultad en componentes unimodales y cruzados para identificar y priorizar preguntas genuinamente multimodales, permitiendo así evaluar de manera más fiable y eficiente el razonamiento cruzado de los modelos de lenguaje multimodal.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

El artículo presenta VisionCreator, un modelo agente nativo de generación visual que integra comprensión, pensamiento, planificación y creación mediante un marco de aprendizaje integral, datos especializados y técnicas de entrenamiento avanzadas para superar las limitaciones de los modelos existentes en tareas creativas complejas.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

El artículo presenta ShareVerse, un marco de generación de video que utiliza un modelo preentrenado con mecanismos de atención cruzada y una estrategia de concatenación espacial para lograr una modelación consistente de un mundo compartido entre múltiples agentes, respaldado por un nuevo conjunto de datos de simulación CARLA con vistas múltiples y trayectorias interactivas.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Los autores presentan GTDoctor, un modelo de aprendizaje profundo visual-lingüístico, y su sistema clínico GTDiagnosis, que mejoran significativamente la precisión, la consistencia y la velocidad del diagnóstico patológico de las enfermedades trofoblásticas gestacionales al ofrecer segmentación de lesiones, conclusiones diagnósticas y análisis personalizados.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

El artículo presenta MiM-DiT, un marco unificado de restauración de imágenes que combina una arquitectura de doble nivel de Mezcla de Expertos (MoE) con un modelo de difusión preentrenado para adaptar dinámicamente estrategias de restauración a diversos tipos de degradación y variaciones intraclase, logrando un rendimiento superior al estado del arte en múltiples tareas.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

El artículo presenta CoR-Painter, un marco innovador que supera las limitaciones de los métodos actuales de generación de imágenes autoregresiva al introducir un razonamiento con restricciones que primero deduce "cómo" estructurar la imagen mediante reglas espaciales y composicionales antes de definir "qué" dibujar, logrando así un rendimiento superior en la coherencia espacial y la calidad visual.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Este artículo presenta la Red de Mejora de Dominio Espacial y Frecuencial (SFDE), una arquitectura ligera de tres ramas que combina representaciones espaciales y de frecuencia para superar los desafíos de la geo-localización entre vistas cruzadas, logrando un rendimiento competitivo y superior al estado del arte mediante la alineación de contextos semánticos, estructuras geométricas y estabilidad estadística.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Este artículo presenta RSHBench, un protocolo de evaluación para diagnosticar alucinaciones en modelos de lenguaje multimodal aplicados a teledetección, y propone RADAR, un método de inferencia sin entrenamiento que utiliza la atención intrínseca para mejorar la localización y el razonamiento local, reduciendo así significativamente las alucinaciones factuales y lógicas.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

El artículo presenta HiLoRA, un marco de adaptación jerárquica de bajo rango que mejora el aprendizaje federado personalizado en Vision Transformers mediante la organización de adaptadores en tres niveles (raíz, clúster y hoja) y un mecanismo de agrupación adaptativa basado en la similitud de subespacios para capturar eficazmente conocimientos globales, de subgrupos y específicos de cada cliente.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

El artículo presenta UNICORN, un nuevo benchmark público y unificado que evalúa modelos fundamentales médicos mediante un protocolo estandarizado de adaptación con pocos ejemplos, integrando datos de más de 2.400 pacientes en múltiples modalidades de imagen y regiones anatómicas para permitir comparaciones directas y reproducibles de rendimiento.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Este artículo presenta un corpus sintético y un conjunto de datos reales para evaluar modelos de lenguaje visual en la transcripción de ediciones críticas del griego antiguo, demostrando que, aunque los enfoques *zero-shot* tienen limitaciones, el modelo Qwen3VL-8B fine-tuneado alcanza un rendimiento de vanguardia con una tasa de error de caracteres del 1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs