Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Prefer-DAS es un modelo multitarea adaptable a dominios para la segmentación de microscopía electrónica que supera a los métodos existentes al integrar aprendizaje con prompts dispersos y optimización de preferencias locales (LPO, SLPO y UPO), logrando un rendimiento cercano o superior al de modelos supervisados tanto en modos automáticos como interactivos.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

El artículo presenta Hepato-LLaVA, un modelo de lenguaje multimodal especializado que utiliza un mecanismo de atención Sparse Topo-Pack para analizar imágenes de diapositivas completas de carcinoma hepatocelular, junto con un nuevo conjunto de datos validado por expertos, logrando un rendimiento superior en tareas de diagnóstico y descripción patológica.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artículo presenta un modelo de explicación para la segmentación de imágenes médicas que utiliza el razonamiento causal y el efecto medio de tratamiento (ATE) para cuantificar la influencia de las regiones de entrada y los componentes de la red, demostrando una mayor fidelidad que las técnicas existentes y revelando heterogeneidades en las estrategias de percepción de diversos modelos fundamentales.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

El artículo propone el marco de Cuantización de Color de Conjuntos de Datos (DCQ), una solución unificada que comprime grandes conjuntos de datos visuales reduciendo la redundancia en el espacio de color mediante la preservación de colores semánticamente importantes y detalles estructurales, logrando así un almacenamiento eficiente sin sacrificar el rendimiento del entrenamiento del modelo.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabajo presenta VII, un marco de jailbreaking sin entrenamiento que explota la capacidad de seguir instrucciones visuales en modelos de generación de video a partir de imágenes para inyectar intenciones maliciosas a través de imágenes de referencia seguras, logrando altas tasas de éxito en ataques contra modelos comerciales de última generación.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

El artículo presenta HELMLAB, un espacio de color analítico de 72 parámetros diseñado para sistemas de diseño de interfaz de usuario que, mediante transformaciones aprendidas y correcciones específicas, logra una mayor precisión perceptual que CIEDE2000 en la medición de distancias de color, garantizando además la invertibilidad y la utilidad práctica para la adaptación de modos claros/oscuros.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

El artículo presenta AgentVista, un nuevo benchmark diseñado para evaluar agentes multimodales generales en escenarios visuales realistas y de alta complejidad que requieren el uso de herramientas híbridas a largo plazo, revelando mediante una evaluación exhaustiva que incluso los modelos más avanzados actuales tienen un rendimiento limitado en estas tareas.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

El artículo presenta HMKGN, un modelo de red gráfica jerárquica y multiescala con atención guiada por conocimiento que supera a los métodos existentes en la predicción de supervivencia de pacientes mediante el análisis de imágenes de diapositivas completas al modelar eficazmente las relaciones espaciales y las interacciones multiescala dentro de los tejidos tumorales.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Este estudio demuestra que, en el contexto de la detección de Parkinson prodromal mediante fMRI con datos extremadamente escasos, la evaluación estricta a nivel de sujeto revela una fuga de información en las divisiones tradicionales por imágenes y destaca que arquitecturas ligeras como MobileNet logran una generalización más fiable que modelos más profundos.

Naimur Rahman2026-03-03🤖 cs.LG

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

Este artículo presenta un marco de bajo costo basado en modelos de visión-idioma y la arquitectura Multimodal Modular Chain of Thoughts (MMCoT) que mejora significativamente la evaluación automática preliminar de Certificados de Desempeño Energético (EPC) en entornos con escasez de datos, logrando una mayor precisión al descomponer la estimación en etapas de razonamiento intermedias.

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

Este estudio presenta VoxelDiffusionCut, un método que utiliza un modelo de difusión basado en voxels para estimar iterativamente la estructura interna de objetos a partir de superficies cortadas y planificar cortes no destructivos, superando las limitaciones de incertidumbre y colapso modal de los modelos generativos convencionales para la extracción precisa de componentes internos.

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs