cs.CV artículos | Gist.Science

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Prefer-DAS es un modelo multitarea adaptable a dominios para la segmentación de microscopía electrónica que supera a los métodos existentes al integrar aprendizaje con prompts dispersos y optimización de preferencias locales (LPO, SLPO y UPO), logrando un rendimiento cercano o superior al de modelos supervisados tanto en modos automáticos como interactivos.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

El artículo presenta Hepato-LLaVA, un modelo de lenguaje multimodal especializado que utiliza un mecanismo de atención Sparse Topo-Pack para analizar imágenes de diapositivas completas de carcinoma hepatocelular, junto con un nuevo conjunto de datos validado por expertos, logrando un rendimiento superior en tareas de diagnóstico y descripción patológica.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artículo presenta un modelo de explicación para la segmentación de imágenes médicas que utiliza el razonamiento causal y el efecto medio de tratamiento (ATE) para cuantificar la influencia de las regiones de entrada y los componentes de la red, demostrando una mayor fidelidad que las técnicas existentes y revelando heterogeneidades en las estrategias de percepción de diversos modelos fundamentales.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

El artículo propone el marco de Cuantización de Color de Conjuntos de Datos (DCQ), una solución unificada que comprime grandes conjuntos de datos visuales reduciendo la redundancia en el espacio de color mediante la preservación de colores semánticamente importantes y detalles estructurales, logrando así un almacenamiento eficiente sin sacrificar el rendimiento del entrenamiento del modelo.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabajo presenta VII, un marco de jailbreaking sin entrenamiento que explota la capacidad de seguir instrucciones visuales en modelos de generación de video a partir de imágenes para inyectar intenciones maliciosas a través de imágenes de referencia seguras, logrando altas tasas de éxito en ataques contra modelos comerciales de última generación.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

HorizonForge es un marco unificado que permite la edición fotorealista y controlada de escenas de conducción mediante la reconstrucción en Gaussian Splats y mallas, facilitando la inserción de vehículos y trayectorias arbitrarias con consistencia temporal y superando a los métodos actuales en fidelidad y preferencia de usuario.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

Los autores proponen un marco unificado basado en mapas de interacción luz-geometría (LGI) y un nuevo conjunto de datos a gran escala para generar sombras y relucir imágenes de manera conjunta, logrando una coherencia física y realismo superiores al integrar la geometría 2.5D con modelos generativos.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

El artículo presenta PhotoAgent, un sistema autónomo de edición fotográfica que utiliza planificación estética explícita y búsqueda en árbol para ejecutar ediciones complejas sin necesidad de instrucciones paso a paso, respaldado por el nuevo benchmark UGC-Edit para su evaluación.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

El artículo presenta OmniGAIA, un nuevo benchmark diseñado para evaluar agentes de inteligencia artificial que integran percepción multimodal (visión, audio y lenguaje) con razonamiento complejo y uso de herramientas, junto con OmniAtlas, un agente fundacional nativo que mejora estas capacidades mediante estrategias de entrenamiento avanzadas para abordar escenarios del mundo real.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

El artículo presenta HELMLAB, un espacio de color analítico de 72 parámetros diseñado para sistemas de diseño de interfaz de usuario que, mediante transformaciones aprendidas y correcciones específicas, logra una mayor precisión perceptual que CIEDE2000 en la medición de distancias de color, garantizando además la invertibilidad y la utilidad práctica para la adaptación de modos claros/oscuros.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

El artículo presenta AgentVista, un nuevo benchmark diseñado para evaluar agentes multimodales generales en escenarios visuales realistas y de alta complejidad que requieren el uso de herramientas híbridas a largo plazo, revelando mediante una evaluación exhaustiva que incluso los modelos más avanzados actuales tienen un rendimiento limitado en estas tareas.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

El artículo presenta V-MORALS, un método que estima regiones de atracción en un espacio latente aprendido utilizando únicamente trayectorias basadas en imágenes, superando así las limitaciones de métodos anteriores que requieren conocimiento completo del estado del sistema.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

El artículo presenta HMKGN, un modelo de red gráfica jerárquica y multiescala con atención guiada por conocimiento que supera a los métodos existentes en la predicción de supervivencia de pacientes mediante el análisis de imágenes de diapositivas completas al modelar eficazmente las relaciones espaciales y las interacciones multiescala dentro de los tejidos tumorales.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

El artículo presenta AoE, un sistema de recolección de datos de bajo costo y escalable que aprovecha los smartphones y la colaboración nube-borde para capturar interacciones humanas egocéntricas en tiempo real, abordando la escasez de datos de alta calidad necesarios para entrenar modelos fundamentales de IA encarnada.

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Este estudio demuestra que, en el contexto de la detección de Parkinson prodromal mediante fMRI con datos extremadamente escasos, la evaluación estricta a nivel de sujeto revela una fuga de información en las divisiones tradicionales por imágenes y destaca que arquitecturas ligeras como MobileNet logran una generalización más fiable que modelos más profundos.

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Este artículo presenta el marco Certainty-Validity (CVS) para diagnosticar sistemas de compromiso discreto, revelando que su límite de rendimiento en datos ambiguos no es un fallo, sino una característica deseable que evita las alucinaciones, y propone optimizar la capacidad del modelo para reconocer sus propios límites en lugar de maximizar la precisión tradicional.

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

Este artículo presenta una herramienta de código abierto que automatiza la detección de errores comunes en conjuntos de datos de sensores para vehículos ferroviarios, garantizando la calidad de los datos de entrenamiento necesarios para sistemas de conducción autónoma y reduciendo significativamente la carga de trabajo manual.

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

Este artículo presenta un marco de bajo costo basado en modelos de visión-idioma y la arquitectura Multimodal Modular Chain of Thoughts (MMCoT) que mejora significativamente la evaluación automática preliminar de Certificados de Desempeño Energético (EPC) en entornos con escasez de datos, logrando una mayor precisión al descomponer la estimación en etapas de razonamiento intermedias.

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

Este estudio presenta VoxelDiffusionCut, un método que utiliza un modelo de difusión basado en voxels para estimar iterativamente la estructura interna de objetos a partir de superficies cortadas y planificar cortes no destructivos, superando las limitaciones de incertidumbre y colapso modal de los modelos generativos convencionales para la extracción precisa de componentes internos.

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

Este artículo presenta la Red de Atención Adaptativa Espacial Multi-escala (MSAAN), una arquitectura de super-resolución de imágenes ligera que combina módulos de atención espacial y agregación multi-escala para lograr un equilibrio superior entre alta fidelidad de reconstrucción y baja complejidad computacional en comparación con los métodos actuales.

Sushi Rao, Jingwei Li2026-03-03💻 cs

← Anterior Siguiente →