cs.CV artículos | Gist.Science

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Este estudio presenta el Conjunto de Datos de Basura (GD), un benchmark público de 12.259 imágenes etiquetadas en 10 categorías de residuos domésticos que, tras ser evaluado con modelos de aprendizaje profundo, demuestra un alto rendimiento en la clasificación automática de basura mientras destaca desafíos críticos como el desequilibrio de clases, la complejidad del fondo y las compensaciones ambientales en la selección de modelos.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

El artículo presenta EO-VAE, un autoencoder variacional multi-sensor que utiliza hiperredes dinámicas para codificar y reconstruir combinaciones flexibles de canales en un único modelo, superando a los tokenizadores existentes en fidelidad de reconstrucción y estableciendo una base sólida para la generación latente en observación terrestre.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

El artículo presenta MedXIAOHE, un modelo fundacional médico de visión y lenguaje que logra un rendimiento superior al estado del arte mediante un marco de preentrenamiento continuo consciente de entidades, entrenamiento con aprendizaje por refuerzo y generación de informes con baja alucinación para mejorar el razonamiento diagnóstico y la fiabilidad en aplicaciones clínicas reales.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Este trabajo presenta UniTAF, un marco modular que unifica los modelos de texto-audio y audio-a-rostro para facilitar la transferencia de características internas y mejorar la coherencia entre el habla y las expresiones faciales, validando desde una perspectiva de diseño de sistemas la viabilidad de reutilizar representaciones intermedias para la co-diseño de la expresión vocal y facial.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA es un método que mejora la generación de imágenes personalizadas mediante un ajuste fino con restricción de rango, una codificación guiada por prompts y una fusión de pesos sin entrenamiento, logrando así un mayor desacoplamiento entre contenido y estilo sin necesidad de reentrenamiento adicional.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Este artículo presenta CFE-Bench, un nuevo benchmark multimodal de exámenes universitarios reales en más de 20 áreas STEM que revela que, aunque los modelos de vanguardia como Gemini-3.1-pro-preview alcanzan un 59,69% de precisión, siguen teniendo dificultades para mantener estados intermedios correctos en soluciones de múltiples pasos y tienden a generar razonamientos menos eficientes que las soluciones de los instructores.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

El artículo presenta TraqPoint, un marco de aprendizaje por refuerzo que reformula la detección de puntos clave como un problema de toma de decisiones secuenciales para optimizar directamente la calidad de las trayectorias en secuencias de imágenes, superando así a los métodos actuales que se entrenan únicamente en pares de imágenes.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

El artículo presenta Concept Distillation Sampling (CDS), un marco unificado y sin entrenamiento que permite la edición de imágenes con múltiples conceptos preservando la fidelidad de la identidad y los detalles intrincados mediante la integración de una base de destilación estable y un mecanismo de ponderación dinámica, superando así las limitaciones lingüísticas y de interferencia espacial de los métodos anteriores.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

El artículo presenta Uni-Animator, un marco innovador basado en Diffusion Transformer que unifica la colorización de bocetos en imágenes y videos mediante mecanismos de mejora de referencia visual, refuerzo de detalles físicos y codificación dinámica temporal, logrando así una alta fidelidad de detalle y consistencia temporal en tareas de colorización.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Este trabajo presenta MedMAP, un marco de preentrenamiento consciente de la modalidad que mejora la detección de anomalías en múltiples órganos mediante imágenes de resonancia magnética 3D, respaldado por un nuevo conjunto de datos llamado MedMoM-MRI3D.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

El artículo presenta APPO, un algoritmo de optimización de políticas guiado por atención que mejora la percepción de modelos de razonamiento en video mediante recompensas densas a nivel de token, demostrando que potenciar la percepción es más crítico y rentable que aumentar la capacidad de razonamiento.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Este artículo presenta un enfoque que combina modelos de inteligencia artificial generativa (SAM2, Florence2 y ChatGPT) con una ontología especializada para segmentar y etiquetar tratados históricos de construcción naval de los siglos XVI y XVII, superando así las limitaciones de datos para facilitar la curación y el acceso a estos documentos.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Este artículo presenta Lilium, un nuevo método evolutivo automatizado que mejora la precisión y robustez de la superposición cráneo-facial mediante la modelización explícita de la variabilidad de los tejidos blandos y la optimización de parámetros mediante un algoritmo de evolución diferencial.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

El artículo presenta GLIDE-Reg, un método de registro deformable que optimiza conjuntamente características semánticas globales de modelos fundacionales y descriptores locales para lograr un rendimiento superior y una mayor robustez en tareas de seguimiento de lesiones y diagnóstico de cáncer de pulmón en comparación con los métodos actuales.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

El artículo propone IDER, un enfoque de aprendizaje continuo que utiliza la propiedad de idempotencia para reducir el olvido catastrófico y mejorar la fiabilidad de las predicciones mediante una distilación eficiente que se integra fácilmente con métodos existentes.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

El artículo presenta BornoViT, un modelo Vision Transformer eficiente y ligero con solo 0,65 millones de parámetros, diseñado para clasificar caracteres y dígitos manuscritos en bengalí con una precisión del 95,77% en el conjunto de datos BanglaLekha, superando a los enfoques actuales en términos de eficiencia computacional y adecuación para entornos con recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

El artículo presenta ShiftLUT, un marco innovador para la restauración de imágenes que combina un módulo de desplazamiento espacial aprendible, una arquitectura asimétrica de doble rama y una estrategia de compresión de tablas de búsqueda para lograr el campo receptivo más grande entre los métodos basados en LUT manteniendo una alta eficiencia computacional y de almacenamiento.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Este trabajo presenta un marco de fusión multimodal basado en física y un nuevo conjunto de datos a gran escala para estimar con precisión el peso de residuos comerciales e industriales, superando las limitaciones de los métodos basados únicamente en imágenes mediante la integración de metadatos geométricos y explicaciones interpretables.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

El artículo presenta PreciseCache, un marco plug-and-play que acelera la generación de video sin sacrificar calidad mediante la detección precisa de redundancias mediante dos componentes: LFCache para el ahorro de pasos y BlockCache para el ahorro a nivel de bloques.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

El artículo presenta FlowReg, un marco de ajuste en tiempo de ejecución basado en flujo de emparejamiento para el registro no supervisado de resonancia magnética cardíaca que logra un rendimiento superior al estado del arte con solo dos pasos de inferencia, eliminando la necesidad de modelos preentrenados y etiquetas de segmentación.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

← Anterior Siguiente →