The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Este estudio presenta el Conjunto de Datos de Basura (GD), un benchmark público de 12.259 imágenes etiquetadas en 10 categorías de residuos domésticos que, tras ser evaluado con modelos de aprendizaje profundo, demuestra un alto rendimiento en la clasificación automática de basura mientras destaca desafíos críticos como el desequilibrio de clases, la complejidad del fondo y las compensaciones ambientales en la selección de modelos.

Suman Kunwar2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

El artículo presenta MedXIAOHE, un modelo fundacional médico de visión y lenguaje que logra un rendimiento superior al estado del arte mediante un marco de preentrenamiento continuo consciente de entidades, entrenamiento con aprendizaje por refuerzo y generación de informes con baja alucinación para mejorar el razonamiento diagnóstico y la fiabilidad en aplicaciones clínicas reales.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Este trabajo presenta UniTAF, un marco modular que unifica los modelos de texto-audio y audio-a-rostro para facilitar la transferencia de características internas y mejorar la coherencia entre el habla y las expresiones faciales, validando desde una perspectiva de diseño de sistemas la viabilidad de reutilizar representaciones intermedias para la co-diseño de la expresión vocal y facial.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Este artículo presenta CFE-Bench, un nuevo benchmark multimodal de exámenes universitarios reales en más de 20 áreas STEM que revela que, aunque los modelos de vanguardia como Gemini-3.1-pro-preview alcanzan un 59,69% de precisión, siguen teniendo dificultades para mantener estados intermedios correctos en soluciones de múltiples pasos y tienden a generar razonamientos menos eficientes que las soluciones de los instructores.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

Training-Free Multi-Concept Image Editing

El artículo presenta Concept Distillation Sampling (CDS), un marco unificado y sin entrenamiento que permite la edición de imágenes con múltiples conceptos preservando la fidelidad de la identidad y los detalles intrincados mediante la integración de una base de destilación estable y un mecanismo de ponderación dinámica, superando así las limitaciones lingüísticas y de interferencia espacial de los métodos anteriores.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

El artículo presenta GLIDE-Reg, un método de registro deformable que optimiza conjuntamente características semánticas globales de modelos fundacionales y descriptores locales para lograr un rendimiento superior y una mayor robustez en tareas de seguimiento de lesiones y diagnóstico de cáncer de pulmón en comparación con los métodos actuales.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

El artículo presenta BornoViT, un modelo Vision Transformer eficiente y ligero con solo 0,65 millones de parámetros, diseñado para clasificar caracteres y dígitos manuscritos en bengalí con una precisión del 95,77% en el conjunto de datos BanglaLekha, superando a los enfoques actuales en términos de eficiencia computacional y adecuación para entornos con recursos limitados.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

El artículo presenta ShiftLUT, un marco innovador para la restauración de imágenes que combina un módulo de desplazamiento espacial aprendible, una arquitectura asimétrica de doble rama y una estrategia de compresión de tablas de búsqueda para lograr el campo receptivo más grande entre los métodos basados en LUT manteniendo una alta eficiencia computacional y de almacenamiento.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Este trabajo presenta un marco de fusión multimodal basado en física y un nuevo conjunto de datos a gran escala para estimar con precisión el peso de residuos comerciales e industriales, superando las limitaciones de los métodos basados únicamente en imágenes mediante la integración de metadatos geométricos y explicaciones interpretables.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs