ReMoT: Reinforcement Learning with Motion Contrast Triplets

El artículo presenta ReMoT, un paradigma de entrenamiento unificado que combina un marco automático para generar un gran conjunto de datos de tripletes de contraste de movimiento (ReMoT-16K) con la optimización de políticas relativas grupales (GRPO), logrando un rendimiento superior en la consistencia espacio-temporal de los modelos de lenguaje visuales y estableciendo un nuevo estándar en la discriminación de atributos de movimiento.

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Este trabajo presenta un sistema de imagen de alto rango dinámico (HDR) que integra de forma co-diseñada una cámara con exposición espacialmente variable (SVE) y un sensor de eventos en una configuración asimétrica, utilizando un marco de alineación cruzada y una red de reconstrucción para superar las limitaciones de sobreexposición y mejorar la recuperación de brillos y la fidelidad de los bordes en entornos de iluminación extrema.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Este trabajo presenta FEWTRANS, un benchmark integral con un protocolo de evaluación riguroso que revela que la elección del modelo preentrenado y el ajuste fino completo son más determinantes para el aprendizaje de transferencia con pocos ejemplos que los métodos de adaptación sofisticados, mientras también cuantifica el colapso de rendimiento de los modelos multimodales en dominios especializados.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

El artículo presenta U-VLM, un modelo jerárquico de visión y lenguaje que mejora la generación de informes radiológicos en imágenes 3D mediante un entrenamiento progresivo y la inyección de características visuales en múltiples capas, logrando un rendimiento superior al estado del arte con un decodificador pequeño sin necesidad de grandes modelos de lenguaje preentrenados.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Este artículo presenta un marco probabilístico y una evaluación empírica de 144.000 ejemplos físicos adversarios para cuantificar cómo las manipulaciones de boletas mediante ataques de aprendizaje automático podrían alterar los resultados de las elecciones en EE. UU., revelando además una brecha crítica entre la efectividad de estos ataques en entornos digitales y físicos.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE es un marco de refinamiento evolutivo sin entrenamiento que mejora la alineación texto-imagen mediante una escala de prueba adaptativa y basada en requisitos, optimizando el esfuerzo computacional y reduciendo significativamente el número de muestras y llamadas a modelos de lenguaje visuales necesarios para lograr resultados de vanguardia.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

El artículo presenta ArtiFixer, un método de dos etapas que utiliza un modelo generativo bidireccional entrenado con una estrategia de mezcla de opacidad y un modelo autoregresivo distilado para superar las limitaciones de escalabilidad y calidad en la reconstrucción 3D, logrando así una síntesis de vistas novedosas superior a los métodos existentes en áreas no observadas.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

El artículo presenta COG, un marco no supervisado para la estimación de la pose 6DoF de objetos novedosos que mejora la robustez al formular la correspondencia geométrica como un problema de transporte óptimo consciente de la confianza, integrando priores semánticos para lograr un rendimiento comparable o superior a los métodos supervisados.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Este estudio presenta HiClass, un marco de clasificación jerárquica basado en aprendizaje de instancias múltiples que mejora el análisis de imágenes de patología de diapositivas completas mediante la integración bidireccional de características y funciones de pérdida personalizadas para optimizar simultáneamente la clasificación de categorías gruesas y finas.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabajo introduce la herramienta EmbedLens para revelar que los tokens visuales en los modelos multimodales presentan una marcada esparsidad semántica, donde solo un subconjunto "vivo" contiene información significativa, lo que demuestra que la mayoría de las computaciones visuales internas son redundantes y que la inyección directa en capas intermedias del LLM es suficiente para tareas complejas, permitiendo así arquitecturas más eficientes mediante la poda selectiva y la reducción de cálculos.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

El artículo presenta MLLM-4D, un marco integral que supera las limitaciones actuales de los modelos de lenguaje multimodal mediante la creación de nuevos conjuntos de datos y una estrategia de entrenamiento post-SFT con GRPO, permitiendo que estos modelos logren un razonamiento y comprensión espaciotemporal de vanguardia a partir únicamente de entradas visuales 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

El artículo presenta Mesh-Pro, un marco de aprendizaje por refuerzo asíncrono que utiliza la optimización de preferencias de ranking guiada por ventaja (ARPO) junto con una tokenización de malla diagonalmente consciente y una recompensa basada en rayos para generar mallas cuadrangulares de estilo artístico con mayor eficiencia y calidad que los métodos existentes.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs