GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

El artículo presenta GroundCount, un marco que mejora la precisión del conteo en modelos de visión y lenguaje al integrar detección de objetos basada en CNN para mitigar las alucinaciones espaciales, logrando mejoras significativas en la mayoría de las arquitecturas evaluadas mediante una estrategia de anclaje simbólico explícito.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Este trabajo presenta el Conjunto de Datos de Fidelidad de Color (CFD) y la Métrica de Fidelidad de Color (CFM) para evaluar objetivamente la autenticidad cromática en la generación de imágenes, junto con un método de refinamiento sin entrenamiento (CFR) que mejora la fidelidad de los colores en modelos de texto a imagen.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Esta investigación interdisciplinaria demuestra que los Modelos de Lenguaje Visuales predicen el estilo artístico basándose en conceptos visualmente coherentes y semánticamente significativos que, en un 90% de los casos, son juzgados como relevantes por historiadores del arte, aunque a veces logran aciertos mediante interpretaciones formales de conceptos que estos expertos considerarían irrelevantes.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

El artículo presenta DynVLA, un modelo de VLA para conducción autónoma que introduce el paradigma "Dynamics CoT" mediante un tokenizador de dinámicas que comprime y decodifica la evolución del mundo en representaciones compactas antes de generar acciones, logrando así una toma de decisiones más informada y físicamente fundamentada que supera a los métodos tradicionales de razonamiento textual y visual.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

El artículo presenta Agentar-Fin-OCR, un sistema de análisis de documentos financieros que transforma PDFs de gran longitud en salidas estructuradas y auditables mediante algoritmos de consolidación de contenido entre páginas y aprendizaje curricular adaptativo, acompañado del lanzamiento de FinDocBench, un nuevo benchmark especializado para evaluar el rendimiento en este dominio.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

El artículo presenta NeFTY, un marco de física diferenciable que reconstruye cuantitativamente propiedades materiales en 3D y localiza defectos subsuperficiales mediante la parametrización de un campo de difusividad continuo optimizado con un solver numérico riguroso, superando las limitaciones de las aproximaciones tradicionales y las redes neuronales informadas por física en escenarios de difusión transitoria.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

Image Captioning via Compact Bidirectional Architecture

Este artículo presenta un modelo compacto bidireccional de Transformer para la descripción de imágenes que integra flujos de izquierda a derecha y de derecha a izquierda en una arquitectura paralela, logrando resultados de vanguardia en el conjunto de datos MSCOCO mediante estrategias de ensamblaje a nivel de oración y entrenamiento auto-crítico.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

El artículo presenta TIMotion, un marco eficiente y efectivo para la generación de movimientos entre humanos que mejora el rendimiento mediante la inyección interactiva causal, el escaneo evolutivo de roles y la amplificación de patrones localizados para modelar adecuadamente las secuencias temporales y las interacciones.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

El artículo presenta DRUPI, un método de condensación de datasets que mejora el rendimiento al sintetizar información privilegiada (como etiquetas de características o atención) junto con los datos reducidos, logrando ganancias significativas en diversas tareas de visión por computadora.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artículo propone un método de aprendizaje no supervisado que factoriza las transformaciones de variables latentes en componentes esparsos mediante campos vectoriales rotacionales y potenciales, logrando representaciones disociadas que capturan tanto factores independientes como primitivas de transformación, lo que resulta en un rendimiento superior en verosimilitud de datos y errores de equivarianza aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artículo propone una técnica de compresión de imágenes basada en modelos que utiliza la síntesis de nuevas vistas y la optimización por descenso de gradiente para aprovechar la información previa de la misión, logrando así una compresión superior y robusta para la transmisión en tiempo real de vehículos operados remotamente sin cableado en entornos submarinos.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess