cs.CV artículos | Gist.Science

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

El artículo presenta GroundCount, un marco que mejora la precisión del conteo en modelos de visión y lenguaje al integrar detección de objetos basada en CNN para mitigar las alucinaciones espaciales, logrando mejoras significativas en la mayoría de las arquitecturas evaluadas mediante una estrategia de anclaje simbólico explícito.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Este trabajo presenta el Conjunto de Datos de Fidelidad de Color (CFD) y la Métrica de Fidelidad de Color (CFM) para evaluar objetivamente la autenticidad cromática en la generación de imágenes, junto con un método de refinamiento sin entrenamiento (CFR) que mejora la fidelidad de los colores en modelos de texto a imagen.

Zhengyao Fang, Zexi Jia, Yijia Zhong, Pengcheng Luo, Jinchao Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-12💻 cs

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Esta investigación interdisciplinaria demuestra que los Modelos de Lenguaje Visuales predicen el estilo artístico basándose en conceptos visualmente coherentes y semánticamente significativos que, en un 90% de los casos, son juzgados como relevantes por historiadores del arte, aunque a veces logran aciertos mediante interpretaciones formales de conceptos que estos expertos considerarían irrelevantes.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

El artículo presenta DynVLA, un modelo de VLA para conducción autónoma que introduce el paradigma "Dynamics CoT" mediante un tokenizador de dinámicas que comprime y decodifica la evolución del mundo en representaciones compactas antes de generar acciones, logrando así una toma de decisiones más informada y físicamente fundamentada que supera a los métodos tradicionales de razonamiento textual y visual.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan2026-03-12💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

El paper presenta V2M-Zero, un enfoque de generación de música a partir de video sin pares de datos que logra una alineación temporal precisa al extraer y transferir estructuras de cambio temporal independientes dentro de cada modalidad mediante curvas de eventos, superando significativamente a los métodos basados en datos pareados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Agentar-Fin-OCR

El artículo presenta Agentar-Fin-OCR, un sistema de análisis de documentos financieros que transforma PDFs de gran longitud en salidas estructuradas y auditables mediante algoritmos de consolidación de contenido entre páginas y aprendizaje curricular adaptativo, acompañado del lanzamiento de FinDocBench, un nuevo benchmark especializado para evaluar el rendimiento en este dominio.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang2026-03-12💻 cs

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

El artículo presenta NeFTY, un marco de física diferenciable que reconstruye cuantitativamente propiedades materiales en 3D y localiza defectos subsuperficiales mediante la parametrización de un campo de difusividad continuo optimizado con un solver numérico riguroso, superando las limitaciones de las aproximaciones tradicionales y las redes neuronales informadas por física en escenarios de difusión transitoria.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

El artículo presenta LiTo, un nuevo enfoque que utiliza la tokenización de campos de luz superficiales para crear una representación latente 3D unificada que modela simultáneamente la geometría y el aspecto dependiente del punto de vista, permitiendo la generación de objetos 3D con efectos realistas como brillos especulares y reflejos de Fresnel.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

El artículo presenta COMIC, un sistema automatizado de IA que genera videos de comedia tipo sketch mediante una población de agentes inspirados en roles de producción y críticos de LLM alineados con preferencias reales de audiencia, logrando resultados de calidad profesional y rendimiento de vanguardia en la generación de video.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

Image Captioning via Compact Bidirectional Architecture

Este artículo presenta un modelo compacto bidireccional de Transformer para la descripción de imágenes que integra flujos de izquierda a derecha y de derecha a izquierda en una arquitectura paralela, logrando resultados de vanguardia en el conjunto de datos MSCOCO mediante estrategias de ensamblaje a nivel de oración y entrenamiento auto-crítico.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng Wang2026-03-11💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

El artículo presenta SDR-GAIN, un marco de aprendizaje adversarial auto-supervisado en tiempo real que completa la pose de peatones ocluidos mediante la imputación de coordenadas de keypoints, superando a los métodos existentes en precisión y velocidad de inferencia para la conducción autónoma.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

El artículo presenta PnLCalib, un método de calibración de cámaras para videos deportivos que supera las limitaciones de los enfoques tradicionales mediante una optimización basada en un modelo 3D de campo de fútbol y líneas detectadas, logrando una mayor precisión y robustez en escenarios de transmisión con múltiples vistas y oclusiones.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

El artículo presenta DP-IQA, un método pionero que aprovecha los priores de modelos de difusión preentrenados y una técnica de destilación de conocimiento para lograr un estado del arte en la evaluación ciega de la calidad de imágenes en entornos naturales con alta generalización.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Controllable Dance Generation with Style-Guided Motion Diffusion

El artículo presenta SGMD, un modelo de difusión de movimiento guiado por estilo que integra características musicales y prompts de estilo para generar secuencias de danza realistas, coherentes y controlables mediante mecanismos de enmascaramiento espacio-temporal.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

El artículo presenta TIMotion, un marco eficiente y efectivo para la generación de movimientos entre humanos que mejora el rendimiento mediante la inyección interactiva causal, el escaneo evolutivo de roles y la amplificación de patrones localizados para modelar adecuadamente las secuencias temporales y las interacciones.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu2026-03-11💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew Howard2026-03-11🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

El artículo presenta DRUPI, un método de condensación de datasets que mejora el rendimiento al sintetizar información privilegiada (como etiquetas de características o atención) junto con los datos reducidos, logrando ganancias significativas en diversas tareas de visión por computadora.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng Zhang2026-03-11🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Este artículo propone un método de aprendizaje no supervisado que factoriza las transformaciones de variables latentes en componentes esparsos mediante campos vectoriales rotacionales y potenciales, logrando representaciones disociadas que capturan tanto factores independientes como primitivas de transformación, lo que resulta en un rendimiento superior en verosimilitud de datos y errores de equivarianza aproximada.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Este artículo propone una técnica de compresión de imágenes basada en modelos que utiliza la síntesis de nuevas vistas y la optimización por descenso de gradiente para aprovechar la información previa de la misión, logrando así una compresión superior y robusta para la transmisión en tiempo real de vehículos operados remotamente sin cableado en entornos submarinos.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng Tan2026-03-11⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Este artículo presenta un marco de aprendizaje activo eficiente en presupuesto para modelos visión-idioma que utiliza agrupación guiada por clases y consultas selectivas adaptativas para superar las limitaciones de las estrategias de prompts existentes y lograr mayor precisión con menos datos etiquetados.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul Ok2026-03-11💻 cs

← Anterior Siguiente →