cs.CV artículos | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Este artículo presenta ICBench, un nuevo benchmark para diagnosticar la "ceguera lingüística" en modelos VLA que priorizan la visión sobre las instrucciones, y propone IGAR, un mecanismo de recalibración de atención sin entrenamiento que restaura la alineación lingüística y mejora la fiabilidad de los robots ante instrucciones contradictorias.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

El artículo presenta RepKAN, una arquitectura innovadora que combina la eficiencia de las CNN con el poder de representación no lineal de las KAN para lograr una clasificación de imágenes de teledetección interpretable y de alto rendimiento.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

El artículo presenta EffectMaker, un marco unificado de razonamiento y generación que, combinando un modelo de lenguaje multimodal con un transformador de difusión y un nuevo conjunto de datos masivo, permite la creación personalizada de efectos visuales de alta calidad sin necesidad de ajuste fino específico por efecto.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Este artículo presenta MOSIV, un nuevo marco que identifica parámetros de materiales continuos para múltiples objetos en videos mediante un simulador diferenciable y objetivos geométricos, superando a los métodos anteriores en precisión y fidelidad de simulación a largo plazo.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion es un marco de dos etapas que mejora el razonamiento espacial multi-vista en modelos de visión-idioma mediante una pre-alineación deliberada de relaciones espaciales entre vistas y un razonamiento guiado por preguntas, logrando un rendimiento superior en benchmarks como MMSI-Bench.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

El artículo presenta StruVis, un marco innovador que mejora la generación de imágenes a partir de texto mediante el razonamiento basado en representaciones visuales estructuradas en formato textual, superando las limitaciones de los enfoques existentes al ofrecer una guía visual eficiente y agnóstica al generador.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

El artículo presenta Occlusion-Aware SORT (OA-SORT), un marco de seguimiento multiobjeto libre de entrenamiento y fácil de integrar que aborda la confusión posicional causada por oclusiones parciales mediante módulos específicos para analizar el estado de oclusión y estabilizar las estimaciones, logrando mejoras significativas en diversos conjuntos de datos.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Este trabajo aborda la complejidad computacional de los hipercolumnas densos mediante muestreo estratificado y aprendizaje por conjuntos, demostrando que un clasificador de regresión logística simple supera significativamente a la red U-Net en la segmentación de tumores cerebrales con muy pocos datos de entrenamiento.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

El artículo presenta FontUse, un enfoque centrado en datos que mejora la generación de tipografía en imágenes mediante un conjunto de datos a gran escala con anotaciones automáticas que vinculan estilos tipográficos y casos de uso, permitiendo a los modelos existentes generar textos más fieles a las instrucciones sin modificaciones arquitectónicas.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

El artículo presenta GvU, un marco de aprendizaje por refuerzo auto-supervisado que utiliza la capacidad de comprensión interna de los modelos multimodales unificados como recompensa intrínseca para cerrar la brecha entre su comprensión visual y su generación de imágenes.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

El artículo presenta GenHOI, una ligera mejora para modelos de generación de video preentrenados que utiliza la inyección de objetos equilibrada temporalmente y selectiva espacialmente para lograr interacciones mano-objeto físicamente plausibles y consistentes en escenas complejas del mundo real.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

El artículo presenta Curious-VLA, un marco de dos etapas que supera las limitaciones de políticas estrechas en los modelos VLA de conducción mediante la expansión de trayectorias factibles y un muestreo adaptativo, logrando así resultados de vanguardia en el benchmark Navsim al desbloquear el potencial exploratorio del aprendizaje por refuerzo.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Este estudio analiza las activaciones intermedias de modelos visión-lenguaje ligeros para identificar que sus fallos en escenarios de conducción autónoma se deben tanto a la falta de codificación lineal de ciertos conceptos visuales (fallo perceptual) como a la incapacidad de alinear la información visual presente con la semántica lingüística (fallo cognitivo), revelando además que la distancia del objeto degrada rápidamente la separabilidad de estos conceptos.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

El artículo presenta TempoSyncDiff, un marco de difusión latente basado en destilación que genera cabezas parlantes impulsadas por audio con baja latencia y alta consistencia temporal, mitigando problemas como el parpadeo y la deriva de identidad mediante un enfoque maestro-alumno y condicionamiento basado en visemas.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Este trabajo presenta un pipeline que transforma registros históricos omnidireccionales de RGB y LiDAR en inicializaciones robustas para la representación 3D mediante Gaussian Splatting, superando desafíos de distorsión y sobrecarga computacional mediante conversión a cubemap, muestreo estratificado y registro global para generar gemelos digitales de alta fidelidad.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Este artículo propone la tarea de generación de rostros parlantes emocionalmente continuos (EC-TFG) y presenta el modelo TIE-TFG, que utiliza modelado de fluctuación emocional temporalmente intensiva para sintetizar videos realistas donde las expresiones faciales cambian de manera fluida y natural en sincronía con un texto y una descripción emocional variable.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Este artículo propone "Lyapunov Probes", un método basado en la teoría de estabilidad de sistemas dinámicos que utiliza redes ligeras entrenadas con restricciones de derivadas para detectar alucinaciones en modelos de lenguaje grandes identificando las regiones inestables donde estas suelen ocurrir.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight es el primer modelo de lenguaje multimodal dedicado a la comprensión de escenas en 3D que supera las limitaciones de los enfoques actuales al utilizar mapas de profundidad monocromáticos, un nuevo conjunto de datos instruido por IA y un codificador ViT modificado para mejorar significativamente el razonamiento espacial y la percepción de profundidad.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Este artículo propone un método de compresión de video neuronal que incorpora ruido de incentivo positivo para reutilizar cambios temporales de corto plazo, logrando una reducción del 73% en la tasa de bits frente a modelos generales mientras se mantiene la fidelidad a nivel de píxel en escenas estáticas.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

El artículo presenta FedARKS, un nuevo marco de aprendizaje federado para la reidentificación de personas que supera las limitaciones de los métodos actuales mediante la selección e integración de conocimiento robusto y discriminativo, permitiendo capturar detalles locales invariantes al dominio y ponderar la contribución de los clientes según su calidad para mejorar la generalización y proteger la privacidad.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Anterior Siguiente →