cs.CV artículos | Gist.Science

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

El artículo presenta DivCon, un enfoque de dividir y conquistar que mejora la generación de imágenes texto-a-imagen al desacoplar la predicción de la disposición espacial y la síntesis de objetos en subtasas manejables, permitiendo a modelos de lenguaje ligeros lograr una precisión superior y una mejor calidad perceptual en prompts complejos con múltiples objetos.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta encuesta presenta una revisión integral y un benchmark de las tecnologías más avanzadas para la generación y detección de deepfakes, abarcando definiciones de tareas, conjuntos de datos, métricas, cuatro campos representativos (intercambio de rostros, reenactment, generación de rostros parlantes y edición de atributos faciales) y sus desafíos futuros.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Los autores proponen tres nuevos conjuntos de prueba de alta calidad denominados Hadrian, Eclipse y ND-Twins para evaluar la verificación facial en escenarios desafiantes como diferencias en atributos faciales y similitud entre individuos, evitando la degradación artificial de las imágenes y aplicando reglas estrictas para garantizar una evaluación equilibrada y rigurosa.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artículo identifica y explica la etapa de corrupción en el ajuste fino de pocos ejemplos de modelos de difusión, proponiendo el uso de redes neuronales bayesianas para mitigar este fenómeno y mejorar la fidelidad, calidad y diversidad de las imágenes generadas sin incurrir en costos adicionales de inferencia.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

El artículo presenta RDM, un nuevo modelo de difusión recurrente que utiliza flujos normalizadores para generar secuencias largas de movimiento humano alineadas con texto, evitando el costoso proceso de desruido completo de los marcos anteriores y reduciendo significativamente los costos computacionales durante la inferencia.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

El artículo presenta PiVOT, un nuevo mecanismo de visual prompting que aprovecha el modelo fundacional CLIP para generar y refinar dinámicamente indicaciones visuales en línea, mejorando así la capacidad de los rastreadores de objetos genéricos para suprimir distracciones y distinguir el objetivo de su entorno.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

El artículo presenta al Pose Prior Learner (PPL), un método no supervisado que aprende priores categóricos generales de pose para cualquier categoría de objeto mediante un aprendizaje auto-supervisado y una memoria jerárquica, mejorando así la precisión en la estimación de poses incluso en imágenes ocluidas sin requerir anotaciones humanas adicionales.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

El artículo presenta ExpGest, un marco innovador basado en modelos de difusión que utiliza información sincronizada de audio y texto para generar gestos corporales completos, expresivos y controlables, superando las limitaciones de rigidez y falta de contenido semántico de los métodos existentes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este estudio propone un sistema neurosimbólico que reconstruye imágenes mediante primitivas visuales para generar explicaciones estructurales de alto nivel, logrando una mayor precisión y transparencia que las arquitecturas de aprendizaje profundo convencionales en el diagnóstico de anomalías en imágenes histológicas.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Este trabajo propone un marco para modelos de difusión que adapta dinámicamente el proceso de generación a la complejidad de cada muestra, logrando reducir el número de pasos de muestreo sin comprometer la calidad de las imágenes generadas.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

El artículo presenta Prithvi-EO-2.0, un modelo fundacional de observación terrestre de código abierto y múltiples temporalidades que, gracias a su entrenamiento con 4,2 millones de series temporales globales y la colaboración de expertos, supera significativamente a sus predecesores y a otros modelos existentes en diversas tareas geoespaciales.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

El paper presenta iLLaVA, un método que acelera de extremo a extremo los modelos multimodales grandes optimizando conjuntamente el codificador de imágenes y el modelo de lenguaje mediante una estrategia de fusión de tokens que recicla información útil, logrando mejoras significativas en velocidad y eficiencia sin sacrificar la precisión.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

El artículo presenta LangSurf, un método que mejora la comprensión de escenas 3D mediante un campo de lenguaje incrustado en superficies que alinea con precisión las características lingüísticas con los objetos, superando a los enfoques anteriores en segmentación semántica abierta y permitiendo tareas avanzadas como la edición y eliminación de instancias.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este trabajo presenta un método que utiliza modelos de visión y lenguaje preentrenados para aprender modelos de mundo simbólicos a partir de demostraciones cortas, permitiendo a los robots generalizar de forma cero-shot y resolver problemas de toma de decisiones a largo plazo en entornos complejos mediante planificación.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Este artículo propone estrategias de reducción de datos basadas en agrupamiento latente para optimizar la eficiencia de la entrenamiento adversario semi-supervisado (SSAT), logrando una robustez comparable con 5 a 10 veces menos datos no etiquetados y reduciendo el tiempo de ejecución en 3 a 4 veces.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artículo presenta un modelo de difusión agnóstico al problema basado en la estimación del máximo a posteriori (MAP) que, al dividir la función de puntuación condicional en un término incondicional preentrenado y un término guiado estimado mediante una nueva metodología, mejora la preservación de estructuras y la coherencia en tareas de procesamiento de imágenes como la superresolución y la inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

El artículo presenta el control predictivo generativo (GPC), un marco de aprendizaje que combina la clonación de una política difusiva con un modelo de mundo predictivo para sintetizar un planificador en línea que supera consistentemente a la clonación de comportamiento en diversas tareas de manipulación robótica.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

El artículo presenta VL-Nav, un sistema de navegación visión-lenguaje neuro-simbólico que combina razonamiento neuronal con guía simbólica para descomponer tareas complejas y explorar eficientemente entornos desconocidos, logrando altas tasas de éxito en pruebas simuladas y del mundo real.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

El artículo presenta Prompt-SID, un marco de aprendizaje auto-supervisado para la eliminación de ruido en imágenes individuales que preserva los detalles estructurales mediante un modelo de difusión latente para generar prompts estructurales y un mecanismo de repetición de escala para mitigar las diferencias de resolución.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

← Anterior Siguiente →