DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

El artículo presenta DivCon, un enfoque de dividir y conquistar que mejora la generación de imágenes texto-a-imagen al desacoplar la predicción de la disposición espacial y la síntesis de objetos en subtasas manejables, permitiendo a modelos de lenguaje ligeros lograr una precisión superior y una mejor calidad perceptual en prompts complejos con múltiples objetos.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Esta encuesta presenta una revisión integral y un benchmark de las tecnologías más avanzadas para la generación y detección de deepfakes, abarcando definiciones de tareas, conjuntos de datos, métricas, cuatro campos representativos (intercambio de rostros, reenactment, generación de rostros parlantes y edición de atributos faciales) y sus desafíos futuros.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Los autores proponen tres nuevos conjuntos de prueba de alta calidad denominados Hadrian, Eclipse y ND-Twins para evaluar la verificación facial en escenarios desafiantes como diferencias en atributos faciales y similitud entre individuos, evitando la degradación artificial de las imágenes y aplicando reglas estrictas para garantizar una evaluación equilibrada y rigurosa.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artículo identifica y explica la etapa de corrupción en el ajuste fino de pocos ejemplos de modelos de difusión, proponiendo el uso de redes neuronales bayesianas para mitigar este fenómeno y mejorar la fidelidad, calidad y diversidad de las imágenes generadas sin incurrir en costos adicionales de inferencia.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este estudio propone un sistema neurosimbólico que reconstruye imágenes mediante primitivas visuales para generar explicaciones estructurales de alto nivel, logrando una mayor precisión y transparencia que las arquitecturas de aprendizaje profundo convencionales en el diagnóstico de anomalías en imágenes histológicas.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

El artículo presenta Prithvi-EO-2.0, un modelo fundacional de observación terrestre de código abierto y múltiples temporalidades que, gracias a su entrenamiento con 4,2 millones de series temporales globales y la colaboración de expertos, supera significativamente a sus predecesores y a otros modelos existentes en diversas tareas geoespaciales.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

El artículo presenta LangSurf, un método que mejora la comprensión de escenas 3D mediante un campo de lenguaje incrustado en superficies que alinea con precisión las características lingüísticas con los objetos, superando a los enfoques anteriores en segmentación semántica abierta y permitiendo tareas avanzadas como la edición y eliminación de instancias.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este trabajo presenta un método que utiliza modelos de visión y lenguaje preentrenados para aprender modelos de mundo simbólicos a partir de demostraciones cortas, permitiendo a los robots generalizar de forma cero-shot y resolver problemas de toma de decisiones a largo plazo en entornos complejos mediante planificación.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artículo presenta un modelo de difusión agnóstico al problema basado en la estimación del máximo a posteriori (MAP) que, al dividir la función de puntuación condicional en un término incondicional preentrenado y un término guiado estimado mediante una nueva metodología, mejora la preservación de estructuras y la coherencia en tareas de procesamiento de imágenes como la superresolución y la inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

El artículo presenta Prompt-SID, un marco de aprendizaje auto-supervisado para la eliminación de ruido en imágenes individuales que preserva los detalles estructurales mediante un modelo de difusión latente para generar prompts estructurales y un mecanismo de repetición de escala para mitigar las diferencias de resolución.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs