Does FLUX Already Know How to Perform Physically Plausible Image Composition?

El artículo presenta SHINE, un marco de trabajo sin entrenamiento que aprovecha los priores físicos y de resolución de modelos de difusión modernos como FLUX para lograr composiciones de imágenes físicamente plausibles y de alta fidelidad, complementado con la introducción del nuevo benchmark ComplexCompo para evaluar condiciones complejas de iluminación y reflejos.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

DistillKac: Few-Step Image Generation via Damped Wave Equations

DistillKac es un generador de imágenes rápido y estable que utiliza la ecuación de onda amortiguada y su representación estocástica de Kac para transportar masa de probabilidad a velocidad finita, permitiendo la generación de muestras de alta calidad en muy pocos pasos mediante una destilación de extremo a extremo y una guía libre de clasificadores en el espacio de velocidades.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este trabajo propone un marco de evaluación abierto y escalable para la inteligencia emocional de los Modelos de Lenguaje Multimodal (MLLM) mediante una nueva tarea de juicio de enunciados emocionales y una tubería automatizada, revelando que, aunque estos modelos superan en la interpretación contextual, aún presentan brechas significativas frente a la subjetividad humana.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

El artículo presenta COMPASS, un marco práctico que mejora la cuantificación de incertidumbre para métricas de segmentación médica al realizar la calibración directamente en el espacio de representaciones de las redes neuronales, logrando intervalos de predicción conformal más eficientes y robustos frente a cambios de covariables en comparación con los métodos tradicionales.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

El artículo presenta CircuitSense, un benchmark jerárquico que evalúa la capacidad de los modelos de lenguaje multimodal grandes para comprender circuitos y deriva ecuaciones simbólicas a partir de diagramas técnicos, revelando una brecha crítica entre la percepción visual y el razonamiento matemático en el diseño de ingeniería.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

El artículo presenta DiffInk, un marco innovador basado en transformadores de difusión latente que, mediante el uso de un VAE con regularización dual (InkVAE) y un modelo generativo (InkDiT), logra la primera generación eficiente y de alta fidelidad de líneas completas de escritura a mano en línea, disociando con precisión el contenido de los glifos del estilo del escritor.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

El artículo presenta LVTINO, un solucionador inverso cero-shot para la restauración de video de alta definición que utiliza Consistencia de Video (VCMs) para lograr reconstrucciones temporalmente coherentes y de alta calidad con alta eficiencia computacional, superando a los métodos anteriores basados en modelos de difusión de imágenes aplicados fotograma a fotograma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

Splat the Net: Radiance Fields with Splattable Neural Primitives

El artículo presenta "Splat the Net", una nueva representación volumétrica que combina la expresividad de los campos neuronales con la eficiencia del splatting mediante primitivas neuronales que permiten un cálculo exacto y rápido de la integración de rayos, logrando una calidad y velocidad equivalentes a las de 3D Gaussian Splatting pero con una décima parte de primitivas y una sexta parte de parámetros.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

El artículo presenta LinearSR, un marco holístico que supera los desafíos de inestabilidad y eficiencia de la atención lineal en la superresolución de imágenes mediante estrategias innovadoras como el fine-tuning guiado por puntos de inflexión y una arquitectura de expertos mixtos, logrando así un rendimiento perceptual de vanguardia con una eficiencia computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

El artículo presenta PHyCLIP, un modelo que unifica la jerarquía y la composicionalidad en el aprendizaje de representaciones visión-lenguaje mediante un producto 1\ell_1 de factores hiperbólicos, superando a los enfoques de espacio único y mejorando la interpretabilidad en tareas de clasificación y recuperación.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG