cs.CV artículos | Gist.Science

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

El artículo presenta SHINE, un marco de trabajo sin entrenamiento que aprovecha los priores físicos y de resolución de modelos de difusión modernos como FLUX para lograr composiciones de imágenes físicamente plausibles y de alta fidelidad, complementado con la introducción del nuevo benchmark ComplexCompo para evaluar condiciones complejas de iluminación y reflejos.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

El artículo presenta QuadGPT, el primer marco autoregresivo que genera mallas cuadrangulares nativas de extremo a extremo mediante tokenización unificada y afinamiento con aprendizaje por refuerzo, superando significativamente a los métodos tradicionales de conversión de triángulos en cuadriláteros tanto en precisión geométrica como en calidad topológica.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

DistillKac es un generador de imágenes rápido y estable que utiliza la ecuación de onda amortiguada y su representación estocástica de Kac para transportar masa de probabilidad a velocidad finita, permitiendo la generación de muestras de alta calidad en muy pocos pasos mediante una destilación de extremo a extremo y una guía libre de clasificadores en el espacio de velocidades.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este trabajo propone un marco de evaluación abierto y escalable para la inteligencia emocional de los Modelos de Lenguaje Multimodal (MLLM) mediante una nueva tarea de juicio de enunciados emocionales y una tubería automatizada, revelando que, aunque estos modelos superan en la interpretación contextual, aún presentan brechas significativas frente a la subjetividad humana.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

El artículo presenta COMPASS, un marco práctico que mejora la cuantificación de incertidumbre para métricas de segmentación médica al realizar la calibración directamente en el espacio de representaciones de las redes neuronales, logrando intervalos de predicción conformal más eficientes y robustos frente a cambios de covariables en comparación con los métodos tradicionales.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

El artículo presenta CircuitSense, un benchmark jerárquico que evalúa la capacidad de los modelos de lenguaje multimodal grandes para comprender circuitos y deriva ecuaciones simbólicas a partir de diagramas técnicos, revelando una brecha crítica entre la percepción visual y el razonamiento matemático en el diseño de ingeniería.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Este trabajo presenta NeuroAdapter, un marco de decodificación visual que condiciona directamente un modelo de difusión latente en representaciones cerebrales para lograr una reconstrucción de imágenes competitiva y transparente, complementado por el marco interpretativo IBBI que analiza cómo las áreas corticales influyen en el proceso generativo.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

El artículo presenta DiffInk, un marco innovador basado en transformadores de difusión latente que, mediante el uso de un VAE con regularización dual (InkVAE) y un modelo generativo (InkDiT), logra la primera generación eficiente y de alta fidelidad de líneas completas de escritura a mano en línea, disociando con precisión el contenido de los glifos del estilo del escritor.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

El artículo presenta SMART-R1, un nuevo paradigma de ajuste fino por refuerzo inspirado en R1 que, mediante una optimización orientada a métricas y una estrategia de entrenamiento iterativa, logra el estado del arte en la simulación de tráfico multiagente al alcanzar la primera posición en el desafío WOSAC con una puntuación de realismo de 0.7858.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

El artículo presenta EditReward, un modelo de recompensa de código abierto alineado con preferencias humanas y entrenado en un nuevo conjunto de datos de más de 200.000 pares, que supera a los modelos existentes en benchmarks de edición de imágenes y permite la selección de datos de alta calidad para entrenar modelos como Step1X-Edit.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos es un marco innovador de un solo paso para la transferencia de estilo 3D que genera escenas gaussianas estilizadas y coherentes desde imágenes sin pose, utilizando una arquitectura Transformer con pérdidas de estilo 3D para lograr resultados de alta calidad sin optimización por escena.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artículo presenta C $^3$ B, un nuevo benchmark multilingüe y multitarea basado en cómics diseñado para evaluar y desafiar las capacidades de conciencia cultural de los Modelos de Lenguaje Multimodales (MLLM) mediante tareas de dificultad progresiva que revelan una brecha significativa entre el rendimiento de la IA y el humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

El artículo presenta LVTINO, un solucionador inverso cero-shot para la restauración de video de alta definición que utiliza Consistencia de Video (VCMs) para lograr reconstrucciones temporalmente coherentes y de alta calidad con alta eficiencia computacional, superando a los métodos anteriores basados en modelos de difusión de imágenes aplicados fotograma a fotograma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

DragFlow es un marco innovador que aprovecha los potentes priors de modelos DiT como FLUX mediante una supervisión basada en regiones y adaptadores de personalización, superando las limitaciones de las ediciones por puntos y estableciendo un nuevo estado del arte en la edición de imágenes por arrastre.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

El artículo presenta ChainMPQ, un método sin entrenamiento que reduce las alucinaciones de relación en modelos de visión y lenguaje mediante una cadena intercalada de imágenes y texto guiada por preguntas de múltiples perspectivas que aprovechan memorias acumuladas para mejorar el razonamiento relacional.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

El artículo presenta el VA-Adapter, un adaptador de visión-acción que integra modelos fundacionales de ultrasonido con la comprensión de estructuras 3D individuales para guiar eficazmente la colocación de la sonda en ecocardiografía, superando a modelos existentes con una fracción de los parámetros entrenados.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

El artículo presenta TTOM, un marco sin entrenamiento que mejora la generación de videos compuestos mediante la optimización en tiempo de prueba y un mecanismo de memoria paramétrica para alinear los modelos fundacionales de video con layouts espacio-temporales.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

El artículo presenta "Splat the Net", una nueva representación volumétrica que combina la expresividad de los campos neuronales con la eficiencia del splatting mediante primitivas neuronales que permiten un cálculo exacto y rápido de la integración de rayos, logrando una calidad y velocidad equivalentes a las de 3D Gaussian Splatting pero con una décima parte de primitivas y una sexta parte de parámetros.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

El artículo presenta LinearSR, un marco holístico que supera los desafíos de inestabilidad y eficiencia de la atención lineal en la superresolución de imágenes mediante estrategias innovadoras como el fine-tuning guiado por puntos de inflexión y una arquitectura de expertos mixtos, logrando así un rendimiento perceptual de vanguardia con una eficiencia computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

El artículo presenta PHyCLIP, un modelo que unifica la jerarquía y la composicionalidad en el aprendizaje de representaciones visión-lenguaje mediante un producto $\ell_1$ de factores hiperbólicos, superando a los enfoques de espacio único y mejorando la interpretabilidad en tareas de clasificación y recuperación.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

← Anterior Siguiente →

cs.CV