cs.CV artículos | Gist.Science

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Este trabajo presenta un método mejorado para la estilización de escenas 3D que garantiza consistencia visual y de estilo entre múltiples vistas mediante un mecanismo de atención compartido basado en una referencia, y permite el control regional de estilos mediante una nueva función de pérdida basada en la distancia de Wasserstein.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

El artículo presenta LADB, un marco semisupervisado que utiliza puentes de difusión alineados en un espacio latente compartido para lograr una traducción de dominio de alta calidad y controlable entre datos parcialmente emparejados, superando las limitaciones de los métodos no emparejados y reduciendo la necesidad de grandes conjuntos de datos anotados.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

El artículo presenta TrueSkin, un dataset de 7299 imágenes que aborda los sesgos en el reconocimiento y generación de tonos de piel, demostrando que su uso mejora significativamente la precisión de los modelos existentes y fomenta la equidad en estas tareas.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

El artículo presenta BWCache, un método libre de entrenamiento que acelera la generación de video mediante Transformers de Difusión al reutilizar dinámicamente características de bloques redundantes basándose en su similitud, logrando hasta un 6x de velocidad sin comprometer la calidad visual.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

El artículo presenta Brain-HGCN, un marco de aprendizaje profundo basado en geometría hiperbólica que modela con alta fidelidad la jerarquía de las redes funcionales cerebrales mediante el modelo de Lorentz y mecanismos de atención con signo, logrando un rendimiento superior en la clasificación de trastornos psiquiátricos frente a los métodos euclidianos tradicionales.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Este trabajo presenta I2S, un marco ligero y en tiempo real que identifica usuarios de forma segura en entornos de realidad aumentada analizando poses de manos en 3D durante interacciones con objetos, logrando una precisión del 97,52% mediante el uso de características espaciales, cinemáticas y un nuevo descriptor llamado IHSE.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Este trabajo presenta GeoProto, un método de reconocimiento fino interpretable que mejora la coincidencia de prototipos al modelar la geometría intrínseca de las características visuales mediante mapas de difusión y una interpolación de Nyström diferenciable, superando así las limitaciones de las distancias euclidianas tradicionales.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

El artículo presenta SHINE, un marco de trabajo sin entrenamiento que aprovecha los priores físicos y de resolución de modelos de difusión modernos como FLUX para lograr composiciones de imágenes físicamente plausibles y de alta fidelidad, complementado con la introducción del nuevo benchmark ComplexCompo para evaluar condiciones complejas de iluminación y reflejos.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

El artículo presenta QuadGPT, el primer marco autoregresivo que genera mallas cuadrangulares nativas de extremo a extremo mediante tokenización unificada y afinamiento con aprendizaje por refuerzo, superando significativamente a los métodos tradicionales de conversión de triángulos en cuadriláteros tanto en precisión geométrica como en calidad topológica.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

DistillKac es un generador de imágenes rápido y estable que utiliza la ecuación de onda amortiguada y su representación estocástica de Kac para transportar masa de probabilidad a velocidad finita, permitiendo la generación de muestras de alta calidad en muy pocos pasos mediante una destilación de extremo a extremo y una guía libre de clasificadores en el espacio de velocidades.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este trabajo propone un marco de evaluación abierto y escalable para la inteligencia emocional de los Modelos de Lenguaje Multimodal (MLLM) mediante una nueva tarea de juicio de enunciados emocionales y una tubería automatizada, revelando que, aunque estos modelos superan en la interpretación contextual, aún presentan brechas significativas frente a la subjetividad humana.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

El artículo presenta COMPASS, un marco práctico que mejora la cuantificación de incertidumbre para métricas de segmentación médica al realizar la calibración directamente en el espacio de representaciones de las redes neuronales, logrando intervalos de predicción conformal más eficientes y robustos frente a cambios de covariables en comparación con los métodos tradicionales.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

El artículo presenta CircuitSense, un benchmark jerárquico que evalúa la capacidad de los modelos de lenguaje multimodal grandes para comprender circuitos y deriva ecuaciones simbólicas a partir de diagramas técnicos, revelando una brecha crítica entre la percepción visual y el razonamiento matemático en el diseño de ingeniería.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Este trabajo presenta NeuroAdapter, un marco de decodificación visual que condiciona directamente un modelo de difusión latente en representaciones cerebrales para lograr una reconstrucción de imágenes competitiva y transparente, complementado por el marco interpretativo IBBI que analiza cómo las áreas corticales influyen en el proceso generativo.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

El artículo presenta DiffInk, un marco innovador basado en transformadores de difusión latente que, mediante el uso de un VAE con regularización dual (InkVAE) y un modelo generativo (InkDiT), logra la primera generación eficiente y de alta fidelidad de líneas completas de escritura a mano en línea, disociando con precisión el contenido de los glifos del estilo del escritor.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

El artículo presenta SMART-R1, un nuevo paradigma de ajuste fino por refuerzo inspirado en R1 que, mediante una optimización orientada a métricas y una estrategia de entrenamiento iterativa, logra el estado del arte en la simulación de tráfico multiagente al alcanzar la primera posición en el desafío WOSAC con una puntuación de realismo de 0.7858.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

El artículo presenta EditReward, un modelo de recompensa de código abierto alineado con preferencias humanas y entrenado en un nuevo conjunto de datos de más de 200.000 pares, que supera a los modelos existentes en benchmarks de edición de imágenes y permite la selección de datos de alta calidad para entrenar modelos como Step1X-Edit.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos es un marco innovador de un solo paso para la transferencia de estilo 3D que genera escenas gaussianas estilizadas y coherentes desde imágenes sin pose, utilizando una arquitectura Transformer con pérdidas de estilo 3D para lograr resultados de alta calidad sin optimización por escena.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artículo presenta C $^3$ B, un nuevo benchmark multilingüe y multitarea basado en cómics diseñado para evaluar y desafiar las capacidades de conciencia cultural de los Modelos de Lenguaje Multimodales (MLLM) mediante tareas de dificultad progresiva que revelan una brecha significativa entre el rendimiento de la IA y el humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

El artículo presenta LVTINO, un solucionador inverso cero-shot para la restauración de video de alta definición que utiliza Consistencia de Video (VCMs) para lograr reconstrucciones temporalmente coherentes y de alta calidad con alta eficiencia computacional, superando a los métodos anteriores basados en modelos de difusión de imágenes aplicados fotograma a fotograma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

← Anterior Siguiente →

cs.CV