cs.CV artículos | Gist.Science

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

El paper presenta Uni-CoT, un marco de razonamiento de cadena de pensamiento unificado que combina comprensión y generación de imágenes mediante una estrategia de razonamiento de dos niveles para lograr un razonamiento multimodal coherente y eficiente con resultados de vanguardia en benchmarks de generación y edición de imágenes.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

ImagiDrive es un marco unificado de imaginación y planificación para la conducción autónoma que integra un agente basado en Modelos de Lenguaje Visual con un imaginador de escenas basado en Modelos Mundiales de Conducción, permitiendo refinar iterativamente las decisiones de trayectoria mediante la generación y evaluación de escenarios futuros, lo que demuestra un rendimiento superior en los conjuntos de datos nuScenes y NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

El artículo presenta CineTrans, un marco novedoso que utiliza modelos de difusión enmascarados y un nuevo conjunto de datos (Cine250K) para generar videos coherentes de múltiples planos con transiciones cinematográficas estables, superando las limitaciones de los métodos actuales mediante un mecanismo de control basado en máscaras que funciona sin entrenamiento adicional.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

El artículo presenta MOON, el primer modelo generativo basado en MLLM para el aprendizaje de representaciones de productos en comercio electrónico, que aborda desafíos como el ruido de fondo y la alineación multimodal mediante un módulo MoE guiado y una estrategia de muestreo negativo, logrando un rendimiento competitivo en tareas de comprensión de productos y estableciendo un nuevo benchmark multimodal.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

El artículo presenta NVG, un marco de generación de imágenes que descompone la imagen en una secuencia estructurada de granularidad visual progresiva, desde el diseño global hasta los detalles finos, logrando un rendimiento superior al de VAR en la generación condicional de clases en ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

El artículo presenta ARMed, un nuevo marco de aprendizaje por refuerzo que mitiga el colapso de recompensas semánticas mediante una combinación de ajuste supervisado con cadenas de pensamiento y recompensas adaptativas, logrando así un razonamiento médico abierto más preciso y generalizable en modelos de visión y lenguaje.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Los autores proponen un marco de aprendizaje multimodal desentrelazado que integra histología y transcriptómica mediante la separación de subespacios tumorales y del microambiente, la alineación de señales a múltiples escalas y la distilación de conocimiento, superando así las limitaciones de heterogeneidad y dependencia de datos apareados para mejorar el diagnóstico y pronóstico del cáncer.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

El artículo presenta TADSR, una red de difusión de un solo paso que utiliza codificadores VAE y una función de pérdida VSD conscientes del tiempo para alinear dinámicamente los priores generativos de un modelo preentrenado con diferentes pasos temporales, logrando así un estado del arte en superresolución de imágenes reales con un equilibrio controlable entre fidelidad y realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar es un marco unificado y rápido que utiliza un Transformador de Reconstrucción Gaussiana Grande (LGRT) para reconstruir modelos 3D de alta calidad en segundos a partir de grabaciones diarias diversas, permitiendo una mejora incremental de la calidad sin desperdiciar datos de entrada.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

El artículo propone GACD, un método de inferencia basado en gradientes que mitiga las alucinaciones en modelos multimodales al estimar y suprimir sesgos textuales y visuales espurios sin necesidad de ajuste fino ni modelos auxiliares.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

El artículo presenta RTGMFF, un marco innovador que combina la generación de texto a nivel de regiones de interés (ROI) con la fusión de características multimodales mediante un codificador híbrido y un módulo de alineación semántica para mejorar el diagnóstico de trastornos cerebrales a partir de imágenes fMRI, superando los métodos actuales en las bases de datos ADHD-200 y ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Este trabajo presenta T2I-CoReBench, un nuevo benchmark exhaustivo y complejo diseñado para evaluar las capacidades de composición y razonamiento de los modelos de texto a imagen, revelando que, aunque la composición tiene limitaciones en escenarios densos, el razonamiento sigue siendo un cuello de botella crítico donde todos los modelos actuales fallan al inferir elementos implícitos.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

El artículo presenta UniView, un modelo que mejora la síntesis de nuevas vistas a partir de una sola imagen al unificar características de imágenes de referencia seleccionadas mediante un modelo de lenguaje multimodal y un mecanismo de atención desacoplado, logrando así superar a los métodos actuales en la preservación de detalles y la reducción de distorsiones.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Este trabajo presenta un método mejorado para la estilización de escenas 3D que garantiza consistencia visual y de estilo entre múltiples vistas mediante un mecanismo de atención compartido basado en una referencia, y permite el control regional de estilos mediante una nueva función de pérdida basada en la distancia de Wasserstein.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

El artículo presenta LADB, un marco semisupervisado que utiliza puentes de difusión alineados en un espacio latente compartido para lograr una traducción de dominio de alta calidad y controlable entre datos parcialmente emparejados, superando las limitaciones de los métodos no emparejados y reduciendo la necesidad de grandes conjuntos de datos anotados.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

El artículo presenta TrueSkin, un dataset de 7299 imágenes que aborda los sesgos en el reconocimiento y generación de tonos de piel, demostrando que su uso mejora significativamente la precisión de los modelos existentes y fomenta la equidad en estas tareas.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

El artículo presenta BWCache, un método libre de entrenamiento que acelera la generación de video mediante Transformers de Difusión al reutilizar dinámicamente características de bloques redundantes basándose en su similitud, logrando hasta un 6x de velocidad sin comprometer la calidad visual.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

El artículo presenta Brain-HGCN, un marco de aprendizaje profundo basado en geometría hiperbólica que modela con alta fidelidad la jerarquía de las redes funcionales cerebrales mediante el modelo de Lorentz y mecanismos de atención con signo, logrando un rendimiento superior en la clasificación de trastornos psiquiátricos frente a los métodos euclidianos tradicionales.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Este trabajo presenta I2S, un marco ligero y en tiempo real que identifica usuarios de forma segura en entornos de realidad aumentada analizando poses de manos en 3D durante interacciones con objetos, logrando una precisión del 97,52% mediante el uso de características espaciales, cinemáticas y un nuevo descriptor llamado IHSE.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Este trabajo presenta GeoProto, un método de reconocimiento fino interpretable que mejora la coincidencia de prototipos al modelar la geometría intrínseca de las características visuales mediante mapas de difusión y una interpolación de Nyström diferenciable, superando así las limitaciones de las distancias euclidianas tradicionales.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

← Anterior Siguiente →