cs.CV artículos | Gist.Science

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

El artículo presenta DiffInk, un marco innovador basado en transformadores de difusión latente que, mediante el uso de un VAE con regularización dual (InkVAE) y un modelo generativo (InkDiT), logra la primera generación eficiente y de alta fidelidad de líneas completas de escritura a mano en línea, disociando con precisión el contenido de los glifos del estilo del escritor.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

El artículo presenta SMART-R1, un nuevo paradigma de ajuste fino por refuerzo inspirado en R1 que, mediante una optimización orientada a métricas y una estrategia de entrenamiento iterativa, logra el estado del arte en la simulación de tráfico multiagente al alcanzar la primera posición en el desafío WOSAC con una puntuación de realismo de 0.7858.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

El artículo presenta EditReward, un modelo de recompensa de código abierto alineado con preferencias humanas y entrenado en un nuevo conjunto de datos de más de 200.000 pares, que supera a los modelos existentes en benchmarks de edición de imágenes y permite la selección de datos de alta calidad para entrenar modelos como Step1X-Edit.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos es un marco innovador de un solo paso para la transferencia de estilo 3D que genera escenas gaussianas estilizadas y coherentes desde imágenes sin pose, utilizando una arquitectura Transformer con pérdidas de estilo 3D para lograr resultados de alta calidad sin optimización por escena.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artículo presenta C $^3$ B, un nuevo benchmark multilingüe y multitarea basado en cómics diseñado para evaluar y desafiar las capacidades de conciencia cultural de los Modelos de Lenguaje Multimodales (MLLM) mediante tareas de dificultad progresiva que revelan una brecha significativa entre el rendimiento de la IA y el humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

El artículo presenta LVTINO, un solucionador inverso cero-shot para la restauración de video de alta definición que utiliza Consistencia de Video (VCMs) para lograr reconstrucciones temporalmente coherentes y de alta calidad con alta eficiencia computacional, superando a los métodos anteriores basados en modelos de difusión de imágenes aplicados fotograma a fotograma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

DragFlow es un marco innovador que aprovecha los potentes priors de modelos DiT como FLUX mediante una supervisión basada en regiones y adaptadores de personalización, superando las limitaciones de las ediciones por puntos y estableciendo un nuevo estado del arte en la edición de imágenes por arrastre.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

El artículo presenta ChainMPQ, un método sin entrenamiento que reduce las alucinaciones de relación en modelos de visión y lenguaje mediante una cadena intercalada de imágenes y texto guiada por preguntas de múltiples perspectivas que aprovechan memorias acumuladas para mejorar el razonamiento relacional.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

El artículo presenta el VA-Adapter, un adaptador de visión-acción que integra modelos fundacionales de ultrasonido con la comprensión de estructuras 3D individuales para guiar eficazmente la colocación de la sonda en ecocardiografía, superando a modelos existentes con una fracción de los parámetros entrenados.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

El artículo presenta TTOM, un marco sin entrenamiento que mejora la generación de videos compuestos mediante la optimización en tiempo de prueba y un mecanismo de memoria paramétrica para alinear los modelos fundacionales de video con layouts espacio-temporales.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

El artículo presenta "Splat the Net", una nueva representación volumétrica que combina la expresividad de los campos neuronales con la eficiencia del splatting mediante primitivas neuronales que permiten un cálculo exacto y rápido de la integración de rayos, logrando una calidad y velocidad equivalentes a las de 3D Gaussian Splatting pero con una décima parte de primitivas y una sexta parte de parámetros.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

El artículo presenta LinearSR, un marco holístico que supera los desafíos de inestabilidad y eficiencia de la atención lineal en la superresolución de imágenes mediante estrategias innovadoras como el fine-tuning guiado por puntos de inflexión y una arquitectura de expertos mixtos, logrando así un rendimiento perceptual de vanguardia con una eficiencia computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

El artículo presenta PHyCLIP, un modelo que unifica la jerarquía y la composicionalidad en el aprendizaje de representaciones visión-lenguaje mediante un producto $\ell_1$ de factores hiperbólicos, superando a los enfoques de espacio único y mejorando la interpretabilidad en tareas de clasificación y recuperación.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Este artículo propone el marco CSL, un enfoque unificado que mejora el reconocimiento de imágenes multietiqueta con etiquetas incompletas mediante la co-aprendizaje de características semánticas robustas y la recuperación adaptativa de etiquetas faltantes, superando así a los métodos existentes en conjuntos de datos públicos.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

El artículo presenta UniFlow, un tokenizador visual unificado que supera la tradicional compensación entre comprensión y generación mediante la adaptación de codificadores preentrenados con auto-distilación y un decodificador de flujo de píxeles, logrando un rendimiento superior en múltiples tareas de entendimiento y generación visual.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Este artículo presenta un marco de entrenamiento de dos etapas que permite el modelado generativo end-to-end en el espacio de píxeles mediante pre-entrenamiento auto-supervisado, logrando un rendimiento superior al estado del arte en ImageNet y cerrando la brecha de eficiencia con los modelos latentes sin depender de VAEs preentrenados.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

El artículo presenta Fly-CL, un marco bioinspirado en el circuito olfativo de la mosca que mejora el aprendizaje de representaciones continuas en modelos preentrenados al resolver la multicolinealidad y reducir significativamente el tiempo de entrenamiento mediante un emparejamiento de similitud eficiente.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

El artículo presenta Mono4DGS-HDR, un sistema pionero que reconstruye escenas 4D de alto rango dinámico (HDR) a partir de videos monoculares no calibrados con exposiciones alternas mediante un marco de optimización en dos etapas basado en Gaussian Splatting y una regularización temporal de luminancia.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

LightMem es un sistema de memoria ligero y eficiente inspirado en el modelo de memoria humana de Atkinson-Shiffrin que organiza la información en tres etapas (sensorial, a corto plazo y a largo plazo) para mejorar la precisión de las respuestas y reducir drásticamente el uso de tokens y llamadas a API en comparación con sistemas existentes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

Este trabajo presenta BioCAP, un modelo fundacional biológico que mejora la clasificación de especies y la recuperación de imágenes mediante el uso de descripciones sintéticas generadas por modelos de lenguaje multimodal para enriquecer la supervisión más allá de las etiquetas tradicionales.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

← Anterior Siguiente →

cs.CV