cs.CV artículos | Gist.Science

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Este artículo propone el marco CSL, un enfoque unificado que mejora el reconocimiento de imágenes multietiqueta con etiquetas incompletas mediante la co-aprendizaje de características semánticas robustas y la recuperación adaptativa de etiquetas faltantes, superando así a los métodos existentes en conjuntos de datos públicos.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

El artículo presenta UniFlow, un tokenizador visual unificado que supera la tradicional compensación entre comprensión y generación mediante la adaptación de codificadores preentrenados con auto-distilación y un decodificador de flujo de píxeles, logrando un rendimiento superior en múltiples tareas de entendimiento y generación visual.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Este artículo presenta un marco de entrenamiento de dos etapas que permite el modelado generativo end-to-end en el espacio de píxeles mediante pre-entrenamiento auto-supervisado, logrando un rendimiento superior al estado del arte en ImageNet y cerrando la brecha de eficiencia con los modelos latentes sin depender de VAEs preentrenados.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

El artículo presenta Fly-CL, un marco bioinspirado en el circuito olfativo de la mosca que mejora el aprendizaje de representaciones continuas en modelos preentrenados al resolver la multicolinealidad y reducir significativamente el tiempo de entrenamiento mediante un emparejamiento de similitud eficiente.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

El artículo presenta Mono4DGS-HDR, un sistema pionero que reconstruye escenas 4D de alto rango dinámico (HDR) a partir de videos monoculares no calibrados con exposiciones alternas mediante un marco de optimización en dos etapas basado en Gaussian Splatting y una regularización temporal de luminancia.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

LightMem es un sistema de memoria ligero y eficiente inspirado en el modelo de memoria humana de Atkinson-Shiffrin que organiza la información en tres etapas (sensorial, a corto plazo y a largo plazo) para mejorar la precisión de las respuestas y reducir drásticamente el uso de tokens y llamadas a API en comparación con sistemas existentes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

Este trabajo presenta BioCAP, un modelo fundacional biológico que mejora la clasificación de especies y la recuperación de imágenes mediante el uso de descripciones sintéticas generadas por modelos de lenguaje multimodal para enriquecer la supervisión más allá de las etiquetas tradicionales.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP es un método de alimentación directa que predice campos volumétricos de propiedades mecánicas (módulo de Young, relación de Poisson y densidad) en objetos 3D mediante un transformador geométrico entrenado con latentes de materiales físicamente plausibles, superando a métodos anteriores en precisión y velocidad.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

El artículo presenta Concerto, un modelo de aprendizaje auto-supervisado conjunto 2D-3D que, inspirado en la sinergia multisensorial humana, supera a los métodos actuales en percepción de escenas 3D y permite la percepción en mundos abiertos mediante representaciones espaciales coherentes y ricas en información.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

El artículo presenta ProMoE, un marco de Mixture-of-Experts con una guía de enrutamiento explícita de dos pasos que supera a los métodos actuales en la escalabilidad de Transformadores de Difusión para visión artificial al abordar la redundancia espacial y la heterogeneidad funcional de los tokens visuales.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

El artículo presenta "Brain-IT", un enfoque basado en un Transformador de Interacción Cerebral que reconstruye imágenes a partir de registros fMRI con mayor fidelidad y eficiencia que los métodos actuales, logrando resultados comparables a técnicas de entrenamiento extenso utilizando solo una hora de datos de un nuevo sujeto.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabajo propone un enfoque novedoso que genera videos de rostros parlantes de alta resolución exclusivamente a partir de una sola entrada de audio, superando a los métodos existentes mediante un modelo de difusión condicionado al habla con priores faciales y un módulo de refinamiento regional para optimizar la sincronización labial y los detalles.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

El artículo presenta ThinkMorph, un modelo unificado que, al aprender a generar pasos de razonamiento intercalados y complementarios entre texto e imagen, logra mejoras significativas en tareas visuales y demuestra capacidades emergentes de manipulación visual y adaptación multimodal.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudio demuestra que el rendimiento de la segmentación de imágenes médicas sigue una ley de escala limitada por la geometría anatómica, la cual puede mejorarse en eficiencia de datos mediante aumentos de deformación conscientes de la topología que reducen el error sin alterar la estructura fundamental de la escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

El artículo presenta VeCoR, un esquema de regularización contrastiva que mejora la estabilidad y la fidelidad perceptual de los modelos de Flow Matching al introducir una supervisión de dos vías que guía las trayectorias hacia direcciones estables y las aleja de direcciones fuera de la variedad de datos, logrando reducciones significativas en el FID en configuraciones ligeras y de pocos pasos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

El artículo presenta UltraViCo, un método libre de entrenamiento que supera los límites de extrapolación de longitud en transformadores de difusión de video al identificar y corregir la dispersión de la atención, logrando una generación de video de alta calidad hasta cuatro veces la longitud de entrenamiento sin repetir contenido.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

El artículo presenta ReSAM, un marco de auto-prompting que adapta el modelo Segment Anything (SAM) a imágenes de teledetección utilizando únicamente anotaciones puntuales mediante un ciclo iterativo de refinamiento, reconsulta y refuerzo para superar las limitaciones de dominio y la escasez de anotaciones densas.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

El artículo presenta InnoGym, el primer marco y conjunto de pruebas diseñado para evaluar sistemáticamente el potencial de innovación de los agentes de IA mediante métricas de rendimiento y novedad, revelando una brecha clave entre la creatividad y la efectividad en sus soluciones.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision es un paradigma eficiente de modelos visión-lenguaje que, inspirado en la visión activa humana, utiliza un enfoque de aprendizaje por refuerzo con optimización de política desacoplada (DTPO) para adquirir de forma adaptativa y selectiva la información visual necesaria, logrando así un rendimiento superior con una reducción significativa de tokens visuales en comparación con los métodos existentes.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artículo presenta FARL, un marco novedoso que mejora la generalización en modelos de visión y lenguaje mediante el uso de análisis de Fourier para desentrelazar explícitamente las características estructurales y estilísticas de las imágenes, facilitando así un aprendizaje de representación más robusto en escenarios de pocos ejemplos.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

← Anterior Siguiente →