cs.CV artículos | Gist.Science

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

El artículo propone Adaptive Manifold Prototypes (AMP), un marco que utiliza optimización riemanniana en la variedad de Stiefel para representar prototipos como bases ortonormales y evitar el colapso de prototipos, logrando así un reconocimiento interpretable con alta precisión y fidelidad causal en benchmarks de granularidad fina.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Este estudio presenta un modelo de flujo rectificado que genera en tiempo real y con alta fidelidad imágenes de resonancia magnética cerebral post-tratamiento para pacientes con glioma, utilizando datos pretratamiento y mapas de dosis de radioterapia para optimizar la planificación terapéutica y la predicción de resultados personalizados.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

El artículo presenta DDHF, un método de análisis temporal por píxel basado en la Transformada Discreta de Fourier No Uniforme (NDFT) que detecta drones en tiempo real utilizando cámaras de eventos, superando significativamente a los detectores basados en aprendizaje profundo como YOLO en precisión y latencia al identificar las firmas de frecuencia de los rotores.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

El artículo presenta AULLM++, un marco de razonamiento estructurado basado en modelos de lenguaje grandes que supera las limitaciones de los métodos anteriores para la detección de Unidades de Acción en microexpresiones mediante la fusión de características visuales multigranulares, el modelado de correlaciones entre unidades y la regularización de consistencia contrafactual, logrando así un rendimiento superior y una mejor generalización.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

El artículo presenta StructBiHOI, un marco de modelado articulado estructurado que combina un jointVAE para la planificación temporal a largo plazo y un maniVAE para el refinamiento de poses, utilizando un difusor basado en Mamba para generar interacciones bimanuales mano-objeto coherentes, físicamente plausibles y estables en secuencias extensas.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

SPIRAL es un marco de bucle cerrado que mejora la generación de video a largo plazo mediante agentes reflexivos de planificación y crítica que descomponen, ejecutan y refinan iterativamente acciones semánticas para garantizar una mayor coherencia temporal y alineación semántica.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

El artículo presenta GRACE, un marco de aprendizaje incremental de clases que gestiona dinámicamente la capacidad del modelo mediante un ciclo de expansión, evaluación de saturación y compresión para lograr un rendimiento de vanguardia reduciendo la huella de memoria hasta en un 73% en comparación con los métodos puramente expansivos.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

Este trabajo propone IMaX, un método basado en el principio de maximización de información mutua que incorpora un objetivo entrópico para mitigar el sesgo de clases desbalanceadas y mejorar el rendimiento de la generalización de dominio semi-supervisada en escenarios de cola larga.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

Este trabajo introduce VET-Bench, una prueba diagnóstica que revela las limitaciones actuales de los modelos de visión y lenguaje para el seguimiento de entidades, y propone SGCoT, un método de razonamiento basado en cadenas de pensamiento que supera el 90% de precisión al generar trayectorias explícitas.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

El artículo presenta Alfa, un método de adaptación de filtros de bajo rango con atención que repondera patrones semánticos en modelos de estimación de mirada preentrenados utilizando pocas muestras no etiquetadas para lograr una personalización eficiente y de alto rendimiento en entornos cruzados y en dispositivos.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

El artículo propone la Alineación de Auto-Cumplimiento Visual (VSFA), un método sin etiquetas que entrena modelos de lenguaje-visión mediante la exposición repetida a imágenes relacionadas con amenazas para internalizar implícitamente una postura de vigilancia y mejorar su seguridad sin comprometer sus capacidades generales.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

El artículo presenta Spherical-GOF, un marco de renderizado panorámico basado en campos de opacidad gaussiana que realiza el muestreo de rayos directamente en el espacio esférico para lograr una reconstrucción 3D con mayor consistencia geométrica y menor error de reproyección que los métodos existentes.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Este trabajo presenta OccTrack360, un nuevo benchmark para el seguimiento de ocupación panorámica 4D a partir de cámaras ojo de pez circundantes, junto con el marco FoSOcc diseñado para abordar desafíos específicos de proyección esférica y localización en el espacio de vóxeles.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

El artículo presenta el "Interactive World Simulator", un marco que utiliza modelos de consistencia para generar simulaciones interactivas rápidas y físicamente coherentes que permiten entrenar y evaluar políticas robóticas de manera escalable con un rendimiento comparable al obtenido con datos del mundo real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

El artículo propone el algoritmo Online FISTA, un método de reconstrucción en línea que utiliza codificación dispersa para generar imágenes de radar de apertura sintética (SAR) de manera incremental y con bajo consumo de memoria, facilitando así tareas posteriores como el reconocimiento automático de objetivos en plataformas autónomas.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

El artículo presenta DualFlexKAN, una arquitectura flexible de redes neuronales Kolmogorov-Arnold que utiliza un mecanismo de doble etapa para controlar independientemente las transformaciones de entrada y las activaciones de salida, logrando una mayor precisión y eficiencia con significativamente menos parámetros que las KANs y MLPs convencionales.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

El paper presenta PRISM, un modelo fundacional unificado para la generación de movimiento humano que supera las limitaciones actuales mediante un espacio latente factorizado por articulaciones y una inyección de condiciones libre de ruido, permitiendo síntesis de alta calidad y sin errores acumulativos para tareas de texto-a-movimiento, condicionadas por poses y secuenciales en tiempo real.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artículo presenta un marco de aprendizaje débilmente supervisado con refinamiento progresivo de máscaras pseudo, que utiliza anotaciones escasas de patólogos y un教师-estudiante estabilizado para lograr una segmentación precisa y generalizable de glándulas en histopatología colorrectal sin necesidad de anotaciones pixel a pixel extensivas.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

← Anterior Siguiente →