cs.CV artículos | Gist.Science

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

El artículo presenta SpecAware, un modelo fundacional novedoso que unifica el aprendizaje multi-sensor para el mapeo de imágenes hiperespectrales mediante un proceso de incrustación impulsado por hiperredes y el uso del conjunto de datos Hyper-400K, superando así las limitaciones de generalización causadas por la heterogeneidad espectral entre diferentes sensores.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

Este trabajo presenta VCFlow, una arquitectura de decodificación visual jerárquica inspirada en el proceso cognitivo que, mediante el modelado de las vías ventral y dorsal y el aprendizaje contrastivo, permite reconstruir experiencias visuales continuas a partir de fMRI de sujetos no vistos sin necesidad de entrenamiento específico, ofreciendo una solución rápida y escalable para aplicaciones clínicas.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Este trabajo presenta el primer método de detección de cambios en escena en tiempo real que, mediante fusión multi-vista auto-supervisada, estimación de pose rápida y actualizaciones guiadas en la representación 3D Gaussian Splatting, logra un rendimiento superior a los enfoques offline existentes operando a más de 10 FPS sin necesidad de etiquetas ni conocimiento de la pose.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

CuriGS es un marco de aprendizaje basado en un currículo que mejora la síntesis de vistas escasas mediante la generación y selección progresiva de vistas estudiantiles pseudo-sintéticas para regular y ampliar el conjunto de entrenamiento de la representación 3D Gaussian Splatting.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

El artículo presenta PPCL, un marco de poda estructurada flexible con destilación de capas contiguas diseñado para reducir en un 50% los parámetros de los Transformadores de Difusión (DiT) manteniendo una calidad de generación de imágenes casi intacta, lo que facilita su implementación en entornos con recursos limitados.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Este trabajo propone una estrategia de ajuste fino eficiente en datos que demuestra que entrenar modelos de generación de video con datos sintéticos escasos y de baja calidad no solo habilita controles personalizables, sino que produce resultados superiores a los obtenidos con datos realistas.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

El artículo presenta ViPO, una variante de la Optimización de Política de Preferencia Visual que mejora el entrenamiento de modelos generativos al transformar las recompensas escalares en mapas de ventaja a nivel de píxel, permitiendo así una alineación más precisa con las preferencias humanas y una corrección efectiva de artefactos locales en imágenes y videos.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

El artículo presenta KeyTailor, un marco innovador que mejora el probador virtual en video mediante una estrategia de inyección de detalles impulsada por fotogramas clave para preservar la dinámica de la ropa y la integridad del fondo, junto con el conjunto de datos ViT-HD de alta definición, logrando resultados superiores a los métodos actuales con menor complejidad computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow es un marco de tres etapas inspirado en la cognición humana que mejora la resolución de problemas matemáticos visuales mediante la internalización de conocimientos y recompensas visuales sinérgicas para garantizar una integración fiel de la percepción en el razonamiento, respaldado por un nuevo conjunto de datos llamado MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

El artículo presenta Fast-ThinkAct, un marco de razonamiento eficiente para tareas de Visión-Lenguaje-Acción que utiliza razonamiento latente verbalizable para reducir la latencia de inferencia hasta un 89,3% en comparación con los métodos actuales, manteniendo al mismo tiempo una fuerte capacidad de planificación y adaptación en entornos dinámicos.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

El artículo presenta MetamerGen, una herramienta basada en un modelo de difusión latente que genera metameros de escenas al combinar información de contexto periférico y detalles foveales para crear imágenes que coinciden con la representación mental humana de una escena.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Este artículo presenta THz-SSDD, una red neuronal auto-supervisada basada en análisis de componentes principales que elimina simultáneamente el ruido y la borrosidad en imágenes de terahercios sin necesidad de datos etiquetados, preservando las características físicas de las señales originales.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Este artículo propone una taxonomía unificada y una API estandarizada en TorchGeo para transformar los productos de incrustaciones de modelos fundamentales geoespaciales en conjuntos de datos accesibles, resolviendo así la fragmentación actual y facilitando la comparación y reproducibilidad en la observación terrestre.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

El artículo presenta ACLNet, una red de aprendizaje contrastivo de afinidad que mejora el reconocimiento de actividades humanas basadas en esqueletos al explotar las similitudes estructurales interclase mediante métricas de afinidad, superclases dinámicas y una estrategia de contraste con margen, demostrando su superioridad en múltiples conjuntos de datos.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

El artículo presenta CER-HV, un marco de trabajo con intervención humana que combina un detector de ruido basado en CER y verificación manual para identificar y limpiar errores en conjuntos de datos de reconocimiento de texto manuscrito en escritura árabe, demostrando que la mejora de la calidad de los datos eleva significativamente el rendimiento del modelo y establece nuevos estándares de referencia.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Este artículo propone un enfoque de optimización guiado por Pareto para la segmentación de imágenes médicas que, mediante una estrategia de currículo regional, una función de pérdida consistente con Pareto y un mecanismo de etiquetado difuso, aborda la incertidumbre no uniforme en los bordes para lograr una convergencia más estable y superar a los métodos tradicionales en la delimitación de tumores.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

El artículo presenta DVLA-RL, un enfoque de aprendizaje con pocos ejemplos que utiliza la alineación semántica de dos niveles y un mecanismo de atención con puertas controladas por aprendizaje por refuerzo para integrar dinámicamente atributos visuales de bajo nivel y descripciones de alto nivel generadas por modelos de lenguaje, logrando así un rendimiento superior en nueve benchmarks.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Este trabajo propone un marco de computación totalmente óptico basado en redes neuronales difractivas para realizar segmentación semántica y detección de carriles en la conducción autónoma, logrando una mayor eficiencia energética y velocidad en comparación con los métodos convencionales de redes neuronales profundas.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

El artículo presenta GOT-Edit, un enfoque de edición de modelos en línea que integra pistas geométricas 3D en rastreadores de objetos genéricos mediante la modificación de modelos preentrenados, logrando así una mayor robustez y precisión frente a oclusiones y distracciones al combinar razonamiento semántico 2D con conocimiento geométrico.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

El informe técnico presenta UI-Venus-1.5, una familia unificada de agentes de GUI que, mediante avances técnicos como un entrenamiento intermedio masivo, aprendizaje por refuerzo en línea y fusión de modelos, establece nuevos récords de rendimiento en la automatización de interacciones en entornos digitales complejos.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

← Anterior Siguiente →