cs.CV artículos | Gist.Science

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudio demuestra que el rendimiento de la segmentación de imágenes médicas sigue una ley de escala limitada por la geometría anatómica, la cual puede mejorarse en eficiencia de datos mediante aumentos de deformación conscientes de la topología que reducen el error sin alterar la estructura fundamental de la escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

El artículo presenta VeCoR, un esquema de regularización contrastiva que mejora la estabilidad y la fidelidad perceptual de los modelos de Flow Matching al introducir una supervisión de dos vías que guía las trayectorias hacia direcciones estables y las aleja de direcciones fuera de la variedad de datos, logrando reducciones significativas en el FID en configuraciones ligeras y de pocos pasos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

El artículo presenta UltraViCo, un método libre de entrenamiento que supera los límites de extrapolación de longitud en transformadores de difusión de video al identificar y corregir la dispersión de la atención, logrando una generación de video de alta calidad hasta cuatro veces la longitud de entrenamiento sin repetir contenido.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

El artículo presenta ReSAM, un marco de auto-prompting que adapta el modelo Segment Anything (SAM) a imágenes de teledetección utilizando únicamente anotaciones puntuales mediante un ciclo iterativo de refinamiento, reconsulta y refuerzo para superar las limitaciones de dominio y la escasez de anotaciones densas.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

El artículo presenta InnoGym, el primer marco y conjunto de pruebas diseñado para evaluar sistemáticamente el potencial de innovación de los agentes de IA mediante métricas de rendimiento y novedad, revelando una brecha clave entre la creatividad y la efectividad en sus soluciones.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision es un paradigma eficiente de modelos visión-lenguaje que, inspirado en la visión activa humana, utiliza un enfoque de aprendizaje por refuerzo con optimización de política desacoplada (DTPO) para adquirir de forma adaptativa y selectiva la información visual necesaria, logrando así un rendimiento superior con una reducción significativa de tokens visuales en comparación con los métodos existentes.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artículo presenta FARL, un marco novedoso que mejora la generalización en modelos de visión y lenguaje mediante el uso de análisis de Fourier para desentrelazar explícitamente las características estructurales y estilísticas de las imágenes, facilitando así un aprendizaje de representación más robusto en escenarios de pocos ejemplos.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudio presenta un enfoque de aprendizaje profundo no supervisado basado en un codificador variacional ligero que utiliza imágenes satelitales de Planet Labs para detectar incendios relacionados con el conflicto en Sudán en tiempo casi real, superando a los métodos tradicionales en precisión y recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudio sistémico demuestra que, en la adaptación continua en tiempo de prueba, la familia de enmascaramiento (espacial frente a frecuencial) es el factor determinante para la estabilidad del aprendizaje, donde el enmascaramiento espacial preserva la coherencia estructural en arquitecturas basadas en tokens de parche mientras que el frecuencial puede causar colapso catastrófico, y su eficacia óptima depende de la alineación entre la arquitectura y la tarea.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

El artículo presenta Brain-Semantoks, un marco de aprendizaje auto-supervisado que utiliza un tokenizador semántico y un objetivo de auto-distilación para aprender representaciones robustas de la dinámica cerebral a partir de series temporales de fMRI, logrando un alto rendimiento en tareas posteriores y mejoras escalables sin necesidad de adaptación de dominio.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

El artículo presenta $\beta$ -CLIP, un marco de aprendizaje contrastivo condicionado por texto que logra una alineación jerárquica y multi-granular entre representaciones visuales y textuales mediante un mecanismo de atención cruzada y una nueva función de pérdida ( $\beta$ -CAL), logrando así un rendimiento superior en tareas de recuperación densa y alineación visión-idioma sin necesidad de negativos duros.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP es un método que recupera geometría de escenas y movimiento humano simulables a partir de video monoculares mediante el ajuste de primitivas planas y el modelado de contactos, logrando una reconstrucción física plausible que reduce drásticamente las tasas de fallo en el seguimiento de movimientos y acelera la simulación para aplicaciones de robótica y realidad aumentada.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

El artículo presenta SoFlow, un marco de modelos de flujo de solución que permite la generación en un solo paso mediante una pérdida de consistencia que evita el cálculo de productos vectoriales de Jacobiano, logrando un rendimiento superior a los modelos MeanFlow en ImageNet 256x256.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Esta investigación presenta un marco integral de inteligencia artificial interpretable que integra el análisis de imágenes dermatológicas con datos de historial familiar para mejorar la precisión diagnóstica y la personalización de tratamientos, validando sus resultados con profesionales de la salud y proponiendo ensayos clínicos prospectivos para su implementación en la práctica médica real.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

GeoTeacher es un método de detección 3D semi-supervisado que mejora el rendimiento de los modelos con datos limitados mediante una supervisión de relaciones geométricas basada en puntos clave y una estrategia de aumento de datos en voxel con mecanismo de decaimiento por distancia, logrando nuevos resultados de vanguardia en los conjuntos de datos ONCE y Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Este estudio propone el método "ForCM", que integra técnicas de Análisis de Imágenes Basado en Objetos (OBIA) con modelos de aprendizaje profundo aplicados a imágenes multiespectrales de Sentinel-2 para lograr un mapeo de cobertura forestal en la Amazonía con una precisión superior (hasta 95,64%) en comparación con los métodos tradicionales.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

El artículo presenta CEM, un plugin de optimización de fidelidad que minimiza el error acumulativo mediante un algoritmo de programación dinámica para adaptar dinámicamente las estrategias de caché en la aceleración de modelos Diffusion Transformer, mejorando significativamente la calidad de generación sin añadir sobrecarga computacional.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

El artículo propone los PiNets, un marco de aprendizaje profundo que garantiza la alineación explicativa mediante una estructura pseudo-lineal, logrando explicaciones que no solo subyacen a las predicciones por diseño, sino que también son fieles en términos de significado, robustez y suficiencia.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

El artículo presenta TP-Blend, un marco ligero y sin entrenamiento que combina dos prompts textuales distintos mediante fusión de atención cruzada y auto-atención para lograr una mezcla precisa de objetos y estilos en modelos de difusión, superando a las técnicas actuales en fidelidad, calidad perceptual y velocidad.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Este trabajo propone un método de alineación 3D zero-shot que optimiza la pose relativa entre dos mallas mediante gradientes de CLIP y un renderizador diferenciable, reforzados por restricciones geométricas de contacto y no penetración, para lograr ensamblajes de objetos semánticamente fieles y físicamente plausibles sin necesidad de entrenar nuevos modelos.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

← Anterior Siguiente →

cs.CV