cs.CV artículos | Gist.Science

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudio presenta un enfoque de aprendizaje profundo no supervisado basado en un codificador variacional ligero que utiliza imágenes satelitales de Planet Labs para detectar incendios relacionados con el conflicto en Sudán en tiempo casi real, superando a los métodos tradicionales en precisión y recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudio sistémico demuestra que, en la adaptación continua en tiempo de prueba, la familia de enmascaramiento (espacial frente a frecuencial) es el factor determinante para la estabilidad del aprendizaje, donde el enmascaramiento espacial preserva la coherencia estructural en arquitecturas basadas en tokens de parche mientras que el frecuencial puede causar colapso catastrófico, y su eficacia óptima depende de la alineación entre la arquitectura y la tarea.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

El artículo presenta Brain-Semantoks, un marco de aprendizaje auto-supervisado que utiliza un tokenizador semántico y un objetivo de auto-distilación para aprender representaciones robustas de la dinámica cerebral a partir de series temporales de fMRI, logrando un alto rendimiento en tareas posteriores y mejoras escalables sin necesidad de adaptación de dominio.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

El artículo presenta $\beta$ -CLIP, un marco de aprendizaje contrastivo condicionado por texto que logra una alineación jerárquica y multi-granular entre representaciones visuales y textuales mediante un mecanismo de atención cruzada y una nueva función de pérdida ( $\beta$ -CAL), logrando así un rendimiento superior en tareas de recuperación densa y alineación visión-idioma sin necesidad de negativos duros.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP es un método que recupera geometría de escenas y movimiento humano simulables a partir de video monoculares mediante el ajuste de primitivas planas y el modelado de contactos, logrando una reconstrucción física plausible que reduce drásticamente las tasas de fallo en el seguimiento de movimientos y acelera la simulación para aplicaciones de robótica y realidad aumentada.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

El artículo presenta SoFlow, un marco de modelos de flujo de solución que permite la generación en un solo paso mediante una pérdida de consistencia que evita el cálculo de productos vectoriales de Jacobiano, logrando un rendimiento superior a los modelos MeanFlow en ImageNet 256x256.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Esta investigación presenta un marco integral de inteligencia artificial interpretable que integra el análisis de imágenes dermatológicas con datos de historial familiar para mejorar la precisión diagnóstica y la personalización de tratamientos, validando sus resultados con profesionales de la salud y proponiendo ensayos clínicos prospectivos para su implementación en la práctica médica real.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

GeoTeacher es un método de detección 3D semi-supervisado que mejora el rendimiento de los modelos con datos limitados mediante una supervisión de relaciones geométricas basada en puntos clave y una estrategia de aumento de datos en voxel con mecanismo de decaimiento por distancia, logrando nuevos resultados de vanguardia en los conjuntos de datos ONCE y Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Este estudio propone el método "ForCM", que integra técnicas de Análisis de Imágenes Basado en Objetos (OBIA) con modelos de aprendizaje profundo aplicados a imágenes multiespectrales de Sentinel-2 para lograr un mapeo de cobertura forestal en la Amazonía con una precisión superior (hasta 95,64%) en comparación con los métodos tradicionales.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

El artículo presenta CEM, un plugin de optimización de fidelidad que minimiza el error acumulativo mediante un algoritmo de programación dinámica para adaptar dinámicamente las estrategias de caché en la aceleración de modelos Diffusion Transformer, mejorando significativamente la calidad de generación sin añadir sobrecarga computacional.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

El artículo propone los PiNets, un marco de aprendizaje profundo que garantiza la alineación explicativa mediante una estructura pseudo-lineal, logrando explicaciones que no solo subyacen a las predicciones por diseño, sino que también son fieles en términos de significado, robustez y suficiencia.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

El artículo presenta TP-Blend, un marco ligero y sin entrenamiento que combina dos prompts textuales distintos mediante fusión de atención cruzada y auto-atención para lograr una mezcla precisa de objetos y estilos en modelos de difusión, superando a las técnicas actuales en fidelidad, calidad perceptual y velocidad.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Este trabajo propone un método de alineación 3D zero-shot que optimiza la pose relativa entre dos mallas mediante gradientes de CLIP y un renderizador diferenciable, reforzados por restricciones geométricas de contacto y no penetración, para lograr ensamblajes de objetos semánticamente fieles y físicamente plausibles sin necesidad de entrenar nuevos modelos.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Este artículo presenta Perceptual Counterfactual Geodesics (PCG), un método que genera explicaciones contrafactuales semánticamente válidas y suaves al trazar geodésicas en un espacio latente con una métrica riemanniana perceptual derivada de características de visión robusta, superando así las limitaciones de los enfoques existentes que sufren de artefactos fuera de la variedad o colapso adversarial.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

El artículo presenta Vision-DeepResearch, un nuevo paradigma para modelos de lenguaje grandes multimodales que internaliza capacidades de investigación profunda mediante búsqueda visual y textual multi-turno, multi-entidad y multi-escala, superando significativamente a los enfoques existentes y a flujos de trabajo basados en modelos propietarios de vanguardia en escenarios reales con alto nivel de ruido.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Este artículo presenta un nuevo marco de aprendizaje de compatibilidad condicional y el conjunto de datos CAAD-3K para abordar la detección de anomalías dependientes del contexto, demostrando que modelar la relación sujeto-entorno supera a los métodos tradicionales y logra un rendimiento superior en benchmarks estándar.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Este trabajo presenta HitEmotion, un marco que integra la Teoría de la Mente en modelos de lenguaje multimodal mediante un benchmark jerárquico, una cadena de razonamiento guiada y el método de aprendizaje por refuerzo TMPO para superar las limitaciones actuales en la comprensión emocional profunda.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artículo propone un nuevo método de cuantización post-entrenamiento para modelos de difusión que asigna pesos óptimos a las muestras de calibración para alinear los gradientes entre pasos de tiempo, superando así las limitaciones de las técnicas uniformes existentes y mejorando el rendimiento en conjuntos de datos como CIFAR-10, LSUN-Bedrooms e ImageNet.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

El artículo presenta CaCoVID, un nuevo algoritmo de compresión de tokens para la comprensión de video que utiliza aprendizaje por refuerzo para optimizar activamente la selección de tokens basándose en su contribución real a las predicciones correctas, superando así las limitaciones de los métodos tradicionales que priorizan únicamente las puntuaciones de atención.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

El artículo presenta CloDS, un marco de aprendizaje no supervisado que utiliza observaciones visuales multivista y una técnica de *splatting* gaussiano con modulación de opacidad dual para aprender la dinámica de telas en condiciones desconocidas sin requerir propiedades físicas predefinidas.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

← Anterior Siguiente →

cs.CV