cs.CV artículos | Gist.Science

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

El artículo presenta GOAL, un marco unificado que utiliza un clasificador de Marco Estrictamente Equiangular (ETF) fijo para lograr una alineación geométrica consistente y reducir el olvido en la Descubrimiento Continuo de Categorías Generalizadas, superando a los métodos anteriores en cuatro benchmarks.

Jizhou Han, Chenhao Ding, SongLin Dong + 4 more2026-02-24🤖 cs.AI

BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

El artículo presenta BigMaQ, un conjunto de datos a gran escala de macacos rhesus que integra representaciones 3D de pose y forma en la reconocimiento de acciones animales, permitiendo la creación de avatares texturizados específicos y demostrando mejoras significativas en la precisión de la clasificación de comportamientos sociales.

Lucas Martini, Alexander Lappe, Anna Bognár + 2 more2026-02-24💻 cs

Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

El artículo presenta MaSoN, un marco de trabajo sin supervisión para la detección de cambios en teledetección que supera las limitaciones de los métodos existentes al sintetizar cambios diversos directamente en el espacio latente durante el entrenamiento, logrando así un rendimiento superior y una mayor generalización en diversos escenarios.

Blaž Rolih, Matic Fučka, Filip Wolf + 1 more2026-02-24🤖 cs.AI

Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images

Este trabajo propone un marco de adaptación de dominio no supervisada basado en Transformers y una arquitectura Mean-Teacher, que integra mecanismos de alineación de prototipos, aprendizaje contrastivo y predicción local asistida por atención para mejorar significativamente la detección de embolias pulmonares en imágenes CTPA mediante segmentación semántica, superando los desafíos del desplazamiento de dominio y la escasez de anotaciones expertas.

Wen-Liang Lin, Yun-Chien Cheng2026-02-24⚡ eess

Monocular Mesh Recovery and Body Measurement of Female Saanen Goats

Este artículo presenta un nuevo enfoque para la agricultura de precisión que, mediante la creación del conjunto de datos FemaleSaanenGoat y el desarrollo del modelo paramétrico SaanenGoat, permite la reconstrucción 3D de alta fidelidad y la medición automática de dimensiones corporales críticas en cabras Saanen hembra a partir de una sola vista RGBD.

Bo Jin, Shichao Zhao, Jin Lyu + 5 more2026-02-24💻 cs

Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG

Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting

Este trabajo propone un marco general llamado "Augmented Radiance Field" que mejora el rendimiento y la eficiencia de la reconstrucción de campos de radiación mediante un nuevo kernel gaussiano que modela explícitamente los efectos especulares y una estrategia de compensación impulsada por errores, superando a los métodos NeRF más avanzados.

Yixin Yang, Bojian Wu, Yang Zhou + 1 more2026-02-24💻 cs

Expanding the Role of Diffusion Models for Robust Classifier Training

Este trabajo demuestra que incorporar las representaciones internas de los modelos de difusión, además de los datos sintéticos generados, como señal de aprendizaje auxiliar durante el entrenamiento adversarial mejora significativamente la robustez y la descomposición de características de los clasificadores de imágenes.

Pin-Han Huang, Shang-Tse Chen, Hsuan-Tien Lin2026-02-24🤖 cs.LG

Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation

Este trabajo propone un método que combina una red convolucional implícita equivariante a SO(3) con una estrategia de muestreo de puntos de incentivo positivo (PIPS) para mejorar la estimación de la pose de objetos en campos implícitos neuronales, logrando un rendimiento superior, especialmente en escenarios desafiantes como oclusiones severas, ruido y geometrías novedosas.

Yifei Shi, Boyan Wan, Xin Xu + 1 more2026-02-24💻 cs

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Este artículo presenta DSS, un mecanismo progresivo sin entrenamiento que mejora la segmentación de objetos camuflados de cero disparos mediante la generación de propuestas, su refinamiento con SAM y la selección óptima de máscaras asistida por MLLMs, logrando un rendimiento superior al estado del arte.

Yilong Yang, Jianxin Tian, Shengchuan Zhang + 1 more2026-02-24💻 cs

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

El artículo presenta RL-RIG, un marco de aprendizaje por refuerzo que integra reflexión intrínseca y un paradigma de generar-reflexionar-editar para superar las limitaciones de razonamiento espacial en la generación de imágenes, logrando una precisión estructural superior a los modelos existentes.

Tianyu Wang, Zhiyuan Ma, Qian Wang + 3 more2026-02-24💻 cs

RADE-Net: Robust Attention Network for Radar-Only Object Detection in Adverse Weather

El artículo presenta RADE-Net, una red de atención robusta y ligera que utiliza proyecciones 3D de tensores RADE para lograr una detección de objetos superior en condiciones climáticas adversas, superando a los enfoques actuales de radar y a varios métodos basados en lidar.

Christof Leitgeb, Thomas Puchleitner, Max Peter Ronecker + 1 more2026-02-24💻 cs

Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

El artículo presenta Token-UNet, un modelo de segmentación 3D para imágenes cerebrales que integra módulos TokenLearner y TokenFuser en una arquitectura UNet para lograr una mayor eficiencia computacional y interpretabilidad, superando el rendimiento del SwinUNETR con una fracción significativa de sus recursos de memoria y tiempo de inferencia.

Louis Fabrice Tshimanga, Andrea Zanola, Federico Del Pup + 1 more2026-02-24💻 cs

Descriptor: Dataset of Parasitoid Wasps and Associated Hymenoptera (DAPWH)

Este artículo presenta el conjunto de datos DAPWH, una colección curada de 3.556 imágenes de alta resolución de avispas parasitoides y otros himenópteros, que incluye un subconjunto anotado en formato COCO para facilitar el desarrollo de sistemas automatizados de identificación taxonómica.

Joao Manoel Herrera Pinheiro, Gabriela Do Nascimento Herrera, Luciana Bueno Dos Reis Fernandes + 7 more2026-02-24🤖 cs.AI

EEG-Driven Intention Decoding: Offline Deep Learning Benchmarking on a Robotic Rover

Este estudio presenta un marco de control cerebro-robot para la decodificación offline de comandos de conducción mediante señales EEG, demostrando que el modelo ShallowConvNet supera a otras arquitecturas de aprendizaje profundo en la predicción de intenciones de navegación de un rover robótico.

Ghadah Alosaimi, Maha Alsayyari, Yixin Sun + 3 more2026-02-24💻 cs

Closing the gap in multimodal medical representation alignment

Este trabajo identifica la existencia de la brecha de modalidad en el alineamiento multimodal médico y propone un marco agnóstico a la modalidad que la cierra, mejorando así la alineación semántica entre imágenes de radiología y texto clínico para tareas como la recuperación cruzada y la generación de descripciones.

Eleonora Grassucci, Giordano Cicchetti, Danilo Comminiello2026-02-24🤖 cs.LG

SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural Consistency

El artículo presenta SEAL-pose, un marco de aprendizaje profundo que mejora la estimación de la pose humana en 3D mediante una red de pérdida aprendida que evalúa la plausibilidad estructural y captura dependencias complejas entre articulaciones sin depender de priores manuales.

Yeonsung Kim, Junggeun Do, Seunguk Do + 3 more2026-02-24🤖 cs.AI

Decoupling Defense Strategies for Robust Image Watermarking

El artículo presenta AdvMark, un marco de ajuste fino en dos etapas que desacopla las estrategias de defensa para superar las vulnerabilidades de la marca de agua en imágenes basada en aprendizaje profundo, logrando simultáneamente una mayor robustez frente a ataques adversarios, de regeneración y distorsión sin comprometer la precisión en datos limpios ni la calidad visual.

Jiahui Chen, Zehang Deng, Zeyu Zhang + 3 more2026-02-24💻 cs

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Este artículo presenta un marco de planificación basado en restricciones impulsado por modelos de lenguaje grande que permite a un robot móvil con capacidades de manipulación resolver el problema de navegación interactiva de por vida en entornos desordenados, logrando una generalización cero-shot al razonar sobre un grafo de escena estructurado y combinar la percepción activa con la ejecución de movimientos para despejar rutas y completar tareas secuenciales de colocación de objetos.

Apoorva Vashisth, Manav Kulshrestha, Pranav Bakshi + 3 more2026-02-24🤖 cs.AI

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

El artículo presenta HeatPrompt, un marco de modelado energético visión-lingüístico de cero disparos que estima la demanda de calor anual a partir de imágenes satelitales y datos GIS básicos, logrando una mejora significativa en la precisión respecto a los modelos basales y ofreciendo una solución ligera para la planificación térmica en regiones con escasez de datos.

Kundan Thota, Xuanhao Mu, Thorsten Schlachter + 1 more2026-02-24🤖 cs.AI

← Anterior Siguiente →