cs.CV artículos | Gist.Science

Monocular Mesh Recovery and Body Measurement of Female Saanen Goats

Este artículo presenta un nuevo enfoque para la agricultura de precisión que, mediante la creación del conjunto de datos FemaleSaanenGoat y el desarrollo del modelo paramétrico SaanenGoat, permite la reconstrucción 3D de alta fidelidad y la medición automática de dimensiones corporales críticas en cabras Saanen hembra a partir de una sola vista RGBD.

Bo Jin, Shichao Zhao, Jin Lyu + 5 more2026-02-24💻 cs

Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG

Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting

Este trabajo propone un marco general llamado "Augmented Radiance Field" que mejora el rendimiento y la eficiencia de la reconstrucción de campos de radiación mediante un nuevo kernel gaussiano que modela explícitamente los efectos especulares y una estrategia de compensación impulsada por errores, superando a los métodos NeRF más avanzados.

Yixin Yang, Bojian Wu, Yang Zhou + 1 more2026-02-24💻 cs

Expanding the Role of Diffusion Models for Robust Classifier Training

Este trabajo demuestra que incorporar las representaciones internas de los modelos de difusión, además de los datos sintéticos generados, como señal de aprendizaje auxiliar durante el entrenamiento adversarial mejora significativamente la robustez y la descomposición de características de los clasificadores de imágenes.

Pin-Han Huang, Shang-Tse Chen, Hsuan-Tien Lin2026-02-24🤖 cs.LG

Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation

Este trabajo propone un método que combina una red convolucional implícita equivariante a SO(3) con una estrategia de muestreo de puntos de incentivo positivo (PIPS) para mejorar la estimación de la pose de objetos en campos implícitos neuronales, logrando un rendimiento superior, especialmente en escenarios desafiantes como oclusiones severas, ruido y geometrías novedosas.

Yifei Shi, Boyan Wan, Xin Xu + 1 more2026-02-24💻 cs

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Este artículo presenta DSS, un mecanismo progresivo sin entrenamiento que mejora la segmentación de objetos camuflados de cero disparos mediante la generación de propuestas, su refinamiento con SAM y la selección óptima de máscaras asistida por MLLMs, logrando un rendimiento superior al estado del arte.

Yilong Yang, Jianxin Tian, Shengchuan Zhang + 1 more2026-02-24💻 cs

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

El artículo presenta RL-RIG, un marco de aprendizaje por refuerzo que integra reflexión intrínseca y un paradigma de generar-reflexionar-editar para superar las limitaciones de razonamiento espacial en la generación de imágenes, logrando una precisión estructural superior a los modelos existentes.

Tianyu Wang, Zhiyuan Ma, Qian Wang + 3 more2026-02-24💻 cs

RADE-Net: Robust Attention Network for Radar-Only Object Detection in Adverse Weather

El artículo presenta RADE-Net, una red de atención robusta y ligera que utiliza proyecciones 3D de tensores RADE para lograr una detección de objetos superior en condiciones climáticas adversas, superando a los enfoques actuales de radar y a varios métodos basados en lidar.

Christof Leitgeb, Thomas Puchleitner, Max Peter Ronecker + 1 more2026-02-24💻 cs

Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

El artículo presenta Token-UNet, un modelo de segmentación 3D para imágenes cerebrales que integra módulos TokenLearner y TokenFuser en una arquitectura UNet para lograr una mayor eficiencia computacional y interpretabilidad, superando el rendimiento del SwinUNETR con una fracción significativa de sus recursos de memoria y tiempo de inferencia.

Louis Fabrice Tshimanga, Andrea Zanola, Federico Del Pup + 1 more2026-02-24💻 cs

Descriptor: Dataset of Parasitoid Wasps and Associated Hymenoptera (DAPWH)

Este artículo presenta el conjunto de datos DAPWH, una colección curada de 3.556 imágenes de alta resolución de avispas parasitoides y otros himenópteros, que incluye un subconjunto anotado en formato COCO para facilitar el desarrollo de sistemas automatizados de identificación taxonómica.

Joao Manoel Herrera Pinheiro, Gabriela Do Nascimento Herrera, Luciana Bueno Dos Reis Fernandes + 7 more2026-02-24🤖 cs.AI

EEG-Driven Intention Decoding: Offline Deep Learning Benchmarking on a Robotic Rover

Este estudio presenta un marco de control cerebro-robot para la decodificación offline de comandos de conducción mediante señales EEG, demostrando que el modelo ShallowConvNet supera a otras arquitecturas de aprendizaje profundo en la predicción de intenciones de navegación de un rover robótico.

Ghadah Alosaimi, Maha Alsayyari, Yixin Sun + 3 more2026-02-24💻 cs

Closing the gap in multimodal medical representation alignment

Este trabajo identifica la existencia de la brecha de modalidad en el alineamiento multimodal médico y propone un marco agnóstico a la modalidad que la cierra, mejorando así la alineación semántica entre imágenes de radiología y texto clínico para tareas como la recuperación cruzada y la generación de descripciones.

Eleonora Grassucci, Giordano Cicchetti, Danilo Comminiello2026-02-24🤖 cs.LG

SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural Consistency

El artículo presenta SEAL-pose, un marco de aprendizaje profundo que mejora la estimación de la pose humana en 3D mediante una red de pérdida aprendida que evalúa la plausibilidad estructural y captura dependencias complejas entre articulaciones sin depender de priores manuales.

Yeonsung Kim, Junggeun Do, Seunguk Do + 3 more2026-02-24🤖 cs.AI

Decoupling Defense Strategies for Robust Image Watermarking

El artículo presenta AdvMark, un marco de ajuste fino en dos etapas que desacopla las estrategias de defensa para superar las vulnerabilidades de la marca de agua en imágenes basada en aprendizaje profundo, logrando simultáneamente una mayor robustez frente a ataques adversarios, de regeneración y distorsión sin comprometer la precisión en datos limpios ni la calidad visual.

Jiahui Chen, Zehang Deng, Zeyu Zhang + 3 more2026-02-24💻 cs

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Este artículo presenta un marco de planificación basado en restricciones impulsado por modelos de lenguaje grande que permite a un robot móvil con capacidades de manipulación resolver el problema de navegación interactiva de por vida en entornos desordenados, logrando una generalización cero-shot al razonar sobre un grafo de escena estructurado y combinar la percepción activa con la ejecución de movimientos para despejar rutas y completar tareas secuenciales de colocación de objetos.

Apoorva Vashisth, Manav Kulshrestha, Pranav Bakshi + 3 more2026-02-24🤖 cs.AI

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

El artículo presenta HeatPrompt, un marco de modelado energético visión-lingüístico de cero disparos que estima la demanda de calor anual a partir de imágenes satelitales y datos GIS básicos, logrando una mejora significativa en la precisión respecto a los modelos basales y ofreciendo una solución ligera para la planificación térmica en regiones con escasez de datos.

Kundan Thota, Xuanhao Mu, Thorsten Schlachter + 1 more2026-02-24🤖 cs.AI

The Invisible Gorilla Effect in Out-of-distribution Detection

Este artículo identifica y denomina "Efecto del Gorila Invisible" a un sesgo previamente no reportado en la detección de datos fuera de distribución, donde el rendimiento de los modelos mejora significativamente cuando los artefactos difíciles de detectar comparten similitud visual con la región de interés del modelo, pero cae drásticamente cuando difieren, como se demostró mediante la evaluación de 40 métodos en múltiples conjuntos de datos y contrafactuales de color.

Harry Anthony, Ziyun Liang, Hermione Warr + 1 more2026-02-24🤖 cs.LG

SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

El artículo presenta SemanticNVS, un modelo de difusión multi-vista condicionado por la cámara que integra extractores de características semánticas preentrenados para mejorar significativamente la calidad y consistencia de la síntesis de vistas novedosas, especialmente en movimientos de cámara a larga distancia donde los métodos existentes suelen fallar.

Xinya Chen, Christopher Wewer, Jiahao Xie + 2 more2026-02-24💻 cs

Do Large Language Models Understand Data Visualization Principles?

Este artículo presenta la primera evaluación sistemática de modelos de lenguaje y visión-langaje para verificar y corregir principios de visualización de datos, revelando que, aunque son prometedores como validadores flexibles, presentan una asimetría donde son más eficaces corrigiendo errores que detectándolos, y aún muestran una brecha frente a los solucionadores simbólicos en aspectos perceptivos sutiles.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs

Transcending the Annotation Bottleneck: AI-Powered Discovery in Biology and Medicine

Este artículo sintetiza cómo el aprendizaje no supervisado y auto-supervisado está superando la dependencia de la anotación experta en biomedicina, permitiendo el descubrimiento de nuevos fenotipos y la detección de anomalías en grandes conjuntos de datos biológicos con un rendimiento que rivaliza o supera a los métodos supervisados tradicionales.

Soumick Chatterjee2026-02-24⚡ eess

← Anterior Siguiente →