cs.CV artículos | Gist.Science

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Este estudio presenta COMPASS, un gemelo digital temporal impulsado por IA que utiliza datos de imágenes y dosimetría por fracción para modelar la evolución biológica individual de pacientes con cáncer de pulmón y predecir toxicidades antes de que se manifiesten clínicamente, sentando las bases para una radioterapia adaptativa personalizada.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

El sistema MARVUS utiliza realidad aumentada móvil y modelos de fundación para habilitar una reconstrucción volumétrica de ultrasonido precisa, reproducible y de bajo costo en dispositivos estándar, mejorando significativamente la estimación de volúmenes de lesiones y reduciendo la variabilidad entre usuarios en comparación con los métodos tradicionales.

Kian Wei Ng, Yujia Gao, Deborah Khoo + 7 more2026-02-24💻 cs

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Este estudio de benchmark demuestra que combinar el reequilibrio de datos con métodos de desentrelazamiento de características es la estrategia más efectiva para mitigar el aprendizaje de atajos en imágenes médicas, mejorando la robustez de los modelos sin comprometer su eficiencia computacional.

Sarah Müller, Philipp Berens2026-02-24🤖 cs.LG

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Este artículo presenta un marco de visión por computadora basado en una sola cámara que utiliza YOLO y ByteTrack para extraer datos de seguimiento de jugadores y árbitros de transmisiones de fútbol estándar, democratizando así el análisis táctico avanzado para equipos con presupuestos limitados, aunque la detección del balón sigue siendo un desafío.

Daniel Tshiani2026-02-24🤖 cs.AI

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Este artículo propone un nuevo marco de análisis basado en la restauración que utiliza Autoencoders Escasos para demostrar que la mayoría de los métodos actuales de olvido máquina solo suprimen la información en la salida sin eliminarla realmente a nivel de representación, lo que revela riesgos de seguridad ignorados por las métricas tradicionales y subraya la necesidad de nuevos criterios de evaluación.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Este estudio presenta un nuevo modelo estocástico continuo que cuantifica el comportamiento visual exploratorio en el fútbol mediante datos de pose mejorados, superando las limitaciones de los métodos tradicionales y demostrando que estas métricas visuales predicen el éxito en el juego, todo ello integrado en un marco analítico abierto y sin necesidad de anotación manual.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

El marco Sketch2Feedback mejora la fiabilidad de la retroalimentación sobre diagramas STEM mediante un enfoque de "gramática en el bucle" que combina percepción híbrida y verificación de reglas para reducir las alucinaciones de los modelos de lenguaje multimodal, logrando un equilibrio superior entre precisión y utilidad pedagógica en comparación con los métodos end-to-end.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Este estudio evalúa la capacidad de las métricas generativas para predecir el rendimiento de YOLOv11 en tareas de detección de objetos, demostrando que la utilidad de la augmentación sintética y la correlación de dichas métricas dependen críticamente de la complejidad del conjunto de datos y del régimen de entrenamiento, siendo más efectiva en escenarios desafiantes como la detección de peatones y plantas en macetas.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

El artículo presenta JAEGER, un marco que supera las limitaciones de los modelos de lenguaje visuales-auditivos actuales al extenderlos al espacio 3D mediante la integración de observaciones RGB-D y audio ambisónico multicanal, junto con una nueva representación llamada vector de intensidad neuronal y el benchmark SpatialSceneQA, para lograr un razonamiento y una localización espacial robustos en entornos físicos simulados.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Este estudio compara diez arquitecturas de aprendizaje profundo para clasificar cinco variedades de aceitunas negras nativas de Turquía, demostrando que la eficiencia paramétrica es más crucial que la profundidad del modelo bajo condiciones de datos limitados, con EfficientNetV2-S logrando la mayor precisión y EfficientNetB0 ofreciendo el mejor equilibrio entre rendimiento y complejidad computacional.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

El artículo presenta VLANeXt, un modelo VLA optimizado que, tras un análisis sistemático de 12 hallazgos clave bajo un marco unificado, supera a los métodos anteriores en benchmarks y experimentos del mundo real, ofreciendo además un código abierto para facilitar la investigación futura en este campo.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Este trabajo demuestra que la presión morfológica, ya sea mediante descriptores de rasgos o patrones fonológicos en los prompts, crea gradientes navegables en los espacios latentes de modelos de difusión texto-a-imagen que permiten definir identidades visuales consistentes sin necesidad de datos de entrenamiento específicos.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Este estudio demuestra que los modelos generativos de vanguardia utilizados en la reconstrucción de imágenes por resonancia magnética son altamente vulnerables a pequeñas perturbaciones adversarias que inducen alucinaciones peligrosas para el diagnóstico, las cuales no pueden ser detectadas mediante métricas de calidad tradicionales.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

El artículo presenta Rodent-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje multimodal grandes (MLLM) en la anotación de comportamientos de roedores, revelando que los modelos más avanzados actuales aún no son lo suficientemente precisos para esta tarea científica debido a limitaciones en la segmentación temporal y el manejo de secuencias de video prolongadas.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Este estudio presenta un enfoque innovador basado en una red neuronal 4D-UNet que mejora la filtración de ruido y la detección de microburbujas en la ecografía transcraneal con contraste en humanos, superando las limitaciones tradicionales para permitir una mejor visualización vascular cerebral.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

El artículo presenta GIST, un método de selección de datos para el ajuste fino de instrucciones que supera las limitaciones de los enfoques basados en estadísticas del optimizador al alinear los gradientes de entrenamiento con un subespacio de baja dimensión derivado de gradientes de validación, logrando un rendimiento superior con una fracción mínima de almacenamiento y tiempo computacional.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Este artículo presenta el conjunto de datos FloralSix y evalúa diversas arquitecturas YOLO para el reconocimiento de flores, demostrando que la elección del modelo y la densidad de anotación (objetos aislados frente a agrupados) son factores críticos para optimizar la precisión en aplicaciones agrícolas como el monitoreo de cultivos y la polinización robótica.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Este trabajo presenta DM4CT, un benchmark integral que evalúa y compara diez métodos basados en modelos de difusión frente a siete enfoques establecidos para la reconstrucción de tomografía computarizada, abordando desafíos prácticos como el ruido correlacionado y validando los resultados con un nuevo conjunto de datos de alta resolución obtenido en una instalación de sincrotrón.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudio demuestra que el uso de tamaños de parche más pequeños (1, 2 y 4) durante el ajuste fino de Vision Transformers mejora significativamente el rendimiento en la clasificación de imágenes médicas tanto bidimensionales como tridimensionales, superando a los parches grandes y ofreciendo resultados aún mejores mediante una estrategia de ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Este trabajo presenta un enfoque novedoso para generar rostros parlantes realistas a partir de una imagen estática, un perfil de voz y un texto objetivo, utilizando un espacio latente multi-entrelazado que sincroniza las características espacio-temporales específicas de la persona para sintetizar simultáneamente el audio y el video.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

← Anterior Siguiente →