cs.CV artículos | Gist.Science

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

El artículo presenta MedVAR, el primer modelo fundacional autoregresivo que utiliza la predicción de la siguiente escala para generar imágenes médicas de alta fidelidad y escalables mediante un enfoque de lo grueso a lo fino, respaldado por un conjunto de datos armonizado de 440.000 imágenes.

Zhicheng He, Yunpeng Zhao, Junde Wu + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Este estudio presenta un nuevo conjunto de datos público para la detección de la madurez de fresas, evaluando comparativamente modelos YOLO (v8, v9 y 11) para demostrar que las arquitecturas de tamaño pequeño y mediano ofrecen un rendimiento equilibrado y eficiente en aplicaciones de agricultura inteligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Este estudio revela que los modelos de visión-linguaje (VLM) carecen de una capacidad de localización espacial precisa para elementos visuales no textuales, ya que su rendimiento colapsa drásticamente al identificar cuadrados llenos en comparación con símbolos de texto, lo que demuestra que dependen de una vía de reconocimiento de texto para realizar razonamiento espacial.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

ReMoRa es un modelo de lenguaje multimodal grande que mejora la comprensión de videos largos al procesar representaciones comprimidas que combinan fotogramas clave RGB con una representación de movimiento refinada y desruidada, logrando una complejidad lineal y superando a los métodos existentes en diversos benchmarks.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

El artículo presenta StructCore, un método de detección de anomalías no supervisado y sin entrenamiento que mejora la puntuación a nivel de imagen mediante descriptores estructurales y calibración de Mahalanobis, superando las limitaciones del *max pooling* y logrando un rendimiento excepcional en conjuntos de datos como MVTec AD y VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

El artículo presenta GraphThinker, un método de ajuste fino basado en refuerzo que reduce las alucinaciones en el razonamiento de video mediante la construcción de grafos de escenas basados en eventos para modelar relaciones causales y la incorporación de una recompensa de atención visual para mejorar la fundamentación visual.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

El artículo presenta DesignAsCode, un marco innovador que reformula la generación de diseños gráficos como una tarea de síntesis programática mediante HTML/CSS, utilizando un pipeline de planificación, implementación y reflexión para lograr un equilibrio superior entre la fidelidad visual y la editabilidad estructural en comparación con los enfoques existentes.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

El artículo presenta BLM-Guard, un marco de moderación multimodal explicable para anuncios de videos cortos que combina razonamiento de cadena de pensamiento, principios de políticas basados en reglas y recompensas guiadas por críticos para detectar manipulaciones visuales y discursivas con mayor precisión y generalización que los métodos existentes.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Este estudio presenta una réplica fiel de FedTPG que valida su capacidad para mejorar la generalización en modelos visión-idioma mediante la generación dinámica de prompts en entornos federados, logrando resultados consistentes con los del artículo original en seis conjuntos de datos diversos.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Este estudio presenta COMPASS, un gemelo digital temporal impulsado por IA que utiliza datos de imágenes y dosimetría por fracción para modelar la evolución biológica individual de pacientes con cáncer de pulmón y predecir toxicidades antes de que se manifiesten clínicamente, sentando las bases para una radioterapia adaptativa personalizada.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

El sistema MARVUS utiliza realidad aumentada móvil y modelos de fundación para habilitar una reconstrucción volumétrica de ultrasonido precisa, reproducible y de bajo costo en dispositivos estándar, mejorando significativamente la estimación de volúmenes de lesiones y reduciendo la variabilidad entre usuarios en comparación con los métodos tradicionales.

Kian Wei Ng, Yujia Gao, Deborah Khoo + 7 more2026-02-24💻 cs

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Este estudio de benchmark demuestra que combinar el reequilibrio de datos con métodos de desentrelazamiento de características es la estrategia más efectiva para mitigar el aprendizaje de atajos en imágenes médicas, mejorando la robustez de los modelos sin comprometer su eficiencia computacional.

Sarah Müller, Philipp Berens2026-02-24🤖 cs.LG

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Este artículo presenta un marco de visión por computadora basado en una sola cámara que utiliza YOLO y ByteTrack para extraer datos de seguimiento de jugadores y árbitros de transmisiones de fútbol estándar, democratizando así el análisis táctico avanzado para equipos con presupuestos limitados, aunque la detección del balón sigue siendo un desafío.

Daniel Tshiani2026-02-24🤖 cs.AI

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Este artículo propone un nuevo marco de análisis basado en la restauración que utiliza Autoencoders Escasos para demostrar que la mayoría de los métodos actuales de olvido máquina solo suprimen la información en la salida sin eliminarla realmente a nivel de representación, lo que revela riesgos de seguridad ignorados por las métricas tradicionales y subraya la necesidad de nuevos criterios de evaluación.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Este estudio presenta un nuevo modelo estocástico continuo que cuantifica el comportamiento visual exploratorio en el fútbol mediante datos de pose mejorados, superando las limitaciones de los métodos tradicionales y demostrando que estas métricas visuales predicen el éxito en el juego, todo ello integrado en un marco analítico abierto y sin necesidad de anotación manual.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

El marco Sketch2Feedback mejora la fiabilidad de la retroalimentación sobre diagramas STEM mediante un enfoque de "gramática en el bucle" que combina percepción híbrida y verificación de reglas para reducir las alucinaciones de los modelos de lenguaje multimodal, logrando un equilibrio superior entre precisión y utilidad pedagógica en comparación con los métodos end-to-end.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Este estudio evalúa la capacidad de las métricas generativas para predecir el rendimiento de YOLOv11 en tareas de detección de objetos, demostrando que la utilidad de la augmentación sintética y la correlación de dichas métricas dependen críticamente de la complejidad del conjunto de datos y del régimen de entrenamiento, siendo más efectiva en escenarios desafiantes como la detección de peatones y plantas en macetas.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

El artículo presenta JAEGER, un marco que supera las limitaciones de los modelos de lenguaje visuales-auditivos actuales al extenderlos al espacio 3D mediante la integración de observaciones RGB-D y audio ambisónico multicanal, junto con una nueva representación llamada vector de intensidad neuronal y el benchmark SpatialSceneQA, para lograr un razonamiento y una localización espacial robustos en entornos físicos simulados.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Este estudio compara diez arquitecturas de aprendizaje profundo para clasificar cinco variedades de aceitunas negras nativas de Turquía, demostrando que la eficiencia paramétrica es más crucial que la profundidad del modelo bajo condiciones de datos limitados, con EfficientNetV2-S logrando la mayor precisión y EfficientNetB0 ofreciendo el mejor equilibrio entre rendimiento y complejidad computacional.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

El artículo presenta VLANeXt, un modelo VLA optimizado que, tras un análisis sistemático de 12 hallazgos clave bajo un marco unificado, supera a los métodos anteriores en benchmarks y experimentos del mundo real, ofreciendo además un código abierto para facilitar la investigación futura en este campo.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

← Anterior Siguiente →