A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Este estudio presenta un nuevo conjunto de datos público para la detección de la madurez de fresas, evaluando comparativamente modelos YOLO (v8, v9 y 11) para demostrar que las arquitecturas de tamaño pequeño y mediano ofrecen un rendimiento equilibrado y eficiente en aplicaciones de agricultura inteligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Este estudio revela que los modelos de visión-linguaje (VLM) carecen de una capacidad de localización espacial precisa para elementos visuales no textuales, ya que su rendimiento colapsa drásticamente al identificar cuadrados llenos en comparación con símbolos de texto, lo que demuestra que dependen de una vía de reconocimiento de texto para realizar razonamiento espacial.

Yuval Levental2026-02-24🤖 cs.LG

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

El artículo presenta StructCore, un método de detección de anomalías no supervisado y sin entrenamiento que mejora la puntuación a nivel de imagen mediante descriptores estructurales y calibración de Mahalanobis, superando las limitaciones del *max pooling* y logrando un rendimiento excepcional en conjuntos de datos como MVTec AD y VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

El artículo presenta DesignAsCode, un marco innovador que reformula la generación de diseños gráficos como una tarea de síntesis programática mediante HTML/CSS, utilizando un pipeline de planificación, implementación y reflexión para lograr un equilibrio superior entre la fidelidad visual y la editabilidad estructural en comparación con los enfoques existentes.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

El artículo presenta BLM-Guard, un marco de moderación multimodal explicable para anuncios de videos cortos que combina razonamiento de cadena de pensamiento, principios de políticas basados en reglas y recompensas guiadas por críticos para detectar manipulaciones visuales y discursivas con mayor precisión y generalización que los métodos existentes.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Este estudio presenta COMPASS, un gemelo digital temporal impulsado por IA que utiliza datos de imágenes y dosimetría por fracción para modelar la evolución biológica individual de pacientes con cáncer de pulmón y predecir toxicidades antes de que se manifiesten clínicamente, sentando las bases para una radioterapia adaptativa personalizada.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Este artículo propone un nuevo marco de análisis basado en la restauración que utiliza Autoencoders Escasos para demostrar que la mayoría de los métodos actuales de olvido máquina solo suprimen la información en la salida sin eliminarla realmente a nivel de representación, lo que revela riesgos de seguridad ignorados por las métricas tradicionales y subraya la necesidad de nuevos criterios de evaluación.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Este estudio presenta un nuevo modelo estocástico continuo que cuantifica el comportamiento visual exploratorio en el fútbol mediante datos de pose mejorados, superando las limitaciones de los métodos tradicionales y demostrando que estas métricas visuales predicen el éxito en el juego, todo ello integrado en un marco analítico abierto y sin necesidad de anotación manual.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

El marco Sketch2Feedback mejora la fiabilidad de la retroalimentación sobre diagramas STEM mediante un enfoque de "gramática en el bucle" que combina percepción híbrida y verificación de reglas para reducir las alucinaciones de los modelos de lenguaje multimodal, logrando un equilibrio superior entre precisión y utilidad pedagógica en comparación con los métodos end-to-end.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Este estudio evalúa la capacidad de las métricas generativas para predecir el rendimiento de YOLOv11 en tareas de detección de objetos, demostrando que la utilidad de la augmentación sintética y la correlación de dichas métricas dependen críticamente de la complejidad del conjunto de datos y del régimen de entrenamiento, siendo más efectiva en escenarios desafiantes como la detección de peatones y plantas en macetas.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

El artículo presenta JAEGER, un marco que supera las limitaciones de los modelos de lenguaje visuales-auditivos actuales al extenderlos al espacio 3D mediante la integración de observaciones RGB-D y audio ambisónico multicanal, junto con una nueva representación llamada vector de intensidad neuronal y el benchmark SpatialSceneQA, para lograr un razonamiento y una localización espacial robustos en entornos físicos simulados.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Este estudio compara diez arquitecturas de aprendizaje profundo para clasificar cinco variedades de aceitunas negras nativas de Turquía, demostrando que la eficiencia paramétrica es más crucial que la profundidad del modelo bajo condiciones de datos limitados, con EfficientNetV2-S logrando la mayor precisión y EfficientNetB0 ofreciendo el mejor equilibrio entre rendimiento y complejidad computacional.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs